lfs upload

Browse files

Files changed (5) hide show

embeddings/binding/data-00000-of-00001.arrow +3 -0
embeddings/fast_embedding_generation.py +113 -0
embeddings/hemolysis/data-00000-of-00001.arrow +3 -0
embeddings/permeability/data-00000-of-00001.arrow +3 -0
embeddings/solubility/data-00000-of-00001.arrow +3 -0

embeddings/binding/data-00000-of-00001.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9b08ce28b452e9767dfc7c60bd6285421bdc6b791150a5f55158da89c7bda4f
+size 15746448

embeddings/fast_embedding_generation.py ADDED Viewed

	@@ -0,0 +1,113 @@

+import pandas as pd
+import numpy as np
+import torch
+from transformers import AutoModelForMaskedLM
+from datasets import Dataset
+import sys
+from tqdm import tqdm
+from tokenizer.my_tokenizers import SMILES_SPE_Tokenizer
+# Configuration
+MAX_LENGTH = 768
+BATCH_SIZE = 128  # Adjust based on your GPU memory
+# Setup device
+if torch.cuda.is_available():
+    device = torch.device('cuda:6')
+    print(f"Using device: {device}")
+else:
+    device = torch.device('cpu')
+    print(f"CUDA not available. Using device: {device}")
+    print("To use GPU, reinstall PyTorch with CUDA support:")
+# Load tokenizer and model
+print("Loading tokenizer and model...")
+tokenizer = SMILES_SPE_Tokenizer(
+    '/scratch/pranamlab/sophtang/home/scoring/PeptideCLM/tokenizer/new_vocab.txt',
+    '/scratch/pranamlab/sophtang/home/scoring/PeptideCLM/tokenizer/new_splits.txt'
+)
+embedding_model = AutoModelForMaskedLM.from_pretrained('aaronfeller/PeptideCLM-23M-all').roformer
+embedding_model.to(device)
+embedding_model.eval()
+# Load CSV file
+print("Loading CSV file...")
+csv_path = "/scratch/pranamlab/sophtang/home/scoring/functions/nonfouling/combined_nonfouling.csv"
+df = pd.read_csv(csv_path)
+sequences = df['SMILES'].tolist()
+labels = df['LABEL'].tolist()
+print(f"Total sequences: {len(sequences)}")
+print(f"First sequence: {sequences[0]}")
+# Filter sequences by length (faster - no tokenization)
+print("Filtering sequences by length...")
+valid_data = []
+for seq, label in zip(sequences, labels):
+    if not isinstance(seq, str):
+        continue
+    # Quick pre-filter: tokenize once to check length
+    tokenized = tokenizer(seq, return_tensors='pt', max_length=MAX_LENGTH, truncation=True)
+    if tokenized['input_ids'].shape[1] <= MAX_LENGTH:
+        valid_data.append((seq, label))
+filtered_sequences = [item[0] for item in valid_data]
+filtered_labels = [item[1] for item in valid_data]
+print(f"Filtered sequences: {len(filtered_sequences)}")
+# Generate embeddings in batches
+print("Generating embeddings...")
+def generate_embeddings_batched(sequences, batch_size=BATCH_SIZE):
+    embeddings = []
+    for i in tqdm(range(0, len(sequences), batch_size), desc="Processing batches"):
+        batch_sequences = sequences[i:i + batch_size]
+        # Tokenize batch
+        tokenized = tokenizer(
+            batch_sequences,
+            return_tensors='pt',
+            padding=True,
+            max_length=MAX_LENGTH,
+            truncation=True
+        )
+        # Move to device
+        input_ids = tokenized['input_ids'].to(device)
+        attention_mask = tokenized['attention_mask'].to(device)
+        # Generate embeddings
+        with torch.no_grad():
+            outputs = embedding_model(input_ids=input_ids, attention_mask=attention_mask)
+            last_hidden_state = outputs.last_hidden_state
+            # Mean pooling with attention mask
+            mask_expanded = attention_mask.unsqueeze(-1).expand(last_hidden_state.size()).float()
+            sum_embeddings = torch.sum(last_hidden_state * mask_expanded, dim=1)
+            sum_mask = torch.clamp(mask_expanded.sum(dim=1), min=1e-9)
+            batch_embeddings = (sum_embeddings / sum_mask).cpu().numpy()
+        embeddings.append(batch_embeddings)
+    return np.vstack(embeddings)
+embeddings = generate_embeddings_batched(filtered_sequences)
+print(f"Embeddings shape: {embeddings.shape}")
+# Create and save dataset
+print("Creating dataset...")
+data = {
+    "sequence": filtered_sequences,
+    "labels": filtered_labels,
+    "embedding": embeddings
+}
+dataset = Dataset.from_dict(data)
+output_path = '/scratch/pranamlab/sophtang/home/scoring/data/nonfouling'
+print(f"Saving dataset to {output_path}...")
+dataset.save_to_disk(output_path)
+print(f"✓ Dataset saved successfully!")
+print(f"  Total samples: {len(dataset)}")
+print(f"  Embedding dimension: {embeddings.shape[1]}")

embeddings/hemolysis/data-00000-of-00001.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bef85bc99bc3c81c99fe290c0b2ef6b0d43f50c0089c59be7bf24219dd428d05
+size 20965576

embeddings/permeability/data-00000-of-00001.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82e749eafb2e903ef2dc47255dbe4e489e6db8055b3ba6af4c876d9b1a0f1b38
+size 22250496

embeddings/solubility/data-00000-of-00001.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36ac428037f8d09d1f45fcd6a61517428c4409638d63230b3ff1d375bdd0e5cb
+size 106655176