SaeedLab
/

SeqScreen-Finetuning

Feature Extraction

Model card Files Files and versions

gabrielbianchin commited on 12 days ago

Commit

a319e89

·

1 Parent(s): d0de36b

update readme

Files changed (1) hide show

README.md +33 -9

README.md CHANGED Viewed

@@ -50,35 +50,59 @@ from peft import PeftModel
 import torch
 # proteins: ESM2 + LoRA adapter
-tokenizer_prot = AutoTokenizer.from_pretrained('facebook/esm2_t36_3B_UR50D')
 backbone = AutoModel.from_pretrained(
-    'facebook/esm2_t36_3B_UR50D',
-    torch_dtype=torch.bfloat16
 )
-backbone = PeftModel.from_pretrained(backbone, 'SaeedLab/SeqScreen-lora').eval()
 proteins = ["MKTFFVLLL", "ACDEFGHIKLM"]
-inputs_prot = tokenizer_prot(proteins, return_tensors="pt", padding=True)
 with torch.no_grad():
     hidden = backbone(**inputs_prot).last_hidden_state
     mask = inputs_prot['attention_mask'].unsqueeze(-1).float()
     prot_emb = (hidden * mask).sum(1) / mask.sum(1).clamp(min=1e-8)
 # molecules
-tokenizer_mol = AutoTokenizer.from_pretrained('SaeedLab/MolDeBERTa-base-123M-mlc')
-encoder_mol = AutoModel.from_pretrained('SaeedLab/MolDeBERTa-base-123M-mlc').eval()
 molecules = ["NCCc1nc(-c2ccccc2)cs1", "CC(=O)OCC(C)C"]
-inputs_mol = tokenizer_mol(molecules, return_tensors="pt", padding=True)
 with torch.no_grad():
     hidden = encoder_mol(**inputs_mol).last_hidden_state
     mask = inputs_mol['attention_mask'].unsqueeze(-1).float()
     mol_emb = (hidden * mask).sum(1) / mask.sum(1).clamp(min=1e-8)
 # seqscreen
-seqscreen = AutoModel.from_pretrained('SaeedLab/SeqScreen-Finetuning', trust_remote_code=True).eval()
 with torch.no_grad():
     outputs = seqscreen(prot=prot_emb, mol=mol_emb)

 import torch
 # proteins: ESM2 + LoRA adapter
+tokenizer_prot = AutoTokenizer.from_pretrained(
+  'facebook/esm2_t36_3B_UR50D'
+)
 backbone = AutoModel.from_pretrained(
+  'facebook/esm2_t36_3B_UR50D',
+  torch_dtype=torch.bfloat16
 )
+backbone = PeftModel.from_pretrained(
+  backbone,
+  'SaeedLab/SeqScreen-lora'
+).eval()
 proteins = ["MKTFFVLLL", "ACDEFGHIKLM"]
+inputs_prot = tokenizer_prot(
+  proteins,
+  return_tensors="pt",
+  padding=True
+)
 with torch.no_grad():
     hidden = backbone(**inputs_prot).last_hidden_state
     mask = inputs_prot['attention_mask'].unsqueeze(-1).float()
     prot_emb = (hidden * mask).sum(1) / mask.sum(1).clamp(min=1e-8)
 # molecules
+tokenizer_mol = AutoTokenizer.from_pretrained(
+  'SaeedLab/MolDeBERTa-base-123M-mlc'
+)
+encoder_mol = AutoModel.from_pretrained(
+  'SaeedLab/MolDeBERTa-base-123M-mlc'
+).eval()
 molecules = ["NCCc1nc(-c2ccccc2)cs1", "CC(=O)OCC(C)C"]
+inputs_mol = tokenizer_mol(
+  molecules,
+  return_tensors="pt",
+  padding=True
+)
 with torch.no_grad():
     hidden = encoder_mol(**inputs_mol).last_hidden_state
     mask = inputs_mol['attention_mask'].unsqueeze(-1).float()
     mol_emb = (hidden * mask).sum(1) / mask.sum(1).clamp(min=1e-8)
 # seqscreen
+seqscreen = AutoModel.from_pretrained(
+  'SaeedLab/SeqScreen-Finetuning',
+  trust_remote_code=True
+).eval()
 with torch.no_grad():
     outputs = seqscreen(prot=prot_emb, mol=mol_emb)