SaeedLab
/

SeqScreen-Frozen

Feature Extraction

Model card Files Files and versions

gabrielbianchin commited on 12 days ago

Commit

887e87e

·

1 Parent(s): 13ec48b

update readme

Files changed (1) hide show

README.md +30 -7

README.md CHANGED Viewed

@@ -43,12 +43,21 @@ from transformers import AutoTokenizer, AutoModel
 import torch
 # proteins
-tokenizer_prot = AutoTokenizer.from_pretrained('facebook/esm2_t36_3B_UR50D')
-encoder_prot = AutoModel.from_pretrained('facebook/esm2_t36_3B_UR50D').eval()
 proteins = ["MKTFFVLLL", "ABCDE"]
 proteins = [" ".join(i) for i in proteins]
-inputs_prot = tokenizer_prot(proteins, return_tensors="pt", padding=True)
 with torch.no_grad():
   outputs = encoder_prot(**inputs_prot)
@@ -56,12 +65,22 @@ with torch.no_grad():
   mask = inputs_prot['attention_mask'].unsqueeze(-1).float()
   prot_rep = (hidden * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1e-8)
 # molecules
-tokenizer_mol = AutoTokenizer.from_pretrained('SaeedLab/MolDeBERTa-base-123M-mlc')
-encoder_mol = AutoModel.from_pretrained('SaeedLab/MolDeBERTa-base-123M-mlc').eval()
 molecules = ["NCCc1nc(-c2ccccc2)cs1", "CC(=O)OCC(C)C"]
-inputs_mol = tokenizer_mol(molecules, return_tensors="pt", padding=True)
 with torch.no_grad():
   outputs = encoder_mol(**inputs_mol)
@@ -69,8 +88,12 @@ with torch.no_grad():
   mask = inputs_mol['attention_mask'].unsqueeze(-1).float()
   mol_rep = (hidden * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1e-8)
 # seqscreen
-seqscreen = AutoModel.from_pretrained('SaeedLab/SeqScreen-Frozen', trust_remote_code=True).eval()
 with torch.no_grad():
   outputs = seqscreen(prot=prot_rep, mol=mol_rep)

 import torch
 # proteins
+tokenizer_prot = AutoTokenizer.from_pretrained(
+  'facebook/esm2_t36_3B_UR50D'
+)
+encoder_prot = AutoModel.from_pretrained(
+  'facebook/esm2_t36_3B_UR50D'
+).eval()
 proteins = ["MKTFFVLLL", "ABCDE"]
 proteins = [" ".join(i) for i in proteins]
+inputs_prot = tokenizer_prot(
+  proteins,
+  return_tensors="pt",
+  padding=True
+)
 with torch.no_grad():
   outputs = encoder_prot(**inputs_prot)
   mask = inputs_prot['attention_mask'].unsqueeze(-1).float()
   prot_rep = (hidden * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1e-8)
 # molecules
+tokenizer_mol = AutoTokenizer.from_pretrained(
+  'SaeedLab/MolDeBERTa-base-123M-mlc'
+)
+encoder_mol = AutoModel.from_pretrained(
+  'SaeedLab/MolDeBERTa-base-123M-mlc'
+).eval()
 molecules = ["NCCc1nc(-c2ccccc2)cs1", "CC(=O)OCC(C)C"]
+inputs_mol = tokenizer_mol(
+  molecules,
+  return_tensors="pt",
+  padding=True
+)
 with torch.no_grad():
   outputs = encoder_mol(**inputs_mol)
   mask = inputs_mol['attention_mask'].unsqueeze(-1).float()
   mol_rep = (hidden * mask).sum(dim=1) / mask.sum(dim=1).clamp(min=1e-8)
 # seqscreen
+seqscreen = AutoModel.from_pretrained(
+  'SaeedLab/SeqScreen-Frozen',
+  trust_remote_code=True
+).eval()
 with torch.no_grad():
   outputs = seqscreen(prot=prot_rep, mol=mol_rep)