Spaces:

wangjin2000
/

ESM2PPI

Paused

wangjin2000 commited on Oct 30, 2024

Commit

2d9177f

verified ·

1 Parent(s): df08bd2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -42,7 +42,6 @@ class ProteinDataset(Dataset):
         self.tokenizer = tokenizer
         self.proteins = data["Receptor Sequence"].tolist()
         self.peptides = data["Binder"].tolist()
-        print("44 self.peptides:",self.peptides)
         #self.proteins = data["P_Sequence"].tolist()  #header defined by Lin Qiao
         #self.peptides = data["p_Sequence"].tolist()
         self.max_length_pm = 500 + 2 + peptide_length  #assume the maz length of protein is 500
@@ -56,7 +55,6 @@ class ProteinDataset(Dataset):
         masked_peptide = '<mask>' * len(peptide_seq)
         complex_seq = protein_seq + masked_peptide
-        print("58 complex_seq:",complex_seq)
         # Tokenize and pad the complex sequence
         complex_input = self.tokenizer(complex_seq, return_tensors="pt", padding="max_length", max_length = self.max_length_pm, truncation=True)
@@ -69,7 +67,7 @@ class ProteinDataset(Dataset):
         # Set non-masked positions in the labels tensor to -100
         labels = torch.where(input_ids == self.tokenizer.mask_token_id, labels, -100)
-        print("71 idx,input_ids:", idx, input_ids)
         return {"input_ids": input_ids, "attention_mask": attention_mask, "labels": labels}
 # fine-tuning function

         self.tokenizer = tokenizer
         self.proteins = data["Receptor Sequence"].tolist()
         self.peptides = data["Binder"].tolist()
         #self.proteins = data["P_Sequence"].tolist()  #header defined by Lin Qiao
         #self.peptides = data["p_Sequence"].tolist()
         self.max_length_pm = 500 + 2 + peptide_length  #assume the maz length of protein is 500
         masked_peptide = '<mask>' * len(peptide_seq)
         complex_seq = protein_seq + masked_peptide
         # Tokenize and pad the complex sequence
         complex_input = self.tokenizer(complex_seq, return_tensors="pt", padding="max_length", max_length = self.max_length_pm, truncation=True)
         # Set non-masked positions in the labels tensor to -100
         labels = torch.where(input_ids == self.tokenizer.mask_token_id, labels, -100)
         return {"input_ids": input_ids, "attention_mask": attention_mask, "labels": labels}
 # fine-tuning function