Spaces:

wangjin2000
/

ESM2PPI

Paused

App Files Files Community

wangjin2000 commited on Oct 30, 2024

Commit

fb8afd6

verified ·

1 Parent(s): 7753a80

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -33

app.py CHANGED Viewed

@@ -228,43 +228,22 @@ def predict_peptide_from_file(base_model_path, finetuned_model_path, file_obj, p
     for i, row in input.iterrows():
         seq = row['Receptor Sequence']
-        print("231, seq:", seq)
-        results.append([seq])
-    '''
-            binders = generate_peptide_for_single_sequence(loaded_model, tokenizer, seq, peptide_length, top_k, num_binders)
-            for binder, ppl in binders:
-                results.append([seq, binder, ppl])
-        results_df = pd.DataFrame(results, columns=['Input Sequence', 'Binder', 'Pseudo Perplexity'])
-    eval_dataset = ProteinDataset(file_obj, tokenizer, peptide_length)
-    print("eval_dataset_input_ids",eval_dataset[2]['input_ids'])
-    #input_seqs = eval_dataset["input_ids"]
-    #print("line 228 - input_seqs:",input_seqs)
-    if isinstance(input_seqs, str):  # Single sequence
-        binders = generate_peptide_for_single_sequence(loaded_model, tokenizer, input_seqs, peptide_length, top_k, num_binders)
-        results_df = pd.DataFrame(binders, columns=['Binder', 'Pseudo Perplexity'])
-    elif isinstance(input_seqs, list):  # List of sequences
-        results = []
-        for seq in input_seqs:
-            binders = generate_peptide_for_single_sequence(loaded_model, tokenizer, seq, peptide_length, top_k, num_binders)
-            for binder, ppl in binders:
-                results.append([seq, binder, ppl])
-        results_df = pd.DataFrame(results, columns=['Input Sequence', 'Binder', 'Pseudo Perplexity'])
     print(results_df)
-    #combine target protein and predicted peptide with 20 G amino acids.
-    separator = 'G' * 20
-    peptide_lp = results_df['Binder'][results_df['Pseudo Perplexity'].idxmin()] #Choosing the one with the lowest perplexity
-    print("lowest perplesity:", peptide_lp)
-    PPC = input_seqs + separator +  peptide_lp
-    print("Protein+peptide:", PPC)
-    return results_df, PPC
-    '''
-    return results, file_obj
 def suggest(option):
     if option == "Protein:P63279":

     for i, row in input.iterrows():
         seq = row['Receptor Sequence']
+        binders = generate_peptide_for_single_sequence(loaded_model, tokenizer, seq, peptide_length, top_k, num_binders)
+        for binder, ppl in binders:
+            results.append([seq, binder, ppl])
+    results_df = pd.DataFrame(results, columns=['Input Sequence', 'Binder', 'Pseudo Perplexity'])
     print(results_df)
+    outpath = (
+        Path.cwd() / "predicted_peptides.csv"
+    )
+    logging.info(f"Saving predicted_seq_file to:\t{outpath}")
+    results_df.to_csv(outpath,header=True, index=False)
+    return output, outpath
 def suggest(option):
     if option == "Protein:P63279":