Spaces:

wangjin2000
/

ESM2PPI

Paused

wangjin2000 commited on Sep 20, 2024

Commit

aa0a8ad

verified ·

1 Parent(s): a9f4b7f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -156,8 +156,10 @@ def generate_peptide_for_single_sequence(model, tokenizer, protein_seq, peptide_
     num_binders = int(num_binders)
     binders_with_ppl = []
     for _ in range(num_binders):
         # Generate binder
         masked_peptide = '<mask>' * peptide_length
         input_sequence = protein_seq + masked_peptide
@@ -167,18 +169,21 @@ def generate_peptide_for_single_sequence(model, tokenizer, protein_seq, peptide_
             logits = model(**inputs).logits
         mask_token_indices = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero(as_tuple=True)[1]
         logits_at_masks = logits[0, mask_token_indices]
         # Apply top-k sampling
         top_k_logits, top_k_indices = logits_at_masks.topk(top_k, dim=-1)
         probabilities = torch.nn.functional.softmax(top_k_logits, dim=-1)
         predicted_indices = Categorical(probabilities).sample()
         predicted_token_ids = top_k_indices.gather(-1, predicted_indices.unsqueeze(-1)).squeeze(-1)
         generated_binder = tokenizer.decode(predicted_token_ids, skip_special_tokens=True).replace(' ', '')
         # Compute PPL for the generated binder
         ppl_value = compute_pseudo_perplexity(model, tokenizer, protein_seq, generated_binder)
         # Add the generated binder and its PPL to the results list
         binders_with_ppl.append([generated_binder, ppl_value])

     num_binders = int(num_binders)
     binders_with_ppl = []
+    n = 0
     for _ in range(num_binders):
+        n += 1
+        print("n in num_binders:", n)
         # Generate binder
         masked_peptide = '<mask>' * peptide_length
         input_sequence = protein_seq + masked_peptide
             logits = model(**inputs).logits
         mask_token_indices = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero(as_tuple=True)[1]
         logits_at_masks = logits[0, mask_token_indices]
+        print("mask_token_indices 170:",mask_token_indices)
         # Apply top-k sampling
         top_k_logits, top_k_indices = logits_at_masks.topk(top_k, dim=-1)
         probabilities = torch.nn.functional.softmax(top_k_logits, dim=-1)
         predicted_indices = Categorical(probabilities).sample()
         predicted_token_ids = top_k_indices.gather(-1, predicted_indices.unsqueeze(-1)).squeeze(-1)
+        print("predicted_token_ids 177:",predicted_token_ids)
         generated_binder = tokenizer.decode(predicted_token_ids, skip_special_tokens=True).replace(' ', '')
         # Compute PPL for the generated binder
         ppl_value = compute_pseudo_perplexity(model, tokenizer, protein_seq, generated_binder)
+        print("ppl_value:", ppl_value)
         # Add the generated binder and its PPL to the results list
         binders_with_ppl.append([generated_binder, ppl_value])