lamm-mit
/

GPTProteinPretrained

Text Generation

text-generation-inference

Model card Files Files and versions

mjbuehler commited on Dec 4, 2023

Commit

66fbbc6

·

1 Parent(s): 0bb3e26

Update README.md

Files changed (1) hide show

README.md +7 -3

README.md CHANGED Viewed

@@ -3,6 +3,8 @@
 This model is a pretrained autoregressive transformer model in GPT-style, trained on a large number of protein sequences.
 Load pretrained model:
 ```python
@@ -26,7 +28,9 @@ model.config.use_cache = False
 Sample inference using the "Sequence<...>" task, where here, the model will simply autocomplete the sequence starting with "AIIAA":
 ```python
-prompt = "Sequence<AIIAA"
 generated = torch.tensor(tokenizer.encode(prompt, add_special_tokens = False)) .unsqueeze(0).to(device)
 print(generated.shape, generated)
@@ -35,9 +39,9 @@ sample_outputs = model.generate(
                                 eos_token_id =tokenizer.eos_token_id,
                                 do_sample=True,
                                 top_k=500,
-                                max_length = 300,
                                 top_p=0.9,
-                                num_return_sequences=3,
                                 temperature=1,
                                 ).to(device)

 This model is a pretrained autoregressive transformer model in GPT-style, trained on a large number of protein sequences.
+Dataset: https://huggingface.co/datasets/lamm-mit/GPTProteinPretrained
 Load pretrained model:
 ```python
 Sample inference using the "Sequence<...>" task, where here, the model will simply autocomplete the sequence starting with "AIIAA":
 ```python
+import torch
+device='cuda'
+prompt = "Sequence<ETAVPKLLQAL"
 generated = torch.tensor(tokenizer.encode(prompt, add_special_tokens = False)) .unsqueeze(0).to(device)
 print(generated.shape, generated)
                                 eos_token_id =tokenizer.eos_token_id,
                                 do_sample=True,
                                 top_k=500,
+                                max_length = 1024,
                                 top_p=0.9,
+                                num_return_sequences=6,
                                 temperature=1,
                                 ).to(device)