# PlasmidGPT-GRPO

PlasmidGPT-GRPO is a GRPO-trained causal language model for plasmid/DNA sequence generation.

This update refreshes the weights (model.safetensors) and streamlines the documentation.

## Weights
- `model.safetensors` (updated)
- All tokenizer/config files remain unchanged.

## Training Run
- Weights and metrics: https://wandb.ai/ucl-cssb/PlasmidRL/runs/ty13u43j/overview

## Usage
Install:
```
pip install torch transformers safetensors
```

Load and generate:
```
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "UCL-CSSB/PlasmidGPT-GRPO"
tok = AutoTokenizer.from_pretrained(model_id)
if tok.pad_token is None:
    tok.pad_token = tok.eos_token
model = AutoModelForCausalLM.from_pretrained(model_id)

inputs = tok(["ATG"], return_tensors="pt")
out = model.generate(
    **inputs,
    max_new_tokens=128,
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
    pad_token_id=tok.eos_token_id,
    eos_token_id=tok.eos_token_id,
)
print(tok.decode(out[0], skip_special_tokens=True))
```

Notes:
- Use sampling (temperature/top_p) for diverse sequences; disable for deterministic output.
- Runs on CPU, CUDA, or Apple MPS depending on your PyTorch install.