PlasmidGPT-GRPO

PlasmidGPT-GRPO is a GRPO-trained causal language model for plasmid/DNA sequence generation.

This update refreshes the weights (model.safetensors) and streamlines the documentation.

Weights

model.safetensors (updated)
All tokenizer/config files remain unchanged.

Training Run

Weights and metrics: https://wandb.ai/ucl-cssb/PlasmidRL/runs/ty13u43j/overview

Usage

Install:

pip install torch transformers safetensors

Load and generate:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "UCL-CSSB/PlasmidGPT-GRPO"
tok = AutoTokenizer.from_pretrained(model_id)
if tok.pad_token is None:
    tok.pad_token = tok.eos_token
model = AutoModelForCausalLM.from_pretrained(model_id)

inputs = tok(["ATG"], return_tensors="pt")
out = model.generate(
    **inputs,
    max_new_tokens=128,
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
    pad_token_id=tok.eos_token_id,
    eos_token_id=tok.eos_token_id,
)
print(tok.decode(out[0], skip_special_tokens=True))

Notes:

Use sampling (temperature/top_p) for diverse sequences; disable for deterministic output.
Runs on CPU, CUDA, or Apple MPS depending on your PyTorch install.