thejaminator
/

1e5_lr_prompt_32-step-60

verl GRPO trained model at step 60

5de68a1 verified 7 months ago

104 Bytes

base_model: Qwen/Qwen3-8B
library_name: peft
tags:
  - lora
  - peft
pipeline_tag: text-generation