ligaments-dev
/

grpo-training-scripts

ligaments-dev commited on Dec 10, 2025

Commit

8a1d274

verified ·

1 Parent(s): d21a432

Upload grpo_training.py with huggingface_hub

Files changed (1) hide show

grpo_training.py CHANGED Viewed

@@ -33,7 +33,7 @@ config = GRPOConfig(
     output_dir=output_model,
     num_train_epochs=3,
     per_device_train_batch_size=1,
-    per_device_eval_batch_size=1,
     gradient_accumulation_steps=8,  # Effective batch size = 8
     learning_rate=1e-6,

     output_dir=output_model,
     num_train_epochs=3,
     per_device_train_batch_size=1,
+    per_device_eval_batch_size=8,  # Must be divisible by num_generations (default 8)
     gradient_accumulation_steps=8,  # Effective batch size = 8
     learning_rate=1e-6,