Spaces:

Rayugacodes
/

KernelX

Sleeping

Rayugacodes commited on 24 days ago

Commit

278a0ec

verified ·

1 Parent(s): beef760

Fix: batch_size=4 so num_generations=4 divides evenly

Files changed (1) hide show

train_on_hf.py CHANGED Viewed

@@ -299,8 +299,8 @@ def train_strategist(data_dir: Path, max_samples: int = 10000):
     grpo_config = GRPOConfig(
         output_dir="./strategist_grpo",
         num_train_epochs=1,
-        per_device_train_batch_size=2,
-        gradient_accumulation_steps=8,
         learning_rate=5e-6,
         num_generations=4,
         max_completion_length=16,

     grpo_config = GRPOConfig(
         output_dir="./strategist_grpo",
         num_train_epochs=1,
+        per_device_train_batch_size=4,
+        gradient_accumulation_steps=4,
         learning_rate=5e-6,
         num_generations=4,
         max_completion_length=16,