Spaces:

md896
/

sql-debug-env

Running

md896 commited on 15 days ago

Commit

af54ccd

1 Parent(s): e5262a1

Fix GRPO batch/generation mismatch: auto-adjust num_generations; set launcher default to 2.

Files changed (2) hide show

launch_job.py CHANGED Viewed

@@ -18,7 +18,7 @@ Environment (optional):
   TRAIN_REPO_GIT_URL, OPENENV_BASE_URL
   TRAIN_MAX_STEPS      default: 80 (faster run; raise for stronger fit)
   ROWS_PER_TASK        default: 32
-  GRPO_NUM_GENERATIONS default: 6
   SKIP_HUB_PUSH        default: 0
 """
 from __future__ import annotations
@@ -33,7 +33,7 @@ _REPO_URL = os.environ.get("TRAIN_REPO_GIT_URL", _DEFAULT_REPO)
 _OPENENV = os.environ.get("OPENENV_BASE_URL", "https://md896-sql-debug-env.hf.space")
 _MAX_STEPS = os.environ.get("TRAIN_MAX_STEPS", "80")
 _ROWS = os.environ.get("ROWS_PER_TASK", "32")
-_NUM_GEN = os.environ.get("GRPO_NUM_GENERATIONS", "6")
 _SKIP_PUSH = os.environ.get("SKIP_HUB_PUSH", "0")
 _TIMEOUT = os.environ.get("HF_JOB_TIMEOUT", "8h")
 # l4x1: newer GPU, good for Unsloth; use HF_JOB_FLAVOR=t4-small if queue or cost is better for you

   TRAIN_REPO_GIT_URL, OPENENV_BASE_URL
   TRAIN_MAX_STEPS      default: 80 (faster run; raise for stronger fit)
   ROWS_PER_TASK        default: 32
+  GRPO_NUM_GENERATIONS default: 2
   SKIP_HUB_PUSH        default: 0
 """
 from __future__ import annotations
 _OPENENV = os.environ.get("OPENENV_BASE_URL", "https://md896-sql-debug-env.hf.space")
 _MAX_STEPS = os.environ.get("TRAIN_MAX_STEPS", "80")
 _ROWS = os.environ.get("ROWS_PER_TASK", "32")
+_NUM_GEN = os.environ.get("GRPO_NUM_GENERATIONS", "2")
 _SKIP_PUSH = os.environ.get("SKIP_HUB_PUSH", "0")
 _TIMEOUT = os.environ.get("HF_JOB_TIMEOUT", "8h")
 # l4x1: newer GPU, good for Unsloth; use HF_JOB_FLAVOR=t4-small if queue or cost is better for you

ultimate_sota_training.py CHANGED Viewed

@@ -394,12 +394,26 @@ def run_sota_train():
     if report_to == "tensorboard":
         _ensure_dir(tb_dir)
     _cfg: Dict[str, Any] = dict(
         output_dir=out_dir,
         learning_rate=float(os.environ.get("TRAIN_LR", "5e-6")),
-        per_device_train_batch_size=int(os.environ.get("PER_DEVICE_TRAIN_BS", "1")),
-        gradient_accumulation_steps=int(os.environ.get("GRAD_ACCUM", "2")),
-        num_generations=int(os.environ.get("GRPO_NUM_GENERATIONS", "8")),
         max_completion_length=int(os.environ.get("GRPO_MAX_COMPLETION_LEN", "256")),
         temperature=float(os.environ.get("GRPO_TEMPERATURE", "0.9")),
         num_train_epochs=int(os.environ.get("TRAIN_NUM_EPOCHS", "1")),

     if report_to == "tensorboard":
         _ensure_dir(tb_dir)
+    per_device_bs = int(os.environ.get("PER_DEVICE_TRAIN_BS", "1"))
+    grad_accum = int(os.environ.get("GRAD_ACCUM", "2"))
+    requested_num_gen = int(os.environ.get("GRPO_NUM_GENERATIONS", "8"))
+    effective_bs = max(1, per_device_bs * grad_accum)
+    if effective_bs % requested_num_gen != 0:
+        valid = [d for d in range(2, effective_bs + 1) if effective_bs % d == 0]
+        num_gen = valid[-1] if valid else 2
+        print(
+            f"Adjusting GRPO_NUM_GENERATIONS from {requested_num_gen} to {num_gen} "
+            f"for effective batch size {effective_bs}."
+        )
+    else:
+        num_gen = requested_num_gen
     _cfg: Dict[str, Any] = dict(
         output_dir=out_dir,
         learning_rate=float(os.environ.get("TRAIN_LR", "5e-6")),
+        per_device_train_batch_size=per_device_bs,
+        gradient_accumulation_steps=grad_accum,
+        num_generations=num_gen,
         max_completion_length=int(os.environ.get("GRPO_MAX_COMPLETION_LEN", "256")),
         temperature=float(os.environ.get("GRPO_TEMPERATURE", "0.9")),
         num_train_epochs=int(os.environ.get("TRAIN_NUM_EPOCHS", "1")),