Spaces:

heavycoderhh
/

counsel-env

Running

heavycoderhh commited on Apr 26

Commit

2cc2ea0

verified ·

1 Parent(s): 49d3a8d

Fix run3 generation settings

Files changed (1) hide show

scripts/run_sft_grpo_training_job.py CHANGED Viewed

@@ -48,7 +48,7 @@ SFT_EPOCHS = float(os.getenv("COUNSEL_SFT_EPOCHS", "1"))
 SFT_LEARNING_RATE = float(os.getenv("COUNSEL_SFT_LEARNING_RATE", "1e-5"))
 MAX_STEPS = int(os.getenv("COUNSEL_MAX_STEPS", "500"))
 GRPO_DATASET_SIZE = int(os.getenv("COUNSEL_DATASET_SIZE", "320"))
-NUM_GENERATIONS = int(os.getenv("COUNSEL_NUM_GENERATIONS", "6"))
 MAX_COMPLETION_LENGTH = int(os.getenv("COUNSEL_MAX_COMPLETION_LENGTH", "256"))
 GRPO_LEARNING_RATE = float(os.getenv("COUNSEL_LEARNING_RATE", "3e-6"))
 EVIDENCE_PRESSURE = float(os.getenv("COUNSEL_EVIDENCE_PRESSURE", "2.0"))

 SFT_LEARNING_RATE = float(os.getenv("COUNSEL_SFT_LEARNING_RATE", "1e-5"))
 MAX_STEPS = int(os.getenv("COUNSEL_MAX_STEPS", "500"))
 GRPO_DATASET_SIZE = int(os.getenv("COUNSEL_DATASET_SIZE", "320"))
+NUM_GENERATIONS = int(os.getenv("COUNSEL_NUM_GENERATIONS", "4"))
 MAX_COMPLETION_LENGTH = int(os.getenv("COUNSEL_MAX_COMPLETION_LENGTH", "256"))
 GRPO_LEARNING_RATE = float(os.getenv("COUNSEL_LEARNING_RATE", "3e-6"))
 EVIDENCE_PRESSURE = float(os.getenv("COUNSEL_EVIDENCE_PRESSURE", "2.0"))