Spaces:

openenv-community
/

test-local-nested-envs

Running on T4

Claude commited on 3 days ago

Commit

b1d7ca2

unverified ·

1 Parent(s): d831d96

Reduce training defaults for fast iteration: steps=10, episodes=7

- steps: 50→10, episodes: 20→7 for faster training runs
- eval-episodes: 30→5, example-customers: 10→3 for faster reports
- Fix hardcoded num_episodes=50 post-training eval to use --episodes flag

https://claude.ai/code/session_01DPirJ78YYN4fJUvUFJ5D6V

Files changed (1) hide show

layer1/train.py +5 -5

layer1/train.py CHANGED Viewed

@@ -117,7 +117,7 @@ def run_train(args):
     print(best_prompt)
     # Evaluate the trained prompt
-    result = evaluator.evaluate_prompt(best_prompt, num_episodes=50)
     print(f"\nEvaluation: mean_reward={result['mean_reward']:.1f}")
     if args.report:
@@ -158,8 +158,8 @@ def main():
         default="mock",
         help="Training mode: train (GPU), mock (CPU), eval (single prompt)",
     )
-    parser.add_argument("--episodes", type=int, default=20, help="Episodes per evaluation")
-    parser.add_argument("--steps", type=int, default=50, help="GRPO training steps (train mode)")
     parser.add_argument("--output", type=str, default=None, help="Save results to JSON")
     parser.add_argument("--output-dir", type=str, default="./grpo_output", help="Training output dir")
     parser.add_argument("--hf-token", type=str, default=None, help="HuggingFace API token")
@@ -174,9 +174,9 @@ def main():
                         help="Directory for report output")
     parser.add_argument("--log-dir", type=str, default="./logs",
                         help="Directory for training logs")
-    parser.add_argument("--eval-episodes", type=int, default=30,
                         help="Episodes per checkpoint for report evaluation")
-    parser.add_argument("--example-customers", type=int, default=10,
                         help="Number of example customers in report")
     args = parser.parse_args()

     print(best_prompt)
     # Evaluate the trained prompt
+    result = evaluator.evaluate_prompt(best_prompt, num_episodes=args.episodes)
     print(f"\nEvaluation: mean_reward={result['mean_reward']:.1f}")
     if args.report:
         default="mock",
         help="Training mode: train (GPU), mock (CPU), eval (single prompt)",
     )
+    parser.add_argument("--episodes", type=int, default=7, help="Episodes per evaluation")
+    parser.add_argument("--steps", type=int, default=10, help="GRPO training steps (train mode)")
     parser.add_argument("--output", type=str, default=None, help="Save results to JSON")
     parser.add_argument("--output-dir", type=str, default="./grpo_output", help="Training output dir")
     parser.add_argument("--hf-token", type=str, default=None, help="HuggingFace API token")
                         help="Directory for report output")
     parser.add_argument("--log-dir", type=str, default="./logs",
                         help="Directory for training logs")
+    parser.add_argument("--eval-episodes", type=int, default=5,
                         help="Episodes per checkpoint for report evaluation")
+    parser.add_argument("--example-customers", type=int, default=3,
                         help="Number of example customers in report")
     args = parser.parse_args()