Upload FirstAttack checkpoint envstep_70000.pth.tar

Browse files

Files changed (5) hide show

README.md +22 -0
checkpoints/envstep_70000.pth.tar +3 -0
metadata/checkpoint_index.yaml +2186 -0
metadata/total_config.py +257 -0
metadata/upload_manifest.json +15 -0

README.md ADDED Viewed

	@@ -0,0 +1,22 @@

+---
+library_name: pytorch
+tags:
+- efficientzero
+- muzero
+- board-game
+- combinatorial-reasoning
+- crpt
+---
+# FirstAttack-CK
+Latest exported EfficientZero checkpoint for `simplified__first_attack` from the simplified-five CRPT training runs.
+- Checkpoint: `checkpoints/envstep_70000.pth.tar`
+- Source path: `/workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/envstep_70000.pth.tar`
+- Source attempt directory: `/workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543`
+- W&B project: `crpt-simplified5-constant-lr-continuation`
+- W&B run: `constant_lr_20260519__simplified__first_attack__a01`
+- Uploaded at: `2026-05-19T15:04:12Z`
+Companion metadata is stored under `metadata/`, including the resolved LightZero config when available.

checkpoints/envstep_70000.pth.tar ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2f36645173aafec9555502a284e9be2f2e2c4df8703d2c8031a09735e36f932
+size 108123787

metadata/checkpoint_index.yaml ADDED Viewed

	@@ -0,0 +1,2186 @@

+checkpoints:
+  ckpt_best.pth.tar:
+    checkpoint_name: ckpt_best.pth.tar
+    checkpoint_path: /workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/ckpt_best.pth.tar
+    saved_at: '2026-05-19T09:54:18.856840+00:00'
+    train_iter: 496
+    envstep: 5018
+    trigger: null
+    latest_scalars:
+      evaluator_iter/episode_count:
+        value: 10
+        step: 496
+        walltime: null
+      evaluator_step/episode_count:
+        value: 10
+        step: 5018
+        walltime: null
+      evaluator_iter/envstep_count:
+        value: 30
+        step: 496
+        walltime: null
+      evaluator_step/envstep_count:
+        value: 30
+        step: 5018
+        walltime: null
+      evaluator_iter/avg_envstep_per_episode:
+        value: 3.0
+        step: 496
+        walltime: null
+      evaluator_step/avg_envstep_per_episode:
+        value: 3.0
+        step: 5018
+        walltime: null
+      evaluator_iter/evaluate_time:
+        value: 2.766915771484375
+        step: 496
+        walltime: null
+      evaluator_step/evaluate_time:
+        value: 2.766915771484375
+        step: 5018
+        walltime: null
+      evaluator_iter/avg_envstep_per_sec:
+        value: 10.842397267447652
+        step: 496
+        walltime: null
+      evaluator_step/avg_envstep_per_sec:
+        value: 10.842397267447652
+        step: 5018
+        walltime: null
+      evaluator_iter/avg_time_per_episode:
+        value: 3.614132422482551
+        step: 496
+        walltime: null
+      evaluator_step/avg_time_per_episode:
+        value: 3.614132422482551
+        step: 5018
+        walltime: null
+      evaluator_iter/reward_mean:
+        value: 1.0
+        step: 496
+        walltime: null
+      evaluator_step/reward_mean:
+        value: 1.0
+        step: 5018
+        walltime: null
+      evaluator_iter/reward_std:
+        value: 0.0
+        step: 496
+        walltime: null
+      evaluator_step/reward_std:
+        value: 0.0
+        step: 5018
+        walltime: null
+      evaluator_iter/reward_max:
+        value: 1.0
+        step: 496
+        walltime: null
+      evaluator_step/reward_max:
+        value: 1.0
+        step: 5018
+        walltime: null
+      evaluator_iter/reward_min:
+        value: 1.0
+        step: 496
+        walltime: null
+      evaluator_step/reward_min:
+        value: 1.0
+        step: 5018
+        walltime: null
+      Buffer/Task_0/num_collected_episodes:
+        value: 1016
+        step: 496
+        walltime: null
+      Buffer/Task_0/num_game_segments:
+        value: 1016
+        step: 496
+        walltime: null
+      Buffer/Task_0/num_transitions:
+        value: 5018
+        step: 496
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/game_segment_buffer:
+        value: 4.832954406738281
+        step: 496
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/process:
+        value: 2043.26171875
+        step: 496
+        walltime: null
+      learner_iter/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 400
+        walltime: null
+      learner_step/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 4098
+        walltime: null
+      learner_iter/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 400
+        walltime: null
+      learner_step/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 4098
+        walltime: null
+      learner_iter/weighted_total_loss_avg:
+        value: 1.5632856217297642
+        step: 400
+        walltime: null
+      learner_step/weighted_total_loss_avg:
+        value: 1.5632856217297642
+        step: 4098
+        walltime: null
+      learner_iter/total_loss_avg:
+        value: 1.5632856217297642
+        step: 400
+        walltime: null
+      learner_step/total_loss_avg:
+        value: 1.5632856217297642
+        step: 4098
+        walltime: null
+      learner_iter/policy_loss_avg:
+        value: 4.736617175015536
+        step: 400
+        walltime: null
+      learner_step/policy_loss_avg:
+        value: 4.736617175015536
+        step: 4098
+        walltime: null
+      learner_iter/policy_entropy_avg:
+        value: 1.7712429798010623
+        step: 400
+        walltime: null
+      learner_step/policy_entropy_avg:
+        value: 1.7712429798010623
+        step: 4098
+        walltime: null
+      learner_iter/target_policy_entropy_avg:
+        value: 1.3918844136324795
+        step: 400
+        walltime: null
+      learner_step/target_policy_entropy_avg:
+        value: 1.3918844136324795
+        step: 4098
+        walltime: null
+      learner_iter/value_prefix_loss_avg:
+        value: 2.92797606641596
+        step: 400
+        walltime: null
+      learner_step/value_prefix_loss_avg:
+        value: 2.92797606641596
+        step: 4098
+        walltime: null
+      learner_iter/value_loss_avg:
+        value: 2.9029295444488525
+        step: 400
+        walltime: null
+      learner_step/value_loss_avg:
+        value: 2.9029295444488525
+        step: 4098
+        walltime: null
+      learner_iter/consistency_loss_avg:
+        value: -0.6827039935372092
+        step: 400
+        walltime: null
+      learner_step/consistency_loss_avg:
+        value: -0.6827039935372092
+        step: 4098
+        walltime: null
+      learner_iter/value_priority_avg:
+        value: 0.2535270005464554
+        step: 400
+        walltime: null
+      learner_step/value_priority_avg:
+        value: 0.2535270005464554
+        step: 4098
+        walltime: null
+      learner_iter/target_value_prefix_avg:
+        value: 0.6656013456257907
+        step: 400
+        walltime: null
+      learner_step/target_value_prefix_avg:
+        value: 0.6656013456257907
+        step: 4098
+        walltime: null
+      learner_iter/target_value_avg:
+        value: 0.02758049304512414
+        step: 400
+        walltime: null
+      learner_step/target_value_avg:
+        value: 0.02758049304512414
+        step: 4098
+        walltime: null
+      learner_iter/predicted_value_prefixs_avg:
+        value: 0.6718856367197904
+        step: 400
+        walltime: null
+      learner_step/predicted_value_prefixs_avg:
+        value: 0.6718856367197904
+        step: 4098
+        walltime: null
+      learner_iter/predicted_values_avg:
+        value: 0.01786879792978818
+        step: 400
+        walltime: null
+      learner_step/predicted_values_avg:
+        value: 0.01786879792978818
+        step: 4098
+        walltime: null
+      learner_iter/transformed_target_value_prefix_avg:
+        value: 0.2763666700233113
+        step: 400
+        walltime: null
+      learner_step/transformed_target_value_prefix_avg:
+        value: 0.2763666700233113
+        step: 4098
+        walltime: null
+      learner_iter/transformed_target_value_avg:
+        value: 0.011451793665235693
+        step: 400
+        walltime: null
+      learner_step/transformed_target_value_avg:
+        value: 0.011451793665235693
+        step: 4098
+        walltime: null
+      learner_iter/total_grad_norm_before_clip_avg:
+        value: 2.54057898033749
+        step: 400
+        walltime: null
+      learner_step/total_grad_norm_before_clip_avg:
+        value: 2.54057898033749
+        step: 4098
+        walltime: null
+      collector_iter/episode_count:
+        value: 200
+        step: 400
+        walltime: null
+      collector_step/episode_count:
+        value: 200
+        step: 4098
+        walltime: null
+      collector_iter/envstep_count:
+        value: 985
+        step: 400
+        walltime: null
+      collector_step/envstep_count:
+        value: 985
+        step: 4098
+        walltime: null
+      collector_iter/avg_envstep_per_episode:
+        value: 4.925
+        step: 400
+        walltime: null
+      collector_step/avg_envstep_per_episode:
+        value: 4.925
+        step: 4098
+        walltime: null
+      collector_iter/avg_envstep_per_sec:
+        value: 11.373479111602059
+        step: 400
+        walltime: null
+      collector_step/avg_envstep_per_sec:
+        value: 11.373479111602059
+        step: 4098
+        walltime: null
+      collector_iter/avg_episode_per_sec:
+        value: 2.3093358602237686
+        step: 400
+        walltime: null
+      collector_step/avg_episode_per_sec:
+        value: 2.3093358602237686
+        step: 4098
+        walltime: null
+      collector_iter/collect_time:
+        value: 86.60498606756167
+        step: 400
+        walltime: null
+      collector_step/collect_time:
+        value: 86.60498606756167
+        step: 4098
+        walltime: null
+      collector_iter/reward_mean:
+        value: 1.0
+        step: 400
+        walltime: null
+      collector_step/reward_mean:
+        value: 1.0
+        step: 4098
+        walltime: null
+      collector_iter/reward_std:
+        value: 0.0
+        step: 400
+        walltime: null
+      collector_step/reward_std:
+        value: 0.0
+        step: 4098
+        walltime: null
+      collector_iter/reward_max:
+        value: 1.0
+        step: 400
+        walltime: null
+      collector_step/reward_max:
+        value: 1.0
+        step: 4098
+        walltime: null
+      collector_iter/reward_min:
+        value: 1.0
+        step: 400
+        walltime: null
+      collector_step/reward_min:
+        value: 1.0
+        step: 4098
+        walltime: null
+      collector_iter/total_envstep_count:
+        value: 4098
+        step: 400
+        walltime: null
+      collector_step/total_envstep_count:
+        value: 4098
+        step: 4098
+        walltime: null
+      collector_iter/total_episode_count:
+        value: 828
+        step: 400
+        walltime: null
+      collector_step/total_episode_count:
+        value: 828
+        step: 4098
+        walltime: null
+      collector_iter/total_duration:
+        value: 9723.866266854113
+        step: 400
+        walltime: null
+      collector_step/total_duration:
+        value: 9723.866266854113
+        step: 4098
+        walltime: null
+      collector_iter/visit_entropy_mean:
+        value: 1.1180463468347202
+        step: 400
+        walltime: null
+      collector_step/visit_entropy_mean:
+        value: 1.1180463468347202
+        step: 4098
+        walltime: null
+  envstep_50000.pth.tar:
+    checkpoint_name: envstep_50000.pth.tar
+    checkpoint_path: /workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/envstep_50000.pth.tar
+    saved_at: '2026-05-19T13:10:59.906420+00:00'
+    train_iter: 5050
+    envstep: 50000
+    trigger: envstep
+    latest_scalars:
+      evaluator_iter/episode_count:
+        value: 10
+        step: 4544
+        walltime: null
+      evaluator_step/episode_count:
+        value: 10
+        step: 45002
+        walltime: null
+      evaluator_iter/envstep_count:
+        value: 27
+        step: 4544
+        walltime: null
+      evaluator_step/envstep_count:
+        value: 27
+        step: 45002
+        walltime: null
+      evaluator_iter/avg_envstep_per_episode:
+        value: 2.7
+        step: 4544
+        walltime: null
+      evaluator_step/avg_envstep_per_episode:
+        value: 2.7
+        step: 45002
+        walltime: null
+      evaluator_iter/evaluate_time:
+        value: 0.5984893798828125
+        step: 4544
+        walltime: null
+      evaluator_step/evaluate_time:
+        value: 0.5984893798828125
+        step: 45002
+        walltime: null
+      evaluator_iter/avg_envstep_per_sec:
+        value: 45.113582475409586
+        step: 4544
+        walltime: null
+      evaluator_step/avg_envstep_per_sec:
+        value: 45.113582475409586
+        step: 45002
+        walltime: null
+      evaluator_iter/avg_time_per_episode:
+        value: 16.7087342501517
+        step: 4544
+        walltime: null
+      evaluator_step/avg_time_per_episode:
+        value: 16.7087342501517
+        step: 45002
+        walltime: null
+      evaluator_iter/reward_mean:
+        value: 0.4
+        step: 4544
+        walltime: null
+      evaluator_step/reward_mean:
+        value: 0.4
+        step: 45002
+        walltime: null
+      evaluator_iter/reward_std:
+        value: 0.9165151389911679
+        step: 4544
+        walltime: null
+      evaluator_step/reward_std:
+        value: 0.9165151389911679
+        step: 45002
+        walltime: null
+      evaluator_iter/reward_max:
+        value: 1.0
+        step: 4544
+        walltime: null
+      evaluator_step/reward_max:
+        value: 1.0
+        step: 45002
+        walltime: null
+      evaluator_iter/reward_min:
+        value: -1.0
+        step: 4544
+        walltime: null
+      evaluator_step/reward_min:
+        value: -1.0
+        step: 45002
+        walltime: null
+      Buffer/Task_0/num_collected_episodes:
+        value: 10124
+        step: 5050
+        walltime: null
+      Buffer/Task_0/num_game_segments:
+        value: 10124
+        step: 5050
+        walltime: null
+      Buffer/Task_0/num_transitions:
+        value: 49994
+        step: 5050
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/game_segment_buffer:
+        value: 48.12529754638672
+        step: 5050
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/process:
+        value: 2092.62109375
+        step: 5050
+        walltime: null
+      learner_iter/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 5000
+        walltime: null
+      learner_step/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 49518
+        walltime: null
+      learner_iter/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 5000
+        walltime: null
+      learner_step/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 49518
+        walltime: null
+      learner_iter/weighted_total_loss_avg:
+        value: 1.7651414546099575
+        step: 5000
+        walltime: null
+      learner_step/weighted_total_loss_avg:
+        value: 1.7651414546099575
+        step: 49518
+        walltime: null
+      learner_iter/total_loss_avg:
+        value: 1.7651414546099575
+        step: 5000
+        walltime: null
+      learner_step/total_loss_avg:
+        value: 1.7651414546099575
+        step: 49518
+        walltime: null
+      learner_iter/policy_loss_avg:
+        value: 4.930113272233442
+        step: 5000
+        walltime: null
+      learner_step/policy_loss_avg:
+        value: 4.930113272233442
+        step: 49518
+        walltime: null
+      learner_iter/policy_entropy_avg:
+        value: 1.839398933179451
+        step: 5000
+        walltime: null
+      learner_step/policy_entropy_avg:
+        value: 1.839398933179451
+        step: 49518
+        walltime: null
+      learner_iter/target_policy_entropy_avg:
+        value: 1.4404258294539016
+        step: 5000
+        walltime: null
+      learner_step/target_policy_entropy_avg:
+        value: 1.4404258294539016
+        step: 49518
+        walltime: null
+      learner_iter/value_prefix_loss_avg:
+        value: 2.920419129458341
+        step: 5000
+        walltime: null
+      learner_step/value_prefix_loss_avg:
+        value: 2.920419129458341
+        step: 49518
+        walltime: null
+      learner_iter/value_loss_avg:
+        value: 2.864912444894964
+        step: 5000
+        walltime: null
+      learner_step/value_loss_avg:
+        value: 2.864912444894964
+        step: 49518
+        walltime: null
+      learner_iter/consistency_loss_avg:
+        value: -0.6801619052886962
+        step: 5000
+        walltime: null
+      learner_step/consistency_loss_avg:
+        value: -0.6801619052886962
+        step: 49518
+        walltime: null
+      learner_iter/value_priority_avg:
+        value: 0.2628427621993152
+        step: 5000
+        walltime: null
+      learner_step/value_priority_avg:
+        value: 0.2628427621993152
+        step: 49518
+        walltime: null
+      learner_iter/target_value_prefix_avg:
+        value: 0.6663115837357261
+        step: 5000
+        walltime: null
+      learner_step/target_value_prefix_avg:
+        value: 0.6663115837357261
+        step: 49518
+        walltime: null
+      learner_iter/target_value_avg:
+        value: 0.03586647862737829
+        step: 5000
+        walltime: null
+      learner_step/target_value_avg:
+        value: 0.03586647862737829
+        step: 49518
+        walltime: null
+      learner_iter/predicted_value_prefixs_avg:
+        value: 0.668508296663111
+        step: 5000
+        walltime: null
+      learner_step/predicted_value_prefixs_avg:
+        value: 0.668508296663111
+        step: 49518
+        walltime: null
+      learner_iter/predicted_values_avg:
+        value: 0.03528098355640064
+        step: 5000
+        walltime: null
+      learner_step/predicted_values_avg:
+        value: 0.03528098355640064
+        step: 49518
+        walltime: null
+      learner_iter/transformed_target_value_prefix_avg:
+        value: 0.2766615640033375
+        step: 5000
+        walltime: null
+      learner_step/transformed_target_value_prefix_avg:
+        value: 0.2766615640033375
+        step: 49518
+        walltime: null
+      learner_iter/transformed_target_value_avg:
+        value: 0.014892246489497747
+        step: 5000
+        walltime: null
+      learner_step/transformed_target_value_avg:
+        value: 0.014892246489497747
+        step: 49518
+        walltime: null
+      learner_iter/total_grad_norm_before_clip_avg:
+        value: 4.187030717730522
+        step: 5000
+        walltime: null
+      learner_step/total_grad_norm_before_clip_avg:
+        value: 4.187030717730522
+        step: 49518
+        walltime: null
+      collector_iter/episode_count:
+        value: 200
+        step: 5000
+        walltime: null
+      collector_step/episode_count:
+        value: 200
+        step: 49518
+        walltime: null
+      collector_iter/envstep_count:
+        value: 986
+        step: 5000
+        walltime: null
+      collector_step/envstep_count:
+        value: 986
+        step: 49518
+        walltime: null
+      collector_iter/avg_envstep_per_episode:
+        value: 4.93
+        step: 5000
+        walltime: null
+      collector_step/avg_envstep_per_episode:
+        value: 4.93
+        step: 49518
+        walltime: null
+      collector_iter/avg_envstep_per_sec:
+        value: 12.096509257006582
+        step: 5000
+        walltime: null
+      collector_step/avg_envstep_per_sec:
+        value: 12.096509257006582
+        step: 49518
+        walltime: null
+      collector_iter/avg_episode_per_sec:
+        value: 2.453652993307623
+        step: 5000
+        walltime: null
+      collector_step/avg_episode_per_sec:
+        value: 2.453652993307623
+        step: 49518
+        walltime: null
+      collector_iter/collect_time:
+        value: 81.51111854263954
+        step: 5000
+        walltime: null
+      collector_step/collect_time:
+        value: 81.51111854263954
+        step: 49518
+        walltime: null
+      collector_iter/reward_mean:
+        value: 1.0
+        step: 5000
+        walltime: null
+      collector_step/reward_mean:
+        value: 1.0
+        step: 49518
+        walltime: null
+      collector_iter/reward_std:
+        value: 0.0
+        step: 5000
+        walltime: null
+      collector_step/reward_std:
+        value: 0.0
+        step: 49518
+        walltime: null
+      collector_iter/reward_max:
+        value: 1.0
+        step: 5000
+        walltime: null
+      collector_step/reward_max:
+        value: 1.0
+        step: 49518
+        walltime: null
+      collector_iter/reward_min:
+        value: 1.0
+        step: 5000
+        walltime: null
+      collector_step/reward_min:
+        value: 1.0
+        step: 49518
+        walltime: null
+      collector_iter/total_envstep_count:
+        value: 49518
+        step: 5000
+        walltime: null
+      collector_step/total_envstep_count:
+        value: 49518
+        step: 49518
+        walltime: null
+      collector_iter/total_episode_count:
+        value: 10028
+        step: 5000
+        walltime: null
+      collector_step/total_episode_count:
+        value: 10028
+        step: 49518
+        walltime: null
+      collector_iter/total_duration:
+        value: 106945.62145317174
+        step: 5000
+        walltime: null
+      collector_step/total_duration:
+        value: 106945.62145317174
+        step: 49518
+        walltime: null
+      collector_iter/visit_entropy_mean:
+        value: 1.412281816542291
+        step: 5000
+        walltime: null
+      collector_step/visit_entropy_mean:
+        value: 1.412281816542291
+        step: 49518
+        walltime: null
+  envstep_55000.pth.tar:
+    checkpoint_name: envstep_55000.pth.tar
+    checkpoint_path: /workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/envstep_55000.pth.tar
+    saved_at: '2026-05-19T13:34:59.497817+00:00'
+    train_iter: 5558
+    envstep: 55000
+    trigger: envstep
+    latest_scalars:
+      evaluator_iter/episode_count:
+        value: 10
+        step: 5052
+        walltime: null
+      evaluator_step/episode_count:
+        value: 10
+        step: 50014
+        walltime: null
+      evaluator_iter/envstep_count:
+        value: 26
+        step: 5052
+        walltime: null
+      evaluator_step/envstep_count:
+        value: 26
+        step: 50014
+        walltime: null
+      evaluator_iter/avg_envstep_per_episode:
+        value: 2.6
+        step: 5052
+        walltime: null
+      evaluator_step/avg_envstep_per_episode:
+        value: 2.6
+        step: 50014
+        walltime: null
+      evaluator_iter/evaluate_time:
+        value: 1.2514569091796874
+        step: 5052
+        walltime: null
+      evaluator_step/evaluate_time:
+        value: 1.2514569091796874
+        step: 50014
+        walltime: null
+      evaluator_iter/avg_envstep_per_sec:
+        value: 20.775785254198354
+        step: 5052
+        walltime: null
+      evaluator_step/avg_envstep_per_sec:
+        value: 20.775785254198354
+        step: 50014
+        walltime: null
+      evaluator_iter/avg_time_per_episode:
+        value: 7.990686636230136
+        step: 5052
+        walltime: null
+      evaluator_step/avg_time_per_episode:
+        value: 7.990686636230136
+        step: 50014
+        walltime: null
+      evaluator_iter/reward_mean:
+        value: 0.2
+        step: 5052
+        walltime: null
+      evaluator_step/reward_mean:
+        value: 0.2
+        step: 50014
+        walltime: null
+      evaluator_iter/reward_std:
+        value: 0.9797958971132713
+        step: 5052
+        walltime: null
+      evaluator_step/reward_std:
+        value: 0.9797958971132713
+        step: 50014
+        walltime: null
+      evaluator_iter/reward_max:
+        value: 1.0
+        step: 5052
+        walltime: null
+      evaluator_step/reward_max:
+        value: 1.0
+        step: 50014
+        walltime: null
+      evaluator_iter/reward_min:
+        value: -1.0
+        step: 5052
+        walltime: null
+      evaluator_step/reward_min:
+        value: -1.0
+        step: 50014
+        walltime: null
+      Buffer/Task_0/num_collected_episodes:
+        value: 11140
+        step: 5558
+        walltime: null
+      Buffer/Task_0/num_game_segments:
+        value: 10128
+        step: 5558
+        walltime: null
+      Buffer/Task_0/num_transitions:
+        value: 49996
+        step: 5558
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/game_segment_buffer:
+        value: 48.135398864746094
+        step: 5558
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/process:
+        value: 2096.26953125
+        step: 5558
+        walltime: null
+      learner_iter/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 5500
+        walltime: null
+      learner_step/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 54442
+        walltime: null
+      learner_iter/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 5500
+        walltime: null
+      learner_step/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 54442
+        walltime: null
+      learner_iter/weighted_total_loss_avg:
+        value: 1.7596894177523525
+        step: 5500
+        walltime: null
+      learner_step/weighted_total_loss_avg:
+        value: 1.7596894177523525
+        step: 54442
+        walltime: null
+      learner_iter/total_loss_avg:
+        value: 1.7596894177523525
+        step: 5500
+        walltime: null
+      learner_step/total_loss_avg:
+        value: 1.7596894177523525
+        step: 54442
+        walltime: null
+      learner_iter/policy_loss_avg:
+        value: 4.986965179443359
+        step: 5500
+        walltime: null
+      learner_step/policy_loss_avg:
+        value: 4.986965179443359
+        step: 54442
+        walltime: null
+      learner_iter/policy_entropy_avg:
+        value: 1.894639072996197
+        step: 5500
+        walltime: null
+      learner_step/policy_entropy_avg:
+        value: 1.894639072996197
+        step: 54442
+        walltime: null
+      learner_iter/target_policy_entropy_avg:
+        value: 1.4588232184901384
+        step: 5500
+        walltime: null
+      learner_step/target_policy_entropy_avg:
+        value: 1.4588232184901384
+        step: 54442
+        walltime: null
+      learner_iter/value_prefix_loss_avg:
+        value: 2.9177387194199995
+        step: 5500
+        walltime: null
+      learner_step/value_prefix_loss_avg:
+        value: 2.9177387194199995
+        step: 54442
+        walltime: null
+      learner_iter/value_loss_avg:
+        value: 2.873926422812722
+        step: 5500
+        walltime: null
+      learner_step/value_loss_avg:
+        value: 2.873926422812722
+        step: 54442
+        walltime: null
+      learner_iter/consistency_loss_avg:
+        value: -0.6863496086814187
+        step: 5500
+        walltime: null
+      learner_step/consistency_loss_avg:
+        value: -0.6863496086814187
+        step: 54442
+        walltime: null
+      learner_iter/value_priority_avg:
+        value: 0.24085114083506845
+        step: 5500
+        walltime: null
+      learner_step/value_priority_avg:
+        value: 0.24085114083506845
+        step: 54442
+        walltime: null
+      learner_iter/target_value_prefix_avg:
+        value: 0.6663115837357261
+        step: 5500
+        walltime: null
+      learner_step/target_value_prefix_avg:
+        value: 0.6663115837357261
+        step: 54442
+        walltime: null
+      learner_iter/target_value_avg:
+        value: 0.03053977374326099
+        step: 5500
+        walltime: null
+      learner_step/target_value_avg:
+        value: 0.03053977374326099
+        step: 54442
+        walltime: null
+      learner_iter/predicted_value_prefixs_avg:
+        value: 0.6696722832593051
+        step: 5500
+        walltime: null
+      learner_step/predicted_value_prefixs_avg:
+        value: 0.6696722832593051
+        step: 54442
+        walltime: null
+      learner_iter/predicted_values_avg:
+        value: 0.034540297759866175
+        step: 5500
+        walltime: null
+      learner_step/predicted_values_avg:
+        value: 0.034540297759866175
+        step: 54442
+        walltime: null
+      learner_iter/transformed_target_value_prefix_avg:
+        value: 0.2766615694219416
+        step: 5500
+        walltime: null
+      learner_step/transformed_target_value_prefix_avg:
+        value: 0.2766615694219416
+        step: 54442
+        walltime: null
+      learner_iter/transformed_target_value_avg:
+        value: 0.01268052618781274
+        step: 5500
+        walltime: null
+      learner_step/transformed_target_value_avg:
+        value: 0.01268052618781274
+        step: 54442
+        walltime: null
+      learner_iter/total_grad_norm_before_clip_avg:
+        value: 1.5357053916562686
+        step: 5500
+        walltime: null
+      learner_step/total_grad_norm_before_clip_avg:
+        value: 1.5357053916562686
+        step: 54442
+        walltime: null
+      collector_iter/episode_count:
+        value: 200
+        step: 5500
+        walltime: null
+      collector_step/episode_count:
+        value: 200
+        step: 54442
+        walltime: null
+      collector_iter/envstep_count:
+        value: 983
+        step: 5500
+        walltime: null
+      collector_step/envstep_count:
+        value: 983
+        step: 54442
+        walltime: null
+      collector_iter/avg_envstep_per_episode:
+        value: 4.915
+        step: 5500
+        walltime: null
+      collector_step/avg_envstep_per_episode:
+        value: 4.915
+        step: 54442
+        walltime: null
+      collector_iter/avg_envstep_per_sec:
+        value: 12.58463828403227
+        step: 5500
+        walltime: null
+      collector_step/avg_envstep_per_sec:
+        value: 12.58463828403227
+        step: 54442
+        walltime: null
+      collector_iter/avg_episode_per_sec:
+        value: 2.560455398582354
+        step: 5500
+        walltime: null
+      collector_step/avg_episode_per_sec:
+        value: 2.560455398582354
+        step: 54442
+        walltime: null
+      collector_iter/collect_time:
+        value: 78.11110481000134
+        step: 5500
+        walltime: null
+      collector_step/collect_time:
+        value: 78.11110481000134
+        step: 54442
+        walltime: null
+      collector_iter/reward_mean:
+        value: 1.0
+        step: 5500
+        walltime: null
+      collector_step/reward_mean:
+        value: 1.0
+        step: 54442
+        walltime: null
+      collector_iter/reward_std:
+        value: 0.0
+        step: 5500
+        walltime: null
+      collector_step/reward_std:
+        value: 0.0
+        step: 54442
+        walltime: null
+      collector_iter/reward_max:
+        value: 1.0
+        step: 5500
+        walltime: null
+      collector_step/reward_max:
+        value: 1.0
+        step: 54442
+        walltime: null
+      collector_iter/reward_min:
+        value: 1.0
+        step: 5500
+        walltime: null
+      collector_step/reward_min:
+        value: 1.0
+        step: 54442
+        walltime: null
+      collector_iter/total_envstep_count:
+        value: 54442
+        step: 5500
+        walltime: null
+      collector_step/total_envstep_count:
+        value: 54442
+        step: 54442
+        walltime: null
+      collector_iter/total_episode_count:
+        value: 11028
+        step: 5500
+        walltime: null
+      collector_step/total_episode_count:
+        value: 11028
+        step: 54442
+        walltime: null
+      collector_iter/total_duration:
+        value: 116580.37703669704
+        step: 5500
+        walltime: null
+      collector_step/total_duration:
+        value: 116580.37703669704
+        step: 54442
+        walltime: null
+      collector_iter/visit_entropy_mean:
+        value: 1.18402243386069
+        step: 5500
+        walltime: null
+      collector_step/visit_entropy_mean:
+        value: 1.18402243386069
+        step: 54442
+        walltime: null
+  envstep_60000.pth.tar:
+    checkpoint_name: envstep_60000.pth.tar
+    checkpoint_path: /workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/envstep_60000.pth.tar
+    saved_at: '2026-05-19T13:59:49.254427+00:00'
+    train_iter: 6066
+    envstep: 60000
+    trigger: envstep
+    latest_scalars:
+      evaluator_iter/episode_count:
+        value: 10
+        step: 5560
+        walltime: null
+      evaluator_step/episode_count:
+        value: 10
+        step: 55013
+        walltime: null
+      evaluator_iter/envstep_count:
+        value: 24
+        step: 5560
+        walltime: null
+      evaluator_step/envstep_count:
+        value: 24
+        step: 55013
+        walltime: null
+      evaluator_iter/avg_envstep_per_episode:
+        value: 2.4
+        step: 5560
+        walltime: null
+      evaluator_step/avg_envstep_per_episode:
+        value: 2.4
+        step: 55013
+        walltime: null
+      evaluator_iter/evaluate_time:
+        value: 1.1975067138671875
+        step: 5560
+        walltime: null
+      evaluator_step/evaluate_time:
+        value: 1.1975067138671875
+        step: 55013
+        walltime: null
+      evaluator_iter/avg_envstep_per_sec:
+        value: 20.041641288586362
+        step: 5560
+        walltime: null
+      evaluator_step/avg_envstep_per_sec:
+        value: 20.041641288586362
+        step: 55013
+        walltime: null
+      evaluator_iter/avg_time_per_episode:
+        value: 8.350683870244318
+        step: 5560
+        walltime: null
+      evaluator_step/avg_time_per_episode:
+        value: 8.350683870244318
+        step: 55013
+        walltime: null
+      evaluator_iter/reward_mean:
+        value: -0.2
+        step: 5560
+        walltime: null
+      evaluator_step/reward_mean:
+        value: -0.2
+        step: 55013
+        walltime: null
+      evaluator_iter/reward_std:
+        value: 0.9797958971132713
+        step: 5560
+        walltime: null
+      evaluator_step/reward_std:
+        value: 0.9797958971132713
+        step: 55013
+        walltime: null
+      evaluator_iter/reward_max:
+        value: 1.0
+        step: 5560
+        walltime: null
+      evaluator_step/reward_max:
+        value: 1.0
+        step: 55013
+        walltime: null
+      evaluator_iter/reward_min:
+        value: -1.0
+        step: 5560
+        walltime: null
+      evaluator_step/reward_min:
+        value: -1.0
+        step: 55013
+        walltime: null
+      Buffer/Task_0/num_collected_episodes:
+        value: 12156
+        step: 6066
+        walltime: null
+      Buffer/Task_0/num_game_segments:
+        value: 10128
+        step: 6066
+        walltime: null
+      Buffer/Task_0/num_transitions:
+        value: 49998
+        step: 6066
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/game_segment_buffer:
+        value: 48.13629913330078
+        step: 6066
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/process:
+        value: 2095.19140625
+        step: 6066
+        walltime: null
+      learner_iter/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 6000
+        walltime: null
+      learner_step/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 59369
+        walltime: null
+      learner_iter/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 6000
+        walltime: null
+      learner_step/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 59369
+        walltime: null
+      learner_iter/weighted_total_loss_avg:
+        value: 1.879230412569913
+        step: 6000
+        walltime: null
+      learner_step/weighted_total_loss_avg:
+        value: 1.879230412569913
+        step: 59369
+        walltime: null
+      learner_iter/total_loss_avg:
+        value: 1.879230412569913
+        step: 6000
+        walltime: null
+      learner_step/total_loss_avg:
+        value: 1.879230412569913
+        step: 59369
+        walltime: null
+      learner_iter/policy_loss_avg:
+        value: 4.972260865298185
+        step: 6000
+        walltime: null
+      learner_step/policy_loss_avg:
+        value: 4.972260865298185
+        step: 59369
+        walltime: null
+      learner_iter/policy_entropy_avg:
+        value: 1.8664040565490723
+        step: 6000
+        walltime: null
+      learner_step/policy_entropy_avg:
+        value: 1.8664040565490723
+        step: 59369
+        walltime: null
+      learner_iter/target_policy_entropy_avg:
+        value: 1.4537174051458186
+        step: 6000
+        walltime: null
+      learner_step/target_policy_entropy_avg:
+        value: 1.4537174051458186
+        step: 59369
+        walltime: null
+      learner_iter/value_prefix_loss_avg:
+        value: 2.927896196191961
+        step: 6000
+        walltime: null
+      learner_step/value_prefix_loss_avg:
+        value: 2.927896196191961
+        step: 59369
+        walltime: null
+      learner_iter/value_loss_avg:
+        value: 2.866024515845559
+        step: 6000
+        walltime: null
+      learner_step/value_loss_avg:
+        value: 2.866024515845559
+        step: 59369
+        walltime: null
+      learner_iter/consistency_loss_avg:
+        value: -0.6737432783300227
+        step: 6000
+        walltime: null
+      learner_step/consistency_loss_avg:
+        value: -0.6737432783300227
+        step: 59369
+        walltime: null
+      learner_iter/value_priority_avg:
+        value: 0.25058447366411035
+        step: 6000
+        walltime: null
+      learner_step/value_priority_avg:
+        value: 0.25058447366411035
+        step: 59369
+        walltime: null
+      learner_iter/target_value_prefix_avg:
+        value: 0.6677320220253684
+        step: 6000
+        walltime: null
+      learner_step/target_value_prefix_avg:
+        value: 0.6677320220253684
+        step: 59369
+        walltime: null
+      learner_iter/target_value_avg:
+        value: 0.032315341755747795
+        step: 6000
+        walltime: null
+      learner_step/target_value_avg:
+        value: 0.032315341755747795
+        step: 59369
+        walltime: null
+      learner_iter/predicted_value_prefixs_avg:
+        value: 0.6754332509907809
+        step: 6000
+        walltime: null
+      learner_step/predicted_value_prefixs_avg:
+        value: 0.6754332509907809
+        step: 59369
+        walltime: null
+      learner_iter/predicted_values_avg:
+        value: 0.028052480171688578
+        step: 6000
+        walltime: null
+      learner_step/predicted_values_avg:
+        value: 0.028052480171688578
+        step: 59369
+        walltime: null
+      learner_iter/transformed_target_value_prefix_avg:
+        value: 0.2772513573819941
+        step: 6000
+        walltime: null
+      learner_step/transformed_target_value_prefix_avg:
+        value: 0.2772513573819941
+        step: 59369
+        walltime: null
+      learner_iter/transformed_target_value_avg:
+        value: 0.013417766090821136
+        step: 6000
+        walltime: null
+      learner_step/transformed_target_value_avg:
+        value: 0.013417766090821136
+        step: 59369
+        walltime: null
+      learner_iter/total_grad_norm_before_clip_avg:
+        value: 2.765905033458363
+        step: 6000
+        walltime: null
+      learner_step/total_grad_norm_before_clip_avg:
+        value: 2.765905033458363
+        step: 59369
+        walltime: null
+      collector_iter/episode_count:
+        value: 200
+        step: 6000
+        walltime: null
+      collector_step/episode_count:
+        value: 200
+        step: 59369
+        walltime: null
+      collector_iter/envstep_count:
+        value: 986
+        step: 6000
+        walltime: null
+      collector_step/envstep_count:
+        value: 986
+        step: 59369
+        walltime: null
+      collector_iter/avg_envstep_per_episode:
+        value: 4.93
+        step: 6000
+        walltime: null
+      collector_step/avg_envstep_per_episode:
+        value: 4.93
+        step: 59369
+        walltime: null
+      collector_iter/avg_envstep_per_sec:
+        value: 12.761187161979313
+        step: 6000
+        walltime: null
+      collector_step/avg_envstep_per_sec:
+        value: 12.761187161979313
+        step: 59369
+        walltime: null
+      collector_iter/avg_episode_per_sec:
+        value: 2.5884760977645667
+        step: 6000
+        walltime: null
+      collector_step/avg_episode_per_sec:
+        value: 2.5884760977645667
+        step: 59369
+        walltime: null
+      collector_iter/collect_time:
+        value: 77.26553865910601
+        step: 6000
+        walltime: null
+      collector_step/collect_time:
+        value: 77.26553865910601
+        step: 59369
+        walltime: null
+      collector_iter/reward_mean:
+        value: 1.0
+        step: 6000
+        walltime: null
+      collector_step/reward_mean:
+        value: 1.0
+        step: 59369
+        walltime: null
+      collector_iter/reward_std:
+        value: 0.0
+        step: 6000
+        walltime: null
+      collector_step/reward_std:
+        value: 0.0
+        step: 59369
+        walltime: null
+      collector_iter/reward_max:
+        value: 1.0
+        step: 6000
+        walltime: null
+      collector_step/reward_max:
+        value: 1.0
+        step: 59369
+        walltime: null
+      collector_iter/reward_min:
+        value: 1.0
+        step: 6000
+        walltime: null
+      collector_step/reward_min:
+        value: 1.0
+        step: 59369
+        walltime: null
+      collector_iter/total_envstep_count:
+        value: 59369
+        step: 6000
+        walltime: null
+      collector_step/total_envstep_count:
+        value: 59369
+        step: 59369
+        walltime: null
+      collector_iter/total_episode_count:
+        value: 12028
+        step: 6000
+        walltime: null
+      collector_step/total_episode_count:
+        value: 12028
+        step: 59369
+        walltime: null
+      collector_iter/total_duration:
+        value: 126609.39995060852
+        step: 6000
+        walltime: null
+      collector_step/total_duration:
+        value: 126609.39995060852
+        step: 59369
+        walltime: null
+      collector_iter/visit_entropy_mean:
+        value: 1.5180198430404364
+        step: 6000
+        walltime: null
+      collector_step/visit_entropy_mean:
+        value: 1.5180198430404364
+        step: 59369
+        walltime: null
+  envstep_65000.pth.tar:
+    checkpoint_name: envstep_65000.pth.tar
+    checkpoint_path: /workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/envstep_65000.pth.tar
+    saved_at: '2026-05-19T14:24:08.608692+00:00'
+    train_iter: 6574
+    envstep: 65000
+    trigger: envstep
+    latest_scalars:
+      evaluator_iter/episode_count:
+        value: 10
+        step: 6068
+        walltime: null
+      evaluator_step/episode_count:
+        value: 10
+        step: 60016
+        walltime: null
+      evaluator_iter/envstep_count:
+        value: 30
+        step: 6068
+        walltime: null
+      evaluator_step/envstep_count:
+        value: 30
+        step: 60016
+        walltime: null
+      evaluator_iter/avg_envstep_per_episode:
+        value: 3.0
+        step: 6068
+        walltime: null
+      evaluator_step/avg_envstep_per_episode:
+        value: 3.0
+        step: 60016
+        walltime: null
+      evaluator_iter/evaluate_time:
+        value: 1.117225341796875
+        step: 6068
+        walltime: null
+      evaluator_step/evaluate_time:
+        value: 1.117225341796875
+        step: 60016
+        walltime: null
+      evaluator_iter/avg_envstep_per_sec:
+        value: 26.852237304024886
+        step: 6068
+        walltime: null
+      evaluator_step/avg_envstep_per_sec:
+        value: 26.852237304024886
+        step: 60016
+        walltime: null
+      evaluator_iter/avg_time_per_episode:
+        value: 8.950745768008296
+        step: 6068
+        walltime: null
+      evaluator_step/avg_time_per_episode:
+        value: 8.950745768008296
+        step: 60016
+        walltime: null
+      evaluator_iter/reward_mean:
+        value: 1.0
+        step: 6068
+        walltime: null
+      evaluator_step/reward_mean:
+        value: 1.0
+        step: 60016
+        walltime: null
+      evaluator_iter/reward_std:
+        value: 0.0
+        step: 6068
+        walltime: null
+      evaluator_step/reward_std:
+        value: 0.0
+        step: 60016
+        walltime: null
+      evaluator_iter/reward_max:
+        value: 1.0
+        step: 6068
+        walltime: null
+      evaluator_step/reward_max:
+        value: 1.0
+        step: 60016
+        walltime: null
+      evaluator_iter/reward_min:
+        value: 1.0
+        step: 6068
+        walltime: null
+      evaluator_step/reward_min:
+        value: 1.0
+        step: 60016
+        walltime: null
+      Buffer/Task_0/num_collected_episodes:
+        value: 13172
+        step: 6574
+        walltime: null
+      Buffer/Task_0/num_game_segments:
+        value: 10130
+        step: 6574
+        walltime: null
+      Buffer/Task_0/num_transitions:
+        value: 49999
+        step: 6574
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/game_segment_buffer:
+        value: 48.14131164550781
+        step: 6574
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/process:
+        value: 2096.0234375
+        step: 6574
+        walltime: null
+      learner_iter/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 6500
+        walltime: null
+      learner_step/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 64290
+        walltime: null
+      learner_iter/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 6500
+        walltime: null
+      learner_step/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 64290
+        walltime: null
+      learner_iter/weighted_total_loss_avg:
+        value: 1.8613728393207898
+        step: 6500
+        walltime: null
+      learner_step/weighted_total_loss_avg:
+        value: 1.8613728393207898
+        step: 64290
+        walltime: null
+      learner_iter/total_loss_avg:
+        value: 1.8613728393207898
+        step: 6500
+        walltime: null
+      learner_step/total_loss_avg:
+        value: 1.8613728393207898
+        step: 64290
+        walltime: null
+      learner_iter/policy_loss_avg:
+        value: 4.957675196907737
+        step: 6500
+        walltime: null
+      learner_step/policy_loss_avg:
+        value: 4.957675196907737
+        step: 64290
+        walltime: null
+      learner_iter/policy_entropy_avg:
+        value: 1.8809896237922439
+        step: 6500
+        walltime: null
+      learner_step/policy_entropy_avg:
+        value: 1.8809896237922439
+        step: 64290
+        walltime: null
+      learner_iter/target_policy_entropy_avg:
+        value: 1.4509589744336677
+        step: 6500
+        walltime: null
+      learner_step/target_policy_entropy_avg:
+        value: 1.4509589744336677
+        step: 64290
+        walltime: null
+      learner_iter/value_prefix_loss_avg:
+        value: 2.9388047565113413
+        step: 6500
+        walltime: null
+      learner_step/value_prefix_loss_avg:
+        value: 2.9388047565113413
+        step: 64290
+        walltime: null
+      learner_iter/value_loss_avg:
+        value: 2.862761367451061
+        step: 6500
+        walltime: null
+      learner_step/value_loss_avg:
+        value: 2.862761367451061
+        step: 64290
+        walltime: null
+      learner_iter/consistency_loss_avg:
+        value: -0.6750797401775013
+        step: 6500
+        walltime: null
+      learner_step/consistency_loss_avg:
+        value: -0.6750797401775013
+        step: 64290
+        walltime: null
+      learner_iter/value_priority_avg:
+        value: 0.3312423215671019
+        step: 6500
+        walltime: null
+      learner_step/value_priority_avg:
+        value: 0.3312423215671019
+        step: 64290
+        walltime: null
+      learner_iter/target_value_prefix_avg:
+        value: 0.6698627146807584
+        step: 6500
+        walltime: null
+      learner_step/target_value_prefix_avg:
+        value: 0.6698627146807584
+        step: 64290
+        walltime: null
+      learner_iter/target_value_avg:
+        value: 0.030066288838332348
+        step: 6500
+        walltime: null
+      learner_step/target_value_avg:
+        value: 0.030066288838332348
+        step: 64290
+        walltime: null
+      learner_iter/predicted_value_prefixs_avg:
+        value: 0.6871472651308234
+        step: 6500
+        walltime: null
+      learner_step/predicted_value_prefixs_avg:
+        value: 0.6871472651308234
+        step: 64290
+        walltime: null
+      learner_iter/predicted_values_avg:
+        value: 0.0084923032713546
+        step: 6500
+        walltime: null
+      learner_step/predicted_values_avg:
+        value: 0.0084923032713546
+        step: 64290
+        walltime: null
+      learner_iter/transformed_target_value_prefix_avg:
+        value: 0.2781360393220728
+        step: 6500
+        walltime: null
+      learner_step/transformed_target_value_prefix_avg:
+        value: 0.2781360393220728
+        step: 64290
+        walltime: null
+      learner_iter/transformed_target_value_avg:
+        value: 0.012483929410915483
+        step: 6500
+        walltime: null
+      learner_step/transformed_target_value_avg:
+        value: 0.012483929410915483
+        step: 64290
+        walltime: null
+      learner_iter/total_grad_norm_before_clip_avg:
+        value: 4.061127765612169
+        step: 6500
+        walltime: null
+      learner_step/total_grad_norm_before_clip_avg:
+        value: 4.061127765612169
+        step: 64290
+        walltime: null
+      collector_iter/episode_count:
+        value: 200
+        step: 6500
+        walltime: null
+      collector_step/episode_count:
+        value: 200
+        step: 64290
+        walltime: null
+      collector_iter/envstep_count:
+        value: 990
+        step: 6500
+        walltime: null
+      collector_step/envstep_count:
+        value: 990
+        step: 64290
+        walltime: null
+      collector_iter/avg_envstep_per_episode:
+        value: 4.95
+        step: 6500
+        walltime: null
+      collector_step/avg_envstep_per_episode:
+        value: 4.95
+        step: 64290
+        walltime: null
+      collector_iter/avg_envstep_per_sec:
+        value: 12.667328153967981
+        step: 6500
+        walltime: null
+      collector_step/avg_envstep_per_sec:
+        value: 12.667328153967981
+        step: 64290
+        walltime: null
+      collector_iter/avg_episode_per_sec:
+        value: 2.559056192720804
+        step: 6500
+        walltime: null
+      collector_step/avg_episode_per_sec:
+        value: 2.559056192720804
+        step: 64290
+        walltime: null
+      collector_iter/collect_time:
+        value: 78.15381333512602
+        step: 6500
+        walltime: null
+      collector_step/collect_time:
+        value: 78.15381333512602
+        step: 64290
+        walltime: null
+      collector_iter/reward_mean:
+        value: 1.0
+        step: 6500
+        walltime: null
+      collector_step/reward_mean:
+        value: 1.0
+        step: 64290
+        walltime: null
+      collector_iter/reward_std:
+        value: 0.0
+        step: 6500
+        walltime: null
+      collector_step/reward_std:
+        value: 0.0
+        step: 64290
+        walltime: null
+      collector_iter/reward_max:
+        value: 1.0
+        step: 6500
+        walltime: null
+      collector_step/reward_max:
+        value: 1.0
+        step: 64290
+        walltime: null
+      collector_iter/reward_min:
+        value: 1.0
+        step: 6500
+        walltime: null
+      collector_step/reward_min:
+        value: 1.0
+        step: 64290
+        walltime: null
+      collector_iter/total_envstep_count:
+        value: 64290
+        step: 6500
+        walltime: null
+      collector_step/total_envstep_count:
+        value: 64290
+        step: 64290
+        walltime: null
+      collector_iter/total_episode_count:
+        value: 13028
+        step: 6500
+        walltime: null
+      collector_step/total_episode_count:
+        value: 13028
+        step: 64290
+        walltime: null
+      collector_iter/total_duration:
+        value: 136729.9372411066
+        step: 6500
+        walltime: null
+      collector_step/total_duration:
+        value: 136729.9372411066
+        step: 64290
+        walltime: null
+      collector_iter/visit_entropy_mean:
+        value: 1.6745987191528302
+        step: 6500
+        walltime: null
+      collector_step/visit_entropy_mean:
+        value: 1.6745987191528302
+        step: 64290
+        walltime: null
+  envstep_70000.pth.tar:
+    checkpoint_name: envstep_70000.pth.tar
+    checkpoint_path: /workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/envstep_70000.pth.tar
+    saved_at: '2026-05-19T14:48:45.882215+00:00'
+    train_iter: 7080
+    envstep: 70000
+    trigger: envstep
+    latest_scalars:
+      evaluator_iter/episode_count:
+        value: 10
+        step: 6576
+        walltime: null
+      evaluator_step/episode_count:
+        value: 10
+        step: 65017
+        walltime: null
+      evaluator_iter/envstep_count:
+        value: 29
+        step: 6576
+        walltime: null
+      evaluator_step/envstep_count:
+        value: 29
+        step: 65017
+        walltime: null
+      evaluator_iter/avg_envstep_per_episode:
+        value: 2.9
+        step: 6576
+        walltime: null
+      evaluator_step/avg_envstep_per_episode:
+        value: 2.9
+        step: 65017
+        walltime: null
+      evaluator_iter/evaluate_time:
+        value: 1.42638671875
+        step: 6576
+        walltime: null
+      evaluator_step/evaluate_time:
+        value: 1.42638671875
+        step: 65017
+        walltime: null
+      evaluator_iter/avg_envstep_per_sec:
+        value: 20.331092275882845
+        step: 6576
+        walltime: null
+      evaluator_step/avg_envstep_per_sec:
+        value: 20.331092275882845
+        step: 65017
+        walltime: null
+      evaluator_iter/avg_time_per_episode:
+        value: 7.01072147444236
+        step: 6576
+        walltime: null
+      evaluator_step/avg_time_per_episode:
+        value: 7.01072147444236
+        step: 65017
+        walltime: null
+      evaluator_iter/reward_mean:
+        value: 0.8
+        step: 6576
+        walltime: null
+      evaluator_step/reward_mean:
+        value: 0.8
+        step: 65017
+        walltime: null
+      evaluator_iter/reward_std:
+        value: 0.6000000000000001
+        step: 6576
+        walltime: null
+      evaluator_step/reward_std:
+        value: 0.6000000000000001
+        step: 65017
+        walltime: null
+      evaluator_iter/reward_max:
+        value: 1.0
+        step: 6576
+        walltime: null
+      evaluator_step/reward_max:
+        value: 1.0
+        step: 65017
+        walltime: null
+      evaluator_iter/reward_min:
+        value: -1.0
+        step: 6576
+        walltime: null
+      evaluator_step/reward_min:
+        value: -1.0
+        step: 65017
+        walltime: null
+      Buffer/Task_0/num_collected_episodes:
+        value: 14184
+        step: 7080
+        walltime: null
+      Buffer/Task_0/num_game_segments:
+        value: 10133
+        step: 7080
+        walltime: null
+      Buffer/Task_0/num_transitions:
+        value: 50000
+        step: 7080
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/game_segment_buffer:
+        value: 48.14851379394531
+        step: 7080
+        walltime: null
+      Buffer/Task_0/memory_usage_mb/process:
+        value: 2092.95703125
+        step: 7080
+        walltime: null
+      learner_iter/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 7000
+        walltime: null
+      learner_step/collect_mcts_temperature_avg:
+        value: 0.25
+        step: 69218
+        walltime: null
+      learner_iter/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 7000
+        walltime: null
+      learner_step/cur_lr_avg:
+        value: 0.0029999999999999996
+        step: 69218
+        walltime: null
+      learner_iter/weighted_total_loss_avg:
+        value: 2.013226541605863
+        step: 7000
+        walltime: null
+      learner_step/weighted_total_loss_avg:
+        value: 2.013226541605863
+        step: 69218
+        walltime: null
+      learner_iter/total_loss_avg:
+        value: 2.013226541605863
+        step: 7000
+        walltime: null
+      learner_step/total_loss_avg:
+        value: 2.013226541605863
+        step: 69218
+        walltime: null
+      learner_iter/policy_loss_avg:
+        value: 5.11634449525313
+        step: 7000
+        walltime: null
+      learner_step/policy_loss_avg:
+        value: 5.11634449525313
+        step: 69218
+        walltime: null
+      learner_iter/policy_entropy_avg:
+        value: 1.8890340400464607
+        step: 7000
+        walltime: null
+      learner_step/policy_entropy_avg:
+        value: 1.8890340400464607
+        step: 69218
+        walltime: null
+      learner_iter/target_policy_entropy_avg:
+        value: 1.4739436380790942
+        step: 7000
+        walltime: null
+      learner_step/target_policy_entropy_avg:
+        value: 1.4739436380790942
+        step: 69218
+        walltime: null
+      learner_iter/value_prefix_loss_avg:
+        value: 2.902969251979481
+        step: 7000
+        walltime: null
+      learner_step/value_prefix_loss_avg:
+        value: 2.902969251979481
+        step: 69218
+        walltime: null
+      learner_iter/value_loss_avg:
+        value: 2.918758609078147
+        step: 7000
+        walltime: null
+      learner_step/value_loss_avg:
+        value: 2.918758609078147
+        step: 69218
+        walltime: null
+      learner_iter/consistency_loss_avg:
+        value: -0.6735776684500954
+        step: 7000
+        walltime: null
+      learner_step/consistency_loss_avg:
+        value: -0.6735776684500954
+        step: 69218
+        walltime: null
+      learner_iter/value_priority_avg:
+        value: 0.2875572307543321
+        step: 7000
+        walltime: null
+      learner_step/value_priority_avg:
+        value: 0.2875572307543321
+        step: 69218
+        walltime: null
+      learner_iter/target_value_prefix_avg:
+        value: 0.6632339249957692
+        step: 7000
+        walltime: null
+      learner_step/target_value_prefix_avg:
+        value: 0.6632339249957692
+        step: 69218
+        walltime: null
+      learner_iter/target_value_avg:
+        value: 0.029947917569767345
+        step: 7000
+        walltime: null
+      learner_step/target_value_avg:
+        value: 0.029947917569767345
+        step: 69218
+        walltime: null
+      learner_iter/predicted_value_prefixs_avg:
+        value: 0.6678378582000732
+        step: 7000
+        walltime: null
+      learner_step/predicted_value_prefixs_avg:
+        value: 0.6678378582000732
+        step: 69218
+        walltime: null
+      learner_iter/predicted_values_avg:
+        value: 0.02264841838570481
+        step: 7000
+        walltime: null
+      learner_step/predicted_values_avg:
+        value: 0.02264841838570481
+        step: 69218
+        walltime: null
+      learner_iter/transformed_target_value_prefix_avg:
+        value: 0.2753836783495816
+        step: 7000
+        walltime: null
+      learner_step/transformed_target_value_prefix_avg:
+        value: 0.2753836783495816
+        step: 69218
+        walltime: null
+      learner_iter/transformed_target_value_avg:
+        value: 0.012434780174358324
+        step: 7000
+        walltime: null
+      learner_step/transformed_target_value_avg:
+        value: 0.012434780174358324
+        step: 69218
+        walltime: null
+      learner_iter/total_grad_norm_before_clip_avg:
+        value: 3.255574109879407
+        step: 7000
+        walltime: null
+      learner_step/total_grad_norm_before_clip_avg:
+        value: 3.255574109879407
+        step: 69218
+        walltime: null
+      collector_iter/episode_count:
+        value: 200
+        step: 7000
+        walltime: null
+      collector_step/episode_count:
+        value: 200
+        step: 69218
+        walltime: null
+      collector_iter/envstep_count:
+        value: 990
+        step: 7000
+        walltime: null
+      collector_step/envstep_count:
+        value: 990
+        step: 69218
+        walltime: null
+      collector_iter/avg_envstep_per_episode:
+        value: 4.95
+        step: 7000
+        walltime: null
+      collector_step/avg_envstep_per_episode:
+        value: 4.95
+        step: 69218
+        walltime: null
+      collector_iter/avg_envstep_per_sec:
+        value: 11.998207467099792
+        step: 7000
+        walltime: null
+      collector_step/avg_envstep_per_sec:
+        value: 11.998207467099792
+        step: 69218
+        walltime: null
+      collector_iter/avg_episode_per_sec:
+        value: 2.423880296383796
+        step: 7000
+        walltime: null
+      collector_step/avg_episode_per_sec:
+        value: 2.423880296383796
+        step: 69218
+        walltime: null
+      collector_iter/collect_time:
+        value: 82.51232550484501
+        step: 7000
+        walltime: null
+      collector_step/collect_time:
+        value: 82.51232550484501
+        step: 69218
+        walltime: null
+      collector_iter/reward_mean:
+        value: 1.0
+        step: 7000
+        walltime: null
+      collector_step/reward_mean:
+        value: 1.0
+        step: 69218
+        walltime: null
+      collector_iter/reward_std:
+        value: 0.0
+        step: 7000
+        walltime: null
+      collector_step/reward_std:
+        value: 0.0
+        step: 69218
+        walltime: null
+      collector_iter/reward_max:
+        value: 1.0
+        step: 7000
+        walltime: null
+      collector_step/reward_max:
+        value: 1.0
+        step: 69218
+        walltime: null
+      collector_iter/reward_min:
+        value: 1.0
+        step: 7000
+        walltime: null
+      collector_step/reward_min:
+        value: 1.0
+        step: 69218
+        walltime: null
+      collector_iter/total_envstep_count:
+        value: 69218
+        step: 7000
+        walltime: null
+      collector_step/total_envstep_count:
+        value: 69218
+        step: 69218
+        walltime: null
+      collector_iter/total_episode_count:
+        value: 14028
+        step: 7000
+        walltime: null
+      collector_step/total_episode_count:
+        value: 14028
+        step: 69218
+        walltime: null
+      collector_iter/total_duration:
+        value: 146936.3182298701
+        step: 7000
+        walltime: null
+      collector_step/total_duration:
+        value: 146936.3182298701
+        step: 69218
+        walltime: null
+      collector_iter/visit_entropy_mean:
+        value: 1.6860720122130517
+        step: 7000
+        walltime: null
+      collector_step/visit_entropy_mean:
+        value: 1.6860720122130517
+        step: 69218
+        walltime: null
+metadata_version: 1

metadata/total_config.py ADDED Viewed

	@@ -0,0 +1,257 @@

+exp_config = {
+    'env': {
+        'manager': {
+            'episode_num': float("inf"),
+            'max_retry': 1,
+            'step_timeout': None,
+            'auto_reset': True,
+            'reset_timeout': None,
+            'retry_type': 'reset',
+            'retry_waiting_time': 0.1,
+            'shared_memory': False,
+            'copy_on_get': True,
+            'context': 'fork',
+            'wait_num': float("inf"),
+            'step_wait_timeout': None,
+            'connect_timeout': 60,
+            'reset_inplace': False,
+            'cfg_type': 'SyncSubprocessEnvManagerDict',
+            'type': 'subprocess'
+        },
+        'stop_value':
+        10000000000,
+        'n_evaluator_episode':
+        10,
+        'env_id':
+        'simplified__first_attack',
+        'battle_mode':
+        'self_play_mode',
+        'battle_mode_in_simulation_env':
+        'self_play_mode',
+        'bot_action_type':
+        'rule',
+        'agent_vs_human':
+        False,
+        'prob_random_agent':
+        0,
+        'prob_expert_agent':
+        0,
+        'prob_random_action_in_bot':
+        0.0,
+        'channel_last':
+        False,
+        'scale':
+        True,
+        'render_mode':
+        None,
+        'replay_path':
+        None,
+        'alphazero_mcts_ctree':
+        False,
+        'cfg_type':
+        'SimplifiedFirstAttackEnvDict',
+        'type':
+        'simplified__first_attack',
+        'import_names': [
+            'custom_games_simplified.simplified__first_attack.envs.first_attack_env'
+        ],
+        'collector_env_num':
+        4,
+        'evaluator_env_num':
+        10
+    },
+    'policy': {
+        'model': {
+            'model_type': 'conv',
+            'continuous_action_space': False,
+            'observation_shape': (3, 6, 6),
+            'self_supervised_learning_loss': True,
+            'categorical_distribution': True,
+            'image_channel': 3,
+            'frame_stack_num': 1,
+            'num_res_blocks': 1,
+            'num_channels': 32,
+            'reward_support_range': (-300.0, 301.0, 1.0),
+            'value_support_range': (-300.0, 301.0, 1.0),
+            'bias': True,
+            'discrete_action_encoding_type': 'one_hot',
+            'res_connection_in_dynamics': True,
+            'norm_type': 'BN',
+            'analysis_sim_norm': False,
+            'analysis_dormant_ratio': False,
+            'harmony_balance': False,
+            'lstm_hidden_size': 512,
+            'action_space_size': 36
+        },
+        'learn': {
+            'learner': {
+                'train_iterations': 1000000000,
+                'dataloader': {
+                    'num_workers': 0
+                },
+                'log_policy': True,
+                'hook': {
+                    'load_ckpt_before_run': '',
+                    'log_show_after_iter': 100,
+                    'save_ckpt_after_iter': 10000,
+                    'save_ckpt_after_run': True
+                },
+                'cfg_type': 'BaseLearnerDict'
+            },
+            'resume_training': False
+        },
+        'collect': {
+            'collector': {
+                'deepcopy_obs': False,
+                'transform_obs': False,
+                'collect_print_freq': 100,
+                'cfg_type': 'SampleSerialCollectorDict',
+                'type': 'sample'
+            }
+        },
+        'eval': {
+            'evaluator': {
+                'eval_freq': 1000,
+                'render': {
+                    'render_freq': -1,
+                    'mode': 'train_iter'
+                },
+                'figure_path': None,
+                'cfg_type': 'InteractionSerialEvaluatorDict',
+                'stop_value': 10000000000,
+                'n_episode': 10
+            }
+        },
+        'other': {
+            'replay_buffer': {
+                'type': 'advanced',
+                'replay_buffer_size': 4096,
+                'max_use': float("inf"),
+                'max_staleness': float("inf"),
+                'alpha': 0.6,
+                'beta': 0.4,
+                'anneal_step': 100000,
+                'enable_track_used_data': False,
+                'deepcopy': False,
+                'thruput_controller': {
+                    'push_sample_rate_limit': {
+                        'max': float("inf"),
+                        'min': 0
+                    },
+                    'window_seconds': 30,
+                    'sample_min_limit_ratio': 1
+                },
+                'monitor': {
+                    'sampled_data_attr': {
+                        'average_range': 5,
+                        'print_freq': 200
+                    },
+                    'periodic_thruput': {
+                        'seconds': 60
+                    }
+                },
+                'cfg_type': 'AdvancedReplayBufferDict'
+            },
+            'commander': {
+                'cfg_type': 'BaseSerialCommanderDict'
+            }
+        },
+        'on_policy': False,
+        'cuda': True,
+        'multi_gpu': False,
+        'bp_update_sync': True,
+        'traj_len_inf': False,
+        'use_wandb': True,
+        'use_rnd_model': False,
+        'sampled_algo': False,
+        'gumbel_algo': False,
+        'mcts_ctree': True,
+        'collector_env_num': 4,
+        'evaluator_env_num': 10,
+        'env_type': 'board_games',
+        'action_type': 'varied_action_space',
+        'battle_mode': 'self_play_mode',
+        'monitor_extra_statistics': True,
+        'game_segment_length': 12,
+        'eval_offline': False,
+        'calculate_dormant_ratio': False,
+        'analysis_sim_norm': False,
+        'analysis_dormant_ratio': False,
+        'transform2string': False,
+        'gray_scale': False,
+        'use_augmentation': False,
+        'augmentation': ['shift', 'intensity'],
+        'ignore_done': False,
+        'update_per_collect': 2,
+        'replay_ratio': 0.25,
+        'batch_size': 128,
+        'optim_type': 'Adam',
+        'learning_rate': 0.003,
+        'target_update_freq': 100,
+        'target_update_freq_for_intrinsic_reward': 1000,
+        'weight_decay': 0.0001,
+        'momentum': 0.9,
+        'grad_clip_value': 0.5,
+        'n_episode': 4,
+        'num_segments': 8,
+        'num_simulations': 20,
+        'discount_factor': 1,
+        'td_steps': 12,
+        'num_unroll_steps': 5,
+        'reward_loss_weight': 1,
+        'value_loss_weight': 0.25,
+        'policy_loss_weight': 1,
+        'policy_entropy_weight': 0,
+        'ssl_loss_weight': 2,
+        'piecewise_decay_lr_scheduler': False,
+        'threshold_training_steps_for_final_lr': 50000,
+        'manual_temperature_decay': False,
+        'threshold_training_steps_for_final_temperature': 100000,
+        'fixed_temperature_value': 0.25,
+        'use_ture_chance_label_in_chance_encoder': False,
+        'reanalyze_noise': True,
+        'reuse_search': False,
+        'collect_with_pure_policy': False,
+        'use_priority': False,
+        'priority_prob_alpha': 0.6,
+        'priority_prob_beta': 0.4,
+        'root_dirichlet_alpha': 0.3,
+        'root_noise_weight': 0.25,
+        'random_collect_episode_num': 0,
+        'eps': {
+            'eps_greedy_exploration_in_collect': False,
+            'type': 'linear',
+            'start': 1.0,
+            'end': 0.05,
+            'decay': 100000
+        },
+        'cfg_type': 'EfficientZeroPolicyDict',
+        'lstm_horizon_len': 5,
+        'type': 'efficientzero',
+        'import_names': ['lzero.policy.efficientzero'],
+        'model_path':
+        '/workspace/combinatorial_reasoning_post_training/models/simplified5_immediate_300k_continuation_20260518/round-01/simplified__first_attack/attempt-01_260518_231816/ckpt/envstep_130000.pth.tar',
+        'reanalyze_ratio': 0.0,
+        'eval_freq': 100001,
+        'replay_buffer_size': 50000,
+        'best_ckpt_strategy': 'raw',
+        'best_ckpt_ema_alpha': 0.3,
+        'best_ckpt_min_episodes': 20,
+        'battle_mode_in_simulation_env': 'self_play_mode',
+        'eval_opponent_type': 'env_bot',
+        'previous_best_checkpoint': {
+            'path': None,
+            'selector': 'best',
+            'update_policy': 'on_new_best',
+            'num_simulations': None,
+            'n_evaluator_episode': None,
+            'evaluator_env_num': None,
+            'promotion_threshold': 0.0,
+            'fallback_to_env_bot': False
+        },
+        'device': 'cuda'
+    },
+    'exp_name':
+    '/workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543',
+    'seed': 0
+}

metadata/upload_manifest.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "checkpoint_mtime_utc": "2026-05-19T14:48:43Z",
+  "checkpoint_size_bytes": 108123787,
+  "display_name": "FirstAttack",
+  "game_id": "simplified__first_attack",
+  "path_in_repo": "checkpoints/envstep_70000.pth.tar",
+  "repo_id": "LorMolf/FirstAttack-CK",
+  "source_attempt_dir": "/workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543",
+  "source_checkpoint": "/workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/envstep_70000.pth.tar",
+  "source_checkpoint_index": "/workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/ckpt/checkpoint_index.yaml",
+  "source_total_config": "/workspace/combinatorial_reasoning_post_training/models/simplified5_constant_lr_fixed_20260519/round-01/simplified__first_attack/attempt-01_260519_093543/total_config.py",
+  "uploaded_at_utc": "2026-05-19T15:04:12Z",
+  "wandb_project": "crpt-simplified5-constant-lr-continuation",
+  "wandb_run": "constant_lr_20260519__simplified__first_attack__a01"
+}