Upload full trainer checkpoint step=1521 (profile=llama3_2_1b_base_grpo, run_type=grpo)

Browse files

Files changed (8) hide show

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/adapter_config.json +4 -4
meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/adapter_model.safetensors +1 -1
meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/optimizer.pt +1 -1
meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/rng_state.pth +1 -1
meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/scheduler.pt +1 -1
meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/trainer_state.json +594 -594
meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/training_args.bin +1 -1
meta-llama__llama-3.2-1b/grpo/run_manifest.json +11 -5

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/adapter_config.json CHANGED Viewed

@@ -33,13 +33,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "o_proj",
-    "q_proj",
     "gate_proj",
-    "k_proj",
-    "up_proj",
-    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
     "down_proj",
     "o_proj",
     "gate_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b64520dac120360a681172ee6c20f6a8a359f022b00e3736a03fa8f661bc82d
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:525397e0ef3aa15a7fcebf66df0a5900bdbf57328545211f70ccbe51da3755fe
 size 45118424

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0830b03c2dcc83bcc0067bae18a13b427eafd77e198cb48e8c6b6ad8abeb1c0c
 size 23162187

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a7bebb0a43f2b28a2d033fc7b2e0996db510e45e86b7c962f42f3273e1b516e
 size 23162187

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:226d4b57f915ee5226f4e1a0ab194b7b91546f46d15d7a9bc73d173fa0e7e5eb
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:00f874dd9d7ae4223b7072142300bf2ea2e985a109e5fc02ebebfca0a03f44ac
 size 14645

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bc9636f2dbc22ed3ccdb05391916eed679ce751978eea151bc52b8cfe3954b4
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fe0516817ef50b8c17ec21995e3135256f60beca23aec092a3ecc2038dc33d6
 size 1465

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0027015601909741956,
   "eval_steps": 500,
   "global_step": 1521,
   "is_hyper_param_search": false,
@@ -15,25 +15,25 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completion_length": 65.67,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 93.75,
-      "completions/max_terminated_length": 93.75,
-      "completions/mean_length": 63.3203125,
-      "completions/mean_terminated_length": 63.3203125,
-      "completions/min_length": 38.25,
-      "completions/min_terminated_length": 38.25,
-      "epoch": 8.88086847789019e-05,
-      "frac_reward_zero_std": 0.5625,
-      "grad_norm": 0.007002627942711115,
       "kl": 0.0,
-      "learning_rate": 2.7197442330321267e-08,
-      "loss": -0.0006554330885410309,
-      "num_tokens": 57618.0,
-      "reward": -6.51925802230835e-09,
-      "reward_std": 0.48731958121061325,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -8.381903171539307e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.007905274629593,
       "step": 50
     },
     {
@@ -42,52 +42,52 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completion_length": 52.34,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 84.33333333333333,
-      "completions/max_terminated_length": 84.33333333333333,
-      "completions/mean_length": 51.208333333333336,
-      "completions/mean_terminated_length": 51.208333333333336,
-      "completions/min_length": 26.0,
-      "completions/min_terminated_length": 26.0,
-      "epoch": 0.0001776173695578038,
-      "frac_reward_zero_std": 0.6666666666666666,
       "grad_norm": 0.0,
       "kl": 0.0,
-      "learning_rate": 5.494993450411847e-08,
-      "loss": 0.0013675823807716369,
-      "num_tokens": 94074.0,
-      "reward": 1.4901161193847656e-08,
-      "reward_std": 0.44680649042129517,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 1.179675261179606e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052845637004,
       "step": 100
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.00017899675294756888,
-      "clip_ratio/low_min": 0.00017899675294756888,
-      "clip_ratio/region_mean": 0.00017899675294756888,
-      "completion_length": 64.945,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 119.33333333333333,
-      "completions/max_terminated_length": 119.33333333333333,
-      "completions/mean_length": 66.65625,
-      "completions/mean_terminated_length": 66.65625,
-      "completions/min_length": 39.0,
-      "completions/min_terminated_length": 39.0,
-      "epoch": 0.0002664260543367057,
-      "frac_reward_zero_std": 0.7083333333333334,
-      "grad_norm": 0.015731461346149445,
       "kl": 0.0,
-      "learning_rate": 8.270242667791569e-08,
-      "loss": 0.0017325745522975922,
-      "num_tokens": 139152.0,
-      "reward": 2.483526865641276e-09,
-      "reward_std": 0.2613494098186493,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 150
     },
     {
@@ -96,52 +96,52 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completion_length": 60.15,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 99.0,
-      "completions/max_terminated_length": 99.0,
-      "completions/mean_length": 63.015625,
-      "completions/mean_terminated_length": 63.015625,
-      "completions/min_length": 32.666666666666664,
-      "completions/min_terminated_length": 32.666666666666664,
-      "epoch": 0.0003552347391156076,
-      "frac_reward_zero_std": 0.4583333333333333,
-      "grad_norm": 0.039579447358846664,
       "kl": 0.0,
-      "learning_rate": 1.1045491885171288e-07,
-      "loss": -0.0044269835948944096,
-      "num_tokens": 182803.0,
-      "reward": -4.967053731282552e-09,
-      "reward_std": 0.5628267228603363,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -2.483526865641276e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052845637004,
       "step": 200
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.00016559829469770193,
-      "clip_ratio/low_min": 0.00016559829469770193,
-      "clip_ratio/region_mean": 0.00016559829469770193,
-      "completion_length": 64.905,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 98.66666666666667,
-      "completions/max_terminated_length": 98.66666666666667,
-      "completions/mean_length": 64.203125,
-      "completions/mean_terminated_length": 64.203125,
-      "completions/min_length": 35.666666666666664,
-      "completions/min_terminated_length": 35.666666666666664,
-      "epoch": 0.0004440434238945095,
-      "frac_reward_zero_std": 0.4166666666666667,
-      "grad_norm": 0.011699045076966286,
       "kl": 0.0,
-      "learning_rate": 1.382074110255101e-07,
-      "loss": 0.00223430335521698,
-      "num_tokens": 227314.0,
-      "reward": 2.2351741790771484e-08,
-      "reward_std": 0.4298504690329234,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 1.241763432820638e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 250
     },
     {
@@ -150,106 +150,106 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completion_length": 70.07,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 108.0,
-      "completions/max_terminated_length": 108.0,
-      "completions/mean_length": 70.63541666666667,
-      "completions/mean_terminated_length": 70.63541666666667,
-      "completions/min_length": 34.0,
-      "completions/min_terminated_length": 34.0,
-      "epoch": 0.0005328521086734114,
-      "frac_reward_zero_std": 0.5833333333333334,
-      "grad_norm": 0.0456908717751503,
       "kl": 0.0,
-      "learning_rate": 1.659599031993073e-07,
-      "loss": -0.0011175717413425446,
-      "num_tokens": 275956.0,
-      "reward": 5.587935447692871e-09,
-      "reward_std": 0.4012269576390584,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 3.104408582051595e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 300
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 5.8139534667134284e-05,
-      "clip_ratio/low_min": 5.8139534667134284e-05,
-      "clip_ratio/region_mean": 5.8139534667134284e-05,
-      "completion_length": 62.93,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 95.66666666666667,
-      "completions/max_terminated_length": 95.66666666666667,
-      "completions/mean_length": 61.6875,
-      "completions/mean_terminated_length": 61.6875,
-      "completions/min_length": 29.333333333333332,
-      "completions/min_terminated_length": 29.333333333333332,
-      "epoch": 0.0006216607934523133,
-      "frac_reward_zero_std": 0.75,
-      "grad_norm": 0.0190290417522192,
       "kl": 0.0,
-      "learning_rate": 1.9371239537310452e-07,
-      "loss": -0.0010719958692789078,
-      "num_tokens": 319328.0,
-      "reward": -2.483526865641276e-09,
-      "reward_std": 0.34829530119895935,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -4.967053731282552e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 350
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 7.352941203862428e-05,
-      "clip_ratio/low_min": 7.352941203862428e-05,
-      "clip_ratio/region_mean": 7.352941203862428e-05,
-      "completion_length": 62.725,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 105.66666666666667,
-      "completions/max_terminated_length": 105.66666666666667,
-      "completions/mean_length": 62.890625,
-      "completions/mean_terminated_length": 62.890625,
-      "completions/min_length": 34.666666666666664,
-      "completions/min_terminated_length": 34.666666666666664,
-      "epoch": 0.0007104694782312152,
-      "frac_reward_zero_std": 0.5,
-      "grad_norm": 0.02625960297882557,
       "kl": 0.0,
-      "learning_rate": 2.2146488754690174e-07,
-      "loss": 0.0013731226325035095,
-      "num_tokens": 362563.0,
-      "reward": 4.967053731282552e-09,
-      "reward_std": 0.44316299756368,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 400
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 8.695651777088643e-05,
-      "clip_ratio/low_min": 8.695651777088643e-05,
-      "clip_ratio/region_mean": 8.695651777088643e-05,
-      "completion_length": 66.03,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 112.0,
-      "completions/max_terminated_length": 112.0,
-      "completions/mean_length": 70.2890625,
-      "completions/mean_terminated_length": 70.2890625,
-      "completions/min_length": 42.75,
-      "completions/min_terminated_length": 42.75,
-      "epoch": 0.0007992781630101171,
-      "frac_reward_zero_std": 0.5625,
-      "grad_norm": 0.0035960455425083637,
       "kl": 0.0,
-      "learning_rate": 2.492173797206989e-07,
-      "loss": -0.0004108186066150665,
-      "num_tokens": 427021.0,
-      "reward": 1.30385160446167e-08,
-      "reward_std": 0.383321788161993,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 1.4901161193847656e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 450
     },
     {
@@ -258,115 +258,115 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completion_length": 63.98,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 85.33333333333333,
-      "completions/max_terminated_length": 85.33333333333333,
-      "completions/mean_length": 55.046875,
-      "completions/mean_terminated_length": 55.046875,
-      "completions/min_length": 29.666666666666668,
-      "completions/min_terminated_length": 29.666666666666668,
-      "epoch": 0.000888086847789019,
-      "frac_reward_zero_std": 0.7916666666666666,
-      "grad_norm": 0.0006704159895889461,
       "kl": 0.0,
-      "learning_rate": 2.7696987189449615e-07,
-      "loss": 0.0006217561289668084,
-      "num_tokens": 464766.0,
-      "reward": -4.967053731282552e-09,
-      "reward_std": 0.1608196645975113,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 4.967053731282552e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 0.6719369093577067,
       "step": 500
     },
     {
-      "eval_cer_subset": 0.013239532952269286,
-      "eval_cer_subset_edit_distance": 813,
       "eval_cer_subset_groups": 250,
       "eval_cer_subset_items": 250,
       "eval_cer_subset_ref_chars": 61407,
-      "eval_loss": 0.03968957871396896,
       "step": 507
     },
     {
-      "clip_ratio/high_max": 0.00010526316240429879,
-      "clip_ratio/high_mean": 0.00010526316240429879,
-      "clip_ratio/low_mean": 5.917159840464592e-05,
-      "clip_ratio/low_min": 5.917159840464592e-05,
-      "clip_ratio/region_mean": 0.0001644347608089447,
-      "completion_length": 65.61,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 114.66666666666667,
-      "completions/max_terminated_length": 114.66666666666667,
-      "completions/mean_length": 71.984375,
-      "completions/mean_terminated_length": 71.984375,
-      "completions/min_length": 37.0,
-      "completions/min_terminated_length": 37.0,
-      "epoch": 0.000976895532567921,
-      "frac_reward_zero_std": 0.7083333333333334,
-      "grad_norm": 0.008066101931035519,
       "kl": 0.0,
-      "learning_rate": 3.0472236406829335e-07,
-      "loss": -3.333181142807007e-05,
-      "num_tokens": 513963.0,
-      "reward": 0.0,
-      "reward_std": 0.36842172344525653,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 550
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 9.615384973585606e-05,
-      "clip_ratio/low_min": 9.615384973585606e-05,
-      "clip_ratio/region_mean": 9.615384973585606e-05,
-      "completion_length": 73.1,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 108.33333333333333,
-      "completions/max_terminated_length": 108.33333333333333,
-      "completions/mean_length": 71.40104166666667,
-      "completions/mean_terminated_length": 71.40104166666667,
-      "completions/min_length": 47.0,
-      "completions/min_terminated_length": 47.0,
-      "epoch": 0.0010657042173468228,
-      "frac_reward_zero_std": 0.4583333333333333,
-      "grad_norm": 0.00526217557489872,
       "kl": 0.0,
-      "learning_rate": 3.3247485624209054e-07,
-      "loss": 0.00033511649817228315,
-      "num_tokens": 562392.0,
-      "reward": -4.967053731282552e-09,
-      "reward_std": 0.35033048689365387,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -2.483526865641276e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 600
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 6.493506487458944e-05,
-      "clip_ratio/low_min": 6.493506487458944e-05,
-      "clip_ratio/region_mean": 6.493506487458944e-05,
-      "completion_length": 71.48,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 111.66666666666667,
-      "completions/max_terminated_length": 111.66666666666667,
-      "completions/mean_length": 71.27604166666667,
-      "completions/mean_terminated_length": 71.27604166666667,
-      "completions/min_length": 39.666666666666664,
-      "completions/min_terminated_length": 39.666666666666664,
-      "epoch": 0.0011545129021257247,
-      "frac_reward_zero_std": 0.5416666666666666,
-      "grad_norm": 0.02180999144911766,
       "kl": 0.0,
-      "learning_rate": 3.602273484158878e-07,
-      "loss": -0.0010874558240175248,
-      "num_tokens": 610477.0,
-      "reward": -4.967053731282552e-09,
-      "reward_std": 0.29229696094989777,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -4.967053731282552e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 650
     },
     {
@@ -375,304 +375,304 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completion_length": 68.335,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 106.66666666666667,
-      "completions/max_terminated_length": 106.66666666666667,
-      "completions/mean_length": 67.78645833333333,
-      "completions/mean_terminated_length": 67.78645833333333,
-      "completions/min_length": 34.0,
-      "completions/min_terminated_length": 34.0,
-      "epoch": 0.0012433215869046266,
-      "frac_reward_zero_std": 0.5,
-      "grad_norm": 0.03915110602974892,
       "kl": 0.0,
-      "learning_rate": 3.87979840589685e-07,
-      "loss": -0.0011869536340236664,
-      "num_tokens": 657028.0,
-      "reward": 2.483526865641276e-09,
-      "reward_std": 0.5572122434775034,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 2.483526865641276e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 700
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completion_length": 67.125,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 105.33333333333333,
-      "completions/max_terminated_length": 105.33333333333333,
-      "completions/mean_length": 67.28645833333333,
-      "completions/mean_terminated_length": 67.28645833333333,
-      "completions/min_length": 35.333333333333336,
-      "completions/min_terminated_length": 35.333333333333336,
-      "epoch": 0.0013321302716835285,
-      "frac_reward_zero_std": 0.6666666666666666,
-      "grad_norm": 0.048128049820661545,
       "kl": 0.0,
-      "learning_rate": 4.1573233276348217e-07,
-      "loss": 0.0027270379662513735,
-      "num_tokens": 702891.0,
-      "reward": 2.483526865641276e-09,
-      "reward_std": 0.4348108967145284,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -6.829698880513509e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 750
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.00010526316240429879,
-      "clip_ratio/low_min": 0.00010526316240429879,
-      "clip_ratio/region_mean": 0.00010526316240429879,
-      "completion_length": 67.81,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 98.66666666666667,
-      "completions/max_terminated_length": 98.66666666666667,
-      "completions/mean_length": 67.61458333333333,
-      "completions/mean_terminated_length": 67.61458333333333,
-      "completions/min_length": 34.333333333333336,
-      "completions/min_terminated_length": 34.333333333333336,
-      "epoch": 0.0014209389564624304,
-      "frac_reward_zero_std": 0.5833333333333334,
-      "grad_norm": 0.028703227639198303,
       "kl": 0.0,
-      "learning_rate": 4.434848249372794e-07,
-      "loss": -0.0013799819350242615,
-      "num_tokens": 749081.0,
-      "reward": -1.4901161193847656e-08,
-      "reward_std": 0.40635913610458374,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -1.4901161193847656e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 800
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 8.333333767950535e-05,
-      "clip_ratio/low_min": 8.333333767950535e-05,
-      "clip_ratio/region_mean": 8.333333767950535e-05,
-      "completion_length": 73.535,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 113.5,
-      "completions/max_terminated_length": 113.5,
-      "completions/mean_length": 75.88671875,
-      "completions/mean_terminated_length": 75.88671875,
-      "completions/min_length": 36.5,
-      "completions/min_terminated_length": 36.5,
-      "epoch": 0.0015097476412413323,
-      "frac_reward_zero_std": 0.59375,
-      "grad_norm": 0.002819702262058854,
       "kl": 0.0,
-      "learning_rate": 4.712373171110766e-07,
-      "loss": -0.0007266353815793992,
-      "num_tokens": 818284.0,
-      "reward": 9.313225746154785e-09,
-      "reward_std": 0.472036711871624,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 1.1175870895385742e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.007905274629593,
       "step": 850
     },
     {
-      "clip_ratio/high_max": 4.291845485568046e-05,
-      "clip_ratio/high_mean": 4.291845485568046e-05,
-      "clip_ratio/low_mean": 4.32900432497263e-05,
-      "clip_ratio/low_min": 4.32900432497263e-05,
-      "clip_ratio/region_mean": 8.620849810540676e-05,
-      "completion_length": 76.735,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 123.0,
-      "completions/max_terminated_length": 123.0,
-      "completions/mean_length": 73.05208333333333,
-      "completions/mean_terminated_length": 73.05208333333333,
-      "completions/min_length": 38.666666666666664,
-      "completions/min_terminated_length": 38.666666666666664,
-      "epoch": 0.0015985563260202341,
-      "frac_reward_zero_std": 0.5416666666666666,
-      "grad_norm": 0.0,
       "kl": 0.0,
-      "learning_rate": 4.989898092848738e-07,
-      "loss": 0.0014878523349761963,
-      "num_tokens": 868206.0,
-      "reward": 1.241763432820638e-09,
-      "reward_std": 0.4125714997450511,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 4.967053731282552e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052050908406,
       "step": 900
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 5.917159840464592e-05,
-      "clip_ratio/low_min": 5.917159840464592e-05,
-      "clip_ratio/region_mean": 5.917159840464592e-05,
-      "completion_length": 69.03,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 106.33333333333333,
-      "completions/max_terminated_length": 106.33333333333333,
-      "completions/mean_length": 66.10416666666667,
-      "completions/mean_terminated_length": 66.10416666666667,
-      "completions/min_length": 36.666666666666664,
-      "completions/min_terminated_length": 36.666666666666664,
-      "epoch": 0.001687365010799136,
-      "frac_reward_zero_std": 0.625,
-      "grad_norm": 0.0075177694670856,
       "kl": 0.0,
-      "learning_rate": 5.26742301458671e-07,
-      "loss": -0.002387867271900177,
-      "num_tokens": 913738.0,
-      "reward": 0.0,
-      "reward_std": 0.4860446055730184,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 2.483526865641276e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 950
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completion_length": 63.8,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 106.33333333333333,
-      "completions/max_terminated_length": 106.33333333333333,
-      "completions/mean_length": 65.10416666666667,
-      "completions/mean_terminated_length": 65.10416666666667,
-      "completions/min_length": 28.0,
-      "completions/min_terminated_length": 28.0,
-      "epoch": 0.001776173695578038,
-      "frac_reward_zero_std": 0.5416666666666666,
-      "grad_norm": 0.02761891484260559,
       "kl": 0.0,
-      "learning_rate": 5.544947936324682e-07,
-      "loss": 0.0017396166920661926,
-      "num_tokens": 958582.0,
-      "reward": 0.0,
-      "reward_std": 0.4594339330991109,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 2.483526865641276e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079053243001301,
       "step": 1000
     },
     {
-      "eval_cer_subset": 0.013044115491719185,
-      "eval_cer_subset_edit_distance": 801,
       "eval_cer_subset_groups": 250,
       "eval_cer_subset_items": 250,
       "eval_cer_subset_ref_chars": 61407,
-      "eval_loss": 0.03965790307253722,
       "step": 1014
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 7.633587811142206e-05,
-      "clip_ratio/low_min": 7.633587811142206e-05,
-      "clip_ratio/region_mean": 7.633587811142206e-05,
-      "completion_length": 60.39,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 106.33333333333333,
-      "completions/max_terminated_length": 106.33333333333333,
-      "completions/mean_length": 60.489583333333336,
-      "completions/mean_terminated_length": 60.489583333333336,
-      "completions/min_length": 35.666666666666664,
-      "completions/min_terminated_length": 35.666666666666664,
-      "epoch": 0.0018649823803569398,
-      "frac_reward_zero_std": 0.5833333333333334,
-      "grad_norm": 0.0038077128119766712,
       "kl": 0.0,
-      "learning_rate": 5.822472858062655e-07,
-      "loss": -0.00032259501516819,
-      "num_tokens": 1000028.0,
-      "reward": 9.934107462565104e-09,
-      "reward_std": 0.44259731968243915,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052845637004,
       "step": 1050
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 6.211180239915847e-05,
-      "clip_ratio/low_min": 6.211180239915847e-05,
-      "clip_ratio/region_mean": 6.211180239915847e-05,
-      "completion_length": 62.45,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 102.66666666666667,
-      "completions/max_terminated_length": 102.66666666666667,
-      "completions/mean_length": 62.046875,
-      "completions/mean_terminated_length": 62.046875,
-      "completions/min_length": 38.0,
-      "completions/min_terminated_length": 38.0,
-      "epoch": 0.001953791065135842,
-      "frac_reward_zero_std": 0.5416666666666666,
-      "grad_norm": 0.010413075797259808,
       "kl": 0.0,
-      "learning_rate": 6.099997779800627e-07,
-      "loss": 0.0010119295865297319,
-      "num_tokens": 1042829.0,
-      "reward": 1.241763432820638e-09,
-      "reward_std": 0.5440023342768351,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 2.483526865641276e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 1100
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 5.3191487677395346e-05,
-      "clip_ratio/low_min": 5.3191487677395346e-05,
-      "clip_ratio/region_mean": 5.3191487677395346e-05,
-      "completion_length": 67.07,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 104.66666666666667,
-      "completions/max_terminated_length": 104.66666666666667,
-      "completions/mean_length": 67.171875,
-      "completions/mean_terminated_length": 67.171875,
-      "completions/min_length": 35.666666666666664,
-      "completions/min_terminated_length": 35.666666666666664,
-      "epoch": 0.0020425997499147436,
-      "frac_reward_zero_std": 0.4583333333333333,
-      "grad_norm": 0.0493728443980217,
       "kl": 0.0,
-      "learning_rate": 6.377522701538599e-07,
-      "loss": -0.00021354854106903076,
-      "num_tokens": 1088622.0,
-      "reward": -1.7074247201283772e-08,
-      "reward_std": 0.5459979971249899,
-      "rewards/TranscriptCorrectionGrpoReward/mean": -2.0489096641540527e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052845637004,
       "step": 1150
     },
     {
-      "clip_ratio/high_max": 6.211180239915847e-05,
-      "clip_ratio/high_mean": 6.211180239915847e-05,
-      "clip_ratio/low_mean": 4.999999888241291e-05,
-      "clip_ratio/low_min": 4.999999888241291e-05,
-      "clip_ratio/region_mean": 0.00011211180128157139,
-      "completion_length": 66.76,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 100.33333333333333,
-      "completions/max_terminated_length": 100.33333333333333,
-      "completions/mean_length": 67.109375,
-      "completions/mean_terminated_length": 67.109375,
-      "completions/min_length": 40.666666666666664,
-      "completions/min_terminated_length": 40.666666666666664,
-      "epoch": 0.0021314084346936457,
-      "frac_reward_zero_std": 0.6666666666666666,
-      "grad_norm": 0.0007921307114884257,
       "kl": 0.0,
-      "learning_rate": 6.655047623276571e-07,
-      "loss": -0.0006299776583909988,
-      "num_tokens": 1134523.0,
-      "reward": 4.967053731282552e-09,
-      "reward_std": 0.24005796015262604,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 1.4901161193847656e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 1200
     },
     {
@@ -681,175 +681,175 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completion_length": 66.65,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 108.5,
-      "completions/max_terminated_length": 108.5,
-      "completions/mean_length": 64.26953125,
-      "completions/mean_terminated_length": 64.26953125,
-      "completions/min_length": 33.5,
-      "completions/min_terminated_length": 33.5,
-      "epoch": 0.0022202171194725473,
-      "frac_reward_zero_std": 0.6875,
-      "grad_norm": 0.0,
       "kl": 0.0,
-      "learning_rate": 6.932572545014544e-07,
-      "loss": -0.000320572704076767,
-      "num_tokens": 1193424.0,
-      "reward": 3.725290298461914e-09,
-      "reward_std": 0.4126547574996948,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 2.7939677238464355e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 1250
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.00013079616706818342,
-      "clip_ratio/low_min": 0.00013079616706818342,
-      "clip_ratio/region_mean": 0.00013079616706818342,
-      "completion_length": 65.935,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 100.33333333333333,
-      "completions/max_terminated_length": 100.33333333333333,
-      "completions/mean_length": 66.515625,
-      "completions/mean_terminated_length": 66.515625,
-      "completions/min_length": 35.333333333333336,
-      "completions/min_terminated_length": 35.333333333333336,
-      "epoch": 0.0023090258042514494,
-      "frac_reward_zero_std": 0.625,
-      "grad_norm": 0.009241115301847458,
       "kl": 0.0,
-      "learning_rate": 7.210097466752515e-07,
-      "loss": -0.000618676021695137,
-      "num_tokens": 1239227.0,
       "reward": 0.0,
-      "reward_std": 0.4066670338312785,
       "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052845637004,
       "step": 1300
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 5.586592014878988e-05,
-      "clip_ratio/low_min": 5.586592014878988e-05,
-      "clip_ratio/region_mean": 5.586592014878988e-05,
-      "completion_length": 61.28,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 106.66666666666667,
-      "completions/max_terminated_length": 106.66666666666667,
-      "completions/mean_length": 65.02083333333333,
-      "completions/mean_terminated_length": 65.02083333333333,
-      "completions/min_length": 33.666666666666664,
-      "completions/min_terminated_length": 33.666666666666664,
-      "epoch": 0.002397834489030351,
-      "frac_reward_zero_std": 0.6666666666666666,
-      "grad_norm": 0.010475926101207733,
       "kl": 0.0,
-      "learning_rate": 7.487622388490487e-07,
-      "loss": 0.0006281441450119019,
-      "num_tokens": 1283967.0,
-      "reward": 9.934107462565104e-09,
-      "reward_std": 0.3140339305003484,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 1.241763432820638e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 1350
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.00010416666977107525,
-      "clip_ratio/low_min": 0.00010416666977107525,
-      "clip_ratio/region_mean": 0.00010416666977107525,
-      "completion_length": 64.255,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 96.66666666666667,
-      "completions/max_terminated_length": 96.66666666666667,
-      "completions/mean_length": 61.161458333333336,
-      "completions/mean_terminated_length": 61.161458333333336,
-      "completions/min_length": 34.333333333333336,
-      "completions/min_terminated_length": 34.333333333333336,
-      "epoch": 0.002486643173809253,
-      "frac_reward_zero_std": 0.7083333333333334,
-      "grad_norm": 0.02102189138531685,
       "kl": 0.0,
-      "learning_rate": 7.765147310228459e-07,
-      "loss": -0.0013700899481773375,
-      "num_tokens": 1326542.0,
-      "reward": 2.483526865641276e-09,
-      "reward_std": 0.38102721174558,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 7.450580596923828e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 1400
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 8.771929889917374e-05,
-      "clip_ratio/low_min": 8.771929889917374e-05,
-      "clip_ratio/region_mean": 8.771929889917374e-05,
-      "completion_length": 65.215,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 112.0,
-      "completions/max_terminated_length": 112.0,
-      "completions/mean_length": 67.92708333333333,
-      "completions/mean_terminated_length": 67.92708333333333,
-      "completions/min_length": 33.666666666666664,
-      "completions/min_terminated_length": 33.666666666666664,
-      "epoch": 0.002575451858588155,
-      "frac_reward_zero_std": 0.8333333333333334,
       "grad_norm": 0.0,
       "kl": 0.0,
-      "learning_rate": 8.042672231966431e-07,
-      "loss": 0.001429552286863327,
-      "num_tokens": 1373424.0,
-      "reward": 0.0,
-      "reward_std": 0.2193582976857821,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 4.967053731282552e-09,
-      "rewards/TranscriptCorrectionGrpoReward/std": 0.671936829884847,
       "step": 1450
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.00015233600046485663,
-      "clip_ratio/low_min": 0.00015233600046485663,
-      "clip_ratio/region_mean": 0.00015233600046485663,
-      "completion_length": 69.035,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 94.0,
-      "completions/max_terminated_length": 94.0,
-      "completions/mean_length": 69.44791666666667,
-      "completions/mean_terminated_length": 69.44791666666667,
-      "completions/min_length": 41.0,
-      "completions/min_terminated_length": 41.0,
-      "epoch": 0.002664260543367057,
-      "frac_reward_zero_std": 0.625,
-      "grad_norm": 0.001688106800429523,
       "kl": 0.0,
-      "learning_rate": 8.320197153704403e-07,
-      "loss": -0.0005409684777259826,
-      "num_tokens": 1421518.0,
-      "reward": 1.4901161193847656e-08,
-      "reward_std": 0.3605746428171794,
-      "rewards/TranscriptCorrectionGrpoReward/mean": 2.483526865641276e-08,
-      "rewards/TranscriptCorrectionGrpoReward/std": 1.0079052448272705,
       "step": 1500
     },
     {
-      "eval_cer_subset": 0.012653280570618985,
-      "eval_cer_subset_edit_distance": 777,
       "eval_cer_subset_groups": 250,
       "eval_cer_subset_items": 250,
       "eval_cer_subset_ref_chars": 61407,
-      "eval_loss": 0.03984795692112765,
       "step": 1521
     }
   ],
   "logging_steps": 50,
-  "max_steps": 2252032,
-  "num_input_tokens_seen": 1452552,
   "num_train_epochs": 4,
   "save_steps": 507,
   "stateful_callbacks": {
@@ -865,7 +865,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0027015505941279908,
   "eval_steps": 500,
   "global_step": 1521,
   "is_hyper_param_search": false,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completion_length": 65.68,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.88,
+      "completions/max_terminated_length": 65.88,
+      "completions/mean_length": 65.68,
+      "completions/mean_terminated_length": 65.68,
+      "completions/min_length": 65.48,
+      "completions/min_terminated_length": 65.48,
+      "epoch": 8.88083693007229e-05,
+      "frac_reward_zero_std": 0.56,
+      "grad_norm": 0.5719226598739624,
       "kl": 0.0,
+      "learning_rate": 5.439488466064254e-09,
+      "loss": -0.000577671229839325,
+      "num_tokens": 46552.0,
+      "reward": 2.9802322387695314e-09,
+      "reward_std": 0.47037978172302247,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 2.9802322387695314e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.4703797769546509,
       "step": 50
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completion_length": 53.46,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 53.6,
+      "completions/max_terminated_length": 53.6,
+      "completions/mean_length": 53.46,
+      "completions/mean_terminated_length": 53.46,
+      "completions/min_length": 53.24,
+      "completions/min_terminated_length": 53.24,
+      "epoch": 0.0001776167386014458,
+      "frac_reward_zero_std": 0.64,
       "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.0989986900823695e-08,
+      "loss": -0.0009160846471786499,
+      "num_tokens": 85556.0,
+      "reward": 3.874301910400391e-09,
+      "reward_std": 0.38485618114471437,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 3.874301910400391e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.38485618114471437,
       "step": 100
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.00011904762126505375,
+      "clip_ratio/low_min": 0.00011904762126505375,
+      "clip_ratio/region_mean": 0.00011904762126505375,
+      "completion_length": 62.48,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.6,
+      "completions/max_terminated_length": 62.6,
+      "completions/mean_length": 62.48,
+      "completions/mean_terminated_length": 62.48,
+      "completions/min_length": 62.24,
+      "completions/min_terminated_length": 62.24,
+      "epoch": 0.0002664251079021687,
+      "frac_reward_zero_std": 0.56,
+      "grad_norm": 0.2554231286048889,
       "kl": 0.0,
+      "learning_rate": 1.6540485335583138e-08,
+      "loss": -0.0009111672639846802,
+      "num_tokens": 130380.0,
+      "reward": -1.1920928955078125e-09,
+      "reward_std": 0.4703797769546509,
+      "rewards/TranscriptCorrectionGrpoReward/mean": -1.1920928955078125e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.47037978172302247,
       "step": 150
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completion_length": 62.175,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.36,
+      "completions/max_terminated_length": 62.36,
+      "completions/mean_length": 62.175,
+      "completions/mean_terminated_length": 62.175,
+      "completions/min_length": 61.88,
+      "completions/min_terminated_length": 61.88,
+      "epoch": 0.0003552334772028916,
+      "frac_reward_zero_std": 0.56,
+      "grad_norm": 0.627755343914032,
       "kl": 0.0,
+      "learning_rate": 2.2090983770342578e-08,
+      "loss": -0.0005262196063995361,
+      "num_tokens": 174959.0,
+      "reward": 1.1920928955078125e-09,
+      "reward_std": 0.47037978172302247,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 1.1920928955078125e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.4703797769546509,
       "step": 200
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.00016129031777381897,
+      "clip_ratio/low_min": 0.00016129031777381897,
+      "clip_ratio/region_mean": 0.00016129031777381897,
+      "completion_length": 65.835,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.08,
+      "completions/max_terminated_length": 66.08,
+      "completions/mean_length": 65.835,
+      "completions/mean_terminated_length": 65.835,
+      "completions/min_length": 65.6,
+      "completions/min_terminated_length": 65.6,
+      "epoch": 0.0004440418465036145,
+      "frac_reward_zero_std": 0.52,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 2.764148220510202e-08,
+      "loss": -0.00036669328808784483,
+      "num_tokens": 222270.0,
+      "reward": 3.874301910400391e-09,
+      "reward_std": 0.5131415796279907,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 3.874301910400391e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.5131415748596191,
       "step": 250
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completion_length": 68.75,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.04,
+      "completions/max_terminated_length": 69.04,
+      "completions/mean_length": 68.75,
+      "completions/mean_terminated_length": 68.75,
+      "completions/min_length": 68.56,
+      "completions/min_terminated_length": 68.56,
+      "epoch": 0.0005328502158043374,
+      "frac_reward_zero_std": 0.6,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 3.3191980639861464e-08,
+      "loss": 0.0001394149661064148,
+      "num_tokens": 271740.0,
+      "reward": 6.258487701416015e-09,
+      "reward_std": 0.4276179838180542,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 6.258487701416015e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.42761797904968263,
       "step": 300
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 61.07,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.2,
+      "completions/max_terminated_length": 61.2,
+      "completions/mean_length": 61.07,
+      "completions/mean_terminated_length": 61.07,
+      "completions/min_length": 60.96,
+      "completions/min_terminated_length": 60.96,
+      "epoch": 0.0006216585851050603,
+      "frac_reward_zero_std": 0.72,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 3.8742479074620904e-08,
+      "loss": -5.508854985237121e-05,
+      "num_tokens": 316354.0,
+      "reward": 2.384185791015625e-09,
+      "reward_std": 0.29933258533477786,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 2.384185791015625e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.2993325901031494,
       "step": 350
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 64.22,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.6,
+      "completions/max_terminated_length": 64.6,
+      "completions/mean_length": 64.22,
+      "completions/mean_terminated_length": 64.22,
+      "completions/min_length": 63.92,
+      "completions/min_terminated_length": 63.92,
+      "epoch": 0.0007104669544057832,
+      "frac_reward_zero_std": 0.56,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 4.429297750938035e-08,
+      "loss": -0.0010024748742580413,
+      "num_tokens": 362550.0,
+      "reward": 5.960464477539063e-10,
+      "reward_std": 0.4703797769546509,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 5.960464477539063e-10,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.4703797769546509,
       "step": 400
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 65.25,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.36,
+      "completions/max_terminated_length": 65.36,
+      "completions/mean_length": 65.25,
+      "completions/mean_terminated_length": 65.25,
+      "completions/min_length": 65.04,
+      "completions/min_terminated_length": 65.04,
+      "epoch": 0.000799275323706506,
+      "frac_reward_zero_std": 0.6,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 4.984347594413978e-08,
+      "loss": -0.0002909022569656372,
+      "num_tokens": 409416.0,
+      "reward": 1.7881393432617187e-09,
+      "reward_std": 0.4276179838180542,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 1.7881393432617187e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.4276179838180542,
       "step": 450
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completion_length": 65.76,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.92,
+      "completions/max_terminated_length": 65.92,
+      "completions/mean_length": 65.76,
+      "completions/mean_terminated_length": 65.76,
+      "completions/min_length": 65.68,
+      "completions/min_terminated_length": 65.68,
+      "epoch": 0.000888083693007229,
+      "frac_reward_zero_std": 0.84,
+      "grad_norm": 0.035873379558324814,
       "kl": 0.0,
+      "learning_rate": 5.5393974378899236e-08,
+      "loss": -0.000893859937787056,
+      "num_tokens": 456024.0,
+      "reward": 0.0,
+      "reward_std": 0.17104718685150147,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.17104719161987306,
       "step": 500
     },
     {
+      "eval_cer_subset": 0.012913837184685785,
+      "eval_cer_subset_edit_distance": 793,
       "eval_cer_subset_groups": 250,
       "eval_cer_subset_items": 250,
       "eval_cer_subset_ref_chars": 61407,
+      "eval_loss": 0.03959455178967374,
       "step": 507
     },
     {
+      "clip_ratio/high_max": 8.333333767950535e-05,
+      "clip_ratio/high_mean": 8.333333767950535e-05,
+      "clip_ratio/low_mean": 0.00014285714365541935,
+      "clip_ratio/low_min": 0.00014285714365541935,
+      "clip_ratio/region_mean": 0.0002261904813349247,
+      "completion_length": 66.25,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 66.64,
+      "completions/max_terminated_length": 66.64,
+      "completions/mean_length": 66.25,
+      "completions/mean_terminated_length": 66.25,
+      "completions/min_length": 66.0,
+      "completions/min_terminated_length": 66.0,
+      "epoch": 0.0009768920623079518,
+      "frac_reward_zero_std": 0.64,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 6.094447281365867e-08,
+      "loss": 0.000100860595703125,
+      "num_tokens": 503522.0,
+      "reward": 5.960464477539063e-10,
+      "reward_std": 0.38485618114471437,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 5.960464477539063e-10,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.38485618114471437,
       "step": 550
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 70.03,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 70.16,
+      "completions/max_terminated_length": 70.16,
+      "completions/mean_length": 70.03,
+      "completions/mean_terminated_length": 70.03,
+      "completions/min_length": 69.8,
+      "completions/min_terminated_length": 69.8,
+      "epoch": 0.0010657004316086747,
+      "frac_reward_zero_std": 0.52,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 6.649497124841812e-08,
+      "loss": -0.00029084362089633944,
+      "num_tokens": 553312.0,
+      "reward": 2.682209014892578e-09,
+      "reward_std": 0.5131415700912476,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 2.682209014892578e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.5131415748596191,
       "step": 600
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 71.26,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.76,
+      "completions/max_terminated_length": 71.76,
+      "completions/mean_length": 71.26,
+      "completions/mean_terminated_length": 71.26,
+      "completions/min_length": 70.52,
+      "completions/min_terminated_length": 70.52,
+      "epoch": 0.0011545088009093977,
+      "frac_reward_zero_std": 0.44,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 7.204546968317756e-08,
+      "loss": -0.0016799652576446533,
+      "num_tokens": 603180.0,
+      "reward": -1.7881393432617187e-09,
+      "reward_std": 0.5986651754379273,
+      "rewards/TranscriptCorrectionGrpoReward/mean": -1.7881393432617187e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.5986651802062988,
       "step": 650
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completion_length": 71.675,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 71.88,
+      "completions/max_terminated_length": 71.88,
+      "completions/mean_length": 71.675,
+      "completions/mean_terminated_length": 71.675,
+      "completions/min_length": 71.52,
+      "completions/min_terminated_length": 71.52,
+      "epoch": 0.0012433171702101206,
+      "frac_reward_zero_std": 0.6,
+      "grad_norm": 0.18659119307994843,
       "kl": 0.0,
+      "learning_rate": 7.7595968117937e-08,
+      "loss": -0.0002913355827331543,
+      "num_tokens": 654187.0,
+      "reward": 4.172325134277344e-09,
+      "reward_std": 0.4276179838180542,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 4.172325134277344e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.42761797904968263,
       "step": 700
     },
     {
+      "clip_ratio/high_max": 3.731343196704984e-05,
+      "clip_ratio/high_mean": 3.731343196704984e-05,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 3.731343196704984e-05,
+      "completion_length": 65.635,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 65.92,
+      "completions/max_terminated_length": 65.92,
+      "completions/mean_length": 65.635,
+      "completions/mean_terminated_length": 65.635,
+      "completions/min_length": 65.4,
+      "completions/min_terminated_length": 65.4,
+      "epoch": 0.0013321255395108435,
+      "frac_reward_zero_std": 0.64,
+      "grad_norm": 0.32996097207069397,
       "kl": 0.0,
+      "learning_rate": 8.314646655269643e-08,
+      "loss": 0.0007577691972255707,
+      "num_tokens": 700882.0,
+      "reward": 2.9802322387695314e-09,
+      "reward_std": 0.38485618114471437,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 2.9802322387695314e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.38485618114471437,
       "step": 750
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 67.45,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.64,
+      "completions/max_terminated_length": 67.64,
+      "completions/mean_length": 67.45,
+      "completions/mean_terminated_length": 67.45,
+      "completions/min_length": 67.16,
+      "completions/min_terminated_length": 67.16,
+      "epoch": 0.0014209339088115665,
+      "frac_reward_zero_std": 0.36,
+      "grad_norm": 0.2260763943195343,
       "kl": 0.0,
+      "learning_rate": 8.869696498745589e-08,
+      "loss": -2.6343166828155516e-05,
+      "num_tokens": 749036.0,
+      "reward": 3.2782554626464844e-09,
+      "reward_std": 0.6841887712478638,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 3.2782554626464844e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.6841887760162354,
       "step": 800
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0001351351384073496,
+      "clip_ratio/low_min": 0.0001351351384073496,
+      "clip_ratio/region_mean": 0.0001351351384073496,
+      "completion_length": 75.2,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 75.36,
+      "completions/max_terminated_length": 75.36,
+      "completions/mean_length": 75.2,
+      "completions/mean_terminated_length": 75.2,
+      "completions/min_length": 75.04,
+      "completions/min_terminated_length": 75.04,
+      "epoch": 0.0015097422781122894,
+      "frac_reward_zero_std": 0.52,
+      "grad_norm": 0.1280648559331894,
       "kl": 0.0,
+      "learning_rate": 9.424746342221532e-08,
+      "loss": -0.00025221601128578186,
+      "num_tokens": 802604.0,
+      "reward": 0.0,
+      "reward_std": 0.5131415748596191,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.5131415796279907,
       "step": 850
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 74.185,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 74.4,
+      "completions/max_terminated_length": 74.4,
+      "completions/mean_length": 74.185,
+      "completions/mean_terminated_length": 74.185,
+      "completions/min_length": 73.92,
+      "completions/min_terminated_length": 73.92,
+      "epoch": 0.001598550647413012,
+      "frac_reward_zero_std": 0.48,
+      "grad_norm": 0.4582439661026001,
       "kl": 0.0,
+      "learning_rate": 9.979796185697477e-08,
+      "loss": -8.721232414245606e-05,
+      "num_tokens": 855385.0,
+      "reward": 3.5762786865234374e-09,
+      "reward_std": 0.5559033727645875,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 3.5762786865234374e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.5559033727645875,
       "step": 900
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 69.455,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 69.68,
+      "completions/max_terminated_length": 69.68,
+      "completions/mean_length": 69.455,
+      "completions/mean_terminated_length": 69.455,
+      "completions/min_length": 69.04,
+      "completions/min_terminated_length": 69.04,
+      "epoch": 0.001687359016713735,
+      "frac_reward_zero_std": 0.6,
+      "grad_norm": 0.03906433284282684,
       "kl": 0.0,
+      "learning_rate": 1.053484602917342e-07,
+      "loss": 0.00033147528767585755,
+      "num_tokens": 905012.0,
+      "reward": 4.172325134277344e-09,
+      "reward_std": 0.42761797428131104,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 4.172325134277344e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.42761797904968263,
       "step": 950
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0001351351384073496,
+      "clip_ratio/low_min": 0.0001351351384073496,
+      "clip_ratio/region_mean": 0.0001351351384073496,
+      "completion_length": 61.425,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 61.72,
+      "completions/max_terminated_length": 61.72,
+      "completions/mean_length": 61.425,
+      "completions/mean_terminated_length": 61.425,
+      "completions/min_length": 61.12,
+      "completions/min_terminated_length": 61.12,
+      "epoch": 0.001776167386014458,
+      "frac_reward_zero_std": 0.56,
+      "grad_norm": 1.1754662990570068,
       "kl": 0.0,
+      "learning_rate": 1.1089895872649365e-07,
+      "loss": -0.0008977200835943222,
+      "num_tokens": 949385.0,
+      "reward": -5.960464477539063e-10,
+      "reward_std": 0.47037978172302247,
+      "rewards/TranscriptCorrectionGrpoReward/mean": -5.960464477539063e-10,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.4703797769546509,
       "step": 1000
     },
     {
+      "eval_cer_subset": 0.013076685068477535,
+      "eval_cer_subset_edit_distance": 803,
       "eval_cer_subset_groups": 250,
       "eval_cer_subset_items": 250,
       "eval_cer_subset_ref_chars": 61407,
+      "eval_loss": 0.03962622743110548,
       "step": 1014
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 61.815,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.04,
+      "completions/max_terminated_length": 62.04,
+      "completions/mean_length": 61.815,
+      "completions/mean_terminated_length": 61.815,
+      "completions/min_length": 61.56,
+      "completions/min_terminated_length": 61.56,
+      "epoch": 0.001864975755315181,
+      "frac_reward_zero_std": 0.6,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.1644945716125309e-07,
+      "loss": 0.0001289863884449005,
+      "num_tokens": 993580.0,
+      "reward": 1.4901161193847657e-09,
+      "reward_std": 0.4276179885864258,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 1.4901161193847657e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.42761797904968263,
       "step": 1050
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.00011363636702299118,
+      "clip_ratio/low_min": 0.00011363636702299118,
+      "clip_ratio/region_mean": 0.00011363636702299118,
+      "completion_length": 62.35,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.56,
+      "completions/max_terminated_length": 62.56,
+      "completions/mean_length": 62.35,
+      "completions/mean_terminated_length": 62.35,
+      "completions/min_length": 62.24,
+      "completions/min_terminated_length": 62.24,
+      "epoch": 0.0019537841246159036,
+      "frac_reward_zero_std": 0.64,
+      "grad_norm": 0.14012472331523895,
       "kl": 0.0,
+      "learning_rate": 1.2199995559601254e-07,
+      "loss": 0.0005487602949142456,
+      "num_tokens": 1038234.0,
+      "reward": 3.5762786865234374e-09,
+      "reward_std": 0.38485618591308596,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 3.5762786865234374e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.38485618114471437,
       "step": 1100
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 67.58,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 67.76,
+      "completions/max_terminated_length": 67.76,
+      "completions/mean_length": 67.58,
+      "completions/mean_terminated_length": 67.58,
+      "completions/min_length": 67.32,
+      "completions/min_terminated_length": 67.32,
+      "epoch": 0.0020425924939166265,
+      "frac_reward_zero_std": 0.48,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.2755045403077197e-07,
+      "loss": -0.00019566014409065248,
+      "num_tokens": 1086214.0,
+      "reward": 2.682209014892578e-09,
+      "reward_std": 0.5559033727645875,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 2.682209014892578e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.5559033727645875,
       "step": 1150
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 6.849315017461777e-05,
+      "clip_ratio/low_min": 6.849315017461777e-05,
+      "clip_ratio/region_mean": 6.849315017461777e-05,
+      "completion_length": 67.835,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.12,
+      "completions/max_terminated_length": 68.12,
+      "completions/mean_length": 67.835,
+      "completions/mean_terminated_length": 67.835,
+      "completions/min_length": 67.64,
+      "completions/min_terminated_length": 67.64,
+      "epoch": 0.0021314008632173495,
+      "frac_reward_zero_std": 0.64,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.331009524655314e-07,
+      "loss": 0.0007767707109451294,
+      "num_tokens": 1134493.0,
+      "reward": 1.1920928955078125e-09,
+      "reward_std": 0.3848561763763428,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 1.1920928955078125e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.38485618114471437,
       "step": 1200
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completion_length": 68.39,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.68,
+      "completions/max_terminated_length": 68.68,
+      "completions/mean_length": 68.39,
+      "completions/mean_terminated_length": 68.39,
+      "completions/min_length": 68.2,
+      "completions/min_terminated_length": 68.2,
+      "epoch": 0.0022202092325180724,
+      "frac_reward_zero_std": 0.6,
+      "grad_norm": 0.18301734328269958,
       "kl": 0.0,
+      "learning_rate": 1.3865145090029086e-07,
+      "loss": -0.00031893253326416017,
+      "num_tokens": 1183027.0,
+      "reward": 2.384185791015625e-09,
+      "reward_std": 0.42761797904968263,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 2.384185791015625e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.42761797904968263,
       "step": 1250
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 64.62,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 64.72,
+      "completions/max_terminated_length": 64.72,
+      "completions/mean_length": 64.62,
+      "completions/mean_terminated_length": 64.62,
+      "completions/min_length": 64.48,
+      "completions/min_terminated_length": 64.48,
+      "epoch": 0.0023090176018187953,
+      "frac_reward_zero_std": 0.8,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.442019493350503e-07,
+      "loss": -0.0005694808065891266,
+      "num_tokens": 1229847.0,
       "reward": 0.0,
+      "reward_std": 0.21380898952484131,
       "rewards/TranscriptCorrectionGrpoReward/mean": 0.0,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.21380898952484131,
       "step": 1300
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.00011627906933426857,
+      "clip_ratio/low_min": 0.00011627906933426857,
+      "clip_ratio/region_mean": 0.00011627906933426857,
+      "completion_length": 62.82,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.04,
+      "completions/max_terminated_length": 63.04,
+      "completions/mean_length": 62.82,
+      "completions/mean_terminated_length": 62.82,
+      "completions/min_length": 62.6,
+      "completions/min_terminated_length": 62.6,
+      "epoch": 0.0023978259711195183,
+      "frac_reward_zero_std": 0.52,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.4975244776980973e-07,
+      "loss": -0.0006587636470794677,
+      "num_tokens": 1274827.0,
+      "reward": -1.9371509552001954e-09,
+      "reward_std": 0.5131415700912476,
+      "rewards/TranscriptCorrectionGrpoReward/mean": -1.9371509552001954e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.5131415796279907,
       "step": 1350
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 62.54,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 62.68,
+      "completions/max_terminated_length": 62.68,
+      "completions/mean_length": 62.54,
+      "completions/mean_terminated_length": 62.54,
+      "completions/min_length": 62.36,
+      "completions/min_terminated_length": 62.36,
+      "epoch": 0.002486634340420241,
+      "frac_reward_zero_std": 0.56,
+      "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.553029462045692e-07,
+      "loss": 0.00019890040159225463,
+      "num_tokens": 1320071.0,
+      "reward": 2.2351741790771484e-09,
+      "reward_std": 0.47037978172302247,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 2.2351741790771484e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.47037978172302247,
       "step": 1400
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 63.6,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 63.68,
+      "completions/max_terminated_length": 63.68,
+      "completions/mean_length": 63.6,
+      "completions/mean_terminated_length": 63.6,
+      "completions/min_length": 63.48,
+      "completions/min_terminated_length": 63.48,
+      "epoch": 0.002575442709720964,
+      "frac_reward_zero_std": 0.8,
       "grad_norm": 0.0,
       "kl": 0.0,
+      "learning_rate": 1.6085344463932862e-07,
+      "loss": 2.284705638885498e-05,
+      "num_tokens": 1366199.0,
+      "reward": 1.7881393432617187e-09,
+      "reward_std": 0.21380898952484131,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 1.7881393432617187e-09,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.21380898952484131,
       "step": 1450
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completion_length": 68.165,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 68.36,
+      "completions/max_terminated_length": 68.36,
+      "completions/mean_length": 68.165,
+      "completions/mean_terminated_length": 68.165,
+      "completions/min_length": 67.88,
+      "completions/min_terminated_length": 67.88,
+      "epoch": 0.002664251079021687,
+      "frac_reward_zero_std": 0.56,
+      "grad_norm": 0.32475942373275757,
       "kl": 0.0,
+      "learning_rate": 1.6640394307408808e-07,
+      "loss": -0.0001750713586807251,
+      "num_tokens": 1415240.0,
+      "reward": 8.940696716308593e-10,
+      "reward_std": 0.4703797721862793,
+      "rewards/TranscriptCorrectionGrpoReward/mean": 8.940696716308593e-10,
+      "rewards/TranscriptCorrectionGrpoReward/std": 0.4703797769546509,
       "step": 1500
     },
     {
+      "eval_cer_subset": 0.01286498281954826,
+      "eval_cer_subset_edit_distance": 790,
       "eval_cer_subset_groups": 250,
       "eval_cer_subset_items": 250,
       "eval_cer_subset_ref_chars": 61407,
+      "eval_loss": 0.03962622743110548,
       "step": 1521
     }
   ],
   "logging_steps": 50,
+  "max_steps": 2252040,
+  "num_input_tokens_seen": 1438098,
   "num_train_epochs": 4,
   "save_steps": 507,
   "stateful_callbacks": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efd03f5456a4c15d2256ba2960a071c6dc2cb8a2ff8cf43b4f1331b6c112c442
 size 6737

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bdad4bf60f02650b7130e20d3de1e81654197d408ff77954683d133ac0bce86
 size 6737

meta-llama__llama-3.2-1b/grpo/run_manifest.json CHANGED Viewed

@@ -6,10 +6,10 @@
   "model_name": "meta-llama/Llama-3.2-1B",
   "status": "running",
   "best_metric_name": "eval_cer_subset",
-  "best_metric_value": 0.012913837184685785,
-  "best_step": 507,
-  "best_checkpoint_step": 507,
-  "latest_checkpoint_step": 1014,
   "checkpoints": [
     {
       "step": 507,
@@ -22,10 +22,16 @@
       "epoch": 0.0018010337294186605,
       "repo_path": "meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1014",
       "timestamp": "2026-04-09T03:49:15.799552+00:00"
     }
   ],
   "epoch_artifacts": [],
   "resume_history": [],
   "created_at": "2026-04-09T03:35:11.674696+00:00",
-  "updated_at": "2026-04-09T03:49:15.799567+00:00"
 }

   "model_name": "meta-llama/Llama-3.2-1B",
   "status": "running",
   "best_metric_name": "eval_cer_subset",
+  "best_metric_value": 0.01286498281954826,
+  "best_step": 1521,
+  "best_checkpoint_step": 1521,
+  "latest_checkpoint_step": 1521,
   "checkpoints": [
     {
       "step": 507,
       "epoch": 0.0018010337294186605,
       "repo_path": "meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1014",
       "timestamp": "2026-04-09T03:49:15.799552+00:00"
+    },
+    {
+      "step": 1521,
+      "epoch": 0.0027015505941279908,
+      "repo_path": "meta-llama__llama-3.2-1b/grpo/checkpoints/checkpoint-1521",
+      "timestamp": "2026-04-09T03:55:44.298843+00:00"
     }
   ],
   "epoch_artifacts": [],
   "resume_history": [],
   "created_at": "2026-04-09T03:35:11.674696+00:00",
+  "updated_at": "2026-04-09T03:55:44.298859+00:00"
 }