wlzhou
/

Qwen2.5-1.5B-Open-R1-GRPO

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/need-ai/open-r1-basic/runs/vg6arpjq)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/need-ai/open-r1-basic/runs/9iazxyaj)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0,
-    "train_runtime": 0.8416,
     "train_samples": 20,
-    "train_samples_per_second": 237.641,
-    "train_steps_per_second": 59.41
 }

 {
     "total_flos": 0.0,
+    "train_loss": 62.185223487904295,
+    "train_runtime": 1153.4055,
     "train_samples": 20,
+    "train_samples_per_second": 0.173,
+    "train_steps_per_second": 0.043
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0,
-    "train_runtime": 0.8416,
     "train_samples": 20,
-    "train_samples_per_second": 237.641,
-    "train_steps_per_second": 59.41
 }

 {
     "total_flos": 0.0,
+    "train_loss": 62.185223487904295,
+    "train_runtime": 1153.4055,
     "train_samples": 20,
+    "train_samples_per_second": 0.173,
+    "train_steps_per_second": 0.043
 }

trainer_state.json CHANGED Viewed

@@ -10,802 +10,810 @@
   "log_history": [
     {
       "clip_ratio": 0.0,
-      "completion_length": 452.3125,
       "epoch": 0.2,
-      "grad_norm": 2.0023154714436275,
       "kl": 0.0,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.1503,
-      "reward": 0.375,
-      "reward_std": 0.49297715723514557,
       "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.375,
       "rewards/format_reward_staging": 0.0,
       "step": 1
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 413.15625,
       "epoch": 0.4,
-      "grad_norm": 2.341925597361157,
       "kl": 0.0,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 0.1794,
-      "reward": 2.078125,
-      "reward_std": 6.655139595270157,
       "rewards/accuracy_reward_staging": 0.015625,
-      "rewards/format_reward": 0.5,
       "rewards/format_reward_staging": 0.015625,
       "step": 2
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 457.78125,
       "epoch": 0.6,
-      "grad_norm": 2.1132901651276517,
-      "kl": 0.00373077392578125,
       "learning_rate": 1.2e-05,
-      "loss": 0.2012,
-      "reward": 0.265625,
-      "reward_std": 0.42685678601264954,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.265625,
       "rewards/format_reward_staging": 0.0,
       "step": 3
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 392.5,
       "epoch": 0.8,
-      "grad_norm": 1.9147042924475104,
-      "kl": 0.0198211669921875,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.1991,
-      "reward": 0.4375,
-      "reward_std": 0.5018647164106369,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.4375,
       "rewards/format_reward_staging": 0.0,
       "step": 4
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 395.9375,
       "epoch": 1.0,
-      "grad_norm": 1.740620186312659,
-      "kl": 0.1175537109375,
       "learning_rate": 2e-05,
-      "loss": 0.2106,
-      "reward": 0.75,
-      "reward_std": 0.4110434949398041,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.75,
       "rewards/format_reward_staging": 0.0,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 223.25,
       "epoch": 1.2,
-      "grad_norm": 2.378166325570676,
-      "kl": 0.38330078125,
       "learning_rate": 1.9975640502598243e-05,
-      "loss": 0.093,
-      "reward": 0.96875,
-      "reward_std": 0.125,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.9375,
-      "rewards/format_reward_staging": 0.03125,
       "step": 6
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 219.921875,
       "epoch": 1.4,
-      "grad_norm": 365.05292792030957,
-      "kl": 29.92138671875,
       "learning_rate": 1.9902680687415704e-05,
-      "loss": 0.0155,
-      "reward": 4.109375,
-      "reward_std": 8.601625442504883,
-      "rewards/accuracy_reward_staging": 0.03125,
-      "rewards/format_reward": 0.984375,
-      "rewards/format_reward_staging": 0.0,
       "step": 7
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 311.140625,
       "epoch": 1.6,
-      "grad_norm": 4.278634190070862,
-      "kl": 0.9921875,
       "learning_rate": 1.9781476007338058e-05,
-      "loss": 0.3001,
-      "reward": 0.875,
-      "reward_std": 0.3340607285499573,
-      "rewards/accuracy_reward_staging": 0.0,
       "rewards/format_reward": 0.84375,
-      "rewards/format_reward_staging": 0.03125,
       "step": 8
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 273.140625,
       "epoch": 1.8,
-      "grad_norm": 2.7938623716418176,
-      "kl": 1.033203125,
       "learning_rate": 1.961261695938319e-05,
-      "loss": 0.1128,
-      "reward": 0.96875,
-      "reward_std": 0.08539125323295593,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.96875,
-      "rewards/format_reward_staging": 0.0,
       "step": 9
     },
     {
       "epoch": 2.0,
-      "grad_norm": 45.33623454848651,
       "learning_rate": 1.9396926207859085e-05,
-      "loss": 0.0778,
       "step": 10
     },
     {
       "epoch": 2.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 216.453125,
-      "eval_kl": 0.86875,
-      "eval_loss": 0.32041892409324646,
-      "eval_reward": 0.909375,
-      "eval_reward_std": 0.25501468777656555,
-      "eval_rewards/accuracy_reward_staging": 0.0,
-      "eval_rewards/format_reward": 0.89375,
-      "eval_rewards/format_reward_staging": 0.015625,
-      "eval_runtime": 99.1923,
-      "eval_samples_per_second": 0.202,
-      "eval_steps_per_second": 0.02,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 179.9765625,
       "epoch": 2.2,
-      "grad_norm": 4.279708471245034,
-      "kl": 5.43017578125,
       "learning_rate": 1.913545457642601e-05,
-      "loss": 0.219,
-      "reward": 0.9296875,
-      "reward_std": 0.19234732538461685,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.890625,
-      "rewards/format_reward_staging": 0.0390625,
       "step": 11
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 215.078125,
       "epoch": 2.4,
-      "grad_norm": 2.3327242968897277,
-      "kl": 1.5615234375,
       "learning_rate": 1.8829475928589272e-05,
-      "loss": 0.1519,
-      "reward": 0.859375,
-      "reward_std": 0.21347813308238983,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.84375,
-      "rewards/format_reward_staging": 0.015625,
       "step": 12
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 209.71875,
       "epoch": 2.6,
-      "grad_norm": 2.299255809407369,
-      "kl": 0.724609375,
       "learning_rate": 1.848048096156426e-05,
-      "loss": 0.4741,
-      "reward": 0.875,
-      "reward_std": 0.28258590400218964,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.875,
-      "rewards/format_reward_staging": 0.0,
       "step": 13
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 139.953125,
       "epoch": 2.8,
-      "grad_norm": 2.6130897341791766,
-      "kl": 0.94921875,
       "learning_rate": 1.8090169943749477e-05,
-      "loss": 0.2378,
-      "reward": 0.78125,
-      "reward_std": 0.42516323924064636,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.75,
-      "rewards/format_reward_staging": 0.03125,
       "step": 14
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 188.875,
       "epoch": 3.0,
-      "grad_norm": 2.5218002560154344,
-      "kl": 0.8828125,
       "learning_rate": 1.766044443118978e-05,
-      "loss": 0.255,
-      "reward": 0.75,
-      "reward_std": 0.416047140955925,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.75,
-      "rewards/format_reward_staging": 0.0,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 121.71875,
       "epoch": 3.2,
-      "grad_norm": 3973.2143623390243,
-      "kl": 140.78125,
       "learning_rate": 1.7193398003386514e-05,
-      "loss": 4.5241,
-      "reward": 0.78125,
-      "reward_std": 0.3996476083993912,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.765625,
-      "rewards/format_reward_staging": 0.015625,
       "step": 16
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 95.203125,
       "epoch": 3.4,
-      "grad_norm": 3.1402184707771608,
-      "kl": 1.0966796875,
       "learning_rate": 1.6691306063588583e-05,
-      "loss": 0.1211,
-      "reward": 0.90625,
-      "reward_std": 0.2561737596988678,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.90625,
-      "rewards/format_reward_staging": 0.0,
       "step": 17
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 117.96875,
       "epoch": 3.6,
-      "grad_norm": 18.543717938463967,
-      "kl": 2.734375,
       "learning_rate": 1.6156614753256583e-05,
-      "loss": 0.0948,
-      "reward": 0.78125,
-      "reward_std": 0.37276527285575867,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.765625,
-      "rewards/format_reward_staging": 0.015625,
       "step": 18
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 122.09375,
       "epoch": 3.8,
-      "grad_norm": 85.01856100880318,
-      "kl": 2.21484375,
       "learning_rate": 1.5591929034707468e-05,
-      "loss": 0.2628,
-      "reward": 0.75,
-      "reward_std": 0.43655143678188324,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.75,
-      "rewards/format_reward_staging": 0.0,
       "step": 19
     },
     {
       "epoch": 4.0,
-      "grad_norm": 7.534201508284574,
       "learning_rate": 1.5000000000000002e-05,
-      "loss": 0.3282,
       "step": 20
     },
     {
       "epoch": 4.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 117.20625,
-      "eval_kl": 1.8859375,
-      "eval_loss": 0.4934101700782776,
-      "eval_reward": 0.865625,
-      "eval_reward_std": 0.3061607271432877,
-      "eval_rewards/accuracy_reward_staging": 0.0,
-      "eval_rewards/format_reward": 0.8625,
-      "eval_rewards/format_reward_staging": 0.003125,
-      "eval_runtime": 82.791,
-      "eval_samples_per_second": 0.242,
       "eval_steps_per_second": 0.024,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 142.3046875,
       "epoch": 4.2,
-      "grad_norm": 3.431865738435327,
-      "kl": 1.1591796875,
       "learning_rate": 1.4383711467890776e-05,
-      "loss": 0.5598,
-      "reward": 0.8828125,
-      "reward_std": 0.23504295200109482,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.8828125,
-      "rewards/format_reward_staging": 0.0,
       "step": 21
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 108.421875,
       "epoch": 4.4,
-      "grad_norm": 28.582562125442966,
-      "kl": 2.015625,
       "learning_rate": 1.3746065934159123e-05,
-      "loss": 0.3805,
-      "reward": 0.890625,
-      "reward_std": 0.3186737596988678,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.890625,
-      "rewards/format_reward_staging": 0.0,
       "step": 22
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 160.375,
       "epoch": 4.6,
-      "grad_norm": 182.12056251763224,
-      "kl": 3.80859375,
       "learning_rate": 1.3090169943749475e-05,
-      "loss": 0.5022,
-      "reward": 0.8125,
-      "reward_std": 0.240902841091156,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.8125,
-      "rewards/format_reward_staging": 0.0,
       "step": 23
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 104.640625,
       "epoch": 4.8,
-      "grad_norm": 7.658648872736992,
-      "kl": 1.234375,
       "learning_rate": 1.2419218955996677e-05,
-      "loss": 0.3389,
-      "reward": 0.953125,
-      "reward_std": 0.10077822208404541,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.953125,
-      "rewards/format_reward_staging": 0.0,
       "step": 24
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 336.75,
       "epoch": 5.0,
-      "grad_norm": 1298.4886281780803,
-      "kl": 59.49609375,
       "learning_rate": 1.1736481776669307e-05,
-      "loss": 1.2749,
-      "reward": 0.46875,
-      "reward_std": 0.2561737596988678,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.46875,
-      "rewards/format_reward_staging": 0.0,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 486.5,
       "epoch": 5.2,
-      "grad_norm": 2.214221470988038,
-      "kl": 1.287109375,
       "learning_rate": 1.1045284632676535e-05,
-      "loss": 0.1667,
-      "reward": 0.328125,
-      "reward_std": 0.11967839300632477,
-      "rewards/accuracy_reward_staging": 0.0,
       "rewards/format_reward": 0.328125,
-      "rewards/format_reward_staging": 0.0,
       "step": 26
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 143.078125,
       "epoch": 5.4,
-      "grad_norm": 18.952394918879374,
-      "kl": 1.109375,
       "learning_rate": 1.0348994967025012e-05,
-      "loss": 0.6906,
-      "reward": 0.875,
-      "reward_std": 0.2675696462392807,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.875,
-      "rewards/format_reward_staging": 0.0,
       "step": 27
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 274.375,
       "epoch": 5.6,
-      "grad_norm": 53.50801061354546,
-      "kl": 1.34375,
       "learning_rate": 9.651005032974994e-06,
-      "loss": 0.5985,
-      "reward": 0.53125,
-      "reward_std": 0.4533684104681015,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.5,
-      "rewards/format_reward_staging": 0.03125,
       "step": 28
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 291.953125,
       "epoch": 5.8,
-      "grad_norm": 4827.971254295739,
-      "kl": 102.302734375,
       "learning_rate": 8.954715367323468e-06,
-      "loss": 10.8379,
-      "reward": 0.546875,
-      "reward_std": 0.48989027738571167,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.53125,
-      "rewards/format_reward_staging": 0.015625,
       "step": 29
     },
     {
       "epoch": 6.0,
-      "grad_norm": 217.63607240320385,
       "learning_rate": 8.263518223330698e-06,
-      "loss": 1.7709,
       "step": 30
     },
     {
       "epoch": 6.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 166.153125,
-      "eval_kl": 2.5828125,
-      "eval_loss": 0.5345276594161987,
-      "eval_reward": 0.621875,
-      "eval_reward_std": 0.3898551195859909,
-      "eval_rewards/accuracy_reward_staging": 0.0,
-      "eval_rewards/format_reward": 0.609375,
-      "eval_rewards/format_reward_staging": 0.0125,
-      "eval_runtime": 81.8428,
-      "eval_samples_per_second": 0.244,
-      "eval_steps_per_second": 0.024,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 301.828125,
       "epoch": 6.2,
-      "grad_norm": 46.971884241153774,
-      "kl": 3.76806640625,
       "learning_rate": 7.580781044003324e-06,
-      "loss": 0.4557,
-      "reward": 0.5703125,
-      "reward_std": 0.43463166058063507,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.546875,
-      "rewards/format_reward_staging": 0.0234375,
       "step": 31
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 147.0625,
       "epoch": 6.4,
-      "grad_norm": 28.499738440121313,
-      "kl": 1.439453125,
       "learning_rate": 6.909830056250527e-06,
-      "loss": 0.3441,
-      "reward": 0.65625,
-      "reward_std": 0.40097813308238983,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.625,
-      "rewards/format_reward_staging": 0.03125,
       "step": 32
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 99.34375,
       "epoch": 6.6,
-      "grad_norm": 870.0830446579233,
-      "kl": 9.68359375,
       "learning_rate": 6.25393406584088e-06,
-      "loss": 0.7721,
-      "reward": 0.78125,
-      "reward_std": 0.23680339753627777,
       "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.765625,
-      "rewards/format_reward_staging": 0.015625,
       "step": 33
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 124.046875,
       "epoch": 6.8,
-      "grad_norm": 2684.174855841622,
-      "kl": 64.169921875,
       "learning_rate": 5.616288532109225e-06,
-      "loss": 6.76,
-      "reward": 0.5,
-      "reward_std": 0.4433557987213135,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.5,
-      "rewards/format_reward_staging": 0.0,
       "step": 34
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 94.3125,
       "epoch": 7.0,
-      "grad_norm": 127.36379864799719,
-      "kl": 8.89453125,
       "learning_rate": 5.000000000000003e-06,
-      "loss": 1.0328,
-      "reward": 0.5625,
-      "reward_std": 0.3604728728532791,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.5625,
-      "rewards/format_reward_staging": 0.0,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 108.578125,
       "epoch": 7.2,
-      "grad_norm": 84.6244853693584,
-      "kl": 1.953125,
       "learning_rate": 4.408070965292534e-06,
-      "loss": 0.712,
-      "reward": 0.6875,
-      "reward_std": 0.3723389506340027,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.671875,
-      "rewards/format_reward_staging": 0.015625,
       "step": 36
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 74.03125,
       "epoch": 7.4,
-      "grad_norm": 20.011312482681333,
-      "kl": 2.0625,
       "learning_rate": 3.8433852467434175e-06,
-      "loss": 0.1286,
-      "reward": 0.46875,
-      "reward_std": 0.45565588772296906,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.421875,
-      "rewards/format_reward_staging": 0.046875,
       "step": 37
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 115.84375,
       "epoch": 7.6,
-      "grad_norm": 176.37444967265372,
-      "kl": 6.32421875,
       "learning_rate": 3.308693936411421e-06,
-      "loss": 0.9311,
-      "reward": 0.59375,
-      "reward_std": 0.426059752702713,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.5625,
-      "rewards/format_reward_staging": 0.03125,
       "step": 38
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 83.109375,
       "epoch": 7.8,
-      "grad_norm": 36.50985813199302,
-      "kl": 2.599609375,
       "learning_rate": 2.8066019966134907e-06,
-      "loss": 0.2542,
-      "reward": 0.59375,
-      "reward_std": 0.40758590400218964,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.59375,
-      "rewards/format_reward_staging": 0.0,
       "step": 39
     },
     {
       "epoch": 8.0,
-      "grad_norm": 46.6545525065277,
       "learning_rate": 2.339555568810221e-06,
-      "loss": 0.3509,
       "step": 40
     },
     {
       "epoch": 8.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 88.775,
-      "eval_kl": 19.08515625,
-      "eval_loss": 0.28077805042266846,
-      "eval_reward": 0.871875,
-      "eval_reward_std": 1.6184641629457475,
-      "eval_rewards/accuracy_reward_staging": 0.003125,
-      "eval_rewards/format_reward": 0.55,
-      "eval_rewards/format_reward_staging": 0.009375,
-      "eval_runtime": 43.7519,
-      "eval_samples_per_second": 0.457,
-      "eval_steps_per_second": 0.046,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 84.8984375,
       "epoch": 8.2,
-      "grad_norm": 12.769162966798541,
-      "kl": 3.1865234375,
       "learning_rate": 1.9098300562505266e-06,
-      "loss": 0.192,
-      "reward": 0.546875,
-      "reward_std": 0.41088978946208954,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.5390625,
-      "rewards/format_reward_staging": 0.0078125,
       "step": 41
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 107.328125,
       "epoch": 8.4,
-      "grad_norm": 18.888797406982157,
-      "kl": 2.732421875,
       "learning_rate": 1.5195190384357405e-06,
-      "loss": 0.3458,
-      "reward": 0.40625,
-      "reward_std": 0.3996476083993912,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.40625,
-      "rewards/format_reward_staging": 0.0,
       "step": 42
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 144.5625,
       "epoch": 8.6,
-      "grad_norm": 35.47858284655087,
-      "kl": 3.396484375,
       "learning_rate": 1.1705240714107301e-06,
-      "loss": 0.7257,
-      "reward": 0.640625,
-      "reward_std": 0.414138063788414,
       "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.59375,
-      "rewards/format_reward_staging": 0.046875,
       "step": 43
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 82.984375,
       "epoch": 8.8,
-      "grad_norm": 17.28412490205481,
-      "kl": 2.9765625,
       "learning_rate": 8.645454235739903e-07,
-      "loss": 0.3137,
-      "reward": 0.546875,
-      "reward_std": 0.42867644131183624,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.53125,
-      "rewards/format_reward_staging": 0.015625,
       "step": 44
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 62.4375,
       "epoch": 9.0,
-      "grad_norm": 27.53481619242555,
-      "kl": 4.017578125,
       "learning_rate": 6.030737921409169e-07,
-      "loss": -0.0146,
-      "reward": 0.46875,
-      "reward_std": 0.48456867039203644,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.46875,
-      "rewards/format_reward_staging": 0.0,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 98.09375,
       "epoch": 9.2,
-      "grad_norm": 21.386737012957905,
-      "kl": 4.35546875,
       "learning_rate": 3.8738304061681107e-07,
-      "loss": 0.2661,
-      "reward": 0.421875,
-      "reward_std": 0.39476001262664795,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.421875,
-      "rewards/format_reward_staging": 0.0,
       "step": 46
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 85.625,
       "epoch": 9.4,
-      "grad_norm": 46.899263555551805,
-      "kl": 2.951171875,
       "learning_rate": 2.1852399266194312e-07,
-      "loss": 0.5289,
-      "reward": 0.75,
-      "reward_std": 0.35296089947223663,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.75,
-      "rewards/format_reward_staging": 0.0,
       "step": 47
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 68.90625,
       "epoch": 9.6,
-      "grad_norm": 23.059473156975322,
-      "kl": 4.28515625,
       "learning_rate": 9.731931258429638e-08,
-      "loss": 0.123,
-      "reward": 0.53125,
-      "reward_std": 0.4704566150903702,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.515625,
-      "rewards/format_reward_staging": 0.015625,
       "step": 48
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 92.140625,
       "epoch": 9.8,
-      "grad_norm": 10.728234621998174,
-      "kl": 2.490234375,
       "learning_rate": 2.4359497401758026e-08,
-      "loss": 0.2611,
-      "reward": 0.609375,
-      "reward_std": 0.4152062386274338,
-      "rewards/accuracy_reward_staging": 0.0,
-      "rewards/format_reward": 0.609375,
-      "rewards/format_reward_staging": 0.0,
       "step": 49
     },
     {
       "epoch": 10.0,
-      "grad_norm": 19.523610245136258,
       "learning_rate": 0.0,
-      "loss": 0.3147,
       "step": 50
     },
     {
       "epoch": 10.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 81.3625,
-      "eval_kl": 2.358984375,
-      "eval_loss": 0.19067667424678802,
-      "eval_reward": 0.6,
-      "eval_reward_std": 0.40582795441150665,
-      "eval_rewards/accuracy_reward_staging": 0.0,
-      "eval_rewards/format_reward": 0.5875,
-      "eval_rewards/format_reward_staging": 0.0125,
-      "eval_runtime": 40.4318,
-      "eval_samples_per_second": 0.495,
-      "eval_steps_per_second": 0.049,
       "step": 50
     },
     {
       "epoch": 10.0,
       "step": 50,
       "total_flos": 0.0,
-      "train_loss": 0.0,
-      "train_runtime": 0.8416,
-      "train_samples_per_second": 237.641,
-      "train_steps_per_second": 59.41
     }
   ],
   "logging_steps": 1,

   "log_history": [
     {
       "clip_ratio": 0.0,
+      "completion_length": 328.953125,
       "epoch": 0.2,
+      "grad_norm": 2.233631036923167,
       "kl": 0.0,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0599,
+      "reward": 0.734375,
+      "reward_std": 0.44938501715660095,
       "rewards/accuracy_reward_staging": 0.0,
+      "rewards/format_reward": 0.734375,
       "rewards/format_reward_staging": 0.0,
       "step": 1
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 296.46875,
       "epoch": 0.4,
+      "grad_norm": 2.4039124983770694,
       "kl": 0.0,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0574,
+      "reward": 2.359375,
+      "reward_std": 6.557279825210571,
       "rewards/accuracy_reward_staging": 0.015625,
+      "rewards/format_reward": 0.78125,
       "rewards/format_reward_staging": 0.015625,
       "step": 2
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 369.703125,
       "epoch": 0.6,
+      "grad_norm": 1.8186478314322454,
+      "kl": 0.0063934326171875,
       "learning_rate": 1.2e-05,
+      "loss": 0.1678,
+      "reward": 20.875,
+      "reward_std": 37.550247088074684,
+      "rewards/accuracy_reward_staging": 0.203125,
+      "rewards/format_reward": 0.5625,
       "rewards/format_reward_staging": 0.0,
       "step": 3
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 289.875,
       "epoch": 0.8,
+      "grad_norm": 1.8738553295630938,
+      "kl": 0.040130615234375,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": -0.0018,
+      "reward": 17.96875,
+      "reward_std": 29.60683871805668,
+      "rewards/accuracy_reward_staging": 0.171875,
+      "rewards/format_reward": 0.78125,
       "rewards/format_reward_staging": 0.0,
       "step": 4
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 360.125,
       "epoch": 1.0,
+      "grad_norm": 2.096161007439382,
+      "kl": 0.15673828125,
       "learning_rate": 2e-05,
+      "loss": 0.2871,
+      "reward": 18.109375,
+      "reward_std": 24.160783976316452,
+      "rewards/accuracy_reward_staging": 0.171875,
+      "rewards/format_reward": 0.921875,
       "rewards/format_reward_staging": 0.0,
       "step": 5
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 377.890625,
       "epoch": 1.2,
+      "grad_norm": 1.9460066827379818,
+      "kl": 0.34521484375,
       "learning_rate": 1.9975640502598243e-05,
+      "loss": 0.1768,
+      "reward": 19.546875,
+      "reward_std": 28.07823872566223,
+      "rewards/accuracy_reward_staging": 0.1875,
+      "rewards/format_reward": 0.796875,
+      "rewards/format_reward_staging": 0.0,
       "step": 6
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 398.328125,
       "epoch": 1.4,
+      "grad_norm": 1.9345332551264938,
+      "kl": 0.47216796875,
       "learning_rate": 1.9902680687415704e-05,
+      "loss": 0.1841,
+      "reward": 13.375,
+      "reward_std": 22.561845421791077,
+      "rewards/accuracy_reward_staging": 0.125,
+      "rewards/format_reward": 0.796875,
+      "rewards/format_reward_staging": 0.078125,
       "step": 7
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 376.203125,
       "epoch": 1.6,
+      "grad_norm": 28.852778290018875,
+      "kl": 0.48193359375,
       "learning_rate": 1.9781476007338058e-05,
+      "loss": 0.1949,
+      "reward": 55.59375,
+      "reward_std": 41.964348047971725,
+      "rewards/accuracy_reward_staging": 0.546875,
       "rewards/format_reward": 0.84375,
+      "rewards/format_reward_staging": 0.0625,
       "step": 8
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 290.296875,
       "epoch": 1.8,
+      "grad_norm": 20.955640611081066,
+      "kl": 1.462890625,
       "learning_rate": 1.961261695938319e-05,
+      "loss": -0.0393,
+      "reward": 11.90625,
+      "reward_std": 18.741955757141113,
+      "rewards/accuracy_reward_staging": 0.109375,
+      "rewards/format_reward": 0.875,
+      "rewards/format_reward_staging": 0.09375,
       "step": 9
     },
     {
       "epoch": 2.0,
+      "grad_norm": 22.010242853054393,
       "learning_rate": 1.9396926207859085e-05,
+      "loss": 0.0349,
       "step": 10
     },
     {
       "epoch": 2.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 318.5375,
+      "eval_kl": 13.2837890625,
+      "eval_loss": 0.5425169467926025,
+      "eval_reward": 32.7875,
+      "eval_reward_std": 24.585004723072053,
+      "eval_rewards/accuracy_reward_staging": 0.31875,
+      "eval_rewards/format_reward": 0.828125,
+      "eval_rewards/format_reward_staging": 0.084375,
+      "eval_runtime": 111.4589,
+      "eval_samples_per_second": 0.179,
+      "eval_steps_per_second": 0.018,
       "step": 10
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 358.484375,
       "epoch": 2.2,
+      "grad_norm": 5.685479817813176,
+      "kl": 1.0234375,
       "learning_rate": 1.913545457642601e-05,
+      "loss": 0.0814,
+      "reward": 36.921875,
+      "reward_std": 27.1712064743042,
+      "rewards/accuracy_reward_staging": 0.359375,
+      "rewards/format_reward": 0.9140625,
+      "rewards/format_reward_staging": 0.0703125,
       "step": 11
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 296.0,
       "epoch": 2.4,
+      "grad_norm": 1.8976148262148187,
+      "kl": 0.6943359375,
       "learning_rate": 1.8829475928589272e-05,
+      "loss": 0.1344,
+      "reward": 25.9375,
+      "reward_std": 0.17078250646591187,
+      "rewards/accuracy_reward_staging": 0.25,
+      "rewards/format_reward": 0.875,
+      "rewards/format_reward_staging": 0.0625,
       "step": 12
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 257.9375,
       "epoch": 2.6,
+      "grad_norm": 46.008358117472916,
+      "kl": 2.7431640625,
       "learning_rate": 1.848048096156426e-05,
+      "loss": 0.2127,
+      "reward": 16.421875,
+      "reward_std": 27.048566073179245,
+      "rewards/accuracy_reward_staging": 0.15625,
+      "rewards/format_reward": 0.71875,
+      "rewards/format_reward_staging": 0.078125,
       "step": 13
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 224.984375,
       "epoch": 2.8,
+      "grad_norm": 2.4693533285774656,
+      "kl": 0.796875,
       "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.0197,
+      "reward": 19.375,
+      "reward_std": 24.386408746242523,
+      "rewards/accuracy_reward_staging": 0.1875,
+      "rewards/format_reward": 0.546875,
+      "rewards/format_reward_staging": 0.078125,
       "step": 14
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 188.8125,
       "epoch": 3.0,
+      "grad_norm": 2.2982453846918136,
+      "kl": 0.865234375,
       "learning_rate": 1.766044443118978e-05,
+      "loss": 0.0649,
+      "reward": 24.25,
+      "reward_std": 26.21424473822117,
+      "rewards/accuracy_reward_staging": 0.234375,
+      "rewards/format_reward": 0.765625,
+      "rewards/format_reward_staging": 0.046875,
       "step": 15
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 224.65625,
       "epoch": 3.2,
+      "grad_norm": 2.2466155648528727,
+      "kl": 0.814453125,
       "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.1391,
+      "reward": 16.40625,
+      "reward_std": 12.839739605784416,
+      "rewards/accuracy_reward_staging": 0.15625,
+      "rewards/format_reward": 0.671875,
+      "rewards/format_reward_staging": 0.109375,
       "step": 16
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 225.8125,
       "epoch": 3.4,
+      "grad_norm": 5.112571418015419,
+      "kl": 1.255859375,
       "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.2407,
+      "reward": 2.359375,
+      "reward_std": 6.558102443814278,
+      "rewards/accuracy_reward_staging": 0.015625,
+      "rewards/format_reward": 0.765625,
+      "rewards/format_reward_staging": 0.03125,
       "step": 17
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 185.21875,
       "epoch": 3.6,
+      "grad_norm": 72.26378452951813,
+      "kl": 1.720703125,
       "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.0449,
+      "reward": 16.46875,
+      "reward_std": 23.07971879839897,
+      "rewards/accuracy_reward_staging": 0.15625,
+      "rewards/format_reward": 0.703125,
+      "rewards/format_reward_staging": 0.140625,
       "step": 18
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 184.390625,
       "epoch": 3.8,
+      "grad_norm": 2.4970793879830975,
+      "kl": 0.9013671875,
       "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.0522,
+      "reward": 77.203125,
+      "reward_std": 60.76833724975586,
+      "rewards/accuracy_reward_staging": 0.765625,
+      "rewards/format_reward": 0.515625,
+      "rewards/format_reward_staging": 0.125,
       "step": 19
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.744480736140323,
       "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.1602,
       "step": 20
     },
     {
       "epoch": 4.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 210.384375,
+      "eval_kl": 1.496484375,
+      "eval_loss": 0.15775302052497864,
+      "eval_reward": 25.140625,
+      "eval_reward_std": 20.779218792915344,
+      "eval_rewards/accuracy_reward_staging": 0.24375,
+      "eval_rewards/format_reward": 0.70625,
+      "eval_rewards/format_reward_staging": 0.059375,
+      "eval_runtime": 83.568,
+      "eval_samples_per_second": 0.239,
       "eval_steps_per_second": 0.024,
       "step": 20
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 210.4765625,
       "epoch": 4.2,
+      "grad_norm": 2.5604095864012844,
+      "kl": 1.318359375,
       "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.0975,
+      "reward": 18.765625,
+      "reward_std": 16.231166645884514,
+      "rewards/accuracy_reward_staging": 0.1796875,
+      "rewards/format_reward": 0.734375,
+      "rewards/format_reward_staging": 0.0625,
       "step": 21
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 201.328125,
       "epoch": 4.4,
+      "grad_norm": 3.3796422509493653,
+      "kl": 1.326171875,
       "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.0767,
+      "reward": 44.421875,
+      "reward_std": 40.881056517362595,
+      "rewards/accuracy_reward_staging": 0.4375,
+      "rewards/format_reward": 0.53125,
+      "rewards/format_reward_staging": 0.140625,
       "step": 22
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 216.640625,
       "epoch": 4.6,
+      "grad_norm": 82.74335209390387,
+      "kl": 2.109375,
       "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.4923,
+      "reward": 35.171875,
+      "reward_std": 23.166345581412315,
+      "rewards/accuracy_reward_staging": 0.34375,
+      "rewards/format_reward": 0.578125,
+      "rewards/format_reward_staging": 0.21875,
       "step": 23
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 176.5625,
       "epoch": 4.8,
+      "grad_norm": 2.383806116929922,
+      "kl": 1.21484375,
       "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.075,
+      "reward": 50.8125,
+      "reward_std": 33.22144624590874,
+      "rewards/accuracy_reward_staging": 0.5,
+      "rewards/format_reward": 0.6875,
+      "rewards/format_reward_staging": 0.125,
       "step": 24
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 165.625,
       "epoch": 5.0,
+      "grad_norm": 7.110162206929474,
+      "kl": 1.2626953125,
       "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.1023,
+      "reward": 5.453125,
+      "reward_std": 10.403940886259079,
+      "rewards/accuracy_reward_staging": 0.046875,
+      "rewards/format_reward": 0.4375,
+      "rewards/format_reward_staging": 0.328125,
       "step": 25
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 128.234375,
       "epoch": 5.2,
+      "grad_norm": 43.694580176383475,
+      "kl": 2.83203125,
       "learning_rate": 1.1045284632676535e-05,
+      "loss": 0.0801,
+      "reward": 39.828125,
+      "reward_std": 34.28479705750942,
+      "rewards/accuracy_reward_staging": 0.390625,
       "rewards/format_reward": 0.328125,
+      "rewards/format_reward_staging": 0.4375,
       "step": 26
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 134.453125,
       "epoch": 5.4,
+      "grad_norm": 9.162574909416069,
+      "kl": 2.01953125,
       "learning_rate": 1.0348994967025012e-05,
+      "loss": 0.0665,
+      "reward": 32.03125,
+      "reward_std": 18.438117399811745,
+      "rewards/accuracy_reward_staging": 0.3125,
+      "rewards/format_reward": 0.359375,
+      "rewards/format_reward_staging": 0.421875,
       "step": 27
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 118.28125,
       "epoch": 5.6,
+      "grad_norm": 3.2683542850086518,
+      "kl": 1.1953125,
       "learning_rate": 9.651005032974994e-06,
+      "loss": 0.0622,
+      "reward": 24.34375,
+      "reward_std": 19.54595375061035,
+      "rewards/accuracy_reward_staging": 0.234375,
+      "rewards/format_reward": 0.296875,
+      "rewards/format_reward_staging": 0.609375,
       "step": 28
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 108.875,
       "epoch": 5.8,
+      "grad_norm": 12.531126144185139,
+      "kl": 2.03515625,
       "learning_rate": 8.954715367323468e-06,
+      "loss": 0.049,
+      "reward": 36.578125,
+      "reward_std": 34.67615723609924,
+      "rewards/accuracy_reward_staging": 0.359375,
+      "rewards/format_reward": 0.09375,
+      "rewards/format_reward_staging": 0.546875,
       "step": 29
     },
     {
       "epoch": 6.0,
+      "grad_norm": 7.540837741697303,
       "learning_rate": 8.263518223330698e-06,
+      "loss": 0.0011,
       "step": 30
     },
     {
       "epoch": 6.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 100.296875,
+      "eval_kl": 3.015625,
+      "eval_loss": 0.11326652020215988,
+      "eval_reward": 25.828125,
+      "eval_reward_std": 27.24666577577591,
+      "eval_rewards/accuracy_reward_staging": 0.25,
+      "eval_rewards/format_reward": 0.096875,
+      "eval_rewards/format_reward_staging": 0.73125,
+      "eval_runtime": 37.6008,
+      "eval_samples_per_second": 0.532,
+      "eval_steps_per_second": 0.053,
       "step": 30
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 103.6328125,
       "epoch": 6.2,
+      "grad_norm": 2399452.1498753084,
+      "kl": 21377.13134765625,
       "learning_rate": 7.580781044003324e-06,
+      "loss": 3099.2456,
+      "reward": 32.890625,
+      "reward_std": 27.955890655517578,
+      "rewards/accuracy_reward_staging": 0.3203125,
+      "rewards/format_reward": 0.140625,
+      "rewards/format_reward_staging": 0.71875,
       "step": 31
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 99.6875,
       "epoch": 6.4,
+      "grad_norm": 2.865078068885676,
+      "kl": 1.111328125,
       "learning_rate": 6.909830056250527e-06,
+      "loss": 0.0568,
+      "reward": 39.9375,
+      "reward_std": 37.32955229282379,
+      "rewards/accuracy_reward_staging": 0.390625,
+      "rewards/format_reward": 0.078125,
+      "rewards/format_reward_staging": 0.796875,
       "step": 32
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 92.28125,
       "epoch": 6.6,
+      "grad_norm": 1415.8467105124043,
+      "kl": 77.443359375,
       "learning_rate": 6.25393406584088e-06,
+      "loss": 4.1061,
+      "reward": 0.875,
+      "reward_std": 0.3340607285499573,
       "rewards/accuracy_reward_staging": 0.0,
+      "rewards/format_reward": 0.0625,
+      "rewards/format_reward_staging": 0.8125,
       "step": 33
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 102.671875,
       "epoch": 6.8,
+      "grad_norm": 13.762426532249034,
+      "kl": 1.7431640625,
       "learning_rate": 5.616288532109225e-06,
+      "loss": 0.0994,
+      "reward": 22.8125,
+      "reward_std": 34.106568336486816,
+      "rewards/accuracy_reward_staging": 0.21875,
+      "rewards/format_reward": 0.1875,
+      "rewards/format_reward_staging": 0.75,
       "step": 34
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 95.3125,
       "epoch": 7.0,
+      "grad_norm": 2.6063236920960606,
+      "kl": 0.986328125,
       "learning_rate": 5.000000000000003e-06,
+      "loss": 0.0339,
+      "reward": 43.078125,
+      "reward_std": 44.85216808319092,
+      "rewards/accuracy_reward_staging": 0.421875,
+      "rewards/format_reward": 0.0625,
+      "rewards/format_reward_staging": 0.828125,
       "step": 35
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 99.4375,
       "epoch": 7.2,
+      "grad_norm": 3.5202361717965345,
+      "kl": 1.115234375,
       "learning_rate": 4.408070965292534e-06,
+      "loss": 0.0006,
+      "reward": 22.6875,
+      "reward_std": 22.75158140063286,
+      "rewards/accuracy_reward_staging": 0.21875,
+      "rewards/format_reward": 0.0625,
+      "rewards/format_reward_staging": 0.75,
       "step": 36
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 97.71875,
       "epoch": 7.4,
+      "grad_norm": 466.43821565088575,
+      "kl": 9.513671875,
       "learning_rate": 3.8433852467434175e-06,
+      "loss": 0.6714,
+      "reward": 52.484375,
+      "reward_std": 31.5599946975708,
+      "rewards/accuracy_reward_staging": 0.515625,
+      "rewards/format_reward": 0.078125,
+      "rewards/format_reward_staging": 0.84375,
       "step": 37
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 98.75,
       "epoch": 7.6,
+      "grad_norm": 17.64734775020204,
+      "kl": 0.958984375,
       "learning_rate": 3.308693936411421e-06,
+      "loss": 0.1583,
+      "reward": 30.59375,
+      "reward_std": 28.57139226794243,
+      "rewards/accuracy_reward_staging": 0.296875,
+      "rewards/format_reward": 0.09375,
+      "rewards/format_reward_staging": 0.8125,
       "step": 38
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 99.640625,
       "epoch": 7.8,
+      "grad_norm": 2.4780466685026976,
+      "kl": 0.8603515625,
       "learning_rate": 2.8066019966134907e-06,
+      "loss": 0.0571,
+      "reward": 22.8125,
+      "reward_std": 23.837719172239304,
+      "rewards/accuracy_reward_staging": 0.21875,
+      "rewards/format_reward": 0.125,
+      "rewards/format_reward_staging": 0.8125,
       "step": 39
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.372614998661594,
       "learning_rate": 2.339555568810221e-06,
+      "loss": 0.0938,
       "step": 40
     },
     {
       "epoch": 8.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 96.296875,
+      "eval_kl": 1.165625,
+      "eval_loss": 0.08083952218294144,
+      "eval_reward": 36.484375,
+      "eval_reward_std": 30.610754093527795,
+      "eval_rewards/accuracy_reward_staging": 0.35625,
+      "eval_rewards/format_reward": 0.059375,
+      "eval_rewards/format_reward_staging": 0.8,
+      "eval_runtime": 40.1823,
+      "eval_samples_per_second": 0.498,
+      "eval_steps_per_second": 0.05,
       "step": 40
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 99.84375,
       "epoch": 8.2,
+      "grad_norm": 3.8984904347848293,
+      "kl": 1.18994140625,
       "learning_rate": 1.9098300562505266e-06,
+      "loss": 0.182,
+      "reward": 35.9765625,
+      "reward_std": 32.3325060531497,
+      "rewards/accuracy_reward_staging": 0.3515625,
+      "rewards/format_reward": 0.0703125,
+      "rewards/format_reward_staging": 0.75,
       "step": 41
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 96.28125,
       "epoch": 8.4,
+      "grad_norm": 1.9843890762929741,
+      "kl": 0.8955078125,
       "learning_rate": 1.5195190384357405e-06,
+      "loss": 0.0792,
+      "reward": 58.625,
+      "reward_std": 38.564720049500465,
+      "rewards/accuracy_reward_staging": 0.578125,
+      "rewards/format_reward": 0.03125,
+      "rewards/format_reward_staging": 0.78125,
       "step": 42
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 89.109375,
       "epoch": 8.6,
+      "grad_norm": 5.357700004694207,
+      "kl": 1.40625,
       "learning_rate": 1.1705240714107301e-06,
+      "loss": 0.0795,
+      "reward": 0.875,
+      "reward_std": 0.3221946507692337,
       "rewards/accuracy_reward_staging": 0.0,
+      "rewards/format_reward": 0.046875,
+      "rewards/format_reward_staging": 0.828125,
       "step": 43
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 90.609375,
       "epoch": 8.8,
+      "grad_norm": 2.7303368647900483,
+      "kl": 0.94921875,
       "learning_rate": 8.645454235739903e-07,
+      "loss": 0.0761,
+      "reward": 41.484375,
+      "reward_std": 41.522899970412254,
+      "rewards/accuracy_reward_staging": 0.40625,
+      "rewards/format_reward": 0.03125,
+      "rewards/format_reward_staging": 0.828125,
       "step": 44
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 90.1875,
       "epoch": 9.0,
+      "grad_norm": 78.21470135974528,
+      "kl": 6.1640625,
       "learning_rate": 6.030737921409169e-07,
+      "loss": 0.1884,
+      "reward": 60.3125,
+      "reward_std": 25.90641689300537,
+      "rewards/accuracy_reward_staging": 0.59375,
+      "rewards/format_reward": 0.03125,
+      "rewards/format_reward_staging": 0.90625,
       "step": 45
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 91.8125,
       "epoch": 9.2,
+      "grad_norm": 130.51998459418078,
+      "kl": 8.439453125,
       "learning_rate": 3.8738304061681107e-07,
+      "loss": 0.5403,
+      "reward": 55.53125,
+      "reward_std": 25.359338760375977,
+      "rewards/accuracy_reward_staging": 0.546875,
+      "rewards/format_reward": 0.015625,
+      "rewards/format_reward_staging": 0.828125,
       "step": 46
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 87.453125,
       "epoch": 9.4,
+      "grad_norm": 4.1866163482406575,
+      "kl": 1.2099609375,
       "learning_rate": 2.1852399266194312e-07,
+      "loss": 0.0669,
+      "reward": 32.046875,
+      "reward_std": 17.416973531246185,
+      "rewards/accuracy_reward_staging": 0.3125,
+      "rewards/format_reward": 0.0625,
+      "rewards/format_reward_staging": 0.734375,
       "step": 47
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 85.34375,
       "epoch": 9.6,
+      "grad_norm": 4.835456441041561,
+      "kl": 1.0126953125,
       "learning_rate": 9.731931258429638e-08,
+      "loss": 0.1102,
+      "reward": 32.125,
+      "reward_std": 17.38801845908165,
+      "rewards/accuracy_reward_staging": 0.3125,
+      "rewards/format_reward": 0.0,
+      "rewards/format_reward_staging": 0.875,
       "step": 48
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 91.359375,
       "epoch": 9.8,
+      "grad_norm": 5.14395144365364,
+      "kl": 1.2841796875,
       "learning_rate": 2.4359497401758026e-08,
+      "loss": 0.0001,
+      "reward": 36.75,
+      "reward_std": 36.8648544549942,
+      "rewards/accuracy_reward_staging": 0.359375,
+      "rewards/format_reward": 0.09375,
+      "rewards/format_reward_staging": 0.71875,
       "step": 49
     },
     {
       "epoch": 10.0,
+      "grad_norm": 3.2937172350545656,
       "learning_rate": 0.0,
+      "loss": 0.0404,
       "step": 50
     },
     {
       "epoch": 10.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 94.065625,
+      "eval_kl": 3.14765625,
+      "eval_loss": 0.24544629454612732,
+      "eval_reward": 38.0125,
+      "eval_reward_std": 26.67088475525379,
+      "eval_rewards/accuracy_reward_staging": 0.371875,
+      "eval_rewards/format_reward": 0.01875,
+      "eval_rewards/format_reward_staging": 0.80625,
+      "eval_runtime": 39.9739,
+      "eval_samples_per_second": 0.5,
+      "eval_steps_per_second": 0.05,
       "step": 50
     },
     {
+      "clip_ratio": 0.0,
+      "completion_length": 85.3125,
       "epoch": 10.0,
+      "kl": 1.142578125,
+      "reward": 46.140625,
+      "reward_std": 24.36823770403862,
+      "rewards/accuracy_reward_staging": 0.453125,
+      "rewards/format_reward": 0.03125,
+      "rewards/format_reward_staging": 0.796875,
       "step": 50,
       "total_flos": 0.0,
+      "train_loss": 62.185223487904295,
+      "train_runtime": 1153.4055,
+      "train_samples_per_second": 0.173,
+      "train_steps_per_second": 0.043
     }
   ],
   "logging_steps": 1,