sonicdog00
/

OpenRS-GRPO

@@ -1,11 +1,9 @@
 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
-datasets: knoveleng/open-rs
 library_name: transformers
 model_name: OpenRS-GRPO
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - grpo
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for OpenRS-GRPO
-This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B) on the [knoveleng/open-rs](https://huggingface.co/datasets/knoveleng/open-rs) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/sonicdog00-korea-university/openrs/runs/kdawmmgb)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
 library_name: transformers
 model_name: OpenRS-GRPO
 tags:
 - generated_from_trainer
 - trl
 - grpo
 licence: license
 # Model Card for OpenRS-GRPO
+This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/sonicdog00-korea-university/openrs/runs/ez1iu4d5)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.06513786550378427,
-    "train_runtime": 17727.636,
     "train_samples": 7000,
-    "train_samples_per_second": 0.406,
-    "train_steps_per_second": 0.006
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.0719883194193244,
+    "train_runtime": 18385.1788,
     "train_samples": 7000,
+    "train_samples_per_second": 0.392,
+    "train_steps_per_second": 0.005
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.06513786550378427,
-    "train_runtime": 17727.636,
     "train_samples": 7000,
-    "train_samples_per_second": 0.406,
-    "train_steps_per_second": 0.006
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.0719883194193244,
+    "train_runtime": 18385.1788,
     "train_samples": 7000,
+    "train_samples_per_second": 0.392,
+    "train_steps_per_second": 0.005
 }

trainer_state.json CHANGED Viewed

@@ -10,1612 +10,1612 @@
   "log_history": [
     {
       "clip_ratio": 0.0,
-      "completion_length": 3135.291748046875,
       "epoch": 0.001713796058269066,
-      "grad_norm": 0.1234593614935875,
       "kl": 0.0,
       "learning_rate": 1e-07,
-      "loss": 0.0149,
-      "reward": 0.23611111752688885,
-      "reward_std": 0.30932011269032955,
-      "rewards/accuracy_reward": 0.041666666977107525,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15277778171002865,
       "step": 1,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2893.9722900390625,
       "epoch": 0.003427592116538132,
-      "grad_norm": 0.1797490417957306,
       "kl": 0.0,
       "learning_rate": 2e-07,
-      "loss": 0.1056,
-      "reward": 0.20833333767950535,
-      "reward_std": 0.2490638718008995,
-      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15277778171002865,
       "step": 2,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3052.9862060546875,
       "epoch": 0.005141388174807198,
-      "grad_norm": 0.1267692893743515,
-      "kl": 4.1365623474121094e-05,
       "learning_rate": 3e-07,
-      "loss": 0.0573,
-      "reward": 0.243055556435138,
-      "reward_std": 0.2783401180058718,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.10416666744276881,
       "step": 3,
-      "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2740.6944580078125,
       "epoch": 0.006855184233076264,
-      "grad_norm": 0.17930592596530914,
-      "kl": 3.7789344787597656e-05,
       "learning_rate": 4e-07,
-      "loss": 0.0202,
-      "reward": 0.32638889737427235,
-      "reward_std": 0.43739713728427887,
-      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1597222238779068,
       "step": 4,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2730.8055419921875,
       "epoch": 0.00856898029134533,
-      "grad_norm": 0.1377512514591217,
-      "kl": 4.1604042053222656e-05,
       "learning_rate": 5e-07,
-      "loss": 0.0621,
-      "reward": 0.493055559694767,
-      "reward_std": 0.5705233514308929,
-      "rewards/accuracy_reward": 0.16666666883975267,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15972222574055195,
       "step": 5,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2965.138916015625,
       "epoch": 0.010282776349614395,
-      "grad_norm": 0.14657363295555115,
-      "kl": 5.21540641784668e-05,
       "learning_rate": 6e-07,
-      "loss": 0.0363,
-      "reward": 0.243055559694767,
-      "reward_std": 0.38589781522750854,
-      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1319444477558136,
       "step": 6,
-      "vanishing_advantage_ratio": 0.2777777910232544
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2290.0556030273438,
       "epoch": 0.011996572407883462,
-      "grad_norm": 0.17396818101406097,
-      "kl": 5.3763389587402344e-05,
       "learning_rate": 7e-07,
-      "loss": 0.0676,
-      "reward": 0.4305555671453476,
-      "reward_std": 0.3960871510207653,
-      "rewards/accuracy_reward": 0.09722222480922937,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2361111119389534,
       "step": 7,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2718.3056030273438,
       "epoch": 0.013710368466152529,
-      "grad_norm": 0.13110554218292236,
-      "kl": 3.319978713989258e-05,
       "learning_rate": 8e-07,
-      "loss": 0.0839,
-      "reward": 0.4722222238779068,
-      "reward_std": 0.42657903023064137,
-      "rewards/accuracy_reward": 0.1111111119389534,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2500000074505806,
       "step": 8,
-      "vanishing_advantage_ratio": 0.4444444589316845
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2462.8055114746094,
       "epoch": 0.015424164524421594,
-      "grad_norm": 0.14741061627864838,
-      "kl": 3.781914710998535e-05,
       "learning_rate": 9e-07,
-      "loss": 0.0689,
-      "reward": 0.4583333358168602,
-      "reward_std": 0.374173566699028,
-      "rewards/accuracy_reward": 0.1250000037252903,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.20833333767950535,
       "step": 9,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3018.6805725097656,
       "epoch": 0.01713796058269066,
-      "grad_norm": 0.12218267470598221,
-      "kl": 3.737211227416992e-05,
       "learning_rate": 1e-06,
-      "loss": 0.0729,
-      "reward": 0.5277777928858995,
-      "reward_std": 0.5827038362622261,
-      "rewards/accuracy_reward": 0.19444444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.13888888899236917,
       "step": 10,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2796.763946533203,
       "epoch": 0.018851756640959727,
-      "grad_norm": 0.19447727501392365,
-      "kl": 3.8176774978637695e-05,
       "learning_rate": 9.997258721585931e-07,
-      "loss": 0.0653,
-      "reward": 0.3958333511836827,
-      "reward_std": 0.3750236164778471,
-      "rewards/accuracy_reward": 0.1111111156642437,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1736111124046147,
       "step": 11,
-      "vanishing_advantage_ratio": 0.43055556155741215
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3165.5694580078125,
       "epoch": 0.02056555269922879,
-      "grad_norm": 0.13901270925998688,
-      "kl": 3.3974647521972656e-05,
       "learning_rate": 9.989038226169207e-07,
-      "loss": 0.0748,
-      "reward": 0.3263888922519982,
-      "reward_std": 0.4248256888240576,
-      "rewards/accuracy_reward": 0.09722222480922937,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1319444444961846,
       "step": 12,
-      "vanishing_advantage_ratio": 0.2777777910232544
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2812.7083740234375,
       "epoch": 0.022279348757497857,
-      "grad_norm": 0.18154460191726685,
-      "kl": 2.600252628326416e-05,
       "learning_rate": 9.975348529157229e-07,
-      "loss": 0.0766,
-      "reward": 0.31944444961845875,
-      "reward_std": 0.44224512577056885,
-      "rewards/accuracy_reward": 0.08333333488553762,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1527777798473835,
       "step": 13,
-      "vanishing_advantage_ratio": 0.1944444552063942
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2717.736114501953,
       "epoch": 0.023993144815766924,
-      "grad_norm": 0.14561408758163452,
-      "kl": 4.267692565917969e-05,
       "learning_rate": 9.956206309337066e-07,
-      "loss": 0.0128,
-      "reward": 0.3124999962747097,
-      "reward_std": 0.3933219611644745,
-      "rewards/accuracy_reward": 0.06944444589316845,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.17361111380159855,
       "step": 14,
-      "vanishing_advantage_ratio": 0.36111112125217915
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3323.8056030273438,
       "epoch": 0.02570694087403599,
-      "grad_norm": 0.13735535740852356,
-      "kl": 2.0116567611694336e-05,
       "learning_rate": 9.931634888554935e-07,
-      "loss": 0.0895,
-      "reward": 0.4027777872979641,
-      "reward_std": 0.5426600202918053,
-      "rewards/accuracy_reward": 0.15277778171002865,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.09722222480922937,
       "step": 15,
-      "vanishing_advantage_ratio": 0.1805555671453476
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2356.2500610351562,
       "epoch": 0.027420736932305057,
-      "grad_norm": 0.12638089060783386,
-      "kl": 3.668665885925293e-05,
       "learning_rate": 9.901664203302124e-07,
-      "loss": 0.0365,
-      "reward": 0.5902777761220932,
-      "reward_std": 0.5737965255975723,
-      "rewards/accuracy_reward": 0.15277778264135122,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.28472222201526165,
       "step": 16,
-      "vanishing_advantage_ratio": 0.347222238779068
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2843.3751220703125,
       "epoch": 0.02913453299057412,
-      "grad_norm": 0.12914972007274628,
-      "kl": 1.8578022718429565e-05,
       "learning_rate": 9.866330768241983e-07,
-      "loss": 0.0311,
-      "reward": 0.3333333400078118,
-      "reward_std": 0.36667141877114773,
-      "rewards/accuracy_reward": 0.11111111380159855,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.11111111240461469,
       "step": 17,
-      "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3191.361083984375,
       "epoch": 0.030848329048843187,
-      "grad_norm": 0.16445335745811462,
-      "kl": 2.8409063816070557e-05,
       "learning_rate": 9.825677631722435e-07,
-      "loss": 0.0738,
-      "reward": 0.1736111156642437,
-      "reward_std": 0.2155014369636774,
-      "rewards/accuracy_reward": 0.0416666679084301,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.09027778077870607,
       "step": 18,
-      "vanishing_advantage_ratio": 0.5833333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3148.77783203125,
       "epoch": 0.032562125107112254,
-      "grad_norm": 0.10606271028518677,
-      "kl": 3.5881996154785156e-05,
       "learning_rate": 9.779754323328192e-07,
-      "loss": 0.0617,
-      "reward": 0.3194444444961846,
-      "reward_std": 0.4261201396584511,
-      "rewards/accuracy_reward": 0.09722222294658422,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.12500000232830644,
       "step": 19,
-      "vanishing_advantage_ratio": 0.3611111268401146
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3273.138916015625,
       "epoch": 0.03427592116538132,
-      "grad_norm": 0.10688318312168121,
-      "kl": 2.744048833847046e-05,
       "learning_rate": 9.728616793536587e-07,
-      "loss": 0.0473,
-      "reward": 0.1666666716337204,
-      "reward_std": 0.24878324940800667,
-      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.11111111426725984,
       "step": 20,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2865.1250915527344,
       "epoch": 0.03598971722365039,
-      "grad_norm": 0.1771811544895172,
-      "kl": 6.73532485961914e-05,
       "learning_rate": 9.672327345550543e-07,
-      "loss": 0.1162,
-      "reward": 0.3680555671453476,
-      "reward_std": 0.5005812719464302,
-      "rewards/accuracy_reward": 0.0972222238779068,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.17361111287027597,
       "step": 21,
-      "vanishing_advantage_ratio": 0.2083333469927311
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2781.2222900390625,
       "epoch": 0.037703513281919454,
-      "grad_norm": 0.14734819531440735,
-      "kl": 6.908178329467773e-05,
       "learning_rate": 9.610954559391704e-07,
-      "loss": 0.118,
-      "reward": 0.38888889737427235,
-      "reward_std": 0.3173447232693434,
-      "rewards/accuracy_reward": 0.1111111156642437,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.16666666977107525,
       "step": 22,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3032.0833740234375,
       "epoch": 0.03941730934018852,
-      "grad_norm": 0.13921721279621124,
-      "kl": 9.47713851928711e-05,
       "learning_rate": 9.54457320834625e-07,
-      "loss": 0.0163,
-      "reward": 0.3194444477558136,
-      "reward_std": 0.47703739255666733,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.180555559694767,
       "step": 23,
-      "vanishing_advantage_ratio": 0.26388889737427235
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2767.4861450195312,
       "epoch": 0.04113110539845758,
-      "grad_norm": 0.13283671438694,
-      "kl": 0.00014197826385498047,
       "learning_rate": 9.473264167865171e-07,
-      "loss": 0.0132,
-      "reward": 0.3194444514811039,
-      "reward_std": 0.3195137083530426,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.180555559694767,
       "step": 24,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2574.625,
       "epoch": 0.04284490145672665,
-      "grad_norm": 0.12056349962949753,
-      "kl": 0.00019240379333496094,
       "learning_rate": 9.397114317029974e-07,
-      "loss": 0.0681,
-      "reward": 0.5000000121071935,
-      "reward_std": 0.3675909973680973,
-      "rewards/accuracy_reward": 0.13888888899236917,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.22222222853451967,
       "step": 25,
-      "vanishing_advantage_ratio": 0.4583333544433117
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3157.513916015625,
       "epoch": 0.044558697514995714,
-      "grad_norm": 0.11926140636205673,
-      "kl": 0.00018858909606933594,
       "learning_rate": 9.316216432703916e-07,
-      "loss": 0.0933,
-      "reward": 0.2708333432674408,
-      "reward_std": 0.41086217388510704,
-      "rewards/accuracy_reward": 0.06944444589316845,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.13194444868713617,
       "step": 26,
-      "vanishing_advantage_ratio": 0.347222238779068
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2885.8333740234375,
       "epoch": 0.04627249357326478,
-      "grad_norm": 0.15303786098957062,
-      "kl": 0.0003833770751953125,
       "learning_rate": 9.230669076497687e-07,
-      "loss": 0.1048,
-      "reward": 0.3055555606260896,
-      "reward_std": 0.38973100297152996,
-      "rewards/accuracy_reward": 0.08333333488553762,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.13888889271765947,
       "step": 27,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2201.6805419921875,
       "epoch": 0.04798628963153385,
-      "grad_norm": 0.1955413967370987,
-      "kl": 0.0005526542663574219,
       "learning_rate": 9.140576474687263e-07,
-      "loss": 0.0602,
-      "reward": 0.5625000074505806,
-      "reward_std": 0.5387887954711914,
-      "rewards/accuracy_reward": 0.13888889364898205,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2847222201526165,
       "step": 28,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2828.138916015625,
       "epoch": 0.049700085689802914,
-      "grad_norm": 0.1482599526643753,
-      "kl": 0.0004673004150390625,
       "learning_rate": 9.046048391230247e-07,
-      "loss": 0.0391,
-      "reward": 0.4513888955116272,
-      "reward_std": 0.4079795628786087,
-      "rewards/accuracy_reward": 0.13888889271765947,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1736111156642437,
       "step": 29,
-      "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2359.527801513672,
       "epoch": 0.05141388174807198,
-      "grad_norm": 0.22218456864356995,
-      "kl": 0.0006856918334960938,
       "learning_rate": 8.9471999940354e-07,
-      "loss": 0.0802,
-      "reward": 0.6527777761220932,
-      "reward_std": 0.5185052454471588,
-      "rewards/accuracy_reward": 0.18055555690079927,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.29166667349636555,
       "step": 30,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2744.52783203125,
       "epoch": 0.05312767780634105,
-      "grad_norm": 0.16492263972759247,
-      "kl": 0.000579833984375,
       "learning_rate": 8.844151714648274e-07,
-      "loss": 0.0452,
-      "reward": 0.3750000037252903,
-      "reward_std": 0.34963209368288517,
-      "rewards/accuracy_reward": 0.0833333358168602,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2083333358168602,
       "step": 31,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3013.625,
       "epoch": 0.054841473864610114,
-      "grad_norm": 0.11328811198472977,
-      "kl": 0.00067138671875,
       "learning_rate": 8.737029101523929e-07,
-      "loss": 0.0737,
-      "reward": 0.3750000037252903,
-      "reward_std": 0.5095698311924934,
-      "rewards/accuracy_reward": 0.12500000279396772,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.12500000186264515,
       "step": 32,
-      "vanishing_advantage_ratio": 0.2638889029622078
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2419.0416870117188,
       "epoch": 0.056555269922879174,
-      "grad_norm": 0.1530231535434723,
-      "kl": 0.0009984970092773438,
       "learning_rate": 8.625962667065487e-07,
-      "loss": 0.1043,
-      "reward": 0.5625000074505806,
-      "reward_std": 0.5970685631036758,
-      "rewards/accuracy_reward": 0.16666666977107525,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2291666679084301,
       "step": 33,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2907.861083984375,
       "epoch": 0.05826906598114824,
-      "grad_norm": 0.12301065772771835,
-      "kl": 0.0006427764892578125,
       "learning_rate": 8.511087728614862e-07,
-      "loss": 0.0463,
-      "reward": 0.26388888992369175,
-      "reward_std": 0.4172779843211174,
-      "rewards/accuracy_reward": 0.06944444589316845,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1250000037252903,
       "step": 34,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3100.763916015625,
       "epoch": 0.05998286203941731,
-      "grad_norm": 0.12839922308921814,
-      "kl": 0.0008440017700195312,
       "learning_rate": 8.392544243589427e-07,
-      "loss": 0.0551,
-      "reward": 0.16666666697710752,
-      "reward_std": 0.2315547615289688,
-      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.11111111473292112,
       "step": 35,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2822.0555419921875,
       "epoch": 0.061696658097686374,
-      "grad_norm": 0.12107470631599426,
-      "kl": 0.0008678436279296875,
       "learning_rate": 8.270476638965461e-07,
-      "loss": 0.0289,
-      "reward": 0.3124999972060323,
-      "reward_std": 0.22435275837779045,
-      "rewards/accuracy_reward": 0.0833333358168602,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.14583333674818277,
       "step": 36,
       "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3060.6527709960938,
       "epoch": 0.06341045415595545,
-      "grad_norm": 0.09756799787282944,
-      "kl": 0.0010995864868164062,
       "learning_rate": 8.145033635316128e-07,
-      "loss": 0.0338,
-      "reward": 0.1736111156642437,
-      "reward_std": 0.17782795429229736,
-      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.11805556016042829,
       "step": 37,
-      "vanishing_advantage_ratio": 0.5833333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3165.7777709960938,
       "epoch": 0.06512425021422451,
-      "grad_norm": 0.11750654131174088,
-      "kl": 0.0009393692016601562,
       "learning_rate": 8.01636806561836e-07,
-      "loss": 0.0565,
-      "reward": 0.16666667256504297,
-      "reward_std": 0.25459469109773636,
-      "rewards/accuracy_reward": 0.013888888992369175,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.13888889271765947,
       "step": 38,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3037.2222290039062,
       "epoch": 0.06683804627249357,
-      "grad_norm": 0.1207585409283638,
-      "kl": 0.0012197494506835938,
       "learning_rate": 7.884636689049422e-07,
-      "loss": 0.0499,
-      "reward": 0.4166666604578495,
-      "reward_std": 0.4621501453220844,
-      "rewards/accuracy_reward": 0.12500000465661287,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.16666666930541396,
       "step": 39,
       "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2825.666748046875,
       "epoch": 0.06855184233076264,
-      "grad_norm": 0.1460999995470047,
-      "kl": 0.0011749267578125,
       "learning_rate": 7.75e-07,
-      "loss": 0.0277,
-      "reward": 0.3402777835726738,
-      "reward_std": 0.4121079109609127,
-      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1736111156642437,
       "step": 40,
       "vanishing_advantage_ratio": 0.1944444552063942
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2901.1111450195312,
       "epoch": 0.0702656383890317,
-      "grad_norm": 0.1785588562488556,
-      "kl": 0.001255035400390625,
       "learning_rate": 7.612622032536507e-07,
-      "loss": 0.1139,
-      "reward": 0.3194444486871362,
-      "reward_std": 0.35272070951759815,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
       "rewards/format_reward": 0.18055556062608957,
       "step": 41,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2538.1250610351562,
       "epoch": 0.07197943444730077,
-      "grad_norm": 0.12826786935329437,
-      "kl": 0.0012569427490234375,
       "learning_rate": 7.472670160550848e-07,
-      "loss": 0.0716,
-      "reward": 0.4236111119389534,
-      "reward_std": 0.4551766887307167,
       "rewards/accuracy_reward": 0.09722222294658422,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2291666716337204,
       "step": 42,
-      "vanishing_advantage_ratio": 0.3611111268401146
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2633.791748046875,
       "epoch": 0.07369323050556983,
-      "grad_norm": 0.16073498129844666,
-      "kl": 0.001422882080078125,
       "learning_rate": 7.330314893841101e-07,
-      "loss": 0.0611,
-      "reward": 0.47222223225980997,
-      "reward_std": 0.44562001153826714,
-      "rewards/accuracy_reward": 0.13888889085501432,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.19444444496184587,
       "step": 43,
-      "vanishing_advantage_ratio": 0.2222222313284874
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2699.4166870117188,
       "epoch": 0.07540702656383891,
-      "grad_norm": 0.12924349308013916,
-      "kl": 0.0012722015380859375,
       "learning_rate": 7.185729670371604e-07,
-      "loss": 0.0353,
-      "reward": 0.5208333544433117,
-      "reward_std": 0.49474263936281204,
-      "rewards/accuracy_reward": 0.15277778077870607,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2152777835726738,
       "step": 44,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2845.7083740234375,
       "epoch": 0.07712082262210797,
-      "grad_norm": 0.11390957236289978,
-      "kl": 0.00176239013671875,
       "learning_rate": 7.039090644965509e-07,
-      "loss": 0.0475,
-      "reward": 0.45138888992369175,
-      "reward_std": 0.46796466782689095,
-      "rewards/accuracy_reward": 0.12500000093132257,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.20138889364898205,
       "step": 45,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2379.652801513672,
       "epoch": 0.07883461868037704,
-      "grad_norm": 0.19179578125476837,
-      "kl": 0.001857757568359375,
       "learning_rate": 6.890576474687263e-07,
-      "loss": 0.0782,
-      "reward": 0.2916666753590107,
-      "reward_std": 0.24928437173366547,
-      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.236111119389534,
       "step": 46,
-      "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2883.013916015625,
       "epoch": 0.0805484147386461,
-      "grad_norm": 0.1341867595911026,
-      "kl": 0.0015201568603515625,
       "learning_rate": 6.740368101176495e-07,
-      "loss": 0.0509,
-      "reward": 0.3124999962747097,
-      "reward_std": 0.3921421244740486,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.17361111287027597,
       "step": 47,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2353.513916015625,
       "epoch": 0.08226221079691516,
-      "grad_norm": 0.17986062169075012,
-      "kl": 0.001934051513671875,
       "learning_rate": 6.588648530198504e-07,
-      "loss": 0.1147,
-      "reward": 0.4305555559694767,
-      "reward_std": 0.45186642557382584,
-      "rewards/accuracy_reward": 0.0833333358168602,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2638888917863369,
       "step": 48,
-      "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2381.236083984375,
       "epoch": 0.08397600685518423,
-      "grad_norm": 0.21353779733181,
-      "kl": 0.0018062591552734375,
       "learning_rate": 6.435602608679916e-07,
-      "loss": 0.1211,
-      "reward": 0.5138888955116272,
-      "reward_std": 0.4158581532537937,
-      "rewards/accuracy_reward": 0.12500000279396772,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2638888917863369,
       "step": 49,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2708.1945190429688,
       "epoch": 0.0856898029134533,
-      "grad_norm": 0.15710178017616272,
-      "kl": 0.002422332763671875,
       "learning_rate": 6.281416799501187e-07,
-      "loss": 0.0607,
-      "reward": 0.3541666716337204,
-      "reward_std": 0.32185615226626396,
-      "rewards/accuracy_reward": 0.041666666977107525,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2708333358168602,
       "step": 50,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2687.1527709960938,
       "epoch": 0.08740359897172237,
-      "grad_norm": 0.12324044853448868,
-      "kl": 0.0019092559814453125,
       "learning_rate": 6.126278954320294e-07,
-      "loss": 0.0835,
-      "reward": 0.2986111082136631,
-      "reward_std": 0.3335576541721821,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15972222480922937,
       "step": 51,
-      "vanishing_advantage_ratio": 0.3611111342906952
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3042.3333740234375,
       "epoch": 0.08911739502999143,
-      "grad_norm": 0.13603372871875763,
-      "kl": 0.0019130706787109375,
       "learning_rate": 5.97037808470444e-07,
-      "loss": 0.0355,
-      "reward": 0.5347222350537777,
-      "reward_std": 0.5967377945780754,
-      "rewards/accuracy_reward": 0.19444444868713617,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.14583333767950535,
       "step": 52,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2828.40283203125,
       "epoch": 0.0908311910882605,
-      "grad_norm": 0.15737178921699524,
-      "kl": 0.0020122528076171875,
       "learning_rate": 5.813904131848564e-07,
-      "loss": 0.0849,
-      "reward": 0.3680555634200573,
-      "reward_std": 0.5401013866066933,
-      "rewards/accuracy_reward": 0.12500000279396772,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.11805555690079927,
       "step": 53,
-      "vanishing_advantage_ratio": 0.1944444552063942
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3081.236083984375,
       "epoch": 0.09254498714652956,
-      "grad_norm": 0.14406447112560272,
-      "kl": 0.0018634796142578125,
       "learning_rate": 5.657047735161255e-07,
-      "loss": 0.0754,
-      "reward": 0.2708333325572312,
-      "reward_std": 0.36696687154471874,
-      "rewards/accuracy_reward": 0.06944444589316845,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.13194444635882974,
       "step": 54,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3035.236083984375,
       "epoch": 0.09425878320479864,
-      "grad_norm": 0.15260501205921173,
-      "kl": 0.002197265625,
       "learning_rate": 5.5e-07,
-      "loss": 0.1049,
-      "reward": 0.3888888992369175,
-      "reward_std": 0.5262130200862885,
-      "rewards/accuracy_reward": 0.1111111119389534,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.16666666977107525,
       "step": 55,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2801.5416259765625,
       "epoch": 0.0959725792630677,
-      "grad_norm": 0.17021320760250092,
-      "kl": 0.0022754669189453125,
       "learning_rate": 5.342952264838747e-07,
-      "loss": 0.0853,
-      "reward": 0.4236111119389534,
-      "reward_std": 0.45923004299402237,
-      "rewards/accuracy_reward": 0.1250000037252903,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1736111119389534,
       "step": 56,
-      "vanishing_advantage_ratio": 0.25
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2974.6805419921875,
       "epoch": 0.09768637532133675,
-      "grad_norm": 0.11549308151006699,
-      "kl": 0.0024566650390625,
       "learning_rate": 5.186095868151436e-07,
-      "loss": 0.0758,
-      "reward": 0.3680555671453476,
-      "reward_std": 0.4127896688878536,
-      "rewards/accuracy_reward": 0.1111111119389534,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.14583333441987634,
       "step": 57,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3138.1806030273438,
       "epoch": 0.09940017137960583,
-      "grad_norm": 0.1200040727853775,
-      "kl": 0.002838134765625,
       "learning_rate": 5.02962191529556e-07,
-      "loss": 0.0454,
-      "reward": 0.2083333325572312,
-      "reward_std": 0.2104328442364931,
-      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1527777803130448,
       "step": 58,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2535.5416870117188,
       "epoch": 0.10111396743787489,
-      "grad_norm": 0.1694697141647339,
-      "kl": 0.003231048583984375,
       "learning_rate": 4.873721045679706e-07,
-      "loss": 0.1082,
-      "reward": 0.618055559694767,
-      "reward_std": 0.6503396853804588,
-      "rewards/accuracy_reward": 0.1944444477558136,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2291666716337204,
       "step": 59,
       "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2990.6805419921875,
       "epoch": 0.10282776349614396,
-      "grad_norm": 0.11708780378103256,
-      "kl": 0.0026702880859375,
       "learning_rate": 4.7185832004988133e-07,
-      "loss": 0.0607,
-      "reward": 0.5208333432674408,
-      "reward_std": 0.6233179718255997,
-      "rewards/accuracy_reward": 0.1944444477558136,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1319444477558136,
       "step": 60,
-      "vanishing_advantage_ratio": 0.25
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2945.2222900390625,
       "epoch": 0.10454155955441302,
-      "grad_norm": 0.147248312830925,
-      "kl": 0.002758026123046875,
       "learning_rate": 4.5643973913200837e-07,
-      "loss": 0.0707,
-      "reward": 0.2847222280688584,
-      "reward_std": 0.3064969703555107,
-      "rewards/accuracy_reward": 0.0694444477558136,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1458333362825215,
       "step": 61,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2515.6666870117188,
       "epoch": 0.1062553556126821,
-      "grad_norm": 0.15092438459396362,
-      "kl": 0.003406524658203125,
       "learning_rate": 4.4113514698014953e-07,
-      "loss": 0.0271,
-      "reward": 0.5000000074505806,
-      "reward_std": 0.5652750581502914,
-      "rewards/accuracy_reward": 0.13888888992369175,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2222222276031971,
       "step": 62,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3210.2916870117188,
       "epoch": 0.10796915167095116,
-      "grad_norm": 0.14689189195632935,
-      "kl": 0.002899169921875,
       "learning_rate": 4.2596318988235037e-07,
-      "loss": 0.0911,
-      "reward": 0.3263888992369175,
-      "reward_std": 0.4785457216203213,
-      "rewards/accuracy_reward": 0.09722222574055195,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.13194444822147489,
       "step": 63,
-      "vanishing_advantage_ratio": 0.18055556155741215
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2830.5833129882812,
       "epoch": 0.10968294772922023,
-      "grad_norm": 0.13354940712451935,
-      "kl": 0.0031719207763671875,
       "learning_rate": 4.1094235253127374e-07,
-      "loss": 0.0593,
-      "reward": 0.30555555829778314,
-      "reward_std": 0.26662319526076317,
-      "rewards/accuracy_reward": 0.09722222480922937,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.11111111240461469,
       "step": 64,
-      "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3102.7361450195312,
       "epoch": 0.11139674378748929,
-      "grad_norm": 0.1135522872209549,
-      "kl": 0.003261566162109375,
       "learning_rate": 3.9609093550344907e-07,
-      "loss": 0.0753,
-      "reward": 0.18055555829778314,
-      "reward_std": 0.1522968877106905,
-      "rewards/accuracy_reward": 0.013888888992369175,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15277778217568994,
       "step": 65,
-      "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2707.6666870117188,
       "epoch": 0.11311053984575835,
-      "grad_norm": 0.13425862789154053,
-      "kl": 0.003246307373046875,
       "learning_rate": 3.8142703296283953e-07,
-      "loss": 0.0475,
-      "reward": 0.5208333395421505,
-      "reward_std": 0.4286172688007355,
-      "rewards/accuracy_reward": 0.180555559694767,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15972222574055195,
       "step": 66,
-      "vanishing_advantage_ratio": 0.5000000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2820.361083984375,
       "epoch": 0.11482433590402742,
-      "grad_norm": 0.18349036574363708,
-      "kl": 0.00356292724609375,
       "learning_rate": 3.6696851061588994e-07,
-      "loss": 0.077,
-      "reward": 0.4583333507180214,
-      "reward_std": 0.6253736391663551,
-      "rewards/accuracy_reward": 0.12500000279396772,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2083333358168602,
       "step": 67,
-      "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2947.138916015625,
       "epoch": 0.11653813196229648,
-      "grad_norm": 0.14458446204662323,
-      "kl": 0.0033721923828125,
       "learning_rate": 3.5273298394491515e-07,
-      "loss": 0.0576,
-      "reward": 0.37500000558793545,
-      "reward_std": 0.24039746448397636,
-      "rewards/accuracy_reward": 0.09722222480922937,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.18055555783212185,
       "step": 68,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2803.513916015625,
       "epoch": 0.11825192802056556,
-      "grad_norm": 0.18413224816322327,
-      "kl": 0.003757476806640625,
       "learning_rate": 3.387377967463493e-07,
-      "loss": 0.1572,
-      "reward": 0.5833333432674408,
-      "reward_std": 0.592583030462265,
-      "rewards/accuracy_reward": 0.1944444514811039,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1944444477558136,
       "step": 69,
-      "vanishing_advantage_ratio": 0.09722222574055195
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2804.9305419921875,
       "epoch": 0.11996572407883462,
-      "grad_norm": 0.1695493459701538,
-      "kl": 0.003505706787109375,
       "learning_rate": 3.250000000000001e-07,
-      "loss": 0.002,
-      "reward": 0.3680555522441864,
-      "reward_std": 0.40423472225666046,
-      "rewards/accuracy_reward": 0.11111111287027597,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1458333395421505,
       "step": 70,
-      "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2884.7916870117188,
       "epoch": 0.12167952013710369,
-      "grad_norm": 0.17039252817630768,
-      "kl": 0.00363922119140625,
       "learning_rate": 3.115363310950578e-07,
-      "loss": 0.0761,
-      "reward": 0.4305555559694767,
-      "reward_std": 0.5452307164669037,
-      "rewards/accuracy_reward": 0.15277778077870607,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.12500000279396772,
       "step": 71,
-      "vanishing_advantage_ratio": 0.361111119389534
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2375.625,
       "epoch": 0.12339331619537275,
-      "grad_norm": 0.16211162507534027,
-      "kl": 0.0038604736328125,
       "learning_rate": 2.9836319343816397e-07,
-      "loss": 0.0321,
-      "reward": 0.4513888880610466,
-      "reward_std": 0.2963226269930601,
-      "rewards/accuracy_reward": 0.11111111473292112,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2291666679084301,
       "step": 72,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2680.6805725097656,
       "epoch": 0.12510711225364182,
-      "grad_norm": 0.18615099787712097,
-      "kl": 0.0038604736328125,
       "learning_rate": 2.854966364683872e-07,
-      "loss": 0.0706,
-      "reward": 0.5833333432674408,
-      "reward_std": 0.47368447482585907,
-      "rewards/accuracy_reward": 0.18055555876344442,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.22222222480922937,
       "step": 73,
       "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2270.250030517578,
       "epoch": 0.1268209083119109,
-      "grad_norm": 0.17723990976810455,
-      "kl": 0.0043487548828125,
       "learning_rate": 2.729523361034538e-07,
-      "loss": 0.0446,
-      "reward": 0.4583333283662796,
-      "reward_std": 0.5667729154229164,
-      "rewards/accuracy_reward": 0.0972222238779068,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2638888880610466,
       "step": 74,
-      "vanishing_advantage_ratio": 0.09722222574055195
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3122.8750610351562,
       "epoch": 0.12853470437017994,
-      "grad_norm": 0.10203089565038681,
-      "kl": 0.003383636474609375,
       "learning_rate": 2.6074557564105724e-07,
-      "loss": 0.0706,
-      "reward": 0.2708333395421505,
-      "reward_std": 0.3444611057639122,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.13194444915279746,
       "step": 75,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2106.3472900390625,
       "epoch": 0.13024850042844902,
-      "grad_norm": 0.18112541735172272,
-      "kl": 0.00616455078125,
       "learning_rate": 2.488912271385139e-07,
-      "loss": 0.0177,
-      "reward": 0.5833333358168602,
-      "reward_std": 0.47035834193229675,
-      "rewards/accuracy_reward": 0.13888889364898205,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.3055555559694767,
       "step": 76,
-      "vanishing_advantage_ratio": 0.3055555671453476
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2881.013916015625,
       "epoch": 0.1319622964867181,
-      "grad_norm": 0.12448816746473312,
-      "kl": 0.00357818603515625,
       "learning_rate": 2.374037332934512e-07,
-      "loss": 0.0967,
-      "reward": 0.5138888955116272,
-      "reward_std": 0.7071040645241737,
-      "rewards/accuracy_reward": 0.18055555783212185,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15277778077870607,
       "step": 77,
-      "vanishing_advantage_ratio": 0.3055555708706379
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3254.3611450195312,
       "epoch": 0.13367609254498714,
-      "grad_norm": 0.10527807474136353,
-      "kl": 0.003459930419921875,
       "learning_rate": 2.2629708984760706e-07,
-      "loss": 0.0512,
-      "reward": 0.2500000041909516,
-      "reward_std": 0.36582790687680244,
-      "rewards/accuracy_reward": 0.08333333674818277,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.08333333488553762,
       "step": 78,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2438.5416259765625,
       "epoch": 0.1353898886032562,
-      "grad_norm": 0.15114635229110718,
-      "kl": 0.0055389404296875,
       "learning_rate": 2.1558482853517253e-07,
-      "loss": 0.0167,
-      "reward": 0.4513888955116272,
-      "reward_std": 0.27200620248913765,
-      "rewards/accuracy_reward": 0.1111111156642437,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2291666716337204,
       "step": 79,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3177.1666870117188,
       "epoch": 0.13710368466152528,
-      "grad_norm": 0.13894222676753998,
-      "kl": 0.004375457763671875,
       "learning_rate": 2.0528000059645995e-07,
-      "loss": 0.0528,
-      "reward": 0.3125000037252903,
-      "reward_std": 0.4319829046726227,
-      "rewards/accuracy_reward": 0.08333333488553762,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.14583333767950535,
       "step": 80,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2965.4027709960938,
       "epoch": 0.13881748071979436,
-      "grad_norm": 0.1256721317768097,
-      "kl": 0.004421234130859375,
       "learning_rate": 1.9539516087697517e-07,
-      "loss": 0.0653,
-      "reward": 0.24305555736646056,
-      "reward_std": 0.3140085842460394,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.10416666930541396,
       "step": 81,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2896.1527709960938,
       "epoch": 0.1405312767780634,
-      "grad_norm": 0.16527993977069855,
-      "kl": 0.00421142578125,
       "learning_rate": 1.8594235253127372e-07,
-      "loss": 0.1779,
-      "reward": 0.381944440305233,
-      "reward_std": 0.508243752643466,
-      "rewards/accuracy_reward": 0.11111111473292112,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15972222574055195,
       "step": 82,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2593.5416870117188,
       "epoch": 0.14224507283633248,
-      "grad_norm": 0.19563595950603485,
-      "kl": 0.00440216064453125,
       "learning_rate": 1.7693309235023127e-07,
-      "loss": 0.0942,
-      "reward": 0.4583333358168602,
-      "reward_std": 0.5371576994657516,
-      "rewards/accuracy_reward": 0.12500000186264515,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2083333358168602,
       "step": 83,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2866.763885498047,
       "epoch": 0.14395886889460155,
-      "grad_norm": 0.12824302911758423,
-      "kl": 0.00487518310546875,
       "learning_rate": 1.6837835672960831e-07,
-      "loss": 0.0191,
-      "reward": 0.4930555745959282,
-      "reward_std": 0.49528179317712784,
-      "rewards/accuracy_reward": 0.15277778077870607,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.18750000232830644,
       "step": 84,
-      "vanishing_advantage_ratio": 0.458333358168602
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2863.5972900390625,
       "epoch": 0.1456726649528706,
-      "grad_norm": 0.1436908096075058,
-      "kl": 0.0040435791015625,
       "learning_rate": 1.6028856829700258e-07,
-      "loss": 0.0606,
-      "reward": 0.47222222574055195,
-      "reward_std": 0.517341261729598,
-      "rewards/accuracy_reward": 0.1666666716337204,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1388888917863369,
       "step": 85,
       "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2785.736083984375,
       "epoch": 0.14738646101113967,
-      "grad_norm": 0.17216697335243225,
-      "kl": 0.004482269287109375,
       "learning_rate": 1.5267358321348285e-07,
-      "loss": 0.0824,
-      "reward": 0.41666666604578495,
-      "reward_std": 0.485262468457222,
-      "rewards/accuracy_reward": 0.12500000186264515,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1666666679084301,
       "step": 86,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3307.3194580078125,
       "epoch": 0.14910025706940874,
-      "grad_norm": 0.10646296292543411,
-      "kl": 0.003597259521484375,
       "learning_rate": 1.4554267916537495e-07,
-      "loss": 0.0495,
-      "reward": 0.43750001676380634,
-      "reward_std": 0.3348946310579777,
-      "rewards/accuracy_reward": 0.16666667349636555,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.10416666883975267,
       "step": 87,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3317.1806030273438,
       "epoch": 0.15081405312767782,
-      "grad_norm": 0.131212517619133,
-      "kl": 0.004451751708984375,
       "learning_rate": 1.3890454406082956e-07,
-      "loss": 0.0764,
-      "reward": 0.3680555671453476,
-      "reward_std": 0.4501563832163811,
-      "rewards/accuracy_reward": 0.15277778077870607,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.06250000186264515,
       "step": 88,
-      "vanishing_advantage_ratio": 0.4444444552063942
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2650.8056030273438,
       "epoch": 0.15252784918594686,
-      "grad_norm": 0.15206274390220642,
-      "kl": 0.00530242919921875,
       "learning_rate": 1.3276726544494571e-07,
-      "loss": 0.0723,
-      "reward": 0.2847222238779068,
-      "reward_std": 0.39606497436761856,
-      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1736111124046147,
       "step": 89,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2848.7500610351562,
       "epoch": 0.15424164524421594,
-      "grad_norm": 0.16075682640075684,
-      "kl": 0.003780364990234375,
       "learning_rate": 1.2713832064634125e-07,
-      "loss": 0.0582,
-      "reward": 0.31250000558793545,
-      "reward_std": 0.2296726070344448,
       "rewards/accuracy_reward": 0.055555556900799274,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.20138888992369175,
       "step": 90,
-      "vanishing_advantage_ratio": 0.5000000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2962.125,
       "epoch": 0.155955441302485,
-      "grad_norm": 0.14642441272735596,
-      "kl": 0.0050201416015625,
       "learning_rate": 1.220245676671809e-07,
-      "loss": 0.0831,
-      "reward": 0.3680555489845574,
-      "reward_std": 0.40546936355531216,
-      "rewards/accuracy_reward": 0.1111111119389534,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1458333362825215,
       "step": 91,
-      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2616.8472290039062,
       "epoch": 0.15766923736075408,
-      "grad_norm": 0.1574823409318924,
-      "kl": 0.004451751708984375,
       "learning_rate": 1.1743223682775649e-07,
-      "loss": 0.0517,
-      "reward": 0.28472222574055195,
-      "reward_std": 0.22857079841196537,
-      "rewards/accuracy_reward": 0.0416666679084301,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.20138889364898205,
       "step": 92,
-      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2823.7639770507812,
       "epoch": 0.15938303341902313,
-      "grad_norm": 0.164349764585495,
-      "kl": 0.0048828125,
       "learning_rate": 1.1336692317580158e-07,
-      "loss": 0.0555,
-      "reward": 0.3958333325572312,
-      "reward_std": 0.33638707362115383,
-      "rewards/accuracy_reward": 0.11111111473292112,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.17361111612990499,
       "step": 93,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2778.7916870117188,
       "epoch": 0.1610968294772922,
-      "grad_norm": 0.14506115019321442,
-      "kl": 0.0046539306640625,
       "learning_rate": 1.0983357966978745e-07,
-      "loss": 0.0633,
-      "reward": 0.2916666683740914,
-      "reward_std": 0.25966140627861023,
-      "rewards/accuracy_reward": 0.041666666977107525,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.20833334000781178,
       "step": 94,
       "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2717.3750610351562,
       "epoch": 0.16281062553556128,
-      "grad_norm": 0.16493435204029083,
-      "kl": 0.00475311279296875,
       "learning_rate": 1.068365111445064e-07,
-      "loss": 0.1016,
-      "reward": 0.5208333358168602,
-      "reward_std": 0.588125430047512,
-      "rewards/accuracy_reward": 0.15277778264135122,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.2152777798473835,
       "step": 95,
       "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2940.2638549804688,
       "epoch": 0.16452442159383032,
-      "grad_norm": 0.14790275692939758,
-      "kl": 0.0041656494140625,
       "learning_rate": 1.0437936906629334e-07,
-      "loss": 0.0765,
-      "reward": 0.6666666734963655,
-      "reward_std": 0.6499281954020262,
-      "rewards/accuracy_reward": 0.2500000037252903,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.16666667349636555,
       "step": 96,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3096.1805419921875,
       "epoch": 0.1662382176520994,
-      "grad_norm": 0.13928674161434174,
-      "kl": 0.00507354736328125,
       "learning_rate": 1.0246514708427701e-07,
-      "loss": 0.1055,
-      "reward": 0.2638888917863369,
-      "reward_std": 0.436099786311388,
-      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.15277778171002865,
       "step": 97,
-      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2866.5000610351562,
       "epoch": 0.16795201371036847,
-      "grad_norm": 0.10994574427604675,
-      "kl": 0.0052490234375,
       "learning_rate": 1.0109617738307911e-07,
-      "loss": 0.0385,
-      "reward": 0.28472222574055195,
-      "reward_std": 0.30150144174695015,
-      "rewards/accuracy_reward": 0.055555556900799274,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.1736111156642437,
       "step": 98,
-      "vanishing_advantage_ratio": 0.5000000074505806
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 3153.5000610351562,
       "epoch": 0.16966580976863754,
-      "grad_norm": 0.13096007704734802,
-      "kl": 0.0048980712890625,
       "learning_rate": 1.002741278414069e-07,
-      "loss": 0.0808,
-      "reward": 0.2777777835726738,
-      "reward_std": 0.3955828621983528,
-      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.11111111287027597,
       "step": 99,
-      "vanishing_advantage_ratio": 0.3472222238779068
     },
     {
       "clip_ratio": 0.0,
-      "completion_length": 2818.7083740234375,
       "epoch": 0.1713796058269066,
-      "grad_norm": 0.13920088112354279,
-      "kl": 0.00577545166015625,
       "learning_rate": 1e-07,
-      "loss": 0.0032,
-      "reward": 0.30555555783212185,
-      "reward_std": 0.32475365325808525,
-      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
-      "rewards/format_reward": 0.16666667349636555,
       "step": 100,
-      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "epoch": 0.1713796058269066,
       "step": 100,
       "total_flos": 0.0,
-      "train_loss": 0.06513786550378427,
-      "train_runtime": 17727.636,
-      "train_samples_per_second": 0.406,
-      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 1,

   "log_history": [
     {
       "clip_ratio": 0.0,
+      "completion_length": 2910.513916015625,
       "epoch": 0.001713796058269066,
+      "grad_norm": 0.07309982925653458,
       "kl": 0.0,
       "learning_rate": 1e-07,
+      "loss": 0.0596,
+      "reward": 0.11805555876344442,
+      "reward_std": 0.060043493285775185,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.11805555876344442,
       "step": 1,
+      "vanishing_advantage_ratio": 0.7500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2873.4722900390625,
       "epoch": 0.003427592116538132,
+      "grad_norm": 0.13450193405151367,
       "kl": 0.0,
       "learning_rate": 2e-07,
+      "loss": 0.0299,
+      "reward": 0.17361111612990499,
+      "reward_std": 0.13970773108303547,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.17361111612990499,
       "step": 2,
+      "vanishing_advantage_ratio": 0.5416666865348816
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2874.8056030273438,
       "epoch": 0.005141388174807198,
+      "grad_norm": 0.1418725550174713,
+      "kl": 4.89354133605957e-05,
       "learning_rate": 3e-07,
+      "loss": 0.0777,
+      "reward": 0.1527777835726738,
+      "reward_std": 0.176795095205307,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1527777835726738,
       "step": 3,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2538.0694580078125,
       "epoch": 0.006855184233076264,
+      "grad_norm": 0.23347292840480804,
+      "kl": 6.121397018432617e-05,
       "learning_rate": 4e-07,
+      "loss": 0.1711,
+      "reward": 0.2500000074505806,
+      "reward_std": 0.23697294667363167,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2500000074505806,
       "step": 4,
+      "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2422.1666259765625,
       "epoch": 0.00856898029134533,
+      "grad_norm": 0.25554895401000977,
+      "kl": 6.949901580810547e-05,
       "learning_rate": 5e-07,
+      "loss": 0.1879,
+      "reward": 0.22916666977107525,
+      "reward_std": 0.21095014363527298,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.22916666977107525,
       "step": 5,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2720.361083984375,
       "epoch": 0.010282776349614395,
+      "grad_norm": 0.1855655461549759,
+      "kl": 5.7816505432128906e-05,
       "learning_rate": 6e-07,
+      "loss": 0.1443,
+      "reward": 0.1666666716337204,
+      "reward_std": 0.2220027968287468,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1666666716337204,
       "step": 6,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2124.763885498047,
       "epoch": 0.011996572407883462,
+      "grad_norm": 0.19423389434814453,
+      "kl": 5.745887756347656e-05,
       "learning_rate": 7e-07,
+      "loss": 0.0686,
+      "reward": 0.25,
+      "reward_std": 0.17486263997852802,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.25,
       "step": 7,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2672.6527709960938,
       "epoch": 0.013710368466152529,
+      "grad_norm": 0.1445378065109253,
+      "kl": 3.981590270996094e-05,
       "learning_rate": 8e-07,
+      "loss": 0.0707,
+      "reward": 0.18055555783212185,
+      "reward_std": 0.20800206437706947,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.18055555783212185,
       "step": 8,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2435.027801513672,
       "epoch": 0.015424164524421594,
+      "grad_norm": 0.2157757580280304,
+      "kl": 5.0008296966552734e-05,
       "learning_rate": 9e-07,
+      "loss": 0.1989,
+      "reward": 0.2152777798473835,
+      "reward_std": 0.16122430190443993,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2152777798473835,
       "step": 9,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2983.874969482422,
       "epoch": 0.01713796058269066,
+      "grad_norm": 0.1537931114435196,
+      "kl": 3.7670135498046875e-05,
       "learning_rate": 1e-06,
+      "loss": 0.0572,
+      "reward": 0.1388888917863369,
+      "reward_std": 0.1325911059975624,
+      "rewards/accuracy_reward": 0.0,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1388888917863369,
       "step": 10,
+      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2714.6666870117188,
       "epoch": 0.018851756640959727,
+      "grad_norm": 0.14581632614135742,
+      "kl": 4.884600639343262e-05,
       "learning_rate": 9.997258721585931e-07,
+      "loss": 0.0249,
+      "reward": 0.4097222276031971,
+      "reward_std": 0.5287230610847473,
+      "rewards/accuracy_reward": 0.13888889085501432,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1319444477558136,
       "step": 11,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3190.5555419921875,
       "epoch": 0.02056555269922879,
+      "grad_norm": 0.12614919245243073,
+      "kl": 3.2901763916015625e-05,
       "learning_rate": 9.989038226169207e-07,
+      "loss": 0.0385,
+      "reward": 0.305555556435138,
+      "reward_std": 0.44778930954635143,
+      "rewards/accuracy_reward": 0.08333333488553762,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.13888889411464334,
       "step": 12,
+      "vanishing_advantage_ratio": 0.2638889029622078
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2701.9583129882812,
       "epoch": 0.022279348757497857,
+      "grad_norm": 0.17424772679805756,
+      "kl": 0.00010010600090026855,
       "learning_rate": 9.975348529157229e-07,
+      "loss": 0.0723,
+      "reward": 0.486111119389534,
+      "reward_std": 0.6361183077096939,
+      "rewards/accuracy_reward": 0.15277778264135122,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.18055556016042829,
       "step": 13,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2698.0972595214844,
       "epoch": 0.023993144815766924,
+      "grad_norm": 0.13479822874069214,
+      "kl": 7.367134094238281e-05,
       "learning_rate": 9.956206309337066e-07,
+      "loss": 0.0696,
+      "reward": 0.38194445334374905,
+      "reward_std": 0.4227895326912403,
+      "rewards/accuracy_reward": 0.09722222294658422,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1875,
       "step": 14,
+      "vanishing_advantage_ratio": 0.3611111268401146
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3156.9722290039062,
       "epoch": 0.02570694087403599,
+      "grad_norm": 0.12347124516963959,
+      "kl": 4.169344902038574e-05,
       "learning_rate": 9.931634888554935e-07,
+      "loss": 0.0423,
+      "reward": 0.4791666679084301,
+      "reward_std": 0.5301840528845787,
+      "rewards/accuracy_reward": 0.16666666883975267,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.14583333488553762,
       "step": 15,
+      "vanishing_advantage_ratio": 0.2916666753590107
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2310.138916015625,
       "epoch": 0.027420736932305057,
+      "grad_norm": 0.20043165981769562,
+      "kl": 0.0002892017364501953,
       "learning_rate": 9.901664203302124e-07,
+      "loss": 0.0751,
+      "reward": 0.5208333283662796,
+      "reward_std": 0.6124575287103653,
+      "rewards/accuracy_reward": 0.12500000279396772,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.27083333767950535,
       "step": 16,
+      "vanishing_advantage_ratio": 0.1944444552063942
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2492.9583435058594,
       "epoch": 0.02913453299057412,
+      "grad_norm": 0.17674975097179413,
+      "kl": 0.00019311904907226562,
       "learning_rate": 9.866330768241983e-07,
+      "loss": 0.0971,
+      "reward": 0.4652777761220932,
+      "reward_std": 0.4706720970571041,
+      "rewards/accuracy_reward": 0.12500000186264515,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2152777798473835,
       "step": 17,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2977.625,
       "epoch": 0.030848329048843187,
+      "grad_norm": 0.11323793232440948,
+      "kl": 0.00023287534713745117,
       "learning_rate": 9.825677631722435e-07,
+      "loss": 0.0141,
+      "reward": 0.35416666977107525,
+      "reward_std": 0.40337391197681427,
+      "rewards/accuracy_reward": 0.11111111473292112,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1319444477558136,
       "step": 18,
+      "vanishing_advantage_ratio": 0.5000000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2997.7222290039062,
       "epoch": 0.032562125107112254,
+      "grad_norm": 0.12171383947134018,
+      "kl": 0.00020396709442138672,
       "learning_rate": 9.779754323328192e-07,
+      "loss": 0.0399,
+      "reward": 0.3472222313284874,
+      "reward_std": 0.39615704864263535,
+      "rewards/accuracy_reward": 0.11111111473292112,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1250000037252903,
       "step": 19,
+      "vanishing_advantage_ratio": 0.4444444514811039
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3004.875,
       "epoch": 0.03427592116538132,
+      "grad_norm": 0.15534202754497528,
+      "kl": 0.0001380443572998047,
       "learning_rate": 9.728616793536587e-07,
+      "loss": 0.1373,
+      "reward": 0.3541666651144624,
+      "reward_std": 0.5004552379250526,
+      "rewards/accuracy_reward": 0.11111111287027597,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.13194444682449102,
       "step": 20,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2767.9166870117188,
       "epoch": 0.03598971722365039,
+      "grad_norm": 0.12289870530366898,
+      "kl": 0.0005383491516113281,
       "learning_rate": 9.672327345550543e-07,
+      "loss": 0.0652,
+      "reward": 0.4722222313284874,
+      "reward_std": 0.4577459469437599,
+      "rewards/accuracy_reward": 0.1250000037252903,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2222222276031971,
       "step": 21,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2990.611083984375,
       "epoch": 0.037703513281919454,
+      "grad_norm": 0.1411183923482895,
+      "kl": 0.00030428171157836914,
       "learning_rate": 9.610954559391704e-07,
+      "loss": 0.0744,
+      "reward": 0.2152777803130448,
+      "reward_std": 0.3392846863716841,
+      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.10416666883975267,
       "step": 22,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3004.9583129882812,
       "epoch": 0.03941730934018852,
+      "grad_norm": 0.10731787979602814,
+      "kl": 0.0005457401275634766,
       "learning_rate": 9.54457320834625e-07,
+      "loss": 0.0293,
+      "reward": 0.20833333674818277,
+      "reward_std": 0.2911061681807041,
+      "rewards/accuracy_reward": 0.041666666977107525,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.12500000139698386,
       "step": 23,
+      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2584.2916870117188,
       "epoch": 0.04113110539845758,
+      "grad_norm": 0.15161892771720886,
+      "kl": 0.0003027915954589844,
       "learning_rate": 9.473264167865171e-07,
+      "loss": 0.06,
+      "reward": 0.4861111044883728,
+      "reward_std": 0.47357870638370514,
+      "rewards/accuracy_reward": 0.13888889364898205,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2083333358168602,
       "step": 24,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2536.3195190429688,
       "epoch": 0.04284490145672665,
+      "grad_norm": 0.14601115882396698,
+      "kl": 0.0003859996795654297,
       "learning_rate": 9.397114317029974e-07,
+      "loss": 0.0375,
+      "reward": 0.5277777910232544,
+      "reward_std": 0.5513055957853794,
+      "rewards/accuracy_reward": 0.13888889085501432,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.25000000931322575,
       "step": 25,
+      "vanishing_advantage_ratio": 0.2083333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2963.8333129882812,
       "epoch": 0.044558697514995714,
+      "grad_norm": 0.14391477406024933,
+      "kl": 0.00029397010803222656,
       "learning_rate": 9.316216432703916e-07,
+      "loss": 0.0872,
+      "reward": 0.31944445334374905,
+      "reward_std": 0.39608718268573284,
+      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.15277778217568994,
       "step": 26,
+      "vanishing_advantage_ratio": 0.34722223319113255
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2815.4861450195312,
       "epoch": 0.04627249357326478,
+      "grad_norm": 0.14442721009254456,
+      "kl": 0.00036406517028808594,
       "learning_rate": 9.230669076497687e-07,
+      "loss": 0.062,
+      "reward": 0.3333333358168602,
+      "reward_std": 0.37698132544755936,
+      "rewards/accuracy_reward": 0.09722222294658422,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.13888889364898205,
       "step": 27,
+      "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2111.8333740234375,
       "epoch": 0.04798628963153385,
+      "grad_norm": 0.20688049495220184,
+      "kl": 0.0007753372192382812,
       "learning_rate": 9.140576474687263e-07,
+      "loss": 0.0729,
+      "reward": 0.5416666716337204,
+      "reward_std": 0.5932498127222061,
+      "rewards/accuracy_reward": 0.15277778171002865,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.23611111007630825,
       "step": 28,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2817.1111450195312,
       "epoch": 0.049700085689802914,
+      "grad_norm": 0.1729794591665268,
+      "kl": 0.000820159912109375,
       "learning_rate": 9.046048391230247e-07,
+      "loss": 0.0789,
+      "reward": 0.3958333288319409,
+      "reward_std": 0.45582315884530544,
+      "rewards/accuracy_reward": 0.15277778171002865,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.09027778031304479,
       "step": 29,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2341.2222595214844,
       "epoch": 0.05141388174807198,
+      "grad_norm": 0.16700980067253113,
+      "kl": 0.000972747802734375,
       "learning_rate": 8.9471999940354e-07,
+      "loss": 0.0022,
+      "reward": 0.3958333358168602,
+      "reward_std": 0.4832002595067024,
+      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2291666679084301,
       "step": 30,
+      "vanishing_advantage_ratio": 0.20833334140479565
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2607.0416259765625,
       "epoch": 0.05312767780634105,
+      "grad_norm": 0.13790923357009888,
+      "kl": 0.0006513595581054688,
       "learning_rate": 8.844151714648274e-07,
+      "loss": 0.0044,
+      "reward": 0.3263888880610466,
+      "reward_std": 0.33597812056541443,
+      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.18750000558793545,
       "step": 31,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2935.6806030273438,
       "epoch": 0.054841473864610114,
+      "grad_norm": 0.13338877260684967,
+      "kl": 0.000720977783203125,
       "learning_rate": 8.737029101523929e-07,
+      "loss": 0.0753,
+      "reward": 0.5416666716337204,
+      "reward_std": 0.6741950437426567,
+      "rewards/accuracy_reward": 0.16666667070239782,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2083333358168602,
       "step": 32,
+      "vanishing_advantage_ratio": 0.1111111156642437
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2178.9861755371094,
       "epoch": 0.056555269922879174,
+      "grad_norm": 0.20104320347309113,
+      "kl": 0.0009927749633789062,
       "learning_rate": 8.625962667065487e-07,
+      "loss": 0.0859,
+      "reward": 0.6458333283662796,
+      "reward_std": 0.5696279220283031,
+      "rewards/accuracy_reward": 0.19444444589316845,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2569444440305233,
       "step": 33,
+      "vanishing_advantage_ratio": 0.1944444514811039
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2810.7222290039062,
       "epoch": 0.05826906598114824,
+      "grad_norm": 0.11122416704893112,
+      "kl": 0.0006494522094726562,
       "learning_rate": 8.511087728614862e-07,
+      "loss": 0.0723,
+      "reward": 0.3611111119389534,
+      "reward_std": 0.2897772639989853,
+      "rewards/accuracy_reward": 0.09722222574055195,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.16666666977107525,
       "step": 34,
+      "vanishing_advantage_ratio": 0.5416666809469461
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3160.1249389648438,
       "epoch": 0.05998286203941731,
+      "grad_norm": 0.08742042630910873,
+      "kl": 0.0006799697875976562,
       "learning_rate": 8.392544243589427e-07,
+      "loss": 0.011,
+      "reward": 0.180555556435138,
+      "reward_std": 0.20691198110580444,
+      "rewards/accuracy_reward": 0.041666666977107525,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.09722222527489066,
       "step": 35,
+      "vanishing_advantage_ratio": 0.5833333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2915.0556030273438,
       "epoch": 0.061696658097686374,
+      "grad_norm": 0.1445658802986145,
+      "kl": 0.0008459091186523438,
       "learning_rate": 8.270476638965461e-07,
+      "loss": 0.0597,
+      "reward": 0.19444444589316845,
+      "reward_std": 0.22136816568672657,
+      "rewards/accuracy_reward": 0.041666666977107525,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.11111111240461469,
       "step": 36,
       "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3040.625,
       "epoch": 0.06341045415595545,
+      "grad_norm": 0.10913708806037903,
+      "kl": 0.0008916854858398438,
       "learning_rate": 8.145033635316128e-07,
+      "loss": 0.0071,
+      "reward": 0.1597222238779068,
+      "reward_std": 0.17662217281758785,
+      "rewards/accuracy_reward": 0.041666666977107525,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.07638889225199819,
       "step": 37,
+      "vanishing_advantage_ratio": 0.7500000149011612
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3170.638916015625,
       "epoch": 0.06512425021422451,
+      "grad_norm": 0.11745505779981613,
+      "kl": 0.0007038116455078125,
       "learning_rate": 8.01636806561836e-07,
+      "loss": 0.0956,
+      "reward": 0.19444444216787815,
+      "reward_std": 0.2374982163310051,
+      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.0833333358168602,
       "step": 38,
+      "vanishing_advantage_ratio": 0.5000000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2920.8472290039062,
       "epoch": 0.06683804627249357,
+      "grad_norm": 0.12855492532253265,
+      "kl": 0.0009975433349609375,
       "learning_rate": 7.884636689049422e-07,
+      "loss": 0.0913,
+      "reward": 0.4791666832752526,
+      "reward_std": 0.48048618994653225,
+      "rewards/accuracy_reward": 0.15277777891606092,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.17361111054196954,
       "step": 39,
       "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2656.6666870117188,
       "epoch": 0.06855184233076264,
+      "grad_norm": 0.17364995181560516,
+      "kl": 0.0011653900146484375,
       "learning_rate": 7.75e-07,
+      "loss": 0.0587,
+      "reward": 0.4444444552063942,
+      "reward_std": 0.5394208431243896,
+      "rewards/accuracy_reward": 0.13888889271765947,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1666666679084301,
       "step": 40,
       "vanishing_advantage_ratio": 0.1944444552063942
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2850.90283203125,
       "epoch": 0.0702656383890317,
+      "grad_norm": 0.15265439450740814,
+      "kl": 0.0010967254638671875,
       "learning_rate": 7.612622032536507e-07,
+      "loss": 0.0992,
+      "reward": 0.4305555606260896,
+      "reward_std": 0.4596329629421234,
+      "rewards/accuracy_reward": 0.12500000093132257,
       "rewards/difficulty_following_reward": 0.0,
       "rewards/format_reward": 0.18055556062608957,
       "step": 41,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2313.3612060546875,
       "epoch": 0.07197943444730077,
+      "grad_norm": 0.23461805284023285,
+      "kl": 0.001087188720703125,
       "learning_rate": 7.472670160550848e-07,
+      "loss": 0.1506,
+      "reward": 0.4305555634200573,
+      "reward_std": 0.33141833916306496,
       "rewards/accuracy_reward": 0.09722222294658422,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2361111119389534,
       "step": 42,
+      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2540.5139770507812,
       "epoch": 0.07369323050556983,
+      "grad_norm": 0.1409270167350769,
+      "kl": 0.001255035400390625,
       "learning_rate": 7.330314893841101e-07,
+      "loss": 0.0387,
+      "reward": 0.645833345130086,
+      "reward_std": 0.4597787447273731,
+      "rewards/accuracy_reward": 0.22222222480922937,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.20138889085501432,
       "step": 43,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2670.291748046875,
       "epoch": 0.07540702656383891,
+      "grad_norm": 0.15075387060642242,
+      "kl": 0.001132965087890625,
       "learning_rate": 7.185729670371604e-07,
+      "loss": 0.0947,
+      "reward": 0.2500000074505806,
+      "reward_std": 0.2931553889065981,
+      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1944444477558136,
       "step": 44,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2781.5416870117188,
       "epoch": 0.07712082262210797,
+      "grad_norm": 0.13281068205833435,
+      "kl": 0.0013933181762695312,
       "learning_rate": 7.039090644965509e-07,
+      "loss": 0.0486,
+      "reward": 0.3819444486871362,
+      "reward_std": 0.3621416501700878,
+      "rewards/accuracy_reward": 0.1111111156642437,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.15972222480922937,
       "step": 45,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2386.4722290039062,
       "epoch": 0.07883461868037704,
+      "grad_norm": 0.125954732298851,
+      "kl": 0.00160980224609375,
       "learning_rate": 6.890576474687263e-07,
+      "loss": 0.0362,
+      "reward": 0.555555559694767,
+      "reward_std": 0.49604532122612,
+      "rewards/accuracy_reward": 0.15277778264135122,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.25000000186264515,
       "step": 46,
+      "vanishing_advantage_ratio": 0.43055556900799274
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2793.875,
       "epoch": 0.0805484147386461,
+      "grad_norm": 0.15522564947605133,
+      "kl": 0.001346588134765625,
       "learning_rate": 6.740368101176495e-07,
+      "loss": 0.1015,
+      "reward": 0.29166666977107525,
+      "reward_std": 0.34645168110728264,
+      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.18055555783212185,
       "step": 47,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2424.4306030273438,
       "epoch": 0.08226221079691516,
+      "grad_norm": 0.162226602435112,
+      "kl": 0.002109527587890625,
       "learning_rate": 6.588648530198504e-07,
+      "loss": 0.0622,
+      "reward": 0.486111119389534,
+      "reward_std": 0.49431629478931427,
+      "rewards/accuracy_reward": 0.12500000186264515,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2361111119389534,
       "step": 48,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2259.90283203125,
       "epoch": 0.08397600685518423,
+      "grad_norm": 0.19547973573207855,
+      "kl": 0.00144195556640625,
       "learning_rate": 6.435602608679916e-07,
+      "loss": 0.0995,
+      "reward": 0.6180555671453476,
+      "reward_std": 0.4886632487177849,
+      "rewards/accuracy_reward": 0.16666667256504297,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2847222276031971,
       "step": 49,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2402.8333435058594,
       "epoch": 0.0856898029134533,
+      "grad_norm": 0.18848426640033722,
+      "kl": 0.002063751220703125,
       "learning_rate": 6.281416799501187e-07,
+      "loss": 0.0181,
+      "reward": 0.3472222201526165,
+      "reward_std": 0.407356571406126,
+      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2361111156642437,
       "step": 50,
+      "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2527.8333740234375,
       "epoch": 0.08740359897172237,
+      "grad_norm": 0.16279014945030212,
+      "kl": 0.00167083740234375,
       "learning_rate": 6.126278954320294e-07,
+      "loss": 0.0806,
+      "reward": 0.6458333432674408,
+      "reward_std": 0.522053524851799,
+      "rewards/accuracy_reward": 0.2083333358168602,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.22916667349636555,
       "step": 51,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2555.5555725097656,
       "epoch": 0.08911739502999143,
+      "grad_norm": 0.19262254238128662,
+      "kl": 0.001934051513671875,
       "learning_rate": 5.97037808470444e-07,
+      "loss": 0.1354,
+      "reward": 0.5763888992369175,
+      "reward_std": 0.6699204966425896,
+      "rewards/accuracy_reward": 0.18055556062608957,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.21527778171002865,
       "step": 52,
+      "vanishing_advantage_ratio": 0.1111111156642437
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2766.388916015625,
       "epoch": 0.0908311910882605,
+      "grad_norm": 0.185680091381073,
+      "kl": 0.001705169677734375,
       "learning_rate": 5.813904131848564e-07,
+      "loss": 0.1234,
+      "reward": 0.28472222574055195,
+      "reward_std": 0.2922345921397209,
+      "rewards/accuracy_reward": 0.055555556900799274,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1736111119389534,
       "step": 53,
+      "vanishing_advantage_ratio": 0.2777777910232544
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2823.0,
       "epoch": 0.09254498714652956,
+      "grad_norm": 0.10592877119779587,
+      "kl": 0.001628875732421875,
       "learning_rate": 5.657047735161255e-07,
+      "loss": 0.002,
+      "reward": 0.31249999441206455,
+      "reward_std": 0.2363711018115282,
+      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.14583333767950535,
       "step": 54,
+      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3061.5834350585938,
       "epoch": 0.09425878320479864,
+      "grad_norm": 0.13768742978572845,
+      "kl": 0.00177764892578125,
       "learning_rate": 5.5e-07,
+      "loss": 0.1519,
+      "reward": 0.29166667722165585,
+      "reward_std": 0.4167081881314516,
+      "rewards/accuracy_reward": 0.06944444589316845,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1527777798473835,
       "step": 55,
+      "vanishing_advantage_ratio": 0.26388889737427235
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2675.4584045410156,
       "epoch": 0.0959725792630677,
+      "grad_norm": 0.15516793727874756,
+      "kl": 0.0018901824951171875,
       "learning_rate": 5.342952264838747e-07,
+      "loss": 0.0732,
+      "reward": 0.3888888880610466,
+      "reward_std": 0.3425787817686796,
+      "rewards/accuracy_reward": 0.11111111380159855,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1666666679084301,
       "step": 56,
+      "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2887.638916015625,
       "epoch": 0.09768637532133675,
+      "grad_norm": 0.13576894998550415,
+      "kl": 0.0018768310546875,
       "learning_rate": 5.186095868151436e-07,
+      "loss": 0.0397,
+      "reward": 0.5138888955116272,
+      "reward_std": 0.4866417311131954,
+      "rewards/accuracy_reward": 0.16666667349636555,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.18055556155741215,
       "step": 57,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2637.7083129882812,
       "epoch": 0.09940017137960583,
+      "grad_norm": 0.17882922291755676,
+      "kl": 0.00240325927734375,
       "learning_rate": 5.02962191529556e-07,
+      "loss": 0.1296,
+      "reward": 0.34722222946584225,
+      "reward_std": 0.39691098034381866,
+      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.20833333767950535,
       "step": 58,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2386.9444274902344,
       "epoch": 0.10111396743787489,
+      "grad_norm": 0.15917612612247467,
+      "kl": 0.0022869110107421875,
       "learning_rate": 4.873721045679706e-07,
+      "loss": 0.0046,
+      "reward": 0.8402777761220932,
+      "reward_std": 0.6729260385036469,
+      "rewards/accuracy_reward": 0.2916666716337204,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2569444477558136,
       "step": 59,
       "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3012.5000610351562,
       "epoch": 0.10282776349614396,
+      "grad_norm": 0.13718292117118835,
+      "kl": 0.0018711090087890625,
       "learning_rate": 4.7185832004988133e-07,
+      "loss": 0.0949,
+      "reward": 0.5069444496184587,
+      "reward_std": 0.5694549642503262,
+      "rewards/accuracy_reward": 0.180555559694767,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.14583333767950535,
       "step": 60,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2862.763916015625,
       "epoch": 0.10454155955441302,
+      "grad_norm": 0.15042024850845337,
+      "kl": 0.002170562744140625,
       "learning_rate": 4.5643973913200837e-07,
+      "loss": 0.1462,
+      "reward": 0.29861111007630825,
+      "reward_std": 0.30184047669172287,
+      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.18750000558793545,
       "step": 61,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2483.3195190429688,
       "epoch": 0.1062553556126821,
+      "grad_norm": 0.1718958169221878,
+      "kl": 0.0028839111328125,
       "learning_rate": 4.4113514698014953e-07,
+      "loss": 0.0138,
+      "reward": 0.4583333358168602,
+      "reward_std": 0.45289405435323715,
+      "rewards/accuracy_reward": 0.1388888917863369,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.180555559694767,
       "step": 62,
+      "vanishing_advantage_ratio": 0.26388889737427235
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3120.638916015625,
       "epoch": 0.10796915167095116,
+      "grad_norm": 0.15143321454524994,
+      "kl": 0.002471923828125,
       "learning_rate": 4.2596318988235037e-07,
+      "loss": 0.0997,
+      "reward": 0.4444444519467652,
+      "reward_std": 0.5317340567708015,
+      "rewards/accuracy_reward": 0.16666667349636555,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.11111111147329211,
       "step": 63,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2806.263885498047,
       "epoch": 0.10968294772922023,
+      "grad_norm": 0.18540050089359283,
+      "kl": 0.00319671630859375,
       "learning_rate": 4.1094235253127374e-07,
+      "loss": 0.0537,
+      "reward": 0.3055555569007993,
+      "reward_std": 0.346462732180953,
+      "rewards/accuracy_reward": 0.055555556900799274,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.19444445054978132,
       "step": 64,
+      "vanishing_advantage_ratio": 0.1944444514811039
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2921.3333740234375,
       "epoch": 0.11139674378748929,
+      "grad_norm": 0.1683017462491989,
+      "kl": 0.00262451171875,
       "learning_rate": 3.9609093550344907e-07,
+      "loss": 0.1098,
+      "reward": 0.3055555638857186,
+      "reward_std": 0.3952417355030775,
+      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1666666683740914,
       "step": 65,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2583.1666870117188,
       "epoch": 0.11311053984575835,
+      "grad_norm": 0.21984979510307312,
+      "kl": 0.002838134765625,
       "learning_rate": 3.8142703296283953e-07,
+      "loss": 0.1025,
+      "reward": 0.6250000149011612,
+      "reward_std": 0.46652648597955704,
+      "rewards/accuracy_reward": 0.236111119389534,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.15277778171002865,
       "step": 66,
+      "vanishing_advantage_ratio": 0.5000000149011612
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2952.7083740234375,
       "epoch": 0.11482433590402742,
+      "grad_norm": 0.1412336826324463,
+      "kl": 0.003108978271484375,
       "learning_rate": 3.6696851061588994e-07,
+      "loss": 0.0266,
+      "reward": 0.2569444477558136,
+      "reward_std": 0.35272519290447235,
+      "rewards/accuracy_reward": 0.0555555559694767,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1458333395421505,
       "step": 67,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2923.541748046875,
       "epoch": 0.11653813196229648,
+      "grad_norm": 0.13442060351371765,
+      "kl": 0.003047943115234375,
       "learning_rate": 3.5273298394491515e-07,
+      "loss": -0.002,
+      "reward": 0.4027777723968029,
+      "reward_std": 0.4289739280939102,
+      "rewards/accuracy_reward": 0.12500000279396772,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.15277778171002865,
       "step": 68,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2733.9444580078125,
       "epoch": 0.11825192802056556,
+      "grad_norm": 0.14998486638069153,
+      "kl": 0.0030517578125,
       "learning_rate": 3.387377967463493e-07,
+      "loss": 0.0939,
+      "reward": 0.5763889029622078,
+      "reward_std": 0.5283073335886002,
+      "rewards/accuracy_reward": 0.18055555876344442,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.21527778171002865,
       "step": 69,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2523.2361450195312,
       "epoch": 0.11996572407883462,
+      "grad_norm": 0.1801416426897049,
+      "kl": 0.0034027099609375,
       "learning_rate": 3.250000000000001e-07,
+      "loss": 0.0797,
+      "reward": 0.36111112125217915,
+      "reward_std": 0.3477918654680252,
+      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.22222222574055195,
       "step": 70,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2869.7361450195312,
       "epoch": 0.12167952013710369,
+      "grad_norm": 0.13626869022846222,
+      "kl": 0.002971649169921875,
       "learning_rate": 3.115363310950578e-07,
+      "loss": -0.0103,
+      "reward": 0.618055559694767,
+      "reward_std": 0.49544404074549675,
+      "rewards/accuracy_reward": 0.20833333767950535,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2013888917863369,
       "step": 71,
+      "vanishing_advantage_ratio": 0.34722223319113255
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2333.15283203125,
       "epoch": 0.12339331619537275,
+      "grad_norm": 0.22007954120635986,
+      "kl": 0.003650665283203125,
       "learning_rate": 2.9836319343816397e-07,
+      "loss": 0.0953,
+      "reward": 0.5486111231148243,
+      "reward_std": 0.38520985655486584,
+      "rewards/accuracy_reward": 0.16666666883975267,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2152777798473835,
       "step": 72,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2609.166748046875,
       "epoch": 0.12510711225364182,
+      "grad_norm": 0.14889562129974365,
+      "kl": 0.00350189208984375,
       "learning_rate": 2.854966364683872e-07,
+      "loss": 0.0133,
+      "reward": 0.5972222238779068,
+      "reward_std": 0.49283862113952637,
+      "rewards/accuracy_reward": 0.18055556248873472,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.23611111287027597,
       "step": 73,
       "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 1885.9722290039062,
       "epoch": 0.1268209083119109,
+      "grad_norm": 0.18624606728553772,
+      "kl": 0.003803253173828125,
       "learning_rate": 2.729523361034538e-07,
+      "loss": 0.0368,
+      "reward": 0.4791666641831398,
+      "reward_std": 0.41904643177986145,
+      "rewards/accuracy_reward": 0.11111111473292112,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2569444514811039,
       "step": 74,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3035.8333740234375,
       "epoch": 0.12853470437017994,
+      "grad_norm": 0.13360603153705597,
+      "kl": 0.003421783447265625,
       "learning_rate": 2.6074557564105724e-07,
+      "loss": 0.081,
+      "reward": 0.4583333432674408,
+      "reward_std": 0.5805492922663689,
+      "rewards/accuracy_reward": 0.13888889085501432,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.180555559694767,
       "step": 75,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2006.5000305175781,
       "epoch": 0.13024850042844902,
+      "grad_norm": 0.186117023229599,
+      "kl": 0.003589630126953125,
       "learning_rate": 2.488912271385139e-07,
+      "loss": 0.0093,
+      "reward": 0.5555555522441864,
+      "reward_std": 0.5216063931584358,
+      "rewards/accuracy_reward": 0.13888888992369175,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2777777835726738,
       "step": 76,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2852.1111450195312,
       "epoch": 0.1319622964867181,
+      "grad_norm": 0.14473779499530792,
+      "kl": 0.003143310546875,
       "learning_rate": 2.374037332934512e-07,
+      "loss": 0.094,
+      "reward": 0.4930555522441864,
+      "reward_std": 0.5302782356739044,
+      "rewards/accuracy_reward": 0.16666667070239782,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.15972222900018096,
       "step": 77,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3228.5277709960938,
       "epoch": 0.13367609254498714,
+      "grad_norm": 0.12343769520521164,
+      "kl": 0.003009796142578125,
       "learning_rate": 2.2629708984760706e-07,
+      "loss": -0.016,
+      "reward": 0.2638888843357563,
+      "reward_std": 0.3488573133945465,
+      "rewards/accuracy_reward": 0.08333333488553762,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.09722222248092294,
       "step": 78,
+      "vanishing_advantage_ratio": 0.5000000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2360.986083984375,
       "epoch": 0.1353898886032562,
+      "grad_norm": 0.18473461270332336,
+      "kl": 0.0040740966796875,
       "learning_rate": 2.1558482853517253e-07,
+      "loss": 0.0521,
+      "reward": 0.4027777761220932,
+      "reward_std": 0.3384508527815342,
+      "rewards/accuracy_reward": 0.06944444496184587,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2638888955116272,
       "step": 79,
+      "vanishing_advantage_ratio": 0.1805555671453476
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3112.1111450195312,
       "epoch": 0.13710368466152528,
+      "grad_norm": 0.12150842696428299,
+      "kl": 0.003692626953125,
       "learning_rate": 2.0528000059645995e-07,
+      "loss": 0.072,
+      "reward": 0.3125000009313226,
+      "reward_std": 0.3745912276208401,
+      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.14583333674818277,
       "step": 80,
+      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2774.513916015625,
       "epoch": 0.13881748071979436,
+      "grad_norm": 0.1500415951013565,
+      "kl": 0.003559112548828125,
       "learning_rate": 1.9539516087697517e-07,
+      "loss": 0.0482,
+      "reward": 0.41666668001562357,
+      "reward_std": 0.4251419398933649,
+      "rewards/accuracy_reward": 0.1388888955116272,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.13888889271765947,
       "step": 81,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2676.375,
       "epoch": 0.1405312767780634,
+      "grad_norm": 0.1790565550327301,
+      "kl": 0.003726959228515625,
       "learning_rate": 1.8594235253127372e-07,
+      "loss": 0.0556,
+      "reward": 0.506944440305233,
+      "reward_std": 0.4319311436265707,
+      "rewards/accuracy_reward": 0.13888889271765947,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2291666716337204,
       "step": 82,
+      "vanishing_advantage_ratio": 0.2777777872979641
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2491.4861755371094,
       "epoch": 0.14224507283633248,
+      "grad_norm": 0.16082800924777985,
+      "kl": 0.0035247802734375,
       "learning_rate": 1.7693309235023127e-07,
+      "loss": 0.0628,
+      "reward": 0.4444444477558136,
+      "reward_std": 0.41663530841469765,
+      "rewards/accuracy_reward": 0.11111111287027597,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2222222276031971,
       "step": 83,
+      "vanishing_advantage_ratio": 0.34722223319113255
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2634.1805725097656,
       "epoch": 0.14395886889460155,
+      "grad_norm": 0.15972262620925903,
+      "kl": 0.003818511962890625,
       "learning_rate": 1.6837835672960831e-07,
+      "loss": 0.0673,
+      "reward": 0.4375000074505806,
+      "reward_std": 0.48190969228744507,
+      "rewards/accuracy_reward": 0.09722222294658422,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.24305556062608957,
       "step": 84,
+      "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2900.65283203125,
       "epoch": 0.1456726649528706,
+      "grad_norm": 0.15328432619571686,
+      "kl": 0.003406524658203125,
       "learning_rate": 1.6028856829700258e-07,
+      "loss": 0.0828,
+      "reward": 0.4861111044883728,
+      "reward_std": 0.4899628609418869,
+      "rewards/accuracy_reward": 0.1666666679084301,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.15277778171002865,
       "step": 85,
       "vanishing_advantage_ratio": 0.2500000074505806
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2665.902801513672,
       "epoch": 0.14738646101113967,
+      "grad_norm": 0.16509687900543213,
+      "kl": 0.0034637451171875,
       "learning_rate": 1.5267358321348285e-07,
+      "loss": 0.0968,
+      "reward": 0.24999999813735485,
+      "reward_std": 0.30046750232577324,
+      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.19444444589316845,
       "step": 86,
+      "vanishing_advantage_ratio": 0.26388889737427235
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3268.4306030273438,
       "epoch": 0.14910025706940874,
+      "grad_norm": 0.10825953632593155,
+      "kl": 0.003009796142578125,
       "learning_rate": 1.4554267916537495e-07,
+      "loss": 0.0666,
+      "reward": 0.4027777696028352,
+      "reward_std": 0.3645976707339287,
+      "rewards/accuracy_reward": 0.15277778171002865,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.09722222574055195,
       "step": 87,
       "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3164.0277709960938,
       "epoch": 0.15081405312767782,
+      "grad_norm": 0.1394396275281906,
+      "kl": 0.003810882568359375,
       "learning_rate": 1.3890454406082956e-07,
+      "loss": 0.0838,
+      "reward": 0.31250000558793545,
+      "reward_std": 0.385826725512743,
+      "rewards/accuracy_reward": 0.09722222574055195,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.11805555876344442,
       "step": 88,
+      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2483.1527709960938,
       "epoch": 0.15252784918594686,
+      "grad_norm": 0.15645141899585724,
+      "kl": 0.00453948974609375,
       "learning_rate": 1.3276726544494571e-07,
+      "loss": 0.0977,
+      "reward": 0.34722223225980997,
+      "reward_std": 0.3350673224776983,
+      "rewards/accuracy_reward": 0.055555556900799274,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.23611111659556627,
       "step": 89,
+      "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2722.499969482422,
       "epoch": 0.15424164524421594,
+      "grad_norm": 0.150289386510849,
+      "kl": 0.003353118896484375,
       "learning_rate": 1.2713832064634125e-07,
+      "loss": 0.0805,
+      "reward": 0.27777778171002865,
+      "reward_std": 0.3167807497084141,
       "rewards/accuracy_reward": 0.055555556900799274,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.16666666697710752,
       "step": 90,
+      "vanishing_advantage_ratio": 0.5138888955116272
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2716.0833129882812,
       "epoch": 0.155955441302485,
+      "grad_norm": 0.17992275953292847,
+      "kl": 0.004726409912109375,
       "learning_rate": 1.220245676671809e-07,
+      "loss": 0.0844,
+      "reward": 0.604166679084301,
+      "reward_std": 0.6643020883202553,
+      "rewards/accuracy_reward": 0.18055555690079927,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.2430555559694767,
       "step": 91,
+      "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2535.277801513672,
       "epoch": 0.15766923736075408,
+      "grad_norm": 0.15826836228370667,
+      "kl": 0.00363922119140625,
       "learning_rate": 1.1743223682775649e-07,
+      "loss": 0.087,
+      "reward": 0.3472222238779068,
+      "reward_std": 0.333256833255291,
+      "rewards/accuracy_reward": 0.08333333395421505,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.180555559694767,
       "step": 92,
+      "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2722.6806030273438,
       "epoch": 0.15938303341902313,
+      "grad_norm": 0.15519429743289948,
+      "kl": 0.003940582275390625,
       "learning_rate": 1.1336692317580158e-07,
+      "loss": 0.0829,
+      "reward": 0.5763888955116272,
+      "reward_std": 0.48380210250616074,
+      "rewards/accuracy_reward": 0.20833334047347307,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1597222243435681,
       "step": 93,
+      "vanishing_advantage_ratio": 0.1666666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2634.277801513672,
       "epoch": 0.1610968294772922,
+      "grad_norm": 0.1622547060251236,
+      "kl": 0.004276275634765625,
       "learning_rate": 1.0983357966978745e-07,
+      "loss": 0.0776,
+      "reward": 0.3888888955116272,
+      "reward_std": 0.31960033625364304,
+      "rewards/accuracy_reward": 0.1111111119389534,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1666666679084301,
       "step": 94,
       "vanishing_advantage_ratio": 0.4166666716337204
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2685.6666564941406,
       "epoch": 0.16281062553556128,
+      "grad_norm": 0.19985106587409973,
+      "kl": 0.00397491455078125,
       "learning_rate": 1.068365111445064e-07,
+      "loss": 0.0964,
+      "reward": 0.4166666641831398,
+      "reward_std": 0.5311803258955479,
+      "rewards/accuracy_reward": 0.11111111473292112,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.19444444589316845,
       "step": 95,
       "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2594.0972290039062,
       "epoch": 0.16452442159383032,
+      "grad_norm": 0.16063077747821808,
+      "kl": 0.0034027099609375,
       "learning_rate": 1.0437936906629334e-07,
+      "loss": 0.0895,
+      "reward": 0.5902777835726738,
+      "reward_std": 0.5667251460254192,
+      "rewards/accuracy_reward": 0.2083333320915699,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.17361111380159855,
       "step": 96,
+      "vanishing_advantage_ratio": 0.2500000111758709
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 3230.77783203125,
       "epoch": 0.1662382176520994,
+      "grad_norm": 0.19083616137504578,
+      "kl": 0.00445556640625,
       "learning_rate": 1.0246514708427701e-07,
+      "loss": 0.0987,
+      "reward": 0.29861112125217915,
+      "reward_std": 0.4562392868101597,
+      "rewards/accuracy_reward": 0.08333333488553762,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.13194444589316845,
       "step": 97,
+      "vanishing_advantage_ratio": 0.0
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2813.527801513672,
       "epoch": 0.16795201371036847,
+      "grad_norm": 0.1406376212835312,
+      "kl": 0.00418853759765625,
       "learning_rate": 1.0109617738307911e-07,
+      "loss": 0.0603,
+      "reward": 0.4027777872979641,
+      "reward_std": 0.40550027787685394,
+      "rewards/accuracy_reward": 0.12500000186264515,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.15277777891606092,
       "step": 98,
+      "vanishing_advantage_ratio": 0.3333333432674408
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2933.4166870117188,
       "epoch": 0.16966580976863754,
+      "grad_norm": 0.1805686354637146,
+      "kl": 0.0044708251953125,
       "learning_rate": 1.002741278414069e-07,
+      "loss": 0.1209,
+      "reward": 0.4236111082136631,
+      "reward_std": 0.5723845213651657,
+      "rewards/accuracy_reward": 0.1250000037252903,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.1736111156642437,
       "step": 99,
+      "vanishing_advantage_ratio": 0.0833333358168602
     },
     {
       "clip_ratio": 0.0,
+      "completion_length": 2795.6805419921875,
       "epoch": 0.1713796058269066,
+      "grad_norm": 0.16270823776721954,
+      "kl": 0.004749298095703125,
       "learning_rate": 1e-07,
+      "loss": 0.1155,
+      "reward": 0.24999999720603228,
+      "reward_std": 0.32094707898795605,
+      "rewards/accuracy_reward": 0.02777777798473835,
       "rewards/difficulty_following_reward": 0.0,
+      "rewards/format_reward": 0.19444444309920073,
       "step": 100,
+      "vanishing_advantage_ratio": 0.416666679084301
     },
     {
       "epoch": 0.1713796058269066,
       "step": 100,
       "total_flos": 0.0,
+      "train_loss": 0.0719883194193244,
+      "train_runtime": 18385.1788,
+      "train_samples_per_second": 0.392,
+      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 1,