{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 399.8,
  "eval_steps": 10,
  "global_step": 400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio": 0.0,
      "completion_length": 606.59375,
      "epoch": 0.8,
      "grad_norm": 1.3200632494048739,
      "kl": 0.0,
      "learning_rate": 5e-08,
      "loss": 0.043,
      "reward": 11.62500011920929,
      "reward_std": 5.327881373465061,
      "rewards/accuracy_reward_staging": 0.9671875108033419,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 1
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.75,
      "epoch": 1.8,
      "grad_norm": 1.245967192961327,
      "kl": 0.0,
      "learning_rate": 1e-07,
      "loss": 0.0103,
      "reward": 11.717187702655792,
      "reward_std": 5.550888277590275,
      "rewards/accuracy_reward_staging": 0.973281254991889,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 2
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 562.15625,
      "epoch": 2.8,
      "grad_norm": 1.3598583264581219,
      "kl": 0.0012388229370117188,
      "learning_rate": 1.5e-07,
      "loss": 0.0066,
      "reward": 11.326562702655792,
      "reward_std": 4.338181830942631,
      "rewards/accuracy_reward_staging": 0.935781279578805,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 3
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 633.84375,
      "epoch": 3.8,
      "grad_norm": 1.2847021449800877,
      "kl": 0.001153707504272461,
      "learning_rate": 2e-07,
      "loss": 0.0018,
      "reward": 11.992187529802322,
      "reward_std": 5.119553402066231,
      "rewards/accuracy_reward_staging": 1.0039062658324838,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 4
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.796875,
      "epoch": 4.8,
      "grad_norm": 1.3189665452513488,
      "kl": 0.0013086795806884766,
      "learning_rate": 2.5e-07,
      "loss": 0.085,
      "reward": 10.701562702655792,
      "reward_std": 5.677764259278774,
      "rewards/accuracy_reward_staging": 0.8795312605798244,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 5
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 610.96875,
      "epoch": 5.8,
      "grad_norm": 1.2985032171428867,
      "kl": 0.001140594482421875,
      "learning_rate": 3e-07,
      "loss": -0.0194,
      "reward": 11.771875321865082,
      "reward_std": 4.783194027841091,
      "rewards/accuracy_reward_staging": 0.9771875143051147,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 1.0,
      "step": 6
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 601.046875,
      "epoch": 6.8,
      "grad_norm": 1.3341628850896736,
      "kl": 0.0011951923370361328,
      "learning_rate": 3.5e-07,
      "loss": -0.0596,
      "reward": 10.256250113248825,
      "reward_std": 4.867078542709351,
      "rewards/accuracy_reward_staging": 0.827187517657876,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 7
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.59375,
      "epoch": 7.8,
      "grad_norm": 1.285368092332121,
      "kl": 0.0010988712310791016,
      "learning_rate": 4e-07,
      "loss": -0.0081,
      "reward": 9.478125274181366,
      "reward_std": 3.7967969875317067,
      "rewards/accuracy_reward_staging": 0.7493750108405948,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.984375,
      "step": 8
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.796875,
      "epoch": 8.8,
      "grad_norm": 1.2619218024838643,
      "kl": 0.0011816024780273438,
      "learning_rate": 4.5e-07,
      "loss": 0.022,
      "reward": 9.204687714576721,
      "reward_std": 4.6997692584991455,
      "rewards/accuracy_reward_staging": 0.7235937705263495,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 9
    },
    {
      "epoch": 9.8,
      "grad_norm": 1.3090135878224105,
      "learning_rate": 5e-07,
      "loss": 0.0552,
      "step": 10
    },
    {
      "epoch": 9.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 598.6,
      "eval_kl": 0.001386260986328125,
      "eval_loss": -0.007845744490623474,
      "eval_reward": 10.647500252723693,
      "eval_reward_std": 5.141342180967331,
      "eval_rewards/accuracy_reward_staging": 0.8647500067949295,
      "eval_rewards/format_reward": 1.0,
      "eval_rewards/format_reward_staging": 1.0,
      "eval_runtime": 128.7421,
      "eval_samples_per_second": 0.155,
      "eval_steps_per_second": 0.039,
      "step": 10
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.1640625,
      "epoch": 10.8,
      "grad_norm": 1.2259380562812106,
      "kl": 0.0011686086654663086,
      "learning_rate": 5.5e-07,
      "loss": 0.021,
      "reward": 10.721875354647636,
      "reward_std": 4.659499041736126,
      "rewards/accuracy_reward_staging": 0.8792187599465251,
      "rewards/format_reward": 0.9609375,
      "rewards/format_reward_staging": 0.96875,
      "step": 11
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.578125,
      "epoch": 11.8,
      "grad_norm": 1.1553077299419614,
      "kl": 0.0011510848999023438,
      "learning_rate": 6e-07,
      "loss": -0.025,
      "reward": 10.503125250339508,
      "reward_std": 5.1386475414037704,
      "rewards/accuracy_reward_staging": 0.8581250142306089,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.96875,
      "step": 12
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.90625,
      "epoch": 12.8,
      "grad_norm": 1.3576949395163465,
      "kl": 0.0011174678802490234,
      "learning_rate": 6.5e-07,
      "loss": -0.0006,
      "reward": 10.643750101327896,
      "reward_std": 4.954892493784428,
      "rewards/accuracy_reward_staging": 0.8737500086426735,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.953125,
      "step": 13
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 628.53125,
      "epoch": 13.8,
      "grad_norm": 1.2887380340653378,
      "kl": 0.0011186599731445312,
      "learning_rate": 7e-07,
      "loss": -0.0706,
      "reward": 8.992187768220901,
      "reward_std": 4.08132154494524,
      "rewards/accuracy_reward_staging": 0.7023437591269612,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 14
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 655.21875,
      "epoch": 14.8,
      "grad_norm": 1.3384872721535677,
      "kl": 0.0011413097381591797,
      "learning_rate": 7.5e-07,
      "loss": -0.0176,
      "reward": 10.270312935113907,
      "reward_std": 5.108375668525696,
      "rewards/accuracy_reward_staging": 0.837968748062849,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.953125,
      "step": 15
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 620.21875,
      "epoch": 15.8,
      "grad_norm": 1.3078665462402237,
      "kl": 0.0012836456298828125,
      "learning_rate": 8e-07,
      "loss": -0.0292,
      "reward": 10.915625095367432,
      "reward_std": 5.460881970822811,
      "rewards/accuracy_reward_staging": 0.8946875166147947,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 16
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 619.3125,
      "epoch": 16.8,
      "grad_norm": 1.3598193439821062,
      "kl": 0.0014238357543945312,
      "learning_rate": 8.499999999999999e-07,
      "loss": 0.008,
      "reward": 10.659375220537186,
      "reward_std": 5.2481329292058945,
      "rewards/accuracy_reward_staging": 0.8690625205636024,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 17
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 649.84375,
      "epoch": 17.8,
      "grad_norm": 1.3496406035053183,
      "kl": 0.0015878677368164062,
      "learning_rate": 9e-07,
      "loss": 0.0445,
      "reward": 10.225000023841858,
      "reward_std": 4.735325090587139,
      "rewards/accuracy_reward_staging": 0.8225000277161598,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 1.0,
      "step": 18
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 572.265625,
      "epoch": 18.8,
      "grad_norm": 1.3727510323236323,
      "kl": 0.0017957687377929688,
      "learning_rate": 9.499999999999999e-07,
      "loss": 0.0497,
      "reward": 9.406250178813934,
      "reward_std": 4.422982223331928,
      "rewards/accuracy_reward_staging": 0.7437500189989805,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 19
    },
    {
      "epoch": 19.8,
      "grad_norm": 1.2508053733094389,
      "learning_rate": 1e-06,
      "loss": -0.0193,
      "step": 20
    },
    {
      "epoch": 19.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 644.85,
      "eval_kl": 0.0017383575439453125,
      "eval_loss": 0.013418617658317089,
      "eval_reward": 12.118750143051148,
      "eval_reward_std": 5.42993243932724,
      "eval_rewards/accuracy_reward_staging": 1.0181250065565108,
      "eval_rewards/format_reward": 0.9375,
      "eval_rewards/format_reward_staging": 1.0,
      "eval_runtime": 138.2951,
      "eval_samples_per_second": 0.145,
      "eval_steps_per_second": 0.036,
      "step": 20
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.1875,
      "epoch": 20.8,
      "grad_norm": 1.2769652330197667,
      "kl": 0.0017538070678710938,
      "learning_rate": 1.05e-06,
      "loss": 0.0169,
      "reward": 10.289843887090683,
      "reward_std": 4.1728136613965034,
      "rewards/accuracy_reward_staging": 0.8297656457871199,
      "rewards/format_reward": 0.9921875,
      "rewards/format_reward_staging": 1.0,
      "step": 21
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.828125,
      "epoch": 21.8,
      "grad_norm": 1.2550140515179407,
      "kl": 0.0023107528686523438,
      "learning_rate": 1.1e-06,
      "loss": 0.0203,
      "reward": 10.453125178813934,
      "reward_std": 5.255412273108959,
      "rewards/accuracy_reward_staging": 0.8484374992549419,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 22
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 609.78125,
      "epoch": 22.8,
      "grad_norm": 1.1649225522797726,
      "kl": 0.0023360252380371094,
      "learning_rate": 1.1499999999999998e-06,
      "loss": 0.0301,
      "reward": 10.517187863588333,
      "reward_std": 4.380151428282261,
      "rewards/accuracy_reward_staging": 0.8532812558114529,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 23
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 640.1875,
      "epoch": 23.8,
      "grad_norm": 1.2148463960481974,
      "kl": 0.0026197433471679688,
      "learning_rate": 1.2e-06,
      "loss": 0.0016,
      "reward": 10.815625190734863,
      "reward_std": 4.644554391503334,
      "rewards/accuracy_reward_staging": 0.8893750132992864,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.984375,
      "step": 24
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 605.65625,
      "epoch": 24.8,
      "grad_norm": 1.2403401257649775,
      "kl": 0.0026373863220214844,
      "learning_rate": 1.2499999999999999e-06,
      "loss": 0.0521,
      "reward": 10.245312750339508,
      "reward_std": 4.28605642169714,
      "rewards/accuracy_reward_staging": 0.8323437552899122,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.984375,
      "step": 25
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 598.609375,
      "epoch": 25.8,
      "grad_norm": 1.3147177916400645,
      "kl": 0.0031595230102539062,
      "learning_rate": 1.3e-06,
      "loss": 0.0414,
      "reward": 10.621875256299973,
      "reward_std": 5.236618235707283,
      "rewards/accuracy_reward_staging": 0.8684375081211329,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.984375,
      "step": 26
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 625.40625,
      "epoch": 26.8,
      "grad_norm": 1.2154796498346485,
      "kl": 0.003124237060546875,
      "learning_rate": 1.35e-06,
      "loss": -0.0316,
      "reward": 11.971875131130219,
      "reward_std": 4.97715250402689,
      "rewards/accuracy_reward_staging": 1.0034375116229057,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.96875,
      "step": 27
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 669.484375,
      "epoch": 27.8,
      "grad_norm": 1.2295951327912775,
      "kl": 0.004219532012939453,
      "learning_rate": 1.4e-06,
      "loss": 0.0328,
      "reward": 10.487500160932541,
      "reward_std": 4.095494709908962,
      "rewards/accuracy_reward_staging": 0.8581250123679638,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 28
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 642.875,
      "epoch": 28.8,
      "grad_norm": 1.322550495751781,
      "kl": 0.00588226318359375,
      "learning_rate": 1.4499999999999999e-06,
      "loss": 0.06,
      "reward": 10.221875250339508,
      "reward_std": 4.399149507284164,
      "rewards/accuracy_reward_staging": 0.8268750105053186,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.96875,
      "step": 29
    },
    {
      "epoch": 29.8,
      "grad_norm": 1.2977104318293018,
      "learning_rate": 1.5e-06,
      "loss": 0.0428,
      "step": 30
    },
    {
      "epoch": 29.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 615.9875,
      "eval_kl": 0.005646514892578125,
      "eval_loss": -0.0016943871742114425,
      "eval_reward": 10.84500024318695,
      "eval_reward_std": 4.436952286958695,
      "eval_rewards/accuracy_reward_staging": 0.8932500079274177,
      "eval_rewards/format_reward": 0.925,
      "eval_rewards/format_reward_staging": 0.9875,
      "eval_runtime": 140.4185,
      "eval_samples_per_second": 0.142,
      "eval_steps_per_second": 0.036,
      "step": 30
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 602.734375,
      "epoch": 30.8,
      "grad_norm": 1.2642898418324884,
      "kl": 0.006984233856201172,
      "learning_rate": 1.55e-06,
      "loss": -0.0342,
      "reward": 10.63593776524067,
      "reward_std": 4.29075089469552,
      "rewards/accuracy_reward_staging": 0.865937520749867,
      "rewards/format_reward": 0.9765625,
      "rewards/format_reward_staging": 1.0,
      "step": 31
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 562.6875,
      "epoch": 31.8,
      "grad_norm": 1.3685850711260872,
      "kl": 0.0068912506103515625,
      "learning_rate": 1.6e-06,
      "loss": 0.0138,
      "reward": 10.934375166893005,
      "reward_std": 5.272631503641605,
      "rewards/accuracy_reward_staging": 0.8996875174343586,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.953125,
      "step": 32
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.984375,
      "epoch": 32.8,
      "grad_norm": 1.2202427650766963,
      "kl": 0.00725555419921875,
      "learning_rate": 1.6499999999999999e-06,
      "loss": 0.0152,
      "reward": 11.089062750339508,
      "reward_std": 5.698997817933559,
      "rewards/accuracy_reward_staging": 0.9151562694460154,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.984375,
      "step": 33
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 637.859375,
      "epoch": 33.8,
      "grad_norm": 1.238938352076857,
      "kl": 0.00881195068359375,
      "learning_rate": 1.6999999999999998e-06,
      "loss": -0.0175,
      "reward": 10.721875220537186,
      "reward_std": 4.769842825829983,
      "rewards/accuracy_reward_staging": 0.8784375097602606,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 1.0,
      "step": 34
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 659.125,
      "epoch": 34.8,
      "grad_norm": 1.2817921497759655,
      "kl": 0.009099960327148438,
      "learning_rate": 1.75e-06,
      "loss": -0.0368,
      "reward": 11.725000083446503,
      "reward_std": 5.023090958595276,
      "rewards/accuracy_reward_staging": 0.9881250187754631,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.9375,
      "step": 35
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 627.671875,
      "epoch": 35.8,
      "grad_norm": 1.2427123786378356,
      "kl": 0.00952911376953125,
      "learning_rate": 1.8e-06,
      "loss": 0.0311,
      "reward": 10.635937720537186,
      "reward_std": 4.218031510710716,
      "rewards/accuracy_reward_staging": 0.8682812862098217,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 36
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.109375,
      "epoch": 36.8,
      "grad_norm": 1.2742370115467172,
      "kl": 0.012310028076171875,
      "learning_rate": 1.85e-06,
      "loss": 0.0282,
      "reward": 11.673437774181366,
      "reward_std": 3.9488272815942764,
      "rewards/accuracy_reward_staging": 0.9720312729477882,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 1.0,
      "step": 37
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 651.328125,
      "epoch": 37.8,
      "grad_norm": 1.1726321374661877,
      "kl": 0.012788772583007812,
      "learning_rate": 1.8999999999999998e-06,
      "loss": 0.0163,
      "reward": 10.459375202655792,
      "reward_std": 4.296897903084755,
      "rewards/accuracy_reward_staging": 0.852187518030405,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.984375,
      "step": 38
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.984375,
      "epoch": 38.8,
      "grad_norm": 1.2806374425181677,
      "kl": 0.017009735107421875,
      "learning_rate": 1.95e-06,
      "loss": -0.0057,
      "reward": 10.478125214576721,
      "reward_std": 4.7161330208182335,
      "rewards/accuracy_reward_staging": 0.8525000084191561,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 1.0,
      "step": 39
    },
    {
      "epoch": 39.8,
      "grad_norm": 1.362092657080068,
      "learning_rate": 2e-06,
      "loss": -0.0269,
      "step": 40
    },
    {
      "epoch": 39.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 603.9875,
      "eval_kl": 0.0187530517578125,
      "eval_loss": 0.0036536618135869503,
      "eval_reward": 11.611250162124634,
      "eval_reward_std": 5.22377119064331,
      "eval_rewards/accuracy_reward_staging": 0.9636250138282776,
      "eval_rewards/format_reward": 0.975,
      "eval_rewards/format_reward_staging": 1.0,
      "eval_runtime": 132.1448,
      "eval_samples_per_second": 0.151,
      "eval_steps_per_second": 0.038,
      "step": 40
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 634.0,
      "epoch": 40.8,
      "grad_norm": 1.2640957862139377,
      "kl": 0.018407821655273438,
      "learning_rate": 1.999961923064171e-06,
      "loss": -0.0634,
      "reward": 11.232812687754631,
      "reward_std": 5.111758019775152,
      "rewards/accuracy_reward_staging": 0.9334375113248825,
      "rewards/format_reward": 0.9296875,
      "rewards/format_reward_staging": 0.96875,
      "step": 41
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 635.765625,
      "epoch": 41.8,
      "grad_norm": 1.268606166424927,
      "kl": 0.01999664306640625,
      "learning_rate": 1.9998476951563913e-06,
      "loss": 0.0283,
      "reward": 12.45000010728836,
      "reward_std": 4.9740989953279495,
      "rewards/accuracy_reward_staging": 1.0450000185519457,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 1.0,
      "step": 42
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.1875,
      "epoch": 42.8,
      "grad_norm": 1.3740022650965131,
      "kl": 0.020366668701171875,
      "learning_rate": 1.999657324975557e-06,
      "loss": -0.0149,
      "reward": 11.234375149011612,
      "reward_std": 5.008681446313858,
      "rewards/accuracy_reward_staging": 0.9250000100582838,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.984375,
      "step": 43
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.640625,
      "epoch": 43.8,
      "grad_norm": 1.2026028918578335,
      "kl": 0.02169036865234375,
      "learning_rate": 1.9993908270190957e-06,
      "loss": 0.0018,
      "reward": 11.873437762260437,
      "reward_std": 4.005194254219532,
      "rewards/accuracy_reward_staging": 0.9920312594622374,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 44
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 637.0625,
      "epoch": 44.8,
      "grad_norm": 1.281104821624419,
      "kl": 0.022716522216796875,
      "learning_rate": 1.999048221581858e-06,
      "loss": 0.0455,
      "reward": 11.17031267285347,
      "reward_std": 4.456828519701958,
      "rewards/accuracy_reward_staging": 0.9201562497764826,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 45
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 652.5,
      "epoch": 45.8,
      "grad_norm": 1.3614150864044823,
      "kl": 0.0223236083984375,
      "learning_rate": 1.998629534754574e-06,
      "loss": 0.0205,
      "reward": 10.348437696695328,
      "reward_std": 4.60803659260273,
      "rewards/accuracy_reward_staging": 0.8426562454551458,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.984375,
      "step": 46
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.359375,
      "epoch": 46.8,
      "grad_norm": 1.245324461252277,
      "kl": 0.0242156982421875,
      "learning_rate": 1.9981347984218667e-06,
      "loss": 0.0056,
      "reward": 13.950000077486038,
      "reward_std": 5.2063538283109665,
      "rewards/accuracy_reward_staging": 1.2059375159442425,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.953125,
      "step": 47
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.96875,
      "epoch": 47.8,
      "grad_norm": 1.3313171277926144,
      "kl": 0.02922821044921875,
      "learning_rate": 1.997564050259824e-06,
      "loss": 0.0449,
      "reward": 12.739062905311584,
      "reward_std": 4.18791925907135,
      "rewards/accuracy_reward_staging": 1.075468771159649,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 48
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 580.21875,
      "epoch": 48.8,
      "grad_norm": 1.3629349178288628,
      "kl": 0.03372955322265625,
      "learning_rate": 1.996917333733128e-06,
      "loss": 0.0174,
      "reward": 11.535937696695328,
      "reward_std": 3.948319137096405,
      "rewards/accuracy_reward_staging": 0.9614062653854489,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.96875,
      "step": 49
    },
    {
      "epoch": 49.8,
      "grad_norm": 1.210177545645759,
      "learning_rate": 1.9961946980917456e-06,
      "loss": 0.0148,
      "step": 50
    },
    {
      "epoch": 49.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 681.0125,
      "eval_kl": 0.0308837890625,
      "eval_loss": 0.084346242249012,
      "eval_reward": 12.700000238418578,
      "eval_reward_std": 4.6470307350158695,
      "eval_rewards/accuracy_reward_staging": 1.0800000175833702,
      "eval_rewards/format_reward": 0.9375,
      "eval_rewards/format_reward_staging": 0.9625,
      "eval_runtime": 184.5613,
      "eval_samples_per_second": 0.108,
      "eval_steps_per_second": 0.027,
      "step": 50
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 635.09375,
      "epoch": 50.8,
      "grad_norm": 1.3066463171281288,
      "kl": 0.033504486083984375,
      "learning_rate": 1.9953961983671786e-06,
      "loss": 0.026,
      "reward": 11.925000175833702,
      "reward_std": 5.033060222864151,
      "rewards/accuracy_reward_staging": 0.9956250190734863,
      "rewards/format_reward": 0.9765625,
      "rewards/format_reward_staging": 0.9921875,
      "step": 51
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 633.59375,
      "epoch": 51.8,
      "grad_norm": 1.4900533150827393,
      "kl": 0.040374755859375,
      "learning_rate": 1.994521895368273e-06,
      "loss": 0.0244,
      "reward": 11.634375095367432,
      "reward_std": 4.955964259803295,
      "rewards/accuracy_reward_staging": 0.9665625263005495,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 52
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 642.84375,
      "epoch": 52.8,
      "grad_norm": 1.3018535470423898,
      "kl": 0.0359039306640625,
      "learning_rate": 1.9935718556765874e-06,
      "loss": 0.0176,
      "reward": 13.220312714576721,
      "reward_std": 6.300683185458183,
      "rewards/accuracy_reward_staging": 1.1282812524586916,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.96875,
      "step": 53
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 625.59375,
      "epoch": 53.8,
      "grad_norm": 1.1747250249399175,
      "kl": 0.0344696044921875,
      "learning_rate": 1.992546151641322e-06,
      "loss": 0.0279,
      "reward": 12.729687660932541,
      "reward_std": 3.8526118397712708,
      "rewards/accuracy_reward_staging": 1.0854687504470348,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.96875,
      "step": 54
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.421875,
      "epoch": 54.8,
      "grad_norm": 1.4193243535352469,
      "kl": 0.0395355224609375,
      "learning_rate": 1.9914448613738106e-06,
      "loss": 0.0064,
      "reward": 13.129687666893005,
      "reward_std": 5.78121767193079,
      "rewards/accuracy_reward_staging": 1.1223437692970037,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 55
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.609375,
      "epoch": 55.8,
      "grad_norm": 1.3523573855480968,
      "kl": 0.04061126708984375,
      "learning_rate": 1.99026806874157e-06,
      "loss": 0.0142,
      "reward": 13.071875303983688,
      "reward_std": 6.487003266811371,
      "rewards/accuracy_reward_staging": 1.1118750274181366,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 56
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 606.71875,
      "epoch": 56.8,
      "grad_norm": 1.295861523746061,
      "kl": 0.04427337646484375,
      "learning_rate": 1.989015863361917e-06,
      "loss": 0.0139,
      "reward": 13.359375238418579,
      "reward_std": 6.011465005576611,
      "rewards/accuracy_reward_staging": 1.1375000104308128,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 57
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 632.140625,
      "epoch": 57.8,
      "grad_norm": 1.358415139567083,
      "kl": 0.0454254150390625,
      "learning_rate": 1.9876883405951377e-06,
      "loss": 0.0217,
      "reward": 12.626562535762787,
      "reward_std": 4.465259864926338,
      "rewards/accuracy_reward_staging": 1.0657812729477882,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 58
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 598.5,
      "epoch": 58.8,
      "grad_norm": 1.3223218232049598,
      "kl": 0.046783447265625,
      "learning_rate": 1.986285601537231e-06,
      "loss": 0.0257,
      "reward": 12.182812690734863,
      "reward_std": 6.196883611381054,
      "rewards/accuracy_reward_staging": 1.0292187482118607,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.953125,
      "step": 59
    },
    {
      "epoch": 59.8,
      "grad_norm": 1.2192909123573732,
      "learning_rate": 1.984807753012208e-06,
      "loss": 0.0537,
      "step": 60
    },
    {
      "epoch": 59.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 641.15,
      "eval_kl": 0.04580078125,
      "eval_loss": -0.05469979718327522,
      "eval_reward": 13.055000233650208,
      "eval_reward_std": 5.354214292764664,
      "eval_rewards/accuracy_reward_staging": 1.1130000218749045,
      "eval_rewards/format_reward": 0.9625,
      "eval_rewards/format_reward_staging": 0.9625,
      "eval_runtime": 152.2218,
      "eval_samples_per_second": 0.131,
      "eval_steps_per_second": 0.033,
      "step": 60
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 637.5546875,
      "epoch": 60.8,
      "grad_norm": 1.2273226448891168,
      "kl": 0.046173095703125,
      "learning_rate": 1.9832549075639547e-06,
      "loss": -0.0281,
      "reward": 12.067969009280205,
      "reward_std": 5.051002878695726,
      "rewards/accuracy_reward_staging": 1.0114843952469528,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 61
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.640625,
      "epoch": 61.8,
      "grad_norm": 1.2972851245460888,
      "kl": 0.062713623046875,
      "learning_rate": 1.981627183447664e-06,
      "loss": 0.0389,
      "reward": 12.120312690734863,
      "reward_std": 3.9745979011058807,
      "rewards/accuracy_reward_staging": 1.0229687616229057,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.953125,
      "step": 62
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 669.671875,
      "epoch": 62.8,
      "grad_norm": 1.433658602561295,
      "kl": 0.05224609375,
      "learning_rate": 1.9799247046208295e-06,
      "loss": 0.0548,
      "reward": 13.040625154972076,
      "reward_std": 5.295711062848568,
      "rewards/accuracy_reward_staging": 1.1118750162422657,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.96875,
      "step": 63
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.8125,
      "epoch": 63.8,
      "grad_norm": 1.2699526702646982,
      "kl": 0.0532379150390625,
      "learning_rate": 1.9781476007338054e-06,
      "loss": 0.0405,
      "reward": 12.978125303983688,
      "reward_std": 5.858064912259579,
      "rewards/accuracy_reward_staging": 1.100937519222498,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 64
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.25,
      "epoch": 64.8,
      "grad_norm": 1.2887790245964135,
      "kl": 0.0642242431640625,
      "learning_rate": 1.976296007119933e-06,
      "loss": 0.0309,
      "reward": 13.806250274181366,
      "reward_std": 5.3699341379106045,
      "rewards/accuracy_reward_staging": 1.1900000236928463,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 65
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.75,
      "epoch": 65.8,
      "grad_norm": 1.2658566344825595,
      "kl": 0.0558319091796875,
      "learning_rate": 1.9743700647852355e-06,
      "loss": -0.0173,
      "reward": 12.885937601327896,
      "reward_std": 5.130606591701508,
      "rewards/accuracy_reward_staging": 1.0917187500745058,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 66
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 603.84375,
      "epoch": 66.8,
      "grad_norm": 1.2421251352393117,
      "kl": 0.0610198974609375,
      "learning_rate": 1.9723699203976766e-06,
      "loss": 0.0279,
      "reward": 12.806250214576721,
      "reward_std": 4.9495924392249435,
      "rewards/accuracy_reward_staging": 1.0806250050663948,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 1.0,
      "step": 67
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 610.90625,
      "epoch": 67.8,
      "grad_norm": 1.2743636487669978,
      "kl": 0.07061767578125,
      "learning_rate": 1.9702957262759963e-06,
      "loss": 0.0096,
      "reward": 12.381250366568565,
      "reward_std": 4.895804196596146,
      "rewards/accuracy_reward_staging": 1.0443749986588955,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.984375,
      "step": 68
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.734375,
      "epoch": 68.8,
      "grad_norm": 19.774598485500963,
      "kl": 0.20587158203125,
      "learning_rate": 1.9681476403781077e-06,
      "loss": 0.0525,
      "reward": 13.853125363588333,
      "reward_std": 4.133783400058746,
      "rewards/accuracy_reward_staging": 1.1900000181049109,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 69
    },
    {
      "epoch": 69.8,
      "grad_norm": 1.2630722978620754,
      "learning_rate": 1.965925826289068e-06,
      "loss": -0.05,
      "step": 70
    },
    {
      "epoch": 69.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 644.375,
      "eval_kl": 0.06834716796875,
      "eval_loss": 0.05038486793637276,
      "eval_reward": 13.201250171661377,
      "eval_reward_std": 5.853598284721374,
      "eval_rewards/accuracy_reward_staging": 1.1376250192523003,
      "eval_rewards/format_reward": 0.8875,
      "eval_rewards/format_reward_staging": 0.9375,
      "eval_runtime": 152.6561,
      "eval_samples_per_second": 0.131,
      "eval_steps_per_second": 0.033,
      "step": 70
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.921875,
      "epoch": 70.8,
      "grad_norm": 1.3309524076426662,
      "kl": 0.0696563720703125,
      "learning_rate": 1.963630453208623e-06,
      "loss": 0.0613,
      "reward": 13.469531431794167,
      "reward_std": 5.184730686247349,
      "rewards/accuracy_reward_staging": 1.1508593847975135,
      "rewards/format_reward": 0.9765625,
      "rewards/format_reward_staging": 0.984375,
      "step": 71
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 673.703125,
      "epoch": 71.8,
      "grad_norm": 1.3030149455750017,
      "kl": 0.0673980712890625,
      "learning_rate": 1.9612616959383188e-06,
      "loss": 0.0537,
      "reward": 14.193750262260437,
      "reward_std": 4.9487489387393,
      "rewards/accuracy_reward_staging": 1.2318750098347664,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.96875,
      "step": 72
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 646.5625,
      "epoch": 72.8,
      "grad_norm": 1.2069285825783527,
      "kl": 0.0667724609375,
      "learning_rate": 1.958819734868193e-06,
      "loss": 0.0452,
      "reward": 13.829687654972076,
      "reward_std": 4.151405468583107,
      "rewards/accuracy_reward_staging": 1.1845312640070915,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 73
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 675.25,
      "epoch": 73.8,
      "grad_norm": 12.30456605431996,
      "kl": 0.144561767578125,
      "learning_rate": 1.9563047559630356e-06,
      "loss": 0.0238,
      "reward": 15.618750125169754,
      "reward_std": 5.085296101868153,
      "rewards/accuracy_reward_staging": 1.3665625024586916,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 74
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 627.640625,
      "epoch": 74.8,
      "grad_norm": 435.4454579019399,
      "kl": 2.6427154541015625,
      "learning_rate": 1.953716950748227e-06,
      "loss": 0.1019,
      "reward": 14.799999952316284,
      "reward_std": 4.404626630246639,
      "rewards/accuracy_reward_staging": 1.2831250056624413,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 75
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 591.453125,
      "epoch": 75.8,
      "grad_norm": 1.5728290641754585,
      "kl": 0.0894012451171875,
      "learning_rate": 1.9510565162951534e-06,
      "loss": 0.0154,
      "reward": 14.187500238418579,
      "reward_std": 4.889563232660294,
      "rewards/accuracy_reward_staging": 1.2265625279396772,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.984375,
      "step": 76
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.296875,
      "epoch": 76.8,
      "grad_norm": 2.0802354331013824,
      "kl": 0.113311767578125,
      "learning_rate": 1.948323655206199e-06,
      "loss": 0.031,
      "reward": 14.854687571525574,
      "reward_std": 4.158232696354389,
      "rewards/accuracy_reward_staging": 1.2885937616229057,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 77
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 652.46875,
      "epoch": 77.8,
      "grad_norm": 1.388498981753556,
      "kl": 0.086456298828125,
      "learning_rate": 1.945518575599317e-06,
      "loss": 0.0197,
      "reward": 14.209375262260437,
      "reward_std": 5.606824688613415,
      "rewards/accuracy_reward_staging": 1.2318750135600567,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.96875,
      "step": 78
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.703125,
      "epoch": 78.8,
      "grad_norm": 1.2332136505931421,
      "kl": 0.080596923828125,
      "learning_rate": 1.9426414910921785e-06,
      "loss": 0.0222,
      "reward": 14.440624922513962,
      "reward_std": 4.533382810652256,
      "rewards/accuracy_reward_staging": 1.247187502682209,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 79
    },
    {
      "epoch": 79.8,
      "grad_norm": 1.2077461933733504,
      "learning_rate": 1.9396926207859082e-06,
      "loss": 0.0239,
      "step": 80
    },
    {
      "epoch": 79.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 592.1125,
      "eval_kl": 0.077099609375,
      "eval_loss": 0.03515242785215378,
      "eval_reward": 14.468750166893006,
      "eval_reward_std": 4.639398086071014,
      "eval_rewards/accuracy_reward_staging": 1.2506250083446502,
      "eval_rewards/format_reward": 0.9875,
      "eval_rewards/format_reward_staging": 0.975,
      "eval_runtime": 133.8538,
      "eval_samples_per_second": 0.149,
      "eval_steps_per_second": 0.037,
      "step": 80
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 644.046875,
      "epoch": 80.8,
      "grad_norm": 1.673636310153387,
      "kl": 0.07987213134765625,
      "learning_rate": 1.9366721892483973e-06,
      "loss": 0.0333,
      "reward": 14.308594018220901,
      "reward_std": 3.8065029891440645,
      "rewards/accuracy_reward_staging": 1.233984388411045,
      "rewards/format_reward": 0.9765625,
      "rewards/format_reward_staging": 0.9921875,
      "step": 81
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 644.65625,
      "epoch": 81.8,
      "grad_norm": 1.2475722094071593,
      "kl": 0.07330322265625,
      "learning_rate": 1.9335804264972015e-06,
      "loss": -0.0326,
      "reward": 12.793750315904617,
      "reward_std": 4.888111189007759,
      "rewards/accuracy_reward_staging": 1.080937497317791,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 82
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 600.578125,
      "epoch": 82.8,
      "grad_norm": 1.1629304999796195,
      "kl": 0.0791168212890625,
      "learning_rate": 1.9304175679820247e-06,
      "loss": 0.0416,
      "reward": 12.628125369548798,
      "reward_std": 4.35176794230938,
      "rewards/accuracy_reward_staging": 1.0706250071525574,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.984375,
      "step": 83
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 557.15625,
      "epoch": 83.8,
      "grad_norm": 1.439668786268354,
      "kl": 0.084381103515625,
      "learning_rate": 1.9271838545667875e-06,
      "loss": 0.0776,
      "reward": 12.189062774181366,
      "reward_std": 4.2925035655498505,
      "rewards/accuracy_reward_staging": 1.0235937517136335,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 84
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.0625,
      "epoch": 84.8,
      "grad_norm": 1.3254589188157202,
      "kl": 0.0747528076171875,
      "learning_rate": 1.9238795325112867e-06,
      "loss": 0.0619,
      "reward": 15.909375101327896,
      "reward_std": 5.054341539740562,
      "rewards/accuracy_reward_staging": 1.3925000187009573,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 85
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.28125,
      "epoch": 85.8,
      "grad_norm": 1.2110318535178632,
      "kl": 0.0708465576171875,
      "learning_rate": 1.9205048534524403e-06,
      "loss": 0.0277,
      "reward": 13.023437589406967,
      "reward_std": 4.805721327662468,
      "rewards/accuracy_reward_staging": 1.1070312801748514,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 86
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 613.15625,
      "epoch": 86.8,
      "grad_norm": 1.3901357478872436,
      "kl": 0.0800323486328125,
      "learning_rate": 1.917060074385124e-06,
      "loss": 0.0142,
      "reward": 14.523437321186066,
      "reward_std": 4.984271876513958,
      "rewards/accuracy_reward_staging": 1.257031261920929,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 87
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 603.078125,
      "epoch": 87.8,
      "grad_norm": 1.338201226896483,
      "kl": 0.0803375244140625,
      "learning_rate": 1.9135454576426007e-06,
      "loss": 0.0304,
      "reward": 14.829687654972076,
      "reward_std": 6.223069980740547,
      "rewards/accuracy_reward_staging": 1.2939062640070915,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.953125,
      "step": 88
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.9375,
      "epoch": 88.8,
      "grad_norm": 2.521080873125213,
      "kl": 0.1446990966796875,
      "learning_rate": 1.909961270876543e-06,
      "loss": 0.0222,
      "reward": 14.043749928474426,
      "reward_std": 5.054637104272842,
      "rewards/accuracy_reward_staging": 1.2106250263750553,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.96875,
      "step": 89
    },
    {
      "epoch": 89.8,
      "grad_norm": 1.20377714499055,
      "learning_rate": 1.9063077870366499e-06,
      "loss": 0.048,
      "step": 90
    },
    {
      "epoch": 89.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 648.2375,
      "eval_kl": 0.078076171875,
      "eval_loss": 0.07422037422657013,
      "eval_reward": 14.006250190734864,
      "eval_reward_std": 4.856718444824219,
      "eval_rewards/accuracy_reward_staging": 1.2081250160932542,
      "eval_rewards/format_reward": 0.95,
      "eval_rewards/format_reward_staging": 0.975,
      "eval_runtime": 145.5911,
      "eval_samples_per_second": 0.137,
      "eval_steps_per_second": 0.034,
      "step": 90
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.7265625,
      "epoch": 90.8,
      "grad_norm": 1.151785130187796,
      "kl": 0.0818328857421875,
      "learning_rate": 1.9025852843498606e-06,
      "loss": -0.0394,
      "reward": 14.92031255364418,
      "reward_std": 5.041832268238068,
      "rewards/accuracy_reward_staging": 1.2959375083446503,
      "rewards/format_reward": 0.9765625,
      "rewards/format_reward_staging": 0.984375,
      "step": 91
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 650.859375,
      "epoch": 91.8,
      "grad_norm": 1.0808576276629485,
      "kl": 0.0752716064453125,
      "learning_rate": 1.8987940462991669e-06,
      "loss": 0.0142,
      "reward": 13.932812631130219,
      "reward_std": 5.106485404074192,
      "rewards/accuracy_reward_staging": 1.1948437727987766,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 92
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 653.96875,
      "epoch": 92.8,
      "grad_norm": 1.1761749428173782,
      "kl": 0.0748443603515625,
      "learning_rate": 1.894934361602025e-06,
      "loss": 0.061,
      "reward": 13.756249964237213,
      "reward_std": 4.668057285249233,
      "rewards/accuracy_reward_staging": 1.185000006109476,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 93
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 643.140625,
      "epoch": 93.8,
      "grad_norm": 1.1826779106192027,
      "kl": 0.08154296875,
      "learning_rate": 1.8910065241883678e-06,
      "loss": 0.0113,
      "reward": 15.871875286102295,
      "reward_std": 5.009915418922901,
      "rewards/accuracy_reward_staging": 1.3918750323355198,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 94
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 640.71875,
      "epoch": 94.8,
      "grad_norm": 1.220691618497292,
      "kl": 0.087249755859375,
      "learning_rate": 1.8870108331782216e-06,
      "loss": 0.0364,
      "reward": 15.275000274181366,
      "reward_std": 5.186372339725494,
      "rewards/accuracy_reward_staging": 1.3353125043213367,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.953125,
      "step": 95
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 638.9375,
      "epoch": 95.8,
      "grad_norm": 1.262017317075815,
      "kl": 0.092254638671875,
      "learning_rate": 1.8829475928589268e-06,
      "loss": 0.0112,
      "reward": 11.41250017285347,
      "reward_std": 5.790772080421448,
      "rewards/accuracy_reward_staging": 0.9459375087171793,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 96
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 650.140625,
      "epoch": 96.8,
      "grad_norm": 1.555339606868479,
      "kl": 0.088897705078125,
      "learning_rate": 1.8788171126619653e-06,
      "loss": 0.0167,
      "reward": 13.132812529802322,
      "reward_std": 5.363104030489922,
      "rewards/accuracy_reward_staging": 1.1226562578231096,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 97
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 685.40625,
      "epoch": 97.8,
      "grad_norm": 1.1855081064145405,
      "kl": 0.0860595703125,
      "learning_rate": 1.8746197071393956e-06,
      "loss": -0.0101,
      "reward": 14.51250010728836,
      "reward_std": 5.773593910038471,
      "rewards/accuracy_reward_staging": 1.2575000114738941,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.96875,
      "step": 98
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 632.890625,
      "epoch": 98.8,
      "grad_norm": 1.2154159531082918,
      "kl": 0.092254638671875,
      "learning_rate": 1.8703556959398995e-06,
      "loss": 0.0378,
      "reward": 13.392187654972076,
      "reward_std": 5.218963444232941,
      "rewards/accuracy_reward_staging": 1.1423437520861626,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 99
    },
    {
      "epoch": 99.8,
      "grad_norm": 1.2652701809880356,
      "learning_rate": 1.8660254037844386e-06,
      "loss": 0.0158,
      "step": 100
    },
    {
      "epoch": 99.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 596.325,
      "eval_kl": 0.170458984375,
      "eval_loss": 0.038617830723524094,
      "eval_reward": 13.322500276565552,
      "eval_reward_std": 4.48788731098175,
      "eval_rewards/accuracy_reward_staging": 1.1335000172257423,
      "eval_rewards/format_reward": 0.9875,
      "eval_rewards/format_reward_staging": 1.0,
      "eval_runtime": 137.9647,
      "eval_samples_per_second": 0.145,
      "eval_steps_per_second": 0.036,
      "step": 100
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 625.546875,
      "epoch": 100.8,
      "grad_norm": 1.158984032803143,
      "kl": 0.0985870361328125,
      "learning_rate": 1.8616291604415257e-06,
      "loss": 0.0013,
      "reward": 13.735937476158142,
      "reward_std": 5.272327609360218,
      "rewards/accuracy_reward_staging": 1.174375013448298,
      "rewards/format_reward": 0.9921875,
      "rewards/format_reward_staging": 1.0,
      "step": 101
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 610.265625,
      "epoch": 101.8,
      "grad_norm": 1.1842728351019054,
      "kl": 0.095916748046875,
      "learning_rate": 1.8571673007021123e-06,
      "loss": 0.0156,
      "reward": 15.284374952316284,
      "reward_std": 4.7574154287576675,
      "rewards/accuracy_reward_staging": 1.330000001937151,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 102
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 640.171875,
      "epoch": 102.8,
      "grad_norm": 1.2460167784481468,
      "kl": 0.09686279296875,
      "learning_rate": 1.852640164354092e-06,
      "loss": -0.0181,
      "reward": 14.125000357627869,
      "reward_std": 4.396180346608162,
      "rewards/accuracy_reward_staging": 1.2203124929219484,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.96875,
      "step": 103
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 632.03125,
      "epoch": 103.8,
      "grad_norm": 1.2093960835662856,
      "kl": 0.096099853515625,
      "learning_rate": 1.8480480961564257e-06,
      "loss": -0.0125,
      "reward": 15.537500262260437,
      "reward_std": 4.605620868504047,
      "rewards/accuracy_reward_staging": 1.3553125225007534,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 104
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.1875,
      "epoch": 104.8,
      "grad_norm": 16.01421157394276,
      "kl": 0.21142578125,
      "learning_rate": 1.8433914458128857e-06,
      "loss": 0.0579,
      "reward": 13.903125166893005,
      "reward_std": 6.153450347483158,
      "rewards/accuracy_reward_staging": 1.1950000002980232,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 105
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 646.25,
      "epoch": 105.8,
      "grad_norm": 1.3180024354800577,
      "kl": 0.10040283203125,
      "learning_rate": 1.838670567945424e-06,
      "loss": 0.068,
      "reward": 13.818750381469727,
      "reward_std": 5.729592114686966,
      "rewards/accuracy_reward_staging": 1.189687505364418,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.984375,
      "step": 106
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.875,
      "epoch": 106.8,
      "grad_norm": 2.9653782850707398,
      "kl": 0.14129638671875,
      "learning_rate": 1.833885822067168e-06,
      "loss": 0.0536,
      "reward": 15.423437595367432,
      "reward_std": 6.023381091654301,
      "rewards/accuracy_reward_staging": 1.3454687595367432,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 107
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 644.546875,
      "epoch": 107.8,
      "grad_norm": 1.4820796355726387,
      "kl": 0.09906005859375,
      "learning_rate": 1.8290375725550415e-06,
      "loss": 0.097,
      "reward": 14.023437529802322,
      "reward_std": 6.225167877972126,
      "rewards/accuracy_reward_staging": 1.2054687719792128,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 108
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.25,
      "epoch": 108.8,
      "grad_norm": 1.653023129371335,
      "kl": 0.114166259765625,
      "learning_rate": 1.8241261886220154e-06,
      "loss": 0.0807,
      "reward": 14.356250017881393,
      "reward_std": 5.447244621813297,
      "rewards/accuracy_reward_staging": 1.2371875084936619,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 1.0,
      "step": 109
    },
    {
      "epoch": 109.8,
      "grad_norm": 1.2519961806572524,
      "learning_rate": 1.8191520442889917e-06,
      "loss": 0.0487,
      "step": 110
    },
    {
      "epoch": 109.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 607.9625,
      "eval_kl": 0.098583984375,
      "eval_loss": 0.015465144999325275,
      "eval_reward": 14.107500028610229,
      "eval_reward_std": 5.255042427778244,
      "eval_rewards/accuracy_reward_staging": 1.2157500088214874,
      "eval_rewards/format_reward": 0.9625,
      "eval_rewards/format_reward_staging": 0.9875,
      "eval_runtime": 141.9444,
      "eval_samples_per_second": 0.141,
      "eval_steps_per_second": 0.035,
      "step": 110
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.484375,
      "epoch": 110.8,
      "grad_norm": 1.2811054745764274,
      "kl": 0.112457275390625,
      "learning_rate": 1.8141155183563193e-06,
      "loss": 0.0085,
      "reward": 14.736718833446503,
      "reward_std": 5.505104329437017,
      "rewards/accuracy_reward_staging": 1.2760156439617276,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.9921875,
      "step": 111
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 589.59375,
      "epoch": 111.8,
      "grad_norm": 1.2357687466322653,
      "kl": 0.1142578125,
      "learning_rate": 1.8090169943749474e-06,
      "loss": -0.0064,
      "reward": 13.935937494039536,
      "reward_std": 4.747958414256573,
      "rewards/accuracy_reward_staging": 1.195156266912818,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.984375,
      "step": 112
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.953125,
      "epoch": 112.8,
      "grad_norm": 1.4229471167256136,
      "kl": 0.14752197265625,
      "learning_rate": 1.803856860617217e-06,
      "loss": 0.0281,
      "reward": 13.79843756556511,
      "reward_std": 5.385790981352329,
      "rewards/accuracy_reward_staging": 1.1845312714576721,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.96875,
      "step": 113
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 611.328125,
      "epoch": 113.8,
      "grad_norm": 24.422765952176345,
      "kl": 0.330352783203125,
      "learning_rate": 1.7986355100472927e-06,
      "loss": 0.0504,
      "reward": 14.092187762260437,
      "reward_std": 5.095987647771835,
      "rewards/accuracy_reward_staging": 1.2107812762260437,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.984375,
      "step": 114
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 567.453125,
      "epoch": 114.8,
      "grad_norm": 5.413230038864145,
      "kl": 0.17083740234375,
      "learning_rate": 1.7933533402912351e-06,
      "loss": 0.0736,
      "reward": 13.521874904632568,
      "reward_std": 4.76890967041254,
      "rewards/accuracy_reward_staging": 1.1584375277161598,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.96875,
      "step": 115
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 589.703125,
      "epoch": 115.8,
      "grad_norm": 1.9014947184206379,
      "kl": 0.17449951171875,
      "learning_rate": 1.7880107536067217e-06,
      "loss": 0.0221,
      "reward": 12.971875101327896,
      "reward_std": 5.6128582283854485,
      "rewards/accuracy_reward_staging": 1.1065624989569187,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.953125,
      "step": 116
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.71875,
      "epoch": 116.8,
      "grad_norm": 5.015821786557117,
      "kl": 0.3743896484375,
      "learning_rate": 1.7826081568524138e-06,
      "loss": 0.0006,
      "reward": 14.44375005364418,
      "reward_std": 5.561103023588657,
      "rewards/accuracy_reward_staging": 1.247500006109476,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 117
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 541.34375,
      "epoch": 117.8,
      "grad_norm": 2.862584895806164,
      "kl": 0.159332275390625,
      "learning_rate": 1.7771459614569707e-06,
      "loss": -0.0004,
      "reward": 13.903124928474426,
      "reward_std": 4.877812258899212,
      "rewards/accuracy_reward_staging": 1.1950000133365393,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.953125,
      "step": 118
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.203125,
      "epoch": 118.8,
      "grad_norm": 1.2925016251536252,
      "kl": 0.136077880859375,
      "learning_rate": 1.7716245833877198e-06,
      "loss": 0.0437,
      "reward": 14.979687631130219,
      "reward_std": 5.167752608656883,
      "rewards/accuracy_reward_staging": 1.3042187504470348,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.96875,
      "step": 119
    },
    {
      "epoch": 119.8,
      "grad_norm": 1.268704610469971,
      "learning_rate": 1.766044443118978e-06,
      "loss": 0.0381,
      "step": 120
    },
    {
      "epoch": 119.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 613.875,
      "eval_kl": 0.1421142578125,
      "eval_loss": 0.042472995817661285,
      "eval_reward": 14.473749923706055,
      "eval_reward_std": 4.867543476819992,
      "eval_rewards/accuracy_reward_staging": 1.2536250054836273,
      "eval_rewards/format_reward": 0.95,
      "eval_rewards/format_reward_staging": 0.9875,
      "eval_runtime": 140.6458,
      "eval_samples_per_second": 0.142,
      "eval_steps_per_second": 0.036,
      "step": 120
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 632.1796875,
      "epoch": 120.8,
      "grad_norm": 1.232115329282542,
      "kl": 0.1269073486328125,
      "learning_rate": 1.760405965600031e-06,
      "loss": 0.0088,
      "reward": 14.570312559604645,
      "reward_std": 5.063761539757252,
      "rewards/accuracy_reward_staging": 1.262500001117587,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.9765625,
      "step": 121
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 631.671875,
      "epoch": 121.8,
      "grad_norm": 1.3808041357571472,
      "kl": 0.14166259765625,
      "learning_rate": 1.7547095802227721e-06,
      "loss": 0.0158,
      "reward": 13.695312559604645,
      "reward_std": 5.737492188811302,
      "rewards/accuracy_reward_staging": 1.1742187663912773,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.953125,
      "step": 122
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 635.234375,
      "epoch": 122.8,
      "grad_norm": 1.247279598577896,
      "kl": 0.12890625,
      "learning_rate": 1.7489557207890023e-06,
      "loss": 0.0455,
      "reward": 12.946875035762787,
      "reward_std": 4.728762552142143,
      "rewards/accuracy_reward_staging": 1.100937519222498,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.96875,
      "step": 123
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 578.359375,
      "epoch": 123.8,
      "grad_norm": 1.3012048204012603,
      "kl": 0.14288330078125,
      "learning_rate": 1.743144825477394e-06,
      "loss": 0.0237,
      "reward": 14.440625131130219,
      "reward_std": 5.539311669766903,
      "rewards/accuracy_reward_staging": 1.2471875082701445,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 124
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.046875,
      "epoch": 124.8,
      "grad_norm": 1.3325921669841398,
      "kl": 0.1463623046875,
      "learning_rate": 1.737277336810124e-06,
      "loss": 0.0604,
      "reward": 12.951562702655792,
      "reward_std": 3.5424299761652946,
      "rewards/accuracy_reward_staging": 1.1014062613248825,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.984375,
      "step": 125
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 600.65625,
      "epoch": 125.8,
      "grad_norm": 1.692915618997029,
      "kl": 0.158050537109375,
      "learning_rate": 1.7313537016191704e-06,
      "loss": 0.0314,
      "reward": 15.428125023841858,
      "reward_std": 5.270965404808521,
      "rewards/accuracy_reward_staging": 1.3459375128149986,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 126
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.15625,
      "epoch": 126.8,
      "grad_norm": 1.1976264555767795,
      "kl": 0.1231689453125,
      "learning_rate": 1.7253743710122874e-06,
      "loss": -0.0521,
      "reward": 15.524999856948853,
      "reward_std": 4.5880225002765656,
      "rewards/accuracy_reward_staging": 1.3556249924004078,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 127
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 636.265625,
      "epoch": 127.8,
      "grad_norm": 1.5736176734740694,
      "kl": 0.14605712890625,
      "learning_rate": 1.719339800338651e-06,
      "loss": -0.0053,
      "reward": 13.117187559604645,
      "reward_std": 4.341549597680569,
      "rewards/accuracy_reward_staging": 1.1273437663912773,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.953125,
      "step": 128
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 646.5,
      "epoch": 128.8,
      "grad_norm": 2.8516785822154693,
      "kl": 0.19573974609375,
      "learning_rate": 1.7132504491541815e-06,
      "loss": -0.0363,
      "reward": 13.059375166893005,
      "reward_std": 4.451074585318565,
      "rewards/accuracy_reward_staging": 1.1121875122189522,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.984375,
      "step": 129
    },
    {
      "epoch": 129.8,
      "grad_norm": 1.330165854405246,
      "learning_rate": 1.7071067811865474e-06,
      "loss": 0.0375,
      "step": 130
    },
    {
      "epoch": 129.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 637.2125,
      "eval_kl": 0.1220947265625,
      "eval_loss": 0.0286346934735775,
      "eval_reward": 14.201250052452087,
      "eval_reward_std": 5.366847103834152,
      "eval_rewards/accuracy_reward_staging": 1.2251250058412553,
      "eval_rewards/format_reward": 0.9625,
      "eval_rewards/format_reward_staging": 0.9875,
      "eval_runtime": 144.6284,
      "eval_samples_per_second": 0.138,
      "eval_steps_per_second": 0.035,
      "step": 130
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 584.5859375,
      "epoch": 130.8,
      "grad_norm": 1.307152401229373,
      "kl": 0.1373443603515625,
      "learning_rate": 1.7009092642998508e-06,
      "loss": -0.0099,
      "reward": 13.771875083446503,
      "reward_std": 5.035757407546043,
      "rewards/accuracy_reward_staging": 1.1803125254809856,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 131
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 645.203125,
      "epoch": 131.8,
      "grad_norm": 1.2708814145835345,
      "kl": 0.129486083984375,
      "learning_rate": 1.6946583704589972e-06,
      "loss": 0.0643,
      "reward": 12.623437643051147,
      "reward_std": 5.542073376476765,
      "rewards/accuracy_reward_staging": 1.0654687564820051,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.96875,
      "step": 132
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 600.453125,
      "epoch": 132.8,
      "grad_norm": 1.293321609591619,
      "kl": 0.135955810546875,
      "learning_rate": 1.6883545756937537e-06,
      "loss": -0.0023,
      "reward": 13.604687690734863,
      "reward_std": 5.285826697945595,
      "rewards/accuracy_reward_staging": 1.163593776524067,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 133
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.75,
      "epoch": 133.8,
      "grad_norm": 1.25404998096487,
      "kl": 0.123260498046875,
      "learning_rate": 1.6819983600624985e-06,
      "loss": -0.0007,
      "reward": 13.665625005960464,
      "reward_std": 5.407533464720473,
      "rewards/accuracy_reward_staging": 1.1743750125169754,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.96875,
      "step": 134
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 543.90625,
      "epoch": 134.8,
      "grad_norm": 1.4502660038061592,
      "kl": 0.146087646484375,
      "learning_rate": 1.6755902076156602e-06,
      "loss": 0.0388,
      "reward": 13.443750143051147,
      "reward_std": 6.642620116472244,
      "rewards/accuracy_reward_staging": 1.1490625031292439,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.96875,
      "step": 135
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 652.296875,
      "epoch": 135.8,
      "grad_norm": 1.2487523655371195,
      "kl": 0.114105224609375,
      "learning_rate": 1.669130606358858e-06,
      "loss": 0.0277,
      "reward": 14.48281255364418,
      "reward_std": 5.782497301697731,
      "rewards/accuracy_reward_staging": 1.2576562836766243,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.9375,
      "step": 136
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 624.75,
      "epoch": 136.8,
      "grad_norm": 1.3402764758528873,
      "kl": 0.133087158203125,
      "learning_rate": 1.6626200482157374e-06,
      "loss": 0.0515,
      "reward": 12.865624994039536,
      "reward_std": 4.773457303643227,
      "rewards/accuracy_reward_staging": 1.0959375277161598,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.953125,
      "step": 137
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.875,
      "epoch": 137.8,
      "grad_norm": 1.2528044000047398,
      "kl": 0.121673583984375,
      "learning_rate": 1.6560590289905071e-06,
      "loss": 0.0046,
      "reward": 14.821875035762787,
      "reward_std": 5.201211467385292,
      "rewards/accuracy_reward_staging": 1.2837499883025885,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 0.984375,
      "step": 138
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 611.15625,
      "epoch": 138.8,
      "grad_norm": 1.6131227618811717,
      "kl": 0.118804931640625,
      "learning_rate": 1.6494480483301835e-06,
      "loss": 0.0186,
      "reward": 14.048437416553497,
      "reward_std": 4.07040748000145,
      "rewards/accuracy_reward_staging": 1.2157812491059303,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.96875,
      "step": 139
    },
    {
      "epoch": 139.8,
      "grad_norm": 1.348569648877767,
      "learning_rate": 1.6427876096865393e-06,
      "loss": 0.0477,
      "step": 140
    },
    {
      "epoch": 139.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 630.375,
      "eval_kl": 0.135888671875,
      "eval_loss": 0.021134015172719955,
      "eval_reward": 13.206250190734863,
      "eval_reward_std": 4.864674496650696,
      "eval_rewards/accuracy_reward_staging": 1.1293750241398812,
      "eval_rewards/format_reward": 0.95,
      "eval_rewards/format_reward_staging": 0.9625,
      "eval_runtime": 154.772,
      "eval_samples_per_second": 0.129,
      "eval_steps_per_second": 0.032,
      "step": 140
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 667.46875,
      "epoch": 140.8,
      "grad_norm": 1.3550397685799231,
      "kl": 0.1424407958984375,
      "learning_rate": 1.6360782202777638e-06,
      "loss": 0.022,
      "reward": 13.272656485438347,
      "reward_std": 5.271991036832333,
      "rewards/accuracy_reward_staging": 1.135859395377338,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.9765625,
      "step": 141
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.15625,
      "epoch": 141.8,
      "grad_norm": 1.274351995849414,
      "kl": 0.1263427734375,
      "learning_rate": 1.6293203910498375e-06,
      "loss": 0.0166,
      "reward": 13.015625029802322,
      "reward_std": 5.490728512406349,
      "rewards/accuracy_reward_staging": 1.1062499918043613,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 1.0,
      "step": 142
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.9375,
      "epoch": 142.8,
      "grad_norm": 1.4551759286658215,
      "kl": 0.131011962890625,
      "learning_rate": 1.6225146366376196e-06,
      "loss": 0.0763,
      "reward": 13.957812488079071,
      "reward_std": 5.092830486595631,
      "rewards/accuracy_reward_staging": 1.2004687525331974,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 143
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.640625,
      "epoch": 143.8,
      "grad_norm": 1.246097895354405,
      "kl": 0.108062744140625,
      "learning_rate": 1.615661475325658e-06,
      "loss": 0.0785,
      "reward": 13.190625131130219,
      "reward_std": 4.567478813230991,
      "rewards/accuracy_reward_staging": 1.1268750242888927,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.953125,
      "step": 144
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 641.4375,
      "epoch": 144.8,
      "grad_norm": 1.3492898310297994,
      "kl": 0.137298583984375,
      "learning_rate": 1.6087614290087205e-06,
      "loss": 0.0778,
      "reward": 13.187500149011612,
      "reward_std": 5.05699796974659,
      "rewards/accuracy_reward_staging": 1.1281250044703484,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.984375,
      "step": 145
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.421875,
      "epoch": 145.8,
      "grad_norm": 1.2389330703315027,
      "kl": 0.11785888671875,
      "learning_rate": 1.6018150231520484e-06,
      "loss": -0.0105,
      "reward": 13.951562494039536,
      "reward_std": 4.975374720990658,
      "rewards/accuracy_reward_staging": 1.1951562650501728,
      "rewards/format_reward": 1.0,
      "rewards/format_reward_staging": 1.0,
      "step": 146
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 628.953125,
      "epoch": 146.8,
      "grad_norm": 1.1484661979759183,
      "kl": 0.10455322265625,
      "learning_rate": 1.5948227867513413e-06,
      "loss": 0.0083,
      "reward": 13.078125178813934,
      "reward_std": 4.869858503341675,
      "rewards/accuracy_reward_staging": 1.117187526077032,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 147
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 644.734375,
      "epoch": 147.8,
      "grad_norm": 3.8787328503041603,
      "kl": 0.148834228515625,
      "learning_rate": 1.587785252292473e-06,
      "loss": 0.0525,
      "reward": 12.510937660932541,
      "reward_std": 5.20218176394701,
      "rewards/accuracy_reward_staging": 1.0557812713086605,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.984375,
      "step": 148
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.6875,
      "epoch": 148.8,
      "grad_norm": 1.2193760476315514,
      "kl": 0.125579833984375,
      "learning_rate": 1.5807029557109397e-06,
      "loss": 0.0084,
      "reward": 13.721875101327896,
      "reward_std": 5.613097697496414,
      "rewards/accuracy_reward_staging": 1.180000003427267,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.96875,
      "step": 149
    },
    {
      "epoch": 149.8,
      "grad_norm": 1.3382966777749914,
      "learning_rate": 1.573576436351046e-06,
      "loss": 0.0283,
      "step": 150
    },
    {
      "epoch": 149.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 617.3625,
      "eval_kl": 0.1303466796875,
      "eval_loss": 0.013808819465339184,
      "eval_reward": 13.037500023841858,
      "eval_reward_std": 4.972468680143356,
      "eval_rewards/accuracy_reward_staging": 1.1087500318884849,
      "eval_rewards/format_reward": 0.9625,
      "eval_rewards/format_reward_staging": 0.9875,
      "eval_runtime": 145.0293,
      "eval_samples_per_second": 0.138,
      "eval_steps_per_second": 0.034,
      "step": 150
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 587.78125,
      "epoch": 150.8,
      "grad_norm": 1.288894243312563,
      "kl": 0.124786376953125,
      "learning_rate": 1.5664062369248328e-06,
      "loss": 0.0259,
      "reward": 14.903124868869781,
      "reward_std": 6.114742249250412,
      "rewards/accuracy_reward_staging": 1.2934375274926424,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 1.0,
      "step": 151
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.6875,
      "epoch": 151.8,
      "grad_norm": 1.3773815626279793,
      "kl": 0.126007080078125,
      "learning_rate": 1.5591929034707466e-06,
      "loss": 0.0712,
      "reward": 14.687500357627869,
      "reward_std": 5.71131344884634,
      "rewards/accuracy_reward_staging": 1.273437511175871,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.96875,
      "step": 152
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.921875,
      "epoch": 152.8,
      "grad_norm": 1.4485533003534696,
      "kl": 0.135894775390625,
      "learning_rate": 1.551936985312058e-06,
      "loss": 0.0497,
      "reward": 15.312499761581421,
      "reward_std": 4.291183479130268,
      "rewards/accuracy_reward_staging": 1.3562500244006515,
      "rewards/format_reward": 0.828125,
      "rewards/format_reward_staging": 0.921875,
      "step": 153
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 652.75,
      "epoch": 153.8,
      "grad_norm": 1.283755345470008,
      "kl": 0.14154052734375,
      "learning_rate": 1.544639035015027e-06,
      "loss": 0.0349,
      "reward": 13.10937511920929,
      "reward_std": 5.929120138287544,
      "rewards/accuracy_reward_staging": 1.1281250044703484,
      "rewards/format_reward": 0.859375,
      "rewards/format_reward_staging": 0.96875,
      "step": 154
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 579.21875,
      "epoch": 154.8,
      "grad_norm": 4.3223327812781625,
      "kl": 0.21929931640625,
      "learning_rate": 1.537299608346824e-06,
      "loss": 0.0015,
      "reward": 16.134375244379044,
      "reward_std": 5.386517338454723,
      "rewards/accuracy_reward_staging": 1.4243750181049109,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.96875,
      "step": 155
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 616.15625,
      "epoch": 155.8,
      "grad_norm": 1.600841914035174,
      "kl": 0.154449462890625,
      "learning_rate": 1.5299192642332049e-06,
      "loss": 0.0289,
      "reward": 14.656250029802322,
      "reward_std": 5.294310428202152,
      "rewards/accuracy_reward_staging": 1.2781250141561031,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.984375,
      "step": 156
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 589.578125,
      "epoch": 156.8,
      "grad_norm": 1.4513044601818303,
      "kl": 0.16229248046875,
      "learning_rate": 1.5224985647159488e-06,
      "loss": 0.0441,
      "reward": 14.590624958276749,
      "reward_std": 5.033867612481117,
      "rewards/accuracy_reward_staging": 1.273124998435378,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.9375,
      "step": 157
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 599.515625,
      "epoch": 157.8,
      "grad_norm": 1.3153063149563227,
      "kl": 0.148529052734375,
      "learning_rate": 1.5150380749100543e-06,
      "loss": 0.0618,
      "reward": 15.898437559604645,
      "reward_std": 4.4645668268203735,
      "rewards/accuracy_reward_staging": 1.4023437574505806,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.96875,
      "step": 158
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.359375,
      "epoch": 158.8,
      "grad_norm": 8.479997272303532,
      "kl": 0.165130615234375,
      "learning_rate": 1.5075383629607041e-06,
      "loss": 0.0777,
      "reward": 13.142187595367432,
      "reward_std": 5.132370471954346,
      "rewards/accuracy_reward_staging": 1.132968744263053,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.90625,
      "step": 159
    },
    {
      "epoch": 159.8,
      "grad_norm": 1.1917014388947642,
      "learning_rate": 1.5e-06,
      "loss": -0.0404,
      "step": 160
    },
    {
      "epoch": 159.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 638.1625,
      "eval_kl": 0.14365234375,
      "eval_loss": 0.08888934552669525,
      "eval_reward": 14.796250009536744,
      "eval_reward_std": 5.661263364553451,
      "eval_rewards/accuracy_reward_staging": 1.295874996483326,
      "eval_rewards/format_reward": 0.9,
      "eval_rewards/format_reward_staging": 0.9375,
      "eval_runtime": 146.8527,
      "eval_samples_per_second": 0.136,
      "eval_steps_per_second": 0.034,
      "step": 160
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 651.7421875,
      "epoch": 160.8,
      "grad_norm": 1.2387655968511657,
      "kl": 0.1446075439453125,
      "learning_rate": 1.4924235601034672e-06,
      "loss": 0.0701,
      "reward": 15.571094110608101,
      "reward_std": 5.18467765673995,
      "rewards/accuracy_reward_staging": 1.3766406429931521,
      "rewards/format_reward": 0.84375,
      "rewards/format_reward_staging": 0.9609375,
      "step": 161
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 600.4375,
      "epoch": 161.8,
      "grad_norm": 1.229465314986415,
      "kl": 0.13531494140625,
      "learning_rate": 1.4848096202463372e-06,
      "loss": -0.0057,
      "reward": 16.17187523841858,
      "reward_std": 4.812445372343063,
      "rewards/accuracy_reward_staging": 1.4234375022351742,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 1.0,
      "step": 162
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 582.125,
      "epoch": 162.8,
      "grad_norm": 1.3529028258154412,
      "kl": 0.1470947265625,
      "learning_rate": 1.4771587602596083e-06,
      "loss": 0.0891,
      "reward": 15.801562637090683,
      "reward_std": 4.80203927308321,
      "rewards/accuracy_reward_staging": 1.392656246200204,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.96875,
      "step": 163
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 611.609375,
      "epoch": 163.8,
      "grad_norm": 1.4068895541908286,
      "kl": 0.15350341796875,
      "learning_rate": 1.4694715627858908e-06,
      "loss": 0.0591,
      "reward": 14.951562643051147,
      "reward_std": 5.22976279258728,
      "rewards/accuracy_reward_staging": 1.3045312520116568,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 164
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 609.671875,
      "epoch": 164.8,
      "grad_norm": 1.2658845630248547,
      "kl": 0.1463623046875,
      "learning_rate": 1.461748613235034e-06,
      "loss": 0.0266,
      "reward": 14.03125,
      "reward_std": 5.7937397211790085,
      "rewards/accuracy_reward_staging": 1.215625025331974,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.953125,
      "step": 165
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 589.875,
      "epoch": 165.8,
      "grad_norm": 1.3344028785966706,
      "kl": 0.1558837890625,
      "learning_rate": 1.4539904997395467e-06,
      "loss": 0.0711,
      "reward": 15.390625029802322,
      "reward_std": 4.8061781376600266,
      "rewards/accuracy_reward_staging": 1.3515625335276127,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.984375,
      "step": 166
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.0625,
      "epoch": 166.8,
      "grad_norm": 1.6122384935377623,
      "kl": 0.178619384765625,
      "learning_rate": 1.4461978131098087e-06,
      "loss": 0.0224,
      "reward": 12.757812649011612,
      "reward_std": 5.976896375417709,
      "rewards/accuracy_reward_staging": 1.0867187604308128,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.96875,
      "step": 167
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 555.21875,
      "epoch": 167.8,
      "grad_norm": 1.3011797765950504,
      "kl": 0.15509033203125,
      "learning_rate": 1.4383711467890773e-06,
      "loss": -0.0096,
      "reward": 16.72499978542328,
      "reward_std": 4.908542029559612,
      "rewards/accuracy_reward_staging": 1.4756250157952309,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.984375,
      "step": 168
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 619.546875,
      "epoch": 168.8,
      "grad_norm": 1.71128104516776,
      "kl": 0.15618896484375,
      "learning_rate": 1.430511096808295e-06,
      "loss": 0.1091,
      "reward": 15.999999672174454,
      "reward_std": 4.338721185922623,
      "rewards/accuracy_reward_staging": 1.4124999977648258,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.96875,
      "step": 169
    },
    {
      "epoch": 169.8,
      "grad_norm": 1.406915756546695,
      "learning_rate": 1.4226182617406994e-06,
      "loss": 0.0365,
      "step": 170
    },
    {
      "epoch": 169.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 599.3375,
      "eval_kl": 0.1652587890625,
      "eval_loss": 0.05737342685461044,
      "eval_reward": 15.347499918937682,
      "eval_reward_std": 5.264538067579269,
      "eval_rewards/accuracy_reward_staging": 1.346000000834465,
      "eval_rewards/format_reward": 0.925,
      "eval_rewards/format_reward_staging": 0.9625,
      "eval_runtime": 128.6979,
      "eval_samples_per_second": 0.155,
      "eval_steps_per_second": 0.039,
      "step": 170
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 607.75,
      "epoch": 170.8,
      "grad_norm": 1.4282138543951368,
      "kl": 0.17828369140625,
      "learning_rate": 1.414693242656239e-06,
      "loss": -0.0169,
      "reward": 15.774218946695328,
      "reward_std": 5.630698639899492,
      "rewards/accuracy_reward_staging": 1.3899218812584877,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.953125,
      "step": 171
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 597.484375,
      "epoch": 171.8,
      "grad_norm": 2.842026235946327,
      "kl": 0.22344970703125,
      "learning_rate": 1.4067366430758004e-06,
      "loss": 0.0117,
      "reward": 13.404687702655792,
      "reward_std": 5.611785896122456,
      "rewards/accuracy_reward_staging": 1.1482812836766243,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.953125,
      "step": 172
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 593.34375,
      "epoch": 172.8,
      "grad_norm": 1.355496874052129,
      "kl": 0.178131103515625,
      "learning_rate": 1.3987490689252462e-06,
      "loss": 0.0242,
      "reward": 15.953125089406967,
      "reward_std": 4.999604664742947,
      "rewards/accuracy_reward_staging": 1.403124986216426,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 1.0,
      "step": 173
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 636.546875,
      "epoch": 173.8,
      "grad_norm": 1.2708001429966154,
      "kl": 0.1480712890625,
      "learning_rate": 1.3907311284892735e-06,
      "loss": 0.0781,
      "reward": 16.860937863588333,
      "reward_std": 5.687329366803169,
      "rewards/accuracy_reward_staging": 1.4970312751829624,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.96875,
      "step": 174
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 629.34375,
      "epoch": 174.8,
      "grad_norm": 1.2881497238833757,
      "kl": 0.184661865234375,
      "learning_rate": 1.3826834323650898e-06,
      "loss": 0.0465,
      "reward": 14.581250131130219,
      "reward_std": 5.882216438651085,
      "rewards/accuracy_reward_staging": 1.2831250075250864,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.875,
      "step": 175
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 636.1875,
      "epoch": 175.8,
      "grad_norm": 1.3087334876201022,
      "kl": 0.180084228515625,
      "learning_rate": 1.374606593415912e-06,
      "loss": 0.0515,
      "reward": 15.878125071525574,
      "reward_std": 5.341188468039036,
      "rewards/accuracy_reward_staging": 1.4081249758601189,
      "rewards/format_reward": 0.859375,
      "rewards/format_reward_staging": 0.9375,
      "step": 176
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 620.109375,
      "epoch": 176.8,
      "grad_norm": 1.4376210080253358,
      "kl": 0.1929931640625,
      "learning_rate": 1.3665012267242972e-06,
      "loss": 0.0086,
      "reward": 13.495312541723251,
      "reward_std": 5.61242138594389,
      "rewards/accuracy_reward_staging": 1.1635937709361315,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.9375,
      "step": 177
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.03125,
      "epoch": 177.8,
      "grad_norm": 1772489.589709048,
      "kl": 7520.199645996094,
      "learning_rate": 1.3583679495453e-06,
      "loss": 413.327,
      "reward": 14.464062601327896,
      "reward_std": 6.149559870362282,
      "rewards/accuracy_reward_staging": 1.2729687709361315,
      "rewards/format_reward": 0.859375,
      "rewards/format_reward_staging": 0.875,
      "step": 178
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.34375,
      "epoch": 178.8,
      "grad_norm": 1.2715649881539406,
      "kl": 0.173065185546875,
      "learning_rate": 1.3502073812594674e-06,
      "loss": -0.0255,
      "reward": 16.45468744635582,
      "reward_std": 5.025842607021332,
      "rewards/accuracy_reward_staging": 1.4610937684774399,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.96875,
      "step": 179
    },
    {
      "epoch": 179.8,
      "grad_norm": 1.3470338291497799,
      "learning_rate": 1.3420201433256689e-06,
      "loss": 0.0132,
      "step": 180
    },
    {
      "epoch": 179.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 644.8375,
      "eval_kl": 0.1693603515625,
      "eval_loss": 0.07019542157649994,
      "eval_reward": 15.515000081062317,
      "eval_reward_std": 4.510845869779587,
      "eval_rewards/accuracy_reward_staging": 1.3702499970793725,
      "eval_rewards/format_reward": 0.8625,
      "eval_rewards/format_reward_staging": 0.95,
      "eval_runtime": 140.9488,
      "eval_samples_per_second": 0.142,
      "eval_steps_per_second": 0.035,
      "step": 180
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 602.9765625,
      "epoch": 180.8,
      "grad_norm": 1.3491479753013993,
      "kl": 0.183990478515625,
      "learning_rate": 1.3338068592337708e-06,
      "loss": 0.0611,
      "reward": 15.047656297683716,
      "reward_std": 5.386000510305166,
      "rewards/accuracy_reward_staging": 1.3149218782782555,
      "rewards/format_reward": 0.9453125,
      "rewards/format_reward_staging": 0.953125,
      "step": 181
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 595.71875,
      "epoch": 181.8,
      "grad_norm": 1.3770681193765026,
      "kl": 0.19049072265625,
      "learning_rate": 1.3255681544571566e-06,
      "loss": 0.0247,
      "reward": 15.55312505364418,
      "reward_std": 5.63801646232605,
      "rewards/accuracy_reward_staging": 1.3615624941885471,
      "rewards/format_reward": 0.953125,
      "rewards/format_reward_staging": 0.984375,
      "step": 182
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 615.59375,
      "epoch": 182.8,
      "grad_norm": 1.4258618367759082,
      "kl": 0.18341064453125,
      "learning_rate": 1.3173046564050923e-06,
      "loss": 0.0382,
      "reward": 15.492187589406967,
      "reward_std": 5.1280196234583855,
      "rewards/accuracy_reward_staging": 1.3664062581956387,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.9375,
      "step": 183
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 657.21875,
      "epoch": 183.8,
      "grad_norm": 1.4496706627719373,
      "kl": 0.2099609375,
      "learning_rate": 1.3090169943749473e-06,
      "loss": -0.0093,
      "reward": 15.481249988079071,
      "reward_std": 4.195666573941708,
      "rewards/accuracy_reward_staging": 1.360624998807907,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.96875,
      "step": 184
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 643.625,
      "epoch": 184.8,
      "grad_norm": 12.416744832467893,
      "kl": 0.35125732421875,
      "learning_rate": 1.3007057995042729e-06,
      "loss": 0.0552,
      "reward": 16.317187398672104,
      "reward_std": 5.490992607548833,
      "rewards/accuracy_reward_staging": 1.4489062502980232,
      "rewards/format_reward": 0.859375,
      "rewards/format_reward_staging": 0.96875,
      "step": 185
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 623.515625,
      "epoch": 185.8,
      "grad_norm": 1.3589509266087427,
      "kl": 0.20068359375,
      "learning_rate": 1.2923717047227368e-06,
      "loss": 0.0935,
      "reward": 13.135937482118607,
      "reward_std": 5.502887517213821,
      "rewards/accuracy_reward_staging": 1.1276562362909317,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.953125,
      "step": 186
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.5625,
      "epoch": 186.8,
      "grad_norm": 5.614254453009779,
      "kl": 0.2403564453125,
      "learning_rate": 1.2840153447039228e-06,
      "loss": 0.0561,
      "reward": 14.834374755620956,
      "reward_std": 6.0779377073049545,
      "rewards/accuracy_reward_staging": 1.2990624997764826,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.953125,
      "step": 187
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 636.03125,
      "epoch": 187.8,
      "grad_norm": 1.3627377674239467,
      "kl": 0.1864013671875,
      "learning_rate": 1.275637355816999e-06,
      "loss": 0.078,
      "reward": 13.956250250339508,
      "reward_std": 5.885370120406151,
      "rewards/accuracy_reward_staging": 1.2112500164657831,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.921875,
      "step": 188
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 605.875,
      "epoch": 188.8,
      "grad_norm": 1.4102127840998477,
      "kl": 0.1846923828125,
      "learning_rate": 1.2672383760782567e-06,
      "loss": 0.0346,
      "reward": 14.612500011920929,
      "reward_std": 6.431307382881641,
      "rewards/accuracy_reward_staging": 1.2737499997019768,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.953125,
      "step": 189
    },
    {
      "epoch": 189.8,
      "grad_norm": 1.2657153918632975,
      "learning_rate": 1.2588190451025207e-06,
      "loss": 0.0905,
      "step": 190
    },
    {
      "epoch": 189.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 639.3875,
      "eval_kl": 0.183544921875,
      "eval_loss": 0.09273408353328705,
      "eval_reward": 14.913750052452087,
      "eval_reward_std": 4.527625149488449,
      "eval_rewards/accuracy_reward_staging": 1.312625017762184,
      "eval_rewards/format_reward": 0.875,
      "eval_rewards/format_reward_staging": 0.9125,
      "eval_runtime": 149.5357,
      "eval_samples_per_second": 0.134,
      "eval_steps_per_second": 0.033,
      "step": 190
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 637.03125,
      "epoch": 190.8,
      "grad_norm": 1.5561907060681732,
      "kl": 0.20361328125,
      "learning_rate": 1.2503800040544414e-06,
      "loss": 0.027,
      "reward": 13.858593851327896,
      "reward_std": 5.260060213506222,
      "rewards/accuracy_reward_staging": 1.199921895749867,
      "rewards/format_reward": 0.9140625,
      "rewards/format_reward_staging": 0.9453125,
      "step": 191
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.578125,
      "epoch": 191.8,
      "grad_norm": 1.4112962880914386,
      "kl": 0.173828125,
      "learning_rate": 1.2419218955996676e-06,
      "loss": 0.0162,
      "reward": 15.854687571525574,
      "reward_std": 4.764394700527191,
      "rewards/accuracy_reward_staging": 1.3979687802493572,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.96875,
      "step": 192
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 628.078125,
      "epoch": 192.8,
      "grad_norm": 1.329564996171061,
      "kl": 0.178253173828125,
      "learning_rate": 1.2334453638559054e-06,
      "loss": 0.0255,
      "reward": 13.543750017881393,
      "reward_std": 5.472193785011768,
      "rewards/accuracy_reward_staging": 1.168437510728836,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.9375,
      "step": 193
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 657.796875,
      "epoch": 193.8,
      "grad_norm": 1.8007713245581922,
      "kl": 0.198944091796875,
      "learning_rate": 1.2249510543438651e-06,
      "loss": 0.0516,
      "reward": 14.325000017881393,
      "reward_std": 4.515300907194614,
      "rewards/accuracy_reward_staging": 1.2465624995529652,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.953125,
      "step": 194
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 623.984375,
      "epoch": 194.8,
      "grad_norm": 1.2974682020385033,
      "kl": 0.1806640625,
      "learning_rate": 1.2164396139381029e-06,
      "loss": 0.0383,
      "reward": 14.945312559604645,
      "reward_std": 5.147151567041874,
      "rewards/accuracy_reward_staging": 1.308593761175871,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.9375,
      "step": 195
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.5625,
      "epoch": 195.8,
      "grad_norm": 1.260278322445417,
      "kl": 0.18658447265625,
      "learning_rate": 1.207911690817759e-06,
      "loss": 0.0477,
      "reward": 14.231250047683716,
      "reward_std": 5.530913561582565,
      "rewards/accuracy_reward_staging": 1.2418750207871199,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.9375,
      "step": 196
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.90625,
      "epoch": 196.8,
      "grad_norm": 1.3096099803251504,
      "kl": 0.1900634765625,
      "learning_rate": 1.1993679344171972e-06,
      "loss": 0.0251,
      "reward": 15.50156244635582,
      "reward_std": 5.51077751070261,
      "rewards/accuracy_reward_staging": 1.3610937595367432,
      "rewards/format_reward": 0.96875,
      "rewards/format_reward_staging": 0.921875,
      "step": 197
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 605.453125,
      "epoch": 197.8,
      "grad_norm": 1.3586492398815606,
      "kl": 0.189208984375,
      "learning_rate": 1.1908089953765447e-06,
      "loss": 0.0523,
      "reward": 13.85781279206276,
      "reward_std": 4.988245405256748,
      "rewards/accuracy_reward_staging": 1.1998437773436308,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.953125,
      "step": 198
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 635.609375,
      "epoch": 198.8,
      "grad_norm": 1.340689220119322,
      "kl": 0.17425537109375,
      "learning_rate": 1.1822355254921476e-06,
      "loss": 0.042,
      "reward": 15.098437517881393,
      "reward_std": 4.625658318400383,
      "rewards/accuracy_reward_staging": 1.3145312629640102,
      "rewards/format_reward": 0.984375,
      "rewards/format_reward_staging": 0.96875,
      "step": 199
    },
    {
      "epoch": 199.8,
      "grad_norm": 1.38676313511267,
      "learning_rate": 1.1736481776669305e-06,
      "loss": 0.0078,
      "step": 200
    },
    {
      "epoch": 199.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 617.9625,
      "eval_kl": 0.227685546875,
      "eval_loss": -0.011267063207924366,
      "eval_reward": 15.479999876022339,
      "eval_reward_std": 5.917063271999359,
      "eval_rewards/accuracy_reward_staging": 1.358000010251999,
      "eval_rewards/format_reward": 0.95,
      "eval_rewards/format_reward_staging": 0.95,
      "eval_runtime": 140.7854,
      "eval_samples_per_second": 0.142,
      "eval_steps_per_second": 0.036,
      "step": 200
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 619.3828125,
      "epoch": 200.8,
      "grad_norm": 1.2618291004150899,
      "kl": 0.187408447265625,
      "learning_rate": 1.1650476058606774e-06,
      "loss": 0.0638,
      "reward": 14.914843901991844,
      "reward_std": 5.3753106370568275,
      "rewards/accuracy_reward_staging": 1.3063281308859587,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.9609375,
      "step": 201
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 661.421875,
      "epoch": 201.8,
      "grad_norm": 1.3037648155909478,
      "kl": 0.1773681640625,
      "learning_rate": 1.156434465040231e-06,
      "loss": 0.089,
      "reward": 14.482812568545341,
      "reward_std": 5.621522009372711,
      "rewards/accuracy_reward_staging": 1.263906242325902,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.90625,
      "step": 202
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 634.109375,
      "epoch": 202.8,
      "grad_norm": 7.276649221582544,
      "kl": 0.24066162109375,
      "learning_rate": 1.1478094111296109e-06,
      "loss": 0.0672,
      "reward": 14.378125011920929,
      "reward_std": 5.686573512852192,
      "rewards/accuracy_reward_staging": 1.2518749982118607,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.953125,
      "step": 203
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 630.71875,
      "epoch": 203.8,
      "grad_norm": 1.231495456965766,
      "kl": 0.2060546875,
      "learning_rate": 1.1391731009600653e-06,
      "loss": 0.1112,
      "reward": 14.843750059604645,
      "reward_std": 4.25174543261528,
      "rewards/accuracy_reward_staging": 1.298437513411045,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.953125,
      "step": 204
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 692.5625,
      "epoch": 204.8,
      "grad_norm": 1.350931922850144,
      "kl": 0.224212646484375,
      "learning_rate": 1.1305261922200517e-06,
      "loss": 0.0238,
      "reward": 15.984374910593033,
      "reward_std": 5.367278844118118,
      "rewards/accuracy_reward_staging": 1.4234375320374966,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.9375,
      "step": 205
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 690.828125,
      "epoch": 205.8,
      "grad_norm": 1.318954712841193,
      "kl": 0.19384765625,
      "learning_rate": 1.1218693434051474e-06,
      "loss": 0.0885,
      "reward": 16.017187118530273,
      "reward_std": 5.8362889885902405,
      "rewards/accuracy_reward_staging": 1.41890624538064,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.921875,
      "step": 206
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 632.796875,
      "epoch": 206.8,
      "grad_norm": 1.4124473460728744,
      "kl": 0.241455078125,
      "learning_rate": 1.1132032137679068e-06,
      "loss": 0.0533,
      "reward": 16.976562440395355,
      "reward_std": 5.929606184363365,
      "rewards/accuracy_reward_staging": 1.5070312470197678,
      "rewards/format_reward": 0.9375,
      "rewards/format_reward_staging": 0.96875,
      "step": 207
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 646.421875,
      "epoch": 207.8,
      "grad_norm": 1.6773375733949765,
      "kl": 0.25189208984375,
      "learning_rate": 1.1045284632676535e-06,
      "loss": 0.0348,
      "reward": 14.135937511920929,
      "reward_std": 4.714122384786606,
      "rewards/accuracy_reward_staging": 1.2307812497019768,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.9375,
      "step": 208
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.140625,
      "epoch": 208.8,
      "grad_norm": 1.4348854069875467,
      "kl": 0.22174072265625,
      "learning_rate": 1.095845752520224e-06,
      "loss": 0.0495,
      "reward": 14.285937666893005,
      "reward_std": 5.9770321398973465,
      "rewards/accuracy_reward_staging": 1.2473437581211329,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.890625,
      "step": 209
    },
    {
      "epoch": 209.8,
      "grad_norm": 1.1605399733788089,
      "learning_rate": 1.0871557427476583e-06,
      "loss": 0.0552,
      "step": 210
    },
    {
      "epoch": 209.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 655.7875,
      "eval_kl": 0.201123046875,
      "eval_loss": -0.0035779415629804134,
      "eval_reward": 16.239999866485597,
      "eval_reward_std": 4.2823482871055605,
      "eval_rewards/accuracy_reward_staging": 1.4415000066161157,
      "eval_rewards/format_reward": 0.9,
      "eval_rewards/format_reward_staging": 0.925,
      "eval_runtime": 142.3261,
      "eval_samples_per_second": 0.141,
      "eval_steps_per_second": 0.035,
      "step": 210
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 646.625,
      "epoch": 210.8,
      "grad_norm": 1.3085478801780013,
      "kl": 0.21307373046875,
      "learning_rate": 1.078459095727845e-06,
      "loss": 0.0801,
      "reward": 14.151562541723251,
      "reward_std": 4.665051084011793,
      "rewards/accuracy_reward_staging": 1.2393749924376607,
      "rewards/format_reward": 0.84375,
      "rewards/format_reward_staging": 0.9140625,
      "step": 211
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 627.609375,
      "epoch": 211.8,
      "grad_norm": 1.3675217879957127,
      "kl": 0.22113037109375,
      "learning_rate": 1.069756473744125e-06,
      "loss": 0.0458,
      "reward": 15.82500010728836,
      "reward_std": 5.255921743810177,
      "rewards/accuracy_reward_staging": 1.4075000062584877,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.9375,
      "step": 212
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.390625,
      "epoch": 212.8,
      "grad_norm": 1.380807253404178,
      "kl": 0.20758056640625,
      "learning_rate": 1.061048539534857e-06,
      "loss": 0.0209,
      "reward": 15.371874898672104,
      "reward_std": 6.567200765013695,
      "rewards/accuracy_reward_staging": 1.3559375293552876,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.921875,
      "step": 213
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 620.953125,
      "epoch": 213.8,
      "grad_norm": 1.3902160353507123,
      "kl": 0.21124267578125,
      "learning_rate": 1.052335956242944e-06,
      "loss": 0.0436,
      "reward": 15.621874839067459,
      "reward_std": 5.122038297355175,
      "rewards/accuracy_reward_staging": 1.382499996572733,
      "rewards/format_reward": 0.84375,
      "rewards/format_reward_staging": 0.953125,
      "step": 214
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 655.359375,
      "epoch": 214.8,
      "grad_norm": 1.3806424551742382,
      "kl": 0.22705078125,
      "learning_rate": 1.043619387365336e-06,
      "loss": -0.0022,
      "reward": 13.870312362909317,
      "reward_std": 5.269171215593815,
      "rewards/accuracy_reward_staging": 1.2057812418788671,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.90625,
      "step": 215
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 655.09375,
      "epoch": 215.8,
      "grad_norm": 2.656219707386371,
      "kl": 0.2349853515625,
      "learning_rate": 1.034899496702501e-06,
      "loss": 0.0562,
      "reward": 14.140625029802322,
      "reward_std": 5.58522791415453,
      "rewards/accuracy_reward_staging": 1.2312500067055225,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.9375,
      "step": 216
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 622.8125,
      "epoch": 216.8,
      "grad_norm": 1.5209208648591772,
      "kl": 0.20660400390625,
      "learning_rate": 1.0261769483078732e-06,
      "loss": 0.0816,
      "reward": 14.775000303983688,
      "reward_std": 4.954350218176842,
      "rewards/accuracy_reward_staging": 1.2931250091642141,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.96875,
      "step": 217
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 650.234375,
      "epoch": 217.8,
      "grad_norm": 1.55208660193829,
      "kl": 0.210693359375,
      "learning_rate": 1.0174524064372837e-06,
      "loss": 0.0744,
      "reward": 14.27812522649765,
      "reward_std": 4.545742444694042,
      "rewards/accuracy_reward_staging": 1.2575000151991844,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.921875,
      "step": 218
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 617.234375,
      "epoch": 218.8,
      "grad_norm": 1.3928599706734481,
      "kl": 0.20306396484375,
      "learning_rate": 1.0087265354983738e-06,
      "loss": 0.0865,
      "reward": 14.462500095367432,
      "reward_std": 5.321807600557804,
      "rewards/accuracy_reward_staging": 1.2571874894201756,
      "rewards/format_reward": 0.90625,
      "rewards/format_reward_staging": 0.984375,
      "step": 219
    },
    {
      "epoch": 219.8,
      "grad_norm": 1.5191361705497182,
      "learning_rate": 1e-06,
      "loss": 0.0929,
      "step": 220
    },
    {
      "epoch": 219.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 621.85,
      "eval_kl": 0.18828125,
      "eval_loss": 0.07175321877002716,
      "eval_reward": 15.787499904632568,
      "eval_reward_std": 4.991747093200684,
      "eval_rewards/accuracy_reward_staging": 1.39125002771616,
      "eval_rewards/format_reward": 0.925,
      "eval_rewards/format_reward_staging": 0.95,
      "eval_runtime": 143.7256,
      "eval_samples_per_second": 0.139,
      "eval_steps_per_second": 0.035,
      "step": 220
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.6953125,
      "epoch": 220.8,
      "grad_norm": 1.1979189103689327,
      "kl": 0.20904541015625,
      "learning_rate": 9.912734645016263e-07,
      "loss": 0.0653,
      "reward": 14.830468773841858,
      "reward_std": 4.90237557888031,
      "rewards/accuracy_reward_staging": 1.3041406441479921,
      "rewards/format_reward": 0.8515625,
      "rewards/format_reward_staging": 0.9375,
      "step": 221
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 618.171875,
      "epoch": 221.8,
      "grad_norm": 1.3245626778227455,
      "kl": 0.19866943359375,
      "learning_rate": 9.825475935627165e-07,
      "loss": 0.0378,
      "reward": 15.185937464237213,
      "reward_std": 6.512602657079697,
      "rewards/accuracy_reward_staging": 1.3451562821865082,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.921875,
      "step": 222
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 655.546875,
      "epoch": 222.8,
      "grad_norm": 1.2627576071000894,
      "kl": 0.22076416015625,
      "learning_rate": 9.73823051692127e-07,
      "loss": 0.0823,
      "reward": 14.023437589406967,
      "reward_std": 5.150766499340534,
      "rewards/accuracy_reward_staging": 1.2210937440395355,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.9375,
      "step": 223
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 630.046875,
      "epoch": 223.8,
      "grad_norm": 1.4630069125653442,
      "kl": 0.22393798828125,
      "learning_rate": 9.651005032974993e-07,
      "loss": 0.1163,
      "reward": 15.462500154972076,
      "reward_std": 4.448259741067886,
      "rewards/accuracy_reward_staging": 1.3556250110268593,
      "rewards/format_reward": 0.921875,
      "rewards/format_reward_staging": 0.984375,
      "step": 224
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 626.4375,
      "epoch": 224.8,
      "grad_norm": 1.3737324086080591,
      "kl": 0.24346923828125,
      "learning_rate": 9.56380612634664e-07,
      "loss": 0.073,
      "reward": 13.575000047683716,
      "reward_std": 5.982485473155975,
      "rewards/accuracy_reward_staging": 1.174687497317791,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.9375,
      "step": 225
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 696.59375,
      "epoch": 225.8,
      "grad_norm": 1.4368525693959429,
      "kl": 0.2528076171875,
      "learning_rate": 9.476640437570561e-07,
      "loss": 0.0855,
      "reward": 14.559374749660492,
      "reward_std": 6.478231497108936,
      "rewards/accuracy_reward_staging": 1.2887500040233135,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.890625,
      "step": 226
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 655.390625,
      "epoch": 226.8,
      "grad_norm": 1.3423833107341736,
      "kl": 0.2432861328125,
      "learning_rate": 9.38951460465143e-07,
      "loss": 0.0918,
      "reward": 13.806249856948853,
      "reward_std": 5.268295802175999,
      "rewards/accuracy_reward_staging": 1.2056250125169754,
      "rewards/format_reward": 0.828125,
      "rewards/format_reward_staging": 0.921875,
      "step": 227
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 720.40625,
      "epoch": 227.8,
      "grad_norm": 2.0887623964966555,
      "kl": 0.26153564453125,
      "learning_rate": 9.302435262558747e-07,
      "loss": 0.0741,
      "reward": 14.531249985098839,
      "reward_std": 6.193335264921188,
      "rewards/accuracy_reward_staging": 1.2843750081956387,
      "rewards/format_reward": 0.84375,
      "rewards/format_reward_staging": 0.84375,
      "step": 228
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 699.34375,
      "epoch": 228.8,
      "grad_norm": 1.5817414267449967,
      "kl": 0.25372314453125,
      "learning_rate": 9.215409042721551e-07,
      "loss": 0.1477,
      "reward": 14.853124976158142,
      "reward_std": 7.3317131996154785,
      "rewards/accuracy_reward_staging": 1.3150000125169754,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.890625,
      "step": 229
    },
    {
      "epoch": 229.8,
      "grad_norm": 1.4707093666889888,
      "learning_rate": 9.128442572523417e-07,
      "loss": 0.1039,
      "step": 230
    },
    {
      "epoch": 229.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 699.725,
      "eval_kl": 0.27763671875,
      "eval_loss": 0.13621756434440613,
      "eval_reward": 15.102499961853027,
      "eval_reward_std": 5.6639987349510195,
      "eval_rewards/accuracy_reward_staging": 1.337749996781349,
      "eval_rewards/format_reward": 0.825,
      "eval_rewards/format_reward_staging": 0.9,
      "eval_runtime": 176.4013,
      "eval_samples_per_second": 0.113,
      "eval_steps_per_second": 0.028,
      "step": 230
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 750.5234375,
      "epoch": 230.8,
      "grad_norm": 2.5022162810953015,
      "kl": 0.310821533203125,
      "learning_rate": 9.04154247479776e-07,
      "loss": 0.0621,
      "reward": 13.921874970197678,
      "reward_std": 5.641379028558731,
      "rewards/accuracy_reward_staging": 1.2312500048428774,
      "rewards/format_reward": 0.7421875,
      "rewards/format_reward_staging": 0.8671875,
      "step": 231
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 737.5,
      "epoch": 231.8,
      "grad_norm": 1.3203764343240048,
      "kl": 0.2919921875,
      "learning_rate": 8.954715367323466e-07,
      "loss": 0.1254,
      "reward": 13.312500059604645,
      "reward_std": 5.994187116622925,
      "rewards/accuracy_reward_staging": 1.1750000100582838,
      "rewards/format_reward": 0.703125,
      "rewards/format_reward_staging": 0.859375,
      "step": 232
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 663.015625,
      "epoch": 232.8,
      "grad_norm": 1.6833018973839629,
      "kl": 0.306640625,
      "learning_rate": 8.867967862320933e-07,
      "loss": 0.0829,
      "reward": 11.451562643051147,
      "reward_std": 6.721396386623383,
      "rewards/accuracy_reward_staging": 0.9779687598347664,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.796875,
      "step": 233
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 745.671875,
      "epoch": 233.8,
      "grad_norm": 1.5784019252688062,
      "kl": 0.3076171875,
      "learning_rate": 8.781306565948526e-07,
      "loss": 0.0822,
      "reward": 13.026562601327896,
      "reward_std": 4.835877507925034,
      "rewards/accuracy_reward_staging": 1.143281283788383,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.8125,
      "step": 234
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 716.4375,
      "epoch": 234.8,
      "grad_norm": 1.5923082293463926,
      "kl": 0.3375244140625,
      "learning_rate": 8.694738077799486e-07,
      "loss": 0.0811,
      "reward": 13.98749989271164,
      "reward_std": 7.312740258872509,
      "rewards/accuracy_reward_staging": 1.2425000295042992,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.765625,
      "step": 235
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 728.125,
      "epoch": 235.8,
      "grad_norm": 1.520271972538422,
      "kl": 0.3232421875,
      "learning_rate": 8.608268990399348e-07,
      "loss": 0.1051,
      "reward": 13.317187458276749,
      "reward_std": 7.371540606021881,
      "rewards/accuracy_reward_staging": 1.1739062573760748,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.859375,
      "step": 236
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 804.15625,
      "epoch": 236.8,
      "grad_norm": 1.3584766642039745,
      "kl": 0.3104248046875,
      "learning_rate": 8.521905888703893e-07,
      "loss": 0.1753,
      "reward": 12.36562493443489,
      "reward_std": 7.354695707559586,
      "rewards/accuracy_reward_staging": 1.0818749964237213,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.765625,
      "step": 237
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 691.6875,
      "epoch": 237.8,
      "grad_norm": 1.4062373976771998,
      "kl": 0.3116455078125,
      "learning_rate": 8.435655349597689e-07,
      "loss": 0.1024,
      "reward": 13.564062476158142,
      "reward_std": 6.342557780444622,
      "rewards/accuracy_reward_staging": 1.2001562491059303,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.765625,
      "step": 238
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 825.25,
      "epoch": 238.8,
      "grad_norm": 1.3912617565210863,
      "kl": 0.326416015625,
      "learning_rate": 8.349523941393223e-07,
      "loss": 0.1304,
      "reward": 13.695312589406967,
      "reward_std": 7.123799741268158,
      "rewards/accuracy_reward_staging": 1.211718775331974,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.796875,
      "step": 239
    },
    {
      "epoch": 239.8,
      "grad_norm": 1.5595564499799097,
      "learning_rate": 8.263518223330696e-07,
      "loss": 0.2716,
      "step": 240
    },
    {
      "epoch": 239.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 710.4875,
      "eval_kl": 0.301416015625,
      "eval_loss": 0.1302235871553421,
      "eval_reward": 13.53874992132187,
      "eval_reward_std": 5.90446172952652,
      "eval_rewards/accuracy_reward_staging": 1.1926250100135802,
      "eval_rewards/format_reward": 0.825,
      "eval_rewards/format_reward_staging": 0.7875,
      "eval_runtime": 172.1092,
      "eval_samples_per_second": 0.116,
      "eval_steps_per_second": 0.029,
      "step": 240
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 820.21875,
      "epoch": 240.8,
      "grad_norm": 1.3594222983218733,
      "kl": 0.29791259765625,
      "learning_rate": 8.177644745078525e-07,
      "loss": 0.1216,
      "reward": 13.201562486588955,
      "reward_std": 6.912581101059914,
      "rewards/accuracy_reward_staging": 1.1646875077858567,
      "rewards/format_reward": 0.7734375,
      "rewards/format_reward_staging": 0.78125,
      "step": 241
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 714.53125,
      "epoch": 241.8,
      "grad_norm": 1.3736471708376299,
      "kl": 0.31427001953125,
      "learning_rate": 8.091910046234551e-07,
      "loss": 0.1539,
      "reward": 14.295312345027924,
      "reward_std": 5.410611517727375,
      "rewards/accuracy_reward_staging": 1.2639062507078052,
      "rewards/format_reward": 0.84375,
      "rewards/format_reward_staging": 0.8125,
      "step": 242
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 731.6875,
      "epoch": 242.8,
      "grad_norm": 1.4519054784859347,
      "kl": 0.33892822265625,
      "learning_rate": 8.006320655828029e-07,
      "loss": 0.1532,
      "reward": 11.943750023841858,
      "reward_std": 7.561622552573681,
      "rewards/accuracy_reward_staging": 1.0662500150501728,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.640625,
      "step": 243
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 807.59375,
      "epoch": 243.8,
      "grad_norm": 1.4438718122124043,
      "kl": 0.340576171875,
      "learning_rate": 7.920883091822408e-07,
      "loss": 0.1606,
      "reward": 10.796874925494194,
      "reward_std": 7.172753885388374,
      "rewards/accuracy_reward_staging": 0.9265625104308128,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.71875,
      "step": 244
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 755.296875,
      "epoch": 244.8,
      "grad_norm": 1.5583845174659146,
      "kl": 0.3447265625,
      "learning_rate": 7.835603860618971e-07,
      "loss": 0.2097,
      "reward": 11.843750149011612,
      "reward_std": 7.400421276688576,
      "rewards/accuracy_reward_staging": 1.0296875108033419,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.75,
      "step": 245
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 759.03125,
      "epoch": 245.8,
      "grad_norm": 1.3528957695912824,
      "kl": 0.357666015625,
      "learning_rate": 7.750489456561351e-07,
      "loss": 0.1164,
      "reward": 11.779687464237213,
      "reward_std": 6.353302523493767,
      "rewards/accuracy_reward_staging": 1.0295312507078052,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.71875,
      "step": 246
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 848.734375,
      "epoch": 246.8,
      "grad_norm": 1.554460288339238,
      "kl": 0.3973388671875,
      "learning_rate": 7.665546361440949e-07,
      "loss": 0.1267,
      "reward": 12.23906247317791,
      "reward_std": 7.234898805618286,
      "rewards/accuracy_reward_staging": 1.0817187651991844,
      "rewards/format_reward": 0.703125,
      "rewards/format_reward_staging": 0.71875,
      "step": 247
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 822.703125,
      "epoch": 247.8,
      "grad_norm": 1.433844235366676,
      "kl": 0.3592529296875,
      "learning_rate": 7.580781044003324e-07,
      "loss": 0.0235,
      "reward": 14.143749997019768,
      "reward_std": 5.741221696138382,
      "rewards/accuracy_reward_staging": 1.2581250127404928,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.796875,
      "step": 248
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 903.109375,
      "epoch": 248.8,
      "grad_norm": 1.3566149279604043,
      "kl": 0.31982421875,
      "learning_rate": 7.496199959455583e-07,
      "loss": 0.2022,
      "reward": 11.91718764603138,
      "reward_std": 6.288423582911491,
      "rewards/accuracy_reward_staging": 1.0448437514714897,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.75,
      "step": 249
    },
    {
      "epoch": 249.8,
      "grad_norm": 3.5268979600947743,
      "learning_rate": 7.411809548974791e-07,
      "loss": 0.2181,
      "step": 250
    },
    {
      "epoch": 249.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 863.7875,
      "eval_kl": 0.37177734375,
      "eval_loss": 0.22468861937522888,
      "eval_reward": 12.728750014305115,
      "eval_reward_std": 6.379789352416992,
      "eval_rewards/accuracy_reward_staging": 1.1216249838471413,
      "eval_rewards/format_reward": 0.775,
      "eval_rewards/format_reward_staging": 0.7375,
      "eval_runtime": 243.2396,
      "eval_samples_per_second": 0.082,
      "eval_steps_per_second": 0.021,
      "step": 250
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 816.5703125,
      "epoch": 250.8,
      "grad_norm": 1.3710303728682416,
      "kl": 0.4068603515625,
      "learning_rate": 7.327616239217431e-07,
      "loss": 0.176,
      "reward": 12.385937452316284,
      "reward_std": 6.818997707217932,
      "rewards/accuracy_reward_staging": 1.0815625092945993,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.7734375,
      "step": 251
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 811.671875,
      "epoch": 251.8,
      "grad_norm": 1.361752204741976,
      "kl": 0.39990234375,
      "learning_rate": 7.243626441830009e-07,
      "loss": 0.1261,
      "reward": 11.423437476158142,
      "reward_std": 7.801801845431328,
      "rewards/accuracy_reward_staging": 0.9985937401652336,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.65625,
      "step": 252
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 796.375,
      "epoch": 252.8,
      "grad_norm": 1.4560468845981351,
      "kl": 0.3995361328125,
      "learning_rate": 7.159846552960773e-07,
      "loss": 0.1045,
      "reward": 12.606250077486038,
      "reward_std": 7.680657230317593,
      "rewards/accuracy_reward_staging": 1.107500022277236,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.71875,
      "step": 253
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 951.03125,
      "epoch": 253.8,
      "grad_norm": 1.411783783971026,
      "kl": 0.36572265625,
      "learning_rate": 7.076282952772633e-07,
      "loss": 0.2697,
      "reward": 10.959374994039536,
      "reward_std": 8.183534801006317,
      "rewards/accuracy_reward_staging": 0.9631250090897083,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.578125,
      "step": 254
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 828.109375,
      "epoch": 254.8,
      "grad_norm": 1.573986411740295,
      "kl": 0.385498046875,
      "learning_rate": 6.992942004957269e-07,
      "loss": 0.2294,
      "reward": 11.017187476158142,
      "reward_std": 8.27015207707882,
      "rewards/accuracy_reward_staging": 0.9517187681049109,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.71875,
      "step": 255
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 896.015625,
      "epoch": 255.8,
      "grad_norm": 1.5503448731327603,
      "kl": 0.4189453125,
      "learning_rate": 6.909830056250526e-07,
      "loss": 0.233,
      "reward": 12.285937294363976,
      "reward_std": 7.363780289888382,
      "rewards/accuracy_reward_staging": 1.081718772649765,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.71875,
      "step": 256
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 891.390625,
      "epoch": 256.8,
      "grad_norm": 1.5949891985949471,
      "kl": 0.38238525390625,
      "learning_rate": 6.82695343594908e-07,
      "loss": 0.2359,
      "reward": 13.309375122189522,
      "reward_std": 7.619817182421684,
      "rewards/accuracy_reward_staging": 1.1700000204145908,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.734375,
      "step": 257
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 892.046875,
      "epoch": 257.8,
      "grad_norm": 1.6964810618377213,
      "kl": 0.375,
      "learning_rate": 6.744318455428435e-07,
      "loss": 0.3474,
      "reward": 11.334375008940697,
      "reward_std": 7.634813725948334,
      "rewards/accuracy_reward_staging": 0.9834375139325857,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.6875,
      "step": 258
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 723.828125,
      "epoch": 258.8,
      "grad_norm": 5.6325638555717505,
      "kl": 0.4317626953125,
      "learning_rate": 6.661931407662291e-07,
      "loss": 0.1424,
      "reward": 12.10312506556511,
      "reward_std": 7.089647740125656,
      "rewards/accuracy_reward_staging": 1.0399999842047691,
      "rewards/format_reward": 0.890625,
      "rewards/format_reward_staging": 0.8125,
      "step": 259
    },
    {
      "epoch": 259.8,
      "grad_norm": 1.4896714438939402,
      "learning_rate": 6.579798566743313e-07,
      "loss": 0.2349,
      "step": 260
    },
    {
      "epoch": 259.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 904.775,
      "eval_kl": 0.505517578125,
      "eval_loss": 0.21720127761363983,
      "eval_reward": 11.496249973773956,
      "eval_reward_std": 7.962953209877014,
      "eval_rewards/accuracy_reward_staging": 1.0021250128746033,
      "eval_rewards/format_reward": 0.825,
      "eval_rewards/format_reward_staging": 0.65,
      "eval_runtime": 252.62,
      "eval_samples_per_second": 0.079,
      "eval_steps_per_second": 0.02,
      "step": 260
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 851.5546875,
      "epoch": 260.8,
      "grad_norm": 1.4904521266628086,
      "kl": 0.43194580078125,
      "learning_rate": 6.497926187405324e-07,
      "loss": 0.1751,
      "reward": 12.633593738079071,
      "reward_std": 7.350790940225124,
      "rewards/accuracy_reward_staging": 1.1102343881502748,
      "rewards/format_reward": 0.8046875,
      "rewards/format_reward_staging": 0.7265625,
      "step": 261
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 854.90625,
      "epoch": 261.8,
      "grad_norm": 1.329154678834471,
      "kl": 0.3721923828125,
      "learning_rate": 6.416320504546997e-07,
      "loss": 0.1341,
      "reward": 12.78281256556511,
      "reward_std": 6.5289479941129684,
      "rewards/accuracy_reward_staging": 1.1282812533900142,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.734375,
      "step": 262
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 775.671875,
      "epoch": 262.8,
      "grad_norm": 1.7527252884904974,
      "kl": 0.3619384765625,
      "learning_rate": 6.334987732757028e-07,
      "loss": 0.2659,
      "reward": 11.443749904632568,
      "reward_std": 6.490789204835892,
      "rewards/accuracy_reward_staging": 0.9881250048056245,
      "rewards/format_reward": 0.828125,
      "rewards/format_reward_staging": 0.734375,
      "step": 263
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 837.03125,
      "epoch": 263.8,
      "grad_norm": 1.5611285133893833,
      "kl": 0.426025390625,
      "learning_rate": 6.253934065840879e-07,
      "loss": 0.1938,
      "reward": 10.160937517881393,
      "reward_std": 6.217289835214615,
      "rewards/accuracy_reward_staging": 0.8582812617532909,
      "rewards/format_reward": 0.875,
      "rewards/format_reward_staging": 0.703125,
      "step": 264
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 982.140625,
      "epoch": 264.8,
      "grad_norm": 1.6308836635992412,
      "kl": 0.4444580078125,
      "learning_rate": 6.173165676349102e-07,
      "loss": 0.3391,
      "reward": 11.560937523841858,
      "reward_std": 8.43397456407547,
      "rewards/accuracy_reward_staging": 1.0092187635600567,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.6875,
      "step": 265
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 917.21875,
      "epoch": 265.8,
      "grad_norm": 8.538915516124892,
      "kl": 0.4678955078125,
      "learning_rate": 6.092688715107263e-07,
      "loss": 0.1789,
      "reward": 12.584374994039536,
      "reward_std": 5.365057937800884,
      "rewards/accuracy_reward_staging": 1.1021875068545341,
      "rewards/format_reward": 0.859375,
      "rewards/format_reward_staging": 0.703125,
      "step": 266
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 978.140625,
      "epoch": 266.8,
      "grad_norm": 11.685381653606097,
      "kl": 0.5882568359375,
      "learning_rate": 6.012509310747538e-07,
      "loss": 0.191,
      "reward": 10.77499994635582,
      "reward_std": 7.996917471289635,
      "rewards/accuracy_reward_staging": 0.9415625259280205,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.609375,
      "step": 267
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 925.015625,
      "epoch": 267.8,
      "grad_norm": 1.4792658565609935,
      "kl": 0.4212646484375,
      "learning_rate": 5.932633569241999e-07,
      "loss": 0.1863,
      "reward": 11.715624958276749,
      "reward_std": 6.7979661747813225,
      "rewards/accuracy_reward_staging": 1.0200000181794167,
      "rewards/format_reward": 0.84375,
      "rewards/format_reward_staging": 0.671875,
      "step": 268
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 845.140625,
      "epoch": 268.8,
      "grad_norm": 5.20673071015397,
      "kl": 0.4212646484375,
      "learning_rate": 5.853067573437611e-07,
      "loss": 0.3561,
      "reward": 13.192187458276749,
      "reward_std": 7.627192087471485,
      "rewards/accuracy_reward_staging": 1.164531260728836,
      "rewards/format_reward": 0.828125,
      "rewards/format_reward_staging": 0.71875,
      "step": 269
    },
    {
      "epoch": 269.8,
      "grad_norm": 1.3473441966408635,
      "learning_rate": 5.773817382593007e-07,
      "loss": 0.2184,
      "step": 270
    },
    {
      "epoch": 269.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 896.7625,
      "eval_kl": 0.446728515625,
      "eval_loss": 0.2557651400566101,
      "eval_reward": 11.58375017642975,
      "eval_reward_std": 7.534060525894165,
      "eval_rewards/accuracy_reward_staging": 1.0096250101923943,
      "eval_rewards/format_reward": 0.8,
      "eval_rewards/format_reward_staging": 0.6875,
      "eval_runtime": 257.488,
      "eval_samples_per_second": 0.078,
      "eval_steps_per_second": 0.019,
      "step": 270
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 945.8359375,
      "epoch": 270.8,
      "grad_norm": 1.8166241750746335,
      "kl": 0.4503173828125,
      "learning_rate": 5.694889031917046e-07,
      "loss": 0.2195,
      "reward": 10.942968711256981,
      "reward_std": 7.070375669747591,
      "rewards/accuracy_reward_staging": 0.9497656342573464,
      "rewards/format_reward": 0.7890625,
      "rewards/format_reward_staging": 0.65625,
      "step": 271
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 860.984375,
      "epoch": 271.8,
      "grad_norm": 1.595405733714329,
      "kl": 0.455810546875,
      "learning_rate": 5.616288532109224e-07,
      "loss": 0.2539,
      "reward": 11.723437696695328,
      "reward_std": 7.531994827091694,
      "rewards/accuracy_reward_staging": 1.0301562547683716,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.671875,
      "step": 272
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 892.765625,
      "epoch": 272.8,
      "grad_norm": 1.9592298387429952,
      "kl": 0.4637451171875,
      "learning_rate": 5.538021868901912e-07,
      "loss": 0.2683,
      "reward": 10.093750059604645,
      "reward_std": 6.664774626493454,
      "rewards/accuracy_reward_staging": 0.8687500087544322,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.609375,
      "step": 273
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 958.265625,
      "epoch": 273.8,
      "grad_norm": 98.566029551543,
      "kl": 1.8087158203125,
      "learning_rate": 5.460095002604532e-07,
      "loss": 0.3116,
      "reward": 9.573437586426735,
      "reward_std": 7.937933571636677,
      "rewards/accuracy_reward_staging": 0.8276562560349703,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.578125,
      "step": 274
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 915.875,
      "epoch": 274.8,
      "grad_norm": 1.54560131594488,
      "kl": 0.4423828125,
      "learning_rate": 5.382513867649663e-07,
      "loss": 0.2622,
      "reward": 10.931249961256981,
      "reward_std": 7.524611636996269,
      "rewards/accuracy_reward_staging": 0.9571875012479722,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.609375,
      "step": 275
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 856.765625,
      "epoch": 275.8,
      "grad_norm": 3.0239354302219548,
      "kl": 0.5811767578125,
      "learning_rate": 5.305284372141095e-07,
      "loss": 0.2451,
      "reward": 11.835937544703484,
      "reward_std": 6.662468932569027,
      "rewards/accuracy_reward_staging": 1.039843776728958,
      "rewards/format_reward": 0.734375,
      "rewards/format_reward_staging": 0.703125,
      "step": 276
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 932.6875,
      "epoch": 276.8,
      "grad_norm": 1.616305493128834,
      "kl": 0.538818359375,
      "learning_rate": 5.228412397403915e-07,
      "loss": 0.2794,
      "reward": 9.204687595367432,
      "reward_std": 8.746634840965271,
      "rewards/accuracy_reward_staging": 0.7923437561839819,
      "rewards/format_reward": 0.734375,
      "rewards/format_reward_staging": 0.546875,
      "step": 277
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 853.65625,
      "epoch": 277.8,
      "grad_norm": 1.5898137384166846,
      "kl": 0.4730224609375,
      "learning_rate": 5.15190379753663e-07,
      "loss": 0.2771,
      "reward": 9.235937505960464,
      "reward_std": 8.327273309230804,
      "rewards/accuracy_reward_staging": 0.786093763075769,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.578125,
      "step": 278
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 823.4375,
      "epoch": 278.8,
      "grad_norm": 2.44549487611301,
      "kl": 0.52734375,
      "learning_rate": 5.07576439896533e-07,
      "loss": 0.2175,
      "reward": 11.657812714576721,
      "reward_std": 8.151460975408554,
      "rewards/accuracy_reward_staging": 1.0251562464982271,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.65625,
      "step": 279
    },
    {
      "epoch": 279.8,
      "grad_norm": 2.0646627929666184,
      "learning_rate": 5.000000000000002e-07,
      "loss": 0.357,
      "step": 280
    },
    {
      "epoch": 279.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 810.45,
      "eval_kl": 0.4798828125,
      "eval_loss": 0.1928146332502365,
      "eval_reward": 12.850000190734864,
      "eval_reward_std": 7.15499917268753,
      "eval_rewards/accuracy_reward_staging": 1.1475000128149986,
      "eval_rewards/format_reward": 0.725,
      "eval_rewards/format_reward_staging": 0.65,
      "eval_runtime": 242.0902,
      "eval_samples_per_second": 0.083,
      "eval_steps_per_second": 0.021,
      "step": 280
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 885.203125,
      "epoch": 280.8,
      "grad_norm": 1.6342686921474878,
      "kl": 0.453857421875,
      "learning_rate": 4.924616370392961e-07,
      "loss": 0.2134,
      "reward": 11.285156175494194,
      "reward_std": 7.196100067347288,
      "rewards/accuracy_reward_staging": 0.9832031358964741,
      "rewards/format_reward": 0.8046875,
      "rewards/format_reward_staging": 0.6484375,
      "step": 281
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 827.796875,
      "epoch": 281.8,
      "grad_norm": 1.9777507622588804,
      "kl": 0.501708984375,
      "learning_rate": 4.849619250899458e-07,
      "loss": 0.2286,
      "reward": 9.923437535762787,
      "reward_std": 6.76015942543745,
      "rewards/accuracy_reward_staging": 0.8532812669873238,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.640625,
      "step": 282
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 760.53125,
      "epoch": 282.8,
      "grad_norm": 1.983747741222898,
      "kl": 0.5208740234375,
      "learning_rate": 4.775014352840512e-07,
      "loss": 0.2496,
      "reward": 10.876562595367432,
      "reward_std": 8.217148587107658,
      "rewards/accuracy_reward_staging": 0.9735937742516398,
      "rewards/format_reward": 0.609375,
      "rewards/format_reward_staging": 0.53125,
      "step": 283
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 800.21875,
      "epoch": 283.8,
      "grad_norm": 9.98641000305957,
      "kl": 0.650634765625,
      "learning_rate": 4.700807357667952e-07,
      "loss": 0.224,
      "reward": 10.59218743443489,
      "reward_std": 8.216856330633163,
      "rewards/accuracy_reward_staging": 0.910781248472631,
      "rewards/format_reward": 0.84375,
      "rewards/format_reward_staging": 0.640625,
      "step": 284
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 724.0625,
      "epoch": 284.8,
      "grad_norm": 3.1107143716405066,
      "kl": 0.58544921875,
      "learning_rate": 4.62700391653176e-07,
      "loss": 0.1371,
      "reward": 12.684374868869781,
      "reward_std": 5.954333983361721,
      "rewards/accuracy_reward_staging": 1.1121875066310167,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.765625,
      "step": 285
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 673.5,
      "epoch": 285.8,
      "grad_norm": 1.6272052880635073,
      "kl": 0.486572265625,
      "learning_rate": 4.5536096498497287e-07,
      "loss": 0.1643,
      "reward": 10.56093743443489,
      "reward_std": 8.084580287337303,
      "rewards/accuracy_reward_staging": 0.9310937505215406,
      "rewards/format_reward": 0.6875,
      "rewards/format_reward_staging": 0.5625,
      "step": 286
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 651.046875,
      "epoch": 286.8,
      "grad_norm": 44.36285030093844,
      "kl": 0.7974853515625,
      "learning_rate": 4.480630146879418e-07,
      "loss": 0.161,
      "reward": 11.729687303304672,
      "reward_std": 8.256633162498474,
      "rewards/accuracy_reward_staging": 1.02453126385808,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.703125,
      "step": 287
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 694.03125,
      "epoch": 287.8,
      "grad_norm": 1.805744925603759,
      "kl": 0.5167236328125,
      "learning_rate": 4.408070965292533e-07,
      "loss": 0.1719,
      "reward": 12.934375196695328,
      "reward_std": 8.110588558018208,
      "rewards/accuracy_reward_staging": 1.149687498807907,
      "rewards/format_reward": 0.734375,
      "rewards/format_reward_staging": 0.703125,
      "step": 288
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 806.671875,
      "epoch": 288.8,
      "grad_norm": 365.24516465790214,
      "kl": 15.93310546875,
      "learning_rate": 4.335937630751674e-07,
      "loss": 0.422,
      "reward": 10.040624976158142,
      "reward_std": 6.964074335992336,
      "rewards/accuracy_reward_staging": 0.8900000145658851,
      "rewards/format_reward": 0.609375,
      "rewards/format_reward_staging": 0.53125,
      "step": 289
    },
    {
      "epoch": 289.8,
      "grad_norm": 2.018184843282375,
      "learning_rate": 4.2642356364895417e-07,
      "loss": 0.159,
      "step": 290
    },
    {
      "epoch": 289.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 676.325,
      "eval_kl": 0.47177734375,
      "eval_loss": 0.08975062519311905,
      "eval_reward": 12.25,
      "eval_reward_std": 7.105983757972718,
      "eval_rewards/accuracy_reward_staging": 1.080000001192093,
      "eval_rewards/format_reward": 0.75,
      "eval_rewards/format_reward_staging": 0.7,
      "eval_runtime": 172.0863,
      "eval_samples_per_second": 0.116,
      "eval_steps_per_second": 0.029,
      "step": 290
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 756.625,
      "epoch": 290.8,
      "grad_norm": 4.304003408743737,
      "kl": 0.55126953125,
      "learning_rate": 4.192970442890602e-07,
      "loss": 0.1843,
      "reward": 10.37187498062849,
      "reward_std": 6.766278941184282,
      "rewards/accuracy_reward_staging": 0.9106250035110861,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.59375,
      "step": 291
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 722.5,
      "epoch": 291.8,
      "grad_norm": 1.4716878010716028,
      "kl": 0.4508056640625,
      "learning_rate": 4.1221474770752696e-07,
      "loss": 0.1393,
      "reward": 12.068749815225601,
      "reward_std": 6.005900785326958,
      "rewards/accuracy_reward_staging": 1.0553124994039536,
      "rewards/format_reward": 0.8125,
      "rewards/format_reward_staging": 0.703125,
      "step": 292
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 757.15625,
      "epoch": 292.8,
      "grad_norm": 1.6973289397039133,
      "kl": 0.4842529296875,
      "learning_rate": 4.0517721324865884e-07,
      "loss": 0.2115,
      "reward": 9.153125151991844,
      "reward_std": 7.310723379254341,
      "rewards/accuracy_reward_staging": 0.7809374900534749,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.578125,
      "step": 293
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 700.765625,
      "epoch": 293.8,
      "grad_norm": 2.1555090676393096,
      "kl": 0.51806640625,
      "learning_rate": 3.981849768479516e-07,
      "loss": 0.2632,
      "reward": 11.881249964237213,
      "reward_std": 7.455913960933685,
      "rewards/accuracy_reward_staging": 1.0396875217556953,
      "rewards/format_reward": 0.78125,
      "rewards/format_reward_staging": 0.703125,
      "step": 294
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 643.59375,
      "epoch": 294.8,
      "grad_norm": 1.6704306436530678,
      "kl": 0.459716796875,
      "learning_rate": 3.912385709912793e-07,
      "loss": 0.1352,
      "reward": 11.445312559604645,
      "reward_std": 7.4289940893650055,
      "rewards/accuracy_reward_staging": 1.008593775331974,
      "rewards/format_reward": 0.703125,
      "rewards/format_reward_staging": 0.65625,
      "step": 295
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 684.578125,
      "epoch": 295.8,
      "grad_norm": 1.7855400540888517,
      "kl": 0.528076171875,
      "learning_rate": 3.843385246743417e-07,
      "loss": 0.1663,
      "reward": 9.97968752682209,
      "reward_std": 8.184111461043358,
      "rewards/accuracy_reward_staging": 0.8635937534272671,
      "rewards/format_reward": 0.734375,
      "rewards/format_reward_staging": 0.609375,
      "step": 296
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 602.75,
      "epoch": 296.8,
      "grad_norm": 38.11905446217515,
      "kl": 1.2889404296875,
      "learning_rate": 3.774853633623806e-07,
      "loss": 0.2038,
      "reward": 11.821874991059303,
      "reward_std": 8.198160663247108,
      "rewards/accuracy_reward_staging": 1.0400000140070915,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.671875,
      "step": 297
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 585.765625,
      "epoch": 297.8,
      "grad_norm": 1.8197669464076098,
      "kl": 0.5150146484375,
      "learning_rate": 3.706796089501627e-07,
      "loss": 0.0749,
      "reward": 11.434375017881393,
      "reward_std": 7.715316243469715,
      "rewards/accuracy_reward_staging": 0.9934375211596489,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.703125,
      "step": 298
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 613.03125,
      "epoch": 298.8,
      "grad_norm": 1.889354762217911,
      "kl": 0.4669189453125,
      "learning_rate": 3.639217797222359e-07,
      "loss": 0.1515,
      "reward": 11.481249898672104,
      "reward_std": 7.798143312335014,
      "rewards/accuracy_reward_staging": 1.0090625192970037,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.671875,
      "step": 299
    },
    {
      "epoch": 299.8,
      "grad_norm": 2.6622348023095666,
      "learning_rate": 3.5721239031346063e-07,
      "loss": 0.2454,
      "step": 300
    },
    {
      "epoch": 299.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 590.3125,
      "eval_kl": 0.5787109375,
      "eval_loss": 0.10901384055614471,
      "eval_reward": 11.113749873638152,
      "eval_reward_std": 8.458426451683044,
      "eval_rewards/accuracy_reward_staging": 0.9851250126957893,
      "eval_rewards/format_reward": 0.65,
      "eval_rewards/format_reward_staging": 0.6125,
      "eval_runtime": 141.3322,
      "eval_samples_per_second": 0.142,
      "eval_steps_per_second": 0.035,
      "step": 300
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 614.75,
      "epoch": 300.8,
      "grad_norm": 1.5247800909935867,
      "kl": 0.50823974609375,
      "learning_rate": 3.5055195166981646e-07,
      "loss": 0.0888,
      "reward": 11.17812480777502,
      "reward_std": 7.858443755656481,
      "rewards/accuracy_reward_staging": 0.9834375130012631,
      "rewards/format_reward": 0.7421875,
      "rewards/format_reward_staging": 0.6015625,
      "step": 301
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.609375,
      "epoch": 301.8,
      "grad_norm": 11.67646802939455,
      "kl": 0.736083984375,
      "learning_rate": 3.4394097100949283e-07,
      "loss": 0.119,
      "reward": 11.040624797344208,
      "reward_std": 6.185135334730148,
      "rewards/accuracy_reward_staging": 0.9775000158697367,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.609375,
      "step": 302
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 592.828125,
      "epoch": 302.8,
      "grad_norm": 2.07620138910771,
      "kl": 0.5858154296875,
      "learning_rate": 3.373799517842627e-07,
      "loss": 0.1362,
      "reward": 9.728124901652336,
      "reward_std": 6.484044134616852,
      "rewards/accuracy_reward_staging": 0.8431250131689012,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.625,
      "step": 303
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.421875,
      "epoch": 303.8,
      "grad_norm": 1.80968722219858,
      "kl": 0.577392578125,
      "learning_rate": 3.308693936411421e-07,
      "loss": 0.1018,
      "reward": 9.63281275331974,
      "reward_std": 6.755122885107994,
      "rewards/accuracy_reward_staging": 0.827343761920929,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.609375,
      "step": 304
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.5625,
      "epoch": 304.8,
      "grad_norm": 2.0406619631130307,
      "kl": 0.5341796875,
      "learning_rate": 3.2440979238433974e-07,
      "loss": 0.1264,
      "reward": 10.746875032782555,
      "reward_std": 7.6421735137701035,
      "rewards/accuracy_reward_staging": 0.9465625076554716,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.609375,
      "step": 305
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 624.703125,
      "epoch": 305.8,
      "grad_norm": 2524.9442790112334,
      "kl": 23.13818359375,
      "learning_rate": 3.180016399375016e-07,
      "loss": 0.9704,
      "reward": 10.040624886751175,
      "reward_std": 7.3795405626297,
      "rewards/accuracy_reward_staging": 0.8853125032037497,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.546875,
      "step": 306
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 599.765625,
      "epoch": 306.8,
      "grad_norm": 22.332538208315107,
      "kl": 0.8387451171875,
      "learning_rate": 3.1164542430624586e-07,
      "loss": 0.1017,
      "reward": 11.599999964237213,
      "reward_std": 6.432632386684418,
      "rewards/accuracy_reward_staging": 1.035000003874302,
      "rewards/format_reward": 0.625,
      "rewards/format_reward_staging": 0.625,
      "step": 307
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 612.078125,
      "epoch": 307.8,
      "grad_norm": 103.35305685554316,
      "kl": 0.972900390625,
      "learning_rate": 3.0534162954100263e-07,
      "loss": 0.1358,
      "reward": 9.193749964237213,
      "reward_std": 7.3355728685855865,
      "rewards/accuracy_reward_staging": 0.7959375064820051,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.578125,
      "step": 308
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 570.96875,
      "epoch": 308.8,
      "grad_norm": 50.34680954325702,
      "kl": 1.0068359375,
      "learning_rate": 2.990907357001491e-07,
      "loss": 0.0898,
      "reward": 9.468749985098839,
      "reward_std": 7.638161733746529,
      "rewards/accuracy_reward_staging": 0.8328124992549419,
      "rewards/format_reward": 0.59375,
      "rewards/format_reward_staging": 0.546875,
      "step": 309
    },
    {
      "epoch": 309.8,
      "grad_norm": 2.404150826295122,
      "learning_rate": 2.9289321881345254e-07,
      "loss": 0.125,
      "step": 310
    },
    {
      "epoch": 309.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 544.0375,
      "eval_kl": 0.5705078125,
      "eval_loss": 0.10134752094745636,
      "eval_reward": 11.172499823570252,
      "eval_reward_std": 7.30764594078064,
      "eval_rewards/accuracy_reward_staging": 0.9935000017285347,
      "eval_rewards/format_reward": 0.625,
      "eval_rewards/format_reward_staging": 0.6125,
      "eval_runtime": 125.2508,
      "eval_samples_per_second": 0.16,
      "eval_steps_per_second": 0.04,
      "step": 310
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 594.6796875,
      "epoch": 310.8,
      "grad_norm": 4.496947390349957,
      "kl": 0.5538330078125,
      "learning_rate": 2.867495508458185e-07,
      "loss": 0.0803,
      "reward": 11.534374952316284,
      "reward_std": 6.893470458686352,
      "rewards/accuracy_reward_staging": 1.0221875067800283,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.640625,
      "step": 311
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.53125,
      "epoch": 311.8,
      "grad_norm": 1.8183482676019072,
      "kl": 0.561279296875,
      "learning_rate": 2.8066019966134904e-07,
      "loss": 0.1272,
      "reward": 10.914062589406967,
      "reward_std": 7.2590411230921745,
      "rewards/accuracy_reward_staging": 0.9617187697440386,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.640625,
      "step": 312
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 588.84375,
      "epoch": 312.8,
      "grad_norm": 2.2241952673115684,
      "kl": 0.574951171875,
      "learning_rate": 2.7462562898771256e-07,
      "loss": 0.0993,
      "reward": 11.553124994039536,
      "reward_std": 8.42781974375248,
      "rewards/accuracy_reward_staging": 1.0303124962374568,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.578125,
      "step": 313
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 551.140625,
      "epoch": 313.8,
      "grad_norm": 10.414899131526484,
      "kl": 0.54833984375,
      "learning_rate": 2.6864629838082954e-07,
      "loss": 0.0799,
      "reward": 11.815624713897705,
      "reward_std": 6.541705533862114,
      "rewards/accuracy_reward_staging": 1.0659374967217445,
      "rewards/format_reward": 0.59375,
      "rewards/format_reward_staging": 0.5625,
      "step": 314
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 553.046875,
      "epoch": 314.8,
      "grad_norm": 47.0803214727609,
      "kl": 0.74169921875,
      "learning_rate": 2.62722663189876e-07,
      "loss": 0.082,
      "reward": 8.54062494635582,
      "reward_std": 8.188691228628159,
      "rewards/accuracy_reward_staging": 0.7603125041350722,
      "rewards/format_reward": 0.453125,
      "rewards/format_reward_staging": 0.484375,
      "step": 315
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.03125,
      "epoch": 315.8,
      "grad_norm": 1.697069435904432,
      "kl": 0.52001953125,
      "learning_rate": 2.568551745226056e-07,
      "loss": 0.0445,
      "reward": 11.301562577486038,
      "reward_std": 7.986581727862358,
      "rewards/accuracy_reward_staging": 0.9989062640815973,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.65625,
      "step": 316
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 604.609375,
      "epoch": 316.8,
      "grad_norm": 1.9224538433799612,
      "kl": 0.5042724609375,
      "learning_rate": 2.510442792109978e-07,
      "loss": 0.1747,
      "reward": 11.126562386751175,
      "reward_std": 8.233518898487091,
      "rewards/accuracy_reward_staging": 0.9829687615856528,
      "rewards/format_reward": 0.703125,
      "rewards/format_reward_staging": 0.59375,
      "step": 317
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 540.96875,
      "epoch": 317.8,
      "grad_norm": 1.8852768343458246,
      "kl": 0.50634765625,
      "learning_rate": 2.45290419777228e-07,
      "loss": 0.0711,
      "reward": 10.67187511920929,
      "reward_std": 7.687072329223156,
      "rewards/accuracy_reward_staging": 0.9312500208616257,
      "rewards/format_reward": 0.6875,
      "rewards/format_reward_staging": 0.671875,
      "step": 318
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.21875,
      "epoch": 318.8,
      "grad_norm": 1.9063098360507449,
      "kl": 0.60400390625,
      "learning_rate": 2.395940343999691e-07,
      "loss": 0.072,
      "reward": 9.948437467217445,
      "reward_std": 8.150914326310158,
      "rewards/accuracy_reward_staging": 0.8745312532410026,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.546875,
      "step": 319
    },
    {
      "epoch": 319.8,
      "grad_norm": 2.0586826121884196,
      "learning_rate": 2.339555568810221e-07,
      "loss": 0.0995,
      "step": 320
    },
    {
      "epoch": 319.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 624.5875,
      "eval_kl": 1.31884765625,
      "eval_loss": 0.14124900102615356,
      "eval_reward": 10.472500038146972,
      "eval_reward_std": 8.316550683975219,
      "eval_rewards/accuracy_reward_staging": 0.9397500105202198,
      "eval_rewards/format_reward": 0.55,
      "eval_rewards/format_reward_staging": 0.525,
      "eval_runtime": 166.2792,
      "eval_samples_per_second": 0.12,
      "eval_steps_per_second": 0.03,
      "step": 320
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.609375,
      "epoch": 320.8,
      "grad_norm": 3.9996163379427734,
      "kl": 0.682861328125,
      "learning_rate": 2.283754166122802e-07,
      "loss": 0.1015,
      "reward": 11.93515631556511,
      "reward_std": 7.991424214094877,
      "rewards/accuracy_reward_staging": 1.0638281423598528,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.640625,
      "step": 321
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.390625,
      "epoch": 321.8,
      "grad_norm": 3.0819342365087095,
      "kl": 0.537841796875,
      "learning_rate": 2.228540385430291e-07,
      "loss": 0.0322,
      "reward": 10.235937386751175,
      "reward_std": 7.312522612512112,
      "rewards/accuracy_reward_staging": 0.9110937523655593,
      "rewards/format_reward": 0.5625,
      "rewards/format_reward_staging": 0.5625,
      "step": 322
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 564.328125,
      "epoch": 322.8,
      "grad_norm": 2.26675304418193,
      "kl": 0.61669921875,
      "learning_rate": 2.1739184314758607e-07,
      "loss": 0.1112,
      "reward": 9.662499949336052,
      "reward_std": 7.8978844210505486,
      "rewards/accuracy_reward_staging": 0.8537500146776438,
      "rewards/format_reward": 0.578125,
      "rewards/format_reward_staging": 0.546875,
      "step": 323
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 561.875,
      "epoch": 323.8,
      "grad_norm": 1.9954959778735344,
      "kl": 0.582763671875,
      "learning_rate": 2.1198924639327808e-07,
      "loss": 0.1118,
      "reward": 9.614062517881393,
      "reward_std": 8.075859874486923,
      "rewards/accuracy_reward_staging": 0.848906246945262,
      "rewards/format_reward": 0.578125,
      "rewards/format_reward_staging": 0.546875,
      "step": 324
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 513.0625,
      "epoch": 324.8,
      "grad_norm": 1.9291434012665167,
      "kl": 0.508056640625,
      "learning_rate": 2.0664665970876495e-07,
      "loss": 0.09,
      "reward": 11.331250041723251,
      "reward_std": 7.7114517986774445,
      "rewards/accuracy_reward_staging": 0.9878125172108412,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.6875,
      "step": 325
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.9375,
      "epoch": 325.8,
      "grad_norm": 2.130045177921353,
      "kl": 0.6065673828125,
      "learning_rate": 2.0136448995270738e-07,
      "loss": 0.1138,
      "reward": 9.910937532782555,
      "reward_std": 7.951791629195213,
      "rewards/accuracy_reward_staging": 0.8645312692970037,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.609375,
      "step": 326
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 590.3125,
      "epoch": 326.8,
      "grad_norm": 14.919466822673119,
      "kl": 0.8441162109375,
      "learning_rate": 1.961431393827827e-07,
      "loss": 0.1238,
      "reward": 9.217187523841858,
      "reward_std": 7.790774069726467,
      "rewards/accuracy_reward_staging": 0.7967187650501728,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.59375,
      "step": 327
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 581.578125,
      "epoch": 327.8,
      "grad_norm": 2.201816976112108,
      "kl": 0.5943603515625,
      "learning_rate": 1.9098300562505264e-07,
      "loss": 0.1018,
      "reward": 10.471874967217445,
      "reward_std": 7.630053393542767,
      "rewards/accuracy_reward_staging": 0.9268750208429992,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.5625,
      "step": 328
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 556.71875,
      "epoch": 328.8,
      "grad_norm": 5.906945093072998,
      "kl": 0.6585693359375,
      "learning_rate": 1.8588448164368087e-07,
      "loss": 0.0954,
      "reward": 10.989062532782555,
      "reward_std": 7.685741938650608,
      "rewards/accuracy_reward_staging": 0.972343759611249,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.59375,
      "step": 329
    },
    {
      "epoch": 329.8,
      "grad_norm": 2.0853287849886426,
      "learning_rate": 1.8084795571100809e-07,
      "loss": 0.0689,
      "step": 330
    },
    {
      "epoch": 329.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 538.2375,
      "eval_kl": 0.81767578125,
      "eval_loss": 0.1242348700761795,
      "eval_reward": 11.619999825954437,
      "eval_reward_std": 8.338389962911606,
      "eval_rewards/accuracy_reward_staging": 1.0357500161975621,
      "eval_rewards/format_reward": 0.6375,
      "eval_rewards/format_reward_staging": 0.625,
      "eval_runtime": 130.5157,
      "eval_samples_per_second": 0.153,
      "eval_steps_per_second": 0.038,
      "step": 330
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 552.21875,
      "epoch": 330.8,
      "grad_norm": 1.9411099886639303,
      "kl": 0.55401611328125,
      "learning_rate": 1.758738113779843e-07,
      "loss": 0.1164,
      "reward": 12.410937391221523,
      "reward_std": 6.827382728457451,
      "rewards/accuracy_reward_staging": 1.1129687398206443,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.625,
      "step": 331
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 550.75,
      "epoch": 331.8,
      "grad_norm": 2.1891389339166056,
      "kl": 0.5709228515625,
      "learning_rate": 1.7096242744495838e-07,
      "loss": -0.0025,
      "reward": 11.460937261581421,
      "reward_std": 6.8272934183478355,
      "rewards/accuracy_reward_staging": 1.0195312476716936,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.59375,
      "step": 332
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 524.5,
      "epoch": 332.8,
      "grad_norm": 2.0777537885395376,
      "kl": 0.536376953125,
      "learning_rate": 1.661141779328319e-07,
      "loss": 0.0535,
      "reward": 12.75,
      "reward_std": 7.35980150103569,
      "rewards/accuracy_reward_staging": 1.1328125018626451,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.703125,
      "step": 333
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 499.59375,
      "epoch": 333.8,
      "grad_norm": 4.1435358861337095,
      "kl": 0.5528564453125,
      "learning_rate": 1.6132943205457606e-07,
      "loss": 0.0848,
      "reward": 10.412499874830246,
      "reward_std": 8.24751353263855,
      "rewards/accuracy_reward_staging": 0.9053125167265534,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.640625,
      "step": 334
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 528.609375,
      "epoch": 334.8,
      "grad_norm": 2.837368202419978,
      "kl": 0.573486328125,
      "learning_rate": 1.566085541871145e-07,
      "loss": 0.0901,
      "reward": 13.03749993443489,
      "reward_std": 7.35784338414669,
      "rewards/accuracy_reward_staging": 1.1756250127218664,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.640625,
      "step": 335
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.09375,
      "epoch": 335.8,
      "grad_norm": 1.9595695246588565,
      "kl": 0.5914306640625,
      "learning_rate": 1.5195190384357404e-07,
      "loss": 0.0832,
      "reward": 9.493749916553497,
      "reward_std": 6.751585811376572,
      "rewards/accuracy_reward_staging": 0.8478124998509884,
      "rewards/format_reward": 0.546875,
      "rewards/format_reward_staging": 0.46875,
      "step": 336
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 519.390625,
      "epoch": 336.8,
      "grad_norm": 2.110347695686011,
      "kl": 0.519287109375,
      "learning_rate": 1.473598356459078e-07,
      "loss": 0.0886,
      "reward": 12.745312631130219,
      "reward_std": 7.440838478505611,
      "rewards/accuracy_reward_staging": 1.122968764975667,
      "rewards/format_reward": 0.796875,
      "rewards/format_reward_staging": 0.71875,
      "step": 337
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 547.65625,
      "epoch": 337.8,
      "grad_norm": 1.727304431939535,
      "kl": 0.4608154296875,
      "learning_rate": 1.4283269929788776e-07,
      "loss": 0.0791,
      "reward": 12.464062497019768,
      "reward_std": 6.970313638448715,
      "rewards/accuracy_reward_staging": 1.1073437612503767,
      "rewards/format_reward": 0.703125,
      "rewards/format_reward_staging": 0.6875,
      "step": 338
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.578125,
      "epoch": 338.8,
      "grad_norm": 45.73313544647479,
      "kl": 0.8197021484375,
      "learning_rate": 1.3837083955847417e-07,
      "loss": 0.102,
      "reward": 11.170312657952309,
      "reward_std": 7.535245016217232,
      "rewards/accuracy_reward_staging": 0.9779687668196857,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.671875,
      "step": 339
    },
    {
      "epoch": 339.8,
      "grad_norm": 2.6477795175870518,
      "learning_rate": 1.3397459621556128e-07,
      "loss": 0.1162,
      "step": 340
    },
    {
      "epoch": 339.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 529.1375,
      "eval_kl": 23.68701171875,
      "eval_loss": 1.2650219202041626,
      "eval_reward": 10.880000054836273,
      "eval_reward_std": 7.727067697048187,
      "eval_rewards/accuracy_reward_staging": 0.9605000212788581,
      "eval_rewards/format_reward": 0.65,
      "eval_rewards/format_reward_staging": 0.625,
      "eval_runtime": 120.192,
      "eval_samples_per_second": 0.166,
      "eval_steps_per_second": 0.042,
      "step": 340
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.4375,
      "epoch": 340.8,
      "grad_norm": 2.062257482287411,
      "kl": 0.56280517578125,
      "learning_rate": 1.296443040601003e-07,
      "loss": 0.0435,
      "reward": 10.376562610268593,
      "reward_std": 8.002589859068394,
      "rewards/accuracy_reward_staging": 0.9189062397927046,
      "rewards/format_reward": 0.6171875,
      "rewards/format_reward_staging": 0.5703125,
      "step": 341
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 539.75,
      "epoch": 341.8,
      "grad_norm": 2.2745767425023513,
      "kl": 0.53656005859375,
      "learning_rate": 1.2538029286060424e-07,
      "loss": 0.0623,
      "reward": 11.88906241953373,
      "reward_std": 8.809318155050278,
      "rewards/accuracy_reward_staging": 1.0607812739908695,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.609375,
      "step": 342
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 537.71875,
      "epoch": 342.8,
      "grad_norm": 1.9073471200149112,
      "kl": 0.48541259765625,
      "learning_rate": 1.2118288733803472e-07,
      "loss": 0.1154,
      "reward": 14.631249979138374,
      "reward_std": 6.283873476088047,
      "rewards/accuracy_reward_staging": 1.3256250023841858,
      "rewards/format_reward": 0.703125,
      "rewards/format_reward_staging": 0.671875,
      "step": 343
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 548.6875,
      "epoch": 343.8,
      "grad_norm": 2.2191165734186025,
      "kl": 0.6094970703125,
      "learning_rate": 1.1705240714107301e-07,
      "loss": 0.1021,
      "reward": 9.640625074505806,
      "reward_std": 8.212526381015778,
      "rewards/accuracy_reward_staging": 0.8593750139698386,
      "rewards/format_reward": 0.53125,
      "rewards/format_reward_staging": 0.515625,
      "step": 344
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 513.8125,
      "epoch": 344.8,
      "grad_norm": 1.9854032388069334,
      "kl": 0.523681640625,
      "learning_rate": 1.1298916682177828e-07,
      "loss": 0.0055,
      "reward": 14.028124868869781,
      "reward_std": 6.586119674146175,
      "rewards/accuracy_reward_staging": 1.2528125252574682,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.734375,
      "step": 345
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 538.0,
      "epoch": 345.8,
      "grad_norm": 1.922770111948013,
      "kl": 0.4796142578125,
      "learning_rate": 1.089934758116322e-07,
      "loss": 0.0353,
      "reward": 13.531249672174454,
      "reward_std": 7.330604811664671,
      "rewards/accuracy_reward_staging": 1.2109374832361937,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.703125,
      "step": 346
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 556.25,
      "epoch": 346.8,
      "grad_norm": 1.9617536727014244,
      "kl": 0.6065673828125,
      "learning_rate": 1.05065638397975e-07,
      "loss": 0.0607,
      "reward": 10.37343730032444,
      "reward_std": 7.6566493809223175,
      "rewards/accuracy_reward_staging": 0.9264062475413084,
      "rewards/format_reward": 0.5625,
      "rewards/format_reward_staging": 0.546875,
      "step": 347
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 514.421875,
      "epoch": 347.8,
      "grad_norm": 5.910623715329322,
      "kl": 0.586669921875,
      "learning_rate": 1.0120595370083318e-07,
      "loss": 0.0441,
      "reward": 10.33906227350235,
      "reward_std": 5.6453575268387794,
      "rewards/accuracy_reward_staging": 0.9151562377810478,
      "rewards/format_reward": 0.578125,
      "rewards/format_reward_staging": 0.609375,
      "step": 348
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.5625,
      "epoch": 348.8,
      "grad_norm": 2.2977218203304983,
      "kl": 0.5316162109375,
      "learning_rate": 9.741471565013958e-08,
      "loss": 0.0605,
      "reward": 12.892187714576721,
      "reward_std": 7.930499374866486,
      "rewards/accuracy_reward_staging": 1.1439062617719173,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.703125,
      "step": 349
    },
    {
      "epoch": 349.8,
      "grad_norm": 1.8861216023880358,
      "learning_rate": 9.369221296335006e-08,
      "loss": 0.1235,
      "step": 350
    },
    {
      "epoch": 349.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 520.25,
      "eval_kl": 0.54873046875,
      "eval_loss": 0.06522668898105621,
      "eval_reward": 12.468749737739563,
      "eval_reward_std": 7.662279307842255,
      "eval_rewards/accuracy_reward_staging": 1.1093750052154063,
      "eval_rewards/format_reward": 0.725,
      "eval_rewards/format_reward_staging": 0.65,
      "eval_runtime": 127.6467,
      "eval_samples_per_second": 0.157,
      "eval_steps_per_second": 0.039,
      "step": 350
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.09375,
      "epoch": 350.8,
      "grad_norm": 2.5663009167562287,
      "kl": 0.54559326171875,
      "learning_rate": 9.003872912345689e-08,
      "loss": 0.0985,
      "reward": 10.989843875169754,
      "reward_std": 7.33668365329504,
      "rewards/accuracy_reward_staging": 0.9677343829534948,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.640625,
      "step": 351
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 566.671875,
      "epoch": 351.8,
      "grad_norm": 3.306328897391672,
      "kl": 0.5091552734375,
      "learning_rate": 8.645454235739902e-08,
      "loss": 0.11,
      "reward": 11.37343755364418,
      "reward_std": 7.7504191398620605,
      "rewards/accuracy_reward_staging": 1.009218767285347,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.609375,
      "step": 352
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.484375,
      "epoch": 352.8,
      "grad_norm": 1.979792175196284,
      "kl": 0.520751953125,
      "learning_rate": 8.293992561487595e-08,
      "loss": 0.034,
      "reward": 10.399999901652336,
      "reward_std": 6.3909139558672905,
      "rewards/accuracy_reward_staging": 0.9212500043213367,
      "rewards/format_reward": 0.625,
      "rewards/format_reward_staging": 0.5625,
      "step": 353
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.015625,
      "epoch": 353.8,
      "grad_norm": 94.2447409316946,
      "kl": 2.2459716796875,
      "learning_rate": 7.949514654755962e-08,
      "loss": 0.1011,
      "reward": 10.320312514901161,
      "reward_std": 6.939793795347214,
      "rewards/accuracy_reward_staging": 0.9054687642492354,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.609375,
      "step": 354
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 551.140625,
      "epoch": 354.8,
      "grad_norm": 2.0400310680209444,
      "kl": 0.5252685546875,
      "learning_rate": 7.612046748871326e-08,
      "loss": 0.0919,
      "reward": 10.507812529802322,
      "reward_std": 6.574328362941742,
      "rewards/accuracy_reward_staging": 0.9257812593132257,
      "rewards/format_reward": 0.625,
      "rewards/format_reward_staging": 0.625,
      "step": 355
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 509.78125,
      "epoch": 355.8,
      "grad_norm": 10.548554530431085,
      "kl": 0.63427734375,
      "learning_rate": 7.281614543321269e-08,
      "loss": 0.0484,
      "reward": 12.018749877810478,
      "reward_std": 7.941742122173309,
      "rewards/accuracy_reward_staging": 1.0721874982118607,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.625,
      "step": 356
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 496.859375,
      "epoch": 356.8,
      "grad_norm": 2.9275259721912263,
      "kl": 0.5072021484375,
      "learning_rate": 6.958243201797553e-08,
      "loss": 0.0034,
      "reward": 13.354687303304672,
      "reward_std": 6.157866388559341,
      "rewards/accuracy_reward_staging": 1.1901562474668026,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.734375,
      "step": 357
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 497.078125,
      "epoch": 357.8,
      "grad_norm": 3.259670897497323,
      "kl": 0.56689453125,
      "learning_rate": 6.641957350279837e-08,
      "loss": 0.1212,
      "reward": 10.450000002980232,
      "reward_std": 8.285482600331306,
      "rewards/accuracy_reward_staging": 0.9262500102631748,
      "rewards/format_reward": 0.59375,
      "rewards/format_reward_staging": 0.59375,
      "step": 358
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 586.21875,
      "epoch": 358.8,
      "grad_norm": 3.6157884851011115,
      "kl": 0.7269287109375,
      "learning_rate": 6.332781075160243e-08,
      "loss": 0.1011,
      "reward": 8.88906255364418,
      "reward_std": 8.714880511164665,
      "rewards/accuracy_reward_staging": 0.7857812475413084,
      "rewards/format_reward": 0.53125,
      "rewards/format_reward_staging": 0.5,
      "step": 359
    },
    {
      "epoch": 359.8,
      "grad_norm": 3.272297448604345,
      "learning_rate": 6.030737921409168e-08,
      "loss": 0.0793,
      "step": 360
    },
    {
      "epoch": 359.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 534.5875,
      "eval_kl": 0.5283203125,
      "eval_loss": 0.10396303236484528,
      "eval_reward": 10.23999993801117,
      "eval_reward_std": 7.775251030921936,
      "eval_rewards/accuracy_reward_staging": 0.9027499988675117,
      "eval_rewards/format_reward": 0.6375,
      "eval_rewards/format_reward_staging": 0.575,
      "eval_runtime": 125.3052,
      "eval_samples_per_second": 0.16,
      "eval_steps_per_second": 0.04,
      "step": 360
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 529.671875,
      "epoch": 360.8,
      "grad_norm": 2.443851018491839,
      "kl": 0.60870361328125,
      "learning_rate": 5.735850890782157e-08,
      "loss": 0.0695,
      "reward": 11.39765627682209,
      "reward_std": 7.690338987857103,
      "rewards/accuracy_reward_staging": 1.0139843788929284,
      "rewards/format_reward": 0.6328125,
      "rewards/format_reward_staging": 0.625,
      "step": 361
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 525.890625,
      "epoch": 361.8,
      "grad_norm": 4.571161669605146,
      "kl": 0.7027587890625,
      "learning_rate": 5.448142440068315e-08,
      "loss": 0.0926,
      "reward": 12.457812368869781,
      "reward_std": 8.532767742872238,
      "rewards/accuracy_reward_staging": 1.097343759611249,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.71875,
      "step": 362
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 540.40625,
      "epoch": 362.8,
      "grad_norm": 2.6127548669423333,
      "kl": 0.56591796875,
      "learning_rate": 5.1676344793800675e-08,
      "loss": 0.1056,
      "reward": 10.995312467217445,
      "reward_std": 7.668447345495224,
      "rewards/accuracy_reward_staging": 0.9682812597602606,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.65625,
      "step": 363
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 518.546875,
      "epoch": 363.8,
      "grad_norm": 2.0552105230802944,
      "kl": 0.52197265625,
      "learning_rate": 4.8943483704846465e-08,
      "loss": 0.1321,
      "reward": 11.596875041723251,
      "reward_std": 8.213591203093529,
      "rewards/accuracy_reward_staging": 1.0190625078976154,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.6875,
      "step": 364
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 505.765625,
      "epoch": 364.8,
      "grad_norm": 2.326851393730122,
      "kl": 0.5279541015625,
      "learning_rate": 4.6283049251773176e-08,
      "loss": 0.0553,
      "reward": 11.739062711596489,
      "reward_std": 7.672401025891304,
      "rewards/accuracy_reward_staging": 1.0348437502980232,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.640625,
      "step": 365
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 549.078125,
      "epoch": 365.8,
      "grad_norm": 5.111208968520272,
      "kl": 0.6072998046875,
      "learning_rate": 4.3695244036964564e-08,
      "loss": 0.082,
      "reward": 9.354687571525574,
      "reward_std": 7.511838540434837,
      "rewards/accuracy_reward_staging": 0.8167187636718154,
      "rewards/format_reward": 0.609375,
      "rewards/format_reward_staging": 0.578125,
      "step": 366
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 517.296875,
      "epoch": 366.8,
      "grad_norm": 2.581279648987323,
      "kl": 0.5887451171875,
      "learning_rate": 4.1180265131806946e-08,
      "loss": 0.0205,
      "reward": 10.934374988079071,
      "reward_std": 8.458094909787178,
      "rewards/accuracy_reward_staging": 0.9778125118464231,
      "rewards/format_reward": 0.59375,
      "rewards/format_reward_staging": 0.5625,
      "step": 367
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 518.40625,
      "epoch": 367.8,
      "grad_norm": 2.035652649324917,
      "kl": 0.569091796875,
      "learning_rate": 3.87383040616811e-08,
      "loss": 0.0615,
      "reward": 11.773437261581421,
      "reward_std": 7.848160028457642,
      "rewards/accuracy_reward_staging": 1.0507812481373549,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.609375,
      "step": 368
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 568.703125,
      "epoch": 368.8,
      "grad_norm": 2.8704472982245526,
      "kl": 0.57958984375,
      "learning_rate": 3.636954679137705e-08,
      "loss": 0.081,
      "reward": 9.676562517881393,
      "reward_std": 8.41864463686943,
      "rewards/accuracy_reward_staging": 0.8692187499254942,
      "rewards/format_reward": 0.515625,
      "rewards/format_reward_staging": 0.46875,
      "step": 369
    },
    {
      "epoch": 369.8,
      "grad_norm": 8.688192162327972,
      "learning_rate": 3.4074173710931796e-08,
      "loss": 0.092,
      "step": 370
    },
    {
      "epoch": 369.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 537.7875,
      "eval_kl": 0.5083984375,
      "eval_loss": 0.07736475765705109,
      "eval_reward": 11.122499930858613,
      "eval_reward_std": 6.3223115285858515,
      "eval_rewards/accuracy_reward_staging": 0.989750000461936,
      "eval_rewards/format_reward": 0.6375,
      "eval_rewards/format_reward_staging": 0.5875,
      "eval_runtime": 137.4717,
      "eval_samples_per_second": 0.145,
      "eval_steps_per_second": 0.036,
      "step": 370
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 548.3203125,
      "epoch": 370.8,
      "grad_norm": 2.9935915085575524,
      "kl": 0.7093505859375,
      "learning_rate": 3.185235962189237e-08,
      "loss": 0.086,
      "reward": 10.013281270861626,
      "reward_std": 7.9125730618834496,
      "rewards/accuracy_reward_staging": 0.892734372522682,
      "rewards/format_reward": 0.5625,
      "rewards/format_reward_staging": 0.5234375,
      "step": 371
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 507.0,
      "epoch": 371.8,
      "grad_norm": 2.2371928274108455,
      "kl": 0.517822265625,
      "learning_rate": 2.9704273724003526e-08,
      "loss": 0.0676,
      "reward": 11.292187675833702,
      "reward_std": 6.194611236453056,
      "rewards/accuracy_reward_staging": 1.0042187473736703,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.59375,
      "step": 372
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 559.84375,
      "epoch": 372.8,
      "grad_norm": 2.531647136891463,
      "kl": 0.52001953125,
      "learning_rate": 2.7630079602323443e-08,
      "loss": 0.1587,
      "reward": 10.668749883770943,
      "reward_std": 8.836217179894447,
      "rewards/accuracy_reward_staging": 0.9575000163167715,
      "rewards/format_reward": 0.546875,
      "rewards/format_reward_staging": 0.546875,
      "step": 373
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 503.234375,
      "epoch": 373.8,
      "grad_norm": 1.8905690009692866,
      "kl": 0.56494140625,
      "learning_rate": 2.5629935214764864e-08,
      "loss": 0.0793,
      "reward": 10.550000071525574,
      "reward_std": 7.391293793916702,
      "rewards/accuracy_reward_staging": 0.931562501937151,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.59375,
      "step": 374
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 518.109375,
      "epoch": 374.8,
      "grad_norm": 4.31839552805722,
      "kl": 0.7208251953125,
      "learning_rate": 2.3703992880066636e-08,
      "loss": 0.0576,
      "reward": 11.893750101327896,
      "reward_std": 7.522340267896652,
      "rewards/accuracy_reward_staging": 1.0612500254064798,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.625,
      "step": 375
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 560.953125,
      "epoch": 375.8,
      "grad_norm": 2.2893855348554824,
      "kl": 0.4915771484375,
      "learning_rate": 2.185239926619431e-08,
      "loss": 0.0645,
      "reward": 11.574999958276749,
      "reward_std": 8.68027800321579,
      "rewards/accuracy_reward_staging": 1.0246875025331974,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.65625,
      "step": 376
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 503.046875,
      "epoch": 376.8,
      "grad_norm": 2.0521716339261573,
      "kl": 0.5130615234375,
      "learning_rate": 2.007529537917041e-08,
      "loss": 0.0747,
      "reward": 11.942187368869781,
      "reward_std": 6.6959647461771965,
      "rewards/accuracy_reward_staging": 1.0660937773063779,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.640625,
      "step": 377
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 544.703125,
      "epoch": 377.8,
      "grad_norm": 2.6744855588179597,
      "kl": 0.6314697265625,
      "learning_rate": 1.8372816552336023e-08,
      "loss": 0.0892,
      "reward": 10.899999856948853,
      "reward_std": 7.818521216511726,
      "rewards/accuracy_reward_staging": 0.957187520340085,
      "rewards/format_reward": 0.6875,
      "rewards/format_reward_staging": 0.640625,
      "step": 378
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 536.0,
      "epoch": 378.8,
      "grad_norm": 2.1993782801564827,
      "kl": 0.5281982421875,
      "learning_rate": 1.6745092436045492e-08,
      "loss": 0.09,
      "reward": 10.765625104308128,
      "reward_std": 9.52804271876812,
      "rewards/accuracy_reward_staging": 0.9468750059604645,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.625,
      "step": 379
    },
    {
      "epoch": 379.8,
      "grad_norm": 2.850728275624988,
      "learning_rate": 1.519224698779198e-08,
      "loss": 0.0848,
      "step": 380
    },
    {
      "epoch": 379.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 504.675,
      "eval_kl": 0.4578125,
      "eval_loss": 0.07416948676109314,
      "eval_reward": 11.396249985694885,
      "eval_reward_std": 8.601353228092194,
      "eval_rewards/accuracy_reward_staging": 1.0146250143647193,
      "eval_rewards/format_reward": 0.6375,
      "eval_rewards/format_reward_staging": 0.6125,
      "eval_runtime": 121.4493,
      "eval_samples_per_second": 0.165,
      "eval_steps_per_second": 0.041,
      "step": 380
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 510.578125,
      "epoch": 380.8,
      "grad_norm": 2.9736298141622295,
      "kl": 0.55657958984375,
      "learning_rate": 1.3714398462768562e-08,
      "loss": 0.0869,
      "reward": 12.212500043213367,
      "reward_std": 7.73147202283144,
      "rewards/accuracy_reward_staging": 1.0837499964982271,
      "rewards/format_reward": 0.6953125,
      "rewards/format_reward_staging": 0.6796875,
      "step": 381
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 522.1875,
      "epoch": 381.8,
      "grad_norm": 2.0373989754015125,
      "kl": 0.5072021484375,
      "learning_rate": 1.231165940486234e-08,
      "loss": 0.034,
      "reward": 12.49843743443489,
      "reward_std": 6.0733470767736435,
      "rewards/accuracy_reward_staging": 1.1014062575995922,
      "rewards/format_reward": 0.734375,
      "rewards/format_reward_staging": 0.75,
      "step": 382
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.09375,
      "epoch": 382.8,
      "grad_norm": 2.0529799885966997,
      "kl": 0.5218505859375,
      "learning_rate": 1.0984136638083175e-08,
      "loss": 0.0674,
      "reward": 12.098437368869781,
      "reward_std": 7.62692953646183,
      "rewards/accuracy_reward_staging": 1.0817187586799264,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.640625,
      "step": 383
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 523.203125,
      "epoch": 383.8,
      "grad_norm": 2.0301601145066495,
      "kl": 0.521240234375,
      "learning_rate": 9.731931258429638e-09,
      "loss": 0.059,
      "reward": 10.729687452316284,
      "reward_std": 5.984116218984127,
      "rewards/accuracy_reward_staging": 0.9464062480255961,
      "rewards/format_reward": 0.671875,
      "rewards/format_reward_staging": 0.59375,
      "step": 384
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 502.109375,
      "epoch": 384.8,
      "grad_norm": 4.517612366443085,
      "kl": 0.602294921875,
      "learning_rate": 8.555138626189618e-09,
      "loss": 0.0919,
      "reward": 10.614062532782555,
      "reward_std": 7.197298094630241,
      "rewards/accuracy_reward_staging": 0.9317187555134296,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.640625,
      "step": 385
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 531.5625,
      "epoch": 385.8,
      "grad_norm": 1.996721078816804,
      "kl": 0.542236328125,
      "learning_rate": 7.453848358678017e-09,
      "loss": 0.0893,
      "reward": 12.423437505960464,
      "reward_std": 7.174239456653595,
      "rewards/accuracy_reward_staging": 1.0970312654972076,
      "rewards/format_reward": 0.765625,
      "rewards/format_reward_staging": 0.6875,
      "step": 386
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 529.5,
      "epoch": 386.8,
      "grad_norm": 1.6692450152429934,
      "kl": 0.4757080078125,
      "learning_rate": 6.4281443234125434e-09,
      "loss": 0.0622,
      "reward": 10.457812458276749,
      "reward_std": 8.408779114484787,
      "rewards/accuracy_reward_staging": 0.9207812584936619,
      "rewards/format_reward": 0.6875,
      "rewards/format_reward_staging": 0.5625,
      "step": 387
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 516.28125,
      "epoch": 387.8,
      "grad_norm": 72.65003366147363,
      "kl": 1.12158203125,
      "learning_rate": 5.47810463172671e-09,
      "loss": 0.0677,
      "reward": 14.623437404632568,
      "reward_std": 7.604200206696987,
      "rewards/accuracy_reward_staging": 1.3154687583446503,
      "rewards/format_reward": 0.75,
      "rewards/format_reward_staging": 0.71875,
      "step": 388
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 540.546875,
      "epoch": 388.8,
      "grad_norm": 2.13782688418701,
      "kl": 0.5604248046875,
      "learning_rate": 4.603801632821147e-09,
      "loss": 0.0741,
      "reward": 11.571875154972076,
      "reward_std": 8.498483955860138,
      "rewards/accuracy_reward_staging": 1.0556250140070915,
      "rewards/format_reward": 0.515625,
      "rewards/format_reward_staging": 0.5,
      "step": 389
    },
    {
      "epoch": 389.8,
      "grad_norm": 2.550655354845835,
      "learning_rate": 3.805301908254455e-09,
      "loss": 0.0785,
      "step": 390
    },
    {
      "epoch": 389.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 543.7,
      "eval_kl": 0.77880859375,
      "eval_loss": 0.05070864409208298,
      "eval_reward": 11.214999914169312,
      "eval_reward_std": 7.508172661066055,
      "eval_rewards/accuracy_reward_staging": 1.0102500110864638,
      "eval_rewards/format_reward": 0.575,
      "eval_rewards/format_reward_staging": 0.5375,
      "eval_runtime": 147.1522,
      "eval_samples_per_second": 0.136,
      "eval_steps_per_second": 0.034,
      "step": 390
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 514.140625,
      "epoch": 390.8,
      "grad_norm": 2.7881900199384537,
      "kl": 0.58929443359375,
      "learning_rate": 3.082666266872036e-09,
      "loss": 0.0336,
      "reward": 12.8234374076128,
      "reward_std": 7.5515576638281345,
      "rewards/accuracy_reward_staging": 1.1495312573388219,
      "rewards/format_reward": 0.6640625,
      "rewards/format_reward_staging": 0.6640625,
      "step": 391
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 524.25,
      "epoch": 391.8,
      "grad_norm": 2.166883481802826,
      "kl": 0.585693359375,
      "learning_rate": 2.435949740175802e-09,
      "loss": 0.0693,
      "reward": 9.915624856948853,
      "reward_std": 7.9057832062244415,
      "rewards/accuracy_reward_staging": 0.8790625054389238,
      "rewards/format_reward": 0.578125,
      "rewards/format_reward_staging": 0.546875,
      "step": 392
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 558.03125,
      "epoch": 392.8,
      "grad_norm": 2.013874424977512,
      "kl": 0.5469970703125,
      "learning_rate": 1.86520157813308e-09,
      "loss": -0.0047,
      "reward": 10.384374856948853,
      "reward_std": 7.076003402471542,
      "rewards/accuracy_reward_staging": 0.9103124821558595,
      "rewards/format_reward": 0.65625,
      "rewards/format_reward_staging": 0.625,
      "step": 393
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 573.859375,
      "epoch": 393.8,
      "grad_norm": 4.782888144712166,
      "kl": 0.7337646484375,
      "learning_rate": 1.3704652454261667e-09,
      "loss": 0.0785,
      "reward": 10.860937401652336,
      "reward_std": 8.005559802055359,
      "rewards/accuracy_reward_staging": 0.9782812423072755,
      "rewards/format_reward": 0.546875,
      "rewards/format_reward_staging": 0.53125,
      "step": 394
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 509.453125,
      "epoch": 394.8,
      "grad_norm": 5.775714842908385,
      "kl": 0.88623046875,
      "learning_rate": 9.517784181422018e-10,
      "loss": 0.0558,
      "reward": 10.265624895691872,
      "reward_std": 7.404541149735451,
      "rewards/accuracy_reward_staging": 0.9109375043772161,
      "rewards/format_reward": 0.609375,
      "rewards/format_reward_staging": 0.546875,
      "step": 395
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 543.453125,
      "epoch": 395.8,
      "grad_norm": 2.0434917013326266,
      "kl": 0.5186767578125,
      "learning_rate": 6.091729809042379e-10,
      "loss": 0.0542,
      "reward": 11.81874991953373,
      "reward_std": 9.100275874137878,
      "rewards/accuracy_reward_staging": 1.0662500150501728,
      "rewards/format_reward": 0.609375,
      "rewards/format_reward_staging": 0.546875,
      "step": 396
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 546.1875,
      "epoch": 396.8,
      "grad_norm": 1.7418802984126296,
      "kl": 0.4542236328125,
      "learning_rate": 3.426750244427401e-10,
      "loss": 0.07,
      "reward": 12.928124815225601,
      "reward_std": 7.5549889877438545,
      "rewards/accuracy_reward_staging": 1.1490625096485019,
      "rewards/format_reward": 0.71875,
      "rewards/format_reward_staging": 0.71875,
      "step": 397
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 492.109375,
      "epoch": 397.8,
      "grad_norm": 3.724982054081198,
      "kl": 0.7119140625,
      "learning_rate": 1.5230484360873042e-10,
      "loss": 0.0322,
      "reward": 12.485937371850014,
      "reward_std": 7.725762560963631,
      "rewards/accuracy_reward_staging": 1.1079687606543303,
      "rewards/format_reward": 0.734375,
      "rewards/format_reward_staging": 0.671875,
      "step": 398
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 550.203125,
      "epoch": 398.8,
      "grad_norm": 7.1968629953818315,
      "kl": 0.607421875,
      "learning_rate": 3.8076935828690315e-11,
      "loss": 0.1134,
      "reward": 9.825000047683716,
      "reward_std": 8.716731041669846,
      "rewards/accuracy_reward_staging": 0.8637500181794167,
      "rewards/format_reward": 0.640625,
      "rewards/format_reward_staging": 0.546875,
      "step": 399
    },
    {
      "epoch": 399.8,
      "grad_norm": 2.578825219229897,
      "learning_rate": 0.0,
      "loss": 0.0625,
      "step": 400
    },
    {
      "epoch": 399.8,
      "eval_clip_ratio": 0.0,
      "eval_completion_length": 564.25,
      "eval_kl": 0.541796875,
      "eval_loss": 0.1237805113196373,
      "eval_reward": 12.454999792575837,
      "eval_reward_std": 7.5952778339385985,
      "eval_rewards/accuracy_reward_staging": 1.1054999977350235,
      "eval_rewards/format_reward": 0.7125,
      "eval_rewards/format_reward_staging": 0.6875,
      "eval_runtime": 144.5952,
      "eval_samples_per_second": 0.138,
      "eval_steps_per_second": 0.035,
      "step": 400
    },
    {
      "clip_ratio": 0.0,
      "completion_length": 498.03125,
      "epoch": 399.8,
      "kl": 0.4832763671875,
      "reward": 14.412499785423279,
      "reward_std": 7.106586746871471,
      "rewards/accuracy_reward_staging": 1.294375006109476,
      "rewards/format_reward": 0.734375,
      "rewards/format_reward_staging": 0.734375,
      "step": 400,
      "total_flos": 0.0,
      "train_loss": 1.0999555667603271,
      "train_runtime": 38247.6092,
      "train_samples_per_second": 0.209,
      "train_steps_per_second": 0.01
    }
  ],
  "logging_steps": 1,
  "max_steps": 400,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 400,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}