{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 10,
  "global_step": 375,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 617.9583435058594,
      "epoch": 0.0026666666666666666,
      "grad_norm": 0.5426230430603027,
      "kl": 0.0,
      "learning_rate": 4e-08,
      "loss": -0.2056,
      "reward": 0.27083334140479565,
      "reward_std": 0.2350771315395832,
      "rewards/accuracy_reward": 0.27083334140479565,
      "rewards/format_reward": 0.0,
      "step": 1
    },
    {
      "completion_length": 669.7916870117188,
      "epoch": 0.005333333333333333,
      "grad_norm": 0.6748480796813965,
      "kl": 0.0,
      "learning_rate": 8e-08,
      "loss": -0.0475,
      "reward": 0.2083333395421505,
      "reward_std": 0.3881702348589897,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 2
    },
    {
      "completion_length": 896.7292022705078,
      "epoch": 0.008,
      "grad_norm": 0.4940797984600067,
      "kl": 0.0002243518829345703,
      "learning_rate": 1.2000000000000002e-07,
      "loss": -0.1296,
      "reward": 0.27083333395421505,
      "reward_std": 0.3842546306550503,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/format_reward": 0.0,
      "step": 3
    },
    {
      "completion_length": 823.6458587646484,
      "epoch": 0.010666666666666666,
      "grad_norm": 0.26322299242019653,
      "kl": 0.00017309188842773438,
      "learning_rate": 1.6e-07,
      "loss": -0.038,
      "reward": 0.1666666679084301,
      "reward_std": 0.23899272084236145,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 4
    },
    {
      "completion_length": 828.6875152587891,
      "epoch": 0.013333333333333334,
      "grad_norm": 0.15690098702907562,
      "kl": 0.0001386404037475586,
      "learning_rate": 2e-07,
      "loss": -0.1455,
      "reward": 0.10416666977107525,
      "reward_std": 0.1801304928958416,
      "rewards/accuracy_reward": 0.10416666977107525,
      "rewards/format_reward": 0.0,
      "step": 5
    },
    {
      "completion_length": 649.8333358764648,
      "epoch": 0.016,
      "grad_norm": 0.25603243708610535,
      "kl": 0.00013273954391479492,
      "learning_rate": 2.4000000000000003e-07,
      "loss": -0.0906,
      "reward": 0.2291666716337204,
      "reward_std": 0.24468021839857101,
      "rewards/accuracy_reward": 0.2291666716337204,
      "rewards/format_reward": 0.0,
      "step": 6
    },
    {
      "completion_length": 842.6458587646484,
      "epoch": 0.018666666666666668,
      "grad_norm": 0.26339226961135864,
      "kl": 0.00011420249938964844,
      "learning_rate": 2.8e-07,
      "loss": -0.018,
      "reward": 0.0416666679084301,
      "reward_std": 0.10206206887960434,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 7
    },
    {
      "completion_length": 517.8750228881836,
      "epoch": 0.021333333333333333,
      "grad_norm": 0.21927940845489502,
      "kl": 0.0001316070556640625,
      "learning_rate": 3.2e-07,
      "loss": 0.0214,
      "reward": 0.2083333358168602,
      "reward_std": 0.3061862252652645,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 8
    },
    {
      "completion_length": 605.8541717529297,
      "epoch": 0.024,
      "grad_norm": 0.29087916016578674,
      "kl": 0.00013589859008789062,
      "learning_rate": 3.6e-07,
      "loss": -0.0332,
      "reward": 0.20833333767950535,
      "reward_std": 0.38817023858428,
      "rewards/accuracy_reward": 0.20833333767950535,
      "rewards/format_reward": 0.0,
      "step": 9
    },
    {
      "completion_length": 787.3333435058594,
      "epoch": 0.02666666666666667,
      "grad_norm": 0.12677079439163208,
      "kl": 0.0001424551010131836,
      "learning_rate": 4e-07,
      "loss": -0.0164,
      "reward": 0.1458333395421505,
      "reward_std": 0.1530931033194065,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 10
    },
    {
      "completion_length": 715.2916870117188,
      "epoch": 0.029333333333333333,
      "grad_norm": 0.196958988904953,
      "kl": 0.00014650821685791016,
      "learning_rate": 4.4e-07,
      "loss": 0.0302,
      "reward": 0.12500000558793545,
      "reward_std": 0.18404607474803925,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 11
    },
    {
      "completion_length": 685.3125305175781,
      "epoch": 0.032,
      "grad_norm": 0.2892319858074188,
      "kl": 0.0001569986343383789,
      "learning_rate": 4.800000000000001e-07,
      "loss": -0.0853,
      "reward": 0.2083333395421505,
      "reward_std": 0.3881702348589897,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 12
    },
    {
      "completion_length": 687.5000305175781,
      "epoch": 0.034666666666666665,
      "grad_norm": 0.20977553725242615,
      "kl": 0.0001035928726196289,
      "learning_rate": 5.2e-07,
      "loss": -0.0293,
      "reward": 0.1250000037252903,
      "reward_std": 0.16661180183291435,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 13
    },
    {
      "completion_length": 721.3125152587891,
      "epoch": 0.037333333333333336,
      "grad_norm": 0.43697115778923035,
      "kl": 0.00019097328186035156,
      "learning_rate": 5.6e-07,
      "loss": -0.0344,
      "reward": 0.31250001303851604,
      "reward_std": 0.36417657509446144,
      "rewards/accuracy_reward": 0.31250001303851604,
      "rewards/format_reward": 0.0,
      "step": 14
    },
    {
      "completion_length": 815.6250152587891,
      "epoch": 0.04,
      "grad_norm": 0.30842292308807373,
      "kl": 0.00019025802612304688,
      "learning_rate": 6.000000000000001e-07,
      "loss": 0.0081,
      "reward": 0.25000000931322575,
      "reward_std": 0.3332235962152481,
      "rewards/accuracy_reward": 0.25000000931322575,
      "rewards/format_reward": 0.0,
      "step": 15
    },
    {
      "completion_length": 714.8750152587891,
      "epoch": 0.042666666666666665,
      "grad_norm": 0.15875642001628876,
      "kl": 0.00021457672119140625,
      "learning_rate": 6.4e-07,
      "loss": -0.069,
      "reward": 0.2083333358168602,
      "reward_std": 0.16661180183291435,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 16
    },
    {
      "completion_length": 713.6458587646484,
      "epoch": 0.04533333333333334,
      "grad_norm": 0.19242540001869202,
      "kl": 0.00024271011352539062,
      "learning_rate": 6.8e-07,
      "loss": 0.0165,
      "reward": 0.22916666977107525,
      "reward_std": 0.35457348451018333,
      "rewards/accuracy_reward": 0.22916666977107525,
      "rewards/format_reward": 0.0,
      "step": 17
    },
    {
      "completion_length": 591.5208435058594,
      "epoch": 0.048,
      "grad_norm": 0.2873741686344147,
      "kl": 0.00020933151245117188,
      "learning_rate": 7.2e-07,
      "loss": -0.0329,
      "reward": 0.22916667349636555,
      "reward_std": 0.40168894082307816,
      "rewards/accuracy_reward": 0.22916667349636555,
      "rewards/format_reward": 0.0,
      "step": 18
    },
    {
      "completion_length": 622.2083587646484,
      "epoch": 0.050666666666666665,
      "grad_norm": 0.20909227430820465,
      "kl": 0.00016427040100097656,
      "learning_rate": 7.600000000000001e-07,
      "loss": 0.1103,
      "reward": 0.27083333767950535,
      "reward_std": 0.2446802221238613,
      "rewards/accuracy_reward": 0.27083333767950535,
      "rewards/format_reward": 0.0,
      "step": 19
    },
    {
      "completion_length": 561.9166793823242,
      "epoch": 0.05333333333333334,
      "grad_norm": 1.7326514720916748,
      "kl": 0.003941774368286133,
      "learning_rate": 8e-07,
      "loss": -0.0138,
      "reward": 0.1458333358168602,
      "reward_std": 0.2350771278142929,
      "rewards/accuracy_reward": 0.1458333358168602,
      "rewards/format_reward": 0.0,
      "step": 20
    },
    {
      "completion_length": 919.6250152587891,
      "epoch": 0.056,
      "grad_norm": 0.15656666457653046,
      "kl": 0.0001838207244873047,
      "learning_rate": 8.400000000000001e-07,
      "loss": -0.02,
      "reward": 0.25000001303851604,
      "reward_std": 0.3332235999405384,
      "rewards/accuracy_reward": 0.25000001303851604,
      "rewards/format_reward": 0.0,
      "step": 21
    },
    {
      "completion_length": 662.7500267028809,
      "epoch": 0.058666666666666666,
      "grad_norm": 0.6273130178451538,
      "kl": 0.0004911422729492188,
      "learning_rate": 8.8e-07,
      "loss": 0.0228,
      "reward": 0.2291666753590107,
      "reward_std": 0.31970490887761116,
      "rewards/accuracy_reward": 0.2291666753590107,
      "rewards/format_reward": 0.0,
      "step": 22
    },
    {
      "completion_length": 724.3958511352539,
      "epoch": 0.06133333333333333,
      "grad_norm": 0.3087979257106781,
      "kl": 0.00020515918731689453,
      "learning_rate": 9.2e-07,
      "loss": 0.0192,
      "reward": 0.1458333395421505,
      "reward_std": 0.23507710918784142,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 23
    },
    {
      "completion_length": 584.0416870117188,
      "epoch": 0.064,
      "grad_norm": 0.4410843253135681,
      "kl": 0.0004787445068359375,
      "learning_rate": 9.600000000000001e-07,
      "loss": -0.0191,
      "reward": 0.2916666716337204,
      "reward_std": 0.4701542556285858,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 24
    },
    {
      "completion_length": 542.3125076293945,
      "epoch": 0.06666666666666667,
      "grad_norm": 0.6044087409973145,
      "kl": 0.0002796649932861328,
      "learning_rate": 1e-06,
      "loss": -0.0329,
      "reward": 0.27083334140479565,
      "reward_std": 0.3720077611505985,
      "rewards/accuracy_reward": 0.27083334140479565,
      "rewards/format_reward": 0.0,
      "step": 25
    },
    {
      "completion_length": 769.7083587646484,
      "epoch": 0.06933333333333333,
      "grad_norm": 0.25316932797431946,
      "kl": 0.00023126602172851562,
      "learning_rate": 1.04e-06,
      "loss": 0.0189,
      "reward": 0.1666666679084301,
      "reward_std": 0.23116152733564377,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 26
    },
    {
      "completion_length": 767.7916870117188,
      "epoch": 0.072,
      "grad_norm": 0.1700117290019989,
      "kl": 0.0002732276916503906,
      "learning_rate": 1.08e-06,
      "loss": -0.0018,
      "reward": 0.1458333395421505,
      "reward_std": 0.1530931033194065,
      "rewards/accuracy_reward": 0.1458333395421505,
      "rewards/format_reward": 0.0,
      "step": 27
    },
    {
      "completion_length": 730.8333435058594,
      "epoch": 0.07466666666666667,
      "grad_norm": 0.3627185821533203,
      "kl": 0.0003504753112792969,
      "learning_rate": 1.12e-06,
      "loss": 0.0534,
      "reward": 0.0833333358168602,
      "reward_std": 0.20412414893507957,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 28
    },
    {
      "completion_length": 638.6666793823242,
      "epoch": 0.07733333333333334,
      "grad_norm": 0.23711198568344116,
      "kl": 0.0003572702407836914,
      "learning_rate": 1.16e-06,
      "loss": 0.0077,
      "reward": 0.12500000186264515,
      "reward_std": 0.22155842557549477,
      "rewards/accuracy_reward": 0.12500000186264515,
      "rewards/format_reward": 0.0,
      "step": 29
    },
    {
      "completion_length": 576.9375228881836,
      "epoch": 0.08,
      "grad_norm": 0.1860937625169754,
      "kl": 0.0005288124084472656,
      "learning_rate": 1.2000000000000002e-06,
      "loss": -0.0037,
      "reward": 0.12500000186264515,
      "reward_std": 0.18404608964920044,
      "rewards/accuracy_reward": 0.12500000186264515,
      "rewards/format_reward": 0.0,
      "step": 30
    },
    {
      "completion_length": 769.3958511352539,
      "epoch": 0.08266666666666667,
      "grad_norm": 0.19105114042758942,
      "kl": 0.0011196136474609375,
      "learning_rate": 1.24e-06,
      "loss": 0.1389,
      "reward": 0.4375000074505806,
      "reward_std": 0.43655750155448914,
      "rewards/accuracy_reward": 0.4375000074505806,
      "rewards/format_reward": 0.0,
      "step": 31
    },
    {
      "completion_length": 853.6042022705078,
      "epoch": 0.08533333333333333,
      "grad_norm": 0.22852593660354614,
      "kl": 0.0007238388061523438,
      "learning_rate": 1.28e-06,
      "loss": 0.0189,
      "reward": 0.1875000037252903,
      "reward_std": 0.33713920414447784,
      "rewards/accuracy_reward": 0.1875000037252903,
      "rewards/format_reward": 0.0,
      "step": 32
    },
    {
      "completion_length": 778.4791870117188,
      "epoch": 0.088,
      "grad_norm": 0.23918747901916504,
      "kl": 0.0009222030639648438,
      "learning_rate": 1.32e-06,
      "loss": -0.0058,
      "reward": 0.3958333469927311,
      "reward_std": 0.3816108703613281,
      "rewards/accuracy_reward": 0.3958333469927311,
      "rewards/format_reward": 0.0,
      "step": 33
    },
    {
      "completion_length": 704.6041793823242,
      "epoch": 0.09066666666666667,
      "grad_norm": 0.4135127365589142,
      "kl": 0.001522064208984375,
      "learning_rate": 1.36e-06,
      "loss": 0.1236,
      "reward": 0.1666666679084301,
      "reward_std": 0.3332235887646675,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 34
    },
    {
      "completion_length": 599.6458511352539,
      "epoch": 0.09333333333333334,
      "grad_norm": 0.3384934365749359,
      "kl": 0.0020999908447265625,
      "learning_rate": 1.4000000000000001e-06,
      "loss": -0.1167,
      "reward": 0.1666666716337204,
      "reward_std": 0.2861081697046757,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 35
    },
    {
      "completion_length": 932.8750305175781,
      "epoch": 0.096,
      "grad_norm": 0.32682985067367554,
      "kl": 0.0016765594482421875,
      "learning_rate": 1.44e-06,
      "loss": 0.0254,
      "reward": 0.3750000111758709,
      "reward_std": 0.4326418787240982,
      "rewards/accuracy_reward": 0.3750000111758709,
      "rewards/format_reward": 0.0,
      "step": 36
    },
    {
      "completion_length": 539.9583587646484,
      "epoch": 0.09866666666666667,
      "grad_norm": 1.6405223608016968,
      "kl": 0.003711700439453125,
      "learning_rate": 1.48e-06,
      "loss": -0.0445,
      "reward": 0.3541666716337204,
      "reward_std": 0.3816108778119087,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 37
    },
    {
      "completion_length": 570.0625228881836,
      "epoch": 0.10133333333333333,
      "grad_norm": 0.28974005579948425,
      "kl": 0.004131317138671875,
      "learning_rate": 1.5200000000000003e-06,
      "loss": -0.0492,
      "reward": 0.2500000037252903,
      "reward_std": 0.2957112640142441,
      "rewards/accuracy_reward": 0.2500000037252903,
      "rewards/format_reward": 0.0,
      "step": 38
    },
    {
      "completion_length": 653.6666946411133,
      "epoch": 0.104,
      "grad_norm": 0.15624871850013733,
      "kl": 0.00244903564453125,
      "learning_rate": 1.56e-06,
      "loss": -0.0274,
      "reward": 0.1666666716337204,
      "reward_std": 0.20148035883903503,
      "rewards/accuracy_reward": 0.1666666716337204,
      "rewards/format_reward": 0.0,
      "step": 39
    },
    {
      "completion_length": 980.7708587646484,
      "epoch": 0.10666666666666667,
      "grad_norm": 0.23032425343990326,
      "kl": 0.002117156982421875,
      "learning_rate": 1.6e-06,
      "loss": 0.105,
      "reward": 0.3958333544433117,
      "reward_std": 0.42872628569602966,
      "rewards/accuracy_reward": 0.3958333544433117,
      "rewards/format_reward": 0.0,
      "step": 40
    },
    {
      "completion_length": 779.8750305175781,
      "epoch": 0.10933333333333334,
      "grad_norm": 0.19505877792835236,
      "kl": 0.005481719970703125,
      "learning_rate": 1.64e-06,
      "loss": 0.0268,
      "reward": 0.31250000558793545,
      "reward_std": 0.3720077611505985,
      "rewards/accuracy_reward": 0.31250000558793545,
      "rewards/format_reward": 0.0,
      "step": 41
    },
    {
      "completion_length": 731.0416870117188,
      "epoch": 0.112,
      "grad_norm": 0.15505914390087128,
      "kl": 0.004322052001953125,
      "learning_rate": 1.6800000000000002e-06,
      "loss": -0.014,
      "reward": 0.5000000074505806,
      "reward_std": 0.18404608964920044,
      "rewards/accuracy_reward": 0.5000000074505806,
      "rewards/format_reward": 0.0,
      "step": 42
    },
    {
      "completion_length": 688.4583587646484,
      "epoch": 0.11466666666666667,
      "grad_norm": 0.4499289393424988,
      "kl": 0.00275421142578125,
      "learning_rate": 1.72e-06,
      "loss": 0.0817,
      "reward": 0.5416666865348816,
      "reward_std": 0.23116152361035347,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 0.0,
      "step": 43
    },
    {
      "completion_length": 882.5000305175781,
      "epoch": 0.11733333333333333,
      "grad_norm": 0.12532763183116913,
      "kl": 0.003265380859375,
      "learning_rate": 1.76e-06,
      "loss": 0.1742,
      "reward": 0.3750000149011612,
      "reward_std": 0.3776952587068081,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/format_reward": 0.0,
      "step": 44
    },
    {
      "completion_length": 962.8125305175781,
      "epoch": 0.12,
      "grad_norm": 0.11625898629426956,
      "kl": 0.001895904541015625,
      "learning_rate": 1.8e-06,
      "loss": 0.1109,
      "reward": 0.2708333395421505,
      "reward_std": 0.2996268458664417,
      "rewards/accuracy_reward": 0.2708333395421505,
      "rewards/format_reward": 0.0,
      "step": 45
    },
    {
      "completion_length": 841.7500152587891,
      "epoch": 0.12266666666666666,
      "grad_norm": 0.05917806923389435,
      "kl": 0.004627227783203125,
      "learning_rate": 1.84e-06,
      "loss": 0.0264,
      "reward": 0.1250000037252903,
      "reward_std": 0.12909945845603943,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 46
    },
    {
      "completion_length": 960.7500305175781,
      "epoch": 0.12533333333333332,
      "grad_norm": 0.12586216628551483,
      "kl": 0.0055255889892578125,
      "learning_rate": 1.8800000000000002e-06,
      "loss": 0.0527,
      "reward": 0.35416667722165585,
      "reward_std": 0.2996268607676029,
      "rewards/accuracy_reward": 0.35416667722165585,
      "rewards/format_reward": 0.0,
      "step": 47
    },
    {
      "completion_length": 838.5417022705078,
      "epoch": 0.128,
      "grad_norm": 0.10650404542684555,
      "kl": 0.00315093994140625,
      "learning_rate": 1.9200000000000003e-06,
      "loss": 0.1018,
      "reward": 0.3750000111758709,
      "reward_std": 0.24859581142663956,
      "rewards/accuracy_reward": 0.3750000111758709,
      "rewards/format_reward": 0.0,
      "step": 48
    },
    {
      "completion_length": 726.0416870117188,
      "epoch": 0.13066666666666665,
      "grad_norm": 0.11485293507575989,
      "kl": 0.008026123046875,
      "learning_rate": 1.96e-06,
      "loss": 0.0354,
      "reward": 0.47916667722165585,
      "reward_std": 0.38161085173487663,
      "rewards/accuracy_reward": 0.47916667722165585,
      "rewards/format_reward": 0.0,
      "step": 49
    },
    {
      "completion_length": 829.6250457763672,
      "epoch": 0.13333333333333333,
      "grad_norm": 0.1546422690153122,
      "kl": 0.0053253173828125,
      "learning_rate": 2e-06,
      "loss": 0.005,
      "reward": 0.6041666716337204,
      "reward_std": 0.37377967685461044,
      "rewards/accuracy_reward": 0.6041666716337204,
      "rewards/format_reward": 0.0,
      "step": 50
    },
    {
      "completion_length": 670.8333435058594,
      "epoch": 0.136,
      "grad_norm": 0.16615261137485504,
      "kl": 0.0036163330078125,
      "learning_rate": 2.0400000000000004e-06,
      "loss": -0.0384,
      "reward": 0.416666679084301,
      "reward_std": 0.3131455332040787,
      "rewards/accuracy_reward": 0.416666679084301,
      "rewards/format_reward": 0.0,
      "step": 51
    },
    {
      "completion_length": 822.1250152587891,
      "epoch": 0.13866666666666666,
      "grad_norm": 0.32312434911727905,
      "kl": 0.00707244873046875,
      "learning_rate": 2.08e-06,
      "loss": -0.0019,
      "reward": 0.2083333358168602,
      "reward_std": 0.30354245007038116,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 52
    },
    {
      "completion_length": 964.8541946411133,
      "epoch": 0.14133333333333334,
      "grad_norm": 0.08396324515342712,
      "kl": 0.003337860107421875,
      "learning_rate": 2.12e-06,
      "loss": 0.0572,
      "reward": 0.3958333395421505,
      "reward_std": 0.2446802258491516,
      "rewards/accuracy_reward": 0.3958333395421505,
      "rewards/format_reward": 0.0,
      "step": 53
    },
    {
      "completion_length": 1055.0417175292969,
      "epoch": 0.144,
      "grad_norm": 0.074210025370121,
      "kl": 0.0041351318359375,
      "learning_rate": 2.16e-06,
      "loss": 0.0675,
      "reward": 0.29166667349636555,
      "reward_std": 0.16661180183291435,
      "rewards/accuracy_reward": 0.29166667349636555,
      "rewards/format_reward": 0.0,
      "step": 54
    },
    {
      "completion_length": 551.2083435058594,
      "epoch": 0.14666666666666667,
      "grad_norm": 0.1495818793773651,
      "kl": 0.007686614990234375,
      "learning_rate": 2.1999999999999997e-06,
      "loss": 0.0052,
      "reward": 0.4375000149011612,
      "reward_std": 0.1530931144952774,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "step": 55
    },
    {
      "completion_length": 519.0833358764648,
      "epoch": 0.14933333333333335,
      "grad_norm": 0.15317903459072113,
      "kl": 0.0075836181640625,
      "learning_rate": 2.24e-06,
      "loss": 0.0578,
      "reward": 0.4375000186264515,
      "reward_std": 0.41912320256233215,
      "rewards/accuracy_reward": 0.4375000186264515,
      "rewards/format_reward": 0.0,
      "step": 56
    },
    {
      "completion_length": 972.2292175292969,
      "epoch": 0.152,
      "grad_norm": 0.11835772544145584,
      "kl": 0.003032684326171875,
      "learning_rate": 2.28e-06,
      "loss": 0.1167,
      "reward": 0.4375000149011612,
      "reward_std": 0.33713919669389725,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "step": 57
    },
    {
      "completion_length": 793.3958435058594,
      "epoch": 0.15466666666666667,
      "grad_norm": 0.12818466126918793,
      "kl": 0.002803802490234375,
      "learning_rate": 2.32e-06,
      "loss": -0.0492,
      "reward": 0.6250000149011612,
      "reward_std": 0.2686738632619381,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 58
    },
    {
      "completion_length": 668.3750152587891,
      "epoch": 0.15733333333333333,
      "grad_norm": 0.11275894194841385,
      "kl": 0.003559112548828125,
      "learning_rate": 2.36e-06,
      "loss": 0.0205,
      "reward": 0.5625000149011612,
      "reward_std": 0.34674228727817535,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 59
    },
    {
      "completion_length": 989.7292175292969,
      "epoch": 0.16,
      "grad_norm": 0.1831459105014801,
      "kl": 0.003498077392578125,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 0.0121,
      "reward": 0.4583333432674408,
      "reward_std": 0.31314554065465927,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/format_reward": 0.0,
      "step": 60
    },
    {
      "completion_length": 904.0833740234375,
      "epoch": 0.16266666666666665,
      "grad_norm": 0.08020555973052979,
      "kl": 0.00287628173828125,
      "learning_rate": 2.44e-06,
      "loss": 0.024,
      "reward": 0.5000000149011612,
      "reward_std": 0.30354243889451027,
      "rewards/accuracy_reward": 0.5000000149011612,
      "rewards/format_reward": 0.0,
      "step": 61
    },
    {
      "completion_length": 806.1875305175781,
      "epoch": 0.16533333333333333,
      "grad_norm": 0.3277391791343689,
      "kl": 0.0061187744140625,
      "learning_rate": 2.48e-06,
      "loss": 0.0241,
      "reward": 0.5625000149011612,
      "reward_std": 0.33713919296860695,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 62
    },
    {
      "completion_length": 600.7500076293945,
      "epoch": 0.168,
      "grad_norm": 0.2129485160112381,
      "kl": 0.008419036865234375,
      "learning_rate": 2.52e-06,
      "loss": 0.115,
      "reward": 0.5625000223517418,
      "reward_std": 0.28219257295131683,
      "rewards/accuracy_reward": 0.5625000223517418,
      "rewards/format_reward": 0.0,
      "step": 63
    },
    {
      "completion_length": 771.1458740234375,
      "epoch": 0.17066666666666666,
      "grad_norm": 0.28386905789375305,
      "kl": 0.00501251220703125,
      "learning_rate": 2.56e-06,
      "loss": 0.0106,
      "reward": 0.6041666865348816,
      "reward_std": 0.42872628569602966,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/format_reward": 0.0,
      "step": 64
    },
    {
      "completion_length": 778.8750228881836,
      "epoch": 0.17333333333333334,
      "grad_norm": 0.10419953614473343,
      "kl": 0.009777069091796875,
      "learning_rate": 2.6e-06,
      "loss": 0.0624,
      "reward": 0.7916666865348816,
      "reward_std": 0.2861081622540951,
      "rewards/accuracy_reward": 0.7916666865348816,
      "rewards/format_reward": 0.0,
      "step": 65
    },
    {
      "completion_length": 861.1875457763672,
      "epoch": 0.176,
      "grad_norm": 0.2341865748167038,
      "kl": 0.00921630859375,
      "learning_rate": 2.64e-06,
      "loss": 0.0133,
      "reward": 0.31250000558793545,
      "reward_std": 0.2996268570423126,
      "rewards/accuracy_reward": 0.31250000558793545,
      "rewards/format_reward": 0.0,
      "step": 66
    },
    {
      "completion_length": 694.6875305175781,
      "epoch": 0.17866666666666667,
      "grad_norm": 0.11757036298513412,
      "kl": 0.013874053955078125,
      "learning_rate": 2.68e-06,
      "loss": 0.0182,
      "reward": 0.708333358168602,
      "reward_std": 0.2861081659793854,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/format_reward": 0.0,
      "step": 67
    },
    {
      "completion_length": 933.8750305175781,
      "epoch": 0.18133333333333335,
      "grad_norm": 0.13943161070346832,
      "kl": 0.012493133544921875,
      "learning_rate": 2.72e-06,
      "loss": 0.1693,
      "reward": 0.41666667722165585,
      "reward_std": 0.2861081510782242,
      "rewards/accuracy_reward": 0.41666667722165585,
      "rewards/format_reward": 0.0,
      "step": 68
    },
    {
      "completion_length": 890.3333587646484,
      "epoch": 0.184,
      "grad_norm": 0.09695959836244583,
      "kl": 0.00414276123046875,
      "learning_rate": 2.7600000000000003e-06,
      "loss": 0.0099,
      "reward": 0.27083334885537624,
      "reward_std": 0.23507710918784142,
      "rewards/accuracy_reward": 0.27083334885537624,
      "rewards/format_reward": 0.0,
      "step": 69
    },
    {
      "completion_length": 740.6250305175781,
      "epoch": 0.18666666666666668,
      "grad_norm": 0.13296610116958618,
      "kl": 0.00751495361328125,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 0.0852,
      "reward": 0.541666679084301,
      "reward_std": 0.37592337280511856,
      "rewards/accuracy_reward": 0.541666679084301,
      "rewards/format_reward": 0.0,
      "step": 70
    },
    {
      "completion_length": 655.1041870117188,
      "epoch": 0.18933333333333333,
      "grad_norm": 0.11237625777721405,
      "kl": 0.008686065673828125,
      "learning_rate": 2.84e-06,
      "loss": 0.0895,
      "reward": 0.6875000298023224,
      "reward_std": 0.28219255805015564,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "step": 71
    },
    {
      "completion_length": 862.8333435058594,
      "epoch": 0.192,
      "grad_norm": 0.18952777981758118,
      "kl": 0.0099639892578125,
      "learning_rate": 2.88e-06,
      "loss": 0.1253,
      "reward": 0.5833333432674408,
      "reward_std": 0.4230388179421425,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/format_reward": 0.0,
      "step": 72
    },
    {
      "completion_length": 639.8333587646484,
      "epoch": 0.19466666666666665,
      "grad_norm": 0.09035161137580872,
      "kl": 0.00690460205078125,
      "learning_rate": 2.9200000000000004e-06,
      "loss": 0.0498,
      "reward": 0.4166666716337204,
      "reward_std": 0.25642700120806694,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/format_reward": 0.0,
      "step": 73
    },
    {
      "completion_length": 793.6875305175781,
      "epoch": 0.19733333333333333,
      "grad_norm": 0.10165846347808838,
      "kl": 0.00469970703125,
      "learning_rate": 2.96e-06,
      "loss": 0.0626,
      "reward": 0.6250000111758709,
      "reward_std": 0.31314554065465927,
      "rewards/accuracy_reward": 0.6250000111758709,
      "rewards/format_reward": 0.0,
      "step": 74
    },
    {
      "completion_length": 896.1250152587891,
      "epoch": 0.2,
      "grad_norm": 0.12082868069410324,
      "kl": 0.004482269287109375,
      "learning_rate": 3e-06,
      "loss": -0.0443,
      "reward": 0.3958333358168602,
      "reward_std": 0.28219256550073624,
      "rewards/accuracy_reward": 0.3958333358168602,
      "rewards/format_reward": 0.0,
      "step": 75
    },
    {
      "completion_length": 525.1875152587891,
      "epoch": 0.20266666666666666,
      "grad_norm": 0.21093720197677612,
      "kl": 0.01087188720703125,
      "learning_rate": 2.9999837537669383e-06,
      "loss": 0.0263,
      "reward": 0.604166679084301,
      "reward_std": 0.2996268570423126,
      "rewards/accuracy_reward": 0.604166679084301,
      "rewards/format_reward": 0.0,
      "step": 76
    },
    {
      "completion_length": 632.3541717529297,
      "epoch": 0.20533333333333334,
      "grad_norm": 0.09489479660987854,
      "kl": 0.00710296630859375,
      "learning_rate": 2.9999350154196726e-06,
      "loss": 0.0416,
      "reward": 0.6875000298023224,
      "reward_std": 0.21764283254742622,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "step": 77
    },
    {
      "completion_length": 835.8125152587891,
      "epoch": 0.208,
      "grad_norm": 0.11504478007555008,
      "kl": 0.00841522216796875,
      "learning_rate": 2.9998537860139563e-06,
      "loss": 0.0233,
      "reward": 0.5416666865348816,
      "reward_std": 0.4152076058089733,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 0.0,
      "step": 78
    },
    {
      "completion_length": 860.5000305175781,
      "epoch": 0.21066666666666667,
      "grad_norm": 0.07925013452768326,
      "kl": 0.00824737548828125,
      "learning_rate": 2.9997400673093517e-06,
      "loss": 0.0732,
      "reward": 0.5000000111758709,
      "reward_std": 0.26603008806705475,
      "rewards/accuracy_reward": 0.5000000111758709,
      "rewards/format_reward": 0.0,
      "step": 79
    },
    {
      "completion_length": 933.6458587646484,
      "epoch": 0.21333333333333335,
      "grad_norm": 0.1141030564904213,
      "kl": 0.009246826171875,
      "learning_rate": 2.9995938617691924e-06,
      "loss": -0.0376,
      "reward": 0.2916666716337204,
      "reward_std": 0.20148037374019623,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 80
    },
    {
      "completion_length": 606.5416870117188,
      "epoch": 0.216,
      "grad_norm": 0.09949828684329987,
      "kl": 0.0077667236328125,
      "learning_rate": 2.9994151725605313e-06,
      "loss": 0.1411,
      "reward": 0.5416666716337204,
      "reward_std": 0.25642701238393784,
      "rewards/accuracy_reward": 0.5416666716337204,
      "rewards/format_reward": 0.0,
      "step": 81
    },
    {
      "completion_length": 759.7500305175781,
      "epoch": 0.21866666666666668,
      "grad_norm": 0.11169271171092987,
      "kl": 0.00763702392578125,
      "learning_rate": 2.9992040035540708e-06,
      "loss": 0.0378,
      "reward": 0.6458333432674408,
      "reward_std": 0.35457348451018333,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/format_reward": 0.0,
      "step": 82
    },
    {
      "completion_length": 885.8958587646484,
      "epoch": 0.22133333333333333,
      "grad_norm": 0.09573396295309067,
      "kl": 0.005886077880859375,
      "learning_rate": 2.9989603593240777e-06,
      "loss": 0.1027,
      "reward": 0.4583333507180214,
      "reward_std": 0.23116152733564377,
      "rewards/accuracy_reward": 0.4583333507180214,
      "rewards/format_reward": 0.0,
      "step": 83
    },
    {
      "completion_length": 844.2291870117188,
      "epoch": 0.224,
      "grad_norm": 0.11840051412582397,
      "kl": 0.004993438720703125,
      "learning_rate": 2.9986842451482876e-06,
      "loss": 0.0166,
      "reward": 0.6458333507180214,
      "reward_std": 0.317061148583889,
      "rewards/accuracy_reward": 0.6458333507180214,
      "rewards/format_reward": 0.0,
      "step": 84
    },
    {
      "completion_length": 699.4166870117188,
      "epoch": 0.22666666666666666,
      "grad_norm": 0.575175940990448,
      "kl": 0.00882720947265625,
      "learning_rate": 2.998375667007787e-06,
      "loss": 0.1395,
      "reward": 0.5833333507180214,
      "reward_std": 0.24859580025076866,
      "rewards/accuracy_reward": 0.5833333507180214,
      "rewards/format_reward": 0.0,
      "step": 85
    },
    {
      "completion_length": 752.3333435058594,
      "epoch": 0.22933333333333333,
      "grad_norm": 0.08685300499200821,
      "kl": 0.00833892822265625,
      "learning_rate": 2.9980346315868857e-06,
      "loss": -0.0384,
      "reward": 0.3750000074505806,
      "reward_std": 0.18404608592391014,
      "rewards/accuracy_reward": 0.3750000074505806,
      "rewards/format_reward": 0.0,
      "step": 86
    },
    {
      "completion_length": 849.0000305175781,
      "epoch": 0.232,
      "grad_norm": 0.08769199252128601,
      "kl": 0.0060882568359375,
      "learning_rate": 2.9976611462729716e-06,
      "loss": -0.036,
      "reward": 0.3958333432674408,
      "reward_std": 0.309229951351881,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/format_reward": 0.0,
      "step": 87
    },
    {
      "completion_length": 692.1666946411133,
      "epoch": 0.23466666666666666,
      "grad_norm": 0.2641507387161255,
      "kl": 0.0601959228515625,
      "learning_rate": 2.997255219156351e-06,
      "loss": -0.0153,
      "reward": 0.5000000149011612,
      "reward_std": 0.10206207260489464,
      "rewards/accuracy_reward": 0.5000000149011612,
      "rewards/format_reward": 0.0,
      "step": 88
    },
    {
      "completion_length": 733.9791946411133,
      "epoch": 0.23733333333333334,
      "grad_norm": 0.11071512848138809,
      "kl": 0.0061798095703125,
      "learning_rate": 2.996816859030072e-06,
      "loss": 0.023,
      "reward": 0.33333333395421505,
      "reward_std": 0.22155842557549477,
      "rewards/accuracy_reward": 0.33333333395421505,
      "rewards/format_reward": 0.0,
      "step": 89
    },
    {
      "completion_length": 776.4583587646484,
      "epoch": 0.24,
      "grad_norm": 0.08652577549219131,
      "kl": 0.005710601806640625,
      "learning_rate": 2.9963460753897363e-06,
      "loss": 0.0425,
      "reward": 0.6041666865348816,
      "reward_std": 0.1530931070446968,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/format_reward": 0.0,
      "step": 90
    },
    {
      "completion_length": 766.8333435058594,
      "epoch": 0.24266666666666667,
      "grad_norm": 0.13474039733409882,
      "kl": 0.00852203369140625,
      "learning_rate": 2.9958428784332913e-06,
      "loss": 0.0211,
      "reward": 0.5833333432674408,
      "reward_std": 0.3332235962152481,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/format_reward": 0.0,
      "step": 91
    },
    {
      "completion_length": 817.7500152587891,
      "epoch": 0.24533333333333332,
      "grad_norm": 1.9350175857543945,
      "kl": 0.00949859619140625,
      "learning_rate": 2.995307279060811e-06,
      "loss": 0.105,
      "reward": 0.4375000074505806,
      "reward_std": 0.2996268458664417,
      "rewards/accuracy_reward": 0.4375000074505806,
      "rewards/format_reward": 0.0,
      "step": 92
    },
    {
      "completion_length": 599.6875152587891,
      "epoch": 0.248,
      "grad_norm": 0.1610657274723053,
      "kl": 0.013885498046875,
      "learning_rate": 2.9947392888742567e-06,
      "loss": 0.0217,
      "reward": 0.6041666716337204,
      "reward_std": 0.11558075994253159,
      "rewards/accuracy_reward": 0.6041666716337204,
      "rewards/format_reward": 0.0,
      "step": 93
    },
    {
      "completion_length": 626.25,
      "epoch": 0.25066666666666665,
      "grad_norm": 0.19253714382648468,
      "kl": 0.01007843017578125,
      "learning_rate": 2.994138920177231e-06,
      "loss": 0.0233,
      "reward": 0.583333358168602,
      "reward_std": 0.16661179810762405,
      "rewards/accuracy_reward": 0.583333358168602,
      "rewards/format_reward": 0.0,
      "step": 94
    },
    {
      "completion_length": 913.4167022705078,
      "epoch": 0.25333333333333335,
      "grad_norm": 0.2549319863319397,
      "kl": 0.010101318359375,
      "learning_rate": 2.9935061859747068e-06,
      "loss": 0.0697,
      "reward": 0.41666668467223644,
      "reward_std": 0.36809216812253,
      "rewards/accuracy_reward": 0.41666668467223644,
      "rewards/format_reward": 0.0,
      "step": 95
    },
    {
      "completion_length": 851.0416870117188,
      "epoch": 0.256,
      "grad_norm": 0.09697781503200531,
      "kl": 0.007923126220703125,
      "learning_rate": 2.9928410999727467e-06,
      "loss": 0.0469,
      "reward": 0.5416666716337204,
      "reward_std": 0.22155842557549477,
      "rewards/accuracy_reward": 0.5416666716337204,
      "rewards/format_reward": 0.0,
      "step": 96
    },
    {
      "completion_length": 1129.5000305175781,
      "epoch": 0.25866666666666666,
      "grad_norm": 0.1845501810312271,
      "kl": 0.00640869140625,
      "learning_rate": 2.9921436765782077e-06,
      "loss": 0.0713,
      "reward": 0.5208333432674408,
      "reward_std": 0.2996268533170223,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/format_reward": 0.0,
      "step": 97
    },
    {
      "completion_length": 841.6875305175781,
      "epoch": 0.2613333333333333,
      "grad_norm": 0.1793762743473053,
      "kl": 0.0106964111328125,
      "learning_rate": 2.9914139308984264e-06,
      "loss": 0.0075,
      "reward": 0.479166679084301,
      "reward_std": 0.28219256550073624,
      "rewards/accuracy_reward": 0.479166679084301,
      "rewards/format_reward": 0.0,
      "step": 98
    },
    {
      "completion_length": 668.7291717529297,
      "epoch": 0.264,
      "grad_norm": 0.2460280954837799,
      "kl": 0.0189361572265625,
      "learning_rate": 2.9906518787408948e-06,
      "loss": 0.0203,
      "reward": 0.3958333507180214,
      "reward_std": 0.33713920041918755,
      "rewards/accuracy_reward": 0.3958333507180214,
      "rewards/format_reward": 0.0,
      "step": 99
    },
    {
      "completion_length": 811.4166870117188,
      "epoch": 0.26666666666666666,
      "grad_norm": 0.16320976614952087,
      "kl": 0.0098114013671875,
      "learning_rate": 2.989857536612915e-06,
      "loss": 0.0632,
      "reward": 0.4375000149011612,
      "reward_std": 0.2900237590074539,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "step": 100
    },
    {
      "completion_length": 876.5000305175781,
      "epoch": 0.2693333333333333,
      "grad_norm": 2.9081761837005615,
      "kl": 0.05722808837890625,
      "learning_rate": 2.989030921721243e-06,
      "loss": 0.0033,
      "reward": 0.5,
      "reward_std": 0.3602609783411026,
      "rewards/accuracy_reward": 0.5,
      "rewards/format_reward": 0.0,
      "step": 101
    },
    {
      "completion_length": 856.0833435058594,
      "epoch": 0.272,
      "grad_norm": 0.12382116168737411,
      "kl": 0.0175018310546875,
      "learning_rate": 2.988172051971717e-06,
      "loss": 0.0418,
      "reward": 0.4166666865348816,
      "reward_std": 0.20412414520978928,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/format_reward": 0.0,
      "step": 102
    },
    {
      "completion_length": 866.6667022705078,
      "epoch": 0.27466666666666667,
      "grad_norm": 0.10861078649759293,
      "kl": 0.01019287109375,
      "learning_rate": 2.9872809459688676e-06,
      "loss": 0.0183,
      "reward": 0.520833358168602,
      "reward_std": 0.33713918179273605,
      "rewards/accuracy_reward": 0.520833358168602,
      "rewards/format_reward": 0.0,
      "step": 103
    },
    {
      "completion_length": 757.8333587646484,
      "epoch": 0.2773333333333333,
      "grad_norm": 0.13254211843013763,
      "kl": 0.02797698974609375,
      "learning_rate": 2.986357623015516e-06,
      "loss": 0.0117,
      "reward": 0.541666679084301,
      "reward_std": 0.19364918768405914,
      "rewards/accuracy_reward": 0.541666679084301,
      "rewards/format_reward": 0.0,
      "step": 104
    },
    {
      "completion_length": 749.7500305175781,
      "epoch": 0.28,
      "grad_norm": 0.18112321197986603,
      "kl": 0.0172882080078125,
      "learning_rate": 2.9854021031123555e-06,
      "loss": 0.0549,
      "reward": 0.7291666865348816,
      "reward_std": 0.27258947119116783,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/format_reward": 0.0,
      "step": 105
    },
    {
      "completion_length": 610.9583511352539,
      "epoch": 0.2826666666666667,
      "grad_norm": 3.0257515907287598,
      "kl": 0.10125732421875,
      "learning_rate": 2.984414406957518e-06,
      "loss": 0.183,
      "reward": 0.3333333469927311,
      "reward_std": 0.2686738818883896,
      "rewards/accuracy_reward": 0.3333333469927311,
      "rewards/format_reward": 0.0,
      "step": 106
    },
    {
      "completion_length": 779.4375228881836,
      "epoch": 0.2853333333333333,
      "grad_norm": 0.8972102403640747,
      "kl": 0.0275115966796875,
      "learning_rate": 2.983394555946126e-06,
      "loss": -0.0191,
      "reward": 0.6250000298023224,
      "reward_std": 0.3131455294787884,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "step": 107
    },
    {
      "completion_length": 613.2708587646484,
      "epoch": 0.288,
      "grad_norm": 0.301284521818161,
      "kl": 0.0101165771484375,
      "learning_rate": 2.9823425721698293e-06,
      "loss": 0.0303,
      "reward": 0.5625,
      "reward_std": 0.11558075994253159,
      "rewards/accuracy_reward": 0.5625,
      "rewards/format_reward": 0.0,
      "step": 108
    },
    {
      "completion_length": 808.8542022705078,
      "epoch": 0.2906666666666667,
      "grad_norm": 0.15024465322494507,
      "kl": 0.01076507568359375,
      "learning_rate": 2.9812584784163257e-06,
      "loss": 0.0379,
      "reward": 0.4791666716337204,
      "reward_std": 0.2996268570423126,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/format_reward": 0.0,
      "step": 109
    },
    {
      "completion_length": 610.6666946411133,
      "epoch": 0.29333333333333333,
      "grad_norm": 0.2403380125761032,
      "kl": 0.021087646484375,
      "learning_rate": 2.980142298168869e-06,
      "loss": 0.0448,
      "reward": 0.5416666716337204,
      "reward_std": 0.47975732386112213,
      "rewards/accuracy_reward": 0.5416666716337204,
      "rewards/format_reward": 0.0,
      "step": 110
    },
    {
      "completion_length": 838.0208587646484,
      "epoch": 0.296,
      "grad_norm": 0.2263801097869873,
      "kl": 0.0153045654296875,
      "learning_rate": 2.9789940556057576e-06,
      "loss": -0.0202,
      "reward": 0.583333358168602,
      "reward_std": 0.3602609820663929,
      "rewards/accuracy_reward": 0.583333358168602,
      "rewards/format_reward": 0.0,
      "step": 111
    },
    {
      "completion_length": 993.0833435058594,
      "epoch": 0.2986666666666667,
      "grad_norm": 1.6176540851593018,
      "kl": 0.027130126953125,
      "learning_rate": 2.9778137755998135e-06,
      "loss": -0.023,
      "reward": 0.2500000074505806,
      "reward_std": 0.18404609709978104,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 112
    },
    {
      "completion_length": 701.2500152587891,
      "epoch": 0.30133333333333334,
      "grad_norm": 0.2460828274488449,
      "kl": 0.0155029296875,
      "learning_rate": 2.9766014837178418e-06,
      "loss": 0.0559,
      "reward": 0.6875000149011612,
      "reward_std": 0.2350771278142929,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/format_reward": 0.0,
      "step": 113
    },
    {
      "completion_length": 851.958366394043,
      "epoch": 0.304,
      "grad_norm": 0.1806672066450119,
      "kl": 0.01204681396484375,
      "learning_rate": 2.975357206220079e-06,
      "loss": 0.0004,
      "reward": 0.6458333432674408,
      "reward_std": 0.2350771203637123,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/format_reward": 0.0,
      "step": 114
    },
    {
      "completion_length": 853.6042022705078,
      "epoch": 0.30666666666666664,
      "grad_norm": 0.355673223733902,
      "kl": 0.0250244140625,
      "learning_rate": 2.97408097005962e-06,
      "loss": 0.1069,
      "reward": 0.5208333358168602,
      "reward_std": 0.34674229472875595,
      "rewards/accuracy_reward": 0.5208333358168602,
      "rewards/format_reward": 0.0,
      "step": 115
    },
    {
      "completion_length": 547.3333511352539,
      "epoch": 0.30933333333333335,
      "grad_norm": 0.09819953143596649,
      "kl": 0.00971221923828125,
      "learning_rate": 2.9727728028818388e-06,
      "loss": 0.0728,
      "reward": 0.8958333432674408,
      "reward_std": 0.1705273948609829,
      "rewards/accuracy_reward": 0.8958333432674408,
      "rewards/format_reward": 0.0,
      "step": 116
    },
    {
      "completion_length": 937.7708587646484,
      "epoch": 0.312,
      "grad_norm": 0.1053454652428627,
      "kl": 0.010650634765625,
      "learning_rate": 2.9714327330237873e-06,
      "loss": 0.0229,
      "reward": 0.5000000037252903,
      "reward_std": 0.12909945845603943,
      "rewards/accuracy_reward": 0.5000000037252903,
      "rewards/format_reward": 0.0,
      "step": 117
    },
    {
      "completion_length": 622.8958435058594,
      "epoch": 0.31466666666666665,
      "grad_norm": 0.1517428457736969,
      "kl": 0.013092041015625,
      "learning_rate": 2.970060789513582e-06,
      "loss": 0.0359,
      "reward": 0.8125000149011612,
      "reward_std": 0.235077116638422,
      "rewards/accuracy_reward": 0.8125000149011612,
      "rewards/format_reward": 0.0,
      "step": 118
    },
    {
      "completion_length": 873.0625305175781,
      "epoch": 0.31733333333333336,
      "grad_norm": 0.147451251745224,
      "kl": 0.016143798828125,
      "learning_rate": 2.968657002069774e-06,
      "loss": 0.0268,
      "reward": 0.6250000223517418,
      "reward_std": 0.3776952587068081,
      "rewards/accuracy_reward": 0.6250000223517418,
      "rewards/format_reward": 0.0,
      "step": 119
    },
    {
      "completion_length": 754.4375305175781,
      "epoch": 0.32,
      "grad_norm": 0.16505473852157593,
      "kl": 0.010101318359375,
      "learning_rate": 2.9672214011007086e-06,
      "loss": 0.0973,
      "reward": 0.6250000149011612,
      "reward_std": 0.4056045264005661,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 120
    },
    {
      "completion_length": 904.4791870117188,
      "epoch": 0.32266666666666666,
      "grad_norm": 0.1410188376903534,
      "kl": 0.01914215087890625,
      "learning_rate": 2.965754017703862e-06,
      "loss": 0.0569,
      "reward": 0.35416666977107525,
      "reward_std": 0.2525114119052887,
      "rewards/accuracy_reward": 0.35416666977107525,
      "rewards/format_reward": 0.0,
      "step": 121
    },
    {
      "completion_length": 792.5000152587891,
      "epoch": 0.3253333333333333,
      "grad_norm": 0.3636722266674042,
      "kl": 0.013519287109375,
      "learning_rate": 2.9642548836651712e-06,
      "loss": 0.0447,
      "reward": 0.6875000149011612,
      "reward_std": 0.33713918551802635,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/format_reward": 0.0,
      "step": 122
    },
    {
      "completion_length": 664.6666870117188,
      "epoch": 0.328,
      "grad_norm": 0.09268064051866531,
      "kl": 0.0204925537109375,
      "learning_rate": 2.962724031458345e-06,
      "loss": 0.0351,
      "reward": 0.6250000149011612,
      "reward_std": 0.12909945845603943,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 123
    },
    {
      "completion_length": 865.5208587646484,
      "epoch": 0.33066666666666666,
      "grad_norm": 0.1581239253282547,
      "kl": 0.0137176513671875,
      "learning_rate": 2.9611614942441577e-06,
      "loss": 0.0515,
      "reward": 0.2708333432674408,
      "reward_std": 0.2996268644928932,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 124
    },
    {
      "completion_length": 803.2500305175781,
      "epoch": 0.3333333333333333,
      "grad_norm": 0.19644340872764587,
      "kl": 0.02410888671875,
      "learning_rate": 2.959567305869736e-06,
      "loss": 0.0212,
      "reward": 0.6875000149011612,
      "reward_std": 0.33713921159505844,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/format_reward": 0.0,
      "step": 125
    },
    {
      "completion_length": 845.5000152587891,
      "epoch": 0.336,
      "grad_norm": 0.5170478820800781,
      "kl": 0.01678466796875,
      "learning_rate": 2.95794150086782e-06,
      "loss": 0.1042,
      "reward": 0.5208333432674408,
      "reward_std": 0.43655747920274734,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/format_reward": 0.0,
      "step": 126
    },
    {
      "completion_length": 817.9791870117188,
      "epoch": 0.33866666666666667,
      "grad_norm": 0.08609090745449066,
      "kl": 0.0124053955078125,
      "learning_rate": 2.956284114456018e-06,
      "loss": 0.065,
      "reward": 0.2500000074505806,
      "reward_std": 0.286108173429966,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 127
    },
    {
      "completion_length": 765.5000152587891,
      "epoch": 0.3413333333333333,
      "grad_norm": 0.14322727918624878,
      "kl": 0.0160369873046875,
      "learning_rate": 2.9545951825360466e-06,
      "loss": 0.0176,
      "reward": 0.604166679084301,
      "reward_std": 0.38161086291074753,
      "rewards/accuracy_reward": 0.604166679084301,
      "rewards/format_reward": 0.0,
      "step": 128
    },
    {
      "completion_length": 702.2708587646484,
      "epoch": 0.344,
      "grad_norm": 0.1747395098209381,
      "kl": 0.017333984375,
      "learning_rate": 2.9528747416929465e-06,
      "loss": -0.0379,
      "reward": 0.4583333395421505,
      "reward_std": 0.18404609709978104,
      "rewards/accuracy_reward": 0.4583333395421505,
      "rewards/format_reward": 0.0,
      "step": 129
    },
    {
      "completion_length": 650.2916870117188,
      "epoch": 0.3466666666666667,
      "grad_norm": 0.07288848608732224,
      "kl": 0.0129547119140625,
      "learning_rate": 2.951122829194296e-06,
      "loss": 0.0248,
      "reward": 0.7083333395421505,
      "reward_std": 0.18404608592391014,
      "rewards/accuracy_reward": 0.7083333395421505,
      "rewards/format_reward": 0.0,
      "step": 130
    },
    {
      "completion_length": 641.8333587646484,
      "epoch": 0.34933333333333333,
      "grad_norm": 0.23963476717472076,
      "kl": 0.0562896728515625,
      "learning_rate": 2.9493394829893994e-06,
      "loss": 0.009,
      "reward": 0.6666667014360428,
      "reward_std": 0.23116152733564377,
      "rewards/accuracy_reward": 0.6666667014360428,
      "rewards/format_reward": 0.0,
      "step": 131
    },
    {
      "completion_length": 847.9583587646484,
      "epoch": 0.352,
      "grad_norm": 0.15714174509048462,
      "kl": 0.02581787109375,
      "learning_rate": 2.9475247417084673e-06,
      "loss": -0.0092,
      "reward": 0.5416666865348816,
      "reward_std": 0.22155843675136566,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 0.0,
      "step": 132
    },
    {
      "completion_length": 609.7708587646484,
      "epoch": 0.3546666666666667,
      "grad_norm": 0.15627437829971313,
      "kl": 0.021453857421875,
      "learning_rate": 2.9456786446617797e-06,
      "loss": 0.0034,
      "reward": 0.5208333395421505,
      "reward_std": 0.2900237515568733,
      "rewards/accuracy_reward": 0.5208333395421505,
      "rewards/format_reward": 0.0,
      "step": 133
    },
    {
      "completion_length": 604.6250305175781,
      "epoch": 0.35733333333333334,
      "grad_norm": 0.2316051423549652,
      "kl": 0.0161590576171875,
      "learning_rate": 2.9438012318388337e-06,
      "loss": -0.0564,
      "reward": 0.6250000260770321,
      "reward_std": 0.23116153106093407,
      "rewards/accuracy_reward": 0.6250000260770321,
      "rewards/format_reward": 0.0,
      "step": 134
    },
    {
      "completion_length": 487.64585876464844,
      "epoch": 0.36,
      "grad_norm": 0.2416388839483261,
      "kl": 0.0159759521484375,
      "learning_rate": 2.9418925439074784e-06,
      "loss": 0.0365,
      "reward": 0.6458333432674408,
      "reward_std": 0.21764282882213593,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/format_reward": 0.0,
      "step": 135
    },
    {
      "completion_length": 736.3750152587891,
      "epoch": 0.3626666666666667,
      "grad_norm": 0.11874468624591827,
      "kl": 0.0135955810546875,
      "learning_rate": 2.9399526222130314e-06,
      "loss": 0.0148,
      "reward": 0.5625000111758709,
      "reward_std": 0.299626849591732,
      "rewards/accuracy_reward": 0.5625000111758709,
      "rewards/format_reward": 0.0,
      "step": 136
    },
    {
      "completion_length": 864.3333740234375,
      "epoch": 0.36533333333333334,
      "grad_norm": 0.21116961538791656,
      "kl": 0.0140228271484375,
      "learning_rate": 2.9379815087773864e-06,
      "loss": 0.0897,
      "reward": 0.5625000298023224,
      "reward_std": 0.31970490142703056,
      "rewards/accuracy_reward": 0.5625000298023224,
      "rewards/format_reward": 0.0,
      "step": 137
    },
    {
      "completion_length": 718.7708435058594,
      "epoch": 0.368,
      "grad_norm": 0.13117057085037231,
      "kl": 0.0204620361328125,
      "learning_rate": 2.9359792462981008e-06,
      "loss": -0.0376,
      "reward": 0.7083333432674408,
      "reward_std": 0.10206206887960434,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/format_reward": 0.0,
      "step": 138
    },
    {
      "completion_length": 740.6875305175781,
      "epoch": 0.37066666666666664,
      "grad_norm": 0.09841669350862503,
      "kl": 0.011810302734375,
      "learning_rate": 2.9339458781474724e-06,
      "loss": 0.0257,
      "reward": 0.7291666865348816,
      "reward_std": 0.2350771278142929,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/format_reward": 0.0,
      "step": 139
    },
    {
      "completion_length": 568.1250305175781,
      "epoch": 0.37333333333333335,
      "grad_norm": 0.1539030224084854,
      "kl": 0.0248260498046875,
      "learning_rate": 2.9318814483715983e-06,
      "loss": -0.0729,
      "reward": 0.45833334140479565,
      "reward_std": 0.24859581515192986,
      "rewards/accuracy_reward": 0.45833334140479565,
      "rewards/format_reward": 0.0,
      "step": 140
    },
    {
      "completion_length": 805.770881652832,
      "epoch": 0.376,
      "grad_norm": 0.17137649655342102,
      "kl": 0.017730712890625,
      "learning_rate": 2.9297860016894203e-06,
      "loss": 0.0541,
      "reward": 0.5208333488553762,
      "reward_std": 0.25515518337488174,
      "rewards/accuracy_reward": 0.5208333488553762,
      "rewards/format_reward": 0.0,
      "step": 141
    },
    {
      "completion_length": 761.3333511352539,
      "epoch": 0.37866666666666665,
      "grad_norm": 0.13019512593746185,
      "kl": 0.0190277099609375,
      "learning_rate": 2.9276595834917606e-06,
      "loss": -0.0356,
      "reward": 0.2708333432674408,
      "reward_std": 0.2525113932788372,
      "rewards/accuracy_reward": 0.2708333432674408,
      "rewards/format_reward": 0.0,
      "step": 142
    },
    {
      "completion_length": 707.4791793823242,
      "epoch": 0.38133333333333336,
      "grad_norm": 0.12470466643571854,
      "kl": 0.018096923828125,
      "learning_rate": 2.925502239840332e-06,
      "loss": 0.0384,
      "reward": 0.5208333432674408,
      "reward_std": 0.2621144950389862,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/format_reward": 0.0,
      "step": 143
    },
    {
      "completion_length": 721.7500152587891,
      "epoch": 0.384,
      "grad_norm": 0.18000547587871552,
      "kl": 0.02191162109375,
      "learning_rate": 2.9233140174667447e-06,
      "loss": 0.0561,
      "reward": 0.5208333488553762,
      "reward_std": 0.23507710918784142,
      "rewards/accuracy_reward": 0.5208333488553762,
      "rewards/format_reward": 0.0,
      "step": 144
    },
    {
      "completion_length": 726.9791717529297,
      "epoch": 0.38666666666666666,
      "grad_norm": 0.11175241321325302,
      "kl": 0.0316162109375,
      "learning_rate": 2.921094963771494e-06,
      "loss": 0.0123,
      "reward": 0.7083333432674408,
      "reward_std": 0.18404608219861984,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/format_reward": 0.0,
      "step": 145
    },
    {
      "completion_length": 760.1458435058594,
      "epoch": 0.3893333333333333,
      "grad_norm": 0.21677181124687195,
      "kl": 0.022491455078125,
      "learning_rate": 2.9188451268229305e-06,
      "loss": 0.0114,
      "reward": 0.5000000204890966,
      "reward_std": 0.350657869130373,
      "rewards/accuracy_reward": 0.5000000204890966,
      "rewards/format_reward": 0.0,
      "step": 146
    },
    {
      "completion_length": 754.7083435058594,
      "epoch": 0.392,
      "grad_norm": 0.14654108881950378,
      "kl": 0.020782470703125,
      "learning_rate": 2.9165645553562214e-06,
      "loss": 0.0552,
      "reward": 0.4791666716337204,
      "reward_std": 0.1530931107699871,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/format_reward": 0.0,
      "step": 147
    },
    {
      "completion_length": 544.9583435058594,
      "epoch": 0.39466666666666667,
      "grad_norm": 0.1994720995426178,
      "kl": 0.02850341796875,
      "learning_rate": 2.914253298772295e-06,
      "loss": -0.0785,
      "reward": 0.6875000298023224,
      "reward_std": 0.36417656019330025,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "step": 148
    },
    {
      "completion_length": 903.3125305175781,
      "epoch": 0.3973333333333333,
      "grad_norm": 0.13350743055343628,
      "kl": 0.016937255859375,
      "learning_rate": 2.9119114071367674e-06,
      "loss": -0.0053,
      "reward": 0.3541666716337204,
      "reward_std": 0.317061148583889,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 149
    },
    {
      "completion_length": 850.8750152587891,
      "epoch": 0.4,
      "grad_norm": 0.10395243018865585,
      "kl": 0.01261138916015625,
      "learning_rate": 2.9095389311788626e-06,
      "loss": -0.0109,
      "reward": 0.5416666828095913,
      "reward_std": 0.23116153106093407,
      "rewards/accuracy_reward": 0.5416666828095913,
      "rewards/format_reward": 0.0,
      "step": 150
    },
    {
      "completion_length": 578.9583435058594,
      "epoch": 0.4026666666666667,
      "grad_norm": 0.07950767129659653,
      "kl": 0.0180816650390625,
      "learning_rate": 2.9071359222903105e-06,
      "loss": 0.0049,
      "reward": 0.7916666865348816,
      "reward_std": 0.16661180183291435,
      "rewards/accuracy_reward": 0.7916666865348816,
      "rewards/format_reward": 0.0,
      "step": 151
    },
    {
      "completion_length": 856.2708435058594,
      "epoch": 0.4053333333333333,
      "grad_norm": 0.11328104138374329,
      "kl": 0.02142333984375,
      "learning_rate": 2.9047024325242336e-06,
      "loss": 0.0096,
      "reward": 0.291666679084301,
      "reward_std": 0.19364918768405914,
      "rewards/accuracy_reward": 0.291666679084301,
      "rewards/format_reward": 0.0,
      "step": 152
    },
    {
      "completion_length": 688.9166870117188,
      "epoch": 0.408,
      "grad_norm": 0.18654842674732208,
      "kl": 0.019317626953125,
      "learning_rate": 2.9022385145940218e-06,
      "loss": 0.0605,
      "reward": 0.6875000298023224,
      "reward_std": 0.38161083683371544,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "step": 153
    },
    {
      "completion_length": 811.1250152587891,
      "epoch": 0.4106666666666667,
      "grad_norm": 0.16071945428848267,
      "kl": 0.01629638671875,
      "learning_rate": 2.899744221872188e-06,
      "loss": 0.0683,
      "reward": 0.6250000223517418,
      "reward_std": 0.3776952847838402,
      "rewards/accuracy_reward": 0.6250000223517418,
      "rewards/format_reward": 0.0,
      "step": 154
    },
    {
      "completion_length": 681.9375152587891,
      "epoch": 0.41333333333333333,
      "grad_norm": 0.24948441982269287,
      "kl": 0.02459716796875,
      "learning_rate": 2.8972196083892137e-06,
      "loss": 0.1382,
      "reward": 0.4583333507180214,
      "reward_std": 0.30354245379567146,
      "rewards/accuracy_reward": 0.4583333507180214,
      "rewards/format_reward": 0.0,
      "step": 155
    },
    {
      "completion_length": 705.625,
      "epoch": 0.416,
      "grad_norm": 0.40736380219459534,
      "kl": 0.018951416015625,
      "learning_rate": 2.894664728832377e-06,
      "loss": 0.0694,
      "reward": 0.6458333432674408,
      "reward_std": 0.33713918551802635,
      "rewards/accuracy_reward": 0.6458333432674408,
      "rewards/format_reward": 0.0,
      "step": 156
    },
    {
      "completion_length": 583.4375228881836,
      "epoch": 0.4186666666666667,
      "grad_norm": 0.19216611981391907,
      "kl": 0.0235443115234375,
      "learning_rate": 2.8920796385445705e-06,
      "loss": 0.1121,
      "reward": 0.6250000149011612,
      "reward_std": 0.22155842557549477,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 157
    },
    {
      "completion_length": 743.3125152587891,
      "epoch": 0.42133333333333334,
      "grad_norm": 0.5183671712875366,
      "kl": 0.02801513671875,
      "learning_rate": 2.889464393523099e-06,
      "loss": -0.0522,
      "reward": 0.6250000223517418,
      "reward_std": 0.36809216812253,
      "rewards/accuracy_reward": 0.6250000223517418,
      "rewards/format_reward": 0.0,
      "step": 158
    },
    {
      "completion_length": 910.2083740234375,
      "epoch": 0.424,
      "grad_norm": 0.146419957280159,
      "kl": 0.02410888671875,
      "learning_rate": 2.8868190504184698e-06,
      "loss": -0.0069,
      "reward": 0.2500000074505806,
      "reward_std": 0.3236205168068409,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 159
    },
    {
      "completion_length": 737.9791793823242,
      "epoch": 0.4266666666666667,
      "grad_norm": 0.2719399034976959,
      "kl": 0.023284912109375,
      "learning_rate": 2.8841436665331635e-06,
      "loss": 0.0355,
      "reward": 0.541666679084301,
      "reward_std": 0.2686738818883896,
      "rewards/accuracy_reward": 0.541666679084301,
      "rewards/format_reward": 0.0,
      "step": 160
    },
    {
      "completion_length": 564.8125076293945,
      "epoch": 0.42933333333333334,
      "grad_norm": 0.13706326484680176,
      "kl": 0.0176849365234375,
      "learning_rate": 2.881438299820394e-06,
      "loss": 0.0708,
      "reward": 0.8541666865348816,
      "reward_std": 0.19756478071212769,
      "rewards/accuracy_reward": 0.8541666865348816,
      "rewards/format_reward": 0.0,
      "step": 161
    },
    {
      "completion_length": 583.9375152587891,
      "epoch": 0.432,
      "grad_norm": 0.2149602472782135,
      "kl": 0.0257720947265625,
      "learning_rate": 2.878703008882852e-06,
      "loss": 0.0253,
      "reward": 0.5833333637565374,
      "reward_std": 0.3506578765809536,
      "rewards/accuracy_reward": 0.5833333637565374,
      "rewards/format_reward": 0.0,
      "step": 162
    },
    {
      "completion_length": 768.9375305175781,
      "epoch": 0.43466666666666665,
      "grad_norm": 0.1322740614414215,
      "kl": 0.026580810546875,
      "learning_rate": 2.8759378529714358e-06,
      "loss": -0.0072,
      "reward": 0.5625000149011612,
      "reward_std": 0.2350771203637123,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 163
    },
    {
      "completion_length": 866.8333740234375,
      "epoch": 0.43733333333333335,
      "grad_norm": 0.27988889813423157,
      "kl": 0.0343017578125,
      "learning_rate": 2.8731428919839684e-06,
      "loss": 0.0259,
      "reward": 0.4583333395421505,
      "reward_std": 0.3680921792984009,
      "rewards/accuracy_reward": 0.4583333395421505,
      "rewards/format_reward": 0.0,
      "step": 164
    },
    {
      "completion_length": 720.4166870117188,
      "epoch": 0.44,
      "grad_norm": 0.29093390703201294,
      "kl": 0.040069580078125,
      "learning_rate": 2.8703181864639013e-06,
      "loss": -0.0024,
      "reward": 0.645833358168602,
      "reward_std": 0.2996268570423126,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/format_reward": 0.0,
      "step": 165
    },
    {
      "completion_length": 830.4791870117188,
      "epoch": 0.44266666666666665,
      "grad_norm": 0.21840965747833252,
      "kl": 0.04143524169921875,
      "learning_rate": 2.867463797598999e-06,
      "loss": 0.1342,
      "reward": 0.708333358168602,
      "reward_std": 0.415207602083683,
      "rewards/accuracy_reward": 0.708333358168602,
      "rewards/format_reward": 0.0,
      "step": 166
    },
    {
      "completion_length": 838.8125152587891,
      "epoch": 0.44533333333333336,
      "grad_norm": 0.13068810105323792,
      "kl": 0.055908203125,
      "learning_rate": 2.8645797872200178e-06,
      "loss": -0.0275,
      "reward": 0.5833333432674408,
      "reward_std": 0.31314554065465927,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/format_reward": 0.0,
      "step": 167
    },
    {
      "completion_length": 860.8125305175781,
      "epoch": 0.448,
      "grad_norm": 0.232852965593338,
      "kl": 0.0428466796875,
      "learning_rate": 2.861666217799363e-06,
      "loss": 0.0165,
      "reward": 0.4375000149011612,
      "reward_std": 0.31970490515232086,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "step": 168
    },
    {
      "completion_length": 885.5208587646484,
      "epoch": 0.45066666666666666,
      "grad_norm": 0.34133827686309814,
      "kl": 0.032501220703125,
      "learning_rate": 2.8587231524497397e-06,
      "loss": 0.0144,
      "reward": 0.6250000223517418,
      "reward_std": 0.3602609820663929,
      "rewards/accuracy_reward": 0.6250000223517418,
      "rewards/format_reward": 0.0,
      "step": 169
    },
    {
      "completion_length": 701.1666793823242,
      "epoch": 0.4533333333333333,
      "grad_norm": 0.10134287923574448,
      "kl": 0.0167388916015625,
      "learning_rate": 2.855750654922781e-06,
      "loss": 0.05,
      "reward": 0.833333358168602,
      "reward_std": 0.23116152361035347,
      "rewards/accuracy_reward": 0.833333358168602,
      "rewards/format_reward": 0.0,
      "step": 170
    },
    {
      "completion_length": 909.3125457763672,
      "epoch": 0.456,
      "grad_norm": 0.1822938621044159,
      "kl": 0.02960205078125,
      "learning_rate": 2.852748789607671e-06,
      "loss": 0.1012,
      "reward": 0.6041666865348816,
      "reward_std": 0.40168893337249756,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/format_reward": 0.0,
      "step": 171
    },
    {
      "completion_length": 1057.0625305175781,
      "epoch": 0.45866666666666667,
      "grad_norm": 0.15899233520030975,
      "kl": 0.057373046875,
      "learning_rate": 2.8497176215297474e-06,
      "loss": 0.0381,
      "reward": 0.3958333432674408,
      "reward_std": 0.44616060703992844,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/format_reward": 0.0,
      "step": 172
    },
    {
      "completion_length": 730.3750305175781,
      "epoch": 0.4613333333333333,
      "grad_norm": 2.6546502113342285,
      "kl": 0.094482421875,
      "learning_rate": 2.846657216349094e-06,
      "loss": 0.1087,
      "reward": 0.4583333432674408,
      "reward_std": 0.30354245752096176,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/format_reward": 0.0,
      "step": 173
    },
    {
      "completion_length": 993.375,
      "epoch": 0.464,
      "grad_norm": 0.15241017937660217,
      "kl": 0.0701904296875,
      "learning_rate": 2.8435676403591196e-06,
      "loss": 0.038,
      "reward": 0.45833334885537624,
      "reward_std": 0.2861081510782242,
      "rewards/accuracy_reward": 0.45833334885537624,
      "rewards/format_reward": 0.0,
      "step": 174
    },
    {
      "completion_length": 867.5208587646484,
      "epoch": 0.4666666666666667,
      "grad_norm": 0.32228943705558777,
      "kl": 0.03955078125,
      "learning_rate": 2.8404489604851183e-06,
      "loss": 0.0841,
      "reward": 0.5625000074505806,
      "reward_std": 0.38161084800958633,
      "rewards/accuracy_reward": 0.5625000074505806,
      "rewards/format_reward": 0.0,
      "step": 175
    },
    {
      "completion_length": 930.9167022705078,
      "epoch": 0.4693333333333333,
      "grad_norm": 0.4391748607158661,
      "kl": 0.055755615234375,
      "learning_rate": 2.837301244282825e-06,
      "loss": 0.072,
      "reward": 0.7291666865348816,
      "reward_std": 0.334495410323143,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/format_reward": 0.0,
      "step": 176
    },
    {
      "completion_length": 959.8125,
      "epoch": 0.472,
      "grad_norm": 0.30479004979133606,
      "kl": 0.08367919921875,
      "learning_rate": 2.8341245599369467e-06,
      "loss": 0.1316,
      "reward": 0.4375000111758709,
      "reward_std": 0.33713920041918755,
      "rewards/accuracy_reward": 0.4375000111758709,
      "rewards/format_reward": 0.0,
      "step": 177
    },
    {
      "completion_length": 784.5208587646484,
      "epoch": 0.4746666666666667,
      "grad_norm": 0.4404268264770508,
      "kl": 0.41534423828125,
      "learning_rate": 2.830918976259689e-06,
      "loss": 0.0321,
      "reward": 0.7291666716337204,
      "reward_std": 0.235077116638422,
      "rewards/accuracy_reward": 0.7291666716337204,
      "rewards/format_reward": 0.0,
      "step": 178
    },
    {
      "completion_length": 704.6875076293945,
      "epoch": 0.47733333333333333,
      "grad_norm": 0.21096909046173096,
      "kl": 0.09588623046875,
      "learning_rate": 2.827684562689265e-06,
      "loss": -0.0393,
      "reward": 0.6250000298023224,
      "reward_std": 0.20412414148449898,
      "rewards/accuracy_reward": 0.6250000298023224,
      "rewards/format_reward": 0.0,
      "step": 179
    },
    {
      "completion_length": 905.7708587646484,
      "epoch": 0.48,
      "grad_norm": 0.3012356758117676,
      "kl": 0.159423828125,
      "learning_rate": 2.8244213892883906e-06,
      "loss": 0.1138,
      "reward": 0.45833333395421505,
      "reward_std": 0.32362050563097,
      "rewards/accuracy_reward": 0.45833333395421505,
      "rewards/format_reward": 0.0,
      "step": 180
    },
    {
      "completion_length": 786.2292022705078,
      "epoch": 0.4826666666666667,
      "grad_norm": 0.3507545292377472,
      "kl": 0.203125,
      "learning_rate": 2.821129526742766e-06,
      "loss": 0.1097,
      "reward": 0.4583333432674408,
      "reward_std": 0.32097672671079636,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/format_reward": 0.0,
      "step": 181
    },
    {
      "completion_length": 819.5000305175781,
      "epoch": 0.48533333333333334,
      "grad_norm": 0.15901023149490356,
      "kl": 0.1199951171875,
      "learning_rate": 2.8178090463595464e-06,
      "loss": 0.0023,
      "reward": 0.4166666716337204,
      "reward_std": 0.20148037374019623,
      "rewards/accuracy_reward": 0.4166666716337204,
      "rewards/format_reward": 0.0,
      "step": 182
    },
    {
      "completion_length": 763.6041870117188,
      "epoch": 0.488,
      "grad_norm": 0.9456762671470642,
      "kl": 0.3079833984375,
      "learning_rate": 2.814460020065795e-06,
      "loss": -0.0257,
      "reward": 0.5416666865348816,
      "reward_std": 0.26603008806705475,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 0.0,
      "step": 183
    },
    {
      "completion_length": 770.3125152587891,
      "epoch": 0.49066666666666664,
      "grad_norm": 0.6205459833145142,
      "kl": 0.220458984375,
      "learning_rate": 2.8110825204069292e-06,
      "loss": 0.0208,
      "reward": 0.5000000223517418,
      "reward_std": 0.4230387955904007,
      "rewards/accuracy_reward": 0.5000000223517418,
      "rewards/format_reward": 0.0,
      "step": 184
    },
    {
      "completion_length": 920.4166870117188,
      "epoch": 0.49333333333333335,
      "grad_norm": 0.23448574542999268,
      "kl": 0.085784912109375,
      "learning_rate": 2.8076766205451433e-06,
      "loss": 0.1141,
      "reward": 0.3750000074505806,
      "reward_std": 0.3680921792984009,
      "rewards/accuracy_reward": 0.3750000074505806,
      "rewards/format_reward": 0.0,
      "step": 185
    },
    {
      "completion_length": 823.4375305175781,
      "epoch": 0.496,
      "grad_norm": 0.1786121129989624,
      "kl": 0.04027557373046875,
      "learning_rate": 2.8042423942578284e-06,
      "loss": 0.0038,
      "reward": 0.6041666828095913,
      "reward_std": 0.28219256177544594,
      "rewards/accuracy_reward": 0.6041666828095913,
      "rewards/format_reward": 0.0,
      "step": 186
    },
    {
      "completion_length": 816.6041870117188,
      "epoch": 0.49866666666666665,
      "grad_norm": 0.18998931348323822,
      "kl": 0.22528076171875,
      "learning_rate": 2.800779915935972e-06,
      "loss": 0.0081,
      "reward": 0.5625000204890966,
      "reward_std": 0.2350771240890026,
      "rewards/accuracy_reward": 0.5625000204890966,
      "rewards/format_reward": 0.0,
      "step": 187
    },
    {
      "completion_length": 1057.0833587646484,
      "epoch": 0.5013333333333333,
      "grad_norm": 0.6255596280097961,
      "kl": 0.224365234375,
      "learning_rate": 2.7972892605825464e-06,
      "loss": 0.0974,
      "reward": 0.3750000149011612,
      "reward_std": 0.24859579652547836,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/format_reward": 0.0,
      "step": 188
    },
    {
      "completion_length": 768.5416870117188,
      "epoch": 0.504,
      "grad_norm": 0.36918389797210693,
      "kl": 0.1812286376953125,
      "learning_rate": 2.7937705038108863e-06,
      "loss": -0.0044,
      "reward": 0.3958333469927311,
      "reward_std": 0.36417658627033234,
      "rewards/accuracy_reward": 0.3958333469927311,
      "rewards/format_reward": 0.0,
      "step": 189
    },
    {
      "completion_length": 756.9375152587891,
      "epoch": 0.5066666666666667,
      "grad_norm": 1.1205483675003052,
      "kl": 0.2040252685546875,
      "learning_rate": 2.7902237218430485e-06,
      "loss": 0.2227,
      "reward": 0.6875000298023224,
      "reward_std": 0.36417656391859055,
      "rewards/accuracy_reward": 0.6875000298023224,
      "rewards/format_reward": 0.0,
      "step": 190
    },
    {
      "completion_length": 843.4166870117188,
      "epoch": 0.5093333333333333,
      "grad_norm": 0.6259863972663879,
      "kl": 0.201416015625,
      "learning_rate": 2.7866489915081606e-06,
      "loss": 0.1422,
      "reward": 0.3958333544433117,
      "reward_std": 0.38161084800958633,
      "rewards/accuracy_reward": 0.3958333544433117,
      "rewards/format_reward": 0.0,
      "step": 191
    },
    {
      "completion_length": 1043.2292175292969,
      "epoch": 0.512,
      "grad_norm": 3.836799144744873,
      "kl": 0.7412109375,
      "learning_rate": 2.78304639024076e-06,
      "loss": 0.2273,
      "reward": 0.4583333358168602,
      "reward_std": 0.2686738818883896,
      "rewards/accuracy_reward": 0.4583333358168602,
      "rewards/format_reward": 0.0,
      "step": 192
    },
    {
      "completion_length": 1042.2291870117188,
      "epoch": 0.5146666666666667,
      "grad_norm": 3.3550195693969727,
      "kl": 0.6171875,
      "learning_rate": 2.7794159960791125e-06,
      "loss": 0.1258,
      "reward": 0.5625000149011612,
      "reward_std": 0.1705274023115635,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 193
    },
    {
      "completion_length": 1017.2500305175781,
      "epoch": 0.5173333333333333,
      "grad_norm": 12.088400840759277,
      "kl": 1.6103515625,
      "learning_rate": 2.775757887663525e-06,
      "loss": 0.2264,
      "reward": 0.45833333395421505,
      "reward_std": 0.3977733328938484,
      "rewards/accuracy_reward": 0.45833333395421505,
      "rewards/format_reward": 0.0,
      "step": 194
    },
    {
      "completion_length": 995.3542175292969,
      "epoch": 0.52,
      "grad_norm": 4.430953502655029,
      "kl": 0.4501953125,
      "learning_rate": 2.772072144234639e-06,
      "loss": 0.0376,
      "reward": 0.3750000111758709,
      "reward_std": 0.3776952587068081,
      "rewards/accuracy_reward": 0.3750000111758709,
      "rewards/format_reward": 0.0,
      "step": 195
    },
    {
      "completion_length": 707.4375076293945,
      "epoch": 0.5226666666666666,
      "grad_norm": 2.779906749725342,
      "kl": 0.2867431640625,
      "learning_rate": 2.7683588456317177e-06,
      "loss": 0.0161,
      "reward": 0.6250000223517418,
      "reward_std": 0.38552645593881607,
      "rewards/accuracy_reward": 0.6250000223517418,
      "rewards/format_reward": 0.0,
      "step": 196
    },
    {
      "completion_length": 682.6250152587891,
      "epoch": 0.5253333333333333,
      "grad_norm": 1.7151806354522705,
      "kl": 0.238525390625,
      "learning_rate": 2.764618072290913e-06,
      "loss": -0.0224,
      "reward": 0.37500000558793545,
      "reward_std": 0.32097671553492546,
      "rewards/accuracy_reward": 0.37500000558793545,
      "rewards/format_reward": 0.0,
      "step": 197
    },
    {
      "completion_length": 908.3541717529297,
      "epoch": 0.528,
      "grad_norm": 5.420147895812988,
      "kl": 0.329833984375,
      "learning_rate": 2.7608499052435266e-06,
      "loss": 0.0899,
      "reward": 0.583333358168602,
      "reward_std": 0.4500761702656746,
      "rewards/accuracy_reward": 0.583333358168602,
      "rewards/format_reward": 0.0,
      "step": 198
    },
    {
      "completion_length": 823.0208587646484,
      "epoch": 0.5306666666666666,
      "grad_norm": 2.1091978549957275,
      "kl": 0.2232666015625,
      "learning_rate": 2.757054426114251e-06,
      "loss": 0.0821,
      "reward": 0.666666679084301,
      "reward_std": 0.22155843675136566,
      "rewards/accuracy_reward": 0.666666679084301,
      "rewards/format_reward": 0.0,
      "step": 199
    },
    {
      "completion_length": 670.4583587646484,
      "epoch": 0.5333333333333333,
      "grad_norm": 3.2582030296325684,
      "kl": 0.3426513671875,
      "learning_rate": 2.753231717119405e-06,
      "loss": -0.0217,
      "reward": 0.6250000149011612,
      "reward_std": 0.2861081585288048,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 200
    },
    {
      "completion_length": 620.9583435058594,
      "epoch": 0.536,
      "grad_norm": 2.6548030376434326,
      "kl": 0.317626953125,
      "learning_rate": 2.749381861065149e-06,
      "loss": 0.0096,
      "reward": 0.4375000111758709,
      "reward_std": 0.28219256177544594,
      "rewards/accuracy_reward": 0.4375000111758709,
      "rewards/format_reward": 0.0,
      "step": 201
    },
    {
      "completion_length": 744.6041870117188,
      "epoch": 0.5386666666666666,
      "grad_norm": 1.7339693307876587,
      "kl": 0.538330078125,
      "learning_rate": 2.7455049413456964e-06,
      "loss": 0.0956,
      "reward": 0.47916669212281704,
      "reward_std": 0.28219255805015564,
      "rewards/accuracy_reward": 0.47916669212281704,
      "rewards/format_reward": 0.0,
      "step": 202
    },
    {
      "completion_length": 586.5208511352539,
      "epoch": 0.5413333333333333,
      "grad_norm": 4.914543151855469,
      "kl": 0.373291015625,
      "learning_rate": 2.741601041941501e-06,
      "loss": 0.0462,
      "reward": 0.645833358168602,
      "reward_std": 0.33713919669389725,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/format_reward": 0.0,
      "step": 203
    },
    {
      "completion_length": 734.645866394043,
      "epoch": 0.544,
      "grad_norm": 4.155093193054199,
      "kl": 0.401123046875,
      "learning_rate": 2.7376702474174426e-06,
      "loss": -0.0151,
      "reward": 0.604166679084301,
      "reward_std": 0.2350771352648735,
      "rewards/accuracy_reward": 0.604166679084301,
      "rewards/format_reward": 0.0,
      "step": 204
    },
    {
      "completion_length": 737.4375305175781,
      "epoch": 0.5466666666666666,
      "grad_norm": 3.2076289653778076,
      "kl": 0.97149658203125,
      "learning_rate": 2.7337126429209934e-06,
      "loss": 0.0455,
      "reward": 0.5625000149011612,
      "reward_std": 0.33713920041918755,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 205
    },
    {
      "completion_length": 620.2500152587891,
      "epoch": 0.5493333333333333,
      "grad_norm": 28.125852584838867,
      "kl": 4.544921875,
      "learning_rate": 2.729728314180373e-06,
      "loss": 0.0901,
      "reward": 0.479166679084301,
      "reward_std": 0.42872631549835205,
      "rewards/accuracy_reward": 0.479166679084301,
      "rewards/format_reward": 0.0,
      "step": 206
    },
    {
      "completion_length": 894.8333587646484,
      "epoch": 0.552,
      "grad_norm": 43.36728286743164,
      "kl": 1.431640625,
      "learning_rate": 2.725717347502693e-06,
      "loss": 0.14,
      "reward": 0.3958333432674408,
      "reward_std": 0.36417659372091293,
      "rewards/accuracy_reward": 0.3958333432674408,
      "rewards/format_reward": 0.0,
      "step": 207
    },
    {
      "completion_length": 730.4583587646484,
      "epoch": 0.5546666666666666,
      "grad_norm": 15.029769897460938,
      "kl": 1.0419921875,
      "learning_rate": 2.7216798297720855e-06,
      "loss": 0.0142,
      "reward": 0.2916666753590107,
      "reward_std": 0.2861081659793854,
      "rewards/accuracy_reward": 0.2916666753590107,
      "rewards/format_reward": 0.0,
      "step": 208
    },
    {
      "completion_length": 599.1666870117188,
      "epoch": 0.5573333333333333,
      "grad_norm": 2.065986394882202,
      "kl": 0.42669677734375,
      "learning_rate": 2.7176158484478224e-06,
      "loss": 0.0308,
      "reward": 0.5416666716337204,
      "reward_std": 0.3776952847838402,
      "rewards/accuracy_reward": 0.5416666716337204,
      "rewards/format_reward": 0.0,
      "step": 209
    },
    {
      "completion_length": 697.2083435058594,
      "epoch": 0.56,
      "grad_norm": 0.4965348541736603,
      "kl": 0.12176513671875,
      "learning_rate": 2.713525491562421e-06,
      "loss": 0.0151,
      "reward": 0.5416666772216558,
      "reward_std": 0.23899271339178085,
      "rewards/accuracy_reward": 0.5416666772216558,
      "rewards/format_reward": 0.0,
      "step": 210
    },
    {
      "completion_length": 594.5208587646484,
      "epoch": 0.5626666666666666,
      "grad_norm": 8.045109748840332,
      "kl": 0.330322265625,
      "learning_rate": 2.709408847719737e-06,
      "loss": 0.0581,
      "reward": 0.5625000111758709,
      "reward_std": 0.37377967685461044,
      "rewards/accuracy_reward": 0.5625000111758709,
      "rewards/format_reward": 0.0,
      "step": 211
    },
    {
      "completion_length": 852.3333435058594,
      "epoch": 0.5653333333333334,
      "grad_norm": 2.485161066055298,
      "kl": 0.36962890625,
      "learning_rate": 2.705266006093043e-06,
      "loss": 0.0566,
      "reward": 0.645833358168602,
      "reward_std": 0.37377968057990074,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/format_reward": 0.0,
      "step": 212
    },
    {
      "completion_length": 788.0833435058594,
      "epoch": 0.568,
      "grad_norm": 2.3095505237579346,
      "kl": 0.4625244140625,
      "learning_rate": 2.7010970564231e-06,
      "loss": 0.0677,
      "reward": 0.6041666828095913,
      "reward_std": 0.27258946746587753,
      "rewards/accuracy_reward": 0.6041666828095913,
      "rewards/format_reward": 0.0,
      "step": 213
    },
    {
      "completion_length": 673.5833587646484,
      "epoch": 0.5706666666666667,
      "grad_norm": 40.70173645019531,
      "kl": 5.20703125,
      "learning_rate": 2.696902089016213e-06,
      "loss": 0.3097,
      "reward": 0.4791666753590107,
      "reward_std": 0.40952012687921524,
      "rewards/accuracy_reward": 0.4791666753590107,
      "rewards/format_reward": 0.0,
      "step": 214
    },
    {
      "completion_length": 735.2708511352539,
      "epoch": 0.5733333333333334,
      "grad_norm": 5.52685022354126,
      "kl": 1.55078125,
      "learning_rate": 2.6926811947422717e-06,
      "loss": -0.021,
      "reward": 0.5208333358168602,
      "reward_std": 0.3170611336827278,
      "rewards/accuracy_reward": 0.5208333358168602,
      "rewards/format_reward": 0.0,
      "step": 215
    },
    {
      "completion_length": 659.0000228881836,
      "epoch": 0.576,
      "grad_norm": 7.676098346710205,
      "kl": 0.54638671875,
      "learning_rate": 2.688434465032786e-06,
      "loss": 0.132,
      "reward": 0.5833333432674408,
      "reward_std": 0.4326419085264206,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/format_reward": 0.0,
      "step": 216
    },
    {
      "completion_length": 651.1666717529297,
      "epoch": 0.5786666666666667,
      "grad_norm": 2.9158401489257812,
      "kl": 0.712890625,
      "learning_rate": 2.6841619918789038e-06,
      "loss": 0.0471,
      "reward": 0.6250000149011612,
      "reward_std": 0.26603010296821594,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 217
    },
    {
      "completion_length": 708.9166870117188,
      "epoch": 0.5813333333333334,
      "grad_norm": 7.161975383758545,
      "kl": 1.939453125,
      "learning_rate": 2.679863867829417e-06,
      "loss": 0.199,
      "reward": 0.3750000149011612,
      "reward_std": 0.26603008806705475,
      "rewards/accuracy_reward": 0.3750000149011612,
      "rewards/format_reward": 0.0,
      "step": 218
    },
    {
      "completion_length": 791.8958435058594,
      "epoch": 0.584,
      "grad_norm": 3.1737961769104004,
      "kl": 0.8603515625,
      "learning_rate": 2.67554018598876e-06,
      "loss": 0.0281,
      "reward": 0.479166679084301,
      "reward_std": 0.2350771278142929,
      "rewards/accuracy_reward": 0.479166679084301,
      "rewards/format_reward": 0.0,
      "step": 219
    },
    {
      "completion_length": 940.2708435058594,
      "epoch": 0.5866666666666667,
      "grad_norm": 4.666038990020752,
      "kl": 0.8388671875,
      "learning_rate": 2.671191040014989e-06,
      "loss": 0.0128,
      "reward": 0.541666679084301,
      "reward_std": 0.3506578803062439,
      "rewards/accuracy_reward": 0.541666679084301,
      "rewards/format_reward": 0.0,
      "step": 220
    },
    {
      "completion_length": 721.3958435058594,
      "epoch": 0.5893333333333334,
      "grad_norm": 0.6132449507713318,
      "kl": 0.56298828125,
      "learning_rate": 2.666816524117757e-06,
      "loss": -0.0265,
      "reward": 0.2708333395421505,
      "reward_std": 0.2446802221238613,
      "rewards/accuracy_reward": 0.2708333395421505,
      "rewards/format_reward": 0.0,
      "step": 221
    },
    {
      "completion_length": 859.0416870117188,
      "epoch": 0.592,
      "grad_norm": 4.1063385009765625,
      "kl": 0.29248046875,
      "learning_rate": 2.6624167330562694e-06,
      "loss": -0.0277,
      "reward": 0.4791666828095913,
      "reward_std": 0.34674228727817535,
      "rewards/accuracy_reward": 0.4791666828095913,
      "rewards/format_reward": 0.0,
      "step": 222
    },
    {
      "completion_length": 823.2291870117188,
      "epoch": 0.5946666666666667,
      "grad_norm": 1.2631244659423828,
      "kl": 0.5458984375,
      "learning_rate": 2.657991762137235e-06,
      "loss": 0.0232,
      "reward": 0.2500000037252903,
      "reward_std": 0.2957112602889538,
      "rewards/accuracy_reward": 0.2500000037252903,
      "rewards/format_reward": 0.0,
      "step": 223
    },
    {
      "completion_length": 575.0000152587891,
      "epoch": 0.5973333333333334,
      "grad_norm": 5.164083957672119,
      "kl": 3.855224609375,
      "learning_rate": 2.653541707212799e-06,
      "loss": -0.0518,
      "reward": 0.3333333395421505,
      "reward_std": 0.3332235999405384,
      "rewards/accuracy_reward": 0.3333333395421505,
      "rewards/format_reward": 0.0,
      "step": 224
    },
    {
      "completion_length": 526.0000228881836,
      "epoch": 0.6,
      "grad_norm": 4.015169143676758,
      "kl": 1.4453125,
      "learning_rate": 2.649066664678467e-06,
      "loss": -0.0142,
      "reward": 0.6250000223517418,
      "reward_std": 0.4230388030409813,
      "rewards/accuracy_reward": 0.6250000223517418,
      "rewards/format_reward": 0.0,
      "step": 225
    },
    {
      "completion_length": 660.2083587646484,
      "epoch": 0.6026666666666667,
      "grad_norm": 2.765709400177002,
      "kl": 2.708984375,
      "learning_rate": 2.6445667314710174e-06,
      "loss": 0.0736,
      "reward": 0.4375000149011612,
      "reward_std": 0.21764283254742622,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "step": 226
    },
    {
      "completion_length": 628.0000076293945,
      "epoch": 0.6053333333333333,
      "grad_norm": 1.9771387577056885,
      "kl": 0.358154296875,
      "learning_rate": 2.6400420050664027e-06,
      "loss": 0.0267,
      "reward": 0.5833333432674408,
      "reward_std": 0.3506578728556633,
      "rewards/accuracy_reward": 0.5833333432674408,
      "rewards/format_reward": 0.0,
      "step": 227
    },
    {
      "completion_length": 596.3750228881836,
      "epoch": 0.608,
      "grad_norm": 9.701559066772461,
      "kl": 2.94921875,
      "learning_rate": 2.6354925834776346e-06,
      "loss": 0.1108,
      "reward": 0.6666666865348816,
      "reward_std": 0.40296073257923126,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.0,
      "step": 228
    },
    {
      "completion_length": 695.5208587646484,
      "epoch": 0.6106666666666667,
      "grad_norm": 10.11015796661377,
      "kl": 2.19921875,
      "learning_rate": 2.6309185652526653e-06,
      "loss": 0.1138,
      "reward": 0.29166667349636555,
      "reward_std": 0.31314554437994957,
      "rewards/accuracy_reward": 0.29166667349636555,
      "rewards/format_reward": 0.0,
      "step": 229
    },
    {
      "completion_length": 897.9583435058594,
      "epoch": 0.6133333333333333,
      "grad_norm": 4.603687763214111,
      "kl": 2.24267578125,
      "learning_rate": 2.626320049472249e-06,
      "loss": 0.0939,
      "reward": 0.3958333469927311,
      "reward_std": 0.3266642242670059,
      "rewards/accuracy_reward": 0.3958333469927311,
      "rewards/format_reward": 0.0,
      "step": 230
    },
    {
      "completion_length": 647.6041870117188,
      "epoch": 0.616,
      "grad_norm": 3.770287036895752,
      "kl": 1.5478515625,
      "learning_rate": 2.621697135747798e-06,
      "loss": 0.0139,
      "reward": 0.4791666865348816,
      "reward_std": 0.3720077723264694,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 0.0,
      "step": 231
    },
    {
      "completion_length": 513.5833435058594,
      "epoch": 0.6186666666666667,
      "grad_norm": 2.456714153289795,
      "kl": 2.1630859375,
      "learning_rate": 2.6170499242192243e-06,
      "loss": 0.0842,
      "reward": 0.4375000149011612,
      "reward_std": 0.2446802221238613,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "step": 232
    },
    {
      "completion_length": 921.4583740234375,
      "epoch": 0.6213333333333333,
      "grad_norm": 3.1872363090515137,
      "kl": 2.4111328125,
      "learning_rate": 2.6123785155527693e-06,
      "loss": 0.0178,
      "reward": 0.5000000074505806,
      "reward_std": 0.4797573611140251,
      "rewards/accuracy_reward": 0.5000000074505806,
      "rewards/format_reward": 0.0,
      "step": 233
    },
    {
      "completion_length": 564.6458511352539,
      "epoch": 0.624,
      "grad_norm": 2.388471841812134,
      "kl": 1.87744140625,
      "learning_rate": 2.607683010938826e-06,
      "loss": -0.0138,
      "reward": 0.37500001303851604,
      "reward_std": 0.2861081659793854,
      "rewards/accuracy_reward": 0.37500001303851604,
      "rewards/format_reward": 0.0,
      "step": 234
    },
    {
      "completion_length": 594.4166870117188,
      "epoch": 0.6266666666666667,
      "grad_norm": 3.252562999725342,
      "kl": 0.6201171875,
      "learning_rate": 2.6029635120897432e-06,
      "loss": 0.008,
      "reward": 0.3333333432674408,
      "reward_std": 0.3680921792984009,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 235
    },
    {
      "completion_length": 556.0208435058594,
      "epoch": 0.6293333333333333,
      "grad_norm": 4.7144317626953125,
      "kl": 0.822265625,
      "learning_rate": 2.5982201212376253e-06,
      "loss": 0.1413,
      "reward": 0.3958333507180214,
      "reward_std": 0.35457348451018333,
      "rewards/accuracy_reward": 0.3958333507180214,
      "rewards/format_reward": 0.0,
      "step": 236
    },
    {
      "completion_length": 661.8541870117188,
      "epoch": 0.632,
      "grad_norm": 2.591197967529297,
      "kl": 0.4580078125,
      "learning_rate": 2.5934529411321173e-06,
      "loss": 0.1095,
      "reward": 0.5000000149011612,
      "reward_std": 0.37592336907982826,
      "rewards/accuracy_reward": 0.5000000149011612,
      "rewards/format_reward": 0.0,
      "step": 237
    },
    {
      "completion_length": 802.5625305175781,
      "epoch": 0.6346666666666667,
      "grad_norm": 2.123358964920044,
      "kl": 1.932373046875,
      "learning_rate": 2.588662075038178e-06,
      "loss": 0.2456,
      "reward": 0.3125000074505806,
      "reward_std": 0.2525114193558693,
      "rewards/accuracy_reward": 0.3125000074505806,
      "rewards/format_reward": 0.0,
      "step": 238
    },
    {
      "completion_length": 822.4583740234375,
      "epoch": 0.6373333333333333,
      "grad_norm": 3.56559157371521,
      "kl": 2.3046875,
      "learning_rate": 2.583847626733842e-06,
      "loss": 0.194,
      "reward": 0.458333358168602,
      "reward_std": 0.3506578654050827,
      "rewards/accuracy_reward": 0.458333358168602,
      "rewards/format_reward": 0.0,
      "step": 239
    },
    {
      "completion_length": 815.1458435058594,
      "epoch": 0.64,
      "grad_norm": 1.742954134941101,
      "kl": 1.6240234375,
      "learning_rate": 2.5790097005079765e-06,
      "loss": 0.2733,
      "reward": 0.3333333358168602,
      "reward_std": 0.4056045189499855,
      "rewards/accuracy_reward": 0.3333333358168602,
      "rewards/format_reward": 0.0,
      "step": 240
    },
    {
      "completion_length": 674.9375457763672,
      "epoch": 0.6426666666666667,
      "grad_norm": 1.7041113376617432,
      "kl": 0.5087890625,
      "learning_rate": 2.574148401158017e-06,
      "loss": 0.0284,
      "reward": 0.416666679084301,
      "reward_std": 0.24859580025076866,
      "rewards/accuracy_reward": 0.416666679084301,
      "rewards/format_reward": 0.0,
      "step": 241
    },
    {
      "completion_length": 524.5833511352539,
      "epoch": 0.6453333333333333,
      "grad_norm": 2.1262567043304443,
      "kl": 0.33056640625,
      "learning_rate": 2.5692638339877007e-06,
      "loss": 0.0999,
      "reward": 0.7291666865348816,
      "reward_std": 0.37377967685461044,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/format_reward": 0.0,
      "step": 242
    },
    {
      "completion_length": 697.5,
      "epoch": 0.648,
      "grad_norm": 0.536224365234375,
      "kl": 1.41162109375,
      "learning_rate": 2.5643561048047816e-06,
      "loss": 0.0552,
      "reward": 0.39583333395421505,
      "reward_std": 0.235077116638422,
      "rewards/accuracy_reward": 0.39583333395421505,
      "rewards/format_reward": 0.0,
      "step": 243
    },
    {
      "completion_length": 722.6250305175781,
      "epoch": 0.6506666666666666,
      "grad_norm": 0.7712324261665344,
      "kl": 1.03076171875,
      "learning_rate": 2.559425319918743e-06,
      "loss": 0.0207,
      "reward": 0.5000000111758709,
      "reward_std": 0.19364918768405914,
      "rewards/accuracy_reward": 0.5000000111758709,
      "rewards/format_reward": 0.0,
      "step": 244
    },
    {
      "completion_length": 853.6875152587891,
      "epoch": 0.6533333333333333,
      "grad_norm": 115.63752746582031,
      "kl": 3.2158203125,
      "learning_rate": 2.5544715861384928e-06,
      "loss": 0.3086,
      "reward": 0.0833333358168602,
      "reward_std": 0.16661179810762405,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 245
    },
    {
      "completion_length": 890.3958587646484,
      "epoch": 0.656,
      "grad_norm": 1.7879916429519653,
      "kl": 1.380859375,
      "learning_rate": 2.549495010770048e-06,
      "loss": 0.0694,
      "reward": 0.14583333395421505,
      "reward_std": 0.18796167895197868,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 246
    },
    {
      "completion_length": 719.2916870117188,
      "epoch": 0.6586666666666666,
      "grad_norm": 0.9578667283058167,
      "kl": 1.2451171875,
      "learning_rate": 2.5444957016142144e-06,
      "loss": 0.0935,
      "reward": 0.18750000186264515,
      "reward_std": 0.25515517219901085,
      "rewards/accuracy_reward": 0.18750000186264515,
      "rewards/format_reward": 0.0,
      "step": 247
    },
    {
      "completion_length": 832.8958587646484,
      "epoch": 0.6613333333333333,
      "grad_norm": 0.5120651125907898,
      "kl": 0.66162109375,
      "learning_rate": 2.5394737669642457e-06,
      "loss": -0.0347,
      "reward": 0.2500000074505806,
      "reward_std": 0.3131455257534981,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 248
    },
    {
      "completion_length": 647.9791870117188,
      "epoch": 0.664,
      "grad_norm": 0.7588649392127991,
      "kl": 0.511962890625,
      "learning_rate": 2.5344293156035046e-06,
      "loss": -0.0722,
      "reward": 0.2916666753590107,
      "reward_std": 0.3872983753681183,
      "rewards/accuracy_reward": 0.2916666753590107,
      "rewards/format_reward": 0.0,
      "step": 249
    },
    {
      "completion_length": 553.7708435058594,
      "epoch": 0.6666666666666666,
      "grad_norm": 2.4626846313476562,
      "kl": 0.6552734375,
      "learning_rate": 2.529362456803101e-06,
      "loss": -0.0393,
      "reward": 0.4583333432674408,
      "reward_std": 0.3506578877568245,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/format_reward": 0.0,
      "step": 250
    },
    {
      "completion_length": 539.1666793823242,
      "epoch": 0.6693333333333333,
      "grad_norm": 1.022650957107544,
      "kl": 0.418212890625,
      "learning_rate": 2.5242733003195252e-06,
      "loss": 0.0062,
      "reward": 0.520833358168602,
      "reward_std": 0.1801304928958416,
      "rewards/accuracy_reward": 0.520833358168602,
      "rewards/format_reward": 0.0,
      "step": 251
    },
    {
      "completion_length": 657.2083587646484,
      "epoch": 0.672,
      "grad_norm": 1.0106619596481323,
      "kl": 0.384521484375,
      "learning_rate": 2.519161956392275e-06,
      "loss": 0.086,
      "reward": 0.416666679084301,
      "reward_std": 0.32097672671079636,
      "rewards/accuracy_reward": 0.416666679084301,
      "rewards/format_reward": 0.0,
      "step": 252
    },
    {
      "completion_length": 598.6666717529297,
      "epoch": 0.6746666666666666,
      "grad_norm": 0.43861910700798035,
      "kl": 0.755126953125,
      "learning_rate": 2.514028535741463e-06,
      "loss": 0.0453,
      "reward": 0.4583333432674408,
      "reward_std": 0.30354243889451027,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/format_reward": 0.0,
      "step": 253
    },
    {
      "completion_length": 729.8333587646484,
      "epoch": 0.6773333333333333,
      "grad_norm": 0.8300098776817322,
      "kl": 1.365478515625,
      "learning_rate": 2.5088731495654205e-06,
      "loss": -0.0343,
      "reward": 0.2916666716337204,
      "reward_std": 0.30354245007038116,
      "rewards/accuracy_reward": 0.2916666716337204,
      "rewards/format_reward": 0.0,
      "step": 254
    },
    {
      "completion_length": 585.8750152587891,
      "epoch": 0.68,
      "grad_norm": 3.1680819988250732,
      "kl": 1.72802734375,
      "learning_rate": 2.5036959095382875e-06,
      "loss": 0.0543,
      "reward": 0.2291666679084301,
      "reward_std": 0.21764283627271652,
      "rewards/accuracy_reward": 0.2291666679084301,
      "rewards/format_reward": 0.0,
      "step": 255
    },
    {
      "completion_length": 701.7083587646484,
      "epoch": 0.6826666666666666,
      "grad_norm": 3.7772672176361084,
      "kl": 1.54052734375,
      "learning_rate": 2.4984969278075954e-06,
      "loss": 0.0048,
      "reward": 0.22916666977107525,
      "reward_std": 0.30745804682374,
      "rewards/accuracy_reward": 0.22916666977107525,
      "rewards/format_reward": 0.0,
      "step": 256
    },
    {
      "completion_length": 692.0000076293945,
      "epoch": 0.6853333333333333,
      "grad_norm": 11.947521209716797,
      "kl": 3.556640625,
      "learning_rate": 2.4932763169918353e-06,
      "loss": 0.0981,
      "reward": 0.18750000186264515,
      "reward_std": 0.2525114119052887,
      "rewards/accuracy_reward": 0.18750000186264515,
      "rewards/format_reward": 0.0,
      "step": 257
    },
    {
      "completion_length": 586.1458511352539,
      "epoch": 0.688,
      "grad_norm": 1.9000444412231445,
      "kl": 1.68359375,
      "learning_rate": 2.4880341901780208e-06,
      "loss": 0.0541,
      "reward": 0.1875000111758709,
      "reward_std": 0.23507710546255112,
      "rewards/accuracy_reward": 0.1875000111758709,
      "rewards/format_reward": 0.0,
      "step": 258
    },
    {
      "completion_length": 483.18750762939453,
      "epoch": 0.6906666666666667,
      "grad_norm": 1.4334735870361328,
      "kl": 2.0693359375,
      "learning_rate": 2.4827706609192375e-06,
      "loss": -0.0813,
      "reward": 0.2500000037252903,
      "reward_std": 0.31314555555582047,
      "rewards/accuracy_reward": 0.2500000037252903,
      "rewards/format_reward": 0.0,
      "step": 259
    },
    {
      "completion_length": 479.43751525878906,
      "epoch": 0.6933333333333334,
      "grad_norm": 1.8273588418960571,
      "kl": 1.2958984375,
      "learning_rate": 2.477485843232183e-06,
      "loss": 0.031,
      "reward": 0.06250000186264515,
      "reward_std": 0.1530931107699871,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 260
    },
    {
      "completion_length": 468.50001525878906,
      "epoch": 0.696,
      "grad_norm": 10.838756561279297,
      "kl": 0.923828125,
      "learning_rate": 2.4721798515946964e-06,
      "loss": -0.005,
      "reward": 0.2083333358168602,
      "reward_std": 0.3061862140893936,
      "rewards/accuracy_reward": 0.2083333358168602,
      "rewards/format_reward": 0.0,
      "step": 261
    },
    {
      "completion_length": 668.9375152587891,
      "epoch": 0.6986666666666667,
      "grad_norm": 1.042129635810852,
      "kl": 0.728515625,
      "learning_rate": 2.4668528009432804e-06,
      "loss": -0.013,
      "reward": 0.1041666679084301,
      "reward_std": 0.13301505148410797,
      "rewards/accuracy_reward": 0.1041666679084301,
      "rewards/format_reward": 0.0,
      "step": 262
    },
    {
      "completion_length": 398.3958511352539,
      "epoch": 0.7013333333333334,
      "grad_norm": 3.4529807567596436,
      "kl": 0.791015625,
      "learning_rate": 2.4615048066706103e-06,
      "loss": -0.0484,
      "reward": 0.06250000186264515,
      "reward_std": 0.11558076366782188,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 263
    },
    {
      "completion_length": 423.5208435058594,
      "epoch": 0.704,
      "grad_norm": 0.7864275574684143,
      "kl": 0.6142578125,
      "learning_rate": 2.456135984623035e-06,
      "loss": -0.0284,
      "reward": 0.0416666679084301,
      "reward_std": 0.10206206887960434,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 264
    },
    {
      "completion_length": 473.39584732055664,
      "epoch": 0.7066666666666667,
      "grad_norm": 3.637108564376831,
      "kl": 0.5068359375,
      "learning_rate": 2.4507464510980654e-06,
      "loss": -0.04,
      "reward": 0.2708333469927311,
      "reward_std": 0.30922994762659073,
      "rewards/accuracy_reward": 0.2708333469927311,
      "rewards/format_reward": 0.0,
      "step": 265
    },
    {
      "completion_length": 455.2291793823242,
      "epoch": 0.7093333333333334,
      "grad_norm": 1.2332038879394531,
      "kl": 0.580078125,
      "learning_rate": 2.44533632284186e-06,
      "loss": 0.0084,
      "reward": 0.14583333767950535,
      "reward_std": 0.2350771315395832,
      "rewards/accuracy_reward": 0.14583333767950535,
      "rewards/format_reward": 0.0,
      "step": 266
    },
    {
      "completion_length": 636.5625152587891,
      "epoch": 0.712,
      "grad_norm": 4.876010417938232,
      "kl": 0.791015625,
      "learning_rate": 2.439905717046691e-06,
      "loss": -0.0555,
      "reward": 0.16666666977107525,
      "reward_std": 0.18404608592391014,
      "rewards/accuracy_reward": 0.16666666977107525,
      "rewards/format_reward": 0.0,
      "step": 267
    },
    {
      "completion_length": 663.1041717529297,
      "epoch": 0.7146666666666667,
      "grad_norm": 1.758858561515808,
      "kl": 0.2115478515625,
      "learning_rate": 2.434454751348408e-06,
      "loss": 0.0277,
      "reward": 0.5625000149011612,
      "reward_std": 0.4932760149240494,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 268
    },
    {
      "completion_length": 617.1042022705078,
      "epoch": 0.7173333333333334,
      "grad_norm": 2.5681865215301514,
      "kl": 0.284912109375,
      "learning_rate": 2.4289835438238904e-06,
      "loss": -0.0989,
      "reward": 0.3958333469927311,
      "reward_std": 0.4758417531847954,
      "rewards/accuracy_reward": 0.3958333469927311,
      "rewards/format_reward": 0.0,
      "step": 269
    },
    {
      "completion_length": 676.3541870117188,
      "epoch": 0.72,
      "grad_norm": 0.852873682975769,
      "kl": 0.2982177734375,
      "learning_rate": 2.4234922129884873e-06,
      "loss": -0.0539,
      "reward": 0.39583334885537624,
      "reward_std": 0.40168890357017517,
      "rewards/accuracy_reward": 0.39583334885537624,
      "rewards/format_reward": 0.0,
      "step": 270
    },
    {
      "completion_length": 613.6041870117188,
      "epoch": 0.7226666666666667,
      "grad_norm": 4.721111297607422,
      "kl": 0.610107421875,
      "learning_rate": 2.417980877793454e-06,
      "loss": 0.0059,
      "reward": 0.2291666753590107,
      "reward_std": 0.24468021839857101,
      "rewards/accuracy_reward": 0.2291666753590107,
      "rewards/format_reward": 0.0,
      "step": 271
    },
    {
      "completion_length": 618.0000152587891,
      "epoch": 0.7253333333333334,
      "grad_norm": 6.144564151763916,
      "kl": 1.78515625,
      "learning_rate": 2.4124496576233714e-06,
      "loss": 0.0333,
      "reward": 0.1666666679084301,
      "reward_std": 0.23899272084236145,
      "rewards/accuracy_reward": 0.1666666679084301,
      "rewards/format_reward": 0.0,
      "step": 272
    },
    {
      "completion_length": 540.5833358764648,
      "epoch": 0.728,
      "grad_norm": 16.126615524291992,
      "kl": 0.8798828125,
      "learning_rate": 2.4068986722935626e-06,
      "loss": -0.0133,
      "reward": 0.1875000074505806,
      "reward_std": 0.24468021839857101,
      "rewards/accuracy_reward": 0.1875000074505806,
      "rewards/format_reward": 0.0,
      "step": 273
    },
    {
      "completion_length": 453.3958435058594,
      "epoch": 0.7306666666666667,
      "grad_norm": 235.8284454345703,
      "kl": 1.6103515625,
      "learning_rate": 2.4013280420474953e-06,
      "loss": 0.0641,
      "reward": 0.06250000186264515,
      "reward_std": 0.11558076739311218,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 274
    },
    {
      "completion_length": 458.7291793823242,
      "epoch": 0.7333333333333333,
      "grad_norm": 5939.08154296875,
      "kl": 16.091796875,
      "learning_rate": 2.3957378875541795e-06,
      "loss": 0.8365,
      "reward": 0.0625,
      "reward_std": 0.06846532225608826,
      "rewards/accuracy_reward": 0.0625,
      "rewards/format_reward": 0.0,
      "step": 275
    },
    {
      "completion_length": 541.1666946411133,
      "epoch": 0.736,
      "grad_norm": 7498.9140625,
      "kl": 78.00390625,
      "learning_rate": 2.3901283299055523e-06,
      "loss": 2.987,
      "reward": 0.12500000558793545,
      "reward_std": 0.10206207260489464,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 276
    },
    {
      "completion_length": 546.1666946411133,
      "epoch": 0.7386666666666667,
      "grad_norm": 80.91847229003906,
      "kl": 7.0234375,
      "learning_rate": 2.3844994906138548e-06,
      "loss": 0.1409,
      "reward": 0.14583333395421505,
      "reward_std": 0.18796168267726898,
      "rewards/accuracy_reward": 0.14583333395421505,
      "rewards/format_reward": 0.0,
      "step": 277
    },
    {
      "completion_length": 548.6666870117188,
      "epoch": 0.7413333333333333,
      "grad_norm": 30603.955078125,
      "kl": 68.61328125,
      "learning_rate": 2.3788514916090007e-06,
      "loss": 2.6195,
      "reward": 0.1875,
      "reward_std": 0.2525114044547081,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 278
    },
    {
      "completion_length": 619.6458587646484,
      "epoch": 0.744,
      "grad_norm": 126.99922943115234,
      "kl": 2.765625,
      "learning_rate": 2.3731844552359343e-06,
      "loss": 0.1247,
      "reward": 0.06250000186264515,
      "reward_std": 0.11558076366782188,
      "rewards/accuracy_reward": 0.06250000186264515,
      "rewards/format_reward": 0.0,
      "step": 279
    },
    {
      "completion_length": 622.7083435058594,
      "epoch": 0.7466666666666667,
      "grad_norm": 220.41571044921875,
      "kl": 1.99169921875,
      "learning_rate": 2.36749850425198e-06,
      "loss": 0.0629,
      "reward": 0.1875000037252903,
      "reward_std": 0.19756478071212769,
      "rewards/accuracy_reward": 0.1875000037252903,
      "rewards/format_reward": 0.0,
      "step": 280
    },
    {
      "completion_length": 778.5625305175781,
      "epoch": 0.7493333333333333,
      "grad_norm": 179.80470275878906,
      "kl": 0.821533203125,
      "learning_rate": 2.3617937618241844e-06,
      "loss": 0.0322,
      "reward": 0.22916667349636555,
      "reward_std": 0.35457346215844154,
      "rewards/accuracy_reward": 0.22916667349636555,
      "rewards/format_reward": 0.0,
      "step": 281
    },
    {
      "completion_length": 634.8541793823242,
      "epoch": 0.752,
      "grad_norm": 10.700740814208984,
      "kl": 1.4990234375,
      "learning_rate": 2.356070351526648e-06,
      "loss": 0.0582,
      "reward": 0.14583333767950535,
      "reward_std": 0.1801304928958416,
      "rewards/accuracy_reward": 0.14583333767950535,
      "rewards/format_reward": 0.0,
      "step": 282
    },
    {
      "completion_length": 759.5208740234375,
      "epoch": 0.7546666666666667,
      "grad_norm": 9.8982572555542,
      "kl": 2.18798828125,
      "learning_rate": 2.3503283973378465e-06,
      "loss": 0.1048,
      "reward": 0.12500000558793545,
      "reward_std": 0.10206207633018494,
      "rewards/accuracy_reward": 0.12500000558793545,
      "rewards/format_reward": 0.0,
      "step": 283
    },
    {
      "completion_length": 692.6666717529297,
      "epoch": 0.7573333333333333,
      "grad_norm": 3.14382004737854,
      "kl": 0.900390625,
      "learning_rate": 2.344568023637949e-06,
      "loss": 0.0795,
      "reward": 0.16666666977107525,
      "reward_std": 0.24859581515192986,
      "rewards/accuracy_reward": 0.16666666977107525,
      "rewards/format_reward": 0.0,
      "step": 284
    },
    {
      "completion_length": 646.4583587646484,
      "epoch": 0.76,
      "grad_norm": 662.5714111328125,
      "kl": 3.06103515625,
      "learning_rate": 2.3387893552061204e-06,
      "loss": 0.1911,
      "reward": 0.1875,
      "reward_std": 0.06846532225608826,
      "rewards/accuracy_reward": 0.1875,
      "rewards/format_reward": 0.0,
      "step": 285
    },
    {
      "completion_length": 568.3750228881836,
      "epoch": 0.7626666666666667,
      "grad_norm": 68222.53125,
      "kl": 257.8154296875,
      "learning_rate": 2.332992517217819e-06,
      "loss": 7.0561,
      "reward": 0.2916666828095913,
      "reward_std": 0.16661180555820465,
      "rewards/accuracy_reward": 0.2916666828095913,
      "rewards/format_reward": 0.0,
      "step": 286
    },
    {
      "completion_length": 665.0625305175781,
      "epoch": 0.7653333333333333,
      "grad_norm": 3179.5244140625,
      "kl": 2.095703125,
      "learning_rate": 2.327177635242086e-06,
      "loss": 0.0406,
      "reward": 0.1250000037252903,
      "reward_std": 0.22155844047665596,
      "rewards/accuracy_reward": 0.1250000037252903,
      "rewards/format_reward": 0.0,
      "step": 287
    },
    {
      "completion_length": 644.2083511352539,
      "epoch": 0.768,
      "grad_norm": 36765.8671875,
      "kl": 173.8992919921875,
      "learning_rate": 2.3213448352388254e-06,
      "loss": 7.3332,
      "reward": 0.47916667722165585,
      "reward_std": 0.1530931070446968,
      "rewards/accuracy_reward": 0.47916667722165585,
      "rewards/format_reward": 0.0,
      "step": 288
    },
    {
      "completion_length": 546.6250076293945,
      "epoch": 0.7706666666666667,
      "grad_norm": 999.5093383789062,
      "kl": 4.895263671875,
      "learning_rate": 2.315494243556075e-06,
      "loss": 0.1335,
      "reward": 0.2291666753590107,
      "reward_std": 0.2350771315395832,
      "rewards/accuracy_reward": 0.2291666753590107,
      "rewards/format_reward": 0.0,
      "step": 289
    },
    {
      "completion_length": 656.7083435058594,
      "epoch": 0.7733333333333333,
      "grad_norm": 4107.3349609375,
      "kl": 6.30517578125,
      "learning_rate": 2.3096259869272697e-06,
      "loss": 0.2397,
      "reward": 0.2291666753590107,
      "reward_std": 0.2621144950389862,
      "rewards/accuracy_reward": 0.2291666753590107,
      "rewards/format_reward": 0.0,
      "step": 290
    },
    {
      "completion_length": 636.6875152587891,
      "epoch": 0.776,
      "grad_norm": 7.706014633178711,
      "kl": 0.93994140625,
      "learning_rate": 2.303740192468495e-06,
      "loss": 0.0058,
      "reward": 0.18750000186264515,
      "reward_std": 0.21764283999800682,
      "rewards/accuracy_reward": 0.18750000186264515,
      "rewards/format_reward": 0.0,
      "step": 291
    },
    {
      "completion_length": 515.2083511352539,
      "epoch": 0.7786666666666666,
      "grad_norm": 4894.8564453125,
      "kl": 180.23291015625,
      "learning_rate": 2.2978369876757365e-06,
      "loss": 8.3769,
      "reward": 0.2291666753590107,
      "reward_std": 0.21764283999800682,
      "rewards/accuracy_reward": 0.2291666753590107,
      "rewards/format_reward": 0.0,
      "step": 292
    },
    {
      "completion_length": 626.1666870117188,
      "epoch": 0.7813333333333333,
      "grad_norm": 2025.8204345703125,
      "kl": 36.9638671875,
      "learning_rate": 2.2919165004221152e-06,
      "loss": 1.4316,
      "reward": 0.5208333432674408,
      "reward_std": 0.1705273911356926,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/format_reward": 0.0,
      "step": 293
    },
    {
      "completion_length": 644.4166870117188,
      "epoch": 0.784,
      "grad_norm": 2703.410888671875,
      "kl": 4.21484375,
      "learning_rate": 2.285978858955119e-06,
      "loss": 0.1355,
      "reward": 0.3541666716337204,
      "reward_std": 0.2900237664580345,
      "rewards/accuracy_reward": 0.3541666716337204,
      "rewards/format_reward": 0.0,
      "step": 294
    },
    {
      "completion_length": 605.5000228881836,
      "epoch": 0.7866666666666666,
      "grad_norm": 52.43381881713867,
      "kl": 1.0858154296875,
      "learning_rate": 2.280024191893823e-06,
      "loss": 0.0851,
      "reward": 0.5416666865348816,
      "reward_std": 0.20412414148449898,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 0.0,
      "step": 295
    },
    {
      "completion_length": 741.2916870117188,
      "epoch": 0.7893333333333333,
      "grad_norm": 93.758056640625,
      "kl": 0.751220703125,
      "learning_rate": 2.274052628226107e-06,
      "loss": -0.0145,
      "reward": 0.3958333358168602,
      "reward_std": 0.39121396839618683,
      "rewards/accuracy_reward": 0.3958333358168602,
      "rewards/format_reward": 0.0,
      "step": 296
    },
    {
      "completion_length": 699.8958587646484,
      "epoch": 0.792,
      "grad_norm": 62896.68359375,
      "kl": 9.72021484375,
      "learning_rate": 2.268064297305857e-06,
      "loss": 0.5246,
      "reward": 0.2083333395421505,
      "reward_std": 0.23116152733564377,
      "rewards/accuracy_reward": 0.2083333395421505,
      "rewards/format_reward": 0.0,
      "step": 297
    },
    {
      "completion_length": 647.5416870117188,
      "epoch": 0.7946666666666666,
      "grad_norm": 30.405757904052734,
      "kl": 0.86474609375,
      "learning_rate": 2.2620593288501667e-06,
      "loss": 0.0116,
      "reward": 0.4375000074505806,
      "reward_std": 0.2525114119052887,
      "rewards/accuracy_reward": 0.4375000074505806,
      "rewards/format_reward": 0.0,
      "step": 298
    },
    {
      "completion_length": 659.2083435058594,
      "epoch": 0.7973333333333333,
      "grad_norm": 3.99859356880188,
      "kl": 0.583648681640625,
      "learning_rate": 2.256037852936525e-06,
      "loss": -0.0159,
      "reward": 0.29166667349636555,
      "reward_std": 0.16661179810762405,
      "rewards/accuracy_reward": 0.29166667349636555,
      "rewards/format_reward": 0.0,
      "step": 299
    },
    {
      "completion_length": 637.7708587646484,
      "epoch": 0.8,
      "grad_norm": 27.611656188964844,
      "kl": 2.47705078125,
      "learning_rate": 2.25e-06,
      "loss": 0.1998,
      "reward": 0.35416668839752674,
      "reward_std": 0.36417656019330025,
      "rewards/accuracy_reward": 0.35416668839752674,
      "rewards/format_reward": 0.0,
      "step": 300
    },
    {
      "completion_length": 682.1666870117188,
      "epoch": 0.8026666666666666,
      "grad_norm": 1630.4654541015625,
      "kl": 7.66650390625,
      "learning_rate": 2.243945900830413e-06,
      "loss": 0.1792,
      "reward": 0.27083334513008595,
      "reward_std": 0.28219256177544594,
      "rewards/accuracy_reward": 0.27083334513008595,
      "rewards/format_reward": 0.0,
      "step": 301
    },
    {
      "completion_length": 413.50001525878906,
      "epoch": 0.8053333333333333,
      "grad_norm": 88005.484375,
      "kl": 838.18359375,
      "learning_rate": 2.237875686569506e-06,
      "loss": 48.0791,
      "reward": 0.0833333358168602,
      "reward_std": 0.11949636787176132,
      "rewards/accuracy_reward": 0.0833333358168602,
      "rewards/format_reward": 0.0,
      "step": 302
    },
    {
      "completion_length": 614.7916870117188,
      "epoch": 0.808,
      "grad_norm": 111.8994140625,
      "kl": 1.419921875,
      "learning_rate": 2.231789488708099e-06,
      "loss": 0.075,
      "reward": 0.1041666716337204,
      "reward_std": 0.05103103816509247,
      "rewards/accuracy_reward": 0.1041666716337204,
      "rewards/format_reward": 0.0,
      "step": 303
    },
    {
      "completion_length": 629.0000305175781,
      "epoch": 0.8106666666666666,
      "grad_norm": 6898.142578125,
      "kl": 24.58984375,
      "learning_rate": 2.2256874390832447e-06,
      "loss": 1.1764,
      "reward": 0.16666667722165585,
      "reward_std": 0.18404607102274895,
      "rewards/accuracy_reward": 0.16666667722165585,
      "rewards/format_reward": 0.0,
      "step": 304
    },
    {
      "completion_length": 717.2291870117188,
      "epoch": 0.8133333333333334,
      "grad_norm": 8847.892578125,
      "kl": 19.443359375,
      "learning_rate": 2.2195696698753695e-06,
      "loss": 1.5009,
      "reward": 0.0416666679084301,
      "reward_std": 0.06454972922801971,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 305
    },
    {
      "completion_length": 743.3333435058594,
      "epoch": 0.816,
      "grad_norm": 458.5970458984375,
      "kl": 6.7021484375,
      "learning_rate": 2.213436313605413e-06,
      "loss": 0.3691,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward": 0.0,
      "rewards/format_reward": 0.0,
      "step": 306
    },
    {
      "completion_length": 934.1250152587891,
      "epoch": 0.8186666666666667,
      "grad_norm": 1261.3668212890625,
      "kl": 20.8359375,
      "learning_rate": 2.2072875031319556e-06,
      "loss": 0.5689,
      "reward": 0.0416666679084301,
      "reward_std": 0.06454972922801971,
      "rewards/accuracy_reward": 0.0416666679084301,
      "rewards/format_reward": 0.0,
      "step": 307
    },
    {
      "completion_length": 545.4583435058594,
      "epoch": 0.8213333333333334,
      "grad_norm": 56254.73046875,
      "kl": 186.546875,
      "learning_rate": 2.2011233716483416e-06,
      "loss": 8.0071,
      "reward": 0.02083333395421505,
      "reward_std": 0.05103103816509247,
      "rewards/accuracy_reward": 0.02083333395421505,
      "rewards/format_reward": 0.0,
      "step": 308
    },
    {
      "completion_length": 689.2708587646484,
      "epoch": 0.824,
      "grad_norm": 992.6975708007812,
      "kl": 4.853515625,
      "learning_rate": 2.1949440526797927e-06,
      "loss": 0.2266,
      "reward": 0.22916666977107525,
      "reward_std": 0.2446802221238613,
      "rewards/accuracy_reward": 0.22916666977107525,
      "rewards/format_reward": 0.0,
      "step": 309
    },
    {
      "completion_length": 575.5000152587891,
      "epoch": 0.8266666666666667,
      "grad_norm": 14.90085506439209,
      "kl": 0.2930908203125,
      "learning_rate": 2.1887496800805174e-06,
      "loss": 0.0365,
      "reward": 0.27083333395421505,
      "reward_std": 0.28219255805015564,
      "rewards/accuracy_reward": 0.27083333395421505,
      "rewards/format_reward": 0.0,
      "step": 310
    },
    {
      "completion_length": 501.62500762939453,
      "epoch": 0.8293333333333334,
      "grad_norm": 13.801560401916504,
      "kl": 0.2686767578125,
      "learning_rate": 2.1825403880308107e-06,
      "loss": -0.0458,
      "reward": 0.5416666865348816,
      "reward_std": 0.16661179438233376,
      "rewards/accuracy_reward": 0.5416666865348816,
      "rewards/format_reward": 0.0,
      "step": 311
    },
    {
      "completion_length": 567.3958587646484,
      "epoch": 0.832,
      "grad_norm": 25.853025436401367,
      "kl": 0.1470947265625,
      "learning_rate": 2.1763163110341462e-06,
      "loss": 0.0468,
      "reward": 0.5625000149011612,
      "reward_std": 0.235077116638422,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 312
    },
    {
      "completion_length": 664.5625076293945,
      "epoch": 0.8346666666666667,
      "grad_norm": 5866.689453125,
      "kl": 25.58026123046875,
      "learning_rate": 2.1700775839142652e-06,
      "loss": 1.0306,
      "reward": 0.7500000149011612,
      "reward_std": 0.2861081622540951,
      "rewards/accuracy_reward": 0.7500000149011612,
      "rewards/format_reward": 0.0,
      "step": 313
    },
    {
      "completion_length": 897.1667022705078,
      "epoch": 0.8373333333333334,
      "grad_norm": 2.1541504859924316,
      "kl": 0.10302734375,
      "learning_rate": 2.1638243418122534e-06,
      "loss": 0.0213,
      "reward": 0.6875000149011612,
      "reward_std": 0.235077116638422,
      "rewards/accuracy_reward": 0.6875000149011612,
      "rewards/format_reward": 0.0,
      "step": 314
    },
    {
      "completion_length": 633.4166793823242,
      "epoch": 0.84,
      "grad_norm": 74721.421875,
      "kl": 800.21728515625,
      "learning_rate": 2.157556720183616e-06,
      "loss": 31.9069,
      "reward": 0.29166667722165585,
      "reward_std": 0.16661179810762405,
      "rewards/accuracy_reward": 0.29166667722165585,
      "rewards/format_reward": 0.0,
      "step": 315
    },
    {
      "completion_length": 810.0208740234375,
      "epoch": 0.8426666666666667,
      "grad_norm": 56.302738189697266,
      "kl": 0.1741943359375,
      "learning_rate": 2.151274854795342e-06,
      "loss": 0.0364,
      "reward": 0.39583334513008595,
      "reward_std": 0.28219256177544594,
      "rewards/accuracy_reward": 0.39583334513008595,
      "rewards/format_reward": 0.0,
      "step": 316
    },
    {
      "completion_length": 692.9583358764648,
      "epoch": 0.8453333333333334,
      "grad_norm": 2.8889639377593994,
      "kl": 0.11712646484375,
      "learning_rate": 2.1449788817229644e-06,
      "loss": 0.0226,
      "reward": 0.35416667722165585,
      "reward_std": 0.2446802221238613,
      "rewards/accuracy_reward": 0.35416667722165585,
      "rewards/format_reward": 0.0,
      "step": 317
    },
    {
      "completion_length": 557.2708587646484,
      "epoch": 0.848,
      "grad_norm": 59.83365249633789,
      "kl": 0.3212890625,
      "learning_rate": 2.138668937347609e-06,
      "loss": 0.0498,
      "reward": 0.5000000223517418,
      "reward_std": 0.2957112565636635,
      "rewards/accuracy_reward": 0.5000000223517418,
      "rewards/format_reward": 0.0,
      "step": 318
    },
    {
      "completion_length": 585.0417022705078,
      "epoch": 0.8506666666666667,
      "grad_norm": 57.15522384643555,
      "kl": 0.13848876953125,
      "learning_rate": 2.132345158353047e-06,
      "loss": -0.0406,
      "reward": 0.6041666716337204,
      "reward_std": 0.18796167895197868,
      "rewards/accuracy_reward": 0.6041666716337204,
      "rewards/format_reward": 0.0,
      "step": 319
    },
    {
      "completion_length": 590.7916870117188,
      "epoch": 0.8533333333333334,
      "grad_norm": 1.5622169971466064,
      "kl": 0.115234375,
      "learning_rate": 2.126007681722727e-06,
      "loss": 0.011,
      "reward": 0.5208333488553762,
      "reward_std": 0.1801304928958416,
      "rewards/accuracy_reward": 0.5208333488553762,
      "rewards/format_reward": 0.0,
      "step": 320
    },
    {
      "completion_length": 554.6458587646484,
      "epoch": 0.856,
      "grad_norm": 12.661802291870117,
      "kl": 0.06396484375,
      "learning_rate": 2.119656644736813e-06,
      "loss": 0.0302,
      "reward": 0.4791666716337204,
      "reward_std": 0.05103103816509247,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/format_reward": 0.0,
      "step": 321
    },
    {
      "completion_length": 620.5625305175781,
      "epoch": 0.8586666666666667,
      "grad_norm": 0.5451918840408325,
      "kl": 0.12109375,
      "learning_rate": 2.113292184969207e-06,
      "loss": -0.0375,
      "reward": 0.5208333507180214,
      "reward_std": 0.28219256177544594,
      "rewards/accuracy_reward": 0.5208333507180214,
      "rewards/format_reward": 0.0,
      "step": 322
    },
    {
      "completion_length": 674.4166793823242,
      "epoch": 0.8613333333333333,
      "grad_norm": 6.236075401306152,
      "kl": 0.08465576171875,
      "learning_rate": 2.106914440284572e-06,
      "loss": 0.0807,
      "reward": 0.3125000074505806,
      "reward_std": 0.36417658627033234,
      "rewards/accuracy_reward": 0.3125000074505806,
      "rewards/format_reward": 0.0,
      "step": 323
    },
    {
      "completion_length": 529.6875152587891,
      "epoch": 0.864,
      "grad_norm": 0.7760786414146423,
      "kl": 0.107666015625,
      "learning_rate": 2.100523548835343e-06,
      "loss": 0.0345,
      "reward": 0.770833358168602,
      "reward_std": 0.21764283627271652,
      "rewards/accuracy_reward": 0.770833358168602,
      "rewards/format_reward": 0.0,
      "step": 324
    },
    {
      "completion_length": 557.3541793823242,
      "epoch": 0.8666666666666667,
      "grad_norm": 0.35026639699935913,
      "kl": 0.1966552734375,
      "learning_rate": 2.0941196490587354e-06,
      "loss": 0.0203,
      "reward": 0.291666679084301,
      "reward_std": 0.23899272456765175,
      "rewards/accuracy_reward": 0.291666679084301,
      "rewards/format_reward": 0.0,
      "step": 325
    },
    {
      "completion_length": 619.5000305175781,
      "epoch": 0.8693333333333333,
      "grad_norm": 1.0790166854858398,
      "kl": 0.156494140625,
      "learning_rate": 2.0877028796737477e-06,
      "loss": 0.0023,
      "reward": 0.4166666679084301,
      "reward_std": 0.2957112491130829,
      "rewards/accuracy_reward": 0.4166666679084301,
      "rewards/format_reward": 0.0,
      "step": 326
    },
    {
      "completion_length": 806.5208587646484,
      "epoch": 0.872,
      "grad_norm": 0.9412611722946167,
      "kl": 0.1807861328125,
      "learning_rate": 2.0812733796781545e-06,
      "loss": 0.0285,
      "reward": 0.2500000074505806,
      "reward_std": 0.24859582632780075,
      "rewards/accuracy_reward": 0.2500000074505806,
      "rewards/format_reward": 0.0,
      "step": 327
    },
    {
      "completion_length": 633.2083587646484,
      "epoch": 0.8746666666666667,
      "grad_norm": 2.870098114013672,
      "kl": 0.091064453125,
      "learning_rate": 2.0748312883454963e-06,
      "loss": -0.0113,
      "reward": 0.645833358168602,
      "reward_std": 0.2446802221238613,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/format_reward": 0.0,
      "step": 328
    },
    {
      "completion_length": 572.8958587646484,
      "epoch": 0.8773333333333333,
      "grad_norm": 0.3554651141166687,
      "kl": 0.192626953125,
      "learning_rate": 2.068376745222062e-06,
      "loss": 0.0353,
      "reward": 0.4791666865348816,
      "reward_std": 0.28219255432486534,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 0.0,
      "step": 329
    },
    {
      "completion_length": 773.5416870117188,
      "epoch": 0.88,
      "grad_norm": 0.2810516059398651,
      "kl": 0.16339111328125,
      "learning_rate": 2.061909890123868e-06,
      "loss": 0.018,
      "reward": 0.3333333432674408,
      "reward_std": 0.11949635669589043,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 330
    },
    {
      "completion_length": 846.6667022705078,
      "epoch": 0.8826666666666667,
      "grad_norm": 0.6509025692939758,
      "kl": 0.129791259765625,
      "learning_rate": 2.055430863133628e-06,
      "loss": 0.0358,
      "reward": 0.4166666865348816,
      "reward_std": 0.2957112491130829,
      "rewards/accuracy_reward": 0.4166666865348816,
      "rewards/format_reward": 0.0,
      "step": 331
    },
    {
      "completion_length": 717.7500152587891,
      "epoch": 0.8853333333333333,
      "grad_norm": 0.8496950268745422,
      "kl": 0.230712890625,
      "learning_rate": 2.048939804597718e-06,
      "loss": 0.0931,
      "reward": 0.416666679084301,
      "reward_std": 0.4152075946331024,
      "rewards/accuracy_reward": 0.416666679084301,
      "rewards/format_reward": 0.0,
      "step": 332
    },
    {
      "completion_length": 807.5000305175781,
      "epoch": 0.888,
      "grad_norm": 0.49586477875709534,
      "kl": 0.10491943359375,
      "learning_rate": 2.0424368551231384e-06,
      "loss": 0.0089,
      "reward": 0.5208333432674408,
      "reward_std": 0.3170611187815666,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/format_reward": 0.0,
      "step": 333
    },
    {
      "completion_length": 501.5208511352539,
      "epoch": 0.8906666666666667,
      "grad_norm": 0.40998944640159607,
      "kl": 0.1203460693359375,
      "learning_rate": 2.035922155574466e-06,
      "loss": -0.0339,
      "reward": 0.7083333432674408,
      "reward_std": 0.18404608592391014,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/format_reward": 0.0,
      "step": 334
    },
    {
      "completion_length": 844.4166870117188,
      "epoch": 0.8933333333333333,
      "grad_norm": 12.733755111694336,
      "kl": 0.199462890625,
      "learning_rate": 2.0293958470708033e-06,
      "loss": -0.001,
      "reward": 0.6250000149011612,
      "reward_std": 0.3506578914821148,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 335
    },
    {
      "completion_length": 662.5833435058594,
      "epoch": 0.896,
      "grad_norm": 2.5601916313171387,
      "kl": 0.1180419921875,
      "learning_rate": 2.022858070982723e-06,
      "loss": 0.0709,
      "reward": 0.7083333432674408,
      "reward_std": 0.2861081510782242,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/format_reward": 0.0,
      "step": 336
    },
    {
      "completion_length": 858.6041870117188,
      "epoch": 0.8986666666666666,
      "grad_norm": 0.2826376259326935,
      "kl": 0.1029052734375,
      "learning_rate": 2.016308968929203e-06,
      "loss": 0.027,
      "reward": 0.5625000055879354,
      "reward_std": 0.21764282882213593,
      "rewards/accuracy_reward": 0.5625000055879354,
      "rewards/format_reward": 0.0,
      "step": 337
    },
    {
      "completion_length": 878.3125152587891,
      "epoch": 0.9013333333333333,
      "grad_norm": 0.3674981892108917,
      "kl": 0.203125,
      "learning_rate": 2.0097486827745623e-06,
      "loss": -0.0174,
      "reward": 0.4791666865348816,
      "reward_std": 0.3720077611505985,
      "rewards/accuracy_reward": 0.4791666865348816,
      "rewards/format_reward": 0.0,
      "step": 338
    },
    {
      "completion_length": 714.2083587646484,
      "epoch": 0.904,
      "grad_norm": 0.7770251631736755,
      "kl": 0.24627685546875,
      "learning_rate": 2.0031773546253826e-06,
      "loss": 0.0725,
      "reward": 0.6041666716337204,
      "reward_std": 0.42872630804777145,
      "rewards/accuracy_reward": 0.6041666716337204,
      "rewards/format_reward": 0.0,
      "step": 339
    },
    {
      "completion_length": 593.9791870117188,
      "epoch": 0.9066666666666666,
      "grad_norm": 0.45360517501831055,
      "kl": 0.2352294921875,
      "learning_rate": 1.9965951268274372e-06,
      "loss": 0.0406,
      "reward": 0.5833333507180214,
      "reward_std": 0.31314554437994957,
      "rewards/accuracy_reward": 0.5833333507180214,
      "rewards/format_reward": 0.0,
      "step": 340
    },
    {
      "completion_length": 664.5625152587891,
      "epoch": 0.9093333333333333,
      "grad_norm": 0.1532231569290161,
      "kl": 0.172698974609375,
      "learning_rate": 1.9900021419626017e-06,
      "loss": 0.0248,
      "reward": 0.2291666753590107,
      "reward_std": 0.1801304928958416,
      "rewards/accuracy_reward": 0.2291666753590107,
      "rewards/format_reward": 0.0,
      "step": 341
    },
    {
      "completion_length": 617.7083587646484,
      "epoch": 0.912,
      "grad_norm": 0.21975946426391602,
      "kl": 0.29150390625,
      "learning_rate": 1.983398542845767e-06,
      "loss": -0.0212,
      "reward": 0.645833358168602,
      "reward_std": 0.38161083683371544,
      "rewards/accuracy_reward": 0.645833358168602,
      "rewards/format_reward": 0.0,
      "step": 342
    },
    {
      "completion_length": 529.5000228881836,
      "epoch": 0.9146666666666666,
      "grad_norm": 0.44750016927719116,
      "kl": 0.2016754150390625,
      "learning_rate": 1.976784472521747e-06,
      "loss": 0.0377,
      "reward": 0.7083333432674408,
      "reward_std": 0.3332235999405384,
      "rewards/accuracy_reward": 0.7083333432674408,
      "rewards/format_reward": 0.0,
      "step": 343
    },
    {
      "completion_length": 683.6458435058594,
      "epoch": 0.9173333333333333,
      "grad_norm": 0.10972858965396881,
      "kl": 0.06365966796875,
      "learning_rate": 1.9701600742621796e-06,
      "loss": 0.0364,
      "reward": 0.6041666865348816,
      "reward_std": 0.1801304928958416,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/format_reward": 0.0,
      "step": 344
    },
    {
      "completion_length": 833.9791870117188,
      "epoch": 0.92,
      "grad_norm": 0.28129515051841736,
      "kl": 0.251007080078125,
      "learning_rate": 1.963525491562421e-06,
      "loss": 0.0688,
      "reward": 0.4791666716337204,
      "reward_std": 0.25515518710017204,
      "rewards/accuracy_reward": 0.4791666716337204,
      "rewards/format_reward": 0.0,
      "step": 345
    },
    {
      "completion_length": 591.0000228881836,
      "epoch": 0.9226666666666666,
      "grad_norm": 0.10267713665962219,
      "kl": 0.1419677734375,
      "learning_rate": 1.9568808681384415e-06,
      "loss": -0.028,
      "reward": 0.33333333395421505,
      "reward_std": 0.22155842557549477,
      "rewards/accuracy_reward": 0.33333333395421505,
      "rewards/format_reward": 0.0,
      "step": 346
    },
    {
      "completion_length": 557.1250076293945,
      "epoch": 0.9253333333333333,
      "grad_norm": 0.27456042170524597,
      "kl": 0.296875,
      "learning_rate": 1.9502263479237084e-06,
      "loss": -0.0547,
      "reward": 0.6041666865348816,
      "reward_std": 0.2996268570423126,
      "rewards/accuracy_reward": 0.6041666865348816,
      "rewards/format_reward": 0.0,
      "step": 347
    },
    {
      "completion_length": 713.6875152587891,
      "epoch": 0.928,
      "grad_norm": 0.1611674427986145,
      "kl": 0.17510986328125,
      "learning_rate": 1.9435620750660703e-06,
      "loss": 0.022,
      "reward": 0.3750000074505806,
      "reward_std": 0.12909945845603943,
      "rewards/accuracy_reward": 0.3750000074505806,
      "rewards/format_reward": 0.0,
      "step": 348
    },
    {
      "completion_length": 541.6041793823242,
      "epoch": 0.9306666666666666,
      "grad_norm": 0.9292861819267273,
      "kl": 0.426513671875,
      "learning_rate": 1.9368881939246333e-06,
      "loss": 0.0624,
      "reward": 0.6666666865348816,
      "reward_std": 0.3602609783411026,
      "rewards/accuracy_reward": 0.6666666865348816,
      "rewards/format_reward": 0.0,
      "step": 349
    },
    {
      "completion_length": 698.0625152587891,
      "epoch": 0.9333333333333333,
      "grad_norm": 0.18113847076892853,
      "kl": 0.34326171875,
      "learning_rate": 1.9302048490666355e-06,
      "loss": 0.0351,
      "reward": 0.35416667722165585,
      "reward_std": 0.21764283254742622,
      "rewards/accuracy_reward": 0.35416667722165585,
      "rewards/format_reward": 0.0,
      "step": 350
    },
    {
      "completion_length": 647.7708435058594,
      "epoch": 0.936,
      "grad_norm": 0.23358656466007233,
      "kl": 0.237548828125,
      "learning_rate": 1.923512185264315e-06,
      "loss": 0.0175,
      "reward": 0.3958333395421505,
      "reward_std": 0.41129202395677567,
      "rewards/accuracy_reward": 0.3958333395421505,
      "rewards/format_reward": 0.0,
      "step": 351
    },
    {
      "completion_length": 674.1041870117188,
      "epoch": 0.9386666666666666,
      "grad_norm": 0.2018204629421234,
      "kl": 0.1859283447265625,
      "learning_rate": 1.916810347491772e-06,
      "loss": 0.0137,
      "reward": 0.6250000149011612,
      "reward_std": 0.23116153478622437,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 352
    },
    {
      "completion_length": 844.1875305175781,
      "epoch": 0.9413333333333334,
      "grad_norm": 0.3149741590023041,
      "kl": 0.25860595703125,
      "learning_rate": 1.9100994809218323e-06,
      "loss": 0.0756,
      "reward": 0.37500000186264515,
      "reward_std": 0.3332235924899578,
      "rewards/accuracy_reward": 0.37500000186264515,
      "rewards/format_reward": 0.0,
      "step": 353
    },
    {
      "completion_length": 625.4583587646484,
      "epoch": 0.944,
      "grad_norm": 0.41483765840530396,
      "kl": 0.3572998046875,
      "learning_rate": 1.9033797309228985e-06,
      "loss": 0.1117,
      "reward": 0.5625000298023224,
      "reward_std": 0.2996268458664417,
      "rewards/accuracy_reward": 0.5625000298023224,
      "rewards/format_reward": 0.0,
      "step": 354
    },
    {
      "completion_length": 701.3541717529297,
      "epoch": 0.9466666666666667,
      "grad_norm": 1.9215991497039795,
      "kl": 0.716796875,
      "learning_rate": 1.8966512430558036e-06,
      "loss": 0.1199,
      "reward": 0.5625000149011612,
      "reward_std": 0.2350771352648735,
      "rewards/accuracy_reward": 0.5625000149011612,
      "rewards/format_reward": 0.0,
      "step": 355
    },
    {
      "completion_length": 874.7916946411133,
      "epoch": 0.9493333333333334,
      "grad_norm": 2.8515124320983887,
      "kl": 1.845062255859375,
      "learning_rate": 1.8899141630706564e-06,
      "loss": 0.1755,
      "reward": 0.6875000223517418,
      "reward_std": 0.39208584278821945,
      "rewards/accuracy_reward": 0.6875000223517418,
      "rewards/format_reward": 0.0,
      "step": 356
    },
    {
      "completion_length": 766.0833435058594,
      "epoch": 0.952,
      "grad_norm": 2.6256027221679688,
      "kl": 2.3642578125,
      "learning_rate": 1.8831686369036859e-06,
      "loss": 0.1805,
      "reward": 0.39583334140479565,
      "reward_std": 0.2350771240890026,
      "rewards/accuracy_reward": 0.39583334140479565,
      "rewards/format_reward": 0.0,
      "step": 357
    },
    {
      "completion_length": 714.0208511352539,
      "epoch": 0.9546666666666667,
      "grad_norm": 1.6547703742980957,
      "kl": 1.00885009765625,
      "learning_rate": 1.876414810674079e-06,
      "loss": 0.0457,
      "reward": 0.5208333432674408,
      "reward_std": 0.235077116638422,
      "rewards/accuracy_reward": 0.5208333432674408,
      "rewards/format_reward": 0.0,
      "step": 358
    },
    {
      "completion_length": 609.4583587646484,
      "epoch": 0.9573333333333334,
      "grad_norm": 0.5665653944015503,
      "kl": 0.771728515625,
      "learning_rate": 1.8696528306808168e-06,
      "loss": 0.0998,
      "reward": 0.4583333432674408,
      "reward_std": 0.18404607102274895,
      "rewards/accuracy_reward": 0.4583333432674408,
      "rewards/format_reward": 0.0,
      "step": 359
    },
    {
      "completion_length": 730.7291870117188,
      "epoch": 0.96,
      "grad_norm": 1.261367917060852,
      "kl": 0.23529052734375,
      "learning_rate": 1.8628828433995015e-06,
      "loss": 0.03,
      "reward": 0.6250000149011612,
      "reward_std": 0.22155843302607536,
      "rewards/accuracy_reward": 0.6250000149011612,
      "rewards/format_reward": 0.0,
      "step": 360
    },
    {
      "completion_length": 808.5625305175781,
      "epoch": 0.9626666666666667,
      "grad_norm": 1.5878499746322632,
      "kl": 0.54681396484375,
      "learning_rate": 1.8561049954791895e-06,
      "loss": 0.0336,
      "reward": 0.5208333358168602,
      "reward_std": 0.13301505148410797,
      "rewards/accuracy_reward": 0.5208333358168602,
      "rewards/format_reward": 0.0,
      "step": 361
    },
    {
      "completion_length": 815.1041870117188,
      "epoch": 0.9653333333333334,
      "grad_norm": 0.3808901309967041,
      "kl": 0.371826171875,
      "learning_rate": 1.8493194337392087e-06,
      "loss": 0.0859,
      "reward": 0.541666679084301,
      "reward_std": 0.16661179810762405,
      "rewards/accuracy_reward": 0.541666679084301,
      "rewards/format_reward": 0.0,
      "step": 362
    },
    {
      "completion_length": 522.4791870117188,
      "epoch": 0.968,
      "grad_norm": 0.30578020215034485,
      "kl": 0.1224365234375,
      "learning_rate": 1.8425263051659837e-06,
      "loss": 0.0237,
      "reward": 0.5000000074505806,
      "reward_std": 0.18404608592391014,
      "rewards/accuracy_reward": 0.5000000074505806,
      "rewards/format_reward": 0.0,
      "step": 363
    },
    {
      "completion_length": 668.5000076293945,
      "epoch": 0.9706666666666667,
      "grad_norm": 0.26360616087913513,
      "kl": 0.136077880859375,
      "learning_rate": 1.8357257569098473e-06,
      "loss": 0.0111,
      "reward": 0.5208333507180214,
      "reward_std": 0.44616059213876724,
      "rewards/accuracy_reward": 0.5208333507180214,
      "rewards/format_reward": 0.0,
      "step": 364
    },
    {
      "completion_length": 728.0000228881836,
      "epoch": 0.9733333333333334,
      "grad_norm": 1.045130729675293,
      "kl": 0.154876708984375,
      "learning_rate": 1.828917936281855e-06,
      "loss": 0.0659,
      "reward": 0.3333333432674408,
      "reward_std": 0.30354245379567146,
      "rewards/accuracy_reward": 0.3333333432674408,
      "rewards/format_reward": 0.0,
      "step": 365
    },
    {
      "completion_length": 753.1458587646484,
      "epoch": 0.976,
      "grad_norm": 0.5927110910415649,
      "kl": 0.25830078125,
      "learning_rate": 1.822102990750595e-06,
      "loss": 0.0534,
      "reward": 0.3958333507180214,
      "reward_std": 0.36417658627033234,
      "rewards/accuracy_reward": 0.3958333507180214,
      "rewards/format_reward": 0.0,
      "step": 366
    },
    {
      "completion_length": 731.2291870117188,
      "epoch": 0.9786666666666667,
      "grad_norm": 0.9049092531204224,
      "kl": 0.2169189453125,
      "learning_rate": 1.8152810679389911e-06,
      "loss": 0.1457,
      "reward": 0.5416666828095913,
      "reward_std": 0.3602609820663929,
      "rewards/accuracy_reward": 0.5416666828095913,
      "rewards/format_reward": 0.0,
      "step": 367
    },
    {
      "completion_length": 763.1667022705078,
      "epoch": 0.9813333333333333,
      "grad_norm": 0.8557331562042236,
      "kl": 0.7392578125,
      "learning_rate": 1.808452315621108e-06,
      "loss": 0.0306,
      "reward": 0.45833334140479565,
      "reward_std": 0.35848909616470337,
      "rewards/accuracy_reward": 0.45833334140479565,
      "rewards/format_reward": 0.0,
      "step": 368
    },
    {
      "completion_length": 432.0416793823242,
      "epoch": 0.984,
      "grad_norm": 0.7425907254219055,
      "kl": 0.904541015625,
      "learning_rate": 1.8016168817189471e-06,
      "loss": 0.0233,
      "reward": 0.7916666865348816,
      "reward_std": 0.3332235962152481,
      "rewards/accuracy_reward": 0.7916666865348816,
      "rewards/format_reward": 0.0,
      "step": 369
    },
    {
      "completion_length": 543.8125152587891,
      "epoch": 0.9866666666666667,
      "grad_norm": 1.483704686164856,
      "kl": 1.626220703125,
      "learning_rate": 1.7947749142992453e-06,
      "loss": 0.1434,
      "reward": 0.6458333507180214,
      "reward_std": 0.35457349941134453,
      "rewards/accuracy_reward": 0.6458333507180214,
      "rewards/format_reward": 0.0,
      "step": 370
    },
    {
      "completion_length": 750.6458435058594,
      "epoch": 0.9893333333333333,
      "grad_norm": 1.1710835695266724,
      "kl": 1.1573486328125,
      "learning_rate": 1.7879265615702653e-06,
      "loss": 0.1069,
      "reward": 0.4375000149011612,
      "reward_std": 0.38161085173487663,
      "rewards/accuracy_reward": 0.4375000149011612,
      "rewards/format_reward": 0.0,
      "step": 371
    },
    {
      "completion_length": 821.9583435058594,
      "epoch": 0.992,
      "grad_norm": 2.896385431289673,
      "kl": 3.43359375,
      "learning_rate": 1.7810719718785873e-06,
      "loss": 0.193,
      "reward": 0.31250000558793545,
      "reward_std": 0.3074580393731594,
      "rewards/accuracy_reward": 0.31250000558793545,
      "rewards/format_reward": 0.0,
      "step": 372
    },
    {
      "completion_length": 663.1875076293945,
      "epoch": 0.9946666666666667,
      "grad_norm": 2.6439497470855713,
      "kl": 3.552734375,
      "learning_rate": 1.7742112937058924e-06,
      "loss": 0.1882,
      "reward": 0.4583333395421505,
      "reward_std": 0.4248107075691223,
      "rewards/accuracy_reward": 0.4583333395421505,
      "rewards/format_reward": 0.0,
      "step": 373
    },
    {
      "completion_length": 633.2916793823242,
      "epoch": 0.9973333333333333,
      "grad_norm": 0.7656214237213135,
      "kl": 0.66461181640625,
      "learning_rate": 1.76734467566575e-06,
      "loss": 0.0844,
      "reward": 0.7291666865348816,
      "reward_std": 0.21764283999800682,
      "rewards/accuracy_reward": 0.7291666865348816,
      "rewards/format_reward": 0.0,
      "step": 374
    },
    {
      "completion_length": 620.1041793823242,
      "epoch": 1.0,
      "grad_norm": 1.1568132638931274,
      "kl": 1.1962890625,
      "learning_rate": 1.7604722665003958e-06,
      "loss": 0.1247,
      "reward": 0.7500000149011612,
      "reward_std": 0.4152076169848442,
      "rewards/accuracy_reward": 0.7500000149011612,
      "rewards/format_reward": 0.0,
      "step": 375
    },
    {
      "epoch": 1.0,
      "eval_completion_length": 723.7617282104492,
      "eval_kl": 1.5607896118164062,
      "eval_loss": 0.08730700612068176,
      "eval_reward": 0.4726666794717312,
      "eval_reward_std": 0.29052443864941596,
      "eval_rewards/accuracy_reward": 0.4726666794717312,
      "eval_rewards/format_reward": 0.0,
      "eval_runtime": 30137.8072,
      "eval_samples_per_second": 0.066,
      "eval_steps_per_second": 0.006,
      "step": 375
    }
  ],
  "logging_steps": 1,
  "max_steps": 750,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 3,
  "trial_name": null,
  "trial_params": null
}