{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 35.0,
  "eval_steps": 1,
  "global_step": 770,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.045454545454545456,
      "grad_norm": 5.237588882446289,
      "learning_rate": 0.0,
      "loss": 2.0682,
      "step": 1
    },
    {
      "epoch": 0.045454545454545456,
      "eval_loss": 2.063732147216797,
      "eval_runtime": 0.2778,
      "eval_samples_per_second": 316.813,
      "eval_steps_per_second": 39.602,
      "step": 1
    },
    {
      "epoch": 0.09090909090909091,
      "grad_norm": 5.7836594581604,
      "learning_rate": 3e-06,
      "loss": 2.0543,
      "step": 2
    },
    {
      "epoch": 0.09090909090909091,
      "eval_loss": 2.058272123336792,
      "eval_runtime": 0.2138,
      "eval_samples_per_second": 411.689,
      "eval_steps_per_second": 51.461,
      "step": 2
    },
    {
      "epoch": 0.13636363636363635,
      "grad_norm": 4.997707366943359,
      "learning_rate": 6e-06,
      "loss": 2.106,
      "step": 3
    },
    {
      "epoch": 0.13636363636363635,
      "eval_loss": 2.044473171234131,
      "eval_runtime": 0.2229,
      "eval_samples_per_second": 394.85,
      "eval_steps_per_second": 49.356,
      "step": 3
    },
    {
      "epoch": 0.18181818181818182,
      "grad_norm": 4.480862140655518,
      "learning_rate": 9e-06,
      "loss": 2.0133,
      "step": 4
    },
    {
      "epoch": 0.18181818181818182,
      "eval_loss": 2.026616096496582,
      "eval_runtime": 0.2098,
      "eval_samples_per_second": 419.399,
      "eval_steps_per_second": 52.425,
      "step": 4
    },
    {
      "epoch": 0.22727272727272727,
      "grad_norm": 4.413949489593506,
      "learning_rate": 1.2e-05,
      "loss": 2.0339,
      "step": 5
    },
    {
      "epoch": 0.22727272727272727,
      "eval_loss": 2.0050275325775146,
      "eval_runtime": 0.2083,
      "eval_samples_per_second": 422.489,
      "eval_steps_per_second": 52.811,
      "step": 5
    },
    {
      "epoch": 0.2727272727272727,
      "grad_norm": 3.8636281490325928,
      "learning_rate": 1.5e-05,
      "loss": 1.9456,
      "step": 6
    },
    {
      "epoch": 0.2727272727272727,
      "eval_loss": 1.978696346282959,
      "eval_runtime": 0.2234,
      "eval_samples_per_second": 393.959,
      "eval_steps_per_second": 49.245,
      "step": 6
    },
    {
      "epoch": 0.3181818181818182,
      "grad_norm": 5.352145671844482,
      "learning_rate": 1.8e-05,
      "loss": 2.0702,
      "step": 7
    },
    {
      "epoch": 0.3181818181818182,
      "eval_loss": 1.9451583623886108,
      "eval_runtime": 0.2365,
      "eval_samples_per_second": 372.165,
      "eval_steps_per_second": 46.521,
      "step": 7
    },
    {
      "epoch": 0.36363636363636365,
      "grad_norm": 6.098653316497803,
      "learning_rate": 2.1e-05,
      "loss": 1.9057,
      "step": 8
    },
    {
      "epoch": 0.36363636363636365,
      "eval_loss": 1.908401608467102,
      "eval_runtime": 0.2109,
      "eval_samples_per_second": 417.279,
      "eval_steps_per_second": 52.16,
      "step": 8
    },
    {
      "epoch": 0.4090909090909091,
      "grad_norm": 4.3218302726745605,
      "learning_rate": 2.4e-05,
      "loss": 2.0159,
      "step": 9
    },
    {
      "epoch": 0.4090909090909091,
      "eval_loss": 1.860684871673584,
      "eval_runtime": 0.2261,
      "eval_samples_per_second": 389.203,
      "eval_steps_per_second": 48.65,
      "step": 9
    },
    {
      "epoch": 0.45454545454545453,
      "grad_norm": 4.778627395629883,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 1.8808,
      "step": 10
    },
    {
      "epoch": 0.45454545454545453,
      "eval_loss": 1.793589472770691,
      "eval_runtime": 0.2922,
      "eval_samples_per_second": 301.187,
      "eval_steps_per_second": 37.648,
      "step": 10
    },
    {
      "epoch": 0.5,
      "grad_norm": 5.957038879394531,
      "learning_rate": 3e-05,
      "loss": 1.896,
      "step": 11
    },
    {
      "epoch": 0.5,
      "eval_loss": 1.7104023694992065,
      "eval_runtime": 0.3181,
      "eval_samples_per_second": 276.671,
      "eval_steps_per_second": 34.584,
      "step": 11
    },
    {
      "epoch": 0.5454545454545454,
      "grad_norm": 6.62753963470459,
      "learning_rate": 2.9960526315789475e-05,
      "loss": 1.7627,
      "step": 12
    },
    {
      "epoch": 0.5454545454545454,
      "eval_loss": 1.6353049278259277,
      "eval_runtime": 0.4101,
      "eval_samples_per_second": 214.57,
      "eval_steps_per_second": 26.821,
      "step": 12
    },
    {
      "epoch": 0.5909090909090909,
      "grad_norm": 5.637991905212402,
      "learning_rate": 2.992105263157895e-05,
      "loss": 1.6927,
      "step": 13
    },
    {
      "epoch": 0.5909090909090909,
      "eval_loss": 1.5653632879257202,
      "eval_runtime": 0.3772,
      "eval_samples_per_second": 233.322,
      "eval_steps_per_second": 29.165,
      "step": 13
    },
    {
      "epoch": 0.6363636363636364,
      "grad_norm": 7.619434356689453,
      "learning_rate": 2.9881578947368423e-05,
      "loss": 1.5805,
      "step": 14
    },
    {
      "epoch": 0.6363636363636364,
      "eval_loss": 1.4975870847702026,
      "eval_runtime": 0.2484,
      "eval_samples_per_second": 354.217,
      "eval_steps_per_second": 44.277,
      "step": 14
    },
    {
      "epoch": 0.6818181818181818,
      "grad_norm": 8.660569190979004,
      "learning_rate": 2.9842105263157894e-05,
      "loss": 1.5803,
      "step": 15
    },
    {
      "epoch": 0.6818181818181818,
      "eval_loss": 1.4246007204055786,
      "eval_runtime": 0.3233,
      "eval_samples_per_second": 272.164,
      "eval_steps_per_second": 34.02,
      "step": 15
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 6.809484481811523,
      "learning_rate": 2.980263157894737e-05,
      "loss": 1.4897,
      "step": 16
    },
    {
      "epoch": 0.7272727272727273,
      "eval_loss": 1.3582329750061035,
      "eval_runtime": 0.2729,
      "eval_samples_per_second": 322.483,
      "eval_steps_per_second": 40.31,
      "step": 16
    },
    {
      "epoch": 0.7727272727272727,
      "grad_norm": 7.0124711990356445,
      "learning_rate": 2.9763157894736842e-05,
      "loss": 1.3831,
      "step": 17
    },
    {
      "epoch": 0.7727272727272727,
      "eval_loss": 1.2863445281982422,
      "eval_runtime": 0.2734,
      "eval_samples_per_second": 321.916,
      "eval_steps_per_second": 40.24,
      "step": 17
    },
    {
      "epoch": 0.8181818181818182,
      "grad_norm": 6.749629974365234,
      "learning_rate": 2.9723684210526316e-05,
      "loss": 1.2616,
      "step": 18
    },
    {
      "epoch": 0.8181818181818182,
      "eval_loss": 1.1985043287277222,
      "eval_runtime": 0.2953,
      "eval_samples_per_second": 297.968,
      "eval_steps_per_second": 37.246,
      "step": 18
    },
    {
      "epoch": 0.8636363636363636,
      "grad_norm": 8.935945510864258,
      "learning_rate": 2.968421052631579e-05,
      "loss": 1.2058,
      "step": 19
    },
    {
      "epoch": 0.8636363636363636,
      "eval_loss": 1.1089844703674316,
      "eval_runtime": 0.3886,
      "eval_samples_per_second": 226.48,
      "eval_steps_per_second": 28.31,
      "step": 19
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 5.048995018005371,
      "learning_rate": 2.9644736842105265e-05,
      "loss": 1.1399,
      "step": 20
    },
    {
      "epoch": 0.9090909090909091,
      "eval_loss": 1.0176739692687988,
      "eval_runtime": 0.2913,
      "eval_samples_per_second": 302.091,
      "eval_steps_per_second": 37.761,
      "step": 20
    },
    {
      "epoch": 0.9545454545454546,
      "grad_norm": 6.563332557678223,
      "learning_rate": 2.9605263157894735e-05,
      "loss": 0.9906,
      "step": 21
    },
    {
      "epoch": 0.9545454545454546,
      "eval_loss": 0.930864155292511,
      "eval_runtime": 0.2425,
      "eval_samples_per_second": 362.831,
      "eval_steps_per_second": 45.354,
      "step": 21
    },
    {
      "epoch": 1.0,
      "grad_norm": 12.079025268554688,
      "learning_rate": 2.9565789473684213e-05,
      "loss": 1.0795,
      "step": 22
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.8574727773666382,
      "eval_runtime": 0.2662,
      "eval_samples_per_second": 330.588,
      "eval_steps_per_second": 41.323,
      "step": 22
    },
    {
      "epoch": 1.0454545454545454,
      "grad_norm": 5.452284336090088,
      "learning_rate": 2.9526315789473684e-05,
      "loss": 0.8862,
      "step": 23
    },
    {
      "epoch": 1.0454545454545454,
      "eval_loss": 0.7834421396255493,
      "eval_runtime": 0.2559,
      "eval_samples_per_second": 343.941,
      "eval_steps_per_second": 42.993,
      "step": 23
    },
    {
      "epoch": 1.0909090909090908,
      "grad_norm": 6.780595302581787,
      "learning_rate": 2.9486842105263158e-05,
      "loss": 0.7825,
      "step": 24
    },
    {
      "epoch": 1.0909090909090908,
      "eval_loss": 0.7133036255836487,
      "eval_runtime": 0.4064,
      "eval_samples_per_second": 216.526,
      "eval_steps_per_second": 27.066,
      "step": 24
    },
    {
      "epoch": 1.1363636363636362,
      "grad_norm": 6.756824016571045,
      "learning_rate": 2.9447368421052635e-05,
      "loss": 0.9249,
      "step": 25
    },
    {
      "epoch": 1.1363636363636362,
      "eval_loss": 0.652009904384613,
      "eval_runtime": 0.4122,
      "eval_samples_per_second": 213.486,
      "eval_steps_per_second": 26.686,
      "step": 25
    },
    {
      "epoch": 1.1818181818181819,
      "grad_norm": 4.798681259155273,
      "learning_rate": 2.9407894736842106e-05,
      "loss": 0.5773,
      "step": 26
    },
    {
      "epoch": 1.1818181818181819,
      "eval_loss": 0.6013602614402771,
      "eval_runtime": 0.4182,
      "eval_samples_per_second": 210.411,
      "eval_steps_per_second": 26.301,
      "step": 26
    },
    {
      "epoch": 1.2272727272727273,
      "grad_norm": 4.608880996704102,
      "learning_rate": 2.936842105263158e-05,
      "loss": 0.6573,
      "step": 27
    },
    {
      "epoch": 1.2272727272727273,
      "eval_loss": 0.5579346418380737,
      "eval_runtime": 0.5426,
      "eval_samples_per_second": 162.18,
      "eval_steps_per_second": 20.272,
      "step": 27
    },
    {
      "epoch": 1.2727272727272727,
      "grad_norm": 4.582436561584473,
      "learning_rate": 2.9328947368421055e-05,
      "loss": 0.5408,
      "step": 28
    },
    {
      "epoch": 1.2727272727272727,
      "eval_loss": 0.5213125348091125,
      "eval_runtime": 0.274,
      "eval_samples_per_second": 321.214,
      "eval_steps_per_second": 40.152,
      "step": 28
    },
    {
      "epoch": 1.3181818181818181,
      "grad_norm": 6.145488262176514,
      "learning_rate": 2.928947368421053e-05,
      "loss": 0.6888,
      "step": 29
    },
    {
      "epoch": 1.3181818181818181,
      "eval_loss": 0.47387245297431946,
      "eval_runtime": 0.2153,
      "eval_samples_per_second": 408.668,
      "eval_steps_per_second": 51.083,
      "step": 29
    },
    {
      "epoch": 1.3636363636363638,
      "grad_norm": 4.611596584320068,
      "learning_rate": 2.925e-05,
      "loss": 0.584,
      "step": 30
    },
    {
      "epoch": 1.3636363636363638,
      "eval_loss": 0.41591426730155945,
      "eval_runtime": 0.2262,
      "eval_samples_per_second": 388.952,
      "eval_steps_per_second": 48.619,
      "step": 30
    },
    {
      "epoch": 1.4090909090909092,
      "grad_norm": 4.470975875854492,
      "learning_rate": 2.9210526315789474e-05,
      "loss": 0.4962,
      "step": 31
    },
    {
      "epoch": 1.4090909090909092,
      "eval_loss": 0.3586600720882416,
      "eval_runtime": 0.2233,
      "eval_samples_per_second": 394.029,
      "eval_steps_per_second": 49.254,
      "step": 31
    },
    {
      "epoch": 1.4545454545454546,
      "grad_norm": 3.111593008041382,
      "learning_rate": 2.9171052631578948e-05,
      "loss": 0.3594,
      "step": 32
    },
    {
      "epoch": 1.4545454545454546,
      "eval_loss": 0.3188125491142273,
      "eval_runtime": 0.3382,
      "eval_samples_per_second": 260.203,
      "eval_steps_per_second": 32.525,
      "step": 32
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.246596336364746,
      "learning_rate": 2.9131578947368422e-05,
      "loss": 0.3643,
      "step": 33
    },
    {
      "epoch": 1.5,
      "eval_loss": 0.2900885343551636,
      "eval_runtime": 0.2904,
      "eval_samples_per_second": 302.998,
      "eval_steps_per_second": 37.875,
      "step": 33
    },
    {
      "epoch": 1.5454545454545454,
      "grad_norm": 4.4003376960754395,
      "learning_rate": 2.9092105263157893e-05,
      "loss": 0.3334,
      "step": 34
    },
    {
      "epoch": 1.5454545454545454,
      "eval_loss": 0.260213166475296,
      "eval_runtime": 0.3641,
      "eval_samples_per_second": 241.707,
      "eval_steps_per_second": 30.213,
      "step": 34
    },
    {
      "epoch": 1.5909090909090908,
      "grad_norm": 5.7509236335754395,
      "learning_rate": 2.905263157894737e-05,
      "loss": 0.3754,
      "step": 35
    },
    {
      "epoch": 1.5909090909090908,
      "eval_loss": 0.2297886312007904,
      "eval_runtime": 0.3003,
      "eval_samples_per_second": 293.032,
      "eval_steps_per_second": 36.629,
      "step": 35
    },
    {
      "epoch": 1.6363636363636362,
      "grad_norm": 3.7421319484710693,
      "learning_rate": 2.901315789473684e-05,
      "loss": 0.3108,
      "step": 36
    },
    {
      "epoch": 1.6363636363636362,
      "eval_loss": 0.21363353729248047,
      "eval_runtime": 0.4783,
      "eval_samples_per_second": 183.979,
      "eval_steps_per_second": 22.997,
      "step": 36
    },
    {
      "epoch": 1.6818181818181817,
      "grad_norm": 3.7049357891082764,
      "learning_rate": 2.8973684210526315e-05,
      "loss": 0.2933,
      "step": 37
    },
    {
      "epoch": 1.6818181818181817,
      "eval_loss": 0.20323915779590607,
      "eval_runtime": 0.25,
      "eval_samples_per_second": 351.979,
      "eval_steps_per_second": 43.997,
      "step": 37
    },
    {
      "epoch": 1.7272727272727273,
      "grad_norm": 2.6143414974212646,
      "learning_rate": 2.893421052631579e-05,
      "loss": 0.2208,
      "step": 38
    },
    {
      "epoch": 1.7272727272727273,
      "eval_loss": 0.19065451622009277,
      "eval_runtime": 0.284,
      "eval_samples_per_second": 309.864,
      "eval_steps_per_second": 38.733,
      "step": 38
    },
    {
      "epoch": 1.7727272727272727,
      "grad_norm": 3.0895273685455322,
      "learning_rate": 2.8894736842105263e-05,
      "loss": 0.2448,
      "step": 39
    },
    {
      "epoch": 1.7727272727272727,
      "eval_loss": 0.17271381616592407,
      "eval_runtime": 0.3543,
      "eval_samples_per_second": 248.403,
      "eval_steps_per_second": 31.05,
      "step": 39
    },
    {
      "epoch": 1.8181818181818183,
      "grad_norm": 1.7658973932266235,
      "learning_rate": 2.8855263157894738e-05,
      "loss": 0.1742,
      "step": 40
    },
    {
      "epoch": 1.8181818181818183,
      "eval_loss": 0.152969092130661,
      "eval_runtime": 0.2714,
      "eval_samples_per_second": 324.231,
      "eval_steps_per_second": 40.529,
      "step": 40
    },
    {
      "epoch": 1.8636363636363638,
      "grad_norm": 1.7428200244903564,
      "learning_rate": 2.8815789473684212e-05,
      "loss": 0.1717,
      "step": 41
    },
    {
      "epoch": 1.8636363636363638,
      "eval_loss": 0.13160385191440582,
      "eval_runtime": 0.2485,
      "eval_samples_per_second": 354.091,
      "eval_steps_per_second": 44.261,
      "step": 41
    },
    {
      "epoch": 1.9090909090909092,
      "grad_norm": 1.9848284721374512,
      "learning_rate": 2.8776315789473686e-05,
      "loss": 0.1487,
      "step": 42
    },
    {
      "epoch": 1.9090909090909092,
      "eval_loss": 0.11496426910161972,
      "eval_runtime": 0.2812,
      "eval_samples_per_second": 312.902,
      "eval_steps_per_second": 39.113,
      "step": 42
    },
    {
      "epoch": 1.9545454545454546,
      "grad_norm": 1.8623422384262085,
      "learning_rate": 2.8736842105263157e-05,
      "loss": 0.1671,
      "step": 43
    },
    {
      "epoch": 1.9545454545454546,
      "eval_loss": 0.10060829669237137,
      "eval_runtime": 0.531,
      "eval_samples_per_second": 165.721,
      "eval_steps_per_second": 20.715,
      "step": 43
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.254258632659912,
      "learning_rate": 2.8697368421052634e-05,
      "loss": 0.1296,
      "step": 44
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.09032303839921951,
      "eval_runtime": 0.4212,
      "eval_samples_per_second": 208.91,
      "eval_steps_per_second": 26.114,
      "step": 44
    },
    {
      "epoch": 2.0454545454545454,
      "grad_norm": 1.7023710012435913,
      "learning_rate": 2.8657894736842105e-05,
      "loss": 0.1269,
      "step": 45
    },
    {
      "epoch": 2.0454545454545454,
      "eval_loss": 0.08172891288995743,
      "eval_runtime": 0.3434,
      "eval_samples_per_second": 256.286,
      "eval_steps_per_second": 32.036,
      "step": 45
    },
    {
      "epoch": 2.090909090909091,
      "grad_norm": 1.1132336854934692,
      "learning_rate": 2.861842105263158e-05,
      "loss": 0.1087,
      "step": 46
    },
    {
      "epoch": 2.090909090909091,
      "eval_loss": 0.07363786548376083,
      "eval_runtime": 0.2227,
      "eval_samples_per_second": 395.148,
      "eval_steps_per_second": 49.393,
      "step": 46
    },
    {
      "epoch": 2.1363636363636362,
      "grad_norm": 1.2574397325515747,
      "learning_rate": 2.8578947368421053e-05,
      "loss": 0.1007,
      "step": 47
    },
    {
      "epoch": 2.1363636363636362,
      "eval_loss": 0.0676058903336525,
      "eval_runtime": 0.2162,
      "eval_samples_per_second": 406.971,
      "eval_steps_per_second": 50.871,
      "step": 47
    },
    {
      "epoch": 2.1818181818181817,
      "grad_norm": 1.1193581819534302,
      "learning_rate": 2.8539473684210527e-05,
      "loss": 0.0932,
      "step": 48
    },
    {
      "epoch": 2.1818181818181817,
      "eval_loss": 0.060314346104860306,
      "eval_runtime": 0.2456,
      "eval_samples_per_second": 358.319,
      "eval_steps_per_second": 44.79,
      "step": 48
    },
    {
      "epoch": 2.227272727272727,
      "grad_norm": 1.1668117046356201,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 0.0885,
      "step": 49
    },
    {
      "epoch": 2.227272727272727,
      "eval_loss": 0.05352572351694107,
      "eval_runtime": 0.2143,
      "eval_samples_per_second": 410.66,
      "eval_steps_per_second": 51.333,
      "step": 49
    },
    {
      "epoch": 2.2727272727272725,
      "grad_norm": 0.9329622387886047,
      "learning_rate": 2.8460526315789476e-05,
      "loss": 0.0768,
      "step": 50
    },
    {
      "epoch": 2.2727272727272725,
      "eval_loss": 0.049994777888059616,
      "eval_runtime": 0.2184,
      "eval_samples_per_second": 402.932,
      "eval_steps_per_second": 50.367,
      "step": 50
    },
    {
      "epoch": 2.3181818181818183,
      "grad_norm": 1.4205875396728516,
      "learning_rate": 2.8421052631578946e-05,
      "loss": 0.0871,
      "step": 51
    },
    {
      "epoch": 2.3181818181818183,
      "eval_loss": 0.046269264072179794,
      "eval_runtime": 0.2199,
      "eval_samples_per_second": 400.111,
      "eval_steps_per_second": 50.014,
      "step": 51
    },
    {
      "epoch": 2.3636363636363638,
      "grad_norm": 0.6296802163124084,
      "learning_rate": 2.838157894736842e-05,
      "loss": 0.0597,
      "step": 52
    },
    {
      "epoch": 2.3636363636363638,
      "eval_loss": 0.04288846254348755,
      "eval_runtime": 0.2154,
      "eval_samples_per_second": 408.528,
      "eval_steps_per_second": 51.066,
      "step": 52
    },
    {
      "epoch": 2.409090909090909,
      "grad_norm": 0.8016664981842041,
      "learning_rate": 2.8342105263157898e-05,
      "loss": 0.0573,
      "step": 53
    },
    {
      "epoch": 2.409090909090909,
      "eval_loss": 0.03866353631019592,
      "eval_runtime": 0.2104,
      "eval_samples_per_second": 418.258,
      "eval_steps_per_second": 52.282,
      "step": 53
    },
    {
      "epoch": 2.4545454545454546,
      "grad_norm": 0.5186643600463867,
      "learning_rate": 2.830263157894737e-05,
      "loss": 0.0533,
      "step": 54
    },
    {
      "epoch": 2.4545454545454546,
      "eval_loss": 0.03540382906794548,
      "eval_runtime": 0.2148,
      "eval_samples_per_second": 409.705,
      "eval_steps_per_second": 51.213,
      "step": 54
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.616000771522522,
      "learning_rate": 2.8263157894736843e-05,
      "loss": 0.0543,
      "step": 55
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.03242316469550133,
      "eval_runtime": 0.2116,
      "eval_samples_per_second": 415.828,
      "eval_steps_per_second": 51.979,
      "step": 55
    },
    {
      "epoch": 2.5454545454545454,
      "grad_norm": 0.6781826615333557,
      "learning_rate": 2.8223684210526317e-05,
      "loss": 0.0527,
      "step": 56
    },
    {
      "epoch": 2.5454545454545454,
      "eval_loss": 0.029892653226852417,
      "eval_runtime": 0.2231,
      "eval_samples_per_second": 394.465,
      "eval_steps_per_second": 49.308,
      "step": 56
    },
    {
      "epoch": 2.590909090909091,
      "grad_norm": 0.40553542971611023,
      "learning_rate": 2.818421052631579e-05,
      "loss": 0.043,
      "step": 57
    },
    {
      "epoch": 2.590909090909091,
      "eval_loss": 0.02773384563624859,
      "eval_runtime": 0.212,
      "eval_samples_per_second": 415.108,
      "eval_steps_per_second": 51.889,
      "step": 57
    },
    {
      "epoch": 2.6363636363636362,
      "grad_norm": 0.46068763732910156,
      "learning_rate": 2.8144736842105262e-05,
      "loss": 0.0408,
      "step": 58
    },
    {
      "epoch": 2.6363636363636362,
      "eval_loss": 0.025741351768374443,
      "eval_runtime": 0.2177,
      "eval_samples_per_second": 404.269,
      "eval_steps_per_second": 50.534,
      "step": 58
    },
    {
      "epoch": 2.6818181818181817,
      "grad_norm": 0.42782941460609436,
      "learning_rate": 2.810526315789474e-05,
      "loss": 0.0404,
      "step": 59
    },
    {
      "epoch": 2.6818181818181817,
      "eval_loss": 0.023805884644389153,
      "eval_runtime": 0.2164,
      "eval_samples_per_second": 406.611,
      "eval_steps_per_second": 50.826,
      "step": 59
    },
    {
      "epoch": 2.7272727272727275,
      "grad_norm": 0.3100360035896301,
      "learning_rate": 2.806578947368421e-05,
      "loss": 0.0348,
      "step": 60
    },
    {
      "epoch": 2.7272727272727275,
      "eval_loss": 0.022079171612858772,
      "eval_runtime": 0.2121,
      "eval_samples_per_second": 414.803,
      "eval_steps_per_second": 51.85,
      "step": 60
    },
    {
      "epoch": 2.7727272727272725,
      "grad_norm": 0.3292113244533539,
      "learning_rate": 2.8026315789473685e-05,
      "loss": 0.0331,
      "step": 61
    },
    {
      "epoch": 2.7727272727272725,
      "eval_loss": 0.020567093044519424,
      "eval_runtime": 0.2183,
      "eval_samples_per_second": 403.093,
      "eval_steps_per_second": 50.387,
      "step": 61
    },
    {
      "epoch": 2.8181818181818183,
      "grad_norm": 0.4177182912826538,
      "learning_rate": 2.798684210526316e-05,
      "loss": 0.0323,
      "step": 62
    },
    {
      "epoch": 2.8181818181818183,
      "eval_loss": 0.019224492833018303,
      "eval_runtime": 0.2119,
      "eval_samples_per_second": 415.211,
      "eval_steps_per_second": 51.901,
      "step": 62
    },
    {
      "epoch": 2.8636363636363638,
      "grad_norm": 0.23254263401031494,
      "learning_rate": 2.7947368421052633e-05,
      "loss": 0.0252,
      "step": 63
    },
    {
      "epoch": 2.8636363636363638,
      "eval_loss": 0.01814187504351139,
      "eval_runtime": 0.2203,
      "eval_samples_per_second": 399.469,
      "eval_steps_per_second": 49.934,
      "step": 63
    },
    {
      "epoch": 2.909090909090909,
      "grad_norm": 0.38803598284721375,
      "learning_rate": 2.7907894736842104e-05,
      "loss": 0.031,
      "step": 64
    },
    {
      "epoch": 2.909090909090909,
      "eval_loss": 0.01718403585255146,
      "eval_runtime": 0.2179,
      "eval_samples_per_second": 403.933,
      "eval_steps_per_second": 50.492,
      "step": 64
    },
    {
      "epoch": 2.9545454545454546,
      "grad_norm": 0.33151182532310486,
      "learning_rate": 2.786842105263158e-05,
      "loss": 0.03,
      "step": 65
    },
    {
      "epoch": 2.9545454545454546,
      "eval_loss": 0.016221443191170692,
      "eval_runtime": 0.2114,
      "eval_samples_per_second": 416.237,
      "eval_steps_per_second": 52.03,
      "step": 65
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.25049498677253723,
      "learning_rate": 2.7828947368421055e-05,
      "loss": 0.0244,
      "step": 66
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.015314313583076,
      "eval_runtime": 0.2173,
      "eval_samples_per_second": 404.944,
      "eval_steps_per_second": 50.618,
      "step": 66
    },
    {
      "epoch": 3.0454545454545454,
      "grad_norm": 0.2723033130168915,
      "learning_rate": 2.7789473684210526e-05,
      "loss": 0.0235,
      "step": 67
    },
    {
      "epoch": 3.0454545454545454,
      "eval_loss": 0.014571275562047958,
      "eval_runtime": 0.2218,
      "eval_samples_per_second": 396.808,
      "eval_steps_per_second": 49.601,
      "step": 67
    },
    {
      "epoch": 3.090909090909091,
      "grad_norm": 0.20975647866725922,
      "learning_rate": 2.7750000000000004e-05,
      "loss": 0.0222,
      "step": 68
    },
    {
      "epoch": 3.090909090909091,
      "eval_loss": 0.013959475792944431,
      "eval_runtime": 0.2232,
      "eval_samples_per_second": 394.228,
      "eval_steps_per_second": 49.279,
      "step": 68
    },
    {
      "epoch": 3.1363636363636362,
      "grad_norm": 0.2025345116853714,
      "learning_rate": 2.7710526315789474e-05,
      "loss": 0.0228,
      "step": 69
    },
    {
      "epoch": 3.1363636363636362,
      "eval_loss": 0.013426948338747025,
      "eval_runtime": 0.2201,
      "eval_samples_per_second": 399.844,
      "eval_steps_per_second": 49.981,
      "step": 69
    },
    {
      "epoch": 3.1818181818181817,
      "grad_norm": 0.2033005654811859,
      "learning_rate": 2.767105263157895e-05,
      "loss": 0.0209,
      "step": 70
    },
    {
      "epoch": 3.1818181818181817,
      "eval_loss": 0.012989457696676254,
      "eval_runtime": 0.2125,
      "eval_samples_per_second": 414.107,
      "eval_steps_per_second": 51.763,
      "step": 70
    },
    {
      "epoch": 3.227272727272727,
      "grad_norm": 0.18534056842327118,
      "learning_rate": 2.7631578947368423e-05,
      "loss": 0.0199,
      "step": 71
    },
    {
      "epoch": 3.227272727272727,
      "eval_loss": 0.012577124871313572,
      "eval_runtime": 0.2145,
      "eval_samples_per_second": 410.253,
      "eval_steps_per_second": 51.282,
      "step": 71
    },
    {
      "epoch": 3.2727272727272725,
      "grad_norm": 0.16536517441272736,
      "learning_rate": 2.7592105263157897e-05,
      "loss": 0.017,
      "step": 72
    },
    {
      "epoch": 3.2727272727272725,
      "eval_loss": 0.012171071022748947,
      "eval_runtime": 0.225,
      "eval_samples_per_second": 391.108,
      "eval_steps_per_second": 48.888,
      "step": 72
    },
    {
      "epoch": 3.3181818181818183,
      "grad_norm": 0.14233346283435822,
      "learning_rate": 2.7552631578947368e-05,
      "loss": 0.0173,
      "step": 73
    },
    {
      "epoch": 3.3181818181818183,
      "eval_loss": 0.011801562272012234,
      "eval_runtime": 0.2206,
      "eval_samples_per_second": 398.895,
      "eval_steps_per_second": 49.862,
      "step": 73
    },
    {
      "epoch": 3.3636363636363638,
      "grad_norm": 0.18418766558170319,
      "learning_rate": 2.7513157894736842e-05,
      "loss": 0.0193,
      "step": 74
    },
    {
      "epoch": 3.3636363636363638,
      "eval_loss": 0.01138223335146904,
      "eval_runtime": 0.2269,
      "eval_samples_per_second": 387.873,
      "eval_steps_per_second": 48.484,
      "step": 74
    },
    {
      "epoch": 3.409090909090909,
      "grad_norm": 0.1584126502275467,
      "learning_rate": 2.7473684210526316e-05,
      "loss": 0.0174,
      "step": 75
    },
    {
      "epoch": 3.409090909090909,
      "eval_loss": 0.010961382649838924,
      "eval_runtime": 0.2368,
      "eval_samples_per_second": 371.65,
      "eval_steps_per_second": 46.456,
      "step": 75
    },
    {
      "epoch": 3.4545454545454546,
      "grad_norm": 0.15311338007450104,
      "learning_rate": 2.743421052631579e-05,
      "loss": 0.0152,
      "step": 76
    },
    {
      "epoch": 3.4545454545454546,
      "eval_loss": 0.01055182795971632,
      "eval_runtime": 0.2222,
      "eval_samples_per_second": 396.112,
      "eval_steps_per_second": 49.514,
      "step": 76
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.1895849108695984,
      "learning_rate": 2.739473684210526e-05,
      "loss": 0.0185,
      "step": 77
    },
    {
      "epoch": 3.5,
      "eval_loss": 0.01013518963009119,
      "eval_runtime": 0.2228,
      "eval_samples_per_second": 394.993,
      "eval_steps_per_second": 49.374,
      "step": 77
    },
    {
      "epoch": 3.5454545454545454,
      "grad_norm": 0.1422702521085739,
      "learning_rate": 2.735526315789474e-05,
      "loss": 0.0163,
      "step": 78
    },
    {
      "epoch": 3.5454545454545454,
      "eval_loss": 0.009774941019713879,
      "eval_runtime": 0.2328,
      "eval_samples_per_second": 378.047,
      "eval_steps_per_second": 47.256,
      "step": 78
    },
    {
      "epoch": 3.590909090909091,
      "grad_norm": 0.15089201927185059,
      "learning_rate": 2.7315789473684213e-05,
      "loss": 0.0162,
      "step": 79
    },
    {
      "epoch": 3.590909090909091,
      "eval_loss": 0.009458563290536404,
      "eval_runtime": 0.2335,
      "eval_samples_per_second": 376.887,
      "eval_steps_per_second": 47.111,
      "step": 79
    },
    {
      "epoch": 3.6363636363636362,
      "grad_norm": 0.16338452696800232,
      "learning_rate": 2.7276315789473683e-05,
      "loss": 0.015,
      "step": 80
    },
    {
      "epoch": 3.6363636363636362,
      "eval_loss": 0.00917022954672575,
      "eval_runtime": 0.2355,
      "eval_samples_per_second": 373.621,
      "eval_steps_per_second": 46.703,
      "step": 80
    },
    {
      "epoch": 3.6818181818181817,
      "grad_norm": 0.14390893280506134,
      "learning_rate": 2.723684210526316e-05,
      "loss": 0.0148,
      "step": 81
    },
    {
      "epoch": 3.6818181818181817,
      "eval_loss": 0.00891400221735239,
      "eval_runtime": 0.2182,
      "eval_samples_per_second": 403.39,
      "eval_steps_per_second": 50.424,
      "step": 81
    },
    {
      "epoch": 3.7272727272727275,
      "grad_norm": 0.23557034134864807,
      "learning_rate": 2.719736842105263e-05,
      "loss": 0.0173,
      "step": 82
    },
    {
      "epoch": 3.7272727272727275,
      "eval_loss": 0.008688293397426605,
      "eval_runtime": 0.2236,
      "eval_samples_per_second": 393.639,
      "eval_steps_per_second": 49.205,
      "step": 82
    },
    {
      "epoch": 3.7727272727272725,
      "grad_norm": 0.12254065275192261,
      "learning_rate": 2.7157894736842106e-05,
      "loss": 0.0133,
      "step": 83
    },
    {
      "epoch": 3.7727272727272725,
      "eval_loss": 0.008477870374917984,
      "eval_runtime": 0.2215,
      "eval_samples_per_second": 397.361,
      "eval_steps_per_second": 49.67,
      "step": 83
    },
    {
      "epoch": 3.8181818181818183,
      "grad_norm": 0.10980476438999176,
      "learning_rate": 2.711842105263158e-05,
      "loss": 0.0128,
      "step": 84
    },
    {
      "epoch": 3.8181818181818183,
      "eval_loss": 0.00827844813466072,
      "eval_runtime": 0.2234,
      "eval_samples_per_second": 393.942,
      "eval_steps_per_second": 49.243,
      "step": 84
    },
    {
      "epoch": 3.8636363636363638,
      "grad_norm": 0.13196319341659546,
      "learning_rate": 2.7078947368421054e-05,
      "loss": 0.013,
      "step": 85
    },
    {
      "epoch": 3.8636363636363638,
      "eval_loss": 0.008079243823885918,
      "eval_runtime": 0.2221,
      "eval_samples_per_second": 396.214,
      "eval_steps_per_second": 49.527,
      "step": 85
    },
    {
      "epoch": 3.909090909090909,
      "grad_norm": 0.10154274851083755,
      "learning_rate": 2.7039473684210525e-05,
      "loss": 0.0122,
      "step": 86
    },
    {
      "epoch": 3.909090909090909,
      "eval_loss": 0.007896007038652897,
      "eval_runtime": 0.224,
      "eval_samples_per_second": 392.924,
      "eval_steps_per_second": 49.115,
      "step": 86
    },
    {
      "epoch": 3.9545454545454546,
      "grad_norm": 0.1324293613433838,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 0.0126,
      "step": 87
    },
    {
      "epoch": 3.9545454545454546,
      "eval_loss": 0.007718592882156372,
      "eval_runtime": 0.2196,
      "eval_samples_per_second": 400.741,
      "eval_steps_per_second": 50.093,
      "step": 87
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.10327129811048508,
      "learning_rate": 2.6960526315789473e-05,
      "loss": 0.012,
      "step": 88
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.007555495481938124,
      "eval_runtime": 0.2221,
      "eval_samples_per_second": 396.243,
      "eval_steps_per_second": 49.53,
      "step": 88
    },
    {
      "epoch": 4.045454545454546,
      "grad_norm": 0.09408023953437805,
      "learning_rate": 2.6921052631578947e-05,
      "loss": 0.0115,
      "step": 89
    },
    {
      "epoch": 4.045454545454546,
      "eval_loss": 0.0074074105359613895,
      "eval_runtime": 0.2205,
      "eval_samples_per_second": 399.137,
      "eval_steps_per_second": 49.892,
      "step": 89
    },
    {
      "epoch": 4.090909090909091,
      "grad_norm": 0.09438669681549072,
      "learning_rate": 2.688157894736842e-05,
      "loss": 0.0117,
      "step": 90
    },
    {
      "epoch": 4.090909090909091,
      "eval_loss": 0.007270295638591051,
      "eval_runtime": 0.2207,
      "eval_samples_per_second": 398.716,
      "eval_steps_per_second": 49.839,
      "step": 90
    },
    {
      "epoch": 4.136363636363637,
      "grad_norm": 0.10392805188894272,
      "learning_rate": 2.6842105263157896e-05,
      "loss": 0.0121,
      "step": 91
    },
    {
      "epoch": 4.136363636363637,
      "eval_loss": 0.007134940009564161,
      "eval_runtime": 0.2226,
      "eval_samples_per_second": 395.399,
      "eval_steps_per_second": 49.425,
      "step": 91
    },
    {
      "epoch": 4.181818181818182,
      "grad_norm": 0.09916353225708008,
      "learning_rate": 2.6802631578947366e-05,
      "loss": 0.0111,
      "step": 92
    },
    {
      "epoch": 4.181818181818182,
      "eval_loss": 0.007011328358203173,
      "eval_runtime": 0.2218,
      "eval_samples_per_second": 396.679,
      "eval_steps_per_second": 49.585,
      "step": 92
    },
    {
      "epoch": 4.2272727272727275,
      "grad_norm": 0.11726672202348709,
      "learning_rate": 2.6763157894736844e-05,
      "loss": 0.0128,
      "step": 93
    },
    {
      "epoch": 4.2272727272727275,
      "eval_loss": 0.006890672724694014,
      "eval_runtime": 0.2242,
      "eval_samples_per_second": 392.462,
      "eval_steps_per_second": 49.058,
      "step": 93
    },
    {
      "epoch": 4.2727272727272725,
      "grad_norm": 0.10044334828853607,
      "learning_rate": 2.6723684210526318e-05,
      "loss": 0.0115,
      "step": 94
    },
    {
      "epoch": 4.2727272727272725,
      "eval_loss": 0.006776686292141676,
      "eval_runtime": 0.2201,
      "eval_samples_per_second": 399.833,
      "eval_steps_per_second": 49.979,
      "step": 94
    },
    {
      "epoch": 4.318181818181818,
      "grad_norm": 0.09276948869228363,
      "learning_rate": 2.668421052631579e-05,
      "loss": 0.011,
      "step": 95
    },
    {
      "epoch": 4.318181818181818,
      "eval_loss": 0.00667022867128253,
      "eval_runtime": 0.2225,
      "eval_samples_per_second": 395.502,
      "eval_steps_per_second": 49.438,
      "step": 95
    },
    {
      "epoch": 4.363636363636363,
      "grad_norm": 0.09718704223632812,
      "learning_rate": 2.6644736842105266e-05,
      "loss": 0.0113,
      "step": 96
    },
    {
      "epoch": 4.363636363636363,
      "eval_loss": 0.006560015957802534,
      "eval_runtime": 0.2172,
      "eval_samples_per_second": 405.161,
      "eval_steps_per_second": 50.645,
      "step": 96
    },
    {
      "epoch": 4.409090909090909,
      "grad_norm": 0.11359906196594238,
      "learning_rate": 2.6605263157894737e-05,
      "loss": 0.0105,
      "step": 97
    },
    {
      "epoch": 4.409090909090909,
      "eval_loss": 0.0064485338516533375,
      "eval_runtime": 0.221,
      "eval_samples_per_second": 398.174,
      "eval_steps_per_second": 49.772,
      "step": 97
    },
    {
      "epoch": 4.454545454545454,
      "grad_norm": 0.0942469909787178,
      "learning_rate": 2.656578947368421e-05,
      "loss": 0.0104,
      "step": 98
    },
    {
      "epoch": 4.454545454545454,
      "eval_loss": 0.00633326917886734,
      "eval_runtime": 0.2241,
      "eval_samples_per_second": 392.749,
      "eval_steps_per_second": 49.094,
      "step": 98
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.08770338445901871,
      "learning_rate": 2.6526315789473685e-05,
      "loss": 0.0097,
      "step": 99
    },
    {
      "epoch": 4.5,
      "eval_loss": 0.006226606201380491,
      "eval_runtime": 0.221,
      "eval_samples_per_second": 398.22,
      "eval_steps_per_second": 49.777,
      "step": 99
    },
    {
      "epoch": 4.545454545454545,
      "grad_norm": 0.0902254730463028,
      "learning_rate": 2.648684210526316e-05,
      "loss": 0.0102,
      "step": 100
    },
    {
      "epoch": 4.545454545454545,
      "eval_loss": 0.0061218636110424995,
      "eval_runtime": 0.2218,
      "eval_samples_per_second": 396.725,
      "eval_steps_per_second": 49.591,
      "step": 100
    },
    {
      "epoch": 4.590909090909091,
      "grad_norm": 0.07302330434322357,
      "learning_rate": 2.644736842105263e-05,
      "loss": 0.0086,
      "step": 101
    },
    {
      "epoch": 4.590909090909091,
      "eval_loss": 0.006022432819008827,
      "eval_runtime": 0.2242,
      "eval_samples_per_second": 392.497,
      "eval_steps_per_second": 49.062,
      "step": 101
    },
    {
      "epoch": 4.636363636363637,
      "grad_norm": 0.09044598042964935,
      "learning_rate": 2.6407894736842108e-05,
      "loss": 0.0098,
      "step": 102
    },
    {
      "epoch": 4.636363636363637,
      "eval_loss": 0.005927449557930231,
      "eval_runtime": 0.219,
      "eval_samples_per_second": 401.867,
      "eval_steps_per_second": 50.233,
      "step": 102
    },
    {
      "epoch": 4.681818181818182,
      "grad_norm": 0.07847205549478531,
      "learning_rate": 2.636842105263158e-05,
      "loss": 0.0093,
      "step": 103
    },
    {
      "epoch": 4.681818181818182,
      "eval_loss": 0.005836833734065294,
      "eval_runtime": 0.2477,
      "eval_samples_per_second": 355.291,
      "eval_steps_per_second": 44.411,
      "step": 103
    },
    {
      "epoch": 4.7272727272727275,
      "grad_norm": 0.09054490178823471,
      "learning_rate": 2.6328947368421053e-05,
      "loss": 0.0093,
      "step": 104
    },
    {
      "epoch": 4.7272727272727275,
      "eval_loss": 0.005744776222854853,
      "eval_runtime": 0.2237,
      "eval_samples_per_second": 393.373,
      "eval_steps_per_second": 49.172,
      "step": 104
    },
    {
      "epoch": 4.7727272727272725,
      "grad_norm": 0.08056215196847916,
      "learning_rate": 2.6289473684210527e-05,
      "loss": 0.0095,
      "step": 105
    },
    {
      "epoch": 4.7727272727272725,
      "eval_loss": 0.005655229557305574,
      "eval_runtime": 0.2221,
      "eval_samples_per_second": 396.284,
      "eval_steps_per_second": 49.535,
      "step": 105
    },
    {
      "epoch": 4.818181818181818,
      "grad_norm": 0.07413677871227264,
      "learning_rate": 2.625e-05,
      "loss": 0.0095,
      "step": 106
    },
    {
      "epoch": 4.818181818181818,
      "eval_loss": 0.005573854316025972,
      "eval_runtime": 0.2219,
      "eval_samples_per_second": 396.499,
      "eval_steps_per_second": 49.562,
      "step": 106
    },
    {
      "epoch": 4.863636363636363,
      "grad_norm": 0.09156908839941025,
      "learning_rate": 2.6210526315789475e-05,
      "loss": 0.0094,
      "step": 107
    },
    {
      "epoch": 4.863636363636363,
      "eval_loss": 0.005500171799212694,
      "eval_runtime": 0.218,
      "eval_samples_per_second": 403.697,
      "eval_steps_per_second": 50.462,
      "step": 107
    },
    {
      "epoch": 4.909090909090909,
      "grad_norm": 0.07806240767240524,
      "learning_rate": 2.617105263157895e-05,
      "loss": 0.009,
      "step": 108
    },
    {
      "epoch": 4.909090909090909,
      "eval_loss": 0.005432323087006807,
      "eval_runtime": 0.2208,
      "eval_samples_per_second": 398.497,
      "eval_steps_per_second": 49.812,
      "step": 108
    },
    {
      "epoch": 4.954545454545455,
      "grad_norm": 0.07705673575401306,
      "learning_rate": 2.6131578947368424e-05,
      "loss": 0.0091,
      "step": 109
    },
    {
      "epoch": 4.954545454545455,
      "eval_loss": 0.005366500001400709,
      "eval_runtime": 0.2187,
      "eval_samples_per_second": 402.388,
      "eval_steps_per_second": 50.299,
      "step": 109
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.0743311420083046,
      "learning_rate": 2.6092105263157894e-05,
      "loss": 0.0087,
      "step": 110
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.005299717653542757,
      "eval_runtime": 0.215,
      "eval_samples_per_second": 409.298,
      "eval_steps_per_second": 51.162,
      "step": 110
    },
    {
      "epoch": 5.045454545454546,
      "grad_norm": 0.0689927488565445,
      "learning_rate": 2.605263157894737e-05,
      "loss": 0.0081,
      "step": 111
    },
    {
      "epoch": 5.045454545454546,
      "eval_loss": 0.005235993303358555,
      "eval_runtime": 0.2192,
      "eval_samples_per_second": 401.457,
      "eval_steps_per_second": 50.182,
      "step": 111
    },
    {
      "epoch": 5.090909090909091,
      "grad_norm": 0.06892900913953781,
      "learning_rate": 2.6013157894736843e-05,
      "loss": 0.0082,
      "step": 112
    },
    {
      "epoch": 5.090909090909091,
      "eval_loss": 0.005173509940505028,
      "eval_runtime": 0.219,
      "eval_samples_per_second": 401.777,
      "eval_steps_per_second": 50.222,
      "step": 112
    },
    {
      "epoch": 5.136363636363637,
      "grad_norm": 0.06960764527320862,
      "learning_rate": 2.5973684210526317e-05,
      "loss": 0.0081,
      "step": 113
    },
    {
      "epoch": 5.136363636363637,
      "eval_loss": 0.005112760700285435,
      "eval_runtime": 0.2203,
      "eval_samples_per_second": 399.491,
      "eval_steps_per_second": 49.936,
      "step": 113
    },
    {
      "epoch": 5.181818181818182,
      "grad_norm": 0.07173731923103333,
      "learning_rate": 2.5934210526315788e-05,
      "loss": 0.008,
      "step": 114
    },
    {
      "epoch": 5.181818181818182,
      "eval_loss": 0.00505533954128623,
      "eval_runtime": 0.2227,
      "eval_samples_per_second": 395.105,
      "eval_steps_per_second": 49.388,
      "step": 114
    },
    {
      "epoch": 5.2272727272727275,
      "grad_norm": 0.06811046600341797,
      "learning_rate": 2.5894736842105265e-05,
      "loss": 0.0074,
      "step": 115
    },
    {
      "epoch": 5.2272727272727275,
      "eval_loss": 0.0049970815889537334,
      "eval_runtime": 0.2171,
      "eval_samples_per_second": 405.344,
      "eval_steps_per_second": 50.668,
      "step": 115
    },
    {
      "epoch": 5.2727272727272725,
      "grad_norm": 0.0676768496632576,
      "learning_rate": 2.5855263157894736e-05,
      "loss": 0.0076,
      "step": 116
    },
    {
      "epoch": 5.2727272727272725,
      "eval_loss": 0.004939272068440914,
      "eval_runtime": 0.2319,
      "eval_samples_per_second": 379.44,
      "eval_steps_per_second": 47.43,
      "step": 116
    },
    {
      "epoch": 5.318181818181818,
      "grad_norm": 0.06927932053804398,
      "learning_rate": 2.581578947368421e-05,
      "loss": 0.0078,
      "step": 117
    },
    {
      "epoch": 5.318181818181818,
      "eval_loss": 0.004879767540842295,
      "eval_runtime": 0.2354,
      "eval_samples_per_second": 373.859,
      "eval_steps_per_second": 46.732,
      "step": 117
    },
    {
      "epoch": 5.363636363636363,
      "grad_norm": 0.0733099952340126,
      "learning_rate": 2.5776315789473684e-05,
      "loss": 0.009,
      "step": 118
    },
    {
      "epoch": 5.363636363636363,
      "eval_loss": 0.00482180854305625,
      "eval_runtime": 0.22,
      "eval_samples_per_second": 399.97,
      "eval_steps_per_second": 49.996,
      "step": 118
    },
    {
      "epoch": 5.409090909090909,
      "grad_norm": 0.07873851805925369,
      "learning_rate": 2.5736842105263158e-05,
      "loss": 0.0085,
      "step": 119
    },
    {
      "epoch": 5.409090909090909,
      "eval_loss": 0.004767131991684437,
      "eval_runtime": 0.2272,
      "eval_samples_per_second": 387.355,
      "eval_steps_per_second": 48.419,
      "step": 119
    },
    {
      "epoch": 5.454545454545454,
      "grad_norm": 0.06912100315093994,
      "learning_rate": 2.5697368421052632e-05,
      "loss": 0.0075,
      "step": 120
    },
    {
      "epoch": 5.454545454545454,
      "eval_loss": 0.004715087823569775,
      "eval_runtime": 0.2216,
      "eval_samples_per_second": 397.159,
      "eval_steps_per_second": 49.645,
      "step": 120
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.059973061084747314,
      "learning_rate": 2.5657894736842107e-05,
      "loss": 0.0078,
      "step": 121
    },
    {
      "epoch": 5.5,
      "eval_loss": 0.004667165223509073,
      "eval_runtime": 0.2226,
      "eval_samples_per_second": 395.251,
      "eval_steps_per_second": 49.406,
      "step": 121
    },
    {
      "epoch": 5.545454545454545,
      "grad_norm": 0.06346078962087631,
      "learning_rate": 2.561842105263158e-05,
      "loss": 0.0073,
      "step": 122
    },
    {
      "epoch": 5.545454545454545,
      "eval_loss": 0.004621806554496288,
      "eval_runtime": 0.2263,
      "eval_samples_per_second": 388.791,
      "eval_steps_per_second": 48.599,
      "step": 122
    },
    {
      "epoch": 5.590909090909091,
      "grad_norm": 0.07588130235671997,
      "learning_rate": 2.557894736842105e-05,
      "loss": 0.0079,
      "step": 123
    },
    {
      "epoch": 5.590909090909091,
      "eval_loss": 0.004576975479722023,
      "eval_runtime": 0.2216,
      "eval_samples_per_second": 397.081,
      "eval_steps_per_second": 49.635,
      "step": 123
    },
    {
      "epoch": 5.636363636363637,
      "grad_norm": 0.0569930225610733,
      "learning_rate": 2.553947368421053e-05,
      "loss": 0.0068,
      "step": 124
    },
    {
      "epoch": 5.636363636363637,
      "eval_loss": 0.004534974228590727,
      "eval_runtime": 0.2207,
      "eval_samples_per_second": 398.807,
      "eval_steps_per_second": 49.851,
      "step": 124
    },
    {
      "epoch": 5.681818181818182,
      "grad_norm": 0.07023297250270844,
      "learning_rate": 2.55e-05,
      "loss": 0.0078,
      "step": 125
    },
    {
      "epoch": 5.681818181818182,
      "eval_loss": 0.004494456574320793,
      "eval_runtime": 0.2276,
      "eval_samples_per_second": 386.655,
      "eval_steps_per_second": 48.332,
      "step": 125
    },
    {
      "epoch": 5.7272727272727275,
      "grad_norm": 0.0586245059967041,
      "learning_rate": 2.5460526315789474e-05,
      "loss": 0.0072,
      "step": 126
    },
    {
      "epoch": 5.7272727272727275,
      "eval_loss": 0.0044531743042171,
      "eval_runtime": 0.2354,
      "eval_samples_per_second": 373.803,
      "eval_steps_per_second": 46.725,
      "step": 126
    },
    {
      "epoch": 5.7727272727272725,
      "grad_norm": 0.0652911588549614,
      "learning_rate": 2.5421052631578948e-05,
      "loss": 0.0073,
      "step": 127
    },
    {
      "epoch": 5.7727272727272725,
      "eval_loss": 0.004411415662616491,
      "eval_runtime": 0.236,
      "eval_samples_per_second": 372.941,
      "eval_steps_per_second": 46.618,
      "step": 127
    },
    {
      "epoch": 5.818181818181818,
      "grad_norm": 0.05701863393187523,
      "learning_rate": 2.5381578947368422e-05,
      "loss": 0.0067,
      "step": 128
    },
    {
      "epoch": 5.818181818181818,
      "eval_loss": 0.004371690563857555,
      "eval_runtime": 0.2358,
      "eval_samples_per_second": 373.191,
      "eval_steps_per_second": 46.649,
      "step": 128
    },
    {
      "epoch": 5.863636363636363,
      "grad_norm": 0.05990603566169739,
      "learning_rate": 2.5342105263157893e-05,
      "loss": 0.0071,
      "step": 129
    },
    {
      "epoch": 5.863636363636363,
      "eval_loss": 0.004331877455115318,
      "eval_runtime": 0.2301,
      "eval_samples_per_second": 382.487,
      "eval_steps_per_second": 47.811,
      "step": 129
    },
    {
      "epoch": 5.909090909090909,
      "grad_norm": 0.06283283233642578,
      "learning_rate": 2.530263157894737e-05,
      "loss": 0.0071,
      "step": 130
    },
    {
      "epoch": 5.909090909090909,
      "eval_loss": 0.0042935688979923725,
      "eval_runtime": 0.2387,
      "eval_samples_per_second": 368.63,
      "eval_steps_per_second": 46.079,
      "step": 130
    },
    {
      "epoch": 5.954545454545455,
      "grad_norm": 0.060048509389162064,
      "learning_rate": 2.526315789473684e-05,
      "loss": 0.0067,
      "step": 131
    },
    {
      "epoch": 5.954545454545455,
      "eval_loss": 0.0042540752328932285,
      "eval_runtime": 0.2471,
      "eval_samples_per_second": 356.096,
      "eval_steps_per_second": 44.512,
      "step": 131
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.060563940554857254,
      "learning_rate": 2.5223684210526315e-05,
      "loss": 0.0064,
      "step": 132
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.004213025793433189,
      "eval_runtime": 0.2399,
      "eval_samples_per_second": 366.883,
      "eval_steps_per_second": 45.86,
      "step": 132
    },
    {
      "epoch": 6.045454545454546,
      "grad_norm": 0.060382332652807236,
      "learning_rate": 2.518421052631579e-05,
      "loss": 0.0071,
      "step": 133
    },
    {
      "epoch": 6.045454545454546,
      "eval_loss": 0.004174065310508013,
      "eval_runtime": 0.2268,
      "eval_samples_per_second": 388.075,
      "eval_steps_per_second": 48.509,
      "step": 133
    },
    {
      "epoch": 6.090909090909091,
      "grad_norm": 0.06080484017729759,
      "learning_rate": 2.5144736842105264e-05,
      "loss": 0.0073,
      "step": 134
    },
    {
      "epoch": 6.090909090909091,
      "eval_loss": 0.0041358619928359985,
      "eval_runtime": 0.2229,
      "eval_samples_per_second": 394.875,
      "eval_steps_per_second": 49.359,
      "step": 134
    },
    {
      "epoch": 6.136363636363637,
      "grad_norm": 0.057626206427812576,
      "learning_rate": 2.5105263157894738e-05,
      "loss": 0.0066,
      "step": 135
    },
    {
      "epoch": 6.136363636363637,
      "eval_loss": 0.004101672675460577,
      "eval_runtime": 0.2283,
      "eval_samples_per_second": 385.395,
      "eval_steps_per_second": 48.174,
      "step": 135
    },
    {
      "epoch": 6.181818181818182,
      "grad_norm": 0.06599877029657364,
      "learning_rate": 2.5065789473684212e-05,
      "loss": 0.0075,
      "step": 136
    },
    {
      "epoch": 6.181818181818182,
      "eval_loss": 0.004067064728587866,
      "eval_runtime": 0.221,
      "eval_samples_per_second": 398.26,
      "eval_steps_per_second": 49.783,
      "step": 136
    },
    {
      "epoch": 6.2272727272727275,
      "grad_norm": 0.05654873698949814,
      "learning_rate": 2.5026315789473686e-05,
      "loss": 0.0066,
      "step": 137
    },
    {
      "epoch": 6.2272727272727275,
      "eval_loss": 0.0040321690030395985,
      "eval_runtime": 0.2329,
      "eval_samples_per_second": 377.882,
      "eval_steps_per_second": 47.235,
      "step": 137
    },
    {
      "epoch": 6.2727272727272725,
      "grad_norm": 0.05717283487319946,
      "learning_rate": 2.4986842105263157e-05,
      "loss": 0.0067,
      "step": 138
    },
    {
      "epoch": 6.2727272727272725,
      "eval_loss": 0.003995668143033981,
      "eval_runtime": 0.2203,
      "eval_samples_per_second": 399.464,
      "eval_steps_per_second": 49.933,
      "step": 138
    },
    {
      "epoch": 6.318181818181818,
      "grad_norm": 0.06036869063973427,
      "learning_rate": 2.4947368421052635e-05,
      "loss": 0.0064,
      "step": 139
    },
    {
      "epoch": 6.318181818181818,
      "eval_loss": 0.003956829197704792,
      "eval_runtime": 0.2294,
      "eval_samples_per_second": 383.681,
      "eval_steps_per_second": 47.96,
      "step": 139
    },
    {
      "epoch": 6.363636363636363,
      "grad_norm": 0.05111813545227051,
      "learning_rate": 2.4907894736842105e-05,
      "loss": 0.0063,
      "step": 140
    },
    {
      "epoch": 6.363636363636363,
      "eval_loss": 0.003918844275176525,
      "eval_runtime": 0.2186,
      "eval_samples_per_second": 402.513,
      "eval_steps_per_second": 50.314,
      "step": 140
    },
    {
      "epoch": 6.409090909090909,
      "grad_norm": 0.0621768981218338,
      "learning_rate": 2.486842105263158e-05,
      "loss": 0.0064,
      "step": 141
    },
    {
      "epoch": 6.409090909090909,
      "eval_loss": 0.00388046121224761,
      "eval_runtime": 0.2309,
      "eval_samples_per_second": 381.086,
      "eval_steps_per_second": 47.636,
      "step": 141
    },
    {
      "epoch": 6.454545454545454,
      "grad_norm": 0.06089349836111069,
      "learning_rate": 2.4828947368421054e-05,
      "loss": 0.0066,
      "step": 142
    },
    {
      "epoch": 6.454545454545454,
      "eval_loss": 0.003839746816083789,
      "eval_runtime": 0.2206,
      "eval_samples_per_second": 398.928,
      "eval_steps_per_second": 49.866,
      "step": 142
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.05007468909025192,
      "learning_rate": 2.4789473684210528e-05,
      "loss": 0.0061,
      "step": 143
    },
    {
      "epoch": 6.5,
      "eval_loss": 0.003801233833655715,
      "eval_runtime": 0.2295,
      "eval_samples_per_second": 383.433,
      "eval_steps_per_second": 47.929,
      "step": 143
    },
    {
      "epoch": 6.545454545454545,
      "grad_norm": 0.053182121366262436,
      "learning_rate": 2.475e-05,
      "loss": 0.0059,
      "step": 144
    },
    {
      "epoch": 6.545454545454545,
      "eval_loss": 0.003766607493162155,
      "eval_runtime": 0.2261,
      "eval_samples_per_second": 389.124,
      "eval_steps_per_second": 48.64,
      "step": 144
    },
    {
      "epoch": 6.590909090909091,
      "grad_norm": 0.051414087414741516,
      "learning_rate": 2.4710526315789476e-05,
      "loss": 0.0061,
      "step": 145
    },
    {
      "epoch": 6.590909090909091,
      "eval_loss": 0.0037348391488194466,
      "eval_runtime": 0.2309,
      "eval_samples_per_second": 381.083,
      "eval_steps_per_second": 47.635,
      "step": 145
    },
    {
      "epoch": 6.636363636363637,
      "grad_norm": 0.051980625838041306,
      "learning_rate": 2.4671052631578947e-05,
      "loss": 0.0061,
      "step": 146
    },
    {
      "epoch": 6.636363636363637,
      "eval_loss": 0.0037048642989248037,
      "eval_runtime": 0.2327,
      "eval_samples_per_second": 378.163,
      "eval_steps_per_second": 47.27,
      "step": 146
    },
    {
      "epoch": 6.681818181818182,
      "grad_norm": 0.054644446820020676,
      "learning_rate": 2.463157894736842e-05,
      "loss": 0.006,
      "step": 147
    },
    {
      "epoch": 6.681818181818182,
      "eval_loss": 0.003674545791000128,
      "eval_runtime": 0.2332,
      "eval_samples_per_second": 377.322,
      "eval_steps_per_second": 47.165,
      "step": 147
    },
    {
      "epoch": 6.7272727272727275,
      "grad_norm": 0.04687352105975151,
      "learning_rate": 2.45921052631579e-05,
      "loss": 0.0057,
      "step": 148
    },
    {
      "epoch": 6.7272727272727275,
      "eval_loss": 0.0036456272937357426,
      "eval_runtime": 0.2302,
      "eval_samples_per_second": 382.325,
      "eval_steps_per_second": 47.791,
      "step": 148
    },
    {
      "epoch": 6.7727272727272725,
      "grad_norm": 0.0500478520989418,
      "learning_rate": 2.455263157894737e-05,
      "loss": 0.0054,
      "step": 149
    },
    {
      "epoch": 6.7727272727272725,
      "eval_loss": 0.003618737915530801,
      "eval_runtime": 0.2281,
      "eval_samples_per_second": 385.776,
      "eval_steps_per_second": 48.222,
      "step": 149
    },
    {
      "epoch": 6.818181818181818,
      "grad_norm": 0.05092916265130043,
      "learning_rate": 2.4513157894736843e-05,
      "loss": 0.0054,
      "step": 150
    },
    {
      "epoch": 6.818181818181818,
      "eval_loss": 0.0035921267699450254,
      "eval_runtime": 0.2298,
      "eval_samples_per_second": 382.977,
      "eval_steps_per_second": 47.872,
      "step": 150
    },
    {
      "epoch": 6.863636363636363,
      "grad_norm": 0.05389472842216492,
      "learning_rate": 2.4473684210526318e-05,
      "loss": 0.0057,
      "step": 151
    },
    {
      "epoch": 6.863636363636363,
      "eval_loss": 0.003567308420315385,
      "eval_runtime": 0.2896,
      "eval_samples_per_second": 303.912,
      "eval_steps_per_second": 37.989,
      "step": 151
    },
    {
      "epoch": 6.909090909090909,
      "grad_norm": 0.051427211612463,
      "learning_rate": 2.4434210526315792e-05,
      "loss": 0.0058,
      "step": 152
    },
    {
      "epoch": 6.909090909090909,
      "eval_loss": 0.003539604600518942,
      "eval_runtime": 0.2314,
      "eval_samples_per_second": 380.243,
      "eval_steps_per_second": 47.53,
      "step": 152
    },
    {
      "epoch": 6.954545454545455,
      "grad_norm": 0.05391733720898628,
      "learning_rate": 2.4394736842105262e-05,
      "loss": 0.0058,
      "step": 153
    },
    {
      "epoch": 6.954545454545455,
      "eval_loss": 0.0035100304521620274,
      "eval_runtime": 0.2452,
      "eval_samples_per_second": 358.914,
      "eval_steps_per_second": 44.864,
      "step": 153
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.05612335354089737,
      "learning_rate": 2.4355263157894737e-05,
      "loss": 0.0056,
      "step": 154
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.0034810365177690983,
      "eval_runtime": 0.2328,
      "eval_samples_per_second": 378.038,
      "eval_steps_per_second": 47.255,
      "step": 154
    },
    {
      "epoch": 7.045454545454546,
      "grad_norm": 0.05799683555960655,
      "learning_rate": 2.431578947368421e-05,
      "loss": 0.0062,
      "step": 155
    },
    {
      "epoch": 7.045454545454546,
      "eval_loss": 0.003452845150604844,
      "eval_runtime": 0.2326,
      "eval_samples_per_second": 378.28,
      "eval_steps_per_second": 47.285,
      "step": 155
    },
    {
      "epoch": 7.090909090909091,
      "grad_norm": 0.05095871537923813,
      "learning_rate": 2.4276315789473685e-05,
      "loss": 0.0051,
      "step": 156
    },
    {
      "epoch": 7.090909090909091,
      "eval_loss": 0.003425983479246497,
      "eval_runtime": 0.2387,
      "eval_samples_per_second": 368.611,
      "eval_steps_per_second": 46.076,
      "step": 156
    },
    {
      "epoch": 7.136363636363637,
      "grad_norm": 0.05834353715181351,
      "learning_rate": 2.4236842105263156e-05,
      "loss": 0.0061,
      "step": 157
    },
    {
      "epoch": 7.136363636363637,
      "eval_loss": 0.003400736255571246,
      "eval_runtime": 0.233,
      "eval_samples_per_second": 377.737,
      "eval_steps_per_second": 47.217,
      "step": 157
    },
    {
      "epoch": 7.181818181818182,
      "grad_norm": 0.05226532742381096,
      "learning_rate": 2.4197368421052633e-05,
      "loss": 0.006,
      "step": 158
    },
    {
      "epoch": 7.181818181818182,
      "eval_loss": 0.003375994274392724,
      "eval_runtime": 0.2371,
      "eval_samples_per_second": 371.159,
      "eval_steps_per_second": 46.395,
      "step": 158
    },
    {
      "epoch": 7.2272727272727275,
      "grad_norm": 0.044102054089307785,
      "learning_rate": 2.4157894736842104e-05,
      "loss": 0.0051,
      "step": 159
    },
    {
      "epoch": 7.2272727272727275,
      "eval_loss": 0.003351524705067277,
      "eval_runtime": 0.2391,
      "eval_samples_per_second": 368.077,
      "eval_steps_per_second": 46.01,
      "step": 159
    },
    {
      "epoch": 7.2727272727272725,
      "grad_norm": 0.050387196242809296,
      "learning_rate": 2.4118421052631578e-05,
      "loss": 0.0055,
      "step": 160
    },
    {
      "epoch": 7.2727272727272725,
      "eval_loss": 0.003328080987557769,
      "eval_runtime": 0.2367,
      "eval_samples_per_second": 371.775,
      "eval_steps_per_second": 46.472,
      "step": 160
    },
    {
      "epoch": 7.318181818181818,
      "grad_norm": 0.05944162234663963,
      "learning_rate": 2.4078947368421056e-05,
      "loss": 0.0062,
      "step": 161
    },
    {
      "epoch": 7.318181818181818,
      "eval_loss": 0.003306704806163907,
      "eval_runtime": 0.2302,
      "eval_samples_per_second": 382.244,
      "eval_steps_per_second": 47.781,
      "step": 161
    },
    {
      "epoch": 7.363636363636363,
      "grad_norm": 0.058280494064092636,
      "learning_rate": 2.4039473684210526e-05,
      "loss": 0.0055,
      "step": 162
    },
    {
      "epoch": 7.363636363636363,
      "eval_loss": 0.0032875537872314453,
      "eval_runtime": 0.2313,
      "eval_samples_per_second": 380.46,
      "eval_steps_per_second": 47.557,
      "step": 162
    },
    {
      "epoch": 7.409090909090909,
      "grad_norm": 0.04580385982990265,
      "learning_rate": 2.4e-05,
      "loss": 0.0051,
      "step": 163
    },
    {
      "epoch": 7.409090909090909,
      "eval_loss": 0.003268357366323471,
      "eval_runtime": 0.2329,
      "eval_samples_per_second": 377.841,
      "eval_steps_per_second": 47.23,
      "step": 163
    },
    {
      "epoch": 7.454545454545454,
      "grad_norm": 0.047211576253175735,
      "learning_rate": 2.3960526315789475e-05,
      "loss": 0.0049,
      "step": 164
    },
    {
      "epoch": 7.454545454545454,
      "eval_loss": 0.003249667352065444,
      "eval_runtime": 0.2288,
      "eval_samples_per_second": 384.62,
      "eval_steps_per_second": 48.077,
      "step": 164
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.04698212072253227,
      "learning_rate": 2.392105263157895e-05,
      "loss": 0.0051,
      "step": 165
    },
    {
      "epoch": 7.5,
      "eval_loss": 0.003230377798900008,
      "eval_runtime": 0.2336,
      "eval_samples_per_second": 376.761,
      "eval_steps_per_second": 47.095,
      "step": 165
    },
    {
      "epoch": 7.545454545454545,
      "grad_norm": 0.049539972096681595,
      "learning_rate": 2.388157894736842e-05,
      "loss": 0.0053,
      "step": 166
    },
    {
      "epoch": 7.545454545454545,
      "eval_loss": 0.003210590686649084,
      "eval_runtime": 0.2308,
      "eval_samples_per_second": 381.225,
      "eval_steps_per_second": 47.653,
      "step": 166
    },
    {
      "epoch": 7.590909090909091,
      "grad_norm": 0.06876406818628311,
      "learning_rate": 2.3842105263157897e-05,
      "loss": 0.0054,
      "step": 167
    },
    {
      "epoch": 7.590909090909091,
      "eval_loss": 0.0031811357475817204,
      "eval_runtime": 0.2314,
      "eval_samples_per_second": 380.236,
      "eval_steps_per_second": 47.53,
      "step": 167
    },
    {
      "epoch": 7.636363636363637,
      "grad_norm": 0.03961968049407005,
      "learning_rate": 2.3802631578947368e-05,
      "loss": 0.0048,
      "step": 168
    },
    {
      "epoch": 7.636363636363637,
      "eval_loss": 0.003153204219415784,
      "eval_runtime": 0.2327,
      "eval_samples_per_second": 378.242,
      "eval_steps_per_second": 47.28,
      "step": 168
    },
    {
      "epoch": 7.681818181818182,
      "grad_norm": 0.046262938529253006,
      "learning_rate": 2.3763157894736842e-05,
      "loss": 0.0054,
      "step": 169
    },
    {
      "epoch": 7.681818181818182,
      "eval_loss": 0.0031256629154086113,
      "eval_runtime": 0.2285,
      "eval_samples_per_second": 385.163,
      "eval_steps_per_second": 48.145,
      "step": 169
    },
    {
      "epoch": 7.7272727272727275,
      "grad_norm": 0.04695883020758629,
      "learning_rate": 2.3723684210526316e-05,
      "loss": 0.0053,
      "step": 170
    },
    {
      "epoch": 7.7272727272727275,
      "eval_loss": 0.00310018053278327,
      "eval_runtime": 0.2345,
      "eval_samples_per_second": 375.19,
      "eval_steps_per_second": 46.899,
      "step": 170
    },
    {
      "epoch": 7.7727272727272725,
      "grad_norm": 0.047219086438417435,
      "learning_rate": 2.368421052631579e-05,
      "loss": 0.0052,
      "step": 171
    },
    {
      "epoch": 7.7727272727272725,
      "eval_loss": 0.003074278589338064,
      "eval_runtime": 0.2331,
      "eval_samples_per_second": 377.522,
      "eval_steps_per_second": 47.19,
      "step": 171
    },
    {
      "epoch": 7.818181818181818,
      "grad_norm": 0.05439964681863785,
      "learning_rate": 2.364473684210526e-05,
      "loss": 0.0055,
      "step": 172
    },
    {
      "epoch": 7.818181818181818,
      "eval_loss": 0.003049066523090005,
      "eval_runtime": 0.2239,
      "eval_samples_per_second": 393.01,
      "eval_steps_per_second": 49.126,
      "step": 172
    },
    {
      "epoch": 7.863636363636363,
      "grad_norm": 0.041486483067274094,
      "learning_rate": 2.360526315789474e-05,
      "loss": 0.0047,
      "step": 173
    },
    {
      "epoch": 7.863636363636363,
      "eval_loss": 0.0030262693762779236,
      "eval_runtime": 0.2278,
      "eval_samples_per_second": 386.243,
      "eval_steps_per_second": 48.28,
      "step": 173
    },
    {
      "epoch": 7.909090909090909,
      "grad_norm": 0.040691111236810684,
      "learning_rate": 2.3565789473684213e-05,
      "loss": 0.0046,
      "step": 174
    },
    {
      "epoch": 7.909090909090909,
      "eval_loss": 0.0030057693365961313,
      "eval_runtime": 0.2276,
      "eval_samples_per_second": 386.567,
      "eval_steps_per_second": 48.321,
      "step": 174
    },
    {
      "epoch": 7.954545454545455,
      "grad_norm": 0.048391714692115784,
      "learning_rate": 2.3526315789473684e-05,
      "loss": 0.0055,
      "step": 175
    },
    {
      "epoch": 7.954545454545455,
      "eval_loss": 0.0029874229803681374,
      "eval_runtime": 0.2269,
      "eval_samples_per_second": 387.906,
      "eval_steps_per_second": 48.488,
      "step": 175
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.04458646848797798,
      "learning_rate": 2.348684210526316e-05,
      "loss": 0.005,
      "step": 176
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.0029713741969317198,
      "eval_runtime": 0.2305,
      "eval_samples_per_second": 381.854,
      "eval_steps_per_second": 47.732,
      "step": 176
    },
    {
      "epoch": 8.045454545454545,
      "grad_norm": 0.044490914791822433,
      "learning_rate": 2.3447368421052632e-05,
      "loss": 0.005,
      "step": 177
    },
    {
      "epoch": 8.045454545454545,
      "eval_loss": 0.002958006225526333,
      "eval_runtime": 0.2331,
      "eval_samples_per_second": 377.519,
      "eval_steps_per_second": 47.19,
      "step": 177
    },
    {
      "epoch": 8.090909090909092,
      "grad_norm": 0.04664753004908562,
      "learning_rate": 2.3407894736842106e-05,
      "loss": 0.0053,
      "step": 178
    },
    {
      "epoch": 8.090909090909092,
      "eval_loss": 0.0029434128664433956,
      "eval_runtime": 0.2369,
      "eval_samples_per_second": 371.478,
      "eval_steps_per_second": 46.435,
      "step": 178
    },
    {
      "epoch": 8.136363636363637,
      "grad_norm": 0.05114319175481796,
      "learning_rate": 2.336842105263158e-05,
      "loss": 0.0052,
      "step": 179
    },
    {
      "epoch": 8.136363636363637,
      "eval_loss": 0.002928072353824973,
      "eval_runtime": 0.2273,
      "eval_samples_per_second": 387.111,
      "eval_steps_per_second": 48.389,
      "step": 179
    },
    {
      "epoch": 8.181818181818182,
      "grad_norm": 0.03715480864048004,
      "learning_rate": 2.3328947368421054e-05,
      "loss": 0.0044,
      "step": 180
    },
    {
      "epoch": 8.181818181818182,
      "eval_loss": 0.002913246164098382,
      "eval_runtime": 0.2291,
      "eval_samples_per_second": 384.095,
      "eval_steps_per_second": 48.012,
      "step": 180
    },
    {
      "epoch": 8.227272727272727,
      "grad_norm": 0.03329971432685852,
      "learning_rate": 2.3289473684210525e-05,
      "loss": 0.0043,
      "step": 181
    },
    {
      "epoch": 8.227272727272727,
      "eval_loss": 0.0028981559444218874,
      "eval_runtime": 0.2387,
      "eval_samples_per_second": 368.641,
      "eval_steps_per_second": 46.08,
      "step": 181
    },
    {
      "epoch": 8.272727272727273,
      "grad_norm": 0.036768488585948944,
      "learning_rate": 2.3250000000000003e-05,
      "loss": 0.0043,
      "step": 182
    },
    {
      "epoch": 8.272727272727273,
      "eval_loss": 0.002883592387661338,
      "eval_runtime": 0.2382,
      "eval_samples_per_second": 369.423,
      "eval_steps_per_second": 46.178,
      "step": 182
    },
    {
      "epoch": 8.318181818181818,
      "grad_norm": 0.03704945370554924,
      "learning_rate": 2.3210526315789473e-05,
      "loss": 0.0042,
      "step": 183
    },
    {
      "epoch": 8.318181818181818,
      "eval_loss": 0.0028684174176305532,
      "eval_runtime": 0.2436,
      "eval_samples_per_second": 361.18,
      "eval_steps_per_second": 45.148,
      "step": 183
    },
    {
      "epoch": 8.363636363636363,
      "grad_norm": 0.038721974939107895,
      "learning_rate": 2.3171052631578948e-05,
      "loss": 0.0045,
      "step": 184
    },
    {
      "epoch": 8.363636363636363,
      "eval_loss": 0.002850217279046774,
      "eval_runtime": 0.2397,
      "eval_samples_per_second": 367.125,
      "eval_steps_per_second": 45.891,
      "step": 184
    },
    {
      "epoch": 8.409090909090908,
      "grad_norm": 0.0400218740105629,
      "learning_rate": 2.3131578947368422e-05,
      "loss": 0.0046,
      "step": 185
    },
    {
      "epoch": 8.409090909090908,
      "eval_loss": 0.0028304813895374537,
      "eval_runtime": 0.2401,
      "eval_samples_per_second": 366.549,
      "eval_steps_per_second": 45.819,
      "step": 185
    },
    {
      "epoch": 8.454545454545455,
      "grad_norm": 0.04041934013366699,
      "learning_rate": 2.3092105263157896e-05,
      "loss": 0.0047,
      "step": 186
    },
    {
      "epoch": 8.454545454545455,
      "eval_loss": 0.0028114623855799437,
      "eval_runtime": 0.2373,
      "eval_samples_per_second": 370.773,
      "eval_steps_per_second": 46.347,
      "step": 186
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.03471284359693527,
      "learning_rate": 2.3052631578947367e-05,
      "loss": 0.0042,
      "step": 187
    },
    {
      "epoch": 8.5,
      "eval_loss": 0.002793875988572836,
      "eval_runtime": 0.2482,
      "eval_samples_per_second": 354.499,
      "eval_steps_per_second": 44.312,
      "step": 187
    },
    {
      "epoch": 8.545454545454545,
      "grad_norm": 0.044632624834775925,
      "learning_rate": 2.3013157894736844e-05,
      "loss": 0.0048,
      "step": 188
    },
    {
      "epoch": 8.545454545454545,
      "eval_loss": 0.0027756269555538893,
      "eval_runtime": 0.2261,
      "eval_samples_per_second": 389.244,
      "eval_steps_per_second": 48.656,
      "step": 188
    },
    {
      "epoch": 8.590909090909092,
      "grad_norm": 0.039824243634939194,
      "learning_rate": 2.297368421052632e-05,
      "loss": 0.0044,
      "step": 189
    },
    {
      "epoch": 8.590909090909092,
      "eval_loss": 0.00275724777020514,
      "eval_runtime": 0.2454,
      "eval_samples_per_second": 358.66,
      "eval_steps_per_second": 44.832,
      "step": 189
    },
    {
      "epoch": 8.636363636363637,
      "grad_norm": 0.03765185549855232,
      "learning_rate": 2.293421052631579e-05,
      "loss": 0.0046,
      "step": 190
    },
    {
      "epoch": 8.636363636363637,
      "eval_loss": 0.002737644361332059,
      "eval_runtime": 0.2301,
      "eval_samples_per_second": 382.383,
      "eval_steps_per_second": 47.798,
      "step": 190
    },
    {
      "epoch": 8.681818181818182,
      "grad_norm": 0.04460470378398895,
      "learning_rate": 2.2894736842105263e-05,
      "loss": 0.0049,
      "step": 191
    },
    {
      "epoch": 8.681818181818182,
      "eval_loss": 0.002716499613597989,
      "eval_runtime": 0.2404,
      "eval_samples_per_second": 366.123,
      "eval_steps_per_second": 45.765,
      "step": 191
    },
    {
      "epoch": 8.727272727272727,
      "grad_norm": 0.04597329720854759,
      "learning_rate": 2.2855263157894737e-05,
      "loss": 0.0046,
      "step": 192
    },
    {
      "epoch": 8.727272727272727,
      "eval_loss": 0.002695793053135276,
      "eval_runtime": 0.2287,
      "eval_samples_per_second": 384.748,
      "eval_steps_per_second": 48.093,
      "step": 192
    },
    {
      "epoch": 8.772727272727273,
      "grad_norm": 0.04175286740064621,
      "learning_rate": 2.281578947368421e-05,
      "loss": 0.0048,
      "step": 193
    },
    {
      "epoch": 8.772727272727273,
      "eval_loss": 0.0026768320240080357,
      "eval_runtime": 0.2297,
      "eval_samples_per_second": 383.191,
      "eval_steps_per_second": 47.899,
      "step": 193
    },
    {
      "epoch": 8.818181818181818,
      "grad_norm": 0.03605563938617706,
      "learning_rate": 2.2776315789473682e-05,
      "loss": 0.0042,
      "step": 194
    },
    {
      "epoch": 8.818181818181818,
      "eval_loss": 0.0026587164029479027,
      "eval_runtime": 0.2319,
      "eval_samples_per_second": 379.432,
      "eval_steps_per_second": 47.429,
      "step": 194
    },
    {
      "epoch": 8.863636363636363,
      "grad_norm": 0.03600858151912689,
      "learning_rate": 2.273684210526316e-05,
      "loss": 0.004,
      "step": 195
    },
    {
      "epoch": 8.863636363636363,
      "eval_loss": 0.0026421842630952597,
      "eval_runtime": 0.2375,
      "eval_samples_per_second": 370.592,
      "eval_steps_per_second": 46.324,
      "step": 195
    },
    {
      "epoch": 8.909090909090908,
      "grad_norm": 0.04040640592575073,
      "learning_rate": 2.269736842105263e-05,
      "loss": 0.0046,
      "step": 196
    },
    {
      "epoch": 8.909090909090908,
      "eval_loss": 0.002626256085932255,
      "eval_runtime": 0.5446,
      "eval_samples_per_second": 161.597,
      "eval_steps_per_second": 20.2,
      "step": 196
    },
    {
      "epoch": 8.954545454545455,
      "grad_norm": 0.04418746754527092,
      "learning_rate": 2.2657894736842105e-05,
      "loss": 0.0042,
      "step": 197
    },
    {
      "epoch": 8.954545454545455,
      "eval_loss": 0.002609600778669119,
      "eval_runtime": 0.233,
      "eval_samples_per_second": 377.684,
      "eval_steps_per_second": 47.211,
      "step": 197
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.04399528354406357,
      "learning_rate": 2.261842105263158e-05,
      "loss": 0.0044,
      "step": 198
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.0025943187065422535,
      "eval_runtime": 0.3847,
      "eval_samples_per_second": 228.728,
      "eval_steps_per_second": 28.591,
      "step": 198
    },
    {
      "epoch": 9.045454545454545,
      "grad_norm": 0.04438379034399986,
      "learning_rate": 2.2578947368421053e-05,
      "loss": 0.0045,
      "step": 199
    },
    {
      "epoch": 9.045454545454545,
      "eval_loss": 0.0025796808768063784,
      "eval_runtime": 0.4906,
      "eval_samples_per_second": 179.357,
      "eval_steps_per_second": 22.42,
      "step": 199
    },
    {
      "epoch": 9.090909090909092,
      "grad_norm": 0.03908194229006767,
      "learning_rate": 2.2539473684210524e-05,
      "loss": 0.0045,
      "step": 200
    },
    {
      "epoch": 9.090909090909092,
      "eval_loss": 0.002565391594544053,
      "eval_runtime": 0.2293,
      "eval_samples_per_second": 383.783,
      "eval_steps_per_second": 47.973,
      "step": 200
    },
    {
      "epoch": 9.136363636363637,
      "grad_norm": 0.03590917959809303,
      "learning_rate": 2.25e-05,
      "loss": 0.0044,
      "step": 201
    },
    {
      "epoch": 9.136363636363637,
      "eval_loss": 0.0025517421308904886,
      "eval_runtime": 0.2317,
      "eval_samples_per_second": 379.855,
      "eval_steps_per_second": 47.482,
      "step": 201
    },
    {
      "epoch": 9.181818181818182,
      "grad_norm": 0.0374373197555542,
      "learning_rate": 2.2460526315789476e-05,
      "loss": 0.0039,
      "step": 202
    },
    {
      "epoch": 9.181818181818182,
      "eval_loss": 0.0025385154876857996,
      "eval_runtime": 0.232,
      "eval_samples_per_second": 379.247,
      "eval_steps_per_second": 47.406,
      "step": 202
    },
    {
      "epoch": 9.227272727272727,
      "grad_norm": 0.03761666640639305,
      "learning_rate": 2.2421052631578946e-05,
      "loss": 0.004,
      "step": 203
    },
    {
      "epoch": 9.227272727272727,
      "eval_loss": 0.0025266585871577263,
      "eval_runtime": 0.2386,
      "eval_samples_per_second": 368.745,
      "eval_steps_per_second": 46.093,
      "step": 203
    },
    {
      "epoch": 9.272727272727273,
      "grad_norm": 0.033979009836912155,
      "learning_rate": 2.2381578947368424e-05,
      "loss": 0.004,
      "step": 204
    },
    {
      "epoch": 9.272727272727273,
      "eval_loss": 0.0025138070341199636,
      "eval_runtime": 0.2314,
      "eval_samples_per_second": 380.28,
      "eval_steps_per_second": 47.535,
      "step": 204
    },
    {
      "epoch": 9.318181818181818,
      "grad_norm": 0.054837603121995926,
      "learning_rate": 2.2342105263157895e-05,
      "loss": 0.0042,
      "step": 205
    },
    {
      "epoch": 9.318181818181818,
      "eval_loss": 0.002499848371371627,
      "eval_runtime": 0.227,
      "eval_samples_per_second": 387.733,
      "eval_steps_per_second": 48.467,
      "step": 205
    },
    {
      "epoch": 9.363636363636363,
      "grad_norm": 0.03884384036064148,
      "learning_rate": 2.230263157894737e-05,
      "loss": 0.0043,
      "step": 206
    },
    {
      "epoch": 9.363636363636363,
      "eval_loss": 0.0024857125245034695,
      "eval_runtime": 0.2294,
      "eval_samples_per_second": 383.548,
      "eval_steps_per_second": 47.944,
      "step": 206
    },
    {
      "epoch": 9.409090909090908,
      "grad_norm": 0.03517827019095421,
      "learning_rate": 2.2263157894736843e-05,
      "loss": 0.004,
      "step": 207
    },
    {
      "epoch": 9.409090909090908,
      "eval_loss": 0.00247101578861475,
      "eval_runtime": 0.2336,
      "eval_samples_per_second": 376.726,
      "eval_steps_per_second": 47.091,
      "step": 207
    },
    {
      "epoch": 9.454545454545455,
      "grad_norm": 0.04209022969007492,
      "learning_rate": 2.2223684210526317e-05,
      "loss": 0.0041,
      "step": 208
    },
    {
      "epoch": 9.454545454545455,
      "eval_loss": 0.0024564675986766815,
      "eval_runtime": 0.242,
      "eval_samples_per_second": 363.631,
      "eval_steps_per_second": 45.454,
      "step": 208
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.04031739383935928,
      "learning_rate": 2.2184210526315788e-05,
      "loss": 0.0042,
      "step": 209
    },
    {
      "epoch": 9.5,
      "eval_loss": 0.002442182507365942,
      "eval_runtime": 0.2384,
      "eval_samples_per_second": 369.056,
      "eval_steps_per_second": 46.132,
      "step": 209
    },
    {
      "epoch": 9.545454545454545,
      "grad_norm": 0.03341998904943466,
      "learning_rate": 2.2144736842105265e-05,
      "loss": 0.0038,
      "step": 210
    },
    {
      "epoch": 9.545454545454545,
      "eval_loss": 0.0024283959064632654,
      "eval_runtime": 0.2386,
      "eval_samples_per_second": 368.766,
      "eval_steps_per_second": 46.096,
      "step": 210
    },
    {
      "epoch": 9.590909090909092,
      "grad_norm": 0.033409975469112396,
      "learning_rate": 2.2105263157894736e-05,
      "loss": 0.0037,
      "step": 211
    },
    {
      "epoch": 9.590909090909092,
      "eval_loss": 0.002414784161373973,
      "eval_runtime": 0.2392,
      "eval_samples_per_second": 367.843,
      "eval_steps_per_second": 45.98,
      "step": 211
    },
    {
      "epoch": 9.636363636363637,
      "grad_norm": 0.038544610142707825,
      "learning_rate": 2.206578947368421e-05,
      "loss": 0.0042,
      "step": 212
    },
    {
      "epoch": 9.636363636363637,
      "eval_loss": 0.0024007910396903753,
      "eval_runtime": 0.2355,
      "eval_samples_per_second": 373.655,
      "eval_steps_per_second": 46.707,
      "step": 212
    },
    {
      "epoch": 9.681818181818182,
      "grad_norm": 0.031284794211387634,
      "learning_rate": 2.2026315789473684e-05,
      "loss": 0.0039,
      "step": 213
    },
    {
      "epoch": 9.681818181818182,
      "eval_loss": 0.00238687708042562,
      "eval_runtime": 0.2461,
      "eval_samples_per_second": 357.651,
      "eval_steps_per_second": 44.706,
      "step": 213
    },
    {
      "epoch": 9.727272727272727,
      "grad_norm": 0.03589053079485893,
      "learning_rate": 2.198684210526316e-05,
      "loss": 0.004,
      "step": 214
    },
    {
      "epoch": 9.727272727272727,
      "eval_loss": 0.002372899791225791,
      "eval_runtime": 0.2388,
      "eval_samples_per_second": 368.519,
      "eval_steps_per_second": 46.065,
      "step": 214
    },
    {
      "epoch": 9.772727272727273,
      "grad_norm": 0.03422442823648453,
      "learning_rate": 2.1947368421052633e-05,
      "loss": 0.0037,
      "step": 215
    },
    {
      "epoch": 9.772727272727273,
      "eval_loss": 0.0023599357809871435,
      "eval_runtime": 0.2324,
      "eval_samples_per_second": 378.632,
      "eval_steps_per_second": 47.329,
      "step": 215
    },
    {
      "epoch": 9.818181818181818,
      "grad_norm": 0.03365776687860489,
      "learning_rate": 2.1907894736842107e-05,
      "loss": 0.0035,
      "step": 216
    },
    {
      "epoch": 9.818181818181818,
      "eval_loss": 0.0023472688626497984,
      "eval_runtime": 0.231,
      "eval_samples_per_second": 380.916,
      "eval_steps_per_second": 47.614,
      "step": 216
    },
    {
      "epoch": 9.863636363636363,
      "grad_norm": 0.030327491462230682,
      "learning_rate": 2.186842105263158e-05,
      "loss": 0.0037,
      "step": 217
    },
    {
      "epoch": 9.863636363636363,
      "eval_loss": 0.0023344962392002344,
      "eval_runtime": 0.229,
      "eval_samples_per_second": 384.224,
      "eval_steps_per_second": 48.028,
      "step": 217
    },
    {
      "epoch": 9.909090909090908,
      "grad_norm": 0.039349548518657684,
      "learning_rate": 2.1828947368421052e-05,
      "loss": 0.004,
      "step": 218
    },
    {
      "epoch": 9.909090909090908,
      "eval_loss": 0.0023220828734338284,
      "eval_runtime": 0.228,
      "eval_samples_per_second": 385.959,
      "eval_steps_per_second": 48.245,
      "step": 218
    },
    {
      "epoch": 9.954545454545455,
      "grad_norm": 0.03199224919080734,
      "learning_rate": 2.178947368421053e-05,
      "loss": 0.0034,
      "step": 219
    },
    {
      "epoch": 9.954545454545455,
      "eval_loss": 0.0023102990817278624,
      "eval_runtime": 0.2311,
      "eval_samples_per_second": 380.788,
      "eval_steps_per_second": 47.598,
      "step": 219
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.03278977796435356,
      "learning_rate": 2.175e-05,
      "loss": 0.0036,
      "step": 220
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.002298795385286212,
      "eval_runtime": 0.3275,
      "eval_samples_per_second": 268.678,
      "eval_steps_per_second": 33.585,
      "step": 220
    },
    {
      "epoch": 10.045454545454545,
      "grad_norm": 0.0341983363032341,
      "learning_rate": 2.1710526315789474e-05,
      "loss": 0.0039,
      "step": 221
    },
    {
      "epoch": 10.045454545454545,
      "eval_loss": 0.0022870004177093506,
      "eval_runtime": 0.3861,
      "eval_samples_per_second": 227.931,
      "eval_steps_per_second": 28.491,
      "step": 221
    },
    {
      "epoch": 10.090909090909092,
      "grad_norm": 0.03134067356586456,
      "learning_rate": 2.167105263157895e-05,
      "loss": 0.0038,
      "step": 222
    },
    {
      "epoch": 10.090909090909092,
      "eval_loss": 0.002274780999869108,
      "eval_runtime": 0.2973,
      "eval_samples_per_second": 296.022,
      "eval_steps_per_second": 37.003,
      "step": 222
    },
    {
      "epoch": 10.136363636363637,
      "grad_norm": 0.03246266394853592,
      "learning_rate": 2.1631578947368423e-05,
      "loss": 0.0035,
      "step": 223
    },
    {
      "epoch": 10.136363636363637,
      "eval_loss": 0.002262603724375367,
      "eval_runtime": 0.2788,
      "eval_samples_per_second": 315.607,
      "eval_steps_per_second": 39.451,
      "step": 223
    },
    {
      "epoch": 10.181818181818182,
      "grad_norm": 0.035311244428157806,
      "learning_rate": 2.1592105263157893e-05,
      "loss": 0.0036,
      "step": 224
    },
    {
      "epoch": 10.181818181818182,
      "eval_loss": 0.002250505844131112,
      "eval_runtime": 0.3259,
      "eval_samples_per_second": 270.042,
      "eval_steps_per_second": 33.755,
      "step": 224
    },
    {
      "epoch": 10.227272727272727,
      "grad_norm": 0.03288138657808304,
      "learning_rate": 2.155263157894737e-05,
      "loss": 0.0039,
      "step": 225
    },
    {
      "epoch": 10.227272727272727,
      "eval_loss": 0.0022388615179806948,
      "eval_runtime": 0.3627,
      "eval_samples_per_second": 242.648,
      "eval_steps_per_second": 30.331,
      "step": 225
    },
    {
      "epoch": 10.272727272727273,
      "grad_norm": 0.032804686576128006,
      "learning_rate": 2.151315789473684e-05,
      "loss": 0.0038,
      "step": 226
    },
    {
      "epoch": 10.272727272727273,
      "eval_loss": 0.0022277701646089554,
      "eval_runtime": 0.4861,
      "eval_samples_per_second": 181.023,
      "eval_steps_per_second": 22.628,
      "step": 226
    },
    {
      "epoch": 10.318181818181818,
      "grad_norm": 0.036528490483760834,
      "learning_rate": 2.1473684210526316e-05,
      "loss": 0.004,
      "step": 227
    },
    {
      "epoch": 10.318181818181818,
      "eval_loss": 0.0022167994175106287,
      "eval_runtime": 0.3048,
      "eval_samples_per_second": 288.714,
      "eval_steps_per_second": 36.089,
      "step": 227
    },
    {
      "epoch": 10.363636363636363,
      "grad_norm": 0.029931485652923584,
      "learning_rate": 2.143421052631579e-05,
      "loss": 0.0036,
      "step": 228
    },
    {
      "epoch": 10.363636363636363,
      "eval_loss": 0.002205794909968972,
      "eval_runtime": 0.2918,
      "eval_samples_per_second": 301.612,
      "eval_steps_per_second": 37.701,
      "step": 228
    },
    {
      "epoch": 10.409090909090908,
      "grad_norm": 0.03588961437344551,
      "learning_rate": 2.1394736842105264e-05,
      "loss": 0.0039,
      "step": 229
    },
    {
      "epoch": 10.409090909090908,
      "eval_loss": 0.0021950947120785713,
      "eval_runtime": 0.2407,
      "eval_samples_per_second": 365.554,
      "eval_steps_per_second": 45.694,
      "step": 229
    },
    {
      "epoch": 10.454545454545455,
      "grad_norm": 0.033503517508506775,
      "learning_rate": 2.1355263157894738e-05,
      "loss": 0.0036,
      "step": 230
    },
    {
      "epoch": 10.454545454545455,
      "eval_loss": 0.0021843963768333197,
      "eval_runtime": 0.2737,
      "eval_samples_per_second": 321.531,
      "eval_steps_per_second": 40.191,
      "step": 230
    },
    {
      "epoch": 10.5,
      "grad_norm": 0.032428622245788574,
      "learning_rate": 2.1315789473684212e-05,
      "loss": 0.0035,
      "step": 231
    },
    {
      "epoch": 10.5,
      "eval_loss": 0.002173727611079812,
      "eval_runtime": 0.4053,
      "eval_samples_per_second": 217.137,
      "eval_steps_per_second": 27.142,
      "step": 231
    },
    {
      "epoch": 10.545454545454545,
      "grad_norm": 0.0326942577958107,
      "learning_rate": 2.1276315789473687e-05,
      "loss": 0.0035,
      "step": 232
    },
    {
      "epoch": 10.545454545454545,
      "eval_loss": 0.0021637016907334328,
      "eval_runtime": 0.7117,
      "eval_samples_per_second": 123.656,
      "eval_steps_per_second": 15.457,
      "step": 232
    },
    {
      "epoch": 10.590909090909092,
      "grad_norm": 0.03240852802991867,
      "learning_rate": 2.1236842105263157e-05,
      "loss": 0.0034,
      "step": 233
    },
    {
      "epoch": 10.590909090909092,
      "eval_loss": 0.002153951907530427,
      "eval_runtime": 0.2454,
      "eval_samples_per_second": 358.581,
      "eval_steps_per_second": 44.823,
      "step": 233
    },
    {
      "epoch": 10.636363636363637,
      "grad_norm": 0.029470907524228096,
      "learning_rate": 2.119736842105263e-05,
      "loss": 0.0035,
      "step": 234
    },
    {
      "epoch": 10.636363636363637,
      "eval_loss": 0.002144550671800971,
      "eval_runtime": 0.2443,
      "eval_samples_per_second": 360.165,
      "eval_steps_per_second": 45.021,
      "step": 234
    },
    {
      "epoch": 10.681818181818182,
      "grad_norm": 0.02820722572505474,
      "learning_rate": 2.1157894736842106e-05,
      "loss": 0.0034,
      "step": 235
    },
    {
      "epoch": 10.681818181818182,
      "eval_loss": 0.002135734772309661,
      "eval_runtime": 0.2643,
      "eval_samples_per_second": 333.008,
      "eval_steps_per_second": 41.626,
      "step": 235
    },
    {
      "epoch": 10.727272727272727,
      "grad_norm": 0.02772766724228859,
      "learning_rate": 2.111842105263158e-05,
      "loss": 0.0033,
      "step": 236
    },
    {
      "epoch": 10.727272727272727,
      "eval_loss": 0.0021269202698022127,
      "eval_runtime": 0.2751,
      "eval_samples_per_second": 319.882,
      "eval_steps_per_second": 39.985,
      "step": 236
    },
    {
      "epoch": 10.772727272727273,
      "grad_norm": 0.03653711825609207,
      "learning_rate": 2.107894736842105e-05,
      "loss": 0.0038,
      "step": 237
    },
    {
      "epoch": 10.772727272727273,
      "eval_loss": 0.0021178810857236385,
      "eval_runtime": 0.227,
      "eval_samples_per_second": 387.716,
      "eval_steps_per_second": 48.465,
      "step": 237
    },
    {
      "epoch": 10.818181818181818,
      "grad_norm": 0.03011268563568592,
      "learning_rate": 2.1039473684210528e-05,
      "loss": 0.0035,
      "step": 238
    },
    {
      "epoch": 10.818181818181818,
      "eval_loss": 0.002109181135892868,
      "eval_runtime": 0.2398,
      "eval_samples_per_second": 366.897,
      "eval_steps_per_second": 45.862,
      "step": 238
    },
    {
      "epoch": 10.863636363636363,
      "grad_norm": 0.025909798219799995,
      "learning_rate": 2.1e-05,
      "loss": 0.003,
      "step": 239
    },
    {
      "epoch": 10.863636363636363,
      "eval_loss": 0.0021006783936172724,
      "eval_runtime": 0.2342,
      "eval_samples_per_second": 375.674,
      "eval_steps_per_second": 46.959,
      "step": 239
    },
    {
      "epoch": 10.909090909090908,
      "grad_norm": 0.02720109187066555,
      "learning_rate": 2.0960526315789473e-05,
      "loss": 0.0033,
      "step": 240
    },
    {
      "epoch": 10.909090909090908,
      "eval_loss": 0.002092132344841957,
      "eval_runtime": 0.2362,
      "eval_samples_per_second": 372.632,
      "eval_steps_per_second": 46.579,
      "step": 240
    },
    {
      "epoch": 10.954545454545455,
      "grad_norm": 0.03358568996191025,
      "learning_rate": 2.0921052631578947e-05,
      "loss": 0.0034,
      "step": 241
    },
    {
      "epoch": 10.954545454545455,
      "eval_loss": 0.0020830982830375433,
      "eval_runtime": 0.2268,
      "eval_samples_per_second": 387.964,
      "eval_steps_per_second": 48.496,
      "step": 241
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.030720144510269165,
      "learning_rate": 2.088157894736842e-05,
      "loss": 0.0036,
      "step": 242
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.002074107527732849,
      "eval_runtime": 0.2253,
      "eval_samples_per_second": 390.639,
      "eval_steps_per_second": 48.83,
      "step": 242
    },
    {
      "epoch": 11.045454545454545,
      "grad_norm": 0.029408905655145645,
      "learning_rate": 2.0842105263157895e-05,
      "loss": 0.0035,
      "step": 243
    },
    {
      "epoch": 11.045454545454545,
      "eval_loss": 0.0020653316751122475,
      "eval_runtime": 0.234,
      "eval_samples_per_second": 376.079,
      "eval_steps_per_second": 47.01,
      "step": 243
    },
    {
      "epoch": 11.090909090909092,
      "grad_norm": 0.02971459925174713,
      "learning_rate": 2.080263157894737e-05,
      "loss": 0.0034,
      "step": 244
    },
    {
      "epoch": 11.090909090909092,
      "eval_loss": 0.0020563837606459856,
      "eval_runtime": 0.2306,
      "eval_samples_per_second": 381.673,
      "eval_steps_per_second": 47.709,
      "step": 244
    },
    {
      "epoch": 11.136363636363637,
      "grad_norm": 0.028164513409137726,
      "learning_rate": 2.0763157894736844e-05,
      "loss": 0.0034,
      "step": 245
    },
    {
      "epoch": 11.136363636363637,
      "eval_loss": 0.0020477415528148413,
      "eval_runtime": 0.2363,
      "eval_samples_per_second": 372.455,
      "eval_steps_per_second": 46.557,
      "step": 245
    },
    {
      "epoch": 11.181818181818182,
      "grad_norm": 0.027845608070492744,
      "learning_rate": 2.0723684210526315e-05,
      "loss": 0.0034,
      "step": 246
    },
    {
      "epoch": 11.181818181818182,
      "eval_loss": 0.002039202954620123,
      "eval_runtime": 0.2314,
      "eval_samples_per_second": 380.293,
      "eval_steps_per_second": 47.537,
      "step": 246
    },
    {
      "epoch": 11.227272727272727,
      "grad_norm": 0.03046409972012043,
      "learning_rate": 2.0684210526315792e-05,
      "loss": 0.0035,
      "step": 247
    },
    {
      "epoch": 11.227272727272727,
      "eval_loss": 0.0020310634281486273,
      "eval_runtime": 0.2258,
      "eval_samples_per_second": 389.786,
      "eval_steps_per_second": 48.723,
      "step": 247
    },
    {
      "epoch": 11.272727272727273,
      "grad_norm": 0.025676798075437546,
      "learning_rate": 2.0644736842105263e-05,
      "loss": 0.0031,
      "step": 248
    },
    {
      "epoch": 11.272727272727273,
      "eval_loss": 0.0020227304194122553,
      "eval_runtime": 0.2266,
      "eval_samples_per_second": 388.395,
      "eval_steps_per_second": 48.549,
      "step": 248
    },
    {
      "epoch": 11.318181818181818,
      "grad_norm": 0.029285188764333725,
      "learning_rate": 2.0605263157894737e-05,
      "loss": 0.0036,
      "step": 249
    },
    {
      "epoch": 11.318181818181818,
      "eval_loss": 0.0020139189437031746,
      "eval_runtime": 0.2399,
      "eval_samples_per_second": 366.874,
      "eval_steps_per_second": 45.859,
      "step": 249
    },
    {
      "epoch": 11.363636363636363,
      "grad_norm": 0.03067379631102085,
      "learning_rate": 2.056578947368421e-05,
      "loss": 0.0033,
      "step": 250
    },
    {
      "epoch": 11.363636363636363,
      "eval_loss": 0.0020049491431564093,
      "eval_runtime": 0.2296,
      "eval_samples_per_second": 383.216,
      "eval_steps_per_second": 47.902,
      "step": 250
    },
    {
      "epoch": 11.409090909090908,
      "grad_norm": 0.030429691076278687,
      "learning_rate": 2.0526315789473685e-05,
      "loss": 0.0034,
      "step": 251
    },
    {
      "epoch": 11.409090909090908,
      "eval_loss": 0.0019955127499997616,
      "eval_runtime": 0.3825,
      "eval_samples_per_second": 230.047,
      "eval_steps_per_second": 28.756,
      "step": 251
    },
    {
      "epoch": 11.454545454545455,
      "grad_norm": 0.03006516583263874,
      "learning_rate": 2.0486842105263156e-05,
      "loss": 0.0032,
      "step": 252
    },
    {
      "epoch": 11.454545454545455,
      "eval_loss": 0.001985815353691578,
      "eval_runtime": 0.5232,
      "eval_samples_per_second": 168.209,
      "eval_steps_per_second": 21.026,
      "step": 252
    },
    {
      "epoch": 11.5,
      "grad_norm": 0.03021743707358837,
      "learning_rate": 2.0447368421052634e-05,
      "loss": 0.0035,
      "step": 253
    },
    {
      "epoch": 11.5,
      "eval_loss": 0.001975873252376914,
      "eval_runtime": 0.5816,
      "eval_samples_per_second": 151.301,
      "eval_steps_per_second": 18.913,
      "step": 253
    },
    {
      "epoch": 11.545454545454545,
      "grad_norm": 0.026514986529946327,
      "learning_rate": 2.0407894736842104e-05,
      "loss": 0.0032,
      "step": 254
    },
    {
      "epoch": 11.545454545454545,
      "eval_loss": 0.0019660864491015673,
      "eval_runtime": 0.2403,
      "eval_samples_per_second": 366.164,
      "eval_steps_per_second": 45.77,
      "step": 254
    },
    {
      "epoch": 11.590909090909092,
      "grad_norm": 0.028690319508314133,
      "learning_rate": 2.036842105263158e-05,
      "loss": 0.0033,
      "step": 255
    },
    {
      "epoch": 11.590909090909092,
      "eval_loss": 0.0019563750829547644,
      "eval_runtime": 0.2248,
      "eval_samples_per_second": 391.417,
      "eval_steps_per_second": 48.927,
      "step": 255
    },
    {
      "epoch": 11.636363636363637,
      "grad_norm": 0.03033028170466423,
      "learning_rate": 2.0328947368421056e-05,
      "loss": 0.0034,
      "step": 256
    },
    {
      "epoch": 11.636363636363637,
      "eval_loss": 0.0019468939863145351,
      "eval_runtime": 0.2311,
      "eval_samples_per_second": 380.835,
      "eval_steps_per_second": 47.604,
      "step": 256
    },
    {
      "epoch": 11.681818181818182,
      "grad_norm": 0.03320786729454994,
      "learning_rate": 2.0289473684210527e-05,
      "loss": 0.0035,
      "step": 257
    },
    {
      "epoch": 11.681818181818182,
      "eval_loss": 0.0019374135881662369,
      "eval_runtime": 0.2307,
      "eval_samples_per_second": 381.512,
      "eval_steps_per_second": 47.689,
      "step": 257
    },
    {
      "epoch": 11.727272727272727,
      "grad_norm": 0.027468524873256683,
      "learning_rate": 2.025e-05,
      "loss": 0.0031,
      "step": 258
    },
    {
      "epoch": 11.727272727272727,
      "eval_loss": 0.0019284605514258146,
      "eval_runtime": 0.2303,
      "eval_samples_per_second": 382.049,
      "eval_steps_per_second": 47.756,
      "step": 258
    },
    {
      "epoch": 11.772727272727273,
      "grad_norm": 0.02426382340490818,
      "learning_rate": 2.0210526315789475e-05,
      "loss": 0.0029,
      "step": 259
    },
    {
      "epoch": 11.772727272727273,
      "eval_loss": 0.0019197481451556087,
      "eval_runtime": 0.23,
      "eval_samples_per_second": 382.529,
      "eval_steps_per_second": 47.816,
      "step": 259
    },
    {
      "epoch": 11.818181818181818,
      "grad_norm": 0.028253108263015747,
      "learning_rate": 2.017105263157895e-05,
      "loss": 0.003,
      "step": 260
    },
    {
      "epoch": 11.818181818181818,
      "eval_loss": 0.0019117832416668534,
      "eval_runtime": 0.2345,
      "eval_samples_per_second": 375.238,
      "eval_steps_per_second": 46.905,
      "step": 260
    },
    {
      "epoch": 11.863636363636363,
      "grad_norm": 0.03305625915527344,
      "learning_rate": 2.013157894736842e-05,
      "loss": 0.0034,
      "step": 261
    },
    {
      "epoch": 11.863636363636363,
      "eval_loss": 0.0019041887717321515,
      "eval_runtime": 0.2239,
      "eval_samples_per_second": 393.025,
      "eval_steps_per_second": 49.128,
      "step": 261
    },
    {
      "epoch": 11.909090909090908,
      "grad_norm": 0.027725212275981903,
      "learning_rate": 2.0092105263157898e-05,
      "loss": 0.0033,
      "step": 262
    },
    {
      "epoch": 11.909090909090908,
      "eval_loss": 0.0018966187490150332,
      "eval_runtime": 0.2303,
      "eval_samples_per_second": 382.148,
      "eval_steps_per_second": 47.769,
      "step": 262
    },
    {
      "epoch": 11.954545454545455,
      "grad_norm": 0.02550244890153408,
      "learning_rate": 2.0052631578947368e-05,
      "loss": 0.0032,
      "step": 263
    },
    {
      "epoch": 11.954545454545455,
      "eval_loss": 0.0018891972722485662,
      "eval_runtime": 0.2274,
      "eval_samples_per_second": 386.939,
      "eval_steps_per_second": 48.367,
      "step": 263
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.02780972793698311,
      "learning_rate": 2.0013157894736842e-05,
      "loss": 0.0034,
      "step": 264
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.001881771837361157,
      "eval_runtime": 0.2332,
      "eval_samples_per_second": 377.388,
      "eval_steps_per_second": 47.174,
      "step": 264
    },
    {
      "epoch": 12.045454545454545,
      "grad_norm": 0.03385490924119949,
      "learning_rate": 1.9973684210526317e-05,
      "loss": 0.0034,
      "step": 265
    },
    {
      "epoch": 12.045454545454545,
      "eval_loss": 0.001874623354524374,
      "eval_runtime": 0.2413,
      "eval_samples_per_second": 364.627,
      "eval_steps_per_second": 45.578,
      "step": 265
    },
    {
      "epoch": 12.090909090909092,
      "grad_norm": 0.029128815978765488,
      "learning_rate": 1.993421052631579e-05,
      "loss": 0.003,
      "step": 266
    },
    {
      "epoch": 12.090909090909092,
      "eval_loss": 0.0018677938496693969,
      "eval_runtime": 0.235,
      "eval_samples_per_second": 374.427,
      "eval_steps_per_second": 46.803,
      "step": 266
    },
    {
      "epoch": 12.136363636363637,
      "grad_norm": 0.025781184434890747,
      "learning_rate": 1.989473684210526e-05,
      "loss": 0.0031,
      "step": 267
    },
    {
      "epoch": 12.136363636363637,
      "eval_loss": 0.001861188909970224,
      "eval_runtime": 0.2382,
      "eval_samples_per_second": 369.363,
      "eval_steps_per_second": 46.17,
      "step": 267
    },
    {
      "epoch": 12.181818181818182,
      "grad_norm": 0.0294223353266716,
      "learning_rate": 1.985526315789474e-05,
      "loss": 0.0033,
      "step": 268
    },
    {
      "epoch": 12.181818181818182,
      "eval_loss": 0.001854045782238245,
      "eval_runtime": 0.2289,
      "eval_samples_per_second": 384.52,
      "eval_steps_per_second": 48.065,
      "step": 268
    },
    {
      "epoch": 12.227272727272727,
      "grad_norm": 0.028326552361249924,
      "learning_rate": 1.9815789473684213e-05,
      "loss": 0.003,
      "step": 269
    },
    {
      "epoch": 12.227272727272727,
      "eval_loss": 0.0018470593495294452,
      "eval_runtime": 0.2289,
      "eval_samples_per_second": 384.399,
      "eval_steps_per_second": 48.05,
      "step": 269
    },
    {
      "epoch": 12.272727272727273,
      "grad_norm": 0.030360590666532516,
      "learning_rate": 1.9776315789473684e-05,
      "loss": 0.0031,
      "step": 270
    },
    {
      "epoch": 12.272727272727273,
      "eval_loss": 0.0018398199463263154,
      "eval_runtime": 0.2311,
      "eval_samples_per_second": 380.8,
      "eval_steps_per_second": 47.6,
      "step": 270
    },
    {
      "epoch": 12.318181818181818,
      "grad_norm": 0.02833518758416176,
      "learning_rate": 1.9736842105263158e-05,
      "loss": 0.0034,
      "step": 271
    },
    {
      "epoch": 12.318181818181818,
      "eval_loss": 0.0018325141863897443,
      "eval_runtime": 0.233,
      "eval_samples_per_second": 377.758,
      "eval_steps_per_second": 47.22,
      "step": 271
    },
    {
      "epoch": 12.363636363636363,
      "grad_norm": 0.029960816726088524,
      "learning_rate": 1.9697368421052632e-05,
      "loss": 0.0032,
      "step": 272
    },
    {
      "epoch": 12.363636363636363,
      "eval_loss": 0.0018252148292958736,
      "eval_runtime": 0.231,
      "eval_samples_per_second": 381.016,
      "eval_steps_per_second": 47.627,
      "step": 272
    },
    {
      "epoch": 12.409090909090908,
      "grad_norm": 0.027226990088820457,
      "learning_rate": 1.9657894736842106e-05,
      "loss": 0.0029,
      "step": 273
    },
    {
      "epoch": 12.409090909090908,
      "eval_loss": 0.0018177549354732037,
      "eval_runtime": 0.233,
      "eval_samples_per_second": 377.605,
      "eval_steps_per_second": 47.201,
      "step": 273
    },
    {
      "epoch": 12.454545454545455,
      "grad_norm": 0.02402249164879322,
      "learning_rate": 1.9618421052631577e-05,
      "loss": 0.0029,
      "step": 274
    },
    {
      "epoch": 12.454545454545455,
      "eval_loss": 0.0018104868941009045,
      "eval_runtime": 0.2464,
      "eval_samples_per_second": 357.208,
      "eval_steps_per_second": 44.651,
      "step": 274
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.025068577378988266,
      "learning_rate": 1.9578947368421055e-05,
      "loss": 0.003,
      "step": 275
    },
    {
      "epoch": 12.5,
      "eval_loss": 0.0018031727522611618,
      "eval_runtime": 0.2561,
      "eval_samples_per_second": 343.628,
      "eval_steps_per_second": 42.953,
      "step": 275
    },
    {
      "epoch": 12.545454545454545,
      "grad_norm": 0.03290198743343353,
      "learning_rate": 1.9539473684210525e-05,
      "loss": 0.0032,
      "step": 276
    },
    {
      "epoch": 12.545454545454545,
      "eval_loss": 0.0017959319520741701,
      "eval_runtime": 0.2473,
      "eval_samples_per_second": 355.844,
      "eval_steps_per_second": 44.48,
      "step": 276
    },
    {
      "epoch": 12.590909090909092,
      "grad_norm": 0.025103066116571426,
      "learning_rate": 1.95e-05,
      "loss": 0.0028,
      "step": 277
    },
    {
      "epoch": 12.590909090909092,
      "eval_loss": 0.0017883635591715574,
      "eval_runtime": 0.2312,
      "eval_samples_per_second": 380.663,
      "eval_steps_per_second": 47.583,
      "step": 277
    },
    {
      "epoch": 12.636363636363637,
      "grad_norm": 0.02768297679722309,
      "learning_rate": 1.9460526315789474e-05,
      "loss": 0.003,
      "step": 278
    },
    {
      "epoch": 12.636363636363637,
      "eval_loss": 0.0017810885328799486,
      "eval_runtime": 0.2411,
      "eval_samples_per_second": 365.033,
      "eval_steps_per_second": 45.629,
      "step": 278
    },
    {
      "epoch": 12.681818181818182,
      "grad_norm": 0.026979558169841766,
      "learning_rate": 1.9421052631578948e-05,
      "loss": 0.0033,
      "step": 279
    },
    {
      "epoch": 12.681818181818182,
      "eval_loss": 0.0017738312017172575,
      "eval_runtime": 0.2981,
      "eval_samples_per_second": 295.202,
      "eval_steps_per_second": 36.9,
      "step": 279
    },
    {
      "epoch": 12.727272727272727,
      "grad_norm": 0.025757014751434326,
      "learning_rate": 1.938157894736842e-05,
      "loss": 0.0031,
      "step": 280
    },
    {
      "epoch": 12.727272727272727,
      "eval_loss": 0.0017666955245658755,
      "eval_runtime": 0.2467,
      "eval_samples_per_second": 356.773,
      "eval_steps_per_second": 44.597,
      "step": 280
    },
    {
      "epoch": 12.772727272727273,
      "grad_norm": 0.026617391034960747,
      "learning_rate": 1.9342105263157896e-05,
      "loss": 0.003,
      "step": 281
    },
    {
      "epoch": 12.772727272727273,
      "eval_loss": 0.0017593905795365572,
      "eval_runtime": 0.2388,
      "eval_samples_per_second": 368.469,
      "eval_steps_per_second": 46.059,
      "step": 281
    },
    {
      "epoch": 12.818181818181818,
      "grad_norm": 0.027713097631931305,
      "learning_rate": 1.9302631578947367e-05,
      "loss": 0.0028,
      "step": 282
    },
    {
      "epoch": 12.818181818181818,
      "eval_loss": 0.0017523803981021047,
      "eval_runtime": 0.2531,
      "eval_samples_per_second": 347.71,
      "eval_steps_per_second": 43.464,
      "step": 282
    },
    {
      "epoch": 12.863636363636363,
      "grad_norm": 0.021941719576716423,
      "learning_rate": 1.926315789473684e-05,
      "loss": 0.0028,
      "step": 283
    },
    {
      "epoch": 12.863636363636363,
      "eval_loss": 0.0017456583445891738,
      "eval_runtime": 0.2275,
      "eval_samples_per_second": 386.831,
      "eval_steps_per_second": 48.354,
      "step": 283
    },
    {
      "epoch": 12.909090909090908,
      "grad_norm": 0.029443973675370216,
      "learning_rate": 1.922368421052632e-05,
      "loss": 0.0029,
      "step": 284
    },
    {
      "epoch": 12.909090909090908,
      "eval_loss": 0.0017391174333170056,
      "eval_runtime": 0.2259,
      "eval_samples_per_second": 389.61,
      "eval_steps_per_second": 48.701,
      "step": 284
    },
    {
      "epoch": 12.954545454545455,
      "grad_norm": 0.023187711834907532,
      "learning_rate": 1.918421052631579e-05,
      "loss": 0.0027,
      "step": 285
    },
    {
      "epoch": 12.954545454545455,
      "eval_loss": 0.0017328561516478658,
      "eval_runtime": 0.2229,
      "eval_samples_per_second": 394.794,
      "eval_steps_per_second": 49.349,
      "step": 285
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.02683272212743759,
      "learning_rate": 1.9144736842105264e-05,
      "loss": 0.0028,
      "step": 286
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.0017264141933992505,
      "eval_runtime": 0.2281,
      "eval_samples_per_second": 385.759,
      "eval_steps_per_second": 48.22,
      "step": 286
    },
    {
      "epoch": 13.045454545454545,
      "grad_norm": 0.026485104113817215,
      "learning_rate": 1.9105263157894738e-05,
      "loss": 0.0029,
      "step": 287
    },
    {
      "epoch": 13.045454545454545,
      "eval_loss": 0.0017197772394865751,
      "eval_runtime": 0.2245,
      "eval_samples_per_second": 392.011,
      "eval_steps_per_second": 49.001,
      "step": 287
    },
    {
      "epoch": 13.090909090909092,
      "grad_norm": 0.025229312479496002,
      "learning_rate": 1.9065789473684212e-05,
      "loss": 0.0027,
      "step": 288
    },
    {
      "epoch": 13.090909090909092,
      "eval_loss": 0.0017132211942225695,
      "eval_runtime": 0.2288,
      "eval_samples_per_second": 384.654,
      "eval_steps_per_second": 48.082,
      "step": 288
    },
    {
      "epoch": 13.136363636363637,
      "grad_norm": 0.026387052610516548,
      "learning_rate": 1.9026315789473683e-05,
      "loss": 0.003,
      "step": 289
    },
    {
      "epoch": 13.136363636363637,
      "eval_loss": 0.001706792158074677,
      "eval_runtime": 0.2251,
      "eval_samples_per_second": 390.981,
      "eval_steps_per_second": 48.873,
      "step": 289
    },
    {
      "epoch": 13.181818181818182,
      "grad_norm": 0.0232387688010931,
      "learning_rate": 1.898684210526316e-05,
      "loss": 0.0028,
      "step": 290
    },
    {
      "epoch": 13.181818181818182,
      "eval_loss": 0.0017004094552248716,
      "eval_runtime": 0.2307,
      "eval_samples_per_second": 381.375,
      "eval_steps_per_second": 47.672,
      "step": 290
    },
    {
      "epoch": 13.227272727272727,
      "grad_norm": 0.030720511451363564,
      "learning_rate": 1.894736842105263e-05,
      "loss": 0.003,
      "step": 291
    },
    {
      "epoch": 13.227272727272727,
      "eval_loss": 0.0016942427027970552,
      "eval_runtime": 0.2316,
      "eval_samples_per_second": 379.934,
      "eval_steps_per_second": 47.492,
      "step": 291
    },
    {
      "epoch": 13.272727272727273,
      "grad_norm": 0.023519422858953476,
      "learning_rate": 1.8907894736842105e-05,
      "loss": 0.0025,
      "step": 292
    },
    {
      "epoch": 13.272727272727273,
      "eval_loss": 0.0016882912022992969,
      "eval_runtime": 0.2298,
      "eval_samples_per_second": 383.008,
      "eval_steps_per_second": 47.876,
      "step": 292
    },
    {
      "epoch": 13.318181818181818,
      "grad_norm": 0.02608366496860981,
      "learning_rate": 1.886842105263158e-05,
      "loss": 0.003,
      "step": 293
    },
    {
      "epoch": 13.318181818181818,
      "eval_loss": 0.001682400587014854,
      "eval_runtime": 0.2333,
      "eval_samples_per_second": 377.26,
      "eval_steps_per_second": 47.157,
      "step": 293
    },
    {
      "epoch": 13.363636363636363,
      "grad_norm": 0.02541464753448963,
      "learning_rate": 1.8828947368421053e-05,
      "loss": 0.0028,
      "step": 294
    },
    {
      "epoch": 13.363636363636363,
      "eval_loss": 0.0016764701576903462,
      "eval_runtime": 0.2276,
      "eval_samples_per_second": 386.598,
      "eval_steps_per_second": 48.325,
      "step": 294
    },
    {
      "epoch": 13.409090909090908,
      "grad_norm": 0.026540333405137062,
      "learning_rate": 1.8789473684210524e-05,
      "loss": 0.0028,
      "step": 295
    },
    {
      "epoch": 13.409090909090908,
      "eval_loss": 0.0016703385626897216,
      "eval_runtime": 0.2313,
      "eval_samples_per_second": 380.436,
      "eval_steps_per_second": 47.554,
      "step": 295
    },
    {
      "epoch": 13.454545454545455,
      "grad_norm": 0.021979449316859245,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 0.0027,
      "step": 296
    },
    {
      "epoch": 13.454545454545455,
      "eval_loss": 0.0016644434072077274,
      "eval_runtime": 0.2267,
      "eval_samples_per_second": 388.248,
      "eval_steps_per_second": 48.531,
      "step": 296
    },
    {
      "epoch": 13.5,
      "grad_norm": 0.027137625962495804,
      "learning_rate": 1.8710526315789476e-05,
      "loss": 0.0027,
      "step": 297
    },
    {
      "epoch": 13.5,
      "eval_loss": 0.001658798661082983,
      "eval_runtime": 0.2286,
      "eval_samples_per_second": 384.972,
      "eval_steps_per_second": 48.121,
      "step": 297
    },
    {
      "epoch": 13.545454545454545,
      "grad_norm": 0.02321833185851574,
      "learning_rate": 1.8671052631578947e-05,
      "loss": 0.0027,
      "step": 298
    },
    {
      "epoch": 13.545454545454545,
      "eval_loss": 0.001653428073041141,
      "eval_runtime": 0.227,
      "eval_samples_per_second": 387.714,
      "eval_steps_per_second": 48.464,
      "step": 298
    },
    {
      "epoch": 13.590909090909092,
      "grad_norm": 0.028996985405683517,
      "learning_rate": 1.8631578947368424e-05,
      "loss": 0.0029,
      "step": 299
    },
    {
      "epoch": 13.590909090909092,
      "eval_loss": 0.0016476112650707364,
      "eval_runtime": 0.2299,
      "eval_samples_per_second": 382.812,
      "eval_steps_per_second": 47.852,
      "step": 299
    },
    {
      "epoch": 13.636363636363637,
      "grad_norm": 0.028486257418990135,
      "learning_rate": 1.8592105263157895e-05,
      "loss": 0.0027,
      "step": 300
    },
    {
      "epoch": 13.636363636363637,
      "eval_loss": 0.001642104354687035,
      "eval_runtime": 0.2398,
      "eval_samples_per_second": 367.028,
      "eval_steps_per_second": 45.878,
      "step": 300
    },
    {
      "epoch": 13.681818181818182,
      "grad_norm": 0.022658037021756172,
      "learning_rate": 1.855263157894737e-05,
      "loss": 0.0025,
      "step": 301
    },
    {
      "epoch": 13.681818181818182,
      "eval_loss": 0.0016368039650842547,
      "eval_runtime": 0.2377,
      "eval_samples_per_second": 370.172,
      "eval_steps_per_second": 46.271,
      "step": 301
    },
    {
      "epoch": 13.727272727272727,
      "grad_norm": 0.024452779442071915,
      "learning_rate": 1.8513157894736843e-05,
      "loss": 0.0028,
      "step": 302
    },
    {
      "epoch": 13.727272727272727,
      "eval_loss": 0.0016317162662744522,
      "eval_runtime": 0.2252,
      "eval_samples_per_second": 390.707,
      "eval_steps_per_second": 48.838,
      "step": 302
    },
    {
      "epoch": 13.772727272727273,
      "grad_norm": 0.02014131471514702,
      "learning_rate": 1.8473684210526317e-05,
      "loss": 0.0024,
      "step": 303
    },
    {
      "epoch": 13.772727272727273,
      "eval_loss": 0.001626785146072507,
      "eval_runtime": 0.2343,
      "eval_samples_per_second": 375.607,
      "eval_steps_per_second": 46.951,
      "step": 303
    },
    {
      "epoch": 13.818181818181818,
      "grad_norm": 0.02657116763293743,
      "learning_rate": 1.8434210526315788e-05,
      "loss": 0.0025,
      "step": 304
    },
    {
      "epoch": 13.818181818181818,
      "eval_loss": 0.001621657982468605,
      "eval_runtime": 0.2287,
      "eval_samples_per_second": 384.722,
      "eval_steps_per_second": 48.09,
      "step": 304
    },
    {
      "epoch": 13.863636363636363,
      "grad_norm": 0.02328609488904476,
      "learning_rate": 1.8394736842105266e-05,
      "loss": 0.0025,
      "step": 305
    },
    {
      "epoch": 13.863636363636363,
      "eval_loss": 0.001616165740415454,
      "eval_runtime": 0.2335,
      "eval_samples_per_second": 376.921,
      "eval_steps_per_second": 47.115,
      "step": 305
    },
    {
      "epoch": 13.909090909090908,
      "grad_norm": 0.02286568656563759,
      "learning_rate": 1.8355263157894736e-05,
      "loss": 0.0027,
      "step": 306
    },
    {
      "epoch": 13.909090909090908,
      "eval_loss": 0.001610812614671886,
      "eval_runtime": 0.2295,
      "eval_samples_per_second": 383.365,
      "eval_steps_per_second": 47.921,
      "step": 306
    },
    {
      "epoch": 13.954545454545455,
      "grad_norm": 0.025216739624738693,
      "learning_rate": 1.831578947368421e-05,
      "loss": 0.0026,
      "step": 307
    },
    {
      "epoch": 13.954545454545455,
      "eval_loss": 0.001605312223546207,
      "eval_runtime": 0.2306,
      "eval_samples_per_second": 381.68,
      "eval_steps_per_second": 47.71,
      "step": 307
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.02698989026248455,
      "learning_rate": 1.8276315789473685e-05,
      "loss": 0.003,
      "step": 308
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.001599607290700078,
      "eval_runtime": 0.234,
      "eval_samples_per_second": 376.05,
      "eval_steps_per_second": 47.006,
      "step": 308
    },
    {
      "epoch": 14.045454545454545,
      "grad_norm": 0.02121439203619957,
      "learning_rate": 1.823684210526316e-05,
      "loss": 0.0026,
      "step": 309
    },
    {
      "epoch": 14.045454545454545,
      "eval_loss": 0.0015940162120386958,
      "eval_runtime": 0.2335,
      "eval_samples_per_second": 376.91,
      "eval_steps_per_second": 47.114,
      "step": 309
    },
    {
      "epoch": 14.090909090909092,
      "grad_norm": 0.02412167377769947,
      "learning_rate": 1.8197368421052633e-05,
      "loss": 0.0028,
      "step": 310
    },
    {
      "epoch": 14.090909090909092,
      "eval_loss": 0.001588392653502524,
      "eval_runtime": 0.2321,
      "eval_samples_per_second": 379.14,
      "eval_steps_per_second": 47.392,
      "step": 310
    },
    {
      "epoch": 14.136363636363637,
      "grad_norm": 0.02534678392112255,
      "learning_rate": 1.8157894736842107e-05,
      "loss": 0.0027,
      "step": 311
    },
    {
      "epoch": 14.136363636363637,
      "eval_loss": 0.0015829313779249787,
      "eval_runtime": 0.2274,
      "eval_samples_per_second": 386.989,
      "eval_steps_per_second": 48.374,
      "step": 311
    },
    {
      "epoch": 14.181818181818182,
      "grad_norm": 0.021638307720422745,
      "learning_rate": 1.811842105263158e-05,
      "loss": 0.0025,
      "step": 312
    },
    {
      "epoch": 14.181818181818182,
      "eval_loss": 0.0015773712657392025,
      "eval_runtime": 0.2294,
      "eval_samples_per_second": 383.682,
      "eval_steps_per_second": 47.96,
      "step": 312
    },
    {
      "epoch": 14.227272727272727,
      "grad_norm": 0.024357490241527557,
      "learning_rate": 1.8078947368421052e-05,
      "loss": 0.0027,
      "step": 313
    },
    {
      "epoch": 14.227272727272727,
      "eval_loss": 0.0015717636561021209,
      "eval_runtime": 0.2294,
      "eval_samples_per_second": 383.662,
      "eval_steps_per_second": 47.958,
      "step": 313
    },
    {
      "epoch": 14.272727272727273,
      "grad_norm": 0.022512707859277725,
      "learning_rate": 1.8039473684210526e-05,
      "loss": 0.0026,
      "step": 314
    },
    {
      "epoch": 14.272727272727273,
      "eval_loss": 0.001566153485327959,
      "eval_runtime": 0.2263,
      "eval_samples_per_second": 388.817,
      "eval_steps_per_second": 48.602,
      "step": 314
    },
    {
      "epoch": 14.318181818181818,
      "grad_norm": 0.022913463413715363,
      "learning_rate": 1.8e-05,
      "loss": 0.0026,
      "step": 315
    },
    {
      "epoch": 14.318181818181818,
      "eval_loss": 0.001560671953484416,
      "eval_runtime": 0.2319,
      "eval_samples_per_second": 379.401,
      "eval_steps_per_second": 47.425,
      "step": 315
    },
    {
      "epoch": 14.363636363636363,
      "grad_norm": 0.024906402453780174,
      "learning_rate": 1.7960526315789475e-05,
      "loss": 0.0026,
      "step": 316
    },
    {
      "epoch": 14.363636363636363,
      "eval_loss": 0.0015550776151940227,
      "eval_runtime": 0.2309,
      "eval_samples_per_second": 381.176,
      "eval_steps_per_second": 47.647,
      "step": 316
    },
    {
      "epoch": 14.409090909090908,
      "grad_norm": 0.020846841856837273,
      "learning_rate": 1.7921052631578945e-05,
      "loss": 0.0024,
      "step": 317
    },
    {
      "epoch": 14.409090909090908,
      "eval_loss": 0.0015492510283365846,
      "eval_runtime": 0.23,
      "eval_samples_per_second": 382.625,
      "eval_steps_per_second": 47.828,
      "step": 317
    },
    {
      "epoch": 14.454545454545455,
      "grad_norm": 0.020949576050043106,
      "learning_rate": 1.7881578947368423e-05,
      "loss": 0.0024,
      "step": 318
    },
    {
      "epoch": 14.454545454545455,
      "eval_loss": 0.001543792081065476,
      "eval_runtime": 0.2687,
      "eval_samples_per_second": 327.535,
      "eval_steps_per_second": 40.942,
      "step": 318
    },
    {
      "epoch": 14.5,
      "grad_norm": 0.027320073917508125,
      "learning_rate": 1.7842105263157894e-05,
      "loss": 0.0029,
      "step": 319
    },
    {
      "epoch": 14.5,
      "eval_loss": 0.0015383724821731448,
      "eval_runtime": 0.2378,
      "eval_samples_per_second": 369.998,
      "eval_steps_per_second": 46.25,
      "step": 319
    },
    {
      "epoch": 14.545454545454545,
      "grad_norm": 0.023768380284309387,
      "learning_rate": 1.7802631578947368e-05,
      "loss": 0.0024,
      "step": 320
    },
    {
      "epoch": 14.545454545454545,
      "eval_loss": 0.0015328243607655168,
      "eval_runtime": 0.2636,
      "eval_samples_per_second": 333.891,
      "eval_steps_per_second": 41.736,
      "step": 320
    },
    {
      "epoch": 14.590909090909092,
      "grad_norm": 0.023090893402695656,
      "learning_rate": 1.7763157894736842e-05,
      "loss": 0.0028,
      "step": 321
    },
    {
      "epoch": 14.590909090909092,
      "eval_loss": 0.0015273126773536205,
      "eval_runtime": 0.2297,
      "eval_samples_per_second": 383.091,
      "eval_steps_per_second": 47.886,
      "step": 321
    },
    {
      "epoch": 14.636363636363637,
      "grad_norm": 0.021861301735043526,
      "learning_rate": 1.7723684210526316e-05,
      "loss": 0.0023,
      "step": 322
    },
    {
      "epoch": 14.636363636363637,
      "eval_loss": 0.0015220079803839326,
      "eval_runtime": 0.2395,
      "eval_samples_per_second": 367.485,
      "eval_steps_per_second": 45.936,
      "step": 322
    },
    {
      "epoch": 14.681818181818182,
      "grad_norm": 0.02089674212038517,
      "learning_rate": 1.7684210526315787e-05,
      "loss": 0.0025,
      "step": 323
    },
    {
      "epoch": 14.681818181818182,
      "eval_loss": 0.0015169020043686032,
      "eval_runtime": 0.2277,
      "eval_samples_per_second": 386.55,
      "eval_steps_per_second": 48.319,
      "step": 323
    },
    {
      "epoch": 14.727272727272727,
      "grad_norm": 0.026943515986204147,
      "learning_rate": 1.7644736842105264e-05,
      "loss": 0.0027,
      "step": 324
    },
    {
      "epoch": 14.727272727272727,
      "eval_loss": 0.0015122044133022428,
      "eval_runtime": 0.2504,
      "eval_samples_per_second": 351.497,
      "eval_steps_per_second": 43.937,
      "step": 324
    },
    {
      "epoch": 14.772727272727273,
      "grad_norm": 0.021125871688127518,
      "learning_rate": 1.760526315789474e-05,
      "loss": 0.0024,
      "step": 325
    },
    {
      "epoch": 14.772727272727273,
      "eval_loss": 0.0015074351103976369,
      "eval_runtime": 0.2277,
      "eval_samples_per_second": 386.421,
      "eval_steps_per_second": 48.303,
      "step": 325
    },
    {
      "epoch": 14.818181818181818,
      "grad_norm": 0.023058133199810982,
      "learning_rate": 1.756578947368421e-05,
      "loss": 0.0025,
      "step": 326
    },
    {
      "epoch": 14.818181818181818,
      "eval_loss": 0.001502548111602664,
      "eval_runtime": 0.2371,
      "eval_samples_per_second": 371.118,
      "eval_steps_per_second": 46.39,
      "step": 326
    },
    {
      "epoch": 14.863636363636363,
      "grad_norm": 0.020260730758309364,
      "learning_rate": 1.7526315789473687e-05,
      "loss": 0.0023,
      "step": 327
    },
    {
      "epoch": 14.863636363636363,
      "eval_loss": 0.0014978590188547969,
      "eval_runtime": 0.231,
      "eval_samples_per_second": 380.935,
      "eval_steps_per_second": 47.617,
      "step": 327
    },
    {
      "epoch": 14.909090909090908,
      "grad_norm": 0.021094167605042458,
      "learning_rate": 1.7486842105263158e-05,
      "loss": 0.0024,
      "step": 328
    },
    {
      "epoch": 14.909090909090908,
      "eval_loss": 0.0014932234771549702,
      "eval_runtime": 0.2309,
      "eval_samples_per_second": 381.042,
      "eval_steps_per_second": 47.63,
      "step": 328
    },
    {
      "epoch": 14.954545454545455,
      "grad_norm": 0.023162171244621277,
      "learning_rate": 1.7447368421052632e-05,
      "loss": 0.0027,
      "step": 329
    },
    {
      "epoch": 14.954545454545455,
      "eval_loss": 0.0014887653524056077,
      "eval_runtime": 0.2298,
      "eval_samples_per_second": 382.875,
      "eval_steps_per_second": 47.859,
      "step": 329
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.021899493411183357,
      "learning_rate": 1.7407894736842106e-05,
      "loss": 0.0026,
      "step": 330
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.0014844763791188598,
      "eval_runtime": 0.2287,
      "eval_samples_per_second": 384.811,
      "eval_steps_per_second": 48.101,
      "step": 330
    },
    {
      "epoch": 15.045454545454545,
      "grad_norm": 0.02722894586622715,
      "learning_rate": 1.736842105263158e-05,
      "loss": 0.0029,
      "step": 331
    },
    {
      "epoch": 15.045454545454545,
      "eval_loss": 0.001479836879298091,
      "eval_runtime": 0.2296,
      "eval_samples_per_second": 383.331,
      "eval_steps_per_second": 47.916,
      "step": 331
    },
    {
      "epoch": 15.090909090909092,
      "grad_norm": 0.0198600422590971,
      "learning_rate": 1.732894736842105e-05,
      "loss": 0.0023,
      "step": 332
    },
    {
      "epoch": 15.090909090909092,
      "eval_loss": 0.001475546509027481,
      "eval_runtime": 0.2293,
      "eval_samples_per_second": 383.783,
      "eval_steps_per_second": 47.973,
      "step": 332
    },
    {
      "epoch": 15.136363636363637,
      "grad_norm": 0.018213720992207527,
      "learning_rate": 1.728947368421053e-05,
      "loss": 0.0021,
      "step": 333
    },
    {
      "epoch": 15.136363636363637,
      "eval_loss": 0.0014714114367961884,
      "eval_runtime": 0.2229,
      "eval_samples_per_second": 394.882,
      "eval_steps_per_second": 49.36,
      "step": 333
    },
    {
      "epoch": 15.181818181818182,
      "grad_norm": 0.02195083722472191,
      "learning_rate": 1.725e-05,
      "loss": 0.0026,
      "step": 334
    },
    {
      "epoch": 15.181818181818182,
      "eval_loss": 0.0014672887045890093,
      "eval_runtime": 0.2307,
      "eval_samples_per_second": 381.499,
      "eval_steps_per_second": 47.687,
      "step": 334
    },
    {
      "epoch": 15.227272727272727,
      "grad_norm": 0.020630402490496635,
      "learning_rate": 1.7210526315789473e-05,
      "loss": 0.0023,
      "step": 335
    },
    {
      "epoch": 15.227272727272727,
      "eval_loss": 0.0014632240636274219,
      "eval_runtime": 0.2345,
      "eval_samples_per_second": 375.326,
      "eval_steps_per_second": 46.916,
      "step": 335
    },
    {
      "epoch": 15.272727272727273,
      "grad_norm": 0.01985459215939045,
      "learning_rate": 1.7171052631578947e-05,
      "loss": 0.0024,
      "step": 336
    },
    {
      "epoch": 15.272727272727273,
      "eval_loss": 0.0014591444050893188,
      "eval_runtime": 0.2344,
      "eval_samples_per_second": 375.401,
      "eval_steps_per_second": 46.925,
      "step": 336
    },
    {
      "epoch": 15.318181818181818,
      "grad_norm": 0.02400742471218109,
      "learning_rate": 1.713157894736842e-05,
      "loss": 0.0024,
      "step": 337
    },
    {
      "epoch": 15.318181818181818,
      "eval_loss": 0.001454763114452362,
      "eval_runtime": 0.2401,
      "eval_samples_per_second": 366.585,
      "eval_steps_per_second": 45.823,
      "step": 337
    },
    {
      "epoch": 15.363636363636363,
      "grad_norm": 0.02545950934290886,
      "learning_rate": 1.7092105263157896e-05,
      "loss": 0.0026,
      "step": 338
    },
    {
      "epoch": 15.363636363636363,
      "eval_loss": 0.0014504102291539311,
      "eval_runtime": 0.2315,
      "eval_samples_per_second": 380.122,
      "eval_steps_per_second": 47.515,
      "step": 338
    },
    {
      "epoch": 15.409090909090908,
      "grad_norm": 0.02126440778374672,
      "learning_rate": 1.705263157894737e-05,
      "loss": 0.0024,
      "step": 339
    },
    {
      "epoch": 15.409090909090908,
      "eval_loss": 0.0014461844693869352,
      "eval_runtime": 0.2351,
      "eval_samples_per_second": 374.294,
      "eval_steps_per_second": 46.787,
      "step": 339
    },
    {
      "epoch": 15.454545454545455,
      "grad_norm": 0.025197012349963188,
      "learning_rate": 1.7013157894736844e-05,
      "loss": 0.0025,
      "step": 340
    },
    {
      "epoch": 15.454545454545455,
      "eval_loss": 0.0014418490463867784,
      "eval_runtime": 0.2274,
      "eval_samples_per_second": 387.064,
      "eval_steps_per_second": 48.383,
      "step": 340
    },
    {
      "epoch": 15.5,
      "grad_norm": 0.022640075534582138,
      "learning_rate": 1.6973684210526315e-05,
      "loss": 0.0024,
      "step": 341
    },
    {
      "epoch": 15.5,
      "eval_loss": 0.0014375299215316772,
      "eval_runtime": 0.2405,
      "eval_samples_per_second": 365.83,
      "eval_steps_per_second": 45.729,
      "step": 341
    },
    {
      "epoch": 15.545454545454545,
      "grad_norm": 0.021050602197647095,
      "learning_rate": 1.6934210526315792e-05,
      "loss": 0.0024,
      "step": 342
    },
    {
      "epoch": 15.545454545454545,
      "eval_loss": 0.0014335111482068896,
      "eval_runtime": 0.226,
      "eval_samples_per_second": 389.393,
      "eval_steps_per_second": 48.674,
      "step": 342
    },
    {
      "epoch": 15.590909090909092,
      "grad_norm": 0.0219247005879879,
      "learning_rate": 1.6894736842105263e-05,
      "loss": 0.0025,
      "step": 343
    },
    {
      "epoch": 15.590909090909092,
      "eval_loss": 0.0014295299770310521,
      "eval_runtime": 0.2342,
      "eval_samples_per_second": 375.717,
      "eval_steps_per_second": 46.965,
      "step": 343
    },
    {
      "epoch": 15.636363636363637,
      "grad_norm": 0.020925231277942657,
      "learning_rate": 1.6855263157894737e-05,
      "loss": 0.0024,
      "step": 344
    },
    {
      "epoch": 15.636363636363637,
      "eval_loss": 0.0014257035218179226,
      "eval_runtime": 0.2368,
      "eval_samples_per_second": 371.622,
      "eval_steps_per_second": 46.453,
      "step": 344
    },
    {
      "epoch": 15.681818181818182,
      "grad_norm": 0.019099295139312744,
      "learning_rate": 1.681578947368421e-05,
      "loss": 0.0023,
      "step": 345
    },
    {
      "epoch": 15.681818181818182,
      "eval_loss": 0.0014218251453712583,
      "eval_runtime": 0.2291,
      "eval_samples_per_second": 384.074,
      "eval_steps_per_second": 48.009,
      "step": 345
    },
    {
      "epoch": 15.727272727272727,
      "grad_norm": 0.021133864298462868,
      "learning_rate": 1.6776315789473686e-05,
      "loss": 0.0023,
      "step": 346
    },
    {
      "epoch": 15.727272727272727,
      "eval_loss": 0.0014178574783727527,
      "eval_runtime": 0.2372,
      "eval_samples_per_second": 370.96,
      "eval_steps_per_second": 46.37,
      "step": 346
    },
    {
      "epoch": 15.772727272727273,
      "grad_norm": 0.0220933947712183,
      "learning_rate": 1.6736842105263156e-05,
      "loss": 0.0024,
      "step": 347
    },
    {
      "epoch": 15.772727272727273,
      "eval_loss": 0.0014137736288830638,
      "eval_runtime": 0.2311,
      "eval_samples_per_second": 380.859,
      "eval_steps_per_second": 47.607,
      "step": 347
    },
    {
      "epoch": 15.818181818181818,
      "grad_norm": 0.02274385653436184,
      "learning_rate": 1.6697368421052634e-05,
      "loss": 0.0023,
      "step": 348
    },
    {
      "epoch": 15.818181818181818,
      "eval_loss": 0.0014094788348302245,
      "eval_runtime": 0.2489,
      "eval_samples_per_second": 353.537,
      "eval_steps_per_second": 44.192,
      "step": 348
    },
    {
      "epoch": 15.863636363636363,
      "grad_norm": 0.023772120475769043,
      "learning_rate": 1.6657894736842105e-05,
      "loss": 0.0025,
      "step": 349
    },
    {
      "epoch": 15.863636363636363,
      "eval_loss": 0.0014053123304620385,
      "eval_runtime": 0.2394,
      "eval_samples_per_second": 367.516,
      "eval_steps_per_second": 45.94,
      "step": 349
    },
    {
      "epoch": 15.909090909090908,
      "grad_norm": 0.023701833561062813,
      "learning_rate": 1.661842105263158e-05,
      "loss": 0.0026,
      "step": 350
    },
    {
      "epoch": 15.909090909090908,
      "eval_loss": 0.0014007468707859516,
      "eval_runtime": 0.2428,
      "eval_samples_per_second": 362.454,
      "eval_steps_per_second": 45.307,
      "step": 350
    },
    {
      "epoch": 15.954545454545455,
      "grad_norm": 0.020177854225039482,
      "learning_rate": 1.6578947368421053e-05,
      "loss": 0.0023,
      "step": 351
    },
    {
      "epoch": 15.954545454545455,
      "eval_loss": 0.001396444975398481,
      "eval_runtime": 0.2227,
      "eval_samples_per_second": 395.086,
      "eval_steps_per_second": 49.386,
      "step": 351
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.018302910029888153,
      "learning_rate": 1.6539473684210527e-05,
      "loss": 0.0022,
      "step": 352
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.0013921987265348434,
      "eval_runtime": 0.2255,
      "eval_samples_per_second": 390.23,
      "eval_steps_per_second": 48.779,
      "step": 352
    },
    {
      "epoch": 16.045454545454547,
      "grad_norm": 0.02006903663277626,
      "learning_rate": 1.65e-05,
      "loss": 0.0024,
      "step": 353
    },
    {
      "epoch": 16.045454545454547,
      "eval_loss": 0.0013879131292924285,
      "eval_runtime": 0.2332,
      "eval_samples_per_second": 377.362,
      "eval_steps_per_second": 47.17,
      "step": 353
    },
    {
      "epoch": 16.09090909090909,
      "grad_norm": 0.02006879448890686,
      "learning_rate": 1.6460526315789472e-05,
      "loss": 0.0024,
      "step": 354
    },
    {
      "epoch": 16.09090909090909,
      "eval_loss": 0.0013836818980053067,
      "eval_runtime": 0.2294,
      "eval_samples_per_second": 383.546,
      "eval_steps_per_second": 47.943,
      "step": 354
    },
    {
      "epoch": 16.136363636363637,
      "grad_norm": 0.01927405595779419,
      "learning_rate": 1.642105263157895e-05,
      "loss": 0.0021,
      "step": 355
    },
    {
      "epoch": 16.136363636363637,
      "eval_loss": 0.001379486988298595,
      "eval_runtime": 0.2304,
      "eval_samples_per_second": 381.9,
      "eval_steps_per_second": 47.738,
      "step": 355
    },
    {
      "epoch": 16.181818181818183,
      "grad_norm": 0.019441615790128708,
      "learning_rate": 1.638157894736842e-05,
      "loss": 0.0024,
      "step": 356
    },
    {
      "epoch": 16.181818181818183,
      "eval_loss": 0.0013752405066043139,
      "eval_runtime": 0.2339,
      "eval_samples_per_second": 376.279,
      "eval_steps_per_second": 47.035,
      "step": 356
    },
    {
      "epoch": 16.227272727272727,
      "grad_norm": 0.019047444686293602,
      "learning_rate": 1.6342105263157894e-05,
      "loss": 0.0022,
      "step": 357
    },
    {
      "epoch": 16.227272727272727,
      "eval_loss": 0.0013710103230550885,
      "eval_runtime": 0.2296,
      "eval_samples_per_second": 383.255,
      "eval_steps_per_second": 47.907,
      "step": 357
    },
    {
      "epoch": 16.272727272727273,
      "grad_norm": 0.02004443109035492,
      "learning_rate": 1.630263157894737e-05,
      "loss": 0.002,
      "step": 358
    },
    {
      "epoch": 16.272727272727273,
      "eval_loss": 0.0013666612794622779,
      "eval_runtime": 0.2306,
      "eval_samples_per_second": 381.651,
      "eval_steps_per_second": 47.706,
      "step": 358
    },
    {
      "epoch": 16.318181818181817,
      "grad_norm": 0.018162380903959274,
      "learning_rate": 1.6263157894736843e-05,
      "loss": 0.0022,
      "step": 359
    },
    {
      "epoch": 16.318181818181817,
      "eval_loss": 0.0013625015271827579,
      "eval_runtime": 0.2336,
      "eval_samples_per_second": 376.757,
      "eval_steps_per_second": 47.095,
      "step": 359
    },
    {
      "epoch": 16.363636363636363,
      "grad_norm": 0.01866663061082363,
      "learning_rate": 1.6223684210526314e-05,
      "loss": 0.0023,
      "step": 360
    },
    {
      "epoch": 16.363636363636363,
      "eval_loss": 0.001358471461571753,
      "eval_runtime": 0.234,
      "eval_samples_per_second": 376.031,
      "eval_steps_per_second": 47.004,
      "step": 360
    },
    {
      "epoch": 16.40909090909091,
      "grad_norm": 0.023692943155765533,
      "learning_rate": 1.618421052631579e-05,
      "loss": 0.0021,
      "step": 361
    },
    {
      "epoch": 16.40909090909091,
      "eval_loss": 0.001354728126898408,
      "eval_runtime": 0.236,
      "eval_samples_per_second": 372.916,
      "eval_steps_per_second": 46.614,
      "step": 361
    },
    {
      "epoch": 16.454545454545453,
      "grad_norm": 0.021557440981268883,
      "learning_rate": 1.6144736842105262e-05,
      "loss": 0.0025,
      "step": 362
    },
    {
      "epoch": 16.454545454545453,
      "eval_loss": 0.0013508024858310819,
      "eval_runtime": 0.2359,
      "eval_samples_per_second": 373.118,
      "eval_steps_per_second": 46.64,
      "step": 362
    },
    {
      "epoch": 16.5,
      "grad_norm": 0.02110958844423294,
      "learning_rate": 1.6105263157894736e-05,
      "loss": 0.0023,
      "step": 363
    },
    {
      "epoch": 16.5,
      "eval_loss": 0.0013467645039781928,
      "eval_runtime": 0.2299,
      "eval_samples_per_second": 382.703,
      "eval_steps_per_second": 47.838,
      "step": 363
    },
    {
      "epoch": 16.545454545454547,
      "grad_norm": 0.019328676164150238,
      "learning_rate": 1.6065789473684214e-05,
      "loss": 0.0024,
      "step": 364
    },
    {
      "epoch": 16.545454545454547,
      "eval_loss": 0.0013428251259028912,
      "eval_runtime": 0.2289,
      "eval_samples_per_second": 384.389,
      "eval_steps_per_second": 48.049,
      "step": 364
    },
    {
      "epoch": 16.59090909090909,
      "grad_norm": 0.022835319861769676,
      "learning_rate": 1.6026315789473684e-05,
      "loss": 0.0023,
      "step": 365
    },
    {
      "epoch": 16.59090909090909,
      "eval_loss": 0.0013391603715717793,
      "eval_runtime": 0.2311,
      "eval_samples_per_second": 380.86,
      "eval_steps_per_second": 47.607,
      "step": 365
    },
    {
      "epoch": 16.636363636363637,
      "grad_norm": 0.01819239743053913,
      "learning_rate": 1.598684210526316e-05,
      "loss": 0.0022,
      "step": 366
    },
    {
      "epoch": 16.636363636363637,
      "eval_loss": 0.0013354604598134756,
      "eval_runtime": 0.2268,
      "eval_samples_per_second": 388.088,
      "eval_steps_per_second": 48.511,
      "step": 366
    },
    {
      "epoch": 16.681818181818183,
      "grad_norm": 0.019428908824920654,
      "learning_rate": 1.5947368421052633e-05,
      "loss": 0.0021,
      "step": 367
    },
    {
      "epoch": 16.681818181818183,
      "eval_loss": 0.001331814331933856,
      "eval_runtime": 0.2357,
      "eval_samples_per_second": 373.331,
      "eval_steps_per_second": 46.666,
      "step": 367
    },
    {
      "epoch": 16.727272727272727,
      "grad_norm": 0.018047934398055077,
      "learning_rate": 1.5907894736842107e-05,
      "loss": 0.0022,
      "step": 368
    },
    {
      "epoch": 16.727272727272727,
      "eval_loss": 0.0013281968422234058,
      "eval_runtime": 0.2353,
      "eval_samples_per_second": 374.058,
      "eval_steps_per_second": 46.757,
      "step": 368
    },
    {
      "epoch": 16.772727272727273,
      "grad_norm": 0.022303372621536255,
      "learning_rate": 1.5868421052631578e-05,
      "loss": 0.0022,
      "step": 369
    },
    {
      "epoch": 16.772727272727273,
      "eval_loss": 0.0013246661983430386,
      "eval_runtime": 0.2364,
      "eval_samples_per_second": 372.233,
      "eval_steps_per_second": 46.529,
      "step": 369
    },
    {
      "epoch": 16.818181818181817,
      "grad_norm": 0.017466159537434578,
      "learning_rate": 1.5828947368421055e-05,
      "loss": 0.0021,
      "step": 370
    },
    {
      "epoch": 16.818181818181817,
      "eval_loss": 0.001321229967288673,
      "eval_runtime": 0.2328,
      "eval_samples_per_second": 378.075,
      "eval_steps_per_second": 47.259,
      "step": 370
    },
    {
      "epoch": 16.863636363636363,
      "grad_norm": 0.018749618902802467,
      "learning_rate": 1.5789473684210526e-05,
      "loss": 0.0021,
      "step": 371
    },
    {
      "epoch": 16.863636363636363,
      "eval_loss": 0.0013179152738302946,
      "eval_runtime": 0.2372,
      "eval_samples_per_second": 371.017,
      "eval_steps_per_second": 46.377,
      "step": 371
    },
    {
      "epoch": 16.90909090909091,
      "grad_norm": 0.01943541131913662,
      "learning_rate": 1.575e-05,
      "loss": 0.0021,
      "step": 372
    },
    {
      "epoch": 16.90909090909091,
      "eval_loss": 0.0013147753197699785,
      "eval_runtime": 0.2325,
      "eval_samples_per_second": 378.47,
      "eval_steps_per_second": 47.309,
      "step": 372
    },
    {
      "epoch": 16.954545454545453,
      "grad_norm": 0.018470529466867447,
      "learning_rate": 1.5710526315789474e-05,
      "loss": 0.0021,
      "step": 373
    },
    {
      "epoch": 16.954545454545453,
      "eval_loss": 0.0013116110349074006,
      "eval_runtime": 0.2449,
      "eval_samples_per_second": 359.303,
      "eval_steps_per_second": 44.913,
      "step": 373
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.02088373526930809,
      "learning_rate": 1.5671052631578948e-05,
      "loss": 0.0022,
      "step": 374
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.0013083978556096554,
      "eval_runtime": 0.2373,
      "eval_samples_per_second": 370.786,
      "eval_steps_per_second": 46.348,
      "step": 374
    },
    {
      "epoch": 17.045454545454547,
      "grad_norm": 0.02049199491739273,
      "learning_rate": 1.563157894736842e-05,
      "loss": 0.0021,
      "step": 375
    },
    {
      "epoch": 17.045454545454547,
      "eval_loss": 0.0013052173890173435,
      "eval_runtime": 0.2375,
      "eval_samples_per_second": 370.52,
      "eval_steps_per_second": 46.315,
      "step": 375
    },
    {
      "epoch": 17.09090909090909,
      "grad_norm": 0.022884204983711243,
      "learning_rate": 1.5592105263157897e-05,
      "loss": 0.0023,
      "step": 376
    },
    {
      "epoch": 17.09090909090909,
      "eval_loss": 0.0013022100320085883,
      "eval_runtime": 0.2451,
      "eval_samples_per_second": 359.032,
      "eval_steps_per_second": 44.879,
      "step": 376
    },
    {
      "epoch": 17.136363636363637,
      "grad_norm": 0.018668444827198982,
      "learning_rate": 1.5552631578947367e-05,
      "loss": 0.002,
      "step": 377
    },
    {
      "epoch": 17.136363636363637,
      "eval_loss": 0.0012990765972062945,
      "eval_runtime": 0.2377,
      "eval_samples_per_second": 370.243,
      "eval_steps_per_second": 46.28,
      "step": 377
    },
    {
      "epoch": 17.181818181818183,
      "grad_norm": 0.018272867426276207,
      "learning_rate": 1.551315789473684e-05,
      "loss": 0.002,
      "step": 378
    },
    {
      "epoch": 17.181818181818183,
      "eval_loss": 0.0012959121959283948,
      "eval_runtime": 0.2445,
      "eval_samples_per_second": 359.966,
      "eval_steps_per_second": 44.996,
      "step": 378
    },
    {
      "epoch": 17.227272727272727,
      "grad_norm": 0.018142884597182274,
      "learning_rate": 1.547368421052632e-05,
      "loss": 0.0023,
      "step": 379
    },
    {
      "epoch": 17.227272727272727,
      "eval_loss": 0.0012926937779411674,
      "eval_runtime": 0.2463,
      "eval_samples_per_second": 357.295,
      "eval_steps_per_second": 44.662,
      "step": 379
    },
    {
      "epoch": 17.272727272727273,
      "grad_norm": 0.019035378471016884,
      "learning_rate": 1.543421052631579e-05,
      "loss": 0.002,
      "step": 380
    },
    {
      "epoch": 17.272727272727273,
      "eval_loss": 0.0012895982945337892,
      "eval_runtime": 0.2335,
      "eval_samples_per_second": 376.923,
      "eval_steps_per_second": 47.115,
      "step": 380
    },
    {
      "epoch": 17.318181818181817,
      "grad_norm": 0.02087828330695629,
      "learning_rate": 1.5394736842105264e-05,
      "loss": 0.0023,
      "step": 381
    },
    {
      "epoch": 17.318181818181817,
      "eval_loss": 0.0012864163145422935,
      "eval_runtime": 0.2398,
      "eval_samples_per_second": 367.034,
      "eval_steps_per_second": 45.879,
      "step": 381
    },
    {
      "epoch": 17.363636363636363,
      "grad_norm": 0.019186902791261673,
      "learning_rate": 1.5355263157894738e-05,
      "loss": 0.0021,
      "step": 382
    },
    {
      "epoch": 17.363636363636363,
      "eval_loss": 0.001283234334550798,
      "eval_runtime": 0.2265,
      "eval_samples_per_second": 388.504,
      "eval_steps_per_second": 48.563,
      "step": 382
    },
    {
      "epoch": 17.40909090909091,
      "grad_norm": 0.01789664290845394,
      "learning_rate": 1.5315789473684212e-05,
      "loss": 0.002,
      "step": 383
    },
    {
      "epoch": 17.40909090909091,
      "eval_loss": 0.0012801456032320857,
      "eval_runtime": 0.229,
      "eval_samples_per_second": 384.262,
      "eval_steps_per_second": 48.033,
      "step": 383
    },
    {
      "epoch": 17.454545454545453,
      "grad_norm": 0.017828669399023056,
      "learning_rate": 1.5276315789473683e-05,
      "loss": 0.0021,
      "step": 384
    },
    {
      "epoch": 17.454545454545453,
      "eval_loss": 0.0012770771281793714,
      "eval_runtime": 0.2259,
      "eval_samples_per_second": 389.598,
      "eval_steps_per_second": 48.7,
      "step": 384
    },
    {
      "epoch": 17.5,
      "grad_norm": 0.0225471593439579,
      "learning_rate": 1.5236842105263159e-05,
      "loss": 0.0022,
      "step": 385
    },
    {
      "epoch": 17.5,
      "eval_loss": 0.0012742335675284266,
      "eval_runtime": 0.2398,
      "eval_samples_per_second": 366.97,
      "eval_steps_per_second": 45.871,
      "step": 385
    },
    {
      "epoch": 17.545454545454547,
      "grad_norm": 0.02024303376674652,
      "learning_rate": 1.5197368421052631e-05,
      "loss": 0.0021,
      "step": 386
    },
    {
      "epoch": 17.545454545454547,
      "eval_loss": 0.0012715155025944114,
      "eval_runtime": 0.2322,
      "eval_samples_per_second": 378.914,
      "eval_steps_per_second": 47.364,
      "step": 386
    },
    {
      "epoch": 17.59090909090909,
      "grad_norm": 0.021520059555768967,
      "learning_rate": 1.5157894736842105e-05,
      "loss": 0.0021,
      "step": 387
    },
    {
      "epoch": 17.59090909090909,
      "eval_loss": 0.0012686135014519095,
      "eval_runtime": 0.2273,
      "eval_samples_per_second": 387.222,
      "eval_steps_per_second": 48.403,
      "step": 387
    },
    {
      "epoch": 17.636363636363637,
      "grad_norm": 0.02026878483593464,
      "learning_rate": 1.5118421052631578e-05,
      "loss": 0.0024,
      "step": 388
    },
    {
      "epoch": 17.636363636363637,
      "eval_loss": 0.0012655220925807953,
      "eval_runtime": 0.2345,
      "eval_samples_per_second": 375.273,
      "eval_steps_per_second": 46.909,
      "step": 388
    },
    {
      "epoch": 17.681818181818183,
      "grad_norm": 0.017312707379460335,
      "learning_rate": 1.5078947368421054e-05,
      "loss": 0.0019,
      "step": 389
    },
    {
      "epoch": 17.681818181818183,
      "eval_loss": 0.0012624793453142047,
      "eval_runtime": 0.2341,
      "eval_samples_per_second": 375.953,
      "eval_steps_per_second": 46.994,
      "step": 389
    },
    {
      "epoch": 17.727272727272727,
      "grad_norm": 0.014796672388911247,
      "learning_rate": 1.5039473684210525e-05,
      "loss": 0.0018,
      "step": 390
    },
    {
      "epoch": 17.727272727272727,
      "eval_loss": 0.0012595909647643566,
      "eval_runtime": 0.2412,
      "eval_samples_per_second": 364.883,
      "eval_steps_per_second": 45.61,
      "step": 390
    },
    {
      "epoch": 17.772727272727273,
      "grad_norm": 0.024672966450452805,
      "learning_rate": 1.5e-05,
      "loss": 0.0024,
      "step": 391
    },
    {
      "epoch": 17.772727272727273,
      "eval_loss": 0.001256533432751894,
      "eval_runtime": 0.2394,
      "eval_samples_per_second": 367.656,
      "eval_steps_per_second": 45.957,
      "step": 391
    },
    {
      "epoch": 17.818181818181817,
      "grad_norm": 0.01785973645746708,
      "learning_rate": 1.4960526315789475e-05,
      "loss": 0.0021,
      "step": 392
    },
    {
      "epoch": 17.818181818181817,
      "eval_loss": 0.001253555528819561,
      "eval_runtime": 0.2448,
      "eval_samples_per_second": 359.499,
      "eval_steps_per_second": 44.937,
      "step": 392
    },
    {
      "epoch": 17.863636363636363,
      "grad_norm": 0.018725674599409103,
      "learning_rate": 1.4921052631578947e-05,
      "loss": 0.0022,
      "step": 393
    },
    {
      "epoch": 17.863636363636363,
      "eval_loss": 0.001250546658411622,
      "eval_runtime": 0.2295,
      "eval_samples_per_second": 383.446,
      "eval_steps_per_second": 47.931,
      "step": 393
    },
    {
      "epoch": 17.90909090909091,
      "grad_norm": 0.01906488463282585,
      "learning_rate": 1.4881578947368421e-05,
      "loss": 0.0019,
      "step": 394
    },
    {
      "epoch": 17.90909090909091,
      "eval_loss": 0.0012476051924750209,
      "eval_runtime": 0.2392,
      "eval_samples_per_second": 367.955,
      "eval_steps_per_second": 45.994,
      "step": 394
    },
    {
      "epoch": 17.954545454545453,
      "grad_norm": 0.01702312007546425,
      "learning_rate": 1.4842105263157895e-05,
      "loss": 0.0021,
      "step": 395
    },
    {
      "epoch": 17.954545454545453,
      "eval_loss": 0.0012446870096027851,
      "eval_runtime": 0.2408,
      "eval_samples_per_second": 365.513,
      "eval_steps_per_second": 45.689,
      "step": 395
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.018446706235408783,
      "learning_rate": 1.4802631578947368e-05,
      "loss": 0.0021,
      "step": 396
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.0012417498510330915,
      "eval_runtime": 0.2401,
      "eval_samples_per_second": 366.532,
      "eval_steps_per_second": 45.816,
      "step": 396
    },
    {
      "epoch": 18.045454545454547,
      "grad_norm": 0.017580052837729454,
      "learning_rate": 1.4763157894736842e-05,
      "loss": 0.002,
      "step": 397
    },
    {
      "epoch": 18.045454545454547,
      "eval_loss": 0.0012387962779030204,
      "eval_runtime": 0.2359,
      "eval_samples_per_second": 373.019,
      "eval_steps_per_second": 46.627,
      "step": 397
    },
    {
      "epoch": 18.09090909090909,
      "grad_norm": 0.018549149855971336,
      "learning_rate": 1.4723684210526318e-05,
      "loss": 0.002,
      "step": 398
    },
    {
      "epoch": 18.09090909090909,
      "eval_loss": 0.0012358062667772174,
      "eval_runtime": 0.2409,
      "eval_samples_per_second": 365.331,
      "eval_steps_per_second": 45.666,
      "step": 398
    },
    {
      "epoch": 18.136363636363637,
      "grad_norm": 0.021288642659783363,
      "learning_rate": 1.468421052631579e-05,
      "loss": 0.0021,
      "step": 399
    },
    {
      "epoch": 18.136363636363637,
      "eval_loss": 0.00123285548761487,
      "eval_runtime": 0.239,
      "eval_samples_per_second": 368.2,
      "eval_steps_per_second": 46.025,
      "step": 399
    },
    {
      "epoch": 18.181818181818183,
      "grad_norm": 0.018042676150798798,
      "learning_rate": 1.4644736842105264e-05,
      "loss": 0.0021,
      "step": 400
    },
    {
      "epoch": 18.181818181818183,
      "eval_loss": 0.0012299600057303905,
      "eval_runtime": 0.2368,
      "eval_samples_per_second": 371.628,
      "eval_steps_per_second": 46.454,
      "step": 400
    },
    {
      "epoch": 18.227272727272727,
      "grad_norm": 0.017950624227523804,
      "learning_rate": 1.4605263157894737e-05,
      "loss": 0.002,
      "step": 401
    },
    {
      "epoch": 18.227272727272727,
      "eval_loss": 0.0012270959559828043,
      "eval_runtime": 0.2217,
      "eval_samples_per_second": 396.934,
      "eval_steps_per_second": 49.617,
      "step": 401
    },
    {
      "epoch": 18.272727272727273,
      "grad_norm": 0.016649143770337105,
      "learning_rate": 1.4565789473684211e-05,
      "loss": 0.002,
      "step": 402
    },
    {
      "epoch": 18.272727272727273,
      "eval_loss": 0.0012242384254932404,
      "eval_runtime": 0.2287,
      "eval_samples_per_second": 384.84,
      "eval_steps_per_second": 48.105,
      "step": 402
    },
    {
      "epoch": 18.318181818181817,
      "grad_norm": 0.016468649730086327,
      "learning_rate": 1.4526315789473685e-05,
      "loss": 0.0018,
      "step": 403
    },
    {
      "epoch": 18.318181818181817,
      "eval_loss": 0.001221520360559225,
      "eval_runtime": 0.2271,
      "eval_samples_per_second": 387.51,
      "eval_steps_per_second": 48.439,
      "step": 403
    },
    {
      "epoch": 18.363636363636363,
      "grad_norm": 0.01778615266084671,
      "learning_rate": 1.4486842105263158e-05,
      "loss": 0.002,
      "step": 404
    },
    {
      "epoch": 18.363636363636363,
      "eval_loss": 0.0012188454857096076,
      "eval_runtime": 0.2323,
      "eval_samples_per_second": 378.869,
      "eval_steps_per_second": 47.359,
      "step": 404
    },
    {
      "epoch": 18.40909090909091,
      "grad_norm": 0.019096923992037773,
      "learning_rate": 1.4447368421052632e-05,
      "loss": 0.0021,
      "step": 405
    },
    {
      "epoch": 18.40909090909091,
      "eval_loss": 0.0012163707287982106,
      "eval_runtime": 0.2287,
      "eval_samples_per_second": 384.807,
      "eval_steps_per_second": 48.101,
      "step": 405
    },
    {
      "epoch": 18.454545454545453,
      "grad_norm": 0.020378055050969124,
      "learning_rate": 1.4407894736842106e-05,
      "loss": 0.0019,
      "step": 406
    },
    {
      "epoch": 18.454545454545453,
      "eval_loss": 0.0012139691971242428,
      "eval_runtime": 0.2285,
      "eval_samples_per_second": 385.172,
      "eval_steps_per_second": 48.146,
      "step": 406
    },
    {
      "epoch": 18.5,
      "grad_norm": 0.01801607571542263,
      "learning_rate": 1.4368421052631578e-05,
      "loss": 0.0019,
      "step": 407
    },
    {
      "epoch": 18.5,
      "eval_loss": 0.0012113729026168585,
      "eval_runtime": 0.2323,
      "eval_samples_per_second": 378.867,
      "eval_steps_per_second": 47.358,
      "step": 407
    },
    {
      "epoch": 18.545454545454547,
      "grad_norm": 0.016806334257125854,
      "learning_rate": 1.4328947368421052e-05,
      "loss": 0.0019,
      "step": 408
    },
    {
      "epoch": 18.545454545454547,
      "eval_loss": 0.0012086898786947131,
      "eval_runtime": 0.2266,
      "eval_samples_per_second": 388.422,
      "eval_steps_per_second": 48.553,
      "step": 408
    },
    {
      "epoch": 18.59090909090909,
      "grad_norm": 0.01768423058092594,
      "learning_rate": 1.4289473684210527e-05,
      "loss": 0.0019,
      "step": 409
    },
    {
      "epoch": 18.59090909090909,
      "eval_loss": 0.001205993234179914,
      "eval_runtime": 0.233,
      "eval_samples_per_second": 377.712,
      "eval_steps_per_second": 47.214,
      "step": 409
    },
    {
      "epoch": 18.636363636363637,
      "grad_norm": 0.016840273514389992,
      "learning_rate": 1.4249999999999999e-05,
      "loss": 0.0019,
      "step": 410
    },
    {
      "epoch": 18.636363636363637,
      "eval_loss": 0.00120334152597934,
      "eval_runtime": 0.2278,
      "eval_samples_per_second": 386.255,
      "eval_steps_per_second": 48.282,
      "step": 410
    },
    {
      "epoch": 18.681818181818183,
      "grad_norm": 0.019254090264439583,
      "learning_rate": 1.4210526315789473e-05,
      "loss": 0.0021,
      "step": 411
    },
    {
      "epoch": 18.681818181818183,
      "eval_loss": 0.001200651633553207,
      "eval_runtime": 0.2414,
      "eval_samples_per_second": 364.529,
      "eval_steps_per_second": 45.566,
      "step": 411
    },
    {
      "epoch": 18.727272727272727,
      "grad_norm": 0.018222426995635033,
      "learning_rate": 1.4171052631578949e-05,
      "loss": 0.0021,
      "step": 412
    },
    {
      "epoch": 18.727272727272727,
      "eval_loss": 0.0011977426474913955,
      "eval_runtime": 0.2297,
      "eval_samples_per_second": 383.168,
      "eval_steps_per_second": 47.896,
      "step": 412
    },
    {
      "epoch": 18.772727272727273,
      "grad_norm": 0.017460381612181664,
      "learning_rate": 1.4131578947368422e-05,
      "loss": 0.0019,
      "step": 413
    },
    {
      "epoch": 18.772727272727273,
      "eval_loss": 0.0011948675382882357,
      "eval_runtime": 0.2295,
      "eval_samples_per_second": 383.384,
      "eval_steps_per_second": 47.923,
      "step": 413
    },
    {
      "epoch": 18.818181818181817,
      "grad_norm": 0.014636803418397903,
      "learning_rate": 1.4092105263157896e-05,
      "loss": 0.0018,
      "step": 414
    },
    {
      "epoch": 18.818181818181817,
      "eval_loss": 0.0011919679818674922,
      "eval_runtime": 0.2375,
      "eval_samples_per_second": 370.502,
      "eval_steps_per_second": 46.313,
      "step": 414
    },
    {
      "epoch": 18.863636363636363,
      "grad_norm": 0.01725298911333084,
      "learning_rate": 1.405263157894737e-05,
      "loss": 0.0019,
      "step": 415
    },
    {
      "epoch": 18.863636363636363,
      "eval_loss": 0.0011888709850609303,
      "eval_runtime": 0.2319,
      "eval_samples_per_second": 379.492,
      "eval_steps_per_second": 47.437,
      "step": 415
    },
    {
      "epoch": 18.90909090909091,
      "grad_norm": 0.017635343596339226,
      "learning_rate": 1.4013157894736842e-05,
      "loss": 0.0019,
      "step": 416
    },
    {
      "epoch": 18.90909090909091,
      "eval_loss": 0.0011859294027090073,
      "eval_runtime": 0.232,
      "eval_samples_per_second": 379.329,
      "eval_steps_per_second": 47.416,
      "step": 416
    },
    {
      "epoch": 18.954545454545453,
      "grad_norm": 0.017270755022764206,
      "learning_rate": 1.3973684210526316e-05,
      "loss": 0.002,
      "step": 417
    },
    {
      "epoch": 18.954545454545453,
      "eval_loss": 0.0011831001611426473,
      "eval_runtime": 0.2293,
      "eval_samples_per_second": 383.786,
      "eval_steps_per_second": 47.973,
      "step": 417
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.017159774899482727,
      "learning_rate": 1.393421052631579e-05,
      "loss": 0.0018,
      "step": 418
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.001180406310595572,
      "eval_runtime": 0.2475,
      "eval_samples_per_second": 355.577,
      "eval_steps_per_second": 44.447,
      "step": 418
    },
    {
      "epoch": 19.045454545454547,
      "grad_norm": 0.015916157513856888,
      "learning_rate": 1.3894736842105263e-05,
      "loss": 0.0018,
      "step": 419
    },
    {
      "epoch": 19.045454545454547,
      "eval_loss": 0.0011776703177019954,
      "eval_runtime": 0.2406,
      "eval_samples_per_second": 365.71,
      "eval_steps_per_second": 45.714,
      "step": 419
    },
    {
      "epoch": 19.09090909090909,
      "grad_norm": 0.016425369307398796,
      "learning_rate": 1.3855263157894737e-05,
      "loss": 0.002,
      "step": 420
    },
    {
      "epoch": 19.09090909090909,
      "eval_loss": 0.0011750170961022377,
      "eval_runtime": 0.2379,
      "eval_samples_per_second": 369.975,
      "eval_steps_per_second": 46.247,
      "step": 420
    },
    {
      "epoch": 19.136363636363637,
      "grad_norm": 0.017857089638710022,
      "learning_rate": 1.3815789473684211e-05,
      "loss": 0.0019,
      "step": 421
    },
    {
      "epoch": 19.136363636363637,
      "eval_loss": 0.0011724097421392798,
      "eval_runtime": 0.2504,
      "eval_samples_per_second": 351.397,
      "eval_steps_per_second": 43.925,
      "step": 421
    },
    {
      "epoch": 19.181818181818183,
      "grad_norm": 0.01837003231048584,
      "learning_rate": 1.3776315789473684e-05,
      "loss": 0.0022,
      "step": 422
    },
    {
      "epoch": 19.181818181818183,
      "eval_loss": 0.0011697578011080623,
      "eval_runtime": 0.2585,
      "eval_samples_per_second": 340.422,
      "eval_steps_per_second": 42.553,
      "step": 422
    },
    {
      "epoch": 19.227272727272727,
      "grad_norm": 0.019487086683511734,
      "learning_rate": 1.3736842105263158e-05,
      "loss": 0.0021,
      "step": 423
    },
    {
      "epoch": 19.227272727272727,
      "eval_loss": 0.0011671868851408362,
      "eval_runtime": 0.2398,
      "eval_samples_per_second": 366.896,
      "eval_steps_per_second": 45.862,
      "step": 423
    },
    {
      "epoch": 19.272727272727273,
      "grad_norm": 0.016021518036723137,
      "learning_rate": 1.369736842105263e-05,
      "loss": 0.0019,
      "step": 424
    },
    {
      "epoch": 19.272727272727273,
      "eval_loss": 0.001164758112281561,
      "eval_runtime": 0.2642,
      "eval_samples_per_second": 333.083,
      "eval_steps_per_second": 41.635,
      "step": 424
    },
    {
      "epoch": 19.318181818181817,
      "grad_norm": 0.018122289329767227,
      "learning_rate": 1.3657894736842106e-05,
      "loss": 0.0019,
      "step": 425
    },
    {
      "epoch": 19.318181818181817,
      "eval_loss": 0.001162288710474968,
      "eval_runtime": 0.2578,
      "eval_samples_per_second": 341.316,
      "eval_steps_per_second": 42.665,
      "step": 425
    },
    {
      "epoch": 19.363636363636363,
      "grad_norm": 0.015892351046204567,
      "learning_rate": 1.361842105263158e-05,
      "loss": 0.0018,
      "step": 426
    },
    {
      "epoch": 19.363636363636363,
      "eval_loss": 0.001159931649453938,
      "eval_runtime": 0.2409,
      "eval_samples_per_second": 365.291,
      "eval_steps_per_second": 45.661,
      "step": 426
    },
    {
      "epoch": 19.40909090909091,
      "grad_norm": 0.015699921175837517,
      "learning_rate": 1.3578947368421053e-05,
      "loss": 0.0019,
      "step": 427
    },
    {
      "epoch": 19.40909090909091,
      "eval_loss": 0.0011575055541470647,
      "eval_runtime": 0.2388,
      "eval_samples_per_second": 368.523,
      "eval_steps_per_second": 46.065,
      "step": 427
    },
    {
      "epoch": 19.454545454545453,
      "grad_norm": 0.01474451832473278,
      "learning_rate": 1.3539473684210527e-05,
      "loss": 0.0017,
      "step": 428
    },
    {
      "epoch": 19.454545454545453,
      "eval_loss": 0.001155222998932004,
      "eval_runtime": 0.2408,
      "eval_samples_per_second": 365.449,
      "eval_steps_per_second": 45.681,
      "step": 428
    },
    {
      "epoch": 19.5,
      "grad_norm": 0.016437875106930733,
      "learning_rate": 1.3500000000000001e-05,
      "loss": 0.0018,
      "step": 429
    },
    {
      "epoch": 19.5,
      "eval_loss": 0.0011530268238857388,
      "eval_runtime": 0.2325,
      "eval_samples_per_second": 378.535,
      "eval_steps_per_second": 47.317,
      "step": 429
    },
    {
      "epoch": 19.545454545454547,
      "grad_norm": 0.01538484264165163,
      "learning_rate": 1.3460526315789474e-05,
      "loss": 0.0018,
      "step": 430
    },
    {
      "epoch": 19.545454545454547,
      "eval_loss": 0.0011508835013955832,
      "eval_runtime": 0.2309,
      "eval_samples_per_second": 381.166,
      "eval_steps_per_second": 47.646,
      "step": 430
    },
    {
      "epoch": 19.59090909090909,
      "grad_norm": 0.017129214480519295,
      "learning_rate": 1.3421052631578948e-05,
      "loss": 0.0019,
      "step": 431
    },
    {
      "epoch": 19.59090909090909,
      "eval_loss": 0.0011487645097076893,
      "eval_runtime": 0.2362,
      "eval_samples_per_second": 372.58,
      "eval_steps_per_second": 46.573,
      "step": 431
    },
    {
      "epoch": 19.636363636363637,
      "grad_norm": 0.016592320054769516,
      "learning_rate": 1.3381578947368422e-05,
      "loss": 0.0019,
      "step": 432
    },
    {
      "epoch": 19.636363636363637,
      "eval_loss": 0.0011467835865914822,
      "eval_runtime": 0.2418,
      "eval_samples_per_second": 364.003,
      "eval_steps_per_second": 45.5,
      "step": 432
    },
    {
      "epoch": 19.681818181818183,
      "grad_norm": 0.018111824989318848,
      "learning_rate": 1.3342105263157894e-05,
      "loss": 0.0019,
      "step": 433
    },
    {
      "epoch": 19.681818181818183,
      "eval_loss": 0.0011448581935837865,
      "eval_runtime": 0.2437,
      "eval_samples_per_second": 361.142,
      "eval_steps_per_second": 45.143,
      "step": 433
    },
    {
      "epoch": 19.727272727272727,
      "grad_norm": 0.01678645797073841,
      "learning_rate": 1.3302631578947369e-05,
      "loss": 0.0018,
      "step": 434
    },
    {
      "epoch": 19.727272727272727,
      "eval_loss": 0.0011427812278270721,
      "eval_runtime": 0.229,
      "eval_samples_per_second": 384.254,
      "eval_steps_per_second": 48.032,
      "step": 434
    },
    {
      "epoch": 19.772727272727273,
      "grad_norm": 0.01921844109892845,
      "learning_rate": 1.3263157894736843e-05,
      "loss": 0.0021,
      "step": 435
    },
    {
      "epoch": 19.772727272727273,
      "eval_loss": 0.0011407433776184916,
      "eval_runtime": 0.24,
      "eval_samples_per_second": 366.62,
      "eval_steps_per_second": 45.828,
      "step": 435
    },
    {
      "epoch": 19.818181818181817,
      "grad_norm": 0.01700635813176632,
      "learning_rate": 1.3223684210526315e-05,
      "loss": 0.0019,
      "step": 436
    },
    {
      "epoch": 19.818181818181817,
      "eval_loss": 0.0011388043640181422,
      "eval_runtime": 0.241,
      "eval_samples_per_second": 365.22,
      "eval_steps_per_second": 45.652,
      "step": 436
    },
    {
      "epoch": 19.863636363636363,
      "grad_norm": 0.02139265649020672,
      "learning_rate": 1.318421052631579e-05,
      "loss": 0.0021,
      "step": 437
    },
    {
      "epoch": 19.863636363636363,
      "eval_loss": 0.0011367396218702197,
      "eval_runtime": 0.2327,
      "eval_samples_per_second": 378.128,
      "eval_steps_per_second": 47.266,
      "step": 437
    },
    {
      "epoch": 19.90909090909091,
      "grad_norm": 0.016315054148435593,
      "learning_rate": 1.3144736842105263e-05,
      "loss": 0.0018,
      "step": 438
    },
    {
      "epoch": 19.90909090909091,
      "eval_loss": 0.001134704565629363,
      "eval_runtime": 0.243,
      "eval_samples_per_second": 362.095,
      "eval_steps_per_second": 45.262,
      "step": 438
    },
    {
      "epoch": 19.954545454545453,
      "grad_norm": 0.015357021242380142,
      "learning_rate": 1.3105263157894738e-05,
      "loss": 0.0019,
      "step": 439
    },
    {
      "epoch": 19.954545454545453,
      "eval_loss": 0.0011326519306749105,
      "eval_runtime": 0.238,
      "eval_samples_per_second": 369.798,
      "eval_steps_per_second": 46.225,
      "step": 439
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.01644103042781353,
      "learning_rate": 1.3065789473684212e-05,
      "loss": 0.0019,
      "step": 440
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.0011306345695629716,
      "eval_runtime": 0.2373,
      "eval_samples_per_second": 370.835,
      "eval_steps_per_second": 46.354,
      "step": 440
    },
    {
      "epoch": 20.045454545454547,
      "grad_norm": 0.0168069489300251,
      "learning_rate": 1.3026315789473684e-05,
      "loss": 0.002,
      "step": 441
    },
    {
      "epoch": 20.045454545454547,
      "eval_loss": 0.0011284599313512444,
      "eval_runtime": 0.2305,
      "eval_samples_per_second": 381.741,
      "eval_steps_per_second": 47.718,
      "step": 441
    },
    {
      "epoch": 20.09090909090909,
      "grad_norm": 0.015401924960315228,
      "learning_rate": 1.2986842105263158e-05,
      "loss": 0.0019,
      "step": 442
    },
    {
      "epoch": 20.09090909090909,
      "eval_loss": 0.0011262963525950909,
      "eval_runtime": 0.2364,
      "eval_samples_per_second": 372.316,
      "eval_steps_per_second": 46.54,
      "step": 442
    },
    {
      "epoch": 20.136363636363637,
      "grad_norm": 0.019058704376220703,
      "learning_rate": 1.2947368421052633e-05,
      "loss": 0.0019,
      "step": 443
    },
    {
      "epoch": 20.136363636363637,
      "eval_loss": 0.0011239717714488506,
      "eval_runtime": 0.2383,
      "eval_samples_per_second": 369.214,
      "eval_steps_per_second": 46.152,
      "step": 443
    },
    {
      "epoch": 20.181818181818183,
      "grad_norm": 0.018643731251358986,
      "learning_rate": 1.2907894736842105e-05,
      "loss": 0.0019,
      "step": 444
    },
    {
      "epoch": 20.181818181818183,
      "eval_loss": 0.0011216469574719667,
      "eval_runtime": 0.2413,
      "eval_samples_per_second": 364.671,
      "eval_steps_per_second": 45.584,
      "step": 444
    },
    {
      "epoch": 20.227272727272727,
      "grad_norm": 0.018360739573836327,
      "learning_rate": 1.2868421052631579e-05,
      "loss": 0.002,
      "step": 445
    },
    {
      "epoch": 20.227272727272727,
      "eval_loss": 0.0011192425154149532,
      "eval_runtime": 0.2331,
      "eval_samples_per_second": 377.473,
      "eval_steps_per_second": 47.184,
      "step": 445
    },
    {
      "epoch": 20.272727272727273,
      "grad_norm": 0.016574162989854813,
      "learning_rate": 1.2828947368421053e-05,
      "loss": 0.0019,
      "step": 446
    },
    {
      "epoch": 20.272727272727273,
      "eval_loss": 0.001116919214837253,
      "eval_runtime": 0.2433,
      "eval_samples_per_second": 361.621,
      "eval_steps_per_second": 45.203,
      "step": 446
    },
    {
      "epoch": 20.318181818181817,
      "grad_norm": 0.01646783947944641,
      "learning_rate": 1.2789473684210526e-05,
      "loss": 0.0019,
      "step": 447
    },
    {
      "epoch": 20.318181818181817,
      "eval_loss": 0.0011146310716867447,
      "eval_runtime": 0.2514,
      "eval_samples_per_second": 349.985,
      "eval_steps_per_second": 43.748,
      "step": 447
    },
    {
      "epoch": 20.363636363636363,
      "grad_norm": 0.017044425010681152,
      "learning_rate": 1.275e-05,
      "loss": 0.0018,
      "step": 448
    },
    {
      "epoch": 20.363636363636363,
      "eval_loss": 0.0011123091680929065,
      "eval_runtime": 0.253,
      "eval_samples_per_second": 347.827,
      "eval_steps_per_second": 43.478,
      "step": 448
    },
    {
      "epoch": 20.40909090909091,
      "grad_norm": 0.017729461193084717,
      "learning_rate": 1.2710526315789474e-05,
      "loss": 0.0019,
      "step": 449
    },
    {
      "epoch": 20.40909090909091,
      "eval_loss": 0.001110163051635027,
      "eval_runtime": 0.2651,
      "eval_samples_per_second": 331.944,
      "eval_steps_per_second": 41.493,
      "step": 449
    },
    {
      "epoch": 20.454545454545453,
      "grad_norm": 0.014911322854459286,
      "learning_rate": 1.2671052631578947e-05,
      "loss": 0.0017,
      "step": 450
    },
    {
      "epoch": 20.454545454545453,
      "eval_loss": 0.0011080644326284528,
      "eval_runtime": 0.2496,
      "eval_samples_per_second": 352.625,
      "eval_steps_per_second": 44.078,
      "step": 450
    },
    {
      "epoch": 20.5,
      "grad_norm": 0.016675200313329697,
      "learning_rate": 1.263157894736842e-05,
      "loss": 0.0019,
      "step": 451
    },
    {
      "epoch": 20.5,
      "eval_loss": 0.0011060454417020082,
      "eval_runtime": 0.26,
      "eval_samples_per_second": 338.446,
      "eval_steps_per_second": 42.306,
      "step": 451
    },
    {
      "epoch": 20.545454545454547,
      "grad_norm": 0.016018547117710114,
      "learning_rate": 1.2592105263157895e-05,
      "loss": 0.0018,
      "step": 452
    },
    {
      "epoch": 20.545454545454547,
      "eval_loss": 0.0011039102682843804,
      "eval_runtime": 0.2399,
      "eval_samples_per_second": 366.846,
      "eval_steps_per_second": 45.856,
      "step": 452
    },
    {
      "epoch": 20.59090909090909,
      "grad_norm": 0.016912776976823807,
      "learning_rate": 1.2552631578947369e-05,
      "loss": 0.0019,
      "step": 453
    },
    {
      "epoch": 20.59090909090909,
      "eval_loss": 0.0011017858050763607,
      "eval_runtime": 0.2273,
      "eval_samples_per_second": 387.134,
      "eval_steps_per_second": 48.392,
      "step": 453
    },
    {
      "epoch": 20.636363636363637,
      "grad_norm": 0.015879783779382706,
      "learning_rate": 1.2513157894736843e-05,
      "loss": 0.0018,
      "step": 454
    },
    {
      "epoch": 20.636363636363637,
      "eval_loss": 0.0010996219934895635,
      "eval_runtime": 0.2449,
      "eval_samples_per_second": 359.378,
      "eval_steps_per_second": 44.922,
      "step": 454
    },
    {
      "epoch": 20.681818181818183,
      "grad_norm": 0.017021868377923965,
      "learning_rate": 1.2473684210526317e-05,
      "loss": 0.0019,
      "step": 455
    },
    {
      "epoch": 20.681818181818183,
      "eval_loss": 0.0010973933385685086,
      "eval_runtime": 0.229,
      "eval_samples_per_second": 384.317,
      "eval_steps_per_second": 48.04,
      "step": 455
    },
    {
      "epoch": 20.727272727272727,
      "grad_norm": 0.015419513918459415,
      "learning_rate": 1.243421052631579e-05,
      "loss": 0.0019,
      "step": 456
    },
    {
      "epoch": 20.727272727272727,
      "eval_loss": 0.001095130923204124,
      "eval_runtime": 0.2362,
      "eval_samples_per_second": 372.489,
      "eval_steps_per_second": 46.561,
      "step": 456
    },
    {
      "epoch": 20.772727272727273,
      "grad_norm": 0.01693497784435749,
      "learning_rate": 1.2394736842105264e-05,
      "loss": 0.0018,
      "step": 457
    },
    {
      "epoch": 20.772727272727273,
      "eval_loss": 0.0010928618721663952,
      "eval_runtime": 0.2233,
      "eval_samples_per_second": 394.174,
      "eval_steps_per_second": 49.272,
      "step": 457
    },
    {
      "epoch": 20.818181818181817,
      "grad_norm": 0.017432473599910736,
      "learning_rate": 1.2355263157894738e-05,
      "loss": 0.0018,
      "step": 458
    },
    {
      "epoch": 20.818181818181817,
      "eval_loss": 0.0010908265830948949,
      "eval_runtime": 0.2275,
      "eval_samples_per_second": 386.81,
      "eval_steps_per_second": 48.351,
      "step": 458
    },
    {
      "epoch": 20.863636363636363,
      "grad_norm": 0.014237020164728165,
      "learning_rate": 1.231578947368421e-05,
      "loss": 0.0016,
      "step": 459
    },
    {
      "epoch": 20.863636363636363,
      "eval_loss": 0.0010887522948905826,
      "eval_runtime": 0.236,
      "eval_samples_per_second": 372.82,
      "eval_steps_per_second": 46.603,
      "step": 459
    },
    {
      "epoch": 20.90909090909091,
      "grad_norm": 0.016278453171253204,
      "learning_rate": 1.2276315789473685e-05,
      "loss": 0.0017,
      "step": 460
    },
    {
      "epoch": 20.90909090909091,
      "eval_loss": 0.0010867157252505422,
      "eval_runtime": 0.2288,
      "eval_samples_per_second": 384.554,
      "eval_steps_per_second": 48.069,
      "step": 460
    },
    {
      "epoch": 20.954545454545453,
      "grad_norm": 0.01595933921635151,
      "learning_rate": 1.2236842105263159e-05,
      "loss": 0.0019,
      "step": 461
    },
    {
      "epoch": 20.954545454545453,
      "eval_loss": 0.0010847292141988873,
      "eval_runtime": 0.2252,
      "eval_samples_per_second": 390.754,
      "eval_steps_per_second": 48.844,
      "step": 461
    },
    {
      "epoch": 21.0,
      "grad_norm": 0.017483873292803764,
      "learning_rate": 1.2197368421052631e-05,
      "loss": 0.0018,
      "step": 462
    },
    {
      "epoch": 21.0,
      "eval_loss": 0.0010827549267560244,
      "eval_runtime": 0.2236,
      "eval_samples_per_second": 393.554,
      "eval_steps_per_second": 49.194,
      "step": 462
    },
    {
      "epoch": 21.045454545454547,
      "grad_norm": 0.01537961047142744,
      "learning_rate": 1.2157894736842105e-05,
      "loss": 0.0018,
      "step": 463
    },
    {
      "epoch": 21.045454545454547,
      "eval_loss": 0.0010808442020788789,
      "eval_runtime": 0.2361,
      "eval_samples_per_second": 372.729,
      "eval_steps_per_second": 46.591,
      "step": 463
    },
    {
      "epoch": 21.09090909090909,
      "grad_norm": 0.015306917950510979,
      "learning_rate": 1.2118421052631578e-05,
      "loss": 0.0017,
      "step": 464
    },
    {
      "epoch": 21.09090909090909,
      "eval_loss": 0.0010790039086714387,
      "eval_runtime": 0.2298,
      "eval_samples_per_second": 382.888,
      "eval_steps_per_second": 47.861,
      "step": 464
    },
    {
      "epoch": 21.136363636363637,
      "grad_norm": 0.013436819426715374,
      "learning_rate": 1.2078947368421052e-05,
      "loss": 0.0016,
      "step": 465
    },
    {
      "epoch": 21.136363636363637,
      "eval_loss": 0.0010772122768685222,
      "eval_runtime": 0.2421,
      "eval_samples_per_second": 363.528,
      "eval_steps_per_second": 45.441,
      "step": 465
    },
    {
      "epoch": 21.181818181818183,
      "grad_norm": 0.016245294362306595,
      "learning_rate": 1.2039473684210528e-05,
      "loss": 0.0018,
      "step": 466
    },
    {
      "epoch": 21.181818181818183,
      "eval_loss": 0.0010752826929092407,
      "eval_runtime": 0.2313,
      "eval_samples_per_second": 380.386,
      "eval_steps_per_second": 47.548,
      "step": 466
    },
    {
      "epoch": 21.227272727272727,
      "grad_norm": 0.015921350568532944,
      "learning_rate": 1.2e-05,
      "loss": 0.0017,
      "step": 467
    },
    {
      "epoch": 21.227272727272727,
      "eval_loss": 0.0010733003728091717,
      "eval_runtime": 0.2302,
      "eval_samples_per_second": 382.349,
      "eval_steps_per_second": 47.794,
      "step": 467
    },
    {
      "epoch": 21.272727272727273,
      "grad_norm": 0.016333753243088722,
      "learning_rate": 1.1960526315789474e-05,
      "loss": 0.0018,
      "step": 468
    },
    {
      "epoch": 21.272727272727273,
      "eval_loss": 0.0010712259681895375,
      "eval_runtime": 0.2299,
      "eval_samples_per_second": 382.824,
      "eval_steps_per_second": 47.853,
      "step": 468
    },
    {
      "epoch": 21.318181818181817,
      "grad_norm": 0.015542343258857727,
      "learning_rate": 1.1921052631578949e-05,
      "loss": 0.0017,
      "step": 469
    },
    {
      "epoch": 21.318181818181817,
      "eval_loss": 0.0010691812494769692,
      "eval_runtime": 0.2401,
      "eval_samples_per_second": 366.569,
      "eval_steps_per_second": 45.821,
      "step": 469
    },
    {
      "epoch": 21.363636363636363,
      "grad_norm": 0.017036397010087967,
      "learning_rate": 1.1881578947368421e-05,
      "loss": 0.0019,
      "step": 470
    },
    {
      "epoch": 21.363636363636363,
      "eval_loss": 0.0010671325726434588,
      "eval_runtime": 0.2367,
      "eval_samples_per_second": 371.749,
      "eval_steps_per_second": 46.469,
      "step": 470
    },
    {
      "epoch": 21.40909090909091,
      "grad_norm": 0.01621134579181671,
      "learning_rate": 1.1842105263157895e-05,
      "loss": 0.0018,
      "step": 471
    },
    {
      "epoch": 21.40909090909091,
      "eval_loss": 0.0010652164928615093,
      "eval_runtime": 0.2376,
      "eval_samples_per_second": 370.382,
      "eval_steps_per_second": 46.298,
      "step": 471
    },
    {
      "epoch": 21.454545454545453,
      "grad_norm": 0.013604752719402313,
      "learning_rate": 1.180263157894737e-05,
      "loss": 0.0017,
      "step": 472
    },
    {
      "epoch": 21.454545454545453,
      "eval_loss": 0.0010633313795551658,
      "eval_runtime": 0.2408,
      "eval_samples_per_second": 365.399,
      "eval_steps_per_second": 45.675,
      "step": 472
    },
    {
      "epoch": 21.5,
      "grad_norm": 0.014795001596212387,
      "learning_rate": 1.1763157894736842e-05,
      "loss": 0.0016,
      "step": 473
    },
    {
      "epoch": 21.5,
      "eval_loss": 0.001061469316482544,
      "eval_runtime": 0.2486,
      "eval_samples_per_second": 354.0,
      "eval_steps_per_second": 44.25,
      "step": 473
    },
    {
      "epoch": 21.545454545454547,
      "grad_norm": 0.015267064794898033,
      "learning_rate": 1.1723684210526316e-05,
      "loss": 0.0018,
      "step": 474
    },
    {
      "epoch": 21.545454545454547,
      "eval_loss": 0.0010596156353130937,
      "eval_runtime": 0.2421,
      "eval_samples_per_second": 363.419,
      "eval_steps_per_second": 45.427,
      "step": 474
    },
    {
      "epoch": 21.59090909090909,
      "grad_norm": 0.017209574580192566,
      "learning_rate": 1.168421052631579e-05,
      "loss": 0.0018,
      "step": 475
    },
    {
      "epoch": 21.59090909090909,
      "eval_loss": 0.0010576344793662429,
      "eval_runtime": 0.2464,
      "eval_samples_per_second": 357.122,
      "eval_steps_per_second": 44.64,
      "step": 475
    },
    {
      "epoch": 21.636363636363637,
      "grad_norm": 0.0154210040345788,
      "learning_rate": 1.1644736842105263e-05,
      "loss": 0.0018,
      "step": 476
    },
    {
      "epoch": 21.636363636363637,
      "eval_loss": 0.0010555870831012726,
      "eval_runtime": 0.2538,
      "eval_samples_per_second": 346.671,
      "eval_steps_per_second": 43.334,
      "step": 476
    },
    {
      "epoch": 21.681818181818183,
      "grad_norm": 0.017148546874523163,
      "learning_rate": 1.1605263157894737e-05,
      "loss": 0.0018,
      "step": 477
    },
    {
      "epoch": 21.681818181818183,
      "eval_loss": 0.0010535044129937887,
      "eval_runtime": 0.2437,
      "eval_samples_per_second": 361.038,
      "eval_steps_per_second": 45.13,
      "step": 477
    },
    {
      "epoch": 21.727272727272727,
      "grad_norm": 0.01518462784588337,
      "learning_rate": 1.1565789473684211e-05,
      "loss": 0.0017,
      "step": 478
    },
    {
      "epoch": 21.727272727272727,
      "eval_loss": 0.0010514232562854886,
      "eval_runtime": 0.2402,
      "eval_samples_per_second": 366.378,
      "eval_steps_per_second": 45.797,
      "step": 478
    },
    {
      "epoch": 21.772727272727273,
      "grad_norm": 0.01500785257667303,
      "learning_rate": 1.1526315789473683e-05,
      "loss": 0.0016,
      "step": 479
    },
    {
      "epoch": 21.772727272727273,
      "eval_loss": 0.0010493744630366564,
      "eval_runtime": 0.2449,
      "eval_samples_per_second": 359.362,
      "eval_steps_per_second": 44.92,
      "step": 479
    },
    {
      "epoch": 21.818181818181817,
      "grad_norm": 0.015978703275322914,
      "learning_rate": 1.148684210526316e-05,
      "loss": 0.0018,
      "step": 480
    },
    {
      "epoch": 21.818181818181817,
      "eval_loss": 0.0010474204318597913,
      "eval_runtime": 0.2586,
      "eval_samples_per_second": 340.345,
      "eval_steps_per_second": 42.543,
      "step": 480
    },
    {
      "epoch": 21.863636363636363,
      "grad_norm": 0.01765250600874424,
      "learning_rate": 1.1447368421052632e-05,
      "loss": 0.0017,
      "step": 481
    },
    {
      "epoch": 21.863636363636363,
      "eval_loss": 0.0010454690782353282,
      "eval_runtime": 0.2292,
      "eval_samples_per_second": 383.999,
      "eval_steps_per_second": 48.0,
      "step": 481
    },
    {
      "epoch": 21.90909090909091,
      "grad_norm": 0.016576098278164864,
      "learning_rate": 1.1407894736842106e-05,
      "loss": 0.0017,
      "step": 482
    },
    {
      "epoch": 21.90909090909091,
      "eval_loss": 0.0010435826843604445,
      "eval_runtime": 0.2414,
      "eval_samples_per_second": 364.501,
      "eval_steps_per_second": 45.563,
      "step": 482
    },
    {
      "epoch": 21.954545454545453,
      "grad_norm": 0.014276851899921894,
      "learning_rate": 1.136842105263158e-05,
      "loss": 0.0017,
      "step": 483
    },
    {
      "epoch": 21.954545454545453,
      "eval_loss": 0.0010416691657155752,
      "eval_runtime": 0.2241,
      "eval_samples_per_second": 392.673,
      "eval_steps_per_second": 49.084,
      "step": 483
    },
    {
      "epoch": 22.0,
      "grad_norm": 0.01667684316635132,
      "learning_rate": 1.1328947368421052e-05,
      "loss": 0.0017,
      "step": 484
    },
    {
      "epoch": 22.0,
      "eval_loss": 0.0010398232843726873,
      "eval_runtime": 0.24,
      "eval_samples_per_second": 366.592,
      "eval_steps_per_second": 45.824,
      "step": 484
    },
    {
      "epoch": 22.045454545454547,
      "grad_norm": 0.016187671571969986,
      "learning_rate": 1.1289473684210527e-05,
      "loss": 0.0018,
      "step": 485
    },
    {
      "epoch": 22.045454545454547,
      "eval_loss": 0.0010379315353929996,
      "eval_runtime": 0.2306,
      "eval_samples_per_second": 381.551,
      "eval_steps_per_second": 47.694,
      "step": 485
    },
    {
      "epoch": 22.09090909090909,
      "grad_norm": 0.014743163250386715,
      "learning_rate": 1.125e-05,
      "loss": 0.0018,
      "step": 486
    },
    {
      "epoch": 22.09090909090909,
      "eval_loss": 0.0010359951993450522,
      "eval_runtime": 0.227,
      "eval_samples_per_second": 387.598,
      "eval_steps_per_second": 48.45,
      "step": 486
    },
    {
      "epoch": 22.136363636363637,
      "grad_norm": 0.01694609597325325,
      "learning_rate": 1.1210526315789473e-05,
      "loss": 0.0017,
      "step": 487
    },
    {
      "epoch": 22.136363636363637,
      "eval_loss": 0.0010341384913772345,
      "eval_runtime": 0.2407,
      "eval_samples_per_second": 365.633,
      "eval_steps_per_second": 45.704,
      "step": 487
    },
    {
      "epoch": 22.181818181818183,
      "grad_norm": 0.014260073192417622,
      "learning_rate": 1.1171052631578947e-05,
      "loss": 0.0017,
      "step": 488
    },
    {
      "epoch": 22.181818181818183,
      "eval_loss": 0.0010322789894416928,
      "eval_runtime": 0.2279,
      "eval_samples_per_second": 386.189,
      "eval_steps_per_second": 48.274,
      "step": 488
    },
    {
      "epoch": 22.227272727272727,
      "grad_norm": 0.017539717257022858,
      "learning_rate": 1.1131578947368421e-05,
      "loss": 0.0016,
      "step": 489
    },
    {
      "epoch": 22.227272727272727,
      "eval_loss": 0.001030544051900506,
      "eval_runtime": 0.239,
      "eval_samples_per_second": 368.276,
      "eval_steps_per_second": 46.034,
      "step": 489
    },
    {
      "epoch": 22.272727272727273,
      "grad_norm": 0.013456945307552814,
      "learning_rate": 1.1092105263157894e-05,
      "loss": 0.0016,
      "step": 490
    },
    {
      "epoch": 22.272727272727273,
      "eval_loss": 0.0010288661578670144,
      "eval_runtime": 0.2301,
      "eval_samples_per_second": 382.513,
      "eval_steps_per_second": 47.814,
      "step": 490
    },
    {
      "epoch": 22.318181818181817,
      "grad_norm": 0.016474781557917595,
      "learning_rate": 1.1052631578947368e-05,
      "loss": 0.0017,
      "step": 491
    },
    {
      "epoch": 22.318181818181817,
      "eval_loss": 0.0010273018851876259,
      "eval_runtime": 0.235,
      "eval_samples_per_second": 374.491,
      "eval_steps_per_second": 46.811,
      "step": 491
    },
    {
      "epoch": 22.363636363636363,
      "grad_norm": 0.01373574323952198,
      "learning_rate": 1.1013157894736842e-05,
      "loss": 0.0014,
      "step": 492
    },
    {
      "epoch": 22.363636363636363,
      "eval_loss": 0.00102571165189147,
      "eval_runtime": 0.2263,
      "eval_samples_per_second": 388.813,
      "eval_steps_per_second": 48.602,
      "step": 492
    },
    {
      "epoch": 22.40909090909091,
      "grad_norm": 0.015442097559571266,
      "learning_rate": 1.0973684210526316e-05,
      "loss": 0.0016,
      "step": 493
    },
    {
      "epoch": 22.40909090909091,
      "eval_loss": 0.0010241527343168855,
      "eval_runtime": 0.2352,
      "eval_samples_per_second": 374.081,
      "eval_steps_per_second": 46.76,
      "step": 493
    },
    {
      "epoch": 22.454545454545453,
      "grad_norm": 0.015592455863952637,
      "learning_rate": 1.093421052631579e-05,
      "loss": 0.0017,
      "step": 494
    },
    {
      "epoch": 22.454545454545453,
      "eval_loss": 0.0010226276936009526,
      "eval_runtime": 0.2373,
      "eval_samples_per_second": 370.902,
      "eval_steps_per_second": 46.363,
      "step": 494
    },
    {
      "epoch": 22.5,
      "grad_norm": 0.013556539081037045,
      "learning_rate": 1.0894736842105265e-05,
      "loss": 0.0016,
      "step": 495
    },
    {
      "epoch": 22.5,
      "eval_loss": 0.001021133502945304,
      "eval_runtime": 0.2433,
      "eval_samples_per_second": 361.732,
      "eval_steps_per_second": 45.217,
      "step": 495
    },
    {
      "epoch": 22.545454545454547,
      "grad_norm": 0.012894881889224052,
      "learning_rate": 1.0855263157894737e-05,
      "loss": 0.0016,
      "step": 496
    },
    {
      "epoch": 22.545454545454547,
      "eval_loss": 0.0010197004303336143,
      "eval_runtime": 0.2415,
      "eval_samples_per_second": 364.331,
      "eval_steps_per_second": 45.541,
      "step": 496
    },
    {
      "epoch": 22.59090909090909,
      "grad_norm": 0.014628540724515915,
      "learning_rate": 1.0815789473684211e-05,
      "loss": 0.0017,
      "step": 497
    },
    {
      "epoch": 22.59090909090909,
      "eval_loss": 0.0010182132245972753,
      "eval_runtime": 0.2417,
      "eval_samples_per_second": 364.047,
      "eval_steps_per_second": 45.506,
      "step": 497
    },
    {
      "epoch": 22.636363636363637,
      "grad_norm": 0.014721691608428955,
      "learning_rate": 1.0776315789473685e-05,
      "loss": 0.0017,
      "step": 498
    },
    {
      "epoch": 22.636363636363637,
      "eval_loss": 0.0010166773572564125,
      "eval_runtime": 0.2388,
      "eval_samples_per_second": 368.522,
      "eval_steps_per_second": 46.065,
      "step": 498
    },
    {
      "epoch": 22.681818181818183,
      "grad_norm": 0.01576976478099823,
      "learning_rate": 1.0736842105263158e-05,
      "loss": 0.0018,
      "step": 499
    },
    {
      "epoch": 22.681818181818183,
      "eval_loss": 0.001015029032714665,
      "eval_runtime": 0.2308,
      "eval_samples_per_second": 381.26,
      "eval_steps_per_second": 47.657,
      "step": 499
    },
    {
      "epoch": 22.727272727272727,
      "grad_norm": 0.015886450186371803,
      "learning_rate": 1.0697368421052632e-05,
      "loss": 0.0017,
      "step": 500
    },
    {
      "epoch": 22.727272727272727,
      "eval_loss": 0.0010134456679224968,
      "eval_runtime": 0.236,
      "eval_samples_per_second": 372.817,
      "eval_steps_per_second": 46.602,
      "step": 500
    },
    {
      "epoch": 22.772727272727273,
      "grad_norm": 0.01687587983906269,
      "learning_rate": 1.0657894736842106e-05,
      "loss": 0.0017,
      "step": 501
    },
    {
      "epoch": 22.772727272727273,
      "eval_loss": 0.0010118514765053988,
      "eval_runtime": 0.2468,
      "eval_samples_per_second": 356.526,
      "eval_steps_per_second": 44.566,
      "step": 501
    },
    {
      "epoch": 22.818181818181817,
      "grad_norm": 0.013874330557882786,
      "learning_rate": 1.0618421052631579e-05,
      "loss": 0.0016,
      "step": 502
    },
    {
      "epoch": 22.818181818181817,
      "eval_loss": 0.0010103358654305339,
      "eval_runtime": 0.2231,
      "eval_samples_per_second": 394.376,
      "eval_steps_per_second": 49.297,
      "step": 502
    },
    {
      "epoch": 22.863636363636363,
      "grad_norm": 0.014864981174468994,
      "learning_rate": 1.0578947368421053e-05,
      "loss": 0.0017,
      "step": 503
    },
    {
      "epoch": 22.863636363636363,
      "eval_loss": 0.001008835039101541,
      "eval_runtime": 0.2399,
      "eval_samples_per_second": 366.77,
      "eval_steps_per_second": 45.846,
      "step": 503
    },
    {
      "epoch": 22.90909090909091,
      "grad_norm": 0.013614412397146225,
      "learning_rate": 1.0539473684210525e-05,
      "loss": 0.0016,
      "step": 504
    },
    {
      "epoch": 22.90909090909091,
      "eval_loss": 0.001007361221127212,
      "eval_runtime": 0.2267,
      "eval_samples_per_second": 388.143,
      "eval_steps_per_second": 48.518,
      "step": 504
    },
    {
      "epoch": 22.954545454545453,
      "grad_norm": 0.019395658746361732,
      "learning_rate": 1.05e-05,
      "loss": 0.0019,
      "step": 505
    },
    {
      "epoch": 22.954545454545453,
      "eval_loss": 0.0010058052139356732,
      "eval_runtime": 0.2757,
      "eval_samples_per_second": 319.24,
      "eval_steps_per_second": 39.905,
      "step": 505
    },
    {
      "epoch": 23.0,
      "grad_norm": 0.017713138833642006,
      "learning_rate": 1.0460526315789474e-05,
      "loss": 0.0018,
      "step": 506
    },
    {
      "epoch": 23.0,
      "eval_loss": 0.0010041649220511317,
      "eval_runtime": 0.2305,
      "eval_samples_per_second": 381.809,
      "eval_steps_per_second": 47.726,
      "step": 506
    },
    {
      "epoch": 23.045454545454547,
      "grad_norm": 0.014331554993987083,
      "learning_rate": 1.0421052631578948e-05,
      "loss": 0.0017,
      "step": 507
    },
    {
      "epoch": 23.045454545454547,
      "eval_loss": 0.0010025816736742854,
      "eval_runtime": 0.2325,
      "eval_samples_per_second": 378.56,
      "eval_steps_per_second": 47.32,
      "step": 507
    },
    {
      "epoch": 23.09090909090909,
      "grad_norm": 0.014041769318282604,
      "learning_rate": 1.0381578947368422e-05,
      "loss": 0.0017,
      "step": 508
    },
    {
      "epoch": 23.09090909090909,
      "eval_loss": 0.001001022639684379,
      "eval_runtime": 0.2296,
      "eval_samples_per_second": 383.301,
      "eval_steps_per_second": 47.913,
      "step": 508
    },
    {
      "epoch": 23.136363636363637,
      "grad_norm": 0.014782671816647053,
      "learning_rate": 1.0342105263157896e-05,
      "loss": 0.0017,
      "step": 509
    },
    {
      "epoch": 23.136363636363637,
      "eval_loss": 0.0009995178552344441,
      "eval_runtime": 0.2324,
      "eval_samples_per_second": 378.719,
      "eval_steps_per_second": 47.34,
      "step": 509
    },
    {
      "epoch": 23.181818181818183,
      "grad_norm": 0.014820964075624943,
      "learning_rate": 1.0302631578947368e-05,
      "loss": 0.0017,
      "step": 510
    },
    {
      "epoch": 23.181818181818183,
      "eval_loss": 0.0009979914175346494,
      "eval_runtime": 0.2306,
      "eval_samples_per_second": 381.609,
      "eval_steps_per_second": 47.701,
      "step": 510
    },
    {
      "epoch": 23.227272727272727,
      "grad_norm": 0.014552117325365543,
      "learning_rate": 1.0263157894736843e-05,
      "loss": 0.0017,
      "step": 511
    },
    {
      "epoch": 23.227272727272727,
      "eval_loss": 0.0009964742930606008,
      "eval_runtime": 0.2277,
      "eval_samples_per_second": 386.477,
      "eval_steps_per_second": 48.31,
      "step": 511
    },
    {
      "epoch": 23.272727272727273,
      "grad_norm": 0.016575666144490242,
      "learning_rate": 1.0223684210526317e-05,
      "loss": 0.0018,
      "step": 512
    },
    {
      "epoch": 23.272727272727273,
      "eval_loss": 0.0009949287632480264,
      "eval_runtime": 0.2408,
      "eval_samples_per_second": 365.446,
      "eval_steps_per_second": 45.681,
      "step": 512
    },
    {
      "epoch": 23.318181818181817,
      "grad_norm": 0.013247662223875523,
      "learning_rate": 1.018421052631579e-05,
      "loss": 0.0016,
      "step": 513
    },
    {
      "epoch": 23.318181818181817,
      "eval_loss": 0.0009934090776368976,
      "eval_runtime": 0.2312,
      "eval_samples_per_second": 380.548,
      "eval_steps_per_second": 47.569,
      "step": 513
    },
    {
      "epoch": 23.363636363636363,
      "grad_norm": 0.014102768152952194,
      "learning_rate": 1.0144736842105263e-05,
      "loss": 0.0017,
      "step": 514
    },
    {
      "epoch": 23.363636363636363,
      "eval_loss": 0.0009918283903971314,
      "eval_runtime": 0.2315,
      "eval_samples_per_second": 380.202,
      "eval_steps_per_second": 47.525,
      "step": 514
    },
    {
      "epoch": 23.40909090909091,
      "grad_norm": 0.015047273598611355,
      "learning_rate": 1.0105263157894738e-05,
      "loss": 0.0017,
      "step": 515
    },
    {
      "epoch": 23.40909090909091,
      "eval_loss": 0.0009903222089633346,
      "eval_runtime": 0.2308,
      "eval_samples_per_second": 381.309,
      "eval_steps_per_second": 47.664,
      "step": 515
    },
    {
      "epoch": 23.454545454545453,
      "grad_norm": 0.016119079664349556,
      "learning_rate": 1.006578947368421e-05,
      "loss": 0.0018,
      "step": 516
    },
    {
      "epoch": 23.454545454545453,
      "eval_loss": 0.0009887360502034426,
      "eval_runtime": 0.2356,
      "eval_samples_per_second": 373.467,
      "eval_steps_per_second": 46.683,
      "step": 516
    },
    {
      "epoch": 23.5,
      "grad_norm": 0.013055874034762383,
      "learning_rate": 1.0026315789473684e-05,
      "loss": 0.0015,
      "step": 517
    },
    {
      "epoch": 23.5,
      "eval_loss": 0.0009872028604149818,
      "eval_runtime": 0.2353,
      "eval_samples_per_second": 373.918,
      "eval_steps_per_second": 46.74,
      "step": 517
    },
    {
      "epoch": 23.545454545454547,
      "grad_norm": 0.014796939678490162,
      "learning_rate": 9.986842105263158e-06,
      "loss": 0.0017,
      "step": 518
    },
    {
      "epoch": 23.545454545454547,
      "eval_loss": 0.0009856532560661435,
      "eval_runtime": 0.236,
      "eval_samples_per_second": 372.816,
      "eval_steps_per_second": 46.602,
      "step": 518
    },
    {
      "epoch": 23.59090909090909,
      "grad_norm": 0.01749352179467678,
      "learning_rate": 9.94736842105263e-06,
      "loss": 0.0018,
      "step": 519
    },
    {
      "epoch": 23.59090909090909,
      "eval_loss": 0.000984109123237431,
      "eval_runtime": 0.2375,
      "eval_samples_per_second": 370.519,
      "eval_steps_per_second": 46.315,
      "step": 519
    },
    {
      "epoch": 23.636363636363637,
      "grad_norm": 0.014436857774853706,
      "learning_rate": 9.907894736842107e-06,
      "loss": 0.0017,
      "step": 520
    },
    {
      "epoch": 23.636363636363637,
      "eval_loss": 0.0009825569577515125,
      "eval_runtime": 0.2329,
      "eval_samples_per_second": 377.839,
      "eval_steps_per_second": 47.23,
      "step": 520
    },
    {
      "epoch": 23.681818181818183,
      "grad_norm": 0.0134369982406497,
      "learning_rate": 9.868421052631579e-06,
      "loss": 0.0015,
      "step": 521
    },
    {
      "epoch": 23.681818181818183,
      "eval_loss": 0.0009810830233618617,
      "eval_runtime": 0.2463,
      "eval_samples_per_second": 357.352,
      "eval_steps_per_second": 44.669,
      "step": 521
    },
    {
      "epoch": 23.727272727272727,
      "grad_norm": 0.015284021385014057,
      "learning_rate": 9.828947368421053e-06,
      "loss": 0.0017,
      "step": 522
    },
    {
      "epoch": 23.727272727272727,
      "eval_loss": 0.0009796229423955083,
      "eval_runtime": 0.2303,
      "eval_samples_per_second": 382.111,
      "eval_steps_per_second": 47.764,
      "step": 522
    },
    {
      "epoch": 23.772727272727273,
      "grad_norm": 0.01389851700514555,
      "learning_rate": 9.789473684210527e-06,
      "loss": 0.0016,
      "step": 523
    },
    {
      "epoch": 23.772727272727273,
      "eval_loss": 0.0009782682172954082,
      "eval_runtime": 0.2358,
      "eval_samples_per_second": 373.188,
      "eval_steps_per_second": 46.649,
      "step": 523
    },
    {
      "epoch": 23.818181818181817,
      "grad_norm": 0.013064984232187271,
      "learning_rate": 9.75e-06,
      "loss": 0.0016,
      "step": 524
    },
    {
      "epoch": 23.818181818181817,
      "eval_loss": 0.000976921641267836,
      "eval_runtime": 0.4347,
      "eval_samples_per_second": 202.42,
      "eval_steps_per_second": 25.303,
      "step": 524
    },
    {
      "epoch": 23.863636363636363,
      "grad_norm": 0.01853189431130886,
      "learning_rate": 9.710526315789474e-06,
      "loss": 0.0018,
      "step": 525
    },
    {
      "epoch": 23.863636363636363,
      "eval_loss": 0.0009755737846717238,
      "eval_runtime": 0.3094,
      "eval_samples_per_second": 284.419,
      "eval_steps_per_second": 35.552,
      "step": 525
    },
    {
      "epoch": 23.90909090909091,
      "grad_norm": 0.015431704930961132,
      "learning_rate": 9.671052631578948e-06,
      "loss": 0.0016,
      "step": 526
    },
    {
      "epoch": 23.90909090909091,
      "eval_loss": 0.0009742649854160845,
      "eval_runtime": 0.3285,
      "eval_samples_per_second": 267.881,
      "eval_steps_per_second": 33.485,
      "step": 526
    },
    {
      "epoch": 23.954545454545453,
      "grad_norm": 0.015396500937640667,
      "learning_rate": 9.63157894736842e-06,
      "loss": 0.0017,
      "step": 527
    },
    {
      "epoch": 23.954545454545453,
      "eval_loss": 0.0009728847653605044,
      "eval_runtime": 0.379,
      "eval_samples_per_second": 232.167,
      "eval_steps_per_second": 29.021,
      "step": 527
    },
    {
      "epoch": 24.0,
      "grad_norm": 0.018940720707178116,
      "learning_rate": 9.592105263157895e-06,
      "loss": 0.0018,
      "step": 528
    },
    {
      "epoch": 24.0,
      "eval_loss": 0.0009714543703012168,
      "eval_runtime": 0.4121,
      "eval_samples_per_second": 213.562,
      "eval_steps_per_second": 26.695,
      "step": 528
    },
    {
      "epoch": 24.045454545454547,
      "grad_norm": 0.013447549194097519,
      "learning_rate": 9.552631578947369e-06,
      "loss": 0.0016,
      "step": 529
    },
    {
      "epoch": 24.045454545454547,
      "eval_loss": 0.0009699968504719436,
      "eval_runtime": 0.4871,
      "eval_samples_per_second": 180.65,
      "eval_steps_per_second": 22.581,
      "step": 529
    },
    {
      "epoch": 24.09090909090909,
      "grad_norm": 0.01361093670129776,
      "learning_rate": 9.513157894736841e-06,
      "loss": 0.0016,
      "step": 530
    },
    {
      "epoch": 24.09090909090909,
      "eval_loss": 0.0009685555123724043,
      "eval_runtime": 0.4944,
      "eval_samples_per_second": 178.009,
      "eval_steps_per_second": 22.251,
      "step": 530
    },
    {
      "epoch": 24.136363636363637,
      "grad_norm": 0.014719787985086441,
      "learning_rate": 9.473684210526315e-06,
      "loss": 0.0016,
      "step": 531
    },
    {
      "epoch": 24.136363636363637,
      "eval_loss": 0.0009670979925431311,
      "eval_runtime": 0.3472,
      "eval_samples_per_second": 253.483,
      "eval_steps_per_second": 31.685,
      "step": 531
    },
    {
      "epoch": 24.181818181818183,
      "grad_norm": 0.01682870462536812,
      "learning_rate": 9.43421052631579e-06,
      "loss": 0.0018,
      "step": 532
    },
    {
      "epoch": 24.181818181818183,
      "eval_loss": 0.0009655930334702134,
      "eval_runtime": 0.2295,
      "eval_samples_per_second": 383.473,
      "eval_steps_per_second": 47.934,
      "step": 532
    },
    {
      "epoch": 24.227272727272727,
      "grad_norm": 0.015661459416151047,
      "learning_rate": 9.394736842105262e-06,
      "loss": 0.0016,
      "step": 533
    },
    {
      "epoch": 24.227272727272727,
      "eval_loss": 0.0009641083306632936,
      "eval_runtime": 0.247,
      "eval_samples_per_second": 356.243,
      "eval_steps_per_second": 44.53,
      "step": 533
    },
    {
      "epoch": 24.272727272727273,
      "grad_norm": 0.015652479603886604,
      "learning_rate": 9.355263157894738e-06,
      "loss": 0.0016,
      "step": 534
    },
    {
      "epoch": 24.272727272727273,
      "eval_loss": 0.0009626846294850111,
      "eval_runtime": 0.2337,
      "eval_samples_per_second": 376.608,
      "eval_steps_per_second": 47.076,
      "step": 534
    },
    {
      "epoch": 24.318181818181817,
      "grad_norm": 0.013394070789217949,
      "learning_rate": 9.315789473684212e-06,
      "loss": 0.0016,
      "step": 535
    },
    {
      "epoch": 24.318181818181817,
      "eval_loss": 0.0009613109868951142,
      "eval_runtime": 0.2315,
      "eval_samples_per_second": 380.202,
      "eval_steps_per_second": 47.525,
      "step": 535
    },
    {
      "epoch": 24.363636363636363,
      "grad_norm": 0.015152989886701107,
      "learning_rate": 9.276315789473685e-06,
      "loss": 0.0016,
      "step": 536
    },
    {
      "epoch": 24.363636363636363,
      "eval_loss": 0.0009599780314601958,
      "eval_runtime": 0.2373,
      "eval_samples_per_second": 370.835,
      "eval_steps_per_second": 46.354,
      "step": 536
    },
    {
      "epoch": 24.40909090909091,
      "grad_norm": 0.014209273271262646,
      "learning_rate": 9.236842105263159e-06,
      "loss": 0.0016,
      "step": 537
    },
    {
      "epoch": 24.40909090909091,
      "eval_loss": 0.0009586341911926866,
      "eval_runtime": 0.2342,
      "eval_samples_per_second": 375.816,
      "eval_steps_per_second": 46.977,
      "step": 537
    },
    {
      "epoch": 24.454545454545453,
      "grad_norm": 0.014566083438694477,
      "learning_rate": 9.197368421052633e-06,
      "loss": 0.0015,
      "step": 538
    },
    {
      "epoch": 24.454545454545453,
      "eval_loss": 0.000957344425842166,
      "eval_runtime": 0.2373,
      "eval_samples_per_second": 370.82,
      "eval_steps_per_second": 46.352,
      "step": 538
    },
    {
      "epoch": 24.5,
      "grad_norm": 0.016195589676499367,
      "learning_rate": 9.157894736842105e-06,
      "loss": 0.0017,
      "step": 539
    },
    {
      "epoch": 24.5,
      "eval_loss": 0.0009560330072417855,
      "eval_runtime": 0.2313,
      "eval_samples_per_second": 380.382,
      "eval_steps_per_second": 47.548,
      "step": 539
    },
    {
      "epoch": 24.545454545454547,
      "grad_norm": 0.01577996276319027,
      "learning_rate": 9.11842105263158e-06,
      "loss": 0.0017,
      "step": 540
    },
    {
      "epoch": 24.545454545454547,
      "eval_loss": 0.0009547690278850496,
      "eval_runtime": 0.2288,
      "eval_samples_per_second": 384.628,
      "eval_steps_per_second": 48.079,
      "step": 540
    },
    {
      "epoch": 24.59090909090909,
      "grad_norm": 0.013901899568736553,
      "learning_rate": 9.078947368421054e-06,
      "loss": 0.0015,
      "step": 541
    },
    {
      "epoch": 24.59090909090909,
      "eval_loss": 0.0009535103454254568,
      "eval_runtime": 0.2351,
      "eval_samples_per_second": 374.379,
      "eval_steps_per_second": 46.797,
      "step": 541
    },
    {
      "epoch": 24.636363636363637,
      "grad_norm": 0.014091338962316513,
      "learning_rate": 9.039473684210526e-06,
      "loss": 0.0016,
      "step": 542
    },
    {
      "epoch": 24.636363636363637,
      "eval_loss": 0.0009522747131995857,
      "eval_runtime": 0.2274,
      "eval_samples_per_second": 387.015,
      "eval_steps_per_second": 48.377,
      "step": 542
    },
    {
      "epoch": 24.681818181818183,
      "grad_norm": 0.014544407837092876,
      "learning_rate": 9e-06,
      "loss": 0.0017,
      "step": 543
    },
    {
      "epoch": 24.681818181818183,
      "eval_loss": 0.0009510606760159135,
      "eval_runtime": 0.2442,
      "eval_samples_per_second": 360.336,
      "eval_steps_per_second": 45.042,
      "step": 543
    },
    {
      "epoch": 24.727272727272727,
      "grad_norm": 0.01616845279932022,
      "learning_rate": 8.960526315789473e-06,
      "loss": 0.0017,
      "step": 544
    },
    {
      "epoch": 24.727272727272727,
      "eval_loss": 0.0009498685249127448,
      "eval_runtime": 0.2388,
      "eval_samples_per_second": 368.514,
      "eval_steps_per_second": 46.064,
      "step": 544
    },
    {
      "epoch": 24.772727272727273,
      "grad_norm": 0.01609298586845398,
      "learning_rate": 8.921052631578947e-06,
      "loss": 0.0017,
      "step": 545
    },
    {
      "epoch": 24.772727272727273,
      "eval_loss": 0.0009486477356404066,
      "eval_runtime": 0.2287,
      "eval_samples_per_second": 384.803,
      "eval_steps_per_second": 48.1,
      "step": 545
    },
    {
      "epoch": 24.818181818181817,
      "grad_norm": 0.013633071444928646,
      "learning_rate": 8.881578947368421e-06,
      "loss": 0.0016,
      "step": 546
    },
    {
      "epoch": 24.818181818181817,
      "eval_loss": 0.0009474134421907365,
      "eval_runtime": 0.2393,
      "eval_samples_per_second": 367.684,
      "eval_steps_per_second": 45.96,
      "step": 546
    },
    {
      "epoch": 24.863636363636363,
      "grad_norm": 0.013738269917666912,
      "learning_rate": 8.842105263157893e-06,
      "loss": 0.0016,
      "step": 547
    },
    {
      "epoch": 24.863636363636363,
      "eval_loss": 0.0009461792069487274,
      "eval_runtime": 0.2312,
      "eval_samples_per_second": 380.637,
      "eval_steps_per_second": 47.58,
      "step": 547
    },
    {
      "epoch": 24.90909090909091,
      "grad_norm": 0.013620936311781406,
      "learning_rate": 8.80263157894737e-06,
      "loss": 0.0015,
      "step": 548
    },
    {
      "epoch": 24.90909090909091,
      "eval_loss": 0.0009449638891965151,
      "eval_runtime": 0.2459,
      "eval_samples_per_second": 357.891,
      "eval_steps_per_second": 44.736,
      "step": 548
    },
    {
      "epoch": 24.954545454545453,
      "grad_norm": 0.015967663377523422,
      "learning_rate": 8.763157894736843e-06,
      "loss": 0.0017,
      "step": 549
    },
    {
      "epoch": 24.954545454545453,
      "eval_loss": 0.0009437742992304265,
      "eval_runtime": 0.239,
      "eval_samples_per_second": 368.142,
      "eval_steps_per_second": 46.018,
      "step": 549
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.012870087288320065,
      "learning_rate": 8.723684210526316e-06,
      "loss": 0.0015,
      "step": 550
    },
    {
      "epoch": 25.0,
      "eval_loss": 0.0009425426251254976,
      "eval_runtime": 0.2335,
      "eval_samples_per_second": 376.798,
      "eval_steps_per_second": 47.1,
      "step": 550
    },
    {
      "epoch": 25.045454545454547,
      "grad_norm": 0.012893461622297764,
      "learning_rate": 8.68421052631579e-06,
      "loss": 0.0015,
      "step": 551
    },
    {
      "epoch": 25.045454545454547,
      "eval_loss": 0.0009413667139597237,
      "eval_runtime": 0.236,
      "eval_samples_per_second": 372.836,
      "eval_steps_per_second": 46.605,
      "step": 551
    },
    {
      "epoch": 25.09090909090909,
      "grad_norm": 0.014959870837628841,
      "learning_rate": 8.644736842105264e-06,
      "loss": 0.0016,
      "step": 552
    },
    {
      "epoch": 25.09090909090909,
      "eval_loss": 0.0009402299183420837,
      "eval_runtime": 0.2482,
      "eval_samples_per_second": 354.624,
      "eval_steps_per_second": 44.328,
      "step": 552
    },
    {
      "epoch": 25.136363636363637,
      "grad_norm": 0.01649138703942299,
      "learning_rate": 8.605263157894737e-06,
      "loss": 0.0017,
      "step": 553
    },
    {
      "epoch": 25.136363636363637,
      "eval_loss": 0.0009390347986482084,
      "eval_runtime": 0.2599,
      "eval_samples_per_second": 338.554,
      "eval_steps_per_second": 42.319,
      "step": 553
    },
    {
      "epoch": 25.181818181818183,
      "grad_norm": 0.01470938976854086,
      "learning_rate": 8.56578947368421e-06,
      "loss": 0.0016,
      "step": 554
    },
    {
      "epoch": 25.181818181818183,
      "eval_loss": 0.0009378465474583209,
      "eval_runtime": 0.2574,
      "eval_samples_per_second": 341.926,
      "eval_steps_per_second": 42.741,
      "step": 554
    },
    {
      "epoch": 25.227272727272727,
      "grad_norm": 0.011589915491640568,
      "learning_rate": 8.526315789473685e-06,
      "loss": 0.0014,
      "step": 555
    },
    {
      "epoch": 25.227272727272727,
      "eval_loss": 0.000936675991397351,
      "eval_runtime": 0.2348,
      "eval_samples_per_second": 374.714,
      "eval_steps_per_second": 46.839,
      "step": 555
    },
    {
      "epoch": 25.272727272727273,
      "grad_norm": 0.012033880688250065,
      "learning_rate": 8.486842105263157e-06,
      "loss": 0.0014,
      "step": 556
    },
    {
      "epoch": 25.272727272727273,
      "eval_loss": 0.0009355823858641088,
      "eval_runtime": 0.2479,
      "eval_samples_per_second": 354.912,
      "eval_steps_per_second": 44.364,
      "step": 556
    },
    {
      "epoch": 25.318181818181817,
      "grad_norm": 0.012967276386916637,
      "learning_rate": 8.447368421052632e-06,
      "loss": 0.0016,
      "step": 557
    },
    {
      "epoch": 25.318181818181817,
      "eval_loss": 0.0009344658465124667,
      "eval_runtime": 0.2455,
      "eval_samples_per_second": 358.387,
      "eval_steps_per_second": 44.798,
      "step": 557
    },
    {
      "epoch": 25.363636363636363,
      "grad_norm": 0.01223038136959076,
      "learning_rate": 8.407894736842106e-06,
      "loss": 0.0015,
      "step": 558
    },
    {
      "epoch": 25.363636363636363,
      "eval_loss": 0.0009333452326245606,
      "eval_runtime": 0.2906,
      "eval_samples_per_second": 302.832,
      "eval_steps_per_second": 37.854,
      "step": 558
    },
    {
      "epoch": 25.40909090909091,
      "grad_norm": 0.015218369662761688,
      "learning_rate": 8.368421052631578e-06,
      "loss": 0.0016,
      "step": 559
    },
    {
      "epoch": 25.40909090909091,
      "eval_loss": 0.0009322408004663885,
      "eval_runtime": 0.2272,
      "eval_samples_per_second": 387.247,
      "eval_steps_per_second": 48.406,
      "step": 559
    },
    {
      "epoch": 25.454545454545453,
      "grad_norm": 0.015988919883966446,
      "learning_rate": 8.328947368421052e-06,
      "loss": 0.0016,
      "step": 560
    },
    {
      "epoch": 25.454545454545453,
      "eval_loss": 0.0009310647728852928,
      "eval_runtime": 0.2299,
      "eval_samples_per_second": 382.796,
      "eval_steps_per_second": 47.85,
      "step": 560
    },
    {
      "epoch": 25.5,
      "grad_norm": 0.012890150770545006,
      "learning_rate": 8.289473684210526e-06,
      "loss": 0.0015,
      "step": 561
    },
    {
      "epoch": 25.5,
      "eval_loss": 0.0009298656368628144,
      "eval_runtime": 0.2335,
      "eval_samples_per_second": 376.874,
      "eval_steps_per_second": 47.109,
      "step": 561
    },
    {
      "epoch": 25.545454545454547,
      "grad_norm": 0.013084178790450096,
      "learning_rate": 8.25e-06,
      "loss": 0.0016,
      "step": 562
    },
    {
      "epoch": 25.545454545454547,
      "eval_loss": 0.0009286908898502588,
      "eval_runtime": 0.2286,
      "eval_samples_per_second": 384.978,
      "eval_steps_per_second": 48.122,
      "step": 562
    },
    {
      "epoch": 25.59090909090909,
      "grad_norm": 0.01568671688437462,
      "learning_rate": 8.210526315789475e-06,
      "loss": 0.0018,
      "step": 563
    },
    {
      "epoch": 25.59090909090909,
      "eval_loss": 0.0009274999029003084,
      "eval_runtime": 0.2258,
      "eval_samples_per_second": 389.702,
      "eval_steps_per_second": 48.713,
      "step": 563
    },
    {
      "epoch": 25.636363636363637,
      "grad_norm": 0.012654740363359451,
      "learning_rate": 8.171052631578947e-06,
      "loss": 0.0014,
      "step": 564
    },
    {
      "epoch": 25.636363636363637,
      "eval_loss": 0.0009263442480005324,
      "eval_runtime": 0.2297,
      "eval_samples_per_second": 383.078,
      "eval_steps_per_second": 47.885,
      "step": 564
    },
    {
      "epoch": 25.681818181818183,
      "grad_norm": 0.014308282174170017,
      "learning_rate": 8.131578947368421e-06,
      "loss": 0.0016,
      "step": 565
    },
    {
      "epoch": 25.681818181818183,
      "eval_loss": 0.0009251585579477251,
      "eval_runtime": 0.2407,
      "eval_samples_per_second": 365.643,
      "eval_steps_per_second": 45.705,
      "step": 565
    },
    {
      "epoch": 25.727272727272727,
      "grad_norm": 0.013645520433783531,
      "learning_rate": 8.092105263157896e-06,
      "loss": 0.0016,
      "step": 566
    },
    {
      "epoch": 25.727272727272727,
      "eval_loss": 0.000924033869523555,
      "eval_runtime": 0.2295,
      "eval_samples_per_second": 383.49,
      "eval_steps_per_second": 47.936,
      "step": 566
    },
    {
      "epoch": 25.772727272727273,
      "grad_norm": 0.013325618579983711,
      "learning_rate": 8.052631578947368e-06,
      "loss": 0.0016,
      "step": 567
    },
    {
      "epoch": 25.772727272727273,
      "eval_loss": 0.0009229186689481139,
      "eval_runtime": 0.2286,
      "eval_samples_per_second": 384.951,
      "eval_steps_per_second": 48.119,
      "step": 567
    },
    {
      "epoch": 25.818181818181817,
      "grad_norm": 0.013046055100858212,
      "learning_rate": 8.013157894736842e-06,
      "loss": 0.0015,
      "step": 568
    },
    {
      "epoch": 25.818181818181817,
      "eval_loss": 0.0009218386840075254,
      "eval_runtime": 0.2278,
      "eval_samples_per_second": 386.339,
      "eval_steps_per_second": 48.292,
      "step": 568
    },
    {
      "epoch": 25.863636363636363,
      "grad_norm": 0.014013804495334625,
      "learning_rate": 7.973684210526316e-06,
      "loss": 0.0015,
      "step": 569
    },
    {
      "epoch": 25.863636363636363,
      "eval_loss": 0.0009208493283949792,
      "eval_runtime": 0.239,
      "eval_samples_per_second": 368.218,
      "eval_steps_per_second": 46.027,
      "step": 569
    },
    {
      "epoch": 25.90909090909091,
      "grad_norm": 0.014438400976359844,
      "learning_rate": 7.934210526315789e-06,
      "loss": 0.0016,
      "step": 570
    },
    {
      "epoch": 25.90909090909091,
      "eval_loss": 0.0009198287734761834,
      "eval_runtime": 0.2403,
      "eval_samples_per_second": 366.205,
      "eval_steps_per_second": 45.776,
      "step": 570
    },
    {
      "epoch": 25.954545454545453,
      "grad_norm": 0.013837904669344425,
      "learning_rate": 7.894736842105263e-06,
      "loss": 0.0016,
      "step": 571
    },
    {
      "epoch": 25.954545454545453,
      "eval_loss": 0.0009188164258375764,
      "eval_runtime": 0.2295,
      "eval_samples_per_second": 383.499,
      "eval_steps_per_second": 47.937,
      "step": 571
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.014442033134400845,
      "learning_rate": 7.855263157894737e-06,
      "loss": 0.0015,
      "step": 572
    },
    {
      "epoch": 26.0,
      "eval_loss": 0.0009178462787531316,
      "eval_runtime": 0.2369,
      "eval_samples_per_second": 371.428,
      "eval_steps_per_second": 46.428,
      "step": 572
    },
    {
      "epoch": 26.045454545454547,
      "grad_norm": 0.01597905345261097,
      "learning_rate": 7.81578947368421e-06,
      "loss": 0.0016,
      "step": 573
    },
    {
      "epoch": 26.045454545454547,
      "eval_loss": 0.000916794640943408,
      "eval_runtime": 0.2272,
      "eval_samples_per_second": 387.243,
      "eval_steps_per_second": 48.405,
      "step": 573
    },
    {
      "epoch": 26.09090909090909,
      "grad_norm": 0.014845073223114014,
      "learning_rate": 7.776315789473684e-06,
      "loss": 0.0016,
      "step": 574
    },
    {
      "epoch": 26.09090909090909,
      "eval_loss": 0.0009157375898212194,
      "eval_runtime": 0.2356,
      "eval_samples_per_second": 373.503,
      "eval_steps_per_second": 46.688,
      "step": 574
    },
    {
      "epoch": 26.136363636363637,
      "grad_norm": 0.016282513737678528,
      "learning_rate": 7.73684210526316e-06,
      "loss": 0.0016,
      "step": 575
    },
    {
      "epoch": 26.136363636363637,
      "eval_loss": 0.0009147171513177454,
      "eval_runtime": 0.232,
      "eval_samples_per_second": 379.38,
      "eval_steps_per_second": 47.422,
      "step": 575
    },
    {
      "epoch": 26.181818181818183,
      "grad_norm": 0.01518057007342577,
      "learning_rate": 7.697368421052632e-06,
      "loss": 0.0016,
      "step": 576
    },
    {
      "epoch": 26.181818181818183,
      "eval_loss": 0.0009137062006630003,
      "eval_runtime": 0.2426,
      "eval_samples_per_second": 362.715,
      "eval_steps_per_second": 45.339,
      "step": 576
    },
    {
      "epoch": 26.227272727272727,
      "grad_norm": 0.014094051904976368,
      "learning_rate": 7.657894736842106e-06,
      "loss": 0.0016,
      "step": 577
    },
    {
      "epoch": 26.227272727272727,
      "eval_loss": 0.0009126991499215364,
      "eval_runtime": 0.2293,
      "eval_samples_per_second": 383.817,
      "eval_steps_per_second": 47.977,
      "step": 577
    },
    {
      "epoch": 26.272727272727273,
      "grad_norm": 0.013502271845936775,
      "learning_rate": 7.6184210526315794e-06,
      "loss": 0.0015,
      "step": 578
    },
    {
      "epoch": 26.272727272727273,
      "eval_loss": 0.0009116692817769945,
      "eval_runtime": 0.2603,
      "eval_samples_per_second": 338.068,
      "eval_steps_per_second": 42.258,
      "step": 578
    },
    {
      "epoch": 26.318181818181817,
      "grad_norm": 0.01577981747686863,
      "learning_rate": 7.578947368421053e-06,
      "loss": 0.0016,
      "step": 579
    },
    {
      "epoch": 26.318181818181817,
      "eval_loss": 0.0009106568759307265,
      "eval_runtime": 0.2284,
      "eval_samples_per_second": 385.212,
      "eval_steps_per_second": 48.151,
      "step": 579
    },
    {
      "epoch": 26.363636363636363,
      "grad_norm": 0.013350007124245167,
      "learning_rate": 7.539473684210527e-06,
      "loss": 0.0016,
      "step": 580
    },
    {
      "epoch": 26.363636363636363,
      "eval_loss": 0.0009096513967961073,
      "eval_runtime": 0.251,
      "eval_samples_per_second": 350.661,
      "eval_steps_per_second": 43.833,
      "step": 580
    },
    {
      "epoch": 26.40909090909091,
      "grad_norm": 0.013078941963613033,
      "learning_rate": 7.5e-06,
      "loss": 0.0014,
      "step": 581
    },
    {
      "epoch": 26.40909090909091,
      "eval_loss": 0.000908670190256089,
      "eval_runtime": 0.2388,
      "eval_samples_per_second": 368.458,
      "eval_steps_per_second": 46.057,
      "step": 581
    },
    {
      "epoch": 26.454545454545453,
      "grad_norm": 0.013791137374937534,
      "learning_rate": 7.4605263157894735e-06,
      "loss": 0.0015,
      "step": 582
    },
    {
      "epoch": 26.454545454545453,
      "eval_loss": 0.000907672569155693,
      "eval_runtime": 0.242,
      "eval_samples_per_second": 363.581,
      "eval_steps_per_second": 45.448,
      "step": 582
    },
    {
      "epoch": 26.5,
      "grad_norm": 0.015615719370543957,
      "learning_rate": 7.421052631578948e-06,
      "loss": 0.0017,
      "step": 583
    },
    {
      "epoch": 26.5,
      "eval_loss": 0.0009066305938176811,
      "eval_runtime": 0.2567,
      "eval_samples_per_second": 342.844,
      "eval_steps_per_second": 42.856,
      "step": 583
    },
    {
      "epoch": 26.545454545454547,
      "grad_norm": 0.015224572271108627,
      "learning_rate": 7.381578947368421e-06,
      "loss": 0.0016,
      "step": 584
    },
    {
      "epoch": 26.545454545454547,
      "eval_loss": 0.000905528839211911,
      "eval_runtime": 0.2456,
      "eval_samples_per_second": 358.266,
      "eval_steps_per_second": 44.783,
      "step": 584
    },
    {
      "epoch": 26.59090909090909,
      "grad_norm": 0.015507878735661507,
      "learning_rate": 7.342105263157895e-06,
      "loss": 0.0016,
      "step": 585
    },
    {
      "epoch": 26.59090909090909,
      "eval_loss": 0.0009044149774126709,
      "eval_runtime": 0.2492,
      "eval_samples_per_second": 353.074,
      "eval_steps_per_second": 44.134,
      "step": 585
    },
    {
      "epoch": 26.636363636363637,
      "grad_norm": 0.012780736200511456,
      "learning_rate": 7.302631578947368e-06,
      "loss": 0.0015,
      "step": 586
    },
    {
      "epoch": 26.636363636363637,
      "eval_loss": 0.0009033335372805595,
      "eval_runtime": 0.2468,
      "eval_samples_per_second": 356.58,
      "eval_steps_per_second": 44.572,
      "step": 586
    },
    {
      "epoch": 26.681818181818183,
      "grad_norm": 0.014048571698367596,
      "learning_rate": 7.2631578947368426e-06,
      "loss": 0.0015,
      "step": 587
    },
    {
      "epoch": 26.681818181818183,
      "eval_loss": 0.0009022265439853072,
      "eval_runtime": 0.2552,
      "eval_samples_per_second": 344.851,
      "eval_steps_per_second": 43.106,
      "step": 587
    },
    {
      "epoch": 26.727272727272727,
      "grad_norm": 0.015583625994622707,
      "learning_rate": 7.223684210526316e-06,
      "loss": 0.0017,
      "step": 588
    },
    {
      "epoch": 26.727272727272727,
      "eval_loss": 0.0009011449874378741,
      "eval_runtime": 0.2308,
      "eval_samples_per_second": 381.278,
      "eval_steps_per_second": 47.66,
      "step": 588
    },
    {
      "epoch": 26.772727272727273,
      "grad_norm": 0.01401633583009243,
      "learning_rate": 7.184210526315789e-06,
      "loss": 0.0015,
      "step": 589
    },
    {
      "epoch": 26.772727272727273,
      "eval_loss": 0.0009001016733236611,
      "eval_runtime": 0.2374,
      "eval_samples_per_second": 370.679,
      "eval_steps_per_second": 46.335,
      "step": 589
    },
    {
      "epoch": 26.818181818181817,
      "grad_norm": 0.01262589916586876,
      "learning_rate": 7.144736842105263e-06,
      "loss": 0.0015,
      "step": 590
    },
    {
      "epoch": 26.818181818181817,
      "eval_loss": 0.0008990716305561364,
      "eval_runtime": 0.2399,
      "eval_samples_per_second": 366.822,
      "eval_steps_per_second": 45.853,
      "step": 590
    },
    {
      "epoch": 26.863636363636363,
      "grad_norm": 0.015306267887353897,
      "learning_rate": 7.105263157894737e-06,
      "loss": 0.0016,
      "step": 591
    },
    {
      "epoch": 26.863636363636363,
      "eval_loss": 0.0008980457205325365,
      "eval_runtime": 0.2286,
      "eval_samples_per_second": 385.033,
      "eval_steps_per_second": 48.129,
      "step": 591
    },
    {
      "epoch": 26.90909090909091,
      "grad_norm": 0.014178605750203133,
      "learning_rate": 7.065789473684211e-06,
      "loss": 0.0016,
      "step": 592
    },
    {
      "epoch": 26.90909090909091,
      "eval_loss": 0.0008970522903837264,
      "eval_runtime": 0.2364,
      "eval_samples_per_second": 372.229,
      "eval_steps_per_second": 46.529,
      "step": 592
    },
    {
      "epoch": 26.954545454545453,
      "grad_norm": 0.013244709931313992,
      "learning_rate": 7.026315789473685e-06,
      "loss": 0.0016,
      "step": 593
    },
    {
      "epoch": 26.954545454545453,
      "eval_loss": 0.0008960642153397202,
      "eval_runtime": 0.2462,
      "eval_samples_per_second": 357.44,
      "eval_steps_per_second": 44.68,
      "step": 593
    },
    {
      "epoch": 27.0,
      "grad_norm": 0.012383348308503628,
      "learning_rate": 6.986842105263158e-06,
      "loss": 0.0014,
      "step": 594
    },
    {
      "epoch": 27.0,
      "eval_loss": 0.0008951277122832835,
      "eval_runtime": 0.2326,
      "eval_samples_per_second": 378.306,
      "eval_steps_per_second": 47.288,
      "step": 594
    },
    {
      "epoch": 27.045454545454547,
      "grad_norm": 0.011418252252042294,
      "learning_rate": 6.9473684210526315e-06,
      "loss": 0.0014,
      "step": 595
    },
    {
      "epoch": 27.045454545454547,
      "eval_loss": 0.0008942168205976486,
      "eval_runtime": 0.2431,
      "eval_samples_per_second": 362.037,
      "eval_steps_per_second": 45.255,
      "step": 595
    },
    {
      "epoch": 27.09090909090909,
      "grad_norm": 0.013398653827607632,
      "learning_rate": 6.907894736842106e-06,
      "loss": 0.0014,
      "step": 596
    },
    {
      "epoch": 27.09090909090909,
      "eval_loss": 0.0008933371282182634,
      "eval_runtime": 0.2375,
      "eval_samples_per_second": 370.507,
      "eval_steps_per_second": 46.313,
      "step": 596
    },
    {
      "epoch": 27.136363636363637,
      "grad_norm": 0.013324232771992683,
      "learning_rate": 6.868421052631579e-06,
      "loss": 0.0014,
      "step": 597
    },
    {
      "epoch": 27.136363636363637,
      "eval_loss": 0.0008924913126975298,
      "eval_runtime": 0.2409,
      "eval_samples_per_second": 365.308,
      "eval_steps_per_second": 45.663,
      "step": 597
    },
    {
      "epoch": 27.181818181818183,
      "grad_norm": 0.014774598181247711,
      "learning_rate": 6.828947368421053e-06,
      "loss": 0.0016,
      "step": 598
    },
    {
      "epoch": 27.181818181818183,
      "eval_loss": 0.0008916006772778928,
      "eval_runtime": 0.2374,
      "eval_samples_per_second": 370.613,
      "eval_steps_per_second": 46.327,
      "step": 598
    },
    {
      "epoch": 27.227272727272727,
      "grad_norm": 0.015260329470038414,
      "learning_rate": 6.7894736842105264e-06,
      "loss": 0.0016,
      "step": 599
    },
    {
      "epoch": 27.227272727272727,
      "eval_loss": 0.0008907453739084303,
      "eval_runtime": 0.2427,
      "eval_samples_per_second": 362.645,
      "eval_steps_per_second": 45.331,
      "step": 599
    },
    {
      "epoch": 27.272727272727273,
      "grad_norm": 0.01440617348998785,
      "learning_rate": 6.750000000000001e-06,
      "loss": 0.0016,
      "step": 600
    },
    {
      "epoch": 27.272727272727273,
      "eval_loss": 0.0008899224339984357,
      "eval_runtime": 0.2506,
      "eval_samples_per_second": 351.14,
      "eval_steps_per_second": 43.892,
      "step": 600
    },
    {
      "epoch": 27.318181818181817,
      "grad_norm": 0.0139328483492136,
      "learning_rate": 6.710526315789474e-06,
      "loss": 0.0015,
      "step": 601
    },
    {
      "epoch": 27.318181818181817,
      "eval_loss": 0.0008891185279935598,
      "eval_runtime": 0.223,
      "eval_samples_per_second": 394.603,
      "eval_steps_per_second": 49.325,
      "step": 601
    },
    {
      "epoch": 27.363636363636363,
      "grad_norm": 0.014009720645844936,
      "learning_rate": 6.671052631578947e-06,
      "loss": 0.0015,
      "step": 602
    },
    {
      "epoch": 27.363636363636363,
      "eval_loss": 0.0008883295231498778,
      "eval_runtime": 0.2262,
      "eval_samples_per_second": 389.114,
      "eval_steps_per_second": 48.639,
      "step": 602
    },
    {
      "epoch": 27.40909090909091,
      "grad_norm": 0.014640220440924168,
      "learning_rate": 6.631578947368421e-06,
      "loss": 0.0016,
      "step": 603
    },
    {
      "epoch": 27.40909090909091,
      "eval_loss": 0.0008875647909007967,
      "eval_runtime": 0.2259,
      "eval_samples_per_second": 389.586,
      "eval_steps_per_second": 48.698,
      "step": 603
    },
    {
      "epoch": 27.454545454545453,
      "grad_norm": 0.012875789776444435,
      "learning_rate": 6.592105263157895e-06,
      "loss": 0.0014,
      "step": 604
    },
    {
      "epoch": 27.454545454545453,
      "eval_loss": 0.0008868000004440546,
      "eval_runtime": 0.2267,
      "eval_samples_per_second": 388.239,
      "eval_steps_per_second": 48.53,
      "step": 604
    },
    {
      "epoch": 27.5,
      "grad_norm": 0.012748241424560547,
      "learning_rate": 6.552631578947369e-06,
      "loss": 0.0014,
      "step": 605
    },
    {
      "epoch": 27.5,
      "eval_loss": 0.0008860474918037653,
      "eval_runtime": 0.2273,
      "eval_samples_per_second": 387.108,
      "eval_steps_per_second": 48.388,
      "step": 605
    },
    {
      "epoch": 27.545454545454547,
      "grad_norm": 0.015082623809576035,
      "learning_rate": 6.513157894736842e-06,
      "loss": 0.0016,
      "step": 606
    },
    {
      "epoch": 27.545454545454547,
      "eval_loss": 0.0008852502796798944,
      "eval_runtime": 0.2413,
      "eval_samples_per_second": 364.656,
      "eval_steps_per_second": 45.582,
      "step": 606
    },
    {
      "epoch": 27.59090909090909,
      "grad_norm": 0.012016087770462036,
      "learning_rate": 6.473684210526316e-06,
      "loss": 0.0014,
      "step": 607
    },
    {
      "epoch": 27.59090909090909,
      "eval_loss": 0.0008844301337376237,
      "eval_runtime": 0.2344,
      "eval_samples_per_second": 375.37,
      "eval_steps_per_second": 46.921,
      "step": 607
    },
    {
      "epoch": 27.636363636363637,
      "grad_norm": 0.013424508273601532,
      "learning_rate": 6.4342105263157896e-06,
      "loss": 0.0014,
      "step": 608
    },
    {
      "epoch": 27.636363636363637,
      "eval_loss": 0.0008835734915919602,
      "eval_runtime": 0.2456,
      "eval_samples_per_second": 358.327,
      "eval_steps_per_second": 44.791,
      "step": 608
    },
    {
      "epoch": 27.681818181818183,
      "grad_norm": 0.014258569106459618,
      "learning_rate": 6.394736842105263e-06,
      "loss": 0.0016,
      "step": 609
    },
    {
      "epoch": 27.681818181818183,
      "eval_loss": 0.0008827546262182295,
      "eval_runtime": 0.2293,
      "eval_samples_per_second": 383.729,
      "eval_steps_per_second": 47.966,
      "step": 609
    },
    {
      "epoch": 27.727272727272727,
      "grad_norm": 0.012304065749049187,
      "learning_rate": 6.355263157894737e-06,
      "loss": 0.0014,
      "step": 610
    },
    {
      "epoch": 27.727272727272727,
      "eval_loss": 0.0008819656213745475,
      "eval_runtime": 0.2293,
      "eval_samples_per_second": 383.825,
      "eval_steps_per_second": 47.978,
      "step": 610
    },
    {
      "epoch": 27.772727272727273,
      "grad_norm": 0.01459804829210043,
      "learning_rate": 6.31578947368421e-06,
      "loss": 0.0016,
      "step": 611
    },
    {
      "epoch": 27.772727272727273,
      "eval_loss": 0.000881133193615824,
      "eval_runtime": 0.2354,
      "eval_samples_per_second": 373.888,
      "eval_steps_per_second": 46.736,
      "step": 611
    },
    {
      "epoch": 27.818181818181817,
      "grad_norm": 0.013015978038311005,
      "learning_rate": 6.2763157894736845e-06,
      "loss": 0.0014,
      "step": 612
    },
    {
      "epoch": 27.818181818181817,
      "eval_loss": 0.0008803331875242293,
      "eval_runtime": 0.267,
      "eval_samples_per_second": 329.599,
      "eval_steps_per_second": 41.2,
      "step": 612
    },
    {
      "epoch": 27.863636363636363,
      "grad_norm": 0.013901845552027225,
      "learning_rate": 6.236842105263159e-06,
      "loss": 0.0016,
      "step": 613
    },
    {
      "epoch": 27.863636363636363,
      "eval_loss": 0.0008795224712230265,
      "eval_runtime": 0.2596,
      "eval_samples_per_second": 339.008,
      "eval_steps_per_second": 42.376,
      "step": 613
    },
    {
      "epoch": 27.90909090909091,
      "grad_norm": 0.012065750546753407,
      "learning_rate": 6.197368421052632e-06,
      "loss": 0.0014,
      "step": 614
    },
    {
      "epoch": 27.90909090909091,
      "eval_loss": 0.0008787267142906785,
      "eval_runtime": 0.2638,
      "eval_samples_per_second": 333.543,
      "eval_steps_per_second": 41.693,
      "step": 614
    },
    {
      "epoch": 27.954545454545453,
      "grad_norm": 0.013637811876833439,
      "learning_rate": 6.157894736842105e-06,
      "loss": 0.0016,
      "step": 615
    },
    {
      "epoch": 27.954545454545453,
      "eval_loss": 0.0008779308409430087,
      "eval_runtime": 0.2586,
      "eval_samples_per_second": 340.291,
      "eval_steps_per_second": 42.536,
      "step": 615
    },
    {
      "epoch": 28.0,
      "grad_norm": 0.012989726848900318,
      "learning_rate": 6.118421052631579e-06,
      "loss": 0.0015,
      "step": 616
    },
    {
      "epoch": 28.0,
      "eval_loss": 0.0008771241991780698,
      "eval_runtime": 0.2429,
      "eval_samples_per_second": 362.255,
      "eval_steps_per_second": 45.282,
      "step": 616
    },
    {
      "epoch": 28.045454545454547,
      "grad_norm": 0.011249346658587456,
      "learning_rate": 6.078947368421053e-06,
      "loss": 0.0013,
      "step": 617
    },
    {
      "epoch": 28.045454545454547,
      "eval_loss": 0.0008763446821831167,
      "eval_runtime": 0.2419,
      "eval_samples_per_second": 363.721,
      "eval_steps_per_second": 45.465,
      "step": 617
    },
    {
      "epoch": 28.09090909090909,
      "grad_norm": 0.013492336496710777,
      "learning_rate": 6.039473684210526e-06,
      "loss": 0.0016,
      "step": 618
    },
    {
      "epoch": 28.09090909090909,
      "eval_loss": 0.000875540659762919,
      "eval_runtime": 0.2616,
      "eval_samples_per_second": 336.357,
      "eval_steps_per_second": 42.045,
      "step": 618
    },
    {
      "epoch": 28.136363636363637,
      "grad_norm": 0.013201452791690826,
      "learning_rate": 6e-06,
      "loss": 0.0014,
      "step": 619
    },
    {
      "epoch": 28.136363636363637,
      "eval_loss": 0.0008747638785280287,
      "eval_runtime": 0.2332,
      "eval_samples_per_second": 377.308,
      "eval_steps_per_second": 47.163,
      "step": 619
    },
    {
      "epoch": 28.181818181818183,
      "grad_norm": 0.012346605770289898,
      "learning_rate": 5.960526315789474e-06,
      "loss": 0.0015,
      "step": 620
    },
    {
      "epoch": 28.181818181818183,
      "eval_loss": 0.0008740072953514755,
      "eval_runtime": 0.2297,
      "eval_samples_per_second": 383.134,
      "eval_steps_per_second": 47.892,
      "step": 620
    },
    {
      "epoch": 28.227272727272727,
      "grad_norm": 0.013474266044795513,
      "learning_rate": 5.921052631578948e-06,
      "loss": 0.0015,
      "step": 621
    },
    {
      "epoch": 28.227272727272727,
      "eval_loss": 0.0008732505375519395,
      "eval_runtime": 0.2261,
      "eval_samples_per_second": 389.249,
      "eval_steps_per_second": 48.656,
      "step": 621
    },
    {
      "epoch": 28.272727272727273,
      "grad_norm": 0.011779211461544037,
      "learning_rate": 5.881578947368421e-06,
      "loss": 0.0013,
      "step": 622
    },
    {
      "epoch": 28.272727272727273,
      "eval_loss": 0.0008725319639779627,
      "eval_runtime": 0.2358,
      "eval_samples_per_second": 373.257,
      "eval_steps_per_second": 46.657,
      "step": 622
    },
    {
      "epoch": 28.318181818181817,
      "grad_norm": 0.01458238996565342,
      "learning_rate": 5.842105263157895e-06,
      "loss": 0.0015,
      "step": 623
    },
    {
      "epoch": 28.318181818181817,
      "eval_loss": 0.0008718472090549767,
      "eval_runtime": 0.2469,
      "eval_samples_per_second": 356.442,
      "eval_steps_per_second": 44.555,
      "step": 623
    },
    {
      "epoch": 28.363636363636363,
      "grad_norm": 0.013492444530129433,
      "learning_rate": 5.802631578947368e-06,
      "loss": 0.0015,
      "step": 624
    },
    {
      "epoch": 28.363636363636363,
      "eval_loss": 0.0008711445843800902,
      "eval_runtime": 0.2339,
      "eval_samples_per_second": 376.299,
      "eval_steps_per_second": 47.037,
      "step": 624
    },
    {
      "epoch": 28.40909090909091,
      "grad_norm": 0.016801927238702774,
      "learning_rate": 5.763157894736842e-06,
      "loss": 0.0016,
      "step": 625
    },
    {
      "epoch": 28.40909090909091,
      "eval_loss": 0.0008704178035259247,
      "eval_runtime": 0.2467,
      "eval_samples_per_second": 356.761,
      "eval_steps_per_second": 44.595,
      "step": 625
    },
    {
      "epoch": 28.454545454545453,
      "grad_norm": 0.01472269557416439,
      "learning_rate": 5.723684210526316e-06,
      "loss": 0.0015,
      "step": 626
    },
    {
      "epoch": 28.454545454545453,
      "eval_loss": 0.0008697099983692169,
      "eval_runtime": 0.2361,
      "eval_samples_per_second": 372.695,
      "eval_steps_per_second": 46.587,
      "step": 626
    },
    {
      "epoch": 28.5,
      "grad_norm": 0.012456816621124744,
      "learning_rate": 5.68421052631579e-06,
      "loss": 0.0014,
      "step": 627
    },
    {
      "epoch": 28.5,
      "eval_loss": 0.0008690251270309091,
      "eval_runtime": 0.227,
      "eval_samples_per_second": 387.675,
      "eval_steps_per_second": 48.459,
      "step": 627
    },
    {
      "epoch": 28.545454545454547,
      "grad_norm": 0.010930378921329975,
      "learning_rate": 5.644736842105263e-06,
      "loss": 0.0013,
      "step": 628
    },
    {
      "epoch": 28.545454545454547,
      "eval_loss": 0.0008683226769790053,
      "eval_runtime": 0.2396,
      "eval_samples_per_second": 367.217,
      "eval_steps_per_second": 45.902,
      "step": 628
    },
    {
      "epoch": 28.59090909090909,
      "grad_norm": 0.013773776590824127,
      "learning_rate": 5.605263157894737e-06,
      "loss": 0.0016,
      "step": 629
    },
    {
      "epoch": 28.59090909090909,
      "eval_loss": 0.0008676418801769614,
      "eval_runtime": 0.2255,
      "eval_samples_per_second": 390.204,
      "eval_steps_per_second": 48.776,
      "step": 629
    },
    {
      "epoch": 28.636363636363637,
      "grad_norm": 0.01485821045935154,
      "learning_rate": 5.565789473684211e-06,
      "loss": 0.0015,
      "step": 630
    },
    {
      "epoch": 28.636363636363637,
      "eval_loss": 0.0008669787785038352,
      "eval_runtime": 0.238,
      "eval_samples_per_second": 369.806,
      "eval_steps_per_second": 46.226,
      "step": 630
    },
    {
      "epoch": 28.681818181818183,
      "grad_norm": 0.012882347218692303,
      "learning_rate": 5.526315789473684e-06,
      "loss": 0.0015,
      "step": 631
    },
    {
      "epoch": 28.681818181818183,
      "eval_loss": 0.0008663006592541933,
      "eval_runtime": 0.2392,
      "eval_samples_per_second": 367.945,
      "eval_steps_per_second": 45.993,
      "step": 631
    },
    {
      "epoch": 28.727272727272727,
      "grad_norm": 0.013756033033132553,
      "learning_rate": 5.486842105263158e-06,
      "loss": 0.0015,
      "step": 632
    },
    {
      "epoch": 28.727272727272727,
      "eval_loss": 0.0008656617719680071,
      "eval_runtime": 0.2392,
      "eval_samples_per_second": 367.897,
      "eval_steps_per_second": 45.987,
      "step": 632
    },
    {
      "epoch": 28.772727272727273,
      "grad_norm": 0.011964356526732445,
      "learning_rate": 5.447368421052632e-06,
      "loss": 0.0014,
      "step": 633
    },
    {
      "epoch": 28.772727272727273,
      "eval_loss": 0.0008649809169583023,
      "eval_runtime": 0.2416,
      "eval_samples_per_second": 364.235,
      "eval_steps_per_second": 45.529,
      "step": 633
    },
    {
      "epoch": 28.818181818181817,
      "grad_norm": 0.014426548965275288,
      "learning_rate": 5.407894736842106e-06,
      "loss": 0.0015,
      "step": 634
    },
    {
      "epoch": 28.818181818181817,
      "eval_loss": 0.0008642975008115172,
      "eval_runtime": 0.2426,
      "eval_samples_per_second": 362.673,
      "eval_steps_per_second": 45.334,
      "step": 634
    },
    {
      "epoch": 28.863636363636363,
      "grad_norm": 0.013472221791744232,
      "learning_rate": 5.368421052631579e-06,
      "loss": 0.0014,
      "step": 635
    },
    {
      "epoch": 28.863636363636363,
      "eval_loss": 0.0008636031416244805,
      "eval_runtime": 0.2517,
      "eval_samples_per_second": 349.684,
      "eval_steps_per_second": 43.711,
      "step": 635
    },
    {
      "epoch": 28.90909090909091,
      "grad_norm": 0.012157904915511608,
      "learning_rate": 5.328947368421053e-06,
      "loss": 0.0014,
      "step": 636
    },
    {
      "epoch": 28.90909090909091,
      "eval_loss": 0.000862881715875119,
      "eval_runtime": 0.2369,
      "eval_samples_per_second": 371.509,
      "eval_steps_per_second": 46.439,
      "step": 636
    },
    {
      "epoch": 28.954545454545453,
      "grad_norm": 0.012409983202815056,
      "learning_rate": 5.289473684210526e-06,
      "loss": 0.0014,
      "step": 637
    },
    {
      "epoch": 28.954545454545453,
      "eval_loss": 0.0008621684974059463,
      "eval_runtime": 0.2465,
      "eval_samples_per_second": 357.054,
      "eval_steps_per_second": 44.632,
      "step": 637
    },
    {
      "epoch": 29.0,
      "grad_norm": 0.013315846212208271,
      "learning_rate": 5.25e-06,
      "loss": 0.0015,
      "step": 638
    },
    {
      "epoch": 29.0,
      "eval_loss": 0.0008614835678599775,
      "eval_runtime": 0.2407,
      "eval_samples_per_second": 365.586,
      "eval_steps_per_second": 45.698,
      "step": 638
    },
    {
      "epoch": 29.045454545454547,
      "grad_norm": 0.015236815437674522,
      "learning_rate": 5.210526315789474e-06,
      "loss": 0.0016,
      "step": 639
    },
    {
      "epoch": 29.045454545454547,
      "eval_loss": 0.0008607918862253428,
      "eval_runtime": 0.2362,
      "eval_samples_per_second": 372.636,
      "eval_steps_per_second": 46.579,
      "step": 639
    },
    {
      "epoch": 29.09090909090909,
      "grad_norm": 0.01497814990580082,
      "learning_rate": 5.171052631578948e-06,
      "loss": 0.0015,
      "step": 640
    },
    {
      "epoch": 29.09090909090909,
      "eval_loss": 0.0008601464214734733,
      "eval_runtime": 0.2513,
      "eval_samples_per_second": 350.225,
      "eval_steps_per_second": 43.778,
      "step": 640
    },
    {
      "epoch": 29.136363636363637,
      "grad_norm": 0.010525020770728588,
      "learning_rate": 5.131578947368421e-06,
      "loss": 0.0013,
      "step": 641
    },
    {
      "epoch": 29.136363636363637,
      "eval_loss": 0.0008594872197136283,
      "eval_runtime": 0.2472,
      "eval_samples_per_second": 355.947,
      "eval_steps_per_second": 44.493,
      "step": 641
    },
    {
      "epoch": 29.181818181818183,
      "grad_norm": 0.012257490307092667,
      "learning_rate": 5.092105263157895e-06,
      "loss": 0.0014,
      "step": 642
    },
    {
      "epoch": 29.181818181818183,
      "eval_loss": 0.0008588552009314299,
      "eval_runtime": 0.2514,
      "eval_samples_per_second": 350.01,
      "eval_steps_per_second": 43.751,
      "step": 642
    },
    {
      "epoch": 29.227272727272727,
      "grad_norm": 0.016379721462726593,
      "learning_rate": 5.052631578947369e-06,
      "loss": 0.0016,
      "step": 643
    },
    {
      "epoch": 29.227272727272727,
      "eval_loss": 0.0008582230657339096,
      "eval_runtime": 0.2421,
      "eval_samples_per_second": 363.525,
      "eval_steps_per_second": 45.441,
      "step": 643
    },
    {
      "epoch": 29.272727272727273,
      "grad_norm": 0.013389473780989647,
      "learning_rate": 5.013157894736842e-06,
      "loss": 0.0014,
      "step": 644
    },
    {
      "epoch": 29.272727272727273,
      "eval_loss": 0.0008576181135140359,
      "eval_runtime": 0.2837,
      "eval_samples_per_second": 310.222,
      "eval_steps_per_second": 38.778,
      "step": 644
    },
    {
      "epoch": 29.318181818181817,
      "grad_norm": 0.011728441342711449,
      "learning_rate": 4.973684210526315e-06,
      "loss": 0.0014,
      "step": 645
    },
    {
      "epoch": 29.318181818181817,
      "eval_loss": 0.0008570144418627024,
      "eval_runtime": 0.3144,
      "eval_samples_per_second": 279.869,
      "eval_steps_per_second": 34.984,
      "step": 645
    },
    {
      "epoch": 29.363636363636363,
      "grad_norm": 0.014150052331387997,
      "learning_rate": 4.9342105263157895e-06,
      "loss": 0.0015,
      "step": 646
    },
    {
      "epoch": 29.363636363636363,
      "eval_loss": 0.0008564500021748245,
      "eval_runtime": 0.2427,
      "eval_samples_per_second": 362.611,
      "eval_steps_per_second": 45.326,
      "step": 646
    },
    {
      "epoch": 29.40909090909091,
      "grad_norm": 0.012562847696244717,
      "learning_rate": 4.894736842105264e-06,
      "loss": 0.0015,
      "step": 647
    },
    {
      "epoch": 29.40909090909091,
      "eval_loss": 0.0008558626868762076,
      "eval_runtime": 0.2385,
      "eval_samples_per_second": 368.954,
      "eval_steps_per_second": 46.119,
      "step": 647
    },
    {
      "epoch": 29.454545454545453,
      "grad_norm": 0.01115860603749752,
      "learning_rate": 4.855263157894737e-06,
      "loss": 0.0012,
      "step": 648
    },
    {
      "epoch": 29.454545454545453,
      "eval_loss": 0.000855276535730809,
      "eval_runtime": 0.2434,
      "eval_samples_per_second": 361.501,
      "eval_steps_per_second": 45.188,
      "step": 648
    },
    {
      "epoch": 29.5,
      "grad_norm": 0.014787169173359871,
      "learning_rate": 4.81578947368421e-06,
      "loss": 0.0015,
      "step": 649
    },
    {
      "epoch": 29.5,
      "eval_loss": 0.0008546687895432115,
      "eval_runtime": 0.2404,
      "eval_samples_per_second": 366.019,
      "eval_steps_per_second": 45.752,
      "step": 649
    },
    {
      "epoch": 29.545454545454547,
      "grad_norm": 0.014013570733368397,
      "learning_rate": 4.7763157894736844e-06,
      "loss": 0.0014,
      "step": 650
    },
    {
      "epoch": 29.545454545454547,
      "eval_loss": 0.0008540409035049379,
      "eval_runtime": 0.2415,
      "eval_samples_per_second": 364.376,
      "eval_steps_per_second": 45.547,
      "step": 650
    },
    {
      "epoch": 29.59090909090909,
      "grad_norm": 0.013314800336956978,
      "learning_rate": 4.736842105263158e-06,
      "loss": 0.0015,
      "step": 651
    },
    {
      "epoch": 29.59090909090909,
      "eval_loss": 0.0008533978252671659,
      "eval_runtime": 0.2334,
      "eval_samples_per_second": 377.055,
      "eval_steps_per_second": 47.132,
      "step": 651
    },
    {
      "epoch": 29.636363636363637,
      "grad_norm": 0.011727740988135338,
      "learning_rate": 4.697368421052631e-06,
      "loss": 0.0014,
      "step": 652
    },
    {
      "epoch": 29.636363636363637,
      "eval_loss": 0.0008527915342710912,
      "eval_runtime": 0.2324,
      "eval_samples_per_second": 378.693,
      "eval_steps_per_second": 47.337,
      "step": 652
    },
    {
      "epoch": 29.681818181818183,
      "grad_norm": 0.014551502652466297,
      "learning_rate": 4.657894736842106e-06,
      "loss": 0.0016,
      "step": 653
    },
    {
      "epoch": 29.681818181818183,
      "eval_loss": 0.0008521459531039,
      "eval_runtime": 0.2274,
      "eval_samples_per_second": 387.021,
      "eval_steps_per_second": 48.378,
      "step": 653
    },
    {
      "epoch": 29.727272727272727,
      "grad_norm": 0.01226063258945942,
      "learning_rate": 4.618421052631579e-06,
      "loss": 0.0013,
      "step": 654
    },
    {
      "epoch": 29.727272727272727,
      "eval_loss": 0.0008515057852491736,
      "eval_runtime": 0.2277,
      "eval_samples_per_second": 386.523,
      "eval_steps_per_second": 48.315,
      "step": 654
    },
    {
      "epoch": 29.772727272727273,
      "grad_norm": 0.013769338838756084,
      "learning_rate": 4.578947368421053e-06,
      "loss": 0.0015,
      "step": 655
    },
    {
      "epoch": 29.772727272727273,
      "eval_loss": 0.0008508588653057814,
      "eval_runtime": 0.2246,
      "eval_samples_per_second": 391.814,
      "eval_steps_per_second": 48.977,
      "step": 655
    },
    {
      "epoch": 29.818181818181817,
      "grad_norm": 0.012221275828778744,
      "learning_rate": 4.539473684210527e-06,
      "loss": 0.0015,
      "step": 656
    },
    {
      "epoch": 29.818181818181817,
      "eval_loss": 0.0008502537966705859,
      "eval_runtime": 0.2288,
      "eval_samples_per_second": 384.596,
      "eval_steps_per_second": 48.075,
      "step": 656
    },
    {
      "epoch": 29.863636363636363,
      "grad_norm": 0.011863375082612038,
      "learning_rate": 4.5e-06,
      "loss": 0.0013,
      "step": 657
    },
    {
      "epoch": 29.863636363636363,
      "eval_loss": 0.0008496582740917802,
      "eval_runtime": 0.2473,
      "eval_samples_per_second": 355.889,
      "eval_steps_per_second": 44.486,
      "step": 657
    },
    {
      "epoch": 29.90909090909091,
      "grad_norm": 0.01440768875181675,
      "learning_rate": 4.460526315789473e-06,
      "loss": 0.0015,
      "step": 658
    },
    {
      "epoch": 29.90909090909091,
      "eval_loss": 0.0008490938926115632,
      "eval_runtime": 0.2279,
      "eval_samples_per_second": 386.137,
      "eval_steps_per_second": 48.267,
      "step": 658
    },
    {
      "epoch": 29.954545454545453,
      "grad_norm": 0.013953134417533875,
      "learning_rate": 4.421052631578947e-06,
      "loss": 0.0014,
      "step": 659
    },
    {
      "epoch": 29.954545454545453,
      "eval_loss": 0.0008485484286211431,
      "eval_runtime": 0.2309,
      "eval_samples_per_second": 381.17,
      "eval_steps_per_second": 47.646,
      "step": 659
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.012044006027281284,
      "learning_rate": 4.381578947368422e-06,
      "loss": 0.0014,
      "step": 660
    },
    {
      "epoch": 30.0,
      "eval_loss": 0.0008479988318867981,
      "eval_runtime": 0.2301,
      "eval_samples_per_second": 382.482,
      "eval_steps_per_second": 47.81,
      "step": 660
    },
    {
      "epoch": 30.045454545454547,
      "grad_norm": 0.014352229423820972,
      "learning_rate": 4.342105263157895e-06,
      "loss": 0.0015,
      "step": 661
    },
    {
      "epoch": 30.045454545454547,
      "eval_loss": 0.0008474763599224389,
      "eval_runtime": 0.228,
      "eval_samples_per_second": 385.949,
      "eval_steps_per_second": 48.244,
      "step": 661
    },
    {
      "epoch": 30.09090909090909,
      "grad_norm": 0.012857983820140362,
      "learning_rate": 4.302631578947368e-06,
      "loss": 0.0015,
      "step": 662
    },
    {
      "epoch": 30.09090909090909,
      "eval_loss": 0.0008469296153634787,
      "eval_runtime": 0.2254,
      "eval_samples_per_second": 390.463,
      "eval_steps_per_second": 48.808,
      "step": 662
    },
    {
      "epoch": 30.136363636363637,
      "grad_norm": 0.013745253905653954,
      "learning_rate": 4.2631578947368425e-06,
      "loss": 0.0014,
      "step": 663
    },
    {
      "epoch": 30.136363636363637,
      "eval_loss": 0.0008464112761430442,
      "eval_runtime": 0.2615,
      "eval_samples_per_second": 336.504,
      "eval_steps_per_second": 42.063,
      "step": 663
    },
    {
      "epoch": 30.181818181818183,
      "grad_norm": 0.011542108841240406,
      "learning_rate": 4.223684210526316e-06,
      "loss": 0.0014,
      "step": 664
    },
    {
      "epoch": 30.181818181818183,
      "eval_loss": 0.0008458928787149489,
      "eval_runtime": 0.2363,
      "eval_samples_per_second": 372.361,
      "eval_steps_per_second": 46.545,
      "step": 664
    },
    {
      "epoch": 30.227272727272727,
      "grad_norm": 0.013680350966751575,
      "learning_rate": 4.184210526315789e-06,
      "loss": 0.0015,
      "step": 665
    },
    {
      "epoch": 30.227272727272727,
      "eval_loss": 0.0008453825721517205,
      "eval_runtime": 0.2422,
      "eval_samples_per_second": 363.317,
      "eval_steps_per_second": 45.415,
      "step": 665
    },
    {
      "epoch": 30.272727272727273,
      "grad_norm": 0.01278683077543974,
      "learning_rate": 4.144736842105263e-06,
      "loss": 0.0013,
      "step": 666
    },
    {
      "epoch": 30.272727272727273,
      "eval_loss": 0.0008448913577012718,
      "eval_runtime": 0.2274,
      "eval_samples_per_second": 386.997,
      "eval_steps_per_second": 48.375,
      "step": 666
    },
    {
      "epoch": 30.318181818181817,
      "grad_norm": 0.013793477788567543,
      "learning_rate": 4.105263157894737e-06,
      "loss": 0.0016,
      "step": 667
    },
    {
      "epoch": 30.318181818181817,
      "eval_loss": 0.0008444040431641042,
      "eval_runtime": 0.2383,
      "eval_samples_per_second": 369.303,
      "eval_steps_per_second": 46.163,
      "step": 667
    },
    {
      "epoch": 30.363636363636363,
      "grad_norm": 0.013766897842288017,
      "learning_rate": 4.065789473684211e-06,
      "loss": 0.0014,
      "step": 668
    },
    {
      "epoch": 30.363636363636363,
      "eval_loss": 0.0008439045632258058,
      "eval_runtime": 0.2472,
      "eval_samples_per_second": 355.963,
      "eval_steps_per_second": 44.495,
      "step": 668
    },
    {
      "epoch": 30.40909090909091,
      "grad_norm": 0.01388518325984478,
      "learning_rate": 4.026315789473684e-06,
      "loss": 0.0014,
      "step": 669
    },
    {
      "epoch": 30.40909090909091,
      "eval_loss": 0.0008434146293438971,
      "eval_runtime": 0.2555,
      "eval_samples_per_second": 344.476,
      "eval_steps_per_second": 43.059,
      "step": 669
    },
    {
      "epoch": 30.454545454545453,
      "grad_norm": 0.013302307575941086,
      "learning_rate": 3.986842105263158e-06,
      "loss": 0.0014,
      "step": 670
    },
    {
      "epoch": 30.454545454545453,
      "eval_loss": 0.0008429314475506544,
      "eval_runtime": 0.234,
      "eval_samples_per_second": 375.99,
      "eval_steps_per_second": 46.999,
      "step": 670
    },
    {
      "epoch": 30.5,
      "grad_norm": 0.015602638944983482,
      "learning_rate": 3.9473684210526315e-06,
      "loss": 0.0015,
      "step": 671
    },
    {
      "epoch": 30.5,
      "eval_loss": 0.0008424482657574117,
      "eval_runtime": 0.2312,
      "eval_samples_per_second": 380.69,
      "eval_steps_per_second": 47.586,
      "step": 671
    },
    {
      "epoch": 30.545454545454547,
      "grad_norm": 0.012195833958685398,
      "learning_rate": 3.907894736842105e-06,
      "loss": 0.0014,
      "step": 672
    },
    {
      "epoch": 30.545454545454547,
      "eval_loss": 0.0008419921505264938,
      "eval_runtime": 0.2348,
      "eval_samples_per_second": 374.848,
      "eval_steps_per_second": 46.856,
      "step": 672
    },
    {
      "epoch": 30.59090909090909,
      "grad_norm": 0.012124909088015556,
      "learning_rate": 3.86842105263158e-06,
      "loss": 0.0014,
      "step": 673
    },
    {
      "epoch": 30.59090909090909,
      "eval_loss": 0.0008415495394729078,
      "eval_runtime": 0.2337,
      "eval_samples_per_second": 376.514,
      "eval_steps_per_second": 47.064,
      "step": 673
    },
    {
      "epoch": 30.636363636363637,
      "grad_norm": 0.012487749569118023,
      "learning_rate": 3.828947368421053e-06,
      "loss": 0.0014,
      "step": 674
    },
    {
      "epoch": 30.636363636363637,
      "eval_loss": 0.0008411163580603898,
      "eval_runtime": 0.2252,
      "eval_samples_per_second": 390.686,
      "eval_steps_per_second": 48.836,
      "step": 674
    },
    {
      "epoch": 30.681818181818183,
      "grad_norm": 0.013694563880562782,
      "learning_rate": 3.7894736842105264e-06,
      "loss": 0.0015,
      "step": 675
    },
    {
      "epoch": 30.681818181818183,
      "eval_loss": 0.0008406452834606171,
      "eval_runtime": 0.2277,
      "eval_samples_per_second": 386.401,
      "eval_steps_per_second": 48.3,
      "step": 675
    },
    {
      "epoch": 30.727272727272727,
      "grad_norm": 0.012177863158285618,
      "learning_rate": 3.75e-06,
      "loss": 0.0015,
      "step": 676
    },
    {
      "epoch": 30.727272727272727,
      "eval_loss": 0.0008401837549172342,
      "eval_runtime": 0.2284,
      "eval_samples_per_second": 385.297,
      "eval_steps_per_second": 48.162,
      "step": 676
    },
    {
      "epoch": 30.772727272727273,
      "grad_norm": 0.011734875850379467,
      "learning_rate": 3.710526315789474e-06,
      "loss": 0.0013,
      "step": 677
    },
    {
      "epoch": 30.772727272727273,
      "eval_loss": 0.0008397437632083893,
      "eval_runtime": 0.2349,
      "eval_samples_per_second": 374.661,
      "eval_steps_per_second": 46.833,
      "step": 677
    },
    {
      "epoch": 30.818181818181817,
      "grad_norm": 0.012181814759969711,
      "learning_rate": 3.6710526315789476e-06,
      "loss": 0.0015,
      "step": 678
    },
    {
      "epoch": 30.818181818181817,
      "eval_loss": 0.000839310756418854,
      "eval_runtime": 0.2267,
      "eval_samples_per_second": 388.249,
      "eval_steps_per_second": 48.531,
      "step": 678
    },
    {
      "epoch": 30.863636363636363,
      "grad_norm": 0.014351209625601768,
      "learning_rate": 3.6315789473684213e-06,
      "loss": 0.0015,
      "step": 679
    },
    {
      "epoch": 30.863636363636363,
      "eval_loss": 0.0008388804271817207,
      "eval_runtime": 0.2382,
      "eval_samples_per_second": 369.474,
      "eval_steps_per_second": 46.184,
      "step": 679
    },
    {
      "epoch": 30.90909090909091,
      "grad_norm": 0.01179533638060093,
      "learning_rate": 3.5921052631578946e-06,
      "loss": 0.0014,
      "step": 680
    },
    {
      "epoch": 30.90909090909091,
      "eval_loss": 0.0008384499233216047,
      "eval_runtime": 0.227,
      "eval_samples_per_second": 387.694,
      "eval_steps_per_second": 48.462,
      "step": 680
    },
    {
      "epoch": 30.954545454545453,
      "grad_norm": 0.01200299896299839,
      "learning_rate": 3.5526315789473683e-06,
      "loss": 0.0014,
      "step": 681
    },
    {
      "epoch": 30.954545454545453,
      "eval_loss": 0.0008380439248867333,
      "eval_runtime": 0.2357,
      "eval_samples_per_second": 373.384,
      "eval_steps_per_second": 46.673,
      "step": 681
    },
    {
      "epoch": 31.0,
      "grad_norm": 0.012165653519332409,
      "learning_rate": 3.5131578947368425e-06,
      "loss": 0.0014,
      "step": 682
    },
    {
      "epoch": 31.0,
      "eval_loss": 0.0008376243058592081,
      "eval_runtime": 0.2268,
      "eval_samples_per_second": 387.994,
      "eval_steps_per_second": 48.499,
      "step": 682
    },
    {
      "epoch": 31.045454545454547,
      "grad_norm": 0.013023504056036472,
      "learning_rate": 3.4736842105263158e-06,
      "loss": 0.0014,
      "step": 683
    },
    {
      "epoch": 31.045454545454547,
      "eval_loss": 0.0008372208685614169,
      "eval_runtime": 0.2408,
      "eval_samples_per_second": 365.51,
      "eval_steps_per_second": 45.689,
      "step": 683
    },
    {
      "epoch": 31.09090909090909,
      "grad_norm": 0.012478847056627274,
      "learning_rate": 3.4342105263157895e-06,
      "loss": 0.0015,
      "step": 684
    },
    {
      "epoch": 31.09090909090909,
      "eval_loss": 0.0008367864647880197,
      "eval_runtime": 0.2261,
      "eval_samples_per_second": 389.221,
      "eval_steps_per_second": 48.653,
      "step": 684
    },
    {
      "epoch": 31.136363636363637,
      "grad_norm": 0.011943116784095764,
      "learning_rate": 3.3947368421052632e-06,
      "loss": 0.0014,
      "step": 685
    },
    {
      "epoch": 31.136363636363637,
      "eval_loss": 0.0008363695815205574,
      "eval_runtime": 0.2405,
      "eval_samples_per_second": 365.829,
      "eval_steps_per_second": 45.729,
      "step": 685
    },
    {
      "epoch": 31.181818181818183,
      "grad_norm": 0.012198768556118011,
      "learning_rate": 3.355263157894737e-06,
      "loss": 0.0014,
      "step": 686
    },
    {
      "epoch": 31.181818181818183,
      "eval_loss": 0.000835962186101824,
      "eval_runtime": 0.2414,
      "eval_samples_per_second": 364.526,
      "eval_steps_per_second": 45.566,
      "step": 686
    },
    {
      "epoch": 31.227272727272727,
      "grad_norm": 0.012970656156539917,
      "learning_rate": 3.3157894736842107e-06,
      "loss": 0.0014,
      "step": 687
    },
    {
      "epoch": 31.227272727272727,
      "eval_loss": 0.0008355574682354927,
      "eval_runtime": 0.2355,
      "eval_samples_per_second": 373.686,
      "eval_steps_per_second": 46.711,
      "step": 687
    },
    {
      "epoch": 31.272727272727273,
      "grad_norm": 0.01133756898343563,
      "learning_rate": 3.2763157894736844e-06,
      "loss": 0.0012,
      "step": 688
    },
    {
      "epoch": 31.272727272727273,
      "eval_loss": 0.0008351581636816263,
      "eval_runtime": 0.239,
      "eval_samples_per_second": 368.146,
      "eval_steps_per_second": 46.018,
      "step": 688
    },
    {
      "epoch": 31.318181818181817,
      "grad_norm": 0.014246292412281036,
      "learning_rate": 3.236842105263158e-06,
      "loss": 0.0014,
      "step": 689
    },
    {
      "epoch": 31.318181818181817,
      "eval_loss": 0.0008347549010068178,
      "eval_runtime": 0.2413,
      "eval_samples_per_second": 364.723,
      "eval_steps_per_second": 45.59,
      "step": 689
    },
    {
      "epoch": 31.363636363636363,
      "grad_norm": 0.01505040843039751,
      "learning_rate": 3.1973684210526314e-06,
      "loss": 0.0016,
      "step": 690
    },
    {
      "epoch": 31.363636363636363,
      "eval_loss": 0.0008343501249328256,
      "eval_runtime": 0.2321,
      "eval_samples_per_second": 379.09,
      "eval_steps_per_second": 47.386,
      "step": 690
    },
    {
      "epoch": 31.40909090909091,
      "grad_norm": 0.011749452911317348,
      "learning_rate": 3.157894736842105e-06,
      "loss": 0.0013,
      "step": 691
    },
    {
      "epoch": 31.40909090909091,
      "eval_loss": 0.0008339481428265572,
      "eval_runtime": 0.2656,
      "eval_samples_per_second": 331.332,
      "eval_steps_per_second": 41.416,
      "step": 691
    },
    {
      "epoch": 31.454545454545453,
      "grad_norm": 0.012921934016048908,
      "learning_rate": 3.1184210526315793e-06,
      "loss": 0.0015,
      "step": 692
    },
    {
      "epoch": 31.454545454545453,
      "eval_loss": 0.0008335394668392837,
      "eval_runtime": 0.2542,
      "eval_samples_per_second": 346.242,
      "eval_steps_per_second": 43.28,
      "step": 692
    },
    {
      "epoch": 31.5,
      "grad_norm": 0.01331315003335476,
      "learning_rate": 3.0789473684210526e-06,
      "loss": 0.0014,
      "step": 693
    },
    {
      "epoch": 31.5,
      "eval_loss": 0.0008331468561664224,
      "eval_runtime": 0.2417,
      "eval_samples_per_second": 364.055,
      "eval_steps_per_second": 45.507,
      "step": 693
    },
    {
      "epoch": 31.545454545454547,
      "grad_norm": 0.012770496308803558,
      "learning_rate": 3.0394736842105263e-06,
      "loss": 0.0015,
      "step": 694
    },
    {
      "epoch": 31.545454545454547,
      "eval_loss": 0.0008327368414029479,
      "eval_runtime": 0.2689,
      "eval_samples_per_second": 327.265,
      "eval_steps_per_second": 40.908,
      "step": 694
    },
    {
      "epoch": 31.59090909090909,
      "grad_norm": 0.012804139405488968,
      "learning_rate": 3e-06,
      "loss": 0.0014,
      "step": 695
    },
    {
      "epoch": 31.59090909090909,
      "eval_loss": 0.0008323252550326288,
      "eval_runtime": 0.2468,
      "eval_samples_per_second": 356.61,
      "eval_steps_per_second": 44.576,
      "step": 695
    },
    {
      "epoch": 31.636363636363637,
      "grad_norm": 0.014062759466469288,
      "learning_rate": 2.960526315789474e-06,
      "loss": 0.0015,
      "step": 696
    },
    {
      "epoch": 31.636363636363637,
      "eval_loss": 0.0008318935870192945,
      "eval_runtime": 0.2529,
      "eval_samples_per_second": 347.95,
      "eval_steps_per_second": 43.494,
      "step": 696
    },
    {
      "epoch": 31.681818181818183,
      "grad_norm": 0.013049440458416939,
      "learning_rate": 2.9210526315789475e-06,
      "loss": 0.0014,
      "step": 697
    },
    {
      "epoch": 31.681818181818183,
      "eval_loss": 0.0008314928272739053,
      "eval_runtime": 0.2521,
      "eval_samples_per_second": 349.0,
      "eval_steps_per_second": 43.625,
      "step": 697
    },
    {
      "epoch": 31.727272727272727,
      "grad_norm": 0.01172225084155798,
      "learning_rate": 2.881578947368421e-06,
      "loss": 0.0013,
      "step": 698
    },
    {
      "epoch": 31.727272727272727,
      "eval_loss": 0.0008310881094075739,
      "eval_runtime": 0.2672,
      "eval_samples_per_second": 329.329,
      "eval_steps_per_second": 41.166,
      "step": 698
    },
    {
      "epoch": 31.772727272727273,
      "grad_norm": 0.01266531739383936,
      "learning_rate": 2.842105263157895e-06,
      "loss": 0.0014,
      "step": 699
    },
    {
      "epoch": 31.772727272727273,
      "eval_loss": 0.0008307105163112283,
      "eval_runtime": 0.3176,
      "eval_samples_per_second": 277.082,
      "eval_steps_per_second": 34.635,
      "step": 699
    },
    {
      "epoch": 31.818181818181817,
      "grad_norm": 0.014071842655539513,
      "learning_rate": 2.8026315789473683e-06,
      "loss": 0.0015,
      "step": 700
    },
    {
      "epoch": 31.818181818181817,
      "eval_loss": 0.0008303424110636115,
      "eval_runtime": 0.2648,
      "eval_samples_per_second": 332.279,
      "eval_steps_per_second": 41.535,
      "step": 700
    },
    {
      "epoch": 31.863636363636363,
      "grad_norm": 0.01333391759544611,
      "learning_rate": 2.763157894736842e-06,
      "loss": 0.0015,
      "step": 701
    },
    {
      "epoch": 31.863636363636363,
      "eval_loss": 0.0008299809414893389,
      "eval_runtime": 0.2429,
      "eval_samples_per_second": 362.239,
      "eval_steps_per_second": 45.28,
      "step": 701
    },
    {
      "epoch": 31.90909090909091,
      "grad_norm": 0.010583317838609219,
      "learning_rate": 2.723684210526316e-06,
      "loss": 0.0012,
      "step": 702
    },
    {
      "epoch": 31.90909090909091,
      "eval_loss": 0.0008296439773403108,
      "eval_runtime": 0.2463,
      "eval_samples_per_second": 357.358,
      "eval_steps_per_second": 44.67,
      "step": 702
    },
    {
      "epoch": 31.954545454545453,
      "grad_norm": 0.01122986525297165,
      "learning_rate": 2.6842105263157895e-06,
      "loss": 0.0013,
      "step": 703
    },
    {
      "epoch": 31.954545454545453,
      "eval_loss": 0.0008293138234876096,
      "eval_runtime": 0.2433,
      "eval_samples_per_second": 361.652,
      "eval_steps_per_second": 45.206,
      "step": 703
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.011437175795435905,
      "learning_rate": 2.644736842105263e-06,
      "loss": 0.0013,
      "step": 704
    },
    {
      "epoch": 32.0,
      "eval_loss": 0.0008289901888929307,
      "eval_runtime": 0.2357,
      "eval_samples_per_second": 373.319,
      "eval_steps_per_second": 46.665,
      "step": 704
    },
    {
      "epoch": 32.04545454545455,
      "grad_norm": 0.012699670158326626,
      "learning_rate": 2.605263157894737e-06,
      "loss": 0.0014,
      "step": 705
    },
    {
      "epoch": 32.04545454545455,
      "eval_loss": 0.0008286829688586295,
      "eval_runtime": 0.2319,
      "eval_samples_per_second": 379.476,
      "eval_steps_per_second": 47.435,
      "step": 705
    },
    {
      "epoch": 32.09090909090909,
      "grad_norm": 0.013239861465990543,
      "learning_rate": 2.5657894736842107e-06,
      "loss": 0.0014,
      "step": 706
    },
    {
      "epoch": 32.09090909090909,
      "eval_loss": 0.0008283716160804033,
      "eval_runtime": 0.2319,
      "eval_samples_per_second": 379.415,
      "eval_steps_per_second": 47.427,
      "step": 706
    },
    {
      "epoch": 32.13636363636363,
      "grad_norm": 0.012133197858929634,
      "learning_rate": 2.5263157894736844e-06,
      "loss": 0.0013,
      "step": 707
    },
    {
      "epoch": 32.13636363636363,
      "eval_loss": 0.0008280739421024919,
      "eval_runtime": 0.2242,
      "eval_samples_per_second": 392.558,
      "eval_steps_per_second": 49.07,
      "step": 707
    },
    {
      "epoch": 32.18181818181818,
      "grad_norm": 0.011126801371574402,
      "learning_rate": 2.4868421052631577e-06,
      "loss": 0.0013,
      "step": 708
    },
    {
      "epoch": 32.18181818181818,
      "eval_loss": 0.0008277747547253966,
      "eval_runtime": 0.2381,
      "eval_samples_per_second": 369.534,
      "eval_steps_per_second": 46.192,
      "step": 708
    },
    {
      "epoch": 32.22727272727273,
      "grad_norm": 0.012151258997619152,
      "learning_rate": 2.447368421052632e-06,
      "loss": 0.0014,
      "step": 709
    },
    {
      "epoch": 32.22727272727273,
      "eval_loss": 0.0008274810388684273,
      "eval_runtime": 0.265,
      "eval_samples_per_second": 332.045,
      "eval_steps_per_second": 41.506,
      "step": 709
    },
    {
      "epoch": 32.27272727272727,
      "grad_norm": 0.013219231739640236,
      "learning_rate": 2.407894736842105e-06,
      "loss": 0.0014,
      "step": 710
    },
    {
      "epoch": 32.27272727272727,
      "eval_loss": 0.0008271847036667168,
      "eval_runtime": 0.2428,
      "eval_samples_per_second": 362.463,
      "eval_steps_per_second": 45.308,
      "step": 710
    },
    {
      "epoch": 32.31818181818182,
      "grad_norm": 0.010275053791701794,
      "learning_rate": 2.368421052631579e-06,
      "loss": 0.0012,
      "step": 711
    },
    {
      "epoch": 32.31818181818182,
      "eval_loss": 0.0008268963429145515,
      "eval_runtime": 0.2418,
      "eval_samples_per_second": 363.953,
      "eval_steps_per_second": 45.494,
      "step": 711
    },
    {
      "epoch": 32.36363636363637,
      "grad_norm": 0.013079304248094559,
      "learning_rate": 2.328947368421053e-06,
      "loss": 0.0014,
      "step": 712
    },
    {
      "epoch": 32.36363636363637,
      "eval_loss": 0.00082661077613011,
      "eval_runtime": 0.232,
      "eval_samples_per_second": 379.238,
      "eval_steps_per_second": 47.405,
      "step": 712
    },
    {
      "epoch": 32.40909090909091,
      "grad_norm": 0.019619744271039963,
      "learning_rate": 2.2894736842105263e-06,
      "loss": 0.0014,
      "step": 713
    },
    {
      "epoch": 32.40909090909091,
      "eval_loss": 0.0008263156050816178,
      "eval_runtime": 0.2626,
      "eval_samples_per_second": 335.09,
      "eval_steps_per_second": 41.886,
      "step": 713
    },
    {
      "epoch": 32.45454545454545,
      "grad_norm": 0.014103109948337078,
      "learning_rate": 2.25e-06,
      "loss": 0.0015,
      "step": 714
    },
    {
      "epoch": 32.45454545454545,
      "eval_loss": 0.0008260206668637693,
      "eval_runtime": 0.256,
      "eval_samples_per_second": 343.813,
      "eval_steps_per_second": 42.977,
      "step": 714
    },
    {
      "epoch": 32.5,
      "grad_norm": 0.013360358774662018,
      "learning_rate": 2.2105263157894734e-06,
      "loss": 0.0015,
      "step": 715
    },
    {
      "epoch": 32.5,
      "eval_loss": 0.0008257552981376648,
      "eval_runtime": 0.2719,
      "eval_samples_per_second": 323.628,
      "eval_steps_per_second": 40.454,
      "step": 715
    },
    {
      "epoch": 32.54545454545455,
      "grad_norm": 0.012335807085037231,
      "learning_rate": 2.1710526315789475e-06,
      "loss": 0.0014,
      "step": 716
    },
    {
      "epoch": 32.54545454545455,
      "eval_loss": 0.0008254764834418893,
      "eval_runtime": 0.257,
      "eval_samples_per_second": 342.453,
      "eval_steps_per_second": 42.807,
      "step": 716
    },
    {
      "epoch": 32.59090909090909,
      "grad_norm": 0.012738436460494995,
      "learning_rate": 2.1315789473684212e-06,
      "loss": 0.0014,
      "step": 717
    },
    {
      "epoch": 32.59090909090909,
      "eval_loss": 0.0008252071565948427,
      "eval_runtime": 0.2774,
      "eval_samples_per_second": 317.284,
      "eval_steps_per_second": 39.66,
      "step": 717
    },
    {
      "epoch": 32.63636363636363,
      "grad_norm": 0.011913586407899857,
      "learning_rate": 2.0921052631578945e-06,
      "loss": 0.0013,
      "step": 718
    },
    {
      "epoch": 32.63636363636363,
      "eval_loss": 0.0008249431848526001,
      "eval_runtime": 0.2458,
      "eval_samples_per_second": 358.083,
      "eval_steps_per_second": 44.76,
      "step": 718
    },
    {
      "epoch": 32.68181818181818,
      "grad_norm": 0.010375920683145523,
      "learning_rate": 2.0526315789473687e-06,
      "loss": 0.0013,
      "step": 719
    },
    {
      "epoch": 32.68181818181818,
      "eval_loss": 0.0008246820070780814,
      "eval_runtime": 0.2548,
      "eval_samples_per_second": 345.32,
      "eval_steps_per_second": 43.165,
      "step": 719
    },
    {
      "epoch": 32.72727272727273,
      "grad_norm": 0.016080064699053764,
      "learning_rate": 2.013157894736842e-06,
      "loss": 0.0016,
      "step": 720
    },
    {
      "epoch": 32.72727272727273,
      "eval_loss": 0.0008244179771281779,
      "eval_runtime": 0.2695,
      "eval_samples_per_second": 326.571,
      "eval_steps_per_second": 40.821,
      "step": 720
    },
    {
      "epoch": 32.77272727272727,
      "grad_norm": 0.01252568420022726,
      "learning_rate": 1.9736842105263157e-06,
      "loss": 0.0013,
      "step": 721
    },
    {
      "epoch": 32.77272727272727,
      "eval_loss": 0.0008241839241236448,
      "eval_runtime": 0.2948,
      "eval_samples_per_second": 298.515,
      "eval_steps_per_second": 37.314,
      "step": 721
    },
    {
      "epoch": 32.81818181818182,
      "grad_norm": 0.012378372251987457,
      "learning_rate": 1.93421052631579e-06,
      "loss": 0.0014,
      "step": 722
    },
    {
      "epoch": 32.81818181818182,
      "eval_loss": 0.0008239619201049209,
      "eval_runtime": 0.2733,
      "eval_samples_per_second": 321.958,
      "eval_steps_per_second": 40.245,
      "step": 722
    },
    {
      "epoch": 32.86363636363637,
      "grad_norm": 0.013344389386475086,
      "learning_rate": 1.8947368421052632e-06,
      "loss": 0.0015,
      "step": 723
    },
    {
      "epoch": 32.86363636363637,
      "eval_loss": 0.000823718321043998,
      "eval_runtime": 0.2569,
      "eval_samples_per_second": 342.55,
      "eval_steps_per_second": 42.819,
      "step": 723
    },
    {
      "epoch": 32.90909090909091,
      "grad_norm": 0.012948358431458473,
      "learning_rate": 1.855263157894737e-06,
      "loss": 0.0015,
      "step": 724
    },
    {
      "epoch": 32.90909090909091,
      "eval_loss": 0.0008235003333538771,
      "eval_runtime": 0.2559,
      "eval_samples_per_second": 343.901,
      "eval_steps_per_second": 42.988,
      "step": 724
    },
    {
      "epoch": 32.95454545454545,
      "grad_norm": 0.011233711615204811,
      "learning_rate": 1.8157894736842106e-06,
      "loss": 0.0012,
      "step": 725
    },
    {
      "epoch": 32.95454545454545,
      "eval_loss": 0.000823282403871417,
      "eval_runtime": 0.2642,
      "eval_samples_per_second": 333.059,
      "eval_steps_per_second": 41.632,
      "step": 725
    },
    {
      "epoch": 33.0,
      "grad_norm": 0.01327808853238821,
      "learning_rate": 1.7763157894736842e-06,
      "loss": 0.0015,
      "step": 726
    },
    {
      "epoch": 33.0,
      "eval_loss": 0.0008230686071328819,
      "eval_runtime": 0.2841,
      "eval_samples_per_second": 309.721,
      "eval_steps_per_second": 38.715,
      "step": 726
    },
    {
      "epoch": 33.04545454545455,
      "grad_norm": 0.011662392877042294,
      "learning_rate": 1.7368421052631579e-06,
      "loss": 0.0014,
      "step": 727
    },
    {
      "epoch": 33.04545454545455,
      "eval_loss": 0.0008228750666603446,
      "eval_runtime": 0.249,
      "eval_samples_per_second": 353.382,
      "eval_steps_per_second": 44.173,
      "step": 727
    },
    {
      "epoch": 33.09090909090909,
      "grad_norm": 0.011290736496448517,
      "learning_rate": 1.6973684210526316e-06,
      "loss": 0.0013,
      "step": 728
    },
    {
      "epoch": 33.09090909090909,
      "eval_loss": 0.0008226787904277444,
      "eval_runtime": 0.2459,
      "eval_samples_per_second": 357.906,
      "eval_steps_per_second": 44.738,
      "step": 728
    },
    {
      "epoch": 33.13636363636363,
      "grad_norm": 0.011928938329219818,
      "learning_rate": 1.6578947368421053e-06,
      "loss": 0.0014,
      "step": 729
    },
    {
      "epoch": 33.13636363636363,
      "eval_loss": 0.0008224839111790061,
      "eval_runtime": 0.2693,
      "eval_samples_per_second": 326.807,
      "eval_steps_per_second": 40.851,
      "step": 729
    },
    {
      "epoch": 33.18181818181818,
      "grad_norm": 0.013969271443784237,
      "learning_rate": 1.618421052631579e-06,
      "loss": 0.0014,
      "step": 730
    },
    {
      "epoch": 33.18181818181818,
      "eval_loss": 0.0008223024778999388,
      "eval_runtime": 0.2985,
      "eval_samples_per_second": 294.848,
      "eval_steps_per_second": 36.856,
      "step": 730
    },
    {
      "epoch": 33.22727272727273,
      "grad_norm": 0.01247771643102169,
      "learning_rate": 1.5789473684210526e-06,
      "loss": 0.0014,
      "step": 731
    },
    {
      "epoch": 33.22727272727273,
      "eval_loss": 0.0008221129537560046,
      "eval_runtime": 0.2564,
      "eval_samples_per_second": 343.194,
      "eval_steps_per_second": 42.899,
      "step": 731
    },
    {
      "epoch": 33.27272727272727,
      "grad_norm": 0.012111688032746315,
      "learning_rate": 1.5394736842105263e-06,
      "loss": 0.0013,
      "step": 732
    },
    {
      "epoch": 33.27272727272727,
      "eval_loss": 0.0008219464216381311,
      "eval_runtime": 0.2484,
      "eval_samples_per_second": 354.308,
      "eval_steps_per_second": 44.289,
      "step": 732
    },
    {
      "epoch": 33.31818181818182,
      "grad_norm": 0.01268478948622942,
      "learning_rate": 1.5e-06,
      "loss": 0.0014,
      "step": 733
    },
    {
      "epoch": 33.31818181818182,
      "eval_loss": 0.0008217745926231146,
      "eval_runtime": 0.2938,
      "eval_samples_per_second": 299.518,
      "eval_steps_per_second": 37.44,
      "step": 733
    },
    {
      "epoch": 33.36363636363637,
      "grad_norm": 0.01151086576282978,
      "learning_rate": 1.4605263157894738e-06,
      "loss": 0.0012,
      "step": 734
    },
    {
      "epoch": 33.36363636363637,
      "eval_loss": 0.0008215824491344392,
      "eval_runtime": 0.2627,
      "eval_samples_per_second": 335.021,
      "eval_steps_per_second": 41.878,
      "step": 734
    },
    {
      "epoch": 33.40909090909091,
      "grad_norm": 0.012743664905428886,
      "learning_rate": 1.4210526315789475e-06,
      "loss": 0.0014,
      "step": 735
    },
    {
      "epoch": 33.40909090909091,
      "eval_loss": 0.0008214117842726409,
      "eval_runtime": 0.257,
      "eval_samples_per_second": 342.469,
      "eval_steps_per_second": 42.809,
      "step": 735
    },
    {
      "epoch": 33.45454545454545,
      "grad_norm": 0.014465508982539177,
      "learning_rate": 1.381578947368421e-06,
      "loss": 0.0015,
      "step": 736
    },
    {
      "epoch": 33.45454545454545,
      "eval_loss": 0.0008212332031689584,
      "eval_runtime": 0.2383,
      "eval_samples_per_second": 369.294,
      "eval_steps_per_second": 46.162,
      "step": 736
    },
    {
      "epoch": 33.5,
      "grad_norm": 0.011136289685964584,
      "learning_rate": 1.3421052631578947e-06,
      "loss": 0.0013,
      "step": 737
    },
    {
      "epoch": 33.5,
      "eval_loss": 0.0008210748201236129,
      "eval_runtime": 0.2515,
      "eval_samples_per_second": 349.848,
      "eval_steps_per_second": 43.731,
      "step": 737
    },
    {
      "epoch": 33.54545454545455,
      "grad_norm": 0.013279801234602928,
      "learning_rate": 1.3026315789473685e-06,
      "loss": 0.0014,
      "step": 738
    },
    {
      "epoch": 33.54545454545455,
      "eval_loss": 0.0008209014777094126,
      "eval_runtime": 0.2624,
      "eval_samples_per_second": 335.412,
      "eval_steps_per_second": 41.926,
      "step": 738
    },
    {
      "epoch": 33.59090909090909,
      "grad_norm": 0.011146324686706066,
      "learning_rate": 1.2631578947368422e-06,
      "loss": 0.0012,
      "step": 739
    },
    {
      "epoch": 33.59090909090909,
      "eval_loss": 0.0008207445498555899,
      "eval_runtime": 0.2477,
      "eval_samples_per_second": 355.277,
      "eval_steps_per_second": 44.41,
      "step": 739
    },
    {
      "epoch": 33.63636363636363,
      "grad_norm": 0.011300037615001202,
      "learning_rate": 1.223684210526316e-06,
      "loss": 0.0013,
      "step": 740
    },
    {
      "epoch": 33.63636363636363,
      "eval_loss": 0.0008206011261790991,
      "eval_runtime": 0.2524,
      "eval_samples_per_second": 348.598,
      "eval_steps_per_second": 43.575,
      "step": 740
    },
    {
      "epoch": 33.68181818181818,
      "grad_norm": 0.013210857287049294,
      "learning_rate": 1.1842105263157894e-06,
      "loss": 0.0013,
      "step": 741
    },
    {
      "epoch": 33.68181818181818,
      "eval_loss": 0.0008204494952224195,
      "eval_runtime": 0.2769,
      "eval_samples_per_second": 317.777,
      "eval_steps_per_second": 39.722,
      "step": 741
    },
    {
      "epoch": 33.72727272727273,
      "grad_norm": 0.011201176792383194,
      "learning_rate": 1.1447368421052632e-06,
      "loss": 0.0013,
      "step": 742
    },
    {
      "epoch": 33.72727272727273,
      "eval_loss": 0.0008203128236345947,
      "eval_runtime": 0.259,
      "eval_samples_per_second": 339.749,
      "eval_steps_per_second": 42.469,
      "step": 742
    },
    {
      "epoch": 33.77272727272727,
      "grad_norm": 0.012550720945000648,
      "learning_rate": 1.1052631578947367e-06,
      "loss": 0.0013,
      "step": 743
    },
    {
      "epoch": 33.77272727272727,
      "eval_loss": 0.0008201680611819029,
      "eval_runtime": 0.2549,
      "eval_samples_per_second": 345.3,
      "eval_steps_per_second": 43.163,
      "step": 743
    },
    {
      "epoch": 33.81818181818182,
      "grad_norm": 0.011524029076099396,
      "learning_rate": 1.0657894736842106e-06,
      "loss": 0.0014,
      "step": 744
    },
    {
      "epoch": 33.81818181818182,
      "eval_loss": 0.0008200569427572191,
      "eval_runtime": 0.2576,
      "eval_samples_per_second": 341.575,
      "eval_steps_per_second": 42.697,
      "step": 744
    },
    {
      "epoch": 33.86363636363637,
      "grad_norm": 0.014999749138951302,
      "learning_rate": 1.0263157894736843e-06,
      "loss": 0.0015,
      "step": 745
    },
    {
      "epoch": 33.86363636363637,
      "eval_loss": 0.0008199459407478571,
      "eval_runtime": 0.2573,
      "eval_samples_per_second": 342.038,
      "eval_steps_per_second": 42.755,
      "step": 745
    },
    {
      "epoch": 33.90909090909091,
      "grad_norm": 0.013432620093226433,
      "learning_rate": 9.868421052631579e-07,
      "loss": 0.0014,
      "step": 746
    },
    {
      "epoch": 33.90909090909091,
      "eval_loss": 0.0008198119467124343,
      "eval_runtime": 0.2794,
      "eval_samples_per_second": 314.936,
      "eval_steps_per_second": 39.367,
      "step": 746
    },
    {
      "epoch": 33.95454545454545,
      "grad_norm": 0.011333504691720009,
      "learning_rate": 9.473684210526316e-07,
      "loss": 0.0014,
      "step": 747
    },
    {
      "epoch": 33.95454545454545,
      "eval_loss": 0.0008196914568543434,
      "eval_runtime": 0.2549,
      "eval_samples_per_second": 345.205,
      "eval_steps_per_second": 43.151,
      "step": 747
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.0102554215118289,
      "learning_rate": 9.078947368421053e-07,
      "loss": 0.0012,
      "step": 748
    },
    {
      "epoch": 34.0,
      "eval_loss": 0.0008195764967240393,
      "eval_runtime": 0.2656,
      "eval_samples_per_second": 331.349,
      "eval_steps_per_second": 41.419,
      "step": 748
    },
    {
      "epoch": 34.04545454545455,
      "grad_norm": 0.011500447988510132,
      "learning_rate": 8.684210526315789e-07,
      "loss": 0.0013,
      "step": 749
    },
    {
      "epoch": 34.04545454545455,
      "eval_loss": 0.0008194709080271423,
      "eval_runtime": 0.2631,
      "eval_samples_per_second": 334.415,
      "eval_steps_per_second": 41.802,
      "step": 749
    },
    {
      "epoch": 34.09090909090909,
      "grad_norm": 0.011614636518061161,
      "learning_rate": 8.289473684210527e-07,
      "loss": 0.0014,
      "step": 750
    },
    {
      "epoch": 34.09090909090909,
      "eval_loss": 0.0008193707326427102,
      "eval_runtime": 0.2898,
      "eval_samples_per_second": 303.667,
      "eval_steps_per_second": 37.958,
      "step": 750
    },
    {
      "epoch": 34.13636363636363,
      "grad_norm": 0.010696956887841225,
      "learning_rate": 7.894736842105263e-07,
      "loss": 0.0013,
      "step": 751
    },
    {
      "epoch": 34.13636363636363,
      "eval_loss": 0.0008192665409296751,
      "eval_runtime": 0.2328,
      "eval_samples_per_second": 378.006,
      "eval_steps_per_second": 47.251,
      "step": 751
    },
    {
      "epoch": 34.18181818181818,
      "grad_norm": 0.011633389629423618,
      "learning_rate": 7.5e-07,
      "loss": 0.0014,
      "step": 752
    },
    {
      "epoch": 34.18181818181818,
      "eval_loss": 0.0008191689848899841,
      "eval_runtime": 0.2379,
      "eval_samples_per_second": 369.833,
      "eval_steps_per_second": 46.229,
      "step": 752
    },
    {
      "epoch": 34.22727272727273,
      "grad_norm": 0.013071279041469097,
      "learning_rate": 7.105263157894737e-07,
      "loss": 0.0013,
      "step": 753
    },
    {
      "epoch": 34.22727272727273,
      "eval_loss": 0.0008190743392333388,
      "eval_runtime": 0.2373,
      "eval_samples_per_second": 370.812,
      "eval_steps_per_second": 46.351,
      "step": 753
    },
    {
      "epoch": 34.27272727272727,
      "grad_norm": 0.011386328376829624,
      "learning_rate": 6.710526315789474e-07,
      "loss": 0.0013,
      "step": 754
    },
    {
      "epoch": 34.27272727272727,
      "eval_loss": 0.0008190052467398345,
      "eval_runtime": 0.2237,
      "eval_samples_per_second": 393.447,
      "eval_steps_per_second": 49.181,
      "step": 754
    },
    {
      "epoch": 34.31818181818182,
      "grad_norm": 0.011327208951115608,
      "learning_rate": 6.315789473684211e-07,
      "loss": 0.0013,
      "step": 755
    },
    {
      "epoch": 34.31818181818182,
      "eval_loss": 0.0008189321961253881,
      "eval_runtime": 0.2293,
      "eval_samples_per_second": 383.737,
      "eval_steps_per_second": 47.967,
      "step": 755
    },
    {
      "epoch": 34.36363636363637,
      "grad_norm": 0.011524545960128307,
      "learning_rate": 5.921052631578947e-07,
      "loss": 0.0014,
      "step": 756
    },
    {
      "epoch": 34.36363636363637,
      "eval_loss": 0.0008188713109120727,
      "eval_runtime": 0.2355,
      "eval_samples_per_second": 373.643,
      "eval_steps_per_second": 46.705,
      "step": 756
    },
    {
      "epoch": 34.40909090909091,
      "grad_norm": 0.012313243001699448,
      "learning_rate": 5.526315789473683e-07,
      "loss": 0.0014,
      "step": 757
    },
    {
      "epoch": 34.40909090909091,
      "eval_loss": 0.0008188103674910963,
      "eval_runtime": 0.4518,
      "eval_samples_per_second": 194.767,
      "eval_steps_per_second": 24.346,
      "step": 757
    },
    {
      "epoch": 34.45454545454545,
      "grad_norm": 0.012687238864600658,
      "learning_rate": 5.131578947368422e-07,
      "loss": 0.0014,
      "step": 758
    },
    {
      "epoch": 34.45454545454545,
      "eval_loss": 0.0008187480852939188,
      "eval_runtime": 0.2941,
      "eval_samples_per_second": 299.267,
      "eval_steps_per_second": 37.408,
      "step": 758
    },
    {
      "epoch": 34.5,
      "grad_norm": 0.012826275080442429,
      "learning_rate": 4.736842105263158e-07,
      "loss": 0.0013,
      "step": 759
    },
    {
      "epoch": 34.5,
      "eval_loss": 0.0008186926716007292,
      "eval_runtime": 0.3991,
      "eval_samples_per_second": 220.5,
      "eval_steps_per_second": 27.562,
      "step": 759
    },
    {
      "epoch": 34.54545454545455,
      "grad_norm": 0.012961960397660732,
      "learning_rate": 4.3421052631578947e-07,
      "loss": 0.0015,
      "step": 760
    },
    {
      "epoch": 34.54545454545455,
      "eval_loss": 0.0008186465711332858,
      "eval_runtime": 0.2484,
      "eval_samples_per_second": 354.263,
      "eval_steps_per_second": 44.283,
      "step": 760
    },
    {
      "epoch": 34.59090909090909,
      "grad_norm": 0.013269671238958836,
      "learning_rate": 3.9473684210526315e-07,
      "loss": 0.0014,
      "step": 761
    },
    {
      "epoch": 34.59090909090909,
      "eval_loss": 0.0008186018676497042,
      "eval_runtime": 0.291,
      "eval_samples_per_second": 302.416,
      "eval_steps_per_second": 37.802,
      "step": 761
    },
    {
      "epoch": 34.63636363636363,
      "grad_norm": 0.012951558455824852,
      "learning_rate": 3.5526315789473687e-07,
      "loss": 0.0013,
      "step": 762
    },
    {
      "epoch": 34.63636363636363,
      "eval_loss": 0.0008185504120774567,
      "eval_runtime": 0.2594,
      "eval_samples_per_second": 339.213,
      "eval_steps_per_second": 42.402,
      "step": 762
    },
    {
      "epoch": 34.68181818181818,
      "grad_norm": 0.01040305569767952,
      "learning_rate": 3.1578947368421055e-07,
      "loss": 0.0013,
      "step": 763
    },
    {
      "epoch": 34.68181818181818,
      "eval_loss": 0.0008185274782590568,
      "eval_runtime": 0.3222,
      "eval_samples_per_second": 273.081,
      "eval_steps_per_second": 34.135,
      "step": 763
    },
    {
      "epoch": 34.72727272727273,
      "grad_norm": 0.013104148209095001,
      "learning_rate": 2.7631578947368417e-07,
      "loss": 0.0014,
      "step": 764
    },
    {
      "epoch": 34.72727272727273,
      "eval_loss": 0.0008184895268641412,
      "eval_runtime": 0.3124,
      "eval_samples_per_second": 281.65,
      "eval_steps_per_second": 35.206,
      "step": 764
    },
    {
      "epoch": 34.77272727272727,
      "grad_norm": 0.012136269360780716,
      "learning_rate": 2.368421052631579e-07,
      "loss": 0.0014,
      "step": 765
    },
    {
      "epoch": 34.77272727272727,
      "eval_loss": 0.0008184570469893515,
      "eval_runtime": 0.2394,
      "eval_samples_per_second": 367.55,
      "eval_steps_per_second": 45.944,
      "step": 765
    },
    {
      "epoch": 34.81818181818182,
      "grad_norm": 0.011621113866567612,
      "learning_rate": 1.9736842105263157e-07,
      "loss": 0.0014,
      "step": 766
    },
    {
      "epoch": 34.81818181818182,
      "eval_loss": 0.0008184341131709516,
      "eval_runtime": 0.2627,
      "eval_samples_per_second": 334.967,
      "eval_steps_per_second": 41.871,
      "step": 766
    },
    {
      "epoch": 34.86363636363637,
      "grad_norm": 0.0140585508197546,
      "learning_rate": 1.5789473684210527e-07,
      "loss": 0.0014,
      "step": 767
    },
    {
      "epoch": 34.86363636363637,
      "eval_loss": 0.0008184110629372299,
      "eval_runtime": 0.2624,
      "eval_samples_per_second": 335.359,
      "eval_steps_per_second": 41.92,
      "step": 767
    },
    {
      "epoch": 34.90909090909091,
      "grad_norm": 0.0137332146987319,
      "learning_rate": 1.1842105263157895e-07,
      "loss": 0.0013,
      "step": 768
    },
    {
      "epoch": 34.90909090909091,
      "eval_loss": 0.000818394822999835,
      "eval_runtime": 0.3455,
      "eval_samples_per_second": 254.714,
      "eval_steps_per_second": 31.839,
      "step": 768
    },
    {
      "epoch": 34.95454545454545,
      "grad_norm": 0.013574851676821709,
      "learning_rate": 7.894736842105264e-08,
      "loss": 0.0015,
      "step": 769
    },
    {
      "epoch": 34.95454545454545,
      "eval_loss": 0.000818385393358767,
      "eval_runtime": 0.4011,
      "eval_samples_per_second": 219.413,
      "eval_steps_per_second": 27.427,
      "step": 769
    },
    {
      "epoch": 35.0,
      "grad_norm": 0.01393211167305708,
      "learning_rate": 3.947368421052632e-08,
      "loss": 0.0014,
      "step": 770
    },
    {
      "epoch": 35.0,
      "eval_loss": 0.0008183813188225031,
      "eval_runtime": 0.2776,
      "eval_samples_per_second": 316.984,
      "eval_steps_per_second": 39.623,
      "step": 770
    }
  ],
  "logging_steps": 1,
  "max_steps": 770,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 35,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 335566894333440.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}