diff --git "a/checkpoint-770/trainer_state.json" "b/checkpoint-770/trainer_state.json"
deleted file mode 100644--- "a/checkpoint-770/trainer_state.json"
+++ /dev/null
@@ -1,11584 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 35.0,
-  "eval_steps": 1,
-  "global_step": 770,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.045454545454545456,
-      "grad_norm": 5.237588882446289,
-      "learning_rate": 0.0,
-      "loss": 2.0682,
-      "step": 1
-    },
-    {
-      "epoch": 0.045454545454545456,
-      "eval_loss": 2.063732147216797,
-      "eval_runtime": 0.2778,
-      "eval_samples_per_second": 316.813,
-      "eval_steps_per_second": 39.602,
-      "step": 1
-    },
-    {
-      "epoch": 0.09090909090909091,
-      "grad_norm": 5.7836594581604,
-      "learning_rate": 3e-06,
-      "loss": 2.0543,
-      "step": 2
-    },
-    {
-      "epoch": 0.09090909090909091,
-      "eval_loss": 2.058272123336792,
-      "eval_runtime": 0.2138,
-      "eval_samples_per_second": 411.689,
-      "eval_steps_per_second": 51.461,
-      "step": 2
-    },
-    {
-      "epoch": 0.13636363636363635,
-      "grad_norm": 4.997707366943359,
-      "learning_rate": 6e-06,
-      "loss": 2.106,
-      "step": 3
-    },
-    {
-      "epoch": 0.13636363636363635,
-      "eval_loss": 2.044473171234131,
-      "eval_runtime": 0.2229,
-      "eval_samples_per_second": 394.85,
-      "eval_steps_per_second": 49.356,
-      "step": 3
-    },
-    {
-      "epoch": 0.18181818181818182,
-      "grad_norm": 4.480862140655518,
-      "learning_rate": 9e-06,
-      "loss": 2.0133,
-      "step": 4
-    },
-    {
-      "epoch": 0.18181818181818182,
-      "eval_loss": 2.026616096496582,
-      "eval_runtime": 0.2098,
-      "eval_samples_per_second": 419.399,
-      "eval_steps_per_second": 52.425,
-      "step": 4
-    },
-    {
-      "epoch": 0.22727272727272727,
-      "grad_norm": 4.413949489593506,
-      "learning_rate": 1.2e-05,
-      "loss": 2.0339,
-      "step": 5
-    },
-    {
-      "epoch": 0.22727272727272727,
-      "eval_loss": 2.0050275325775146,
-      "eval_runtime": 0.2083,
-      "eval_samples_per_second": 422.489,
-      "eval_steps_per_second": 52.811,
-      "step": 5
-    },
-    {
-      "epoch": 0.2727272727272727,
-      "grad_norm": 3.8636281490325928,
-      "learning_rate": 1.5e-05,
-      "loss": 1.9456,
-      "step": 6
-    },
-    {
-      "epoch": 0.2727272727272727,
-      "eval_loss": 1.978696346282959,
-      "eval_runtime": 0.2234,
-      "eval_samples_per_second": 393.959,
-      "eval_steps_per_second": 49.245,
-      "step": 6
-    },
-    {
-      "epoch": 0.3181818181818182,
-      "grad_norm": 5.352145671844482,
-      "learning_rate": 1.8e-05,
-      "loss": 2.0702,
-      "step": 7
-    },
-    {
-      "epoch": 0.3181818181818182,
-      "eval_loss": 1.9451583623886108,
-      "eval_runtime": 0.2365,
-      "eval_samples_per_second": 372.165,
-      "eval_steps_per_second": 46.521,
-      "step": 7
-    },
-    {
-      "epoch": 0.36363636363636365,
-      "grad_norm": 6.098653316497803,
-      "learning_rate": 2.1e-05,
-      "loss": 1.9057,
-      "step": 8
-    },
-    {
-      "epoch": 0.36363636363636365,
-      "eval_loss": 1.908401608467102,
-      "eval_runtime": 0.2109,
-      "eval_samples_per_second": 417.279,
-      "eval_steps_per_second": 52.16,
-      "step": 8
-    },
-    {
-      "epoch": 0.4090909090909091,
-      "grad_norm": 4.3218302726745605,
-      "learning_rate": 2.4e-05,
-      "loss": 2.0159,
-      "step": 9
-    },
-    {
-      "epoch": 0.4090909090909091,
-      "eval_loss": 1.860684871673584,
-      "eval_runtime": 0.2261,
-      "eval_samples_per_second": 389.203,
-      "eval_steps_per_second": 48.65,
-      "step": 9
-    },
-    {
-      "epoch": 0.45454545454545453,
-      "grad_norm": 4.778627395629883,
-      "learning_rate": 2.7000000000000002e-05,
-      "loss": 1.8808,
-      "step": 10
-    },
-    {
-      "epoch": 0.45454545454545453,
-      "eval_loss": 1.793589472770691,
-      "eval_runtime": 0.2922,
-      "eval_samples_per_second": 301.187,
-      "eval_steps_per_second": 37.648,
-      "step": 10
-    },
-    {
-      "epoch": 0.5,
-      "grad_norm": 5.957038879394531,
-      "learning_rate": 3e-05,
-      "loss": 1.896,
-      "step": 11
-    },
-    {
-      "epoch": 0.5,
-      "eval_loss": 1.7104023694992065,
-      "eval_runtime": 0.3181,
-      "eval_samples_per_second": 276.671,
-      "eval_steps_per_second": 34.584,
-      "step": 11
-    },
-    {
-      "epoch": 0.5454545454545454,
-      "grad_norm": 6.62753963470459,
-      "learning_rate": 2.9960526315789475e-05,
-      "loss": 1.7627,
-      "step": 12
-    },
-    {
-      "epoch": 0.5454545454545454,
-      "eval_loss": 1.6353049278259277,
-      "eval_runtime": 0.4101,
-      "eval_samples_per_second": 214.57,
-      "eval_steps_per_second": 26.821,
-      "step": 12
-    },
-    {
-      "epoch": 0.5909090909090909,
-      "grad_norm": 5.637991905212402,
-      "learning_rate": 2.992105263157895e-05,
-      "loss": 1.6927,
-      "step": 13
-    },
-    {
-      "epoch": 0.5909090909090909,
-      "eval_loss": 1.5653632879257202,
-      "eval_runtime": 0.3772,
-      "eval_samples_per_second": 233.322,
-      "eval_steps_per_second": 29.165,
-      "step": 13
-    },
-    {
-      "epoch": 0.6363636363636364,
-      "grad_norm": 7.619434356689453,
-      "learning_rate": 2.9881578947368423e-05,
-      "loss": 1.5805,
-      "step": 14
-    },
-    {
-      "epoch": 0.6363636363636364,
-      "eval_loss": 1.4975870847702026,
-      "eval_runtime": 0.2484,
-      "eval_samples_per_second": 354.217,
-      "eval_steps_per_second": 44.277,
-      "step": 14
-    },
-    {
-      "epoch": 0.6818181818181818,
-      "grad_norm": 8.660569190979004,
-      "learning_rate": 2.9842105263157894e-05,
-      "loss": 1.5803,
-      "step": 15
-    },
-    {
-      "epoch": 0.6818181818181818,
-      "eval_loss": 1.4246007204055786,
-      "eval_runtime": 0.3233,
-      "eval_samples_per_second": 272.164,
-      "eval_steps_per_second": 34.02,
-      "step": 15
-    },
-    {
-      "epoch": 0.7272727272727273,
-      "grad_norm": 6.809484481811523,
-      "learning_rate": 2.980263157894737e-05,
-      "loss": 1.4897,
-      "step": 16
-    },
-    {
-      "epoch": 0.7272727272727273,
-      "eval_loss": 1.3582329750061035,
-      "eval_runtime": 0.2729,
-      "eval_samples_per_second": 322.483,
-      "eval_steps_per_second": 40.31,
-      "step": 16
-    },
-    {
-      "epoch": 0.7727272727272727,
-      "grad_norm": 7.0124711990356445,
-      "learning_rate": 2.9763157894736842e-05,
-      "loss": 1.3831,
-      "step": 17
-    },
-    {
-      "epoch": 0.7727272727272727,
-      "eval_loss": 1.2863445281982422,
-      "eval_runtime": 0.2734,
-      "eval_samples_per_second": 321.916,
-      "eval_steps_per_second": 40.24,
-      "step": 17
-    },
-    {
-      "epoch": 0.8181818181818182,
-      "grad_norm": 6.749629974365234,
-      "learning_rate": 2.9723684210526316e-05,
-      "loss": 1.2616,
-      "step": 18
-    },
-    {
-      "epoch": 0.8181818181818182,
-      "eval_loss": 1.1985043287277222,
-      "eval_runtime": 0.2953,
-      "eval_samples_per_second": 297.968,
-      "eval_steps_per_second": 37.246,
-      "step": 18
-    },
-    {
-      "epoch": 0.8636363636363636,
-      "grad_norm": 8.935945510864258,
-      "learning_rate": 2.968421052631579e-05,
-      "loss": 1.2058,
-      "step": 19
-    },
-    {
-      "epoch": 0.8636363636363636,
-      "eval_loss": 1.1089844703674316,
-      "eval_runtime": 0.3886,
-      "eval_samples_per_second": 226.48,
-      "eval_steps_per_second": 28.31,
-      "step": 19
-    },
-    {
-      "epoch": 0.9090909090909091,
-      "grad_norm": 5.048995018005371,
-      "learning_rate": 2.9644736842105265e-05,
-      "loss": 1.1399,
-      "step": 20
-    },
-    {
-      "epoch": 0.9090909090909091,
-      "eval_loss": 1.0176739692687988,
-      "eval_runtime": 0.2913,
-      "eval_samples_per_second": 302.091,
-      "eval_steps_per_second": 37.761,
-      "step": 20
-    },
-    {
-      "epoch": 0.9545454545454546,
-      "grad_norm": 6.563332557678223,
-      "learning_rate": 2.9605263157894735e-05,
-      "loss": 0.9906,
-      "step": 21
-    },
-    {
-      "epoch": 0.9545454545454546,
-      "eval_loss": 0.930864155292511,
-      "eval_runtime": 0.2425,
-      "eval_samples_per_second": 362.831,
-      "eval_steps_per_second": 45.354,
-      "step": 21
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 12.079025268554688,
-      "learning_rate": 2.9565789473684213e-05,
-      "loss": 1.0795,
-      "step": 22
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 0.8574727773666382,
-      "eval_runtime": 0.2662,
-      "eval_samples_per_second": 330.588,
-      "eval_steps_per_second": 41.323,
-      "step": 22
-    },
-    {
-      "epoch": 1.0454545454545454,
-      "grad_norm": 5.452284336090088,
-      "learning_rate": 2.9526315789473684e-05,
-      "loss": 0.8862,
-      "step": 23
-    },
-    {
-      "epoch": 1.0454545454545454,
-      "eval_loss": 0.7834421396255493,
-      "eval_runtime": 0.2559,
-      "eval_samples_per_second": 343.941,
-      "eval_steps_per_second": 42.993,
-      "step": 23
-    },
-    {
-      "epoch": 1.0909090909090908,
-      "grad_norm": 6.780595302581787,
-      "learning_rate": 2.9486842105263158e-05,
-      "loss": 0.7825,
-      "step": 24
-    },
-    {
-      "epoch": 1.0909090909090908,
-      "eval_loss": 0.7133036255836487,
-      "eval_runtime": 0.4064,
-      "eval_samples_per_second": 216.526,
-      "eval_steps_per_second": 27.066,
-      "step": 24
-    },
-    {
-      "epoch": 1.1363636363636362,
-      "grad_norm": 6.756824016571045,
-      "learning_rate": 2.9447368421052635e-05,
-      "loss": 0.9249,
-      "step": 25
-    },
-    {
-      "epoch": 1.1363636363636362,
-      "eval_loss": 0.652009904384613,
-      "eval_runtime": 0.4122,
-      "eval_samples_per_second": 213.486,
-      "eval_steps_per_second": 26.686,
-      "step": 25
-    },
-    {
-      "epoch": 1.1818181818181819,
-      "grad_norm": 4.798681259155273,
-      "learning_rate": 2.9407894736842106e-05,
-      "loss": 0.5773,
-      "step": 26
-    },
-    {
-      "epoch": 1.1818181818181819,
-      "eval_loss": 0.6013602614402771,
-      "eval_runtime": 0.4182,
-      "eval_samples_per_second": 210.411,
-      "eval_steps_per_second": 26.301,
-      "step": 26
-    },
-    {
-      "epoch": 1.2272727272727273,
-      "grad_norm": 4.608880996704102,
-      "learning_rate": 2.936842105263158e-05,
-      "loss": 0.6573,
-      "step": 27
-    },
-    {
-      "epoch": 1.2272727272727273,
-      "eval_loss": 0.5579346418380737,
-      "eval_runtime": 0.5426,
-      "eval_samples_per_second": 162.18,
-      "eval_steps_per_second": 20.272,
-      "step": 27
-    },
-    {
-      "epoch": 1.2727272727272727,
-      "grad_norm": 4.582436561584473,
-      "learning_rate": 2.9328947368421055e-05,
-      "loss": 0.5408,
-      "step": 28
-    },
-    {
-      "epoch": 1.2727272727272727,
-      "eval_loss": 0.5213125348091125,
-      "eval_runtime": 0.274,
-      "eval_samples_per_second": 321.214,
-      "eval_steps_per_second": 40.152,
-      "step": 28
-    },
-    {
-      "epoch": 1.3181818181818181,
-      "grad_norm": 6.145488262176514,
-      "learning_rate": 2.928947368421053e-05,
-      "loss": 0.6888,
-      "step": 29
-    },
-    {
-      "epoch": 1.3181818181818181,
-      "eval_loss": 0.47387245297431946,
-      "eval_runtime": 0.2153,
-      "eval_samples_per_second": 408.668,
-      "eval_steps_per_second": 51.083,
-      "step": 29
-    },
-    {
-      "epoch": 1.3636363636363638,
-      "grad_norm": 4.611596584320068,
-      "learning_rate": 2.925e-05,
-      "loss": 0.584,
-      "step": 30
-    },
-    {
-      "epoch": 1.3636363636363638,
-      "eval_loss": 0.41591426730155945,
-      "eval_runtime": 0.2262,
-      "eval_samples_per_second": 388.952,
-      "eval_steps_per_second": 48.619,
-      "step": 30
-    },
-    {
-      "epoch": 1.4090909090909092,
-      "grad_norm": 4.470975875854492,
-      "learning_rate": 2.9210526315789474e-05,
-      "loss": 0.4962,
-      "step": 31
-    },
-    {
-      "epoch": 1.4090909090909092,
-      "eval_loss": 0.3586600720882416,
-      "eval_runtime": 0.2233,
-      "eval_samples_per_second": 394.029,
-      "eval_steps_per_second": 49.254,
-      "step": 31
-    },
-    {
-      "epoch": 1.4545454545454546,
-      "grad_norm": 3.111593008041382,
-      "learning_rate": 2.9171052631578948e-05,
-      "loss": 0.3594,
-      "step": 32
-    },
-    {
-      "epoch": 1.4545454545454546,
-      "eval_loss": 0.3188125491142273,
-      "eval_runtime": 0.3382,
-      "eval_samples_per_second": 260.203,
-      "eval_steps_per_second": 32.525,
-      "step": 32
-    },
-    {
-      "epoch": 1.5,
-      "grad_norm": 3.246596336364746,
-      "learning_rate": 2.9131578947368422e-05,
-      "loss": 0.3643,
-      "step": 33
-    },
-    {
-      "epoch": 1.5,
-      "eval_loss": 0.2900885343551636,
-      "eval_runtime": 0.2904,
-      "eval_samples_per_second": 302.998,
-      "eval_steps_per_second": 37.875,
-      "step": 33
-    },
-    {
-      "epoch": 1.5454545454545454,
-      "grad_norm": 4.4003376960754395,
-      "learning_rate": 2.9092105263157893e-05,
-      "loss": 0.3334,
-      "step": 34
-    },
-    {
-      "epoch": 1.5454545454545454,
-      "eval_loss": 0.260213166475296,
-      "eval_runtime": 0.3641,
-      "eval_samples_per_second": 241.707,
-      "eval_steps_per_second": 30.213,
-      "step": 34
-    },
-    {
-      "epoch": 1.5909090909090908,
-      "grad_norm": 5.7509236335754395,
-      "learning_rate": 2.905263157894737e-05,
-      "loss": 0.3754,
-      "step": 35
-    },
-    {
-      "epoch": 1.5909090909090908,
-      "eval_loss": 0.2297886312007904,
-      "eval_runtime": 0.3003,
-      "eval_samples_per_second": 293.032,
-      "eval_steps_per_second": 36.629,
-      "step": 35
-    },
-    {
-      "epoch": 1.6363636363636362,
-      "grad_norm": 3.7421319484710693,
-      "learning_rate": 2.901315789473684e-05,
-      "loss": 0.3108,
-      "step": 36
-    },
-    {
-      "epoch": 1.6363636363636362,
-      "eval_loss": 0.21363353729248047,
-      "eval_runtime": 0.4783,
-      "eval_samples_per_second": 183.979,
-      "eval_steps_per_second": 22.997,
-      "step": 36
-    },
-    {
-      "epoch": 1.6818181818181817,
-      "grad_norm": 3.7049357891082764,
-      "learning_rate": 2.8973684210526315e-05,
-      "loss": 0.2933,
-      "step": 37
-    },
-    {
-      "epoch": 1.6818181818181817,
-      "eval_loss": 0.20323915779590607,
-      "eval_runtime": 0.25,
-      "eval_samples_per_second": 351.979,
-      "eval_steps_per_second": 43.997,
-      "step": 37
-    },
-    {
-      "epoch": 1.7272727272727273,
-      "grad_norm": 2.6143414974212646,
-      "learning_rate": 2.893421052631579e-05,
-      "loss": 0.2208,
-      "step": 38
-    },
-    {
-      "epoch": 1.7272727272727273,
-      "eval_loss": 0.19065451622009277,
-      "eval_runtime": 0.284,
-      "eval_samples_per_second": 309.864,
-      "eval_steps_per_second": 38.733,
-      "step": 38
-    },
-    {
-      "epoch": 1.7727272727272727,
-      "grad_norm": 3.0895273685455322,
-      "learning_rate": 2.8894736842105263e-05,
-      "loss": 0.2448,
-      "step": 39
-    },
-    {
-      "epoch": 1.7727272727272727,
-      "eval_loss": 0.17271381616592407,
-      "eval_runtime": 0.3543,
-      "eval_samples_per_second": 248.403,
-      "eval_steps_per_second": 31.05,
-      "step": 39
-    },
-    {
-      "epoch": 1.8181818181818183,
-      "grad_norm": 1.7658973932266235,
-      "learning_rate": 2.8855263157894738e-05,
-      "loss": 0.1742,
-      "step": 40
-    },
-    {
-      "epoch": 1.8181818181818183,
-      "eval_loss": 0.152969092130661,
-      "eval_runtime": 0.2714,
-      "eval_samples_per_second": 324.231,
-      "eval_steps_per_second": 40.529,
-      "step": 40
-    },
-    {
-      "epoch": 1.8636363636363638,
-      "grad_norm": 1.7428200244903564,
-      "learning_rate": 2.8815789473684212e-05,
-      "loss": 0.1717,
-      "step": 41
-    },
-    {
-      "epoch": 1.8636363636363638,
-      "eval_loss": 0.13160385191440582,
-      "eval_runtime": 0.2485,
-      "eval_samples_per_second": 354.091,
-      "eval_steps_per_second": 44.261,
-      "step": 41
-    },
-    {
-      "epoch": 1.9090909090909092,
-      "grad_norm": 1.9848284721374512,
-      "learning_rate": 2.8776315789473686e-05,
-      "loss": 0.1487,
-      "step": 42
-    },
-    {
-      "epoch": 1.9090909090909092,
-      "eval_loss": 0.11496426910161972,
-      "eval_runtime": 0.2812,
-      "eval_samples_per_second": 312.902,
-      "eval_steps_per_second": 39.113,
-      "step": 42
-    },
-    {
-      "epoch": 1.9545454545454546,
-      "grad_norm": 1.8623422384262085,
-      "learning_rate": 2.8736842105263157e-05,
-      "loss": 0.1671,
-      "step": 43
-    },
-    {
-      "epoch": 1.9545454545454546,
-      "eval_loss": 0.10060829669237137,
-      "eval_runtime": 0.531,
-      "eval_samples_per_second": 165.721,
-      "eval_steps_per_second": 20.715,
-      "step": 43
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 1.254258632659912,
-      "learning_rate": 2.8697368421052634e-05,
-      "loss": 0.1296,
-      "step": 44
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.09032303839921951,
-      "eval_runtime": 0.4212,
-      "eval_samples_per_second": 208.91,
-      "eval_steps_per_second": 26.114,
-      "step": 44
-    },
-    {
-      "epoch": 2.0454545454545454,
-      "grad_norm": 1.7023710012435913,
-      "learning_rate": 2.8657894736842105e-05,
-      "loss": 0.1269,
-      "step": 45
-    },
-    {
-      "epoch": 2.0454545454545454,
-      "eval_loss": 0.08172891288995743,
-      "eval_runtime": 0.3434,
-      "eval_samples_per_second": 256.286,
-      "eval_steps_per_second": 32.036,
-      "step": 45
-    },
-    {
-      "epoch": 2.090909090909091,
-      "grad_norm": 1.1132336854934692,
-      "learning_rate": 2.861842105263158e-05,
-      "loss": 0.1087,
-      "step": 46
-    },
-    {
-      "epoch": 2.090909090909091,
-      "eval_loss": 0.07363786548376083,
-      "eval_runtime": 0.2227,
-      "eval_samples_per_second": 395.148,
-      "eval_steps_per_second": 49.393,
-      "step": 46
-    },
-    {
-      "epoch": 2.1363636363636362,
-      "grad_norm": 1.2574397325515747,
-      "learning_rate": 2.8578947368421053e-05,
-      "loss": 0.1007,
-      "step": 47
-    },
-    {
-      "epoch": 2.1363636363636362,
-      "eval_loss": 0.0676058903336525,
-      "eval_runtime": 0.2162,
-      "eval_samples_per_second": 406.971,
-      "eval_steps_per_second": 50.871,
-      "step": 47
-    },
-    {
-      "epoch": 2.1818181818181817,
-      "grad_norm": 1.1193581819534302,
-      "learning_rate": 2.8539473684210527e-05,
-      "loss": 0.0932,
-      "step": 48
-    },
-    {
-      "epoch": 2.1818181818181817,
-      "eval_loss": 0.060314346104860306,
-      "eval_runtime": 0.2456,
-      "eval_samples_per_second": 358.319,
-      "eval_steps_per_second": 44.79,
-      "step": 48
-    },
-    {
-      "epoch": 2.227272727272727,
-      "grad_norm": 1.1668117046356201,
-      "learning_rate": 2.8499999999999998e-05,
-      "loss": 0.0885,
-      "step": 49
-    },
-    {
-      "epoch": 2.227272727272727,
-      "eval_loss": 0.05352572351694107,
-      "eval_runtime": 0.2143,
-      "eval_samples_per_second": 410.66,
-      "eval_steps_per_second": 51.333,
-      "step": 49
-    },
-    {
-      "epoch": 2.2727272727272725,
-      "grad_norm": 0.9329622387886047,
-      "learning_rate": 2.8460526315789476e-05,
-      "loss": 0.0768,
-      "step": 50
-    },
-    {
-      "epoch": 2.2727272727272725,
-      "eval_loss": 0.049994777888059616,
-      "eval_runtime": 0.2184,
-      "eval_samples_per_second": 402.932,
-      "eval_steps_per_second": 50.367,
-      "step": 50
-    },
-    {
-      "epoch": 2.3181818181818183,
-      "grad_norm": 1.4205875396728516,
-      "learning_rate": 2.8421052631578946e-05,
-      "loss": 0.0871,
-      "step": 51
-    },
-    {
-      "epoch": 2.3181818181818183,
-      "eval_loss": 0.046269264072179794,
-      "eval_runtime": 0.2199,
-      "eval_samples_per_second": 400.111,
-      "eval_steps_per_second": 50.014,
-      "step": 51
-    },
-    {
-      "epoch": 2.3636363636363638,
-      "grad_norm": 0.6296802163124084,
-      "learning_rate": 2.838157894736842e-05,
-      "loss": 0.0597,
-      "step": 52
-    },
-    {
-      "epoch": 2.3636363636363638,
-      "eval_loss": 0.04288846254348755,
-      "eval_runtime": 0.2154,
-      "eval_samples_per_second": 408.528,
-      "eval_steps_per_second": 51.066,
-      "step": 52
-    },
-    {
-      "epoch": 2.409090909090909,
-      "grad_norm": 0.8016664981842041,
-      "learning_rate": 2.8342105263157898e-05,
-      "loss": 0.0573,
-      "step": 53
-    },
-    {
-      "epoch": 2.409090909090909,
-      "eval_loss": 0.03866353631019592,
-      "eval_runtime": 0.2104,
-      "eval_samples_per_second": 418.258,
-      "eval_steps_per_second": 52.282,
-      "step": 53
-    },
-    {
-      "epoch": 2.4545454545454546,
-      "grad_norm": 0.5186643600463867,
-      "learning_rate": 2.830263157894737e-05,
-      "loss": 0.0533,
-      "step": 54
-    },
-    {
-      "epoch": 2.4545454545454546,
-      "eval_loss": 0.03540382906794548,
-      "eval_runtime": 0.2148,
-      "eval_samples_per_second": 409.705,
-      "eval_steps_per_second": 51.213,
-      "step": 54
-    },
-    {
-      "epoch": 2.5,
-      "grad_norm": 0.616000771522522,
-      "learning_rate": 2.8263157894736843e-05,
-      "loss": 0.0543,
-      "step": 55
-    },
-    {
-      "epoch": 2.5,
-      "eval_loss": 0.03242316469550133,
-      "eval_runtime": 0.2116,
-      "eval_samples_per_second": 415.828,
-      "eval_steps_per_second": 51.979,
-      "step": 55
-    },
-    {
-      "epoch": 2.5454545454545454,
-      "grad_norm": 0.6781826615333557,
-      "learning_rate": 2.8223684210526317e-05,
-      "loss": 0.0527,
-      "step": 56
-    },
-    {
-      "epoch": 2.5454545454545454,
-      "eval_loss": 0.029892653226852417,
-      "eval_runtime": 0.2231,
-      "eval_samples_per_second": 394.465,
-      "eval_steps_per_second": 49.308,
-      "step": 56
-    },
-    {
-      "epoch": 2.590909090909091,
-      "grad_norm": 0.40553542971611023,
-      "learning_rate": 2.818421052631579e-05,
-      "loss": 0.043,
-      "step": 57
-    },
-    {
-      "epoch": 2.590909090909091,
-      "eval_loss": 0.02773384563624859,
-      "eval_runtime": 0.212,
-      "eval_samples_per_second": 415.108,
-      "eval_steps_per_second": 51.889,
-      "step": 57
-    },
-    {
-      "epoch": 2.6363636363636362,
-      "grad_norm": 0.46068763732910156,
-      "learning_rate": 2.8144736842105262e-05,
-      "loss": 0.0408,
-      "step": 58
-    },
-    {
-      "epoch": 2.6363636363636362,
-      "eval_loss": 0.025741351768374443,
-      "eval_runtime": 0.2177,
-      "eval_samples_per_second": 404.269,
-      "eval_steps_per_second": 50.534,
-      "step": 58
-    },
-    {
-      "epoch": 2.6818181818181817,
-      "grad_norm": 0.42782941460609436,
-      "learning_rate": 2.810526315789474e-05,
-      "loss": 0.0404,
-      "step": 59
-    },
-    {
-      "epoch": 2.6818181818181817,
-      "eval_loss": 0.023805884644389153,
-      "eval_runtime": 0.2164,
-      "eval_samples_per_second": 406.611,
-      "eval_steps_per_second": 50.826,
-      "step": 59
-    },
-    {
-      "epoch": 2.7272727272727275,
-      "grad_norm": 0.3100360035896301,
-      "learning_rate": 2.806578947368421e-05,
-      "loss": 0.0348,
-      "step": 60
-    },
-    {
-      "epoch": 2.7272727272727275,
-      "eval_loss": 0.022079171612858772,
-      "eval_runtime": 0.2121,
-      "eval_samples_per_second": 414.803,
-      "eval_steps_per_second": 51.85,
-      "step": 60
-    },
-    {
-      "epoch": 2.7727272727272725,
-      "grad_norm": 0.3292113244533539,
-      "learning_rate": 2.8026315789473685e-05,
-      "loss": 0.0331,
-      "step": 61
-    },
-    {
-      "epoch": 2.7727272727272725,
-      "eval_loss": 0.020567093044519424,
-      "eval_runtime": 0.2183,
-      "eval_samples_per_second": 403.093,
-      "eval_steps_per_second": 50.387,
-      "step": 61
-    },
-    {
-      "epoch": 2.8181818181818183,
-      "grad_norm": 0.4177182912826538,
-      "learning_rate": 2.798684210526316e-05,
-      "loss": 0.0323,
-      "step": 62
-    },
-    {
-      "epoch": 2.8181818181818183,
-      "eval_loss": 0.019224492833018303,
-      "eval_runtime": 0.2119,
-      "eval_samples_per_second": 415.211,
-      "eval_steps_per_second": 51.901,
-      "step": 62
-    },
-    {
-      "epoch": 2.8636363636363638,
-      "grad_norm": 0.23254263401031494,
-      "learning_rate": 2.7947368421052633e-05,
-      "loss": 0.0252,
-      "step": 63
-    },
-    {
-      "epoch": 2.8636363636363638,
-      "eval_loss": 0.01814187504351139,
-      "eval_runtime": 0.2203,
-      "eval_samples_per_second": 399.469,
-      "eval_steps_per_second": 49.934,
-      "step": 63
-    },
-    {
-      "epoch": 2.909090909090909,
-      "grad_norm": 0.38803598284721375,
-      "learning_rate": 2.7907894736842104e-05,
-      "loss": 0.031,
-      "step": 64
-    },
-    {
-      "epoch": 2.909090909090909,
-      "eval_loss": 0.01718403585255146,
-      "eval_runtime": 0.2179,
-      "eval_samples_per_second": 403.933,
-      "eval_steps_per_second": 50.492,
-      "step": 64
-    },
-    {
-      "epoch": 2.9545454545454546,
-      "grad_norm": 0.33151182532310486,
-      "learning_rate": 2.786842105263158e-05,
-      "loss": 0.03,
-      "step": 65
-    },
-    {
-      "epoch": 2.9545454545454546,
-      "eval_loss": 0.016221443191170692,
-      "eval_runtime": 0.2114,
-      "eval_samples_per_second": 416.237,
-      "eval_steps_per_second": 52.03,
-      "step": 65
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 0.25049498677253723,
-      "learning_rate": 2.7828947368421055e-05,
-      "loss": 0.0244,
-      "step": 66
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.015314313583076,
-      "eval_runtime": 0.2173,
-      "eval_samples_per_second": 404.944,
-      "eval_steps_per_second": 50.618,
-      "step": 66
-    },
-    {
-      "epoch": 3.0454545454545454,
-      "grad_norm": 0.2723033130168915,
-      "learning_rate": 2.7789473684210526e-05,
-      "loss": 0.0235,
-      "step": 67
-    },
-    {
-      "epoch": 3.0454545454545454,
-      "eval_loss": 0.014571275562047958,
-      "eval_runtime": 0.2218,
-      "eval_samples_per_second": 396.808,
-      "eval_steps_per_second": 49.601,
-      "step": 67
-    },
-    {
-      "epoch": 3.090909090909091,
-      "grad_norm": 0.20975647866725922,
-      "learning_rate": 2.7750000000000004e-05,
-      "loss": 0.0222,
-      "step": 68
-    },
-    {
-      "epoch": 3.090909090909091,
-      "eval_loss": 0.013959475792944431,
-      "eval_runtime": 0.2232,
-      "eval_samples_per_second": 394.228,
-      "eval_steps_per_second": 49.279,
-      "step": 68
-    },
-    {
-      "epoch": 3.1363636363636362,
-      "grad_norm": 0.2025345116853714,
-      "learning_rate": 2.7710526315789474e-05,
-      "loss": 0.0228,
-      "step": 69
-    },
-    {
-      "epoch": 3.1363636363636362,
-      "eval_loss": 0.013426948338747025,
-      "eval_runtime": 0.2201,
-      "eval_samples_per_second": 399.844,
-      "eval_steps_per_second": 49.981,
-      "step": 69
-    },
-    {
-      "epoch": 3.1818181818181817,
-      "grad_norm": 0.2033005654811859,
-      "learning_rate": 2.767105263157895e-05,
-      "loss": 0.0209,
-      "step": 70
-    },
-    {
-      "epoch": 3.1818181818181817,
-      "eval_loss": 0.012989457696676254,
-      "eval_runtime": 0.2125,
-      "eval_samples_per_second": 414.107,
-      "eval_steps_per_second": 51.763,
-      "step": 70
-    },
-    {
-      "epoch": 3.227272727272727,
-      "grad_norm": 0.18534056842327118,
-      "learning_rate": 2.7631578947368423e-05,
-      "loss": 0.0199,
-      "step": 71
-    },
-    {
-      "epoch": 3.227272727272727,
-      "eval_loss": 0.012577124871313572,
-      "eval_runtime": 0.2145,
-      "eval_samples_per_second": 410.253,
-      "eval_steps_per_second": 51.282,
-      "step": 71
-    },
-    {
-      "epoch": 3.2727272727272725,
-      "grad_norm": 0.16536517441272736,
-      "learning_rate": 2.7592105263157897e-05,
-      "loss": 0.017,
-      "step": 72
-    },
-    {
-      "epoch": 3.2727272727272725,
-      "eval_loss": 0.012171071022748947,
-      "eval_runtime": 0.225,
-      "eval_samples_per_second": 391.108,
-      "eval_steps_per_second": 48.888,
-      "step": 72
-    },
-    {
-      "epoch": 3.3181818181818183,
-      "grad_norm": 0.14233346283435822,
-      "learning_rate": 2.7552631578947368e-05,
-      "loss": 0.0173,
-      "step": 73
-    },
-    {
-      "epoch": 3.3181818181818183,
-      "eval_loss": 0.011801562272012234,
-      "eval_runtime": 0.2206,
-      "eval_samples_per_second": 398.895,
-      "eval_steps_per_second": 49.862,
-      "step": 73
-    },
-    {
-      "epoch": 3.3636363636363638,
-      "grad_norm": 0.18418766558170319,
-      "learning_rate": 2.7513157894736842e-05,
-      "loss": 0.0193,
-      "step": 74
-    },
-    {
-      "epoch": 3.3636363636363638,
-      "eval_loss": 0.01138223335146904,
-      "eval_runtime": 0.2269,
-      "eval_samples_per_second": 387.873,
-      "eval_steps_per_second": 48.484,
-      "step": 74
-    },
-    {
-      "epoch": 3.409090909090909,
-      "grad_norm": 0.1584126502275467,
-      "learning_rate": 2.7473684210526316e-05,
-      "loss": 0.0174,
-      "step": 75
-    },
-    {
-      "epoch": 3.409090909090909,
-      "eval_loss": 0.010961382649838924,
-      "eval_runtime": 0.2368,
-      "eval_samples_per_second": 371.65,
-      "eval_steps_per_second": 46.456,
-      "step": 75
-    },
-    {
-      "epoch": 3.4545454545454546,
-      "grad_norm": 0.15311338007450104,
-      "learning_rate": 2.743421052631579e-05,
-      "loss": 0.0152,
-      "step": 76
-    },
-    {
-      "epoch": 3.4545454545454546,
-      "eval_loss": 0.01055182795971632,
-      "eval_runtime": 0.2222,
-      "eval_samples_per_second": 396.112,
-      "eval_steps_per_second": 49.514,
-      "step": 76
-    },
-    {
-      "epoch": 3.5,
-      "grad_norm": 0.1895849108695984,
-      "learning_rate": 2.739473684210526e-05,
-      "loss": 0.0185,
-      "step": 77
-    },
-    {
-      "epoch": 3.5,
-      "eval_loss": 0.01013518963009119,
-      "eval_runtime": 0.2228,
-      "eval_samples_per_second": 394.993,
-      "eval_steps_per_second": 49.374,
-      "step": 77
-    },
-    {
-      "epoch": 3.5454545454545454,
-      "grad_norm": 0.1422702521085739,
-      "learning_rate": 2.735526315789474e-05,
-      "loss": 0.0163,
-      "step": 78
-    },
-    {
-      "epoch": 3.5454545454545454,
-      "eval_loss": 0.009774941019713879,
-      "eval_runtime": 0.2328,
-      "eval_samples_per_second": 378.047,
-      "eval_steps_per_second": 47.256,
-      "step": 78
-    },
-    {
-      "epoch": 3.590909090909091,
-      "grad_norm": 0.15089201927185059,
-      "learning_rate": 2.7315789473684213e-05,
-      "loss": 0.0162,
-      "step": 79
-    },
-    {
-      "epoch": 3.590909090909091,
-      "eval_loss": 0.009458563290536404,
-      "eval_runtime": 0.2335,
-      "eval_samples_per_second": 376.887,
-      "eval_steps_per_second": 47.111,
-      "step": 79
-    },
-    {
-      "epoch": 3.6363636363636362,
-      "grad_norm": 0.16338452696800232,
-      "learning_rate": 2.7276315789473683e-05,
-      "loss": 0.015,
-      "step": 80
-    },
-    {
-      "epoch": 3.6363636363636362,
-      "eval_loss": 0.00917022954672575,
-      "eval_runtime": 0.2355,
-      "eval_samples_per_second": 373.621,
-      "eval_steps_per_second": 46.703,
-      "step": 80
-    },
-    {
-      "epoch": 3.6818181818181817,
-      "grad_norm": 0.14390893280506134,
-      "learning_rate": 2.723684210526316e-05,
-      "loss": 0.0148,
-      "step": 81
-    },
-    {
-      "epoch": 3.6818181818181817,
-      "eval_loss": 0.00891400221735239,
-      "eval_runtime": 0.2182,
-      "eval_samples_per_second": 403.39,
-      "eval_steps_per_second": 50.424,
-      "step": 81
-    },
-    {
-      "epoch": 3.7272727272727275,
-      "grad_norm": 0.23557034134864807,
-      "learning_rate": 2.719736842105263e-05,
-      "loss": 0.0173,
-      "step": 82
-    },
-    {
-      "epoch": 3.7272727272727275,
-      "eval_loss": 0.008688293397426605,
-      "eval_runtime": 0.2236,
-      "eval_samples_per_second": 393.639,
-      "eval_steps_per_second": 49.205,
-      "step": 82
-    },
-    {
-      "epoch": 3.7727272727272725,
-      "grad_norm": 0.12254065275192261,
-      "learning_rate": 2.7157894736842106e-05,
-      "loss": 0.0133,
-      "step": 83
-    },
-    {
-      "epoch": 3.7727272727272725,
-      "eval_loss": 0.008477870374917984,
-      "eval_runtime": 0.2215,
-      "eval_samples_per_second": 397.361,
-      "eval_steps_per_second": 49.67,
-      "step": 83
-    },
-    {
-      "epoch": 3.8181818181818183,
-      "grad_norm": 0.10980476438999176,
-      "learning_rate": 2.711842105263158e-05,
-      "loss": 0.0128,
-      "step": 84
-    },
-    {
-      "epoch": 3.8181818181818183,
-      "eval_loss": 0.00827844813466072,
-      "eval_runtime": 0.2234,
-      "eval_samples_per_second": 393.942,
-      "eval_steps_per_second": 49.243,
-      "step": 84
-    },
-    {
-      "epoch": 3.8636363636363638,
-      "grad_norm": 0.13196319341659546,
-      "learning_rate": 2.7078947368421054e-05,
-      "loss": 0.013,
-      "step": 85
-    },
-    {
-      "epoch": 3.8636363636363638,
-      "eval_loss": 0.008079243823885918,
-      "eval_runtime": 0.2221,
-      "eval_samples_per_second": 396.214,
-      "eval_steps_per_second": 49.527,
-      "step": 85
-    },
-    {
-      "epoch": 3.909090909090909,
-      "grad_norm": 0.10154274851083755,
-      "learning_rate": 2.7039473684210525e-05,
-      "loss": 0.0122,
-      "step": 86
-    },
-    {
-      "epoch": 3.909090909090909,
-      "eval_loss": 0.007896007038652897,
-      "eval_runtime": 0.224,
-      "eval_samples_per_second": 392.924,
-      "eval_steps_per_second": 49.115,
-      "step": 86
-    },
-    {
-      "epoch": 3.9545454545454546,
-      "grad_norm": 0.1324293613433838,
-      "learning_rate": 2.7000000000000002e-05,
-      "loss": 0.0126,
-      "step": 87
-    },
-    {
-      "epoch": 3.9545454545454546,
-      "eval_loss": 0.007718592882156372,
-      "eval_runtime": 0.2196,
-      "eval_samples_per_second": 400.741,
-      "eval_steps_per_second": 50.093,
-      "step": 87
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.10327129811048508,
-      "learning_rate": 2.6960526315789473e-05,
-      "loss": 0.012,
-      "step": 88
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.007555495481938124,
-      "eval_runtime": 0.2221,
-      "eval_samples_per_second": 396.243,
-      "eval_steps_per_second": 49.53,
-      "step": 88
-    },
-    {
-      "epoch": 4.045454545454546,
-      "grad_norm": 0.09408023953437805,
-      "learning_rate": 2.6921052631578947e-05,
-      "loss": 0.0115,
-      "step": 89
-    },
-    {
-      "epoch": 4.045454545454546,
-      "eval_loss": 0.0074074105359613895,
-      "eval_runtime": 0.2205,
-      "eval_samples_per_second": 399.137,
-      "eval_steps_per_second": 49.892,
-      "step": 89
-    },
-    {
-      "epoch": 4.090909090909091,
-      "grad_norm": 0.09438669681549072,
-      "learning_rate": 2.688157894736842e-05,
-      "loss": 0.0117,
-      "step": 90
-    },
-    {
-      "epoch": 4.090909090909091,
-      "eval_loss": 0.007270295638591051,
-      "eval_runtime": 0.2207,
-      "eval_samples_per_second": 398.716,
-      "eval_steps_per_second": 49.839,
-      "step": 90
-    },
-    {
-      "epoch": 4.136363636363637,
-      "grad_norm": 0.10392805188894272,
-      "learning_rate": 2.6842105263157896e-05,
-      "loss": 0.0121,
-      "step": 91
-    },
-    {
-      "epoch": 4.136363636363637,
-      "eval_loss": 0.007134940009564161,
-      "eval_runtime": 0.2226,
-      "eval_samples_per_second": 395.399,
-      "eval_steps_per_second": 49.425,
-      "step": 91
-    },
-    {
-      "epoch": 4.181818181818182,
-      "grad_norm": 0.09916353225708008,
-      "learning_rate": 2.6802631578947366e-05,
-      "loss": 0.0111,
-      "step": 92
-    },
-    {
-      "epoch": 4.181818181818182,
-      "eval_loss": 0.007011328358203173,
-      "eval_runtime": 0.2218,
-      "eval_samples_per_second": 396.679,
-      "eval_steps_per_second": 49.585,
-      "step": 92
-    },
-    {
-      "epoch": 4.2272727272727275,
-      "grad_norm": 0.11726672202348709,
-      "learning_rate": 2.6763157894736844e-05,
-      "loss": 0.0128,
-      "step": 93
-    },
-    {
-      "epoch": 4.2272727272727275,
-      "eval_loss": 0.006890672724694014,
-      "eval_runtime": 0.2242,
-      "eval_samples_per_second": 392.462,
-      "eval_steps_per_second": 49.058,
-      "step": 93
-    },
-    {
-      "epoch": 4.2727272727272725,
-      "grad_norm": 0.10044334828853607,
-      "learning_rate": 2.6723684210526318e-05,
-      "loss": 0.0115,
-      "step": 94
-    },
-    {
-      "epoch": 4.2727272727272725,
-      "eval_loss": 0.006776686292141676,
-      "eval_runtime": 0.2201,
-      "eval_samples_per_second": 399.833,
-      "eval_steps_per_second": 49.979,
-      "step": 94
-    },
-    {
-      "epoch": 4.318181818181818,
-      "grad_norm": 0.09276948869228363,
-      "learning_rate": 2.668421052631579e-05,
-      "loss": 0.011,
-      "step": 95
-    },
-    {
-      "epoch": 4.318181818181818,
-      "eval_loss": 0.00667022867128253,
-      "eval_runtime": 0.2225,
-      "eval_samples_per_second": 395.502,
-      "eval_steps_per_second": 49.438,
-      "step": 95
-    },
-    {
-      "epoch": 4.363636363636363,
-      "grad_norm": 0.09718704223632812,
-      "learning_rate": 2.6644736842105266e-05,
-      "loss": 0.0113,
-      "step": 96
-    },
-    {
-      "epoch": 4.363636363636363,
-      "eval_loss": 0.006560015957802534,
-      "eval_runtime": 0.2172,
-      "eval_samples_per_second": 405.161,
-      "eval_steps_per_second": 50.645,
-      "step": 96
-    },
-    {
-      "epoch": 4.409090909090909,
-      "grad_norm": 0.11359906196594238,
-      "learning_rate": 2.6605263157894737e-05,
-      "loss": 0.0105,
-      "step": 97
-    },
-    {
-      "epoch": 4.409090909090909,
-      "eval_loss": 0.0064485338516533375,
-      "eval_runtime": 0.221,
-      "eval_samples_per_second": 398.174,
-      "eval_steps_per_second": 49.772,
-      "step": 97
-    },
-    {
-      "epoch": 4.454545454545454,
-      "grad_norm": 0.0942469909787178,
-      "learning_rate": 2.656578947368421e-05,
-      "loss": 0.0104,
-      "step": 98
-    },
-    {
-      "epoch": 4.454545454545454,
-      "eval_loss": 0.00633326917886734,
-      "eval_runtime": 0.2241,
-      "eval_samples_per_second": 392.749,
-      "eval_steps_per_second": 49.094,
-      "step": 98
-    },
-    {
-      "epoch": 4.5,
-      "grad_norm": 0.08770338445901871,
-      "learning_rate": 2.6526315789473685e-05,
-      "loss": 0.0097,
-      "step": 99
-    },
-    {
-      "epoch": 4.5,
-      "eval_loss": 0.006226606201380491,
-      "eval_runtime": 0.221,
-      "eval_samples_per_second": 398.22,
-      "eval_steps_per_second": 49.777,
-      "step": 99
-    },
-    {
-      "epoch": 4.545454545454545,
-      "grad_norm": 0.0902254730463028,
-      "learning_rate": 2.648684210526316e-05,
-      "loss": 0.0102,
-      "step": 100
-    },
-    {
-      "epoch": 4.545454545454545,
-      "eval_loss": 0.0061218636110424995,
-      "eval_runtime": 0.2218,
-      "eval_samples_per_second": 396.725,
-      "eval_steps_per_second": 49.591,
-      "step": 100
-    },
-    {
-      "epoch": 4.590909090909091,
-      "grad_norm": 0.07302330434322357,
-      "learning_rate": 2.644736842105263e-05,
-      "loss": 0.0086,
-      "step": 101
-    },
-    {
-      "epoch": 4.590909090909091,
-      "eval_loss": 0.006022432819008827,
-      "eval_runtime": 0.2242,
-      "eval_samples_per_second": 392.497,
-      "eval_steps_per_second": 49.062,
-      "step": 101
-    },
-    {
-      "epoch": 4.636363636363637,
-      "grad_norm": 0.09044598042964935,
-      "learning_rate": 2.6407894736842108e-05,
-      "loss": 0.0098,
-      "step": 102
-    },
-    {
-      "epoch": 4.636363636363637,
-      "eval_loss": 0.005927449557930231,
-      "eval_runtime": 0.219,
-      "eval_samples_per_second": 401.867,
-      "eval_steps_per_second": 50.233,
-      "step": 102
-    },
-    {
-      "epoch": 4.681818181818182,
-      "grad_norm": 0.07847205549478531,
-      "learning_rate": 2.636842105263158e-05,
-      "loss": 0.0093,
-      "step": 103
-    },
-    {
-      "epoch": 4.681818181818182,
-      "eval_loss": 0.005836833734065294,
-      "eval_runtime": 0.2477,
-      "eval_samples_per_second": 355.291,
-      "eval_steps_per_second": 44.411,
-      "step": 103
-    },
-    {
-      "epoch": 4.7272727272727275,
-      "grad_norm": 0.09054490178823471,
-      "learning_rate": 2.6328947368421053e-05,
-      "loss": 0.0093,
-      "step": 104
-    },
-    {
-      "epoch": 4.7272727272727275,
-      "eval_loss": 0.005744776222854853,
-      "eval_runtime": 0.2237,
-      "eval_samples_per_second": 393.373,
-      "eval_steps_per_second": 49.172,
-      "step": 104
-    },
-    {
-      "epoch": 4.7727272727272725,
-      "grad_norm": 0.08056215196847916,
-      "learning_rate": 2.6289473684210527e-05,
-      "loss": 0.0095,
-      "step": 105
-    },
-    {
-      "epoch": 4.7727272727272725,
-      "eval_loss": 0.005655229557305574,
-      "eval_runtime": 0.2221,
-      "eval_samples_per_second": 396.284,
-      "eval_steps_per_second": 49.535,
-      "step": 105
-    },
-    {
-      "epoch": 4.818181818181818,
-      "grad_norm": 0.07413677871227264,
-      "learning_rate": 2.625e-05,
-      "loss": 0.0095,
-      "step": 106
-    },
-    {
-      "epoch": 4.818181818181818,
-      "eval_loss": 0.005573854316025972,
-      "eval_runtime": 0.2219,
-      "eval_samples_per_second": 396.499,
-      "eval_steps_per_second": 49.562,
-      "step": 106
-    },
-    {
-      "epoch": 4.863636363636363,
-      "grad_norm": 0.09156908839941025,
-      "learning_rate": 2.6210526315789475e-05,
-      "loss": 0.0094,
-      "step": 107
-    },
-    {
-      "epoch": 4.863636363636363,
-      "eval_loss": 0.005500171799212694,
-      "eval_runtime": 0.218,
-      "eval_samples_per_second": 403.697,
-      "eval_steps_per_second": 50.462,
-      "step": 107
-    },
-    {
-      "epoch": 4.909090909090909,
-      "grad_norm": 0.07806240767240524,
-      "learning_rate": 2.617105263157895e-05,
-      "loss": 0.009,
-      "step": 108
-    },
-    {
-      "epoch": 4.909090909090909,
-      "eval_loss": 0.005432323087006807,
-      "eval_runtime": 0.2208,
-      "eval_samples_per_second": 398.497,
-      "eval_steps_per_second": 49.812,
-      "step": 108
-    },
-    {
-      "epoch": 4.954545454545455,
-      "grad_norm": 0.07705673575401306,
-      "learning_rate": 2.6131578947368424e-05,
-      "loss": 0.0091,
-      "step": 109
-    },
-    {
-      "epoch": 4.954545454545455,
-      "eval_loss": 0.005366500001400709,
-      "eval_runtime": 0.2187,
-      "eval_samples_per_second": 402.388,
-      "eval_steps_per_second": 50.299,
-      "step": 109
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.0743311420083046,
-      "learning_rate": 2.6092105263157894e-05,
-      "loss": 0.0087,
-      "step": 110
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.005299717653542757,
-      "eval_runtime": 0.215,
-      "eval_samples_per_second": 409.298,
-      "eval_steps_per_second": 51.162,
-      "step": 110
-    },
-    {
-      "epoch": 5.045454545454546,
-      "grad_norm": 0.0689927488565445,
-      "learning_rate": 2.605263157894737e-05,
-      "loss": 0.0081,
-      "step": 111
-    },
-    {
-      "epoch": 5.045454545454546,
-      "eval_loss": 0.005235993303358555,
-      "eval_runtime": 0.2192,
-      "eval_samples_per_second": 401.457,
-      "eval_steps_per_second": 50.182,
-      "step": 111
-    },
-    {
-      "epoch": 5.090909090909091,
-      "grad_norm": 0.06892900913953781,
-      "learning_rate": 2.6013157894736843e-05,
-      "loss": 0.0082,
-      "step": 112
-    },
-    {
-      "epoch": 5.090909090909091,
-      "eval_loss": 0.005173509940505028,
-      "eval_runtime": 0.219,
-      "eval_samples_per_second": 401.777,
-      "eval_steps_per_second": 50.222,
-      "step": 112
-    },
-    {
-      "epoch": 5.136363636363637,
-      "grad_norm": 0.06960764527320862,
-      "learning_rate": 2.5973684210526317e-05,
-      "loss": 0.0081,
-      "step": 113
-    },
-    {
-      "epoch": 5.136363636363637,
-      "eval_loss": 0.005112760700285435,
-      "eval_runtime": 0.2203,
-      "eval_samples_per_second": 399.491,
-      "eval_steps_per_second": 49.936,
-      "step": 113
-    },
-    {
-      "epoch": 5.181818181818182,
-      "grad_norm": 0.07173731923103333,
-      "learning_rate": 2.5934210526315788e-05,
-      "loss": 0.008,
-      "step": 114
-    },
-    {
-      "epoch": 5.181818181818182,
-      "eval_loss": 0.00505533954128623,
-      "eval_runtime": 0.2227,
-      "eval_samples_per_second": 395.105,
-      "eval_steps_per_second": 49.388,
-      "step": 114
-    },
-    {
-      "epoch": 5.2272727272727275,
-      "grad_norm": 0.06811046600341797,
-      "learning_rate": 2.5894736842105265e-05,
-      "loss": 0.0074,
-      "step": 115
-    },
-    {
-      "epoch": 5.2272727272727275,
-      "eval_loss": 0.0049970815889537334,
-      "eval_runtime": 0.2171,
-      "eval_samples_per_second": 405.344,
-      "eval_steps_per_second": 50.668,
-      "step": 115
-    },
-    {
-      "epoch": 5.2727272727272725,
-      "grad_norm": 0.0676768496632576,
-      "learning_rate": 2.5855263157894736e-05,
-      "loss": 0.0076,
-      "step": 116
-    },
-    {
-      "epoch": 5.2727272727272725,
-      "eval_loss": 0.004939272068440914,
-      "eval_runtime": 0.2319,
-      "eval_samples_per_second": 379.44,
-      "eval_steps_per_second": 47.43,
-      "step": 116
-    },
-    {
-      "epoch": 5.318181818181818,
-      "grad_norm": 0.06927932053804398,
-      "learning_rate": 2.581578947368421e-05,
-      "loss": 0.0078,
-      "step": 117
-    },
-    {
-      "epoch": 5.318181818181818,
-      "eval_loss": 0.004879767540842295,
-      "eval_runtime": 0.2354,
-      "eval_samples_per_second": 373.859,
-      "eval_steps_per_second": 46.732,
-      "step": 117
-    },
-    {
-      "epoch": 5.363636363636363,
-      "grad_norm": 0.0733099952340126,
-      "learning_rate": 2.5776315789473684e-05,
-      "loss": 0.009,
-      "step": 118
-    },
-    {
-      "epoch": 5.363636363636363,
-      "eval_loss": 0.00482180854305625,
-      "eval_runtime": 0.22,
-      "eval_samples_per_second": 399.97,
-      "eval_steps_per_second": 49.996,
-      "step": 118
-    },
-    {
-      "epoch": 5.409090909090909,
-      "grad_norm": 0.07873851805925369,
-      "learning_rate": 2.5736842105263158e-05,
-      "loss": 0.0085,
-      "step": 119
-    },
-    {
-      "epoch": 5.409090909090909,
-      "eval_loss": 0.004767131991684437,
-      "eval_runtime": 0.2272,
-      "eval_samples_per_second": 387.355,
-      "eval_steps_per_second": 48.419,
-      "step": 119
-    },
-    {
-      "epoch": 5.454545454545454,
-      "grad_norm": 0.06912100315093994,
-      "learning_rate": 2.5697368421052632e-05,
-      "loss": 0.0075,
-      "step": 120
-    },
-    {
-      "epoch": 5.454545454545454,
-      "eval_loss": 0.004715087823569775,
-      "eval_runtime": 0.2216,
-      "eval_samples_per_second": 397.159,
-      "eval_steps_per_second": 49.645,
-      "step": 120
-    },
-    {
-      "epoch": 5.5,
-      "grad_norm": 0.059973061084747314,
-      "learning_rate": 2.5657894736842107e-05,
-      "loss": 0.0078,
-      "step": 121
-    },
-    {
-      "epoch": 5.5,
-      "eval_loss": 0.004667165223509073,
-      "eval_runtime": 0.2226,
-      "eval_samples_per_second": 395.251,
-      "eval_steps_per_second": 49.406,
-      "step": 121
-    },
-    {
-      "epoch": 5.545454545454545,
-      "grad_norm": 0.06346078962087631,
-      "learning_rate": 2.561842105263158e-05,
-      "loss": 0.0073,
-      "step": 122
-    },
-    {
-      "epoch": 5.545454545454545,
-      "eval_loss": 0.004621806554496288,
-      "eval_runtime": 0.2263,
-      "eval_samples_per_second": 388.791,
-      "eval_steps_per_second": 48.599,
-      "step": 122
-    },
-    {
-      "epoch": 5.590909090909091,
-      "grad_norm": 0.07588130235671997,
-      "learning_rate": 2.557894736842105e-05,
-      "loss": 0.0079,
-      "step": 123
-    },
-    {
-      "epoch": 5.590909090909091,
-      "eval_loss": 0.004576975479722023,
-      "eval_runtime": 0.2216,
-      "eval_samples_per_second": 397.081,
-      "eval_steps_per_second": 49.635,
-      "step": 123
-    },
-    {
-      "epoch": 5.636363636363637,
-      "grad_norm": 0.0569930225610733,
-      "learning_rate": 2.553947368421053e-05,
-      "loss": 0.0068,
-      "step": 124
-    },
-    {
-      "epoch": 5.636363636363637,
-      "eval_loss": 0.004534974228590727,
-      "eval_runtime": 0.2207,
-      "eval_samples_per_second": 398.807,
-      "eval_steps_per_second": 49.851,
-      "step": 124
-    },
-    {
-      "epoch": 5.681818181818182,
-      "grad_norm": 0.07023297250270844,
-      "learning_rate": 2.55e-05,
-      "loss": 0.0078,
-      "step": 125
-    },
-    {
-      "epoch": 5.681818181818182,
-      "eval_loss": 0.004494456574320793,
-      "eval_runtime": 0.2276,
-      "eval_samples_per_second": 386.655,
-      "eval_steps_per_second": 48.332,
-      "step": 125
-    },
-    {
-      "epoch": 5.7272727272727275,
-      "grad_norm": 0.0586245059967041,
-      "learning_rate": 2.5460526315789474e-05,
-      "loss": 0.0072,
-      "step": 126
-    },
-    {
-      "epoch": 5.7272727272727275,
-      "eval_loss": 0.0044531743042171,
-      "eval_runtime": 0.2354,
-      "eval_samples_per_second": 373.803,
-      "eval_steps_per_second": 46.725,
-      "step": 126
-    },
-    {
-      "epoch": 5.7727272727272725,
-      "grad_norm": 0.0652911588549614,
-      "learning_rate": 2.5421052631578948e-05,
-      "loss": 0.0073,
-      "step": 127
-    },
-    {
-      "epoch": 5.7727272727272725,
-      "eval_loss": 0.004411415662616491,
-      "eval_runtime": 0.236,
-      "eval_samples_per_second": 372.941,
-      "eval_steps_per_second": 46.618,
-      "step": 127
-    },
-    {
-      "epoch": 5.818181818181818,
-      "grad_norm": 0.05701863393187523,
-      "learning_rate": 2.5381578947368422e-05,
-      "loss": 0.0067,
-      "step": 128
-    },
-    {
-      "epoch": 5.818181818181818,
-      "eval_loss": 0.004371690563857555,
-      "eval_runtime": 0.2358,
-      "eval_samples_per_second": 373.191,
-      "eval_steps_per_second": 46.649,
-      "step": 128
-    },
-    {
-      "epoch": 5.863636363636363,
-      "grad_norm": 0.05990603566169739,
-      "learning_rate": 2.5342105263157893e-05,
-      "loss": 0.0071,
-      "step": 129
-    },
-    {
-      "epoch": 5.863636363636363,
-      "eval_loss": 0.004331877455115318,
-      "eval_runtime": 0.2301,
-      "eval_samples_per_second": 382.487,
-      "eval_steps_per_second": 47.811,
-      "step": 129
-    },
-    {
-      "epoch": 5.909090909090909,
-      "grad_norm": 0.06283283233642578,
-      "learning_rate": 2.530263157894737e-05,
-      "loss": 0.0071,
-      "step": 130
-    },
-    {
-      "epoch": 5.909090909090909,
-      "eval_loss": 0.0042935688979923725,
-      "eval_runtime": 0.2387,
-      "eval_samples_per_second": 368.63,
-      "eval_steps_per_second": 46.079,
-      "step": 130
-    },
-    {
-      "epoch": 5.954545454545455,
-      "grad_norm": 0.060048509389162064,
-      "learning_rate": 2.526315789473684e-05,
-      "loss": 0.0067,
-      "step": 131
-    },
-    {
-      "epoch": 5.954545454545455,
-      "eval_loss": 0.0042540752328932285,
-      "eval_runtime": 0.2471,
-      "eval_samples_per_second": 356.096,
-      "eval_steps_per_second": 44.512,
-      "step": 131
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.060563940554857254,
-      "learning_rate": 2.5223684210526315e-05,
-      "loss": 0.0064,
-      "step": 132
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 0.004213025793433189,
-      "eval_runtime": 0.2399,
-      "eval_samples_per_second": 366.883,
-      "eval_steps_per_second": 45.86,
-      "step": 132
-    },
-    {
-      "epoch": 6.045454545454546,
-      "grad_norm": 0.060382332652807236,
-      "learning_rate": 2.518421052631579e-05,
-      "loss": 0.0071,
-      "step": 133
-    },
-    {
-      "epoch": 6.045454545454546,
-      "eval_loss": 0.004174065310508013,
-      "eval_runtime": 0.2268,
-      "eval_samples_per_second": 388.075,
-      "eval_steps_per_second": 48.509,
-      "step": 133
-    },
-    {
-      "epoch": 6.090909090909091,
-      "grad_norm": 0.06080484017729759,
-      "learning_rate": 2.5144736842105264e-05,
-      "loss": 0.0073,
-      "step": 134
-    },
-    {
-      "epoch": 6.090909090909091,
-      "eval_loss": 0.0041358619928359985,
-      "eval_runtime": 0.2229,
-      "eval_samples_per_second": 394.875,
-      "eval_steps_per_second": 49.359,
-      "step": 134
-    },
-    {
-      "epoch": 6.136363636363637,
-      "grad_norm": 0.057626206427812576,
-      "learning_rate": 2.5105263157894738e-05,
-      "loss": 0.0066,
-      "step": 135
-    },
-    {
-      "epoch": 6.136363636363637,
-      "eval_loss": 0.004101672675460577,
-      "eval_runtime": 0.2283,
-      "eval_samples_per_second": 385.395,
-      "eval_steps_per_second": 48.174,
-      "step": 135
-    },
-    {
-      "epoch": 6.181818181818182,
-      "grad_norm": 0.06599877029657364,
-      "learning_rate": 2.5065789473684212e-05,
-      "loss": 0.0075,
-      "step": 136
-    },
-    {
-      "epoch": 6.181818181818182,
-      "eval_loss": 0.004067064728587866,
-      "eval_runtime": 0.221,
-      "eval_samples_per_second": 398.26,
-      "eval_steps_per_second": 49.783,
-      "step": 136
-    },
-    {
-      "epoch": 6.2272727272727275,
-      "grad_norm": 0.05654873698949814,
-      "learning_rate": 2.5026315789473686e-05,
-      "loss": 0.0066,
-      "step": 137
-    },
-    {
-      "epoch": 6.2272727272727275,
-      "eval_loss": 0.0040321690030395985,
-      "eval_runtime": 0.2329,
-      "eval_samples_per_second": 377.882,
-      "eval_steps_per_second": 47.235,
-      "step": 137
-    },
-    {
-      "epoch": 6.2727272727272725,
-      "grad_norm": 0.05717283487319946,
-      "learning_rate": 2.4986842105263157e-05,
-      "loss": 0.0067,
-      "step": 138
-    },
-    {
-      "epoch": 6.2727272727272725,
-      "eval_loss": 0.003995668143033981,
-      "eval_runtime": 0.2203,
-      "eval_samples_per_second": 399.464,
-      "eval_steps_per_second": 49.933,
-      "step": 138
-    },
-    {
-      "epoch": 6.318181818181818,
-      "grad_norm": 0.06036869063973427,
-      "learning_rate": 2.4947368421052635e-05,
-      "loss": 0.0064,
-      "step": 139
-    },
-    {
-      "epoch": 6.318181818181818,
-      "eval_loss": 0.003956829197704792,
-      "eval_runtime": 0.2294,
-      "eval_samples_per_second": 383.681,
-      "eval_steps_per_second": 47.96,
-      "step": 139
-    },
-    {
-      "epoch": 6.363636363636363,
-      "grad_norm": 0.05111813545227051,
-      "learning_rate": 2.4907894736842105e-05,
-      "loss": 0.0063,
-      "step": 140
-    },
-    {
-      "epoch": 6.363636363636363,
-      "eval_loss": 0.003918844275176525,
-      "eval_runtime": 0.2186,
-      "eval_samples_per_second": 402.513,
-      "eval_steps_per_second": 50.314,
-      "step": 140
-    },
-    {
-      "epoch": 6.409090909090909,
-      "grad_norm": 0.0621768981218338,
-      "learning_rate": 2.486842105263158e-05,
-      "loss": 0.0064,
-      "step": 141
-    },
-    {
-      "epoch": 6.409090909090909,
-      "eval_loss": 0.00388046121224761,
-      "eval_runtime": 0.2309,
-      "eval_samples_per_second": 381.086,
-      "eval_steps_per_second": 47.636,
-      "step": 141
-    },
-    {
-      "epoch": 6.454545454545454,
-      "grad_norm": 0.06089349836111069,
-      "learning_rate": 2.4828947368421054e-05,
-      "loss": 0.0066,
-      "step": 142
-    },
-    {
-      "epoch": 6.454545454545454,
-      "eval_loss": 0.003839746816083789,
-      "eval_runtime": 0.2206,
-      "eval_samples_per_second": 398.928,
-      "eval_steps_per_second": 49.866,
-      "step": 142
-    },
-    {
-      "epoch": 6.5,
-      "grad_norm": 0.05007468909025192,
-      "learning_rate": 2.4789473684210528e-05,
-      "loss": 0.0061,
-      "step": 143
-    },
-    {
-      "epoch": 6.5,
-      "eval_loss": 0.003801233833655715,
-      "eval_runtime": 0.2295,
-      "eval_samples_per_second": 383.433,
-      "eval_steps_per_second": 47.929,
-      "step": 143
-    },
-    {
-      "epoch": 6.545454545454545,
-      "grad_norm": 0.053182121366262436,
-      "learning_rate": 2.475e-05,
-      "loss": 0.0059,
-      "step": 144
-    },
-    {
-      "epoch": 6.545454545454545,
-      "eval_loss": 0.003766607493162155,
-      "eval_runtime": 0.2261,
-      "eval_samples_per_second": 389.124,
-      "eval_steps_per_second": 48.64,
-      "step": 144
-    },
-    {
-      "epoch": 6.590909090909091,
-      "grad_norm": 0.051414087414741516,
-      "learning_rate": 2.4710526315789476e-05,
-      "loss": 0.0061,
-      "step": 145
-    },
-    {
-      "epoch": 6.590909090909091,
-      "eval_loss": 0.0037348391488194466,
-      "eval_runtime": 0.2309,
-      "eval_samples_per_second": 381.083,
-      "eval_steps_per_second": 47.635,
-      "step": 145
-    },
-    {
-      "epoch": 6.636363636363637,
-      "grad_norm": 0.051980625838041306,
-      "learning_rate": 2.4671052631578947e-05,
-      "loss": 0.0061,
-      "step": 146
-    },
-    {
-      "epoch": 6.636363636363637,
-      "eval_loss": 0.0037048642989248037,
-      "eval_runtime": 0.2327,
-      "eval_samples_per_second": 378.163,
-      "eval_steps_per_second": 47.27,
-      "step": 146
-    },
-    {
-      "epoch": 6.681818181818182,
-      "grad_norm": 0.054644446820020676,
-      "learning_rate": 2.463157894736842e-05,
-      "loss": 0.006,
-      "step": 147
-    },
-    {
-      "epoch": 6.681818181818182,
-      "eval_loss": 0.003674545791000128,
-      "eval_runtime": 0.2332,
-      "eval_samples_per_second": 377.322,
-      "eval_steps_per_second": 47.165,
-      "step": 147
-    },
-    {
-      "epoch": 6.7272727272727275,
-      "grad_norm": 0.04687352105975151,
-      "learning_rate": 2.45921052631579e-05,
-      "loss": 0.0057,
-      "step": 148
-    },
-    {
-      "epoch": 6.7272727272727275,
-      "eval_loss": 0.0036456272937357426,
-      "eval_runtime": 0.2302,
-      "eval_samples_per_second": 382.325,
-      "eval_steps_per_second": 47.791,
-      "step": 148
-    },
-    {
-      "epoch": 6.7727272727272725,
-      "grad_norm": 0.0500478520989418,
-      "learning_rate": 2.455263157894737e-05,
-      "loss": 0.0054,
-      "step": 149
-    },
-    {
-      "epoch": 6.7727272727272725,
-      "eval_loss": 0.003618737915530801,
-      "eval_runtime": 0.2281,
-      "eval_samples_per_second": 385.776,
-      "eval_steps_per_second": 48.222,
-      "step": 149
-    },
-    {
-      "epoch": 6.818181818181818,
-      "grad_norm": 0.05092916265130043,
-      "learning_rate": 2.4513157894736843e-05,
-      "loss": 0.0054,
-      "step": 150
-    },
-    {
-      "epoch": 6.818181818181818,
-      "eval_loss": 0.0035921267699450254,
-      "eval_runtime": 0.2298,
-      "eval_samples_per_second": 382.977,
-      "eval_steps_per_second": 47.872,
-      "step": 150
-    },
-    {
-      "epoch": 6.863636363636363,
-      "grad_norm": 0.05389472842216492,
-      "learning_rate": 2.4473684210526318e-05,
-      "loss": 0.0057,
-      "step": 151
-    },
-    {
-      "epoch": 6.863636363636363,
-      "eval_loss": 0.003567308420315385,
-      "eval_runtime": 0.2896,
-      "eval_samples_per_second": 303.912,
-      "eval_steps_per_second": 37.989,
-      "step": 151
-    },
-    {
-      "epoch": 6.909090909090909,
-      "grad_norm": 0.051427211612463,
-      "learning_rate": 2.4434210526315792e-05,
-      "loss": 0.0058,
-      "step": 152
-    },
-    {
-      "epoch": 6.909090909090909,
-      "eval_loss": 0.003539604600518942,
-      "eval_runtime": 0.2314,
-      "eval_samples_per_second": 380.243,
-      "eval_steps_per_second": 47.53,
-      "step": 152
-    },
-    {
-      "epoch": 6.954545454545455,
-      "grad_norm": 0.05391733720898628,
-      "learning_rate": 2.4394736842105262e-05,
-      "loss": 0.0058,
-      "step": 153
-    },
-    {
-      "epoch": 6.954545454545455,
-      "eval_loss": 0.0035100304521620274,
-      "eval_runtime": 0.2452,
-      "eval_samples_per_second": 358.914,
-      "eval_steps_per_second": 44.864,
-      "step": 153
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 0.05612335354089737,
-      "learning_rate": 2.4355263157894737e-05,
-      "loss": 0.0056,
-      "step": 154
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 0.0034810365177690983,
-      "eval_runtime": 0.2328,
-      "eval_samples_per_second": 378.038,
-      "eval_steps_per_second": 47.255,
-      "step": 154
-    },
-    {
-      "epoch": 7.045454545454546,
-      "grad_norm": 0.05799683555960655,
-      "learning_rate": 2.431578947368421e-05,
-      "loss": 0.0062,
-      "step": 155
-    },
-    {
-      "epoch": 7.045454545454546,
-      "eval_loss": 0.003452845150604844,
-      "eval_runtime": 0.2326,
-      "eval_samples_per_second": 378.28,
-      "eval_steps_per_second": 47.285,
-      "step": 155
-    },
-    {
-      "epoch": 7.090909090909091,
-      "grad_norm": 0.05095871537923813,
-      "learning_rate": 2.4276315789473685e-05,
-      "loss": 0.0051,
-      "step": 156
-    },
-    {
-      "epoch": 7.090909090909091,
-      "eval_loss": 0.003425983479246497,
-      "eval_runtime": 0.2387,
-      "eval_samples_per_second": 368.611,
-      "eval_steps_per_second": 46.076,
-      "step": 156
-    },
-    {
-      "epoch": 7.136363636363637,
-      "grad_norm": 0.05834353715181351,
-      "learning_rate": 2.4236842105263156e-05,
-      "loss": 0.0061,
-      "step": 157
-    },
-    {
-      "epoch": 7.136363636363637,
-      "eval_loss": 0.003400736255571246,
-      "eval_runtime": 0.233,
-      "eval_samples_per_second": 377.737,
-      "eval_steps_per_second": 47.217,
-      "step": 157
-    },
-    {
-      "epoch": 7.181818181818182,
-      "grad_norm": 0.05226532742381096,
-      "learning_rate": 2.4197368421052633e-05,
-      "loss": 0.006,
-      "step": 158
-    },
-    {
-      "epoch": 7.181818181818182,
-      "eval_loss": 0.003375994274392724,
-      "eval_runtime": 0.2371,
-      "eval_samples_per_second": 371.159,
-      "eval_steps_per_second": 46.395,
-      "step": 158
-    },
-    {
-      "epoch": 7.2272727272727275,
-      "grad_norm": 0.044102054089307785,
-      "learning_rate": 2.4157894736842104e-05,
-      "loss": 0.0051,
-      "step": 159
-    },
-    {
-      "epoch": 7.2272727272727275,
-      "eval_loss": 0.003351524705067277,
-      "eval_runtime": 0.2391,
-      "eval_samples_per_second": 368.077,
-      "eval_steps_per_second": 46.01,
-      "step": 159
-    },
-    {
-      "epoch": 7.2727272727272725,
-      "grad_norm": 0.050387196242809296,
-      "learning_rate": 2.4118421052631578e-05,
-      "loss": 0.0055,
-      "step": 160
-    },
-    {
-      "epoch": 7.2727272727272725,
-      "eval_loss": 0.003328080987557769,
-      "eval_runtime": 0.2367,
-      "eval_samples_per_second": 371.775,
-      "eval_steps_per_second": 46.472,
-      "step": 160
-    },
-    {
-      "epoch": 7.318181818181818,
-      "grad_norm": 0.05944162234663963,
-      "learning_rate": 2.4078947368421056e-05,
-      "loss": 0.0062,
-      "step": 161
-    },
-    {
-      "epoch": 7.318181818181818,
-      "eval_loss": 0.003306704806163907,
-      "eval_runtime": 0.2302,
-      "eval_samples_per_second": 382.244,
-      "eval_steps_per_second": 47.781,
-      "step": 161
-    },
-    {
-      "epoch": 7.363636363636363,
-      "grad_norm": 0.058280494064092636,
-      "learning_rate": 2.4039473684210526e-05,
-      "loss": 0.0055,
-      "step": 162
-    },
-    {
-      "epoch": 7.363636363636363,
-      "eval_loss": 0.0032875537872314453,
-      "eval_runtime": 0.2313,
-      "eval_samples_per_second": 380.46,
-      "eval_steps_per_second": 47.557,
-      "step": 162
-    },
-    {
-      "epoch": 7.409090909090909,
-      "grad_norm": 0.04580385982990265,
-      "learning_rate": 2.4e-05,
-      "loss": 0.0051,
-      "step": 163
-    },
-    {
-      "epoch": 7.409090909090909,
-      "eval_loss": 0.003268357366323471,
-      "eval_runtime": 0.2329,
-      "eval_samples_per_second": 377.841,
-      "eval_steps_per_second": 47.23,
-      "step": 163
-    },
-    {
-      "epoch": 7.454545454545454,
-      "grad_norm": 0.047211576253175735,
-      "learning_rate": 2.3960526315789475e-05,
-      "loss": 0.0049,
-      "step": 164
-    },
-    {
-      "epoch": 7.454545454545454,
-      "eval_loss": 0.003249667352065444,
-      "eval_runtime": 0.2288,
-      "eval_samples_per_second": 384.62,
-      "eval_steps_per_second": 48.077,
-      "step": 164
-    },
-    {
-      "epoch": 7.5,
-      "grad_norm": 0.04698212072253227,
-      "learning_rate": 2.392105263157895e-05,
-      "loss": 0.0051,
-      "step": 165
-    },
-    {
-      "epoch": 7.5,
-      "eval_loss": 0.003230377798900008,
-      "eval_runtime": 0.2336,
-      "eval_samples_per_second": 376.761,
-      "eval_steps_per_second": 47.095,
-      "step": 165
-    },
-    {
-      "epoch": 7.545454545454545,
-      "grad_norm": 0.049539972096681595,
-      "learning_rate": 2.388157894736842e-05,
-      "loss": 0.0053,
-      "step": 166
-    },
-    {
-      "epoch": 7.545454545454545,
-      "eval_loss": 0.003210590686649084,
-      "eval_runtime": 0.2308,
-      "eval_samples_per_second": 381.225,
-      "eval_steps_per_second": 47.653,
-      "step": 166
-    },
-    {
-      "epoch": 7.590909090909091,
-      "grad_norm": 0.06876406818628311,
-      "learning_rate": 2.3842105263157897e-05,
-      "loss": 0.0054,
-      "step": 167
-    },
-    {
-      "epoch": 7.590909090909091,
-      "eval_loss": 0.0031811357475817204,
-      "eval_runtime": 0.2314,
-      "eval_samples_per_second": 380.236,
-      "eval_steps_per_second": 47.53,
-      "step": 167
-    },
-    {
-      "epoch": 7.636363636363637,
-      "grad_norm": 0.03961968049407005,
-      "learning_rate": 2.3802631578947368e-05,
-      "loss": 0.0048,
-      "step": 168
-    },
-    {
-      "epoch": 7.636363636363637,
-      "eval_loss": 0.003153204219415784,
-      "eval_runtime": 0.2327,
-      "eval_samples_per_second": 378.242,
-      "eval_steps_per_second": 47.28,
-      "step": 168
-    },
-    {
-      "epoch": 7.681818181818182,
-      "grad_norm": 0.046262938529253006,
-      "learning_rate": 2.3763157894736842e-05,
-      "loss": 0.0054,
-      "step": 169
-    },
-    {
-      "epoch": 7.681818181818182,
-      "eval_loss": 0.0031256629154086113,
-      "eval_runtime": 0.2285,
-      "eval_samples_per_second": 385.163,
-      "eval_steps_per_second": 48.145,
-      "step": 169
-    },
-    {
-      "epoch": 7.7272727272727275,
-      "grad_norm": 0.04695883020758629,
-      "learning_rate": 2.3723684210526316e-05,
-      "loss": 0.0053,
-      "step": 170
-    },
-    {
-      "epoch": 7.7272727272727275,
-      "eval_loss": 0.00310018053278327,
-      "eval_runtime": 0.2345,
-      "eval_samples_per_second": 375.19,
-      "eval_steps_per_second": 46.899,
-      "step": 170
-    },
-    {
-      "epoch": 7.7727272727272725,
-      "grad_norm": 0.047219086438417435,
-      "learning_rate": 2.368421052631579e-05,
-      "loss": 0.0052,
-      "step": 171
-    },
-    {
-      "epoch": 7.7727272727272725,
-      "eval_loss": 0.003074278589338064,
-      "eval_runtime": 0.2331,
-      "eval_samples_per_second": 377.522,
-      "eval_steps_per_second": 47.19,
-      "step": 171
-    },
-    {
-      "epoch": 7.818181818181818,
-      "grad_norm": 0.05439964681863785,
-      "learning_rate": 2.364473684210526e-05,
-      "loss": 0.0055,
-      "step": 172
-    },
-    {
-      "epoch": 7.818181818181818,
-      "eval_loss": 0.003049066523090005,
-      "eval_runtime": 0.2239,
-      "eval_samples_per_second": 393.01,
-      "eval_steps_per_second": 49.126,
-      "step": 172
-    },
-    {
-      "epoch": 7.863636363636363,
-      "grad_norm": 0.041486483067274094,
-      "learning_rate": 2.360526315789474e-05,
-      "loss": 0.0047,
-      "step": 173
-    },
-    {
-      "epoch": 7.863636363636363,
-      "eval_loss": 0.0030262693762779236,
-      "eval_runtime": 0.2278,
-      "eval_samples_per_second": 386.243,
-      "eval_steps_per_second": 48.28,
-      "step": 173
-    },
-    {
-      "epoch": 7.909090909090909,
-      "grad_norm": 0.040691111236810684,
-      "learning_rate": 2.3565789473684213e-05,
-      "loss": 0.0046,
-      "step": 174
-    },
-    {
-      "epoch": 7.909090909090909,
-      "eval_loss": 0.0030057693365961313,
-      "eval_runtime": 0.2276,
-      "eval_samples_per_second": 386.567,
-      "eval_steps_per_second": 48.321,
-      "step": 174
-    },
-    {
-      "epoch": 7.954545454545455,
-      "grad_norm": 0.048391714692115784,
-      "learning_rate": 2.3526315789473684e-05,
-      "loss": 0.0055,
-      "step": 175
-    },
-    {
-      "epoch": 7.954545454545455,
-      "eval_loss": 0.0029874229803681374,
-      "eval_runtime": 0.2269,
-      "eval_samples_per_second": 387.906,
-      "eval_steps_per_second": 48.488,
-      "step": 175
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 0.04458646848797798,
-      "learning_rate": 2.348684210526316e-05,
-      "loss": 0.005,
-      "step": 176
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.0029713741969317198,
-      "eval_runtime": 0.2305,
-      "eval_samples_per_second": 381.854,
-      "eval_steps_per_second": 47.732,
-      "step": 176
-    },
-    {
-      "epoch": 8.045454545454545,
-      "grad_norm": 0.044490914791822433,
-      "learning_rate": 2.3447368421052632e-05,
-      "loss": 0.005,
-      "step": 177
-    },
-    {
-      "epoch": 8.045454545454545,
-      "eval_loss": 0.002958006225526333,
-      "eval_runtime": 0.2331,
-      "eval_samples_per_second": 377.519,
-      "eval_steps_per_second": 47.19,
-      "step": 177
-    },
-    {
-      "epoch": 8.090909090909092,
-      "grad_norm": 0.04664753004908562,
-      "learning_rate": 2.3407894736842106e-05,
-      "loss": 0.0053,
-      "step": 178
-    },
-    {
-      "epoch": 8.090909090909092,
-      "eval_loss": 0.0029434128664433956,
-      "eval_runtime": 0.2369,
-      "eval_samples_per_second": 371.478,
-      "eval_steps_per_second": 46.435,
-      "step": 178
-    },
-    {
-      "epoch": 8.136363636363637,
-      "grad_norm": 0.05114319175481796,
-      "learning_rate": 2.336842105263158e-05,
-      "loss": 0.0052,
-      "step": 179
-    },
-    {
-      "epoch": 8.136363636363637,
-      "eval_loss": 0.002928072353824973,
-      "eval_runtime": 0.2273,
-      "eval_samples_per_second": 387.111,
-      "eval_steps_per_second": 48.389,
-      "step": 179
-    },
-    {
-      "epoch": 8.181818181818182,
-      "grad_norm": 0.03715480864048004,
-      "learning_rate": 2.3328947368421054e-05,
-      "loss": 0.0044,
-      "step": 180
-    },
-    {
-      "epoch": 8.181818181818182,
-      "eval_loss": 0.002913246164098382,
-      "eval_runtime": 0.2291,
-      "eval_samples_per_second": 384.095,
-      "eval_steps_per_second": 48.012,
-      "step": 180
-    },
-    {
-      "epoch": 8.227272727272727,
-      "grad_norm": 0.03329971432685852,
-      "learning_rate": 2.3289473684210525e-05,
-      "loss": 0.0043,
-      "step": 181
-    },
-    {
-      "epoch": 8.227272727272727,
-      "eval_loss": 0.0028981559444218874,
-      "eval_runtime": 0.2387,
-      "eval_samples_per_second": 368.641,
-      "eval_steps_per_second": 46.08,
-      "step": 181
-    },
-    {
-      "epoch": 8.272727272727273,
-      "grad_norm": 0.036768488585948944,
-      "learning_rate": 2.3250000000000003e-05,
-      "loss": 0.0043,
-      "step": 182
-    },
-    {
-      "epoch": 8.272727272727273,
-      "eval_loss": 0.002883592387661338,
-      "eval_runtime": 0.2382,
-      "eval_samples_per_second": 369.423,
-      "eval_steps_per_second": 46.178,
-      "step": 182
-    },
-    {
-      "epoch": 8.318181818181818,
-      "grad_norm": 0.03704945370554924,
-      "learning_rate": 2.3210526315789473e-05,
-      "loss": 0.0042,
-      "step": 183
-    },
-    {
-      "epoch": 8.318181818181818,
-      "eval_loss": 0.0028684174176305532,
-      "eval_runtime": 0.2436,
-      "eval_samples_per_second": 361.18,
-      "eval_steps_per_second": 45.148,
-      "step": 183
-    },
-    {
-      "epoch": 8.363636363636363,
-      "grad_norm": 0.038721974939107895,
-      "learning_rate": 2.3171052631578948e-05,
-      "loss": 0.0045,
-      "step": 184
-    },
-    {
-      "epoch": 8.363636363636363,
-      "eval_loss": 0.002850217279046774,
-      "eval_runtime": 0.2397,
-      "eval_samples_per_second": 367.125,
-      "eval_steps_per_second": 45.891,
-      "step": 184
-    },
-    {
-      "epoch": 8.409090909090908,
-      "grad_norm": 0.0400218740105629,
-      "learning_rate": 2.3131578947368422e-05,
-      "loss": 0.0046,
-      "step": 185
-    },
-    {
-      "epoch": 8.409090909090908,
-      "eval_loss": 0.0028304813895374537,
-      "eval_runtime": 0.2401,
-      "eval_samples_per_second": 366.549,
-      "eval_steps_per_second": 45.819,
-      "step": 185
-    },
-    {
-      "epoch": 8.454545454545455,
-      "grad_norm": 0.04041934013366699,
-      "learning_rate": 2.3092105263157896e-05,
-      "loss": 0.0047,
-      "step": 186
-    },
-    {
-      "epoch": 8.454545454545455,
-      "eval_loss": 0.0028114623855799437,
-      "eval_runtime": 0.2373,
-      "eval_samples_per_second": 370.773,
-      "eval_steps_per_second": 46.347,
-      "step": 186
-    },
-    {
-      "epoch": 8.5,
-      "grad_norm": 0.03471284359693527,
-      "learning_rate": 2.3052631578947367e-05,
-      "loss": 0.0042,
-      "step": 187
-    },
-    {
-      "epoch": 8.5,
-      "eval_loss": 0.002793875988572836,
-      "eval_runtime": 0.2482,
-      "eval_samples_per_second": 354.499,
-      "eval_steps_per_second": 44.312,
-      "step": 187
-    },
-    {
-      "epoch": 8.545454545454545,
-      "grad_norm": 0.044632624834775925,
-      "learning_rate": 2.3013157894736844e-05,
-      "loss": 0.0048,
-      "step": 188
-    },
-    {
-      "epoch": 8.545454545454545,
-      "eval_loss": 0.0027756269555538893,
-      "eval_runtime": 0.2261,
-      "eval_samples_per_second": 389.244,
-      "eval_steps_per_second": 48.656,
-      "step": 188
-    },
-    {
-      "epoch": 8.590909090909092,
-      "grad_norm": 0.039824243634939194,
-      "learning_rate": 2.297368421052632e-05,
-      "loss": 0.0044,
-      "step": 189
-    },
-    {
-      "epoch": 8.590909090909092,
-      "eval_loss": 0.00275724777020514,
-      "eval_runtime": 0.2454,
-      "eval_samples_per_second": 358.66,
-      "eval_steps_per_second": 44.832,
-      "step": 189
-    },
-    {
-      "epoch": 8.636363636363637,
-      "grad_norm": 0.03765185549855232,
-      "learning_rate": 2.293421052631579e-05,
-      "loss": 0.0046,
-      "step": 190
-    },
-    {
-      "epoch": 8.636363636363637,
-      "eval_loss": 0.002737644361332059,
-      "eval_runtime": 0.2301,
-      "eval_samples_per_second": 382.383,
-      "eval_steps_per_second": 47.798,
-      "step": 190
-    },
-    {
-      "epoch": 8.681818181818182,
-      "grad_norm": 0.04460470378398895,
-      "learning_rate": 2.2894736842105263e-05,
-      "loss": 0.0049,
-      "step": 191
-    },
-    {
-      "epoch": 8.681818181818182,
-      "eval_loss": 0.002716499613597989,
-      "eval_runtime": 0.2404,
-      "eval_samples_per_second": 366.123,
-      "eval_steps_per_second": 45.765,
-      "step": 191
-    },
-    {
-      "epoch": 8.727272727272727,
-      "grad_norm": 0.04597329720854759,
-      "learning_rate": 2.2855263157894737e-05,
-      "loss": 0.0046,
-      "step": 192
-    },
-    {
-      "epoch": 8.727272727272727,
-      "eval_loss": 0.002695793053135276,
-      "eval_runtime": 0.2287,
-      "eval_samples_per_second": 384.748,
-      "eval_steps_per_second": 48.093,
-      "step": 192
-    },
-    {
-      "epoch": 8.772727272727273,
-      "grad_norm": 0.04175286740064621,
-      "learning_rate": 2.281578947368421e-05,
-      "loss": 0.0048,
-      "step": 193
-    },
-    {
-      "epoch": 8.772727272727273,
-      "eval_loss": 0.0026768320240080357,
-      "eval_runtime": 0.2297,
-      "eval_samples_per_second": 383.191,
-      "eval_steps_per_second": 47.899,
-      "step": 193
-    },
-    {
-      "epoch": 8.818181818181818,
-      "grad_norm": 0.03605563938617706,
-      "learning_rate": 2.2776315789473682e-05,
-      "loss": 0.0042,
-      "step": 194
-    },
-    {
-      "epoch": 8.818181818181818,
-      "eval_loss": 0.0026587164029479027,
-      "eval_runtime": 0.2319,
-      "eval_samples_per_second": 379.432,
-      "eval_steps_per_second": 47.429,
-      "step": 194
-    },
-    {
-      "epoch": 8.863636363636363,
-      "grad_norm": 0.03600858151912689,
-      "learning_rate": 2.273684210526316e-05,
-      "loss": 0.004,
-      "step": 195
-    },
-    {
-      "epoch": 8.863636363636363,
-      "eval_loss": 0.0026421842630952597,
-      "eval_runtime": 0.2375,
-      "eval_samples_per_second": 370.592,
-      "eval_steps_per_second": 46.324,
-      "step": 195
-    },
-    {
-      "epoch": 8.909090909090908,
-      "grad_norm": 0.04040640592575073,
-      "learning_rate": 2.269736842105263e-05,
-      "loss": 0.0046,
-      "step": 196
-    },
-    {
-      "epoch": 8.909090909090908,
-      "eval_loss": 0.002626256085932255,
-      "eval_runtime": 0.5446,
-      "eval_samples_per_second": 161.597,
-      "eval_steps_per_second": 20.2,
-      "step": 196
-    },
-    {
-      "epoch": 8.954545454545455,
-      "grad_norm": 0.04418746754527092,
-      "learning_rate": 2.2657894736842105e-05,
-      "loss": 0.0042,
-      "step": 197
-    },
-    {
-      "epoch": 8.954545454545455,
-      "eval_loss": 0.002609600778669119,
-      "eval_runtime": 0.233,
-      "eval_samples_per_second": 377.684,
-      "eval_steps_per_second": 47.211,
-      "step": 197
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 0.04399528354406357,
-      "learning_rate": 2.261842105263158e-05,
-      "loss": 0.0044,
-      "step": 198
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.0025943187065422535,
-      "eval_runtime": 0.3847,
-      "eval_samples_per_second": 228.728,
-      "eval_steps_per_second": 28.591,
-      "step": 198
-    },
-    {
-      "epoch": 9.045454545454545,
-      "grad_norm": 0.04438379034399986,
-      "learning_rate": 2.2578947368421053e-05,
-      "loss": 0.0045,
-      "step": 199
-    },
-    {
-      "epoch": 9.045454545454545,
-      "eval_loss": 0.0025796808768063784,
-      "eval_runtime": 0.4906,
-      "eval_samples_per_second": 179.357,
-      "eval_steps_per_second": 22.42,
-      "step": 199
-    },
-    {
-      "epoch": 9.090909090909092,
-      "grad_norm": 0.03908194229006767,
-      "learning_rate": 2.2539473684210524e-05,
-      "loss": 0.0045,
-      "step": 200
-    },
-    {
-      "epoch": 9.090909090909092,
-      "eval_loss": 0.002565391594544053,
-      "eval_runtime": 0.2293,
-      "eval_samples_per_second": 383.783,
-      "eval_steps_per_second": 47.973,
-      "step": 200
-    },
-    {
-      "epoch": 9.136363636363637,
-      "grad_norm": 0.03590917959809303,
-      "learning_rate": 2.25e-05,
-      "loss": 0.0044,
-      "step": 201
-    },
-    {
-      "epoch": 9.136363636363637,
-      "eval_loss": 0.0025517421308904886,
-      "eval_runtime": 0.2317,
-      "eval_samples_per_second": 379.855,
-      "eval_steps_per_second": 47.482,
-      "step": 201
-    },
-    {
-      "epoch": 9.181818181818182,
-      "grad_norm": 0.0374373197555542,
-      "learning_rate": 2.2460526315789476e-05,
-      "loss": 0.0039,
-      "step": 202
-    },
-    {
-      "epoch": 9.181818181818182,
-      "eval_loss": 0.0025385154876857996,
-      "eval_runtime": 0.232,
-      "eval_samples_per_second": 379.247,
-      "eval_steps_per_second": 47.406,
-      "step": 202
-    },
-    {
-      "epoch": 9.227272727272727,
-      "grad_norm": 0.03761666640639305,
-      "learning_rate": 2.2421052631578946e-05,
-      "loss": 0.004,
-      "step": 203
-    },
-    {
-      "epoch": 9.227272727272727,
-      "eval_loss": 0.0025266585871577263,
-      "eval_runtime": 0.2386,
-      "eval_samples_per_second": 368.745,
-      "eval_steps_per_second": 46.093,
-      "step": 203
-    },
-    {
-      "epoch": 9.272727272727273,
-      "grad_norm": 0.033979009836912155,
-      "learning_rate": 2.2381578947368424e-05,
-      "loss": 0.004,
-      "step": 204
-    },
-    {
-      "epoch": 9.272727272727273,
-      "eval_loss": 0.0025138070341199636,
-      "eval_runtime": 0.2314,
-      "eval_samples_per_second": 380.28,
-      "eval_steps_per_second": 47.535,
-      "step": 204
-    },
-    {
-      "epoch": 9.318181818181818,
-      "grad_norm": 0.054837603121995926,
-      "learning_rate": 2.2342105263157895e-05,
-      "loss": 0.0042,
-      "step": 205
-    },
-    {
-      "epoch": 9.318181818181818,
-      "eval_loss": 0.002499848371371627,
-      "eval_runtime": 0.227,
-      "eval_samples_per_second": 387.733,
-      "eval_steps_per_second": 48.467,
-      "step": 205
-    },
-    {
-      "epoch": 9.363636363636363,
-      "grad_norm": 0.03884384036064148,
-      "learning_rate": 2.230263157894737e-05,
-      "loss": 0.0043,
-      "step": 206
-    },
-    {
-      "epoch": 9.363636363636363,
-      "eval_loss": 0.0024857125245034695,
-      "eval_runtime": 0.2294,
-      "eval_samples_per_second": 383.548,
-      "eval_steps_per_second": 47.944,
-      "step": 206
-    },
-    {
-      "epoch": 9.409090909090908,
-      "grad_norm": 0.03517827019095421,
-      "learning_rate": 2.2263157894736843e-05,
-      "loss": 0.004,
-      "step": 207
-    },
-    {
-      "epoch": 9.409090909090908,
-      "eval_loss": 0.00247101578861475,
-      "eval_runtime": 0.2336,
-      "eval_samples_per_second": 376.726,
-      "eval_steps_per_second": 47.091,
-      "step": 207
-    },
-    {
-      "epoch": 9.454545454545455,
-      "grad_norm": 0.04209022969007492,
-      "learning_rate": 2.2223684210526317e-05,
-      "loss": 0.0041,
-      "step": 208
-    },
-    {
-      "epoch": 9.454545454545455,
-      "eval_loss": 0.0024564675986766815,
-      "eval_runtime": 0.242,
-      "eval_samples_per_second": 363.631,
-      "eval_steps_per_second": 45.454,
-      "step": 208
-    },
-    {
-      "epoch": 9.5,
-      "grad_norm": 0.04031739383935928,
-      "learning_rate": 2.2184210526315788e-05,
-      "loss": 0.0042,
-      "step": 209
-    },
-    {
-      "epoch": 9.5,
-      "eval_loss": 0.002442182507365942,
-      "eval_runtime": 0.2384,
-      "eval_samples_per_second": 369.056,
-      "eval_steps_per_second": 46.132,
-      "step": 209
-    },
-    {
-      "epoch": 9.545454545454545,
-      "grad_norm": 0.03341998904943466,
-      "learning_rate": 2.2144736842105265e-05,
-      "loss": 0.0038,
-      "step": 210
-    },
-    {
-      "epoch": 9.545454545454545,
-      "eval_loss": 0.0024283959064632654,
-      "eval_runtime": 0.2386,
-      "eval_samples_per_second": 368.766,
-      "eval_steps_per_second": 46.096,
-      "step": 210
-    },
-    {
-      "epoch": 9.590909090909092,
-      "grad_norm": 0.033409975469112396,
-      "learning_rate": 2.2105263157894736e-05,
-      "loss": 0.0037,
-      "step": 211
-    },
-    {
-      "epoch": 9.590909090909092,
-      "eval_loss": 0.002414784161373973,
-      "eval_runtime": 0.2392,
-      "eval_samples_per_second": 367.843,
-      "eval_steps_per_second": 45.98,
-      "step": 211
-    },
-    {
-      "epoch": 9.636363636363637,
-      "grad_norm": 0.038544610142707825,
-      "learning_rate": 2.206578947368421e-05,
-      "loss": 0.0042,
-      "step": 212
-    },
-    {
-      "epoch": 9.636363636363637,
-      "eval_loss": 0.0024007910396903753,
-      "eval_runtime": 0.2355,
-      "eval_samples_per_second": 373.655,
-      "eval_steps_per_second": 46.707,
-      "step": 212
-    },
-    {
-      "epoch": 9.681818181818182,
-      "grad_norm": 0.031284794211387634,
-      "learning_rate": 2.2026315789473684e-05,
-      "loss": 0.0039,
-      "step": 213
-    },
-    {
-      "epoch": 9.681818181818182,
-      "eval_loss": 0.00238687708042562,
-      "eval_runtime": 0.2461,
-      "eval_samples_per_second": 357.651,
-      "eval_steps_per_second": 44.706,
-      "step": 213
-    },
-    {
-      "epoch": 9.727272727272727,
-      "grad_norm": 0.03589053079485893,
-      "learning_rate": 2.198684210526316e-05,
-      "loss": 0.004,
-      "step": 214
-    },
-    {
-      "epoch": 9.727272727272727,
-      "eval_loss": 0.002372899791225791,
-      "eval_runtime": 0.2388,
-      "eval_samples_per_second": 368.519,
-      "eval_steps_per_second": 46.065,
-      "step": 214
-    },
-    {
-      "epoch": 9.772727272727273,
-      "grad_norm": 0.03422442823648453,
-      "learning_rate": 2.1947368421052633e-05,
-      "loss": 0.0037,
-      "step": 215
-    },
-    {
-      "epoch": 9.772727272727273,
-      "eval_loss": 0.0023599357809871435,
-      "eval_runtime": 0.2324,
-      "eval_samples_per_second": 378.632,
-      "eval_steps_per_second": 47.329,
-      "step": 215
-    },
-    {
-      "epoch": 9.818181818181818,
-      "grad_norm": 0.03365776687860489,
-      "learning_rate": 2.1907894736842107e-05,
-      "loss": 0.0035,
-      "step": 216
-    },
-    {
-      "epoch": 9.818181818181818,
-      "eval_loss": 0.0023472688626497984,
-      "eval_runtime": 0.231,
-      "eval_samples_per_second": 380.916,
-      "eval_steps_per_second": 47.614,
-      "step": 216
-    },
-    {
-      "epoch": 9.863636363636363,
-      "grad_norm": 0.030327491462230682,
-      "learning_rate": 2.186842105263158e-05,
-      "loss": 0.0037,
-      "step": 217
-    },
-    {
-      "epoch": 9.863636363636363,
-      "eval_loss": 0.0023344962392002344,
-      "eval_runtime": 0.229,
-      "eval_samples_per_second": 384.224,
-      "eval_steps_per_second": 48.028,
-      "step": 217
-    },
-    {
-      "epoch": 9.909090909090908,
-      "grad_norm": 0.039349548518657684,
-      "learning_rate": 2.1828947368421052e-05,
-      "loss": 0.004,
-      "step": 218
-    },
-    {
-      "epoch": 9.909090909090908,
-      "eval_loss": 0.0023220828734338284,
-      "eval_runtime": 0.228,
-      "eval_samples_per_second": 385.959,
-      "eval_steps_per_second": 48.245,
-      "step": 218
-    },
-    {
-      "epoch": 9.954545454545455,
-      "grad_norm": 0.03199224919080734,
-      "learning_rate": 2.178947368421053e-05,
-      "loss": 0.0034,
-      "step": 219
-    },
-    {
-      "epoch": 9.954545454545455,
-      "eval_loss": 0.0023102990817278624,
-      "eval_runtime": 0.2311,
-      "eval_samples_per_second": 380.788,
-      "eval_steps_per_second": 47.598,
-      "step": 219
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.03278977796435356,
-      "learning_rate": 2.175e-05,
-      "loss": 0.0036,
-      "step": 220
-    },
-    {
-      "epoch": 10.0,
-      "eval_loss": 0.002298795385286212,
-      "eval_runtime": 0.3275,
-      "eval_samples_per_second": 268.678,
-      "eval_steps_per_second": 33.585,
-      "step": 220
-    },
-    {
-      "epoch": 10.045454545454545,
-      "grad_norm": 0.0341983363032341,
-      "learning_rate": 2.1710526315789474e-05,
-      "loss": 0.0039,
-      "step": 221
-    },
-    {
-      "epoch": 10.045454545454545,
-      "eval_loss": 0.0022870004177093506,
-      "eval_runtime": 0.3861,
-      "eval_samples_per_second": 227.931,
-      "eval_steps_per_second": 28.491,
-      "step": 221
-    },
-    {
-      "epoch": 10.090909090909092,
-      "grad_norm": 0.03134067356586456,
-      "learning_rate": 2.167105263157895e-05,
-      "loss": 0.0038,
-      "step": 222
-    },
-    {
-      "epoch": 10.090909090909092,
-      "eval_loss": 0.002274780999869108,
-      "eval_runtime": 0.2973,
-      "eval_samples_per_second": 296.022,
-      "eval_steps_per_second": 37.003,
-      "step": 222
-    },
-    {
-      "epoch": 10.136363636363637,
-      "grad_norm": 0.03246266394853592,
-      "learning_rate": 2.1631578947368423e-05,
-      "loss": 0.0035,
-      "step": 223
-    },
-    {
-      "epoch": 10.136363636363637,
-      "eval_loss": 0.002262603724375367,
-      "eval_runtime": 0.2788,
-      "eval_samples_per_second": 315.607,
-      "eval_steps_per_second": 39.451,
-      "step": 223
-    },
-    {
-      "epoch": 10.181818181818182,
-      "grad_norm": 0.035311244428157806,
-      "learning_rate": 2.1592105263157893e-05,
-      "loss": 0.0036,
-      "step": 224
-    },
-    {
-      "epoch": 10.181818181818182,
-      "eval_loss": 0.002250505844131112,
-      "eval_runtime": 0.3259,
-      "eval_samples_per_second": 270.042,
-      "eval_steps_per_second": 33.755,
-      "step": 224
-    },
-    {
-      "epoch": 10.227272727272727,
-      "grad_norm": 0.03288138657808304,
-      "learning_rate": 2.155263157894737e-05,
-      "loss": 0.0039,
-      "step": 225
-    },
-    {
-      "epoch": 10.227272727272727,
-      "eval_loss": 0.0022388615179806948,
-      "eval_runtime": 0.3627,
-      "eval_samples_per_second": 242.648,
-      "eval_steps_per_second": 30.331,
-      "step": 225
-    },
-    {
-      "epoch": 10.272727272727273,
-      "grad_norm": 0.032804686576128006,
-      "learning_rate": 2.151315789473684e-05,
-      "loss": 0.0038,
-      "step": 226
-    },
-    {
-      "epoch": 10.272727272727273,
-      "eval_loss": 0.0022277701646089554,
-      "eval_runtime": 0.4861,
-      "eval_samples_per_second": 181.023,
-      "eval_steps_per_second": 22.628,
-      "step": 226
-    },
-    {
-      "epoch": 10.318181818181818,
-      "grad_norm": 0.036528490483760834,
-      "learning_rate": 2.1473684210526316e-05,
-      "loss": 0.004,
-      "step": 227
-    },
-    {
-      "epoch": 10.318181818181818,
-      "eval_loss": 0.0022167994175106287,
-      "eval_runtime": 0.3048,
-      "eval_samples_per_second": 288.714,
-      "eval_steps_per_second": 36.089,
-      "step": 227
-    },
-    {
-      "epoch": 10.363636363636363,
-      "grad_norm": 0.029931485652923584,
-      "learning_rate": 2.143421052631579e-05,
-      "loss": 0.0036,
-      "step": 228
-    },
-    {
-      "epoch": 10.363636363636363,
-      "eval_loss": 0.002205794909968972,
-      "eval_runtime": 0.2918,
-      "eval_samples_per_second": 301.612,
-      "eval_steps_per_second": 37.701,
-      "step": 228
-    },
-    {
-      "epoch": 10.409090909090908,
-      "grad_norm": 0.03588961437344551,
-      "learning_rate": 2.1394736842105264e-05,
-      "loss": 0.0039,
-      "step": 229
-    },
-    {
-      "epoch": 10.409090909090908,
-      "eval_loss": 0.0021950947120785713,
-      "eval_runtime": 0.2407,
-      "eval_samples_per_second": 365.554,
-      "eval_steps_per_second": 45.694,
-      "step": 229
-    },
-    {
-      "epoch": 10.454545454545455,
-      "grad_norm": 0.033503517508506775,
-      "learning_rate": 2.1355263157894738e-05,
-      "loss": 0.0036,
-      "step": 230
-    },
-    {
-      "epoch": 10.454545454545455,
-      "eval_loss": 0.0021843963768333197,
-      "eval_runtime": 0.2737,
-      "eval_samples_per_second": 321.531,
-      "eval_steps_per_second": 40.191,
-      "step": 230
-    },
-    {
-      "epoch": 10.5,
-      "grad_norm": 0.032428622245788574,
-      "learning_rate": 2.1315789473684212e-05,
-      "loss": 0.0035,
-      "step": 231
-    },
-    {
-      "epoch": 10.5,
-      "eval_loss": 0.002173727611079812,
-      "eval_runtime": 0.4053,
-      "eval_samples_per_second": 217.137,
-      "eval_steps_per_second": 27.142,
-      "step": 231
-    },
-    {
-      "epoch": 10.545454545454545,
-      "grad_norm": 0.0326942577958107,
-      "learning_rate": 2.1276315789473687e-05,
-      "loss": 0.0035,
-      "step": 232
-    },
-    {
-      "epoch": 10.545454545454545,
-      "eval_loss": 0.0021637016907334328,
-      "eval_runtime": 0.7117,
-      "eval_samples_per_second": 123.656,
-      "eval_steps_per_second": 15.457,
-      "step": 232
-    },
-    {
-      "epoch": 10.590909090909092,
-      "grad_norm": 0.03240852802991867,
-      "learning_rate": 2.1236842105263157e-05,
-      "loss": 0.0034,
-      "step": 233
-    },
-    {
-      "epoch": 10.590909090909092,
-      "eval_loss": 0.002153951907530427,
-      "eval_runtime": 0.2454,
-      "eval_samples_per_second": 358.581,
-      "eval_steps_per_second": 44.823,
-      "step": 233
-    },
-    {
-      "epoch": 10.636363636363637,
-      "grad_norm": 0.029470907524228096,
-      "learning_rate": 2.119736842105263e-05,
-      "loss": 0.0035,
-      "step": 234
-    },
-    {
-      "epoch": 10.636363636363637,
-      "eval_loss": 0.002144550671800971,
-      "eval_runtime": 0.2443,
-      "eval_samples_per_second": 360.165,
-      "eval_steps_per_second": 45.021,
-      "step": 234
-    },
-    {
-      "epoch": 10.681818181818182,
-      "grad_norm": 0.02820722572505474,
-      "learning_rate": 2.1157894736842106e-05,
-      "loss": 0.0034,
-      "step": 235
-    },
-    {
-      "epoch": 10.681818181818182,
-      "eval_loss": 0.002135734772309661,
-      "eval_runtime": 0.2643,
-      "eval_samples_per_second": 333.008,
-      "eval_steps_per_second": 41.626,
-      "step": 235
-    },
-    {
-      "epoch": 10.727272727272727,
-      "grad_norm": 0.02772766724228859,
-      "learning_rate": 2.111842105263158e-05,
-      "loss": 0.0033,
-      "step": 236
-    },
-    {
-      "epoch": 10.727272727272727,
-      "eval_loss": 0.0021269202698022127,
-      "eval_runtime": 0.2751,
-      "eval_samples_per_second": 319.882,
-      "eval_steps_per_second": 39.985,
-      "step": 236
-    },
-    {
-      "epoch": 10.772727272727273,
-      "grad_norm": 0.03653711825609207,
-      "learning_rate": 2.107894736842105e-05,
-      "loss": 0.0038,
-      "step": 237
-    },
-    {
-      "epoch": 10.772727272727273,
-      "eval_loss": 0.0021178810857236385,
-      "eval_runtime": 0.227,
-      "eval_samples_per_second": 387.716,
-      "eval_steps_per_second": 48.465,
-      "step": 237
-    },
-    {
-      "epoch": 10.818181818181818,
-      "grad_norm": 0.03011268563568592,
-      "learning_rate": 2.1039473684210528e-05,
-      "loss": 0.0035,
-      "step": 238
-    },
-    {
-      "epoch": 10.818181818181818,
-      "eval_loss": 0.002109181135892868,
-      "eval_runtime": 0.2398,
-      "eval_samples_per_second": 366.897,
-      "eval_steps_per_second": 45.862,
-      "step": 238
-    },
-    {
-      "epoch": 10.863636363636363,
-      "grad_norm": 0.025909798219799995,
-      "learning_rate": 2.1e-05,
-      "loss": 0.003,
-      "step": 239
-    },
-    {
-      "epoch": 10.863636363636363,
-      "eval_loss": 0.0021006783936172724,
-      "eval_runtime": 0.2342,
-      "eval_samples_per_second": 375.674,
-      "eval_steps_per_second": 46.959,
-      "step": 239
-    },
-    {
-      "epoch": 10.909090909090908,
-      "grad_norm": 0.02720109187066555,
-      "learning_rate": 2.0960526315789473e-05,
-      "loss": 0.0033,
-      "step": 240
-    },
-    {
-      "epoch": 10.909090909090908,
-      "eval_loss": 0.002092132344841957,
-      "eval_runtime": 0.2362,
-      "eval_samples_per_second": 372.632,
-      "eval_steps_per_second": 46.579,
-      "step": 240
-    },
-    {
-      "epoch": 10.954545454545455,
-      "grad_norm": 0.03358568996191025,
-      "learning_rate": 2.0921052631578947e-05,
-      "loss": 0.0034,
-      "step": 241
-    },
-    {
-      "epoch": 10.954545454545455,
-      "eval_loss": 0.0020830982830375433,
-      "eval_runtime": 0.2268,
-      "eval_samples_per_second": 387.964,
-      "eval_steps_per_second": 48.496,
-      "step": 241
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 0.030720144510269165,
-      "learning_rate": 2.088157894736842e-05,
-      "loss": 0.0036,
-      "step": 242
-    },
-    {
-      "epoch": 11.0,
-      "eval_loss": 0.002074107527732849,
-      "eval_runtime": 0.2253,
-      "eval_samples_per_second": 390.639,
-      "eval_steps_per_second": 48.83,
-      "step": 242
-    },
-    {
-      "epoch": 11.045454545454545,
-      "grad_norm": 0.029408905655145645,
-      "learning_rate": 2.0842105263157895e-05,
-      "loss": 0.0035,
-      "step": 243
-    },
-    {
-      "epoch": 11.045454545454545,
-      "eval_loss": 0.0020653316751122475,
-      "eval_runtime": 0.234,
-      "eval_samples_per_second": 376.079,
-      "eval_steps_per_second": 47.01,
-      "step": 243
-    },
-    {
-      "epoch": 11.090909090909092,
-      "grad_norm": 0.02971459925174713,
-      "learning_rate": 2.080263157894737e-05,
-      "loss": 0.0034,
-      "step": 244
-    },
-    {
-      "epoch": 11.090909090909092,
-      "eval_loss": 0.0020563837606459856,
-      "eval_runtime": 0.2306,
-      "eval_samples_per_second": 381.673,
-      "eval_steps_per_second": 47.709,
-      "step": 244
-    },
-    {
-      "epoch": 11.136363636363637,
-      "grad_norm": 0.028164513409137726,
-      "learning_rate": 2.0763157894736844e-05,
-      "loss": 0.0034,
-      "step": 245
-    },
-    {
-      "epoch": 11.136363636363637,
-      "eval_loss": 0.0020477415528148413,
-      "eval_runtime": 0.2363,
-      "eval_samples_per_second": 372.455,
-      "eval_steps_per_second": 46.557,
-      "step": 245
-    },
-    {
-      "epoch": 11.181818181818182,
-      "grad_norm": 0.027845608070492744,
-      "learning_rate": 2.0723684210526315e-05,
-      "loss": 0.0034,
-      "step": 246
-    },
-    {
-      "epoch": 11.181818181818182,
-      "eval_loss": 0.002039202954620123,
-      "eval_runtime": 0.2314,
-      "eval_samples_per_second": 380.293,
-      "eval_steps_per_second": 47.537,
-      "step": 246
-    },
-    {
-      "epoch": 11.227272727272727,
-      "grad_norm": 0.03046409972012043,
-      "learning_rate": 2.0684210526315792e-05,
-      "loss": 0.0035,
-      "step": 247
-    },
-    {
-      "epoch": 11.227272727272727,
-      "eval_loss": 0.0020310634281486273,
-      "eval_runtime": 0.2258,
-      "eval_samples_per_second": 389.786,
-      "eval_steps_per_second": 48.723,
-      "step": 247
-    },
-    {
-      "epoch": 11.272727272727273,
-      "grad_norm": 0.025676798075437546,
-      "learning_rate": 2.0644736842105263e-05,
-      "loss": 0.0031,
-      "step": 248
-    },
-    {
-      "epoch": 11.272727272727273,
-      "eval_loss": 0.0020227304194122553,
-      "eval_runtime": 0.2266,
-      "eval_samples_per_second": 388.395,
-      "eval_steps_per_second": 48.549,
-      "step": 248
-    },
-    {
-      "epoch": 11.318181818181818,
-      "grad_norm": 0.029285188764333725,
-      "learning_rate": 2.0605263157894737e-05,
-      "loss": 0.0036,
-      "step": 249
-    },
-    {
-      "epoch": 11.318181818181818,
-      "eval_loss": 0.0020139189437031746,
-      "eval_runtime": 0.2399,
-      "eval_samples_per_second": 366.874,
-      "eval_steps_per_second": 45.859,
-      "step": 249
-    },
-    {
-      "epoch": 11.363636363636363,
-      "grad_norm": 0.03067379631102085,
-      "learning_rate": 2.056578947368421e-05,
-      "loss": 0.0033,
-      "step": 250
-    },
-    {
-      "epoch": 11.363636363636363,
-      "eval_loss": 0.0020049491431564093,
-      "eval_runtime": 0.2296,
-      "eval_samples_per_second": 383.216,
-      "eval_steps_per_second": 47.902,
-      "step": 250
-    },
-    {
-      "epoch": 11.409090909090908,
-      "grad_norm": 0.030429691076278687,
-      "learning_rate": 2.0526315789473685e-05,
-      "loss": 0.0034,
-      "step": 251
-    },
-    {
-      "epoch": 11.409090909090908,
-      "eval_loss": 0.0019955127499997616,
-      "eval_runtime": 0.3825,
-      "eval_samples_per_second": 230.047,
-      "eval_steps_per_second": 28.756,
-      "step": 251
-    },
-    {
-      "epoch": 11.454545454545455,
-      "grad_norm": 0.03006516583263874,
-      "learning_rate": 2.0486842105263156e-05,
-      "loss": 0.0032,
-      "step": 252
-    },
-    {
-      "epoch": 11.454545454545455,
-      "eval_loss": 0.001985815353691578,
-      "eval_runtime": 0.5232,
-      "eval_samples_per_second": 168.209,
-      "eval_steps_per_second": 21.026,
-      "step": 252
-    },
-    {
-      "epoch": 11.5,
-      "grad_norm": 0.03021743707358837,
-      "learning_rate": 2.0447368421052634e-05,
-      "loss": 0.0035,
-      "step": 253
-    },
-    {
-      "epoch": 11.5,
-      "eval_loss": 0.001975873252376914,
-      "eval_runtime": 0.5816,
-      "eval_samples_per_second": 151.301,
-      "eval_steps_per_second": 18.913,
-      "step": 253
-    },
-    {
-      "epoch": 11.545454545454545,
-      "grad_norm": 0.026514986529946327,
-      "learning_rate": 2.0407894736842104e-05,
-      "loss": 0.0032,
-      "step": 254
-    },
-    {
-      "epoch": 11.545454545454545,
-      "eval_loss": 0.0019660864491015673,
-      "eval_runtime": 0.2403,
-      "eval_samples_per_second": 366.164,
-      "eval_steps_per_second": 45.77,
-      "step": 254
-    },
-    {
-      "epoch": 11.590909090909092,
-      "grad_norm": 0.028690319508314133,
-      "learning_rate": 2.036842105263158e-05,
-      "loss": 0.0033,
-      "step": 255
-    },
-    {
-      "epoch": 11.590909090909092,
-      "eval_loss": 0.0019563750829547644,
-      "eval_runtime": 0.2248,
-      "eval_samples_per_second": 391.417,
-      "eval_steps_per_second": 48.927,
-      "step": 255
-    },
-    {
-      "epoch": 11.636363636363637,
-      "grad_norm": 0.03033028170466423,
-      "learning_rate": 2.0328947368421056e-05,
-      "loss": 0.0034,
-      "step": 256
-    },
-    {
-      "epoch": 11.636363636363637,
-      "eval_loss": 0.0019468939863145351,
-      "eval_runtime": 0.2311,
-      "eval_samples_per_second": 380.835,
-      "eval_steps_per_second": 47.604,
-      "step": 256
-    },
-    {
-      "epoch": 11.681818181818182,
-      "grad_norm": 0.03320786729454994,
-      "learning_rate": 2.0289473684210527e-05,
-      "loss": 0.0035,
-      "step": 257
-    },
-    {
-      "epoch": 11.681818181818182,
-      "eval_loss": 0.0019374135881662369,
-      "eval_runtime": 0.2307,
-      "eval_samples_per_second": 381.512,
-      "eval_steps_per_second": 47.689,
-      "step": 257
-    },
-    {
-      "epoch": 11.727272727272727,
-      "grad_norm": 0.027468524873256683,
-      "learning_rate": 2.025e-05,
-      "loss": 0.0031,
-      "step": 258
-    },
-    {
-      "epoch": 11.727272727272727,
-      "eval_loss": 0.0019284605514258146,
-      "eval_runtime": 0.2303,
-      "eval_samples_per_second": 382.049,
-      "eval_steps_per_second": 47.756,
-      "step": 258
-    },
-    {
-      "epoch": 11.772727272727273,
-      "grad_norm": 0.02426382340490818,
-      "learning_rate": 2.0210526315789475e-05,
-      "loss": 0.0029,
-      "step": 259
-    },
-    {
-      "epoch": 11.772727272727273,
-      "eval_loss": 0.0019197481451556087,
-      "eval_runtime": 0.23,
-      "eval_samples_per_second": 382.529,
-      "eval_steps_per_second": 47.816,
-      "step": 259
-    },
-    {
-      "epoch": 11.818181818181818,
-      "grad_norm": 0.028253108263015747,
-      "learning_rate": 2.017105263157895e-05,
-      "loss": 0.003,
-      "step": 260
-    },
-    {
-      "epoch": 11.818181818181818,
-      "eval_loss": 0.0019117832416668534,
-      "eval_runtime": 0.2345,
-      "eval_samples_per_second": 375.238,
-      "eval_steps_per_second": 46.905,
-      "step": 260
-    },
-    {
-      "epoch": 11.863636363636363,
-      "grad_norm": 0.03305625915527344,
-      "learning_rate": 2.013157894736842e-05,
-      "loss": 0.0034,
-      "step": 261
-    },
-    {
-      "epoch": 11.863636363636363,
-      "eval_loss": 0.0019041887717321515,
-      "eval_runtime": 0.2239,
-      "eval_samples_per_second": 393.025,
-      "eval_steps_per_second": 49.128,
-      "step": 261
-    },
-    {
-      "epoch": 11.909090909090908,
-      "grad_norm": 0.027725212275981903,
-      "learning_rate": 2.0092105263157898e-05,
-      "loss": 0.0033,
-      "step": 262
-    },
-    {
-      "epoch": 11.909090909090908,
-      "eval_loss": 0.0018966187490150332,
-      "eval_runtime": 0.2303,
-      "eval_samples_per_second": 382.148,
-      "eval_steps_per_second": 47.769,
-      "step": 262
-    },
-    {
-      "epoch": 11.954545454545455,
-      "grad_norm": 0.02550244890153408,
-      "learning_rate": 2.0052631578947368e-05,
-      "loss": 0.0032,
-      "step": 263
-    },
-    {
-      "epoch": 11.954545454545455,
-      "eval_loss": 0.0018891972722485662,
-      "eval_runtime": 0.2274,
-      "eval_samples_per_second": 386.939,
-      "eval_steps_per_second": 48.367,
-      "step": 263
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 0.02780972793698311,
-      "learning_rate": 2.0013157894736842e-05,
-      "loss": 0.0034,
-      "step": 264
-    },
-    {
-      "epoch": 12.0,
-      "eval_loss": 0.001881771837361157,
-      "eval_runtime": 0.2332,
-      "eval_samples_per_second": 377.388,
-      "eval_steps_per_second": 47.174,
-      "step": 264
-    },
-    {
-      "epoch": 12.045454545454545,
-      "grad_norm": 0.03385490924119949,
-      "learning_rate": 1.9973684210526317e-05,
-      "loss": 0.0034,
-      "step": 265
-    },
-    {
-      "epoch": 12.045454545454545,
-      "eval_loss": 0.001874623354524374,
-      "eval_runtime": 0.2413,
-      "eval_samples_per_second": 364.627,
-      "eval_steps_per_second": 45.578,
-      "step": 265
-    },
-    {
-      "epoch": 12.090909090909092,
-      "grad_norm": 0.029128815978765488,
-      "learning_rate": 1.993421052631579e-05,
-      "loss": 0.003,
-      "step": 266
-    },
-    {
-      "epoch": 12.090909090909092,
-      "eval_loss": 0.0018677938496693969,
-      "eval_runtime": 0.235,
-      "eval_samples_per_second": 374.427,
-      "eval_steps_per_second": 46.803,
-      "step": 266
-    },
-    {
-      "epoch": 12.136363636363637,
-      "grad_norm": 0.025781184434890747,
-      "learning_rate": 1.989473684210526e-05,
-      "loss": 0.0031,
-      "step": 267
-    },
-    {
-      "epoch": 12.136363636363637,
-      "eval_loss": 0.001861188909970224,
-      "eval_runtime": 0.2382,
-      "eval_samples_per_second": 369.363,
-      "eval_steps_per_second": 46.17,
-      "step": 267
-    },
-    {
-      "epoch": 12.181818181818182,
-      "grad_norm": 0.0294223353266716,
-      "learning_rate": 1.985526315789474e-05,
-      "loss": 0.0033,
-      "step": 268
-    },
-    {
-      "epoch": 12.181818181818182,
-      "eval_loss": 0.001854045782238245,
-      "eval_runtime": 0.2289,
-      "eval_samples_per_second": 384.52,
-      "eval_steps_per_second": 48.065,
-      "step": 268
-    },
-    {
-      "epoch": 12.227272727272727,
-      "grad_norm": 0.028326552361249924,
-      "learning_rate": 1.9815789473684213e-05,
-      "loss": 0.003,
-      "step": 269
-    },
-    {
-      "epoch": 12.227272727272727,
-      "eval_loss": 0.0018470593495294452,
-      "eval_runtime": 0.2289,
-      "eval_samples_per_second": 384.399,
-      "eval_steps_per_second": 48.05,
-      "step": 269
-    },
-    {
-      "epoch": 12.272727272727273,
-      "grad_norm": 0.030360590666532516,
-      "learning_rate": 1.9776315789473684e-05,
-      "loss": 0.0031,
-      "step": 270
-    },
-    {
-      "epoch": 12.272727272727273,
-      "eval_loss": 0.0018398199463263154,
-      "eval_runtime": 0.2311,
-      "eval_samples_per_second": 380.8,
-      "eval_steps_per_second": 47.6,
-      "step": 270
-    },
-    {
-      "epoch": 12.318181818181818,
-      "grad_norm": 0.02833518758416176,
-      "learning_rate": 1.9736842105263158e-05,
-      "loss": 0.0034,
-      "step": 271
-    },
-    {
-      "epoch": 12.318181818181818,
-      "eval_loss": 0.0018325141863897443,
-      "eval_runtime": 0.233,
-      "eval_samples_per_second": 377.758,
-      "eval_steps_per_second": 47.22,
-      "step": 271
-    },
-    {
-      "epoch": 12.363636363636363,
-      "grad_norm": 0.029960816726088524,
-      "learning_rate": 1.9697368421052632e-05,
-      "loss": 0.0032,
-      "step": 272
-    },
-    {
-      "epoch": 12.363636363636363,
-      "eval_loss": 0.0018252148292958736,
-      "eval_runtime": 0.231,
-      "eval_samples_per_second": 381.016,
-      "eval_steps_per_second": 47.627,
-      "step": 272
-    },
-    {
-      "epoch": 12.409090909090908,
-      "grad_norm": 0.027226990088820457,
-      "learning_rate": 1.9657894736842106e-05,
-      "loss": 0.0029,
-      "step": 273
-    },
-    {
-      "epoch": 12.409090909090908,
-      "eval_loss": 0.0018177549354732037,
-      "eval_runtime": 0.233,
-      "eval_samples_per_second": 377.605,
-      "eval_steps_per_second": 47.201,
-      "step": 273
-    },
-    {
-      "epoch": 12.454545454545455,
-      "grad_norm": 0.02402249164879322,
-      "learning_rate": 1.9618421052631577e-05,
-      "loss": 0.0029,
-      "step": 274
-    },
-    {
-      "epoch": 12.454545454545455,
-      "eval_loss": 0.0018104868941009045,
-      "eval_runtime": 0.2464,
-      "eval_samples_per_second": 357.208,
-      "eval_steps_per_second": 44.651,
-      "step": 274
-    },
-    {
-      "epoch": 12.5,
-      "grad_norm": 0.025068577378988266,
-      "learning_rate": 1.9578947368421055e-05,
-      "loss": 0.003,
-      "step": 275
-    },
-    {
-      "epoch": 12.5,
-      "eval_loss": 0.0018031727522611618,
-      "eval_runtime": 0.2561,
-      "eval_samples_per_second": 343.628,
-      "eval_steps_per_second": 42.953,
-      "step": 275
-    },
-    {
-      "epoch": 12.545454545454545,
-      "grad_norm": 0.03290198743343353,
-      "learning_rate": 1.9539473684210525e-05,
-      "loss": 0.0032,
-      "step": 276
-    },
-    {
-      "epoch": 12.545454545454545,
-      "eval_loss": 0.0017959319520741701,
-      "eval_runtime": 0.2473,
-      "eval_samples_per_second": 355.844,
-      "eval_steps_per_second": 44.48,
-      "step": 276
-    },
-    {
-      "epoch": 12.590909090909092,
-      "grad_norm": 0.025103066116571426,
-      "learning_rate": 1.95e-05,
-      "loss": 0.0028,
-      "step": 277
-    },
-    {
-      "epoch": 12.590909090909092,
-      "eval_loss": 0.0017883635591715574,
-      "eval_runtime": 0.2312,
-      "eval_samples_per_second": 380.663,
-      "eval_steps_per_second": 47.583,
-      "step": 277
-    },
-    {
-      "epoch": 12.636363636363637,
-      "grad_norm": 0.02768297679722309,
-      "learning_rate": 1.9460526315789474e-05,
-      "loss": 0.003,
-      "step": 278
-    },
-    {
-      "epoch": 12.636363636363637,
-      "eval_loss": 0.0017810885328799486,
-      "eval_runtime": 0.2411,
-      "eval_samples_per_second": 365.033,
-      "eval_steps_per_second": 45.629,
-      "step": 278
-    },
-    {
-      "epoch": 12.681818181818182,
-      "grad_norm": 0.026979558169841766,
-      "learning_rate": 1.9421052631578948e-05,
-      "loss": 0.0033,
-      "step": 279
-    },
-    {
-      "epoch": 12.681818181818182,
-      "eval_loss": 0.0017738312017172575,
-      "eval_runtime": 0.2981,
-      "eval_samples_per_second": 295.202,
-      "eval_steps_per_second": 36.9,
-      "step": 279
-    },
-    {
-      "epoch": 12.727272727272727,
-      "grad_norm": 0.025757014751434326,
-      "learning_rate": 1.938157894736842e-05,
-      "loss": 0.0031,
-      "step": 280
-    },
-    {
-      "epoch": 12.727272727272727,
-      "eval_loss": 0.0017666955245658755,
-      "eval_runtime": 0.2467,
-      "eval_samples_per_second": 356.773,
-      "eval_steps_per_second": 44.597,
-      "step": 280
-    },
-    {
-      "epoch": 12.772727272727273,
-      "grad_norm": 0.026617391034960747,
-      "learning_rate": 1.9342105263157896e-05,
-      "loss": 0.003,
-      "step": 281
-    },
-    {
-      "epoch": 12.772727272727273,
-      "eval_loss": 0.0017593905795365572,
-      "eval_runtime": 0.2388,
-      "eval_samples_per_second": 368.469,
-      "eval_steps_per_second": 46.059,
-      "step": 281
-    },
-    {
-      "epoch": 12.818181818181818,
-      "grad_norm": 0.027713097631931305,
-      "learning_rate": 1.9302631578947367e-05,
-      "loss": 0.0028,
-      "step": 282
-    },
-    {
-      "epoch": 12.818181818181818,
-      "eval_loss": 0.0017523803981021047,
-      "eval_runtime": 0.2531,
-      "eval_samples_per_second": 347.71,
-      "eval_steps_per_second": 43.464,
-      "step": 282
-    },
-    {
-      "epoch": 12.863636363636363,
-      "grad_norm": 0.021941719576716423,
-      "learning_rate": 1.926315789473684e-05,
-      "loss": 0.0028,
-      "step": 283
-    },
-    {
-      "epoch": 12.863636363636363,
-      "eval_loss": 0.0017456583445891738,
-      "eval_runtime": 0.2275,
-      "eval_samples_per_second": 386.831,
-      "eval_steps_per_second": 48.354,
-      "step": 283
-    },
-    {
-      "epoch": 12.909090909090908,
-      "grad_norm": 0.029443973675370216,
-      "learning_rate": 1.922368421052632e-05,
-      "loss": 0.0029,
-      "step": 284
-    },
-    {
-      "epoch": 12.909090909090908,
-      "eval_loss": 0.0017391174333170056,
-      "eval_runtime": 0.2259,
-      "eval_samples_per_second": 389.61,
-      "eval_steps_per_second": 48.701,
-      "step": 284
-    },
-    {
-      "epoch": 12.954545454545455,
-      "grad_norm": 0.023187711834907532,
-      "learning_rate": 1.918421052631579e-05,
-      "loss": 0.0027,
-      "step": 285
-    },
-    {
-      "epoch": 12.954545454545455,
-      "eval_loss": 0.0017328561516478658,
-      "eval_runtime": 0.2229,
-      "eval_samples_per_second": 394.794,
-      "eval_steps_per_second": 49.349,
-      "step": 285
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 0.02683272212743759,
-      "learning_rate": 1.9144736842105264e-05,
-      "loss": 0.0028,
-      "step": 286
-    },
-    {
-      "epoch": 13.0,
-      "eval_loss": 0.0017264141933992505,
-      "eval_runtime": 0.2281,
-      "eval_samples_per_second": 385.759,
-      "eval_steps_per_second": 48.22,
-      "step": 286
-    },
-    {
-      "epoch": 13.045454545454545,
-      "grad_norm": 0.026485104113817215,
-      "learning_rate": 1.9105263157894738e-05,
-      "loss": 0.0029,
-      "step": 287
-    },
-    {
-      "epoch": 13.045454545454545,
-      "eval_loss": 0.0017197772394865751,
-      "eval_runtime": 0.2245,
-      "eval_samples_per_second": 392.011,
-      "eval_steps_per_second": 49.001,
-      "step": 287
-    },
-    {
-      "epoch": 13.090909090909092,
-      "grad_norm": 0.025229312479496002,
-      "learning_rate": 1.9065789473684212e-05,
-      "loss": 0.0027,
-      "step": 288
-    },
-    {
-      "epoch": 13.090909090909092,
-      "eval_loss": 0.0017132211942225695,
-      "eval_runtime": 0.2288,
-      "eval_samples_per_second": 384.654,
-      "eval_steps_per_second": 48.082,
-      "step": 288
-    },
-    {
-      "epoch": 13.136363636363637,
-      "grad_norm": 0.026387052610516548,
-      "learning_rate": 1.9026315789473683e-05,
-      "loss": 0.003,
-      "step": 289
-    },
-    {
-      "epoch": 13.136363636363637,
-      "eval_loss": 0.001706792158074677,
-      "eval_runtime": 0.2251,
-      "eval_samples_per_second": 390.981,
-      "eval_steps_per_second": 48.873,
-      "step": 289
-    },
-    {
-      "epoch": 13.181818181818182,
-      "grad_norm": 0.0232387688010931,
-      "learning_rate": 1.898684210526316e-05,
-      "loss": 0.0028,
-      "step": 290
-    },
-    {
-      "epoch": 13.181818181818182,
-      "eval_loss": 0.0017004094552248716,
-      "eval_runtime": 0.2307,
-      "eval_samples_per_second": 381.375,
-      "eval_steps_per_second": 47.672,
-      "step": 290
-    },
-    {
-      "epoch": 13.227272727272727,
-      "grad_norm": 0.030720511451363564,
-      "learning_rate": 1.894736842105263e-05,
-      "loss": 0.003,
-      "step": 291
-    },
-    {
-      "epoch": 13.227272727272727,
-      "eval_loss": 0.0016942427027970552,
-      "eval_runtime": 0.2316,
-      "eval_samples_per_second": 379.934,
-      "eval_steps_per_second": 47.492,
-      "step": 291
-    },
-    {
-      "epoch": 13.272727272727273,
-      "grad_norm": 0.023519422858953476,
-      "learning_rate": 1.8907894736842105e-05,
-      "loss": 0.0025,
-      "step": 292
-    },
-    {
-      "epoch": 13.272727272727273,
-      "eval_loss": 0.0016882912022992969,
-      "eval_runtime": 0.2298,
-      "eval_samples_per_second": 383.008,
-      "eval_steps_per_second": 47.876,
-      "step": 292
-    },
-    {
-      "epoch": 13.318181818181818,
-      "grad_norm": 0.02608366496860981,
-      "learning_rate": 1.886842105263158e-05,
-      "loss": 0.003,
-      "step": 293
-    },
-    {
-      "epoch": 13.318181818181818,
-      "eval_loss": 0.001682400587014854,
-      "eval_runtime": 0.2333,
-      "eval_samples_per_second": 377.26,
-      "eval_steps_per_second": 47.157,
-      "step": 293
-    },
-    {
-      "epoch": 13.363636363636363,
-      "grad_norm": 0.02541464753448963,
-      "learning_rate": 1.8828947368421053e-05,
-      "loss": 0.0028,
-      "step": 294
-    },
-    {
-      "epoch": 13.363636363636363,
-      "eval_loss": 0.0016764701576903462,
-      "eval_runtime": 0.2276,
-      "eval_samples_per_second": 386.598,
-      "eval_steps_per_second": 48.325,
-      "step": 294
-    },
-    {
-      "epoch": 13.409090909090908,
-      "grad_norm": 0.026540333405137062,
-      "learning_rate": 1.8789473684210524e-05,
-      "loss": 0.0028,
-      "step": 295
-    },
-    {
-      "epoch": 13.409090909090908,
-      "eval_loss": 0.0016703385626897216,
-      "eval_runtime": 0.2313,
-      "eval_samples_per_second": 380.436,
-      "eval_steps_per_second": 47.554,
-      "step": 295
-    },
-    {
-      "epoch": 13.454545454545455,
-      "grad_norm": 0.021979449316859245,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 0.0027,
-      "step": 296
-    },
-    {
-      "epoch": 13.454545454545455,
-      "eval_loss": 0.0016644434072077274,
-      "eval_runtime": 0.2267,
-      "eval_samples_per_second": 388.248,
-      "eval_steps_per_second": 48.531,
-      "step": 296
-    },
-    {
-      "epoch": 13.5,
-      "grad_norm": 0.027137625962495804,
-      "learning_rate": 1.8710526315789476e-05,
-      "loss": 0.0027,
-      "step": 297
-    },
-    {
-      "epoch": 13.5,
-      "eval_loss": 0.001658798661082983,
-      "eval_runtime": 0.2286,
-      "eval_samples_per_second": 384.972,
-      "eval_steps_per_second": 48.121,
-      "step": 297
-    },
-    {
-      "epoch": 13.545454545454545,
-      "grad_norm": 0.02321833185851574,
-      "learning_rate": 1.8671052631578947e-05,
-      "loss": 0.0027,
-      "step": 298
-    },
-    {
-      "epoch": 13.545454545454545,
-      "eval_loss": 0.001653428073041141,
-      "eval_runtime": 0.227,
-      "eval_samples_per_second": 387.714,
-      "eval_steps_per_second": 48.464,
-      "step": 298
-    },
-    {
-      "epoch": 13.590909090909092,
-      "grad_norm": 0.028996985405683517,
-      "learning_rate": 1.8631578947368424e-05,
-      "loss": 0.0029,
-      "step": 299
-    },
-    {
-      "epoch": 13.590909090909092,
-      "eval_loss": 0.0016476112650707364,
-      "eval_runtime": 0.2299,
-      "eval_samples_per_second": 382.812,
-      "eval_steps_per_second": 47.852,
-      "step": 299
-    },
-    {
-      "epoch": 13.636363636363637,
-      "grad_norm": 0.028486257418990135,
-      "learning_rate": 1.8592105263157895e-05,
-      "loss": 0.0027,
-      "step": 300
-    },
-    {
-      "epoch": 13.636363636363637,
-      "eval_loss": 0.001642104354687035,
-      "eval_runtime": 0.2398,
-      "eval_samples_per_second": 367.028,
-      "eval_steps_per_second": 45.878,
-      "step": 300
-    },
-    {
-      "epoch": 13.681818181818182,
-      "grad_norm": 0.022658037021756172,
-      "learning_rate": 1.855263157894737e-05,
-      "loss": 0.0025,
-      "step": 301
-    },
-    {
-      "epoch": 13.681818181818182,
-      "eval_loss": 0.0016368039650842547,
-      "eval_runtime": 0.2377,
-      "eval_samples_per_second": 370.172,
-      "eval_steps_per_second": 46.271,
-      "step": 301
-    },
-    {
-      "epoch": 13.727272727272727,
-      "grad_norm": 0.024452779442071915,
-      "learning_rate": 1.8513157894736843e-05,
-      "loss": 0.0028,
-      "step": 302
-    },
-    {
-      "epoch": 13.727272727272727,
-      "eval_loss": 0.0016317162662744522,
-      "eval_runtime": 0.2252,
-      "eval_samples_per_second": 390.707,
-      "eval_steps_per_second": 48.838,
-      "step": 302
-    },
-    {
-      "epoch": 13.772727272727273,
-      "grad_norm": 0.02014131471514702,
-      "learning_rate": 1.8473684210526317e-05,
-      "loss": 0.0024,
-      "step": 303
-    },
-    {
-      "epoch": 13.772727272727273,
-      "eval_loss": 0.001626785146072507,
-      "eval_runtime": 0.2343,
-      "eval_samples_per_second": 375.607,
-      "eval_steps_per_second": 46.951,
-      "step": 303
-    },
-    {
-      "epoch": 13.818181818181818,
-      "grad_norm": 0.02657116763293743,
-      "learning_rate": 1.8434210526315788e-05,
-      "loss": 0.0025,
-      "step": 304
-    },
-    {
-      "epoch": 13.818181818181818,
-      "eval_loss": 0.001621657982468605,
-      "eval_runtime": 0.2287,
-      "eval_samples_per_second": 384.722,
-      "eval_steps_per_second": 48.09,
-      "step": 304
-    },
-    {
-      "epoch": 13.863636363636363,
-      "grad_norm": 0.02328609488904476,
-      "learning_rate": 1.8394736842105266e-05,
-      "loss": 0.0025,
-      "step": 305
-    },
-    {
-      "epoch": 13.863636363636363,
-      "eval_loss": 0.001616165740415454,
-      "eval_runtime": 0.2335,
-      "eval_samples_per_second": 376.921,
-      "eval_steps_per_second": 47.115,
-      "step": 305
-    },
-    {
-      "epoch": 13.909090909090908,
-      "grad_norm": 0.02286568656563759,
-      "learning_rate": 1.8355263157894736e-05,
-      "loss": 0.0027,
-      "step": 306
-    },
-    {
-      "epoch": 13.909090909090908,
-      "eval_loss": 0.001610812614671886,
-      "eval_runtime": 0.2295,
-      "eval_samples_per_second": 383.365,
-      "eval_steps_per_second": 47.921,
-      "step": 306
-    },
-    {
-      "epoch": 13.954545454545455,
-      "grad_norm": 0.025216739624738693,
-      "learning_rate": 1.831578947368421e-05,
-      "loss": 0.0026,
-      "step": 307
-    },
-    {
-      "epoch": 13.954545454545455,
-      "eval_loss": 0.001605312223546207,
-      "eval_runtime": 0.2306,
-      "eval_samples_per_second": 381.68,
-      "eval_steps_per_second": 47.71,
-      "step": 307
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 0.02698989026248455,
-      "learning_rate": 1.8276315789473685e-05,
-      "loss": 0.003,
-      "step": 308
-    },
-    {
-      "epoch": 14.0,
-      "eval_loss": 0.001599607290700078,
-      "eval_runtime": 0.234,
-      "eval_samples_per_second": 376.05,
-      "eval_steps_per_second": 47.006,
-      "step": 308
-    },
-    {
-      "epoch": 14.045454545454545,
-      "grad_norm": 0.02121439203619957,
-      "learning_rate": 1.823684210526316e-05,
-      "loss": 0.0026,
-      "step": 309
-    },
-    {
-      "epoch": 14.045454545454545,
-      "eval_loss": 0.0015940162120386958,
-      "eval_runtime": 0.2335,
-      "eval_samples_per_second": 376.91,
-      "eval_steps_per_second": 47.114,
-      "step": 309
-    },
-    {
-      "epoch": 14.090909090909092,
-      "grad_norm": 0.02412167377769947,
-      "learning_rate": 1.8197368421052633e-05,
-      "loss": 0.0028,
-      "step": 310
-    },
-    {
-      "epoch": 14.090909090909092,
-      "eval_loss": 0.001588392653502524,
-      "eval_runtime": 0.2321,
-      "eval_samples_per_second": 379.14,
-      "eval_steps_per_second": 47.392,
-      "step": 310
-    },
-    {
-      "epoch": 14.136363636363637,
-      "grad_norm": 0.02534678392112255,
-      "learning_rate": 1.8157894736842107e-05,
-      "loss": 0.0027,
-      "step": 311
-    },
-    {
-      "epoch": 14.136363636363637,
-      "eval_loss": 0.0015829313779249787,
-      "eval_runtime": 0.2274,
-      "eval_samples_per_second": 386.989,
-      "eval_steps_per_second": 48.374,
-      "step": 311
-    },
-    {
-      "epoch": 14.181818181818182,
-      "grad_norm": 0.021638307720422745,
-      "learning_rate": 1.811842105263158e-05,
-      "loss": 0.0025,
-      "step": 312
-    },
-    {
-      "epoch": 14.181818181818182,
-      "eval_loss": 0.0015773712657392025,
-      "eval_runtime": 0.2294,
-      "eval_samples_per_second": 383.682,
-      "eval_steps_per_second": 47.96,
-      "step": 312
-    },
-    {
-      "epoch": 14.227272727272727,
-      "grad_norm": 0.024357490241527557,
-      "learning_rate": 1.8078947368421052e-05,
-      "loss": 0.0027,
-      "step": 313
-    },
-    {
-      "epoch": 14.227272727272727,
-      "eval_loss": 0.0015717636561021209,
-      "eval_runtime": 0.2294,
-      "eval_samples_per_second": 383.662,
-      "eval_steps_per_second": 47.958,
-      "step": 313
-    },
-    {
-      "epoch": 14.272727272727273,
-      "grad_norm": 0.022512707859277725,
-      "learning_rate": 1.8039473684210526e-05,
-      "loss": 0.0026,
-      "step": 314
-    },
-    {
-      "epoch": 14.272727272727273,
-      "eval_loss": 0.001566153485327959,
-      "eval_runtime": 0.2263,
-      "eval_samples_per_second": 388.817,
-      "eval_steps_per_second": 48.602,
-      "step": 314
-    },
-    {
-      "epoch": 14.318181818181818,
-      "grad_norm": 0.022913463413715363,
-      "learning_rate": 1.8e-05,
-      "loss": 0.0026,
-      "step": 315
-    },
-    {
-      "epoch": 14.318181818181818,
-      "eval_loss": 0.001560671953484416,
-      "eval_runtime": 0.2319,
-      "eval_samples_per_second": 379.401,
-      "eval_steps_per_second": 47.425,
-      "step": 315
-    },
-    {
-      "epoch": 14.363636363636363,
-      "grad_norm": 0.024906402453780174,
-      "learning_rate": 1.7960526315789475e-05,
-      "loss": 0.0026,
-      "step": 316
-    },
-    {
-      "epoch": 14.363636363636363,
-      "eval_loss": 0.0015550776151940227,
-      "eval_runtime": 0.2309,
-      "eval_samples_per_second": 381.176,
-      "eval_steps_per_second": 47.647,
-      "step": 316
-    },
-    {
-      "epoch": 14.409090909090908,
-      "grad_norm": 0.020846841856837273,
-      "learning_rate": 1.7921052631578945e-05,
-      "loss": 0.0024,
-      "step": 317
-    },
-    {
-      "epoch": 14.409090909090908,
-      "eval_loss": 0.0015492510283365846,
-      "eval_runtime": 0.23,
-      "eval_samples_per_second": 382.625,
-      "eval_steps_per_second": 47.828,
-      "step": 317
-    },
-    {
-      "epoch": 14.454545454545455,
-      "grad_norm": 0.020949576050043106,
-      "learning_rate": 1.7881578947368423e-05,
-      "loss": 0.0024,
-      "step": 318
-    },
-    {
-      "epoch": 14.454545454545455,
-      "eval_loss": 0.001543792081065476,
-      "eval_runtime": 0.2687,
-      "eval_samples_per_second": 327.535,
-      "eval_steps_per_second": 40.942,
-      "step": 318
-    },
-    {
-      "epoch": 14.5,
-      "grad_norm": 0.027320073917508125,
-      "learning_rate": 1.7842105263157894e-05,
-      "loss": 0.0029,
-      "step": 319
-    },
-    {
-      "epoch": 14.5,
-      "eval_loss": 0.0015383724821731448,
-      "eval_runtime": 0.2378,
-      "eval_samples_per_second": 369.998,
-      "eval_steps_per_second": 46.25,
-      "step": 319
-    },
-    {
-      "epoch": 14.545454545454545,
-      "grad_norm": 0.023768380284309387,
-      "learning_rate": 1.7802631578947368e-05,
-      "loss": 0.0024,
-      "step": 320
-    },
-    {
-      "epoch": 14.545454545454545,
-      "eval_loss": 0.0015328243607655168,
-      "eval_runtime": 0.2636,
-      "eval_samples_per_second": 333.891,
-      "eval_steps_per_second": 41.736,
-      "step": 320
-    },
-    {
-      "epoch": 14.590909090909092,
-      "grad_norm": 0.023090893402695656,
-      "learning_rate": 1.7763157894736842e-05,
-      "loss": 0.0028,
-      "step": 321
-    },
-    {
-      "epoch": 14.590909090909092,
-      "eval_loss": 0.0015273126773536205,
-      "eval_runtime": 0.2297,
-      "eval_samples_per_second": 383.091,
-      "eval_steps_per_second": 47.886,
-      "step": 321
-    },
-    {
-      "epoch": 14.636363636363637,
-      "grad_norm": 0.021861301735043526,
-      "learning_rate": 1.7723684210526316e-05,
-      "loss": 0.0023,
-      "step": 322
-    },
-    {
-      "epoch": 14.636363636363637,
-      "eval_loss": 0.0015220079803839326,
-      "eval_runtime": 0.2395,
-      "eval_samples_per_second": 367.485,
-      "eval_steps_per_second": 45.936,
-      "step": 322
-    },
-    {
-      "epoch": 14.681818181818182,
-      "grad_norm": 0.02089674212038517,
-      "learning_rate": 1.7684210526315787e-05,
-      "loss": 0.0025,
-      "step": 323
-    },
-    {
-      "epoch": 14.681818181818182,
-      "eval_loss": 0.0015169020043686032,
-      "eval_runtime": 0.2277,
-      "eval_samples_per_second": 386.55,
-      "eval_steps_per_second": 48.319,
-      "step": 323
-    },
-    {
-      "epoch": 14.727272727272727,
-      "grad_norm": 0.026943515986204147,
-      "learning_rate": 1.7644736842105264e-05,
-      "loss": 0.0027,
-      "step": 324
-    },
-    {
-      "epoch": 14.727272727272727,
-      "eval_loss": 0.0015122044133022428,
-      "eval_runtime": 0.2504,
-      "eval_samples_per_second": 351.497,
-      "eval_steps_per_second": 43.937,
-      "step": 324
-    },
-    {
-      "epoch": 14.772727272727273,
-      "grad_norm": 0.021125871688127518,
-      "learning_rate": 1.760526315789474e-05,
-      "loss": 0.0024,
-      "step": 325
-    },
-    {
-      "epoch": 14.772727272727273,
-      "eval_loss": 0.0015074351103976369,
-      "eval_runtime": 0.2277,
-      "eval_samples_per_second": 386.421,
-      "eval_steps_per_second": 48.303,
-      "step": 325
-    },
-    {
-      "epoch": 14.818181818181818,
-      "grad_norm": 0.023058133199810982,
-      "learning_rate": 1.756578947368421e-05,
-      "loss": 0.0025,
-      "step": 326
-    },
-    {
-      "epoch": 14.818181818181818,
-      "eval_loss": 0.001502548111602664,
-      "eval_runtime": 0.2371,
-      "eval_samples_per_second": 371.118,
-      "eval_steps_per_second": 46.39,
-      "step": 326
-    },
-    {
-      "epoch": 14.863636363636363,
-      "grad_norm": 0.020260730758309364,
-      "learning_rate": 1.7526315789473687e-05,
-      "loss": 0.0023,
-      "step": 327
-    },
-    {
-      "epoch": 14.863636363636363,
-      "eval_loss": 0.0014978590188547969,
-      "eval_runtime": 0.231,
-      "eval_samples_per_second": 380.935,
-      "eval_steps_per_second": 47.617,
-      "step": 327
-    },
-    {
-      "epoch": 14.909090909090908,
-      "grad_norm": 0.021094167605042458,
-      "learning_rate": 1.7486842105263158e-05,
-      "loss": 0.0024,
-      "step": 328
-    },
-    {
-      "epoch": 14.909090909090908,
-      "eval_loss": 0.0014932234771549702,
-      "eval_runtime": 0.2309,
-      "eval_samples_per_second": 381.042,
-      "eval_steps_per_second": 47.63,
-      "step": 328
-    },
-    {
-      "epoch": 14.954545454545455,
-      "grad_norm": 0.023162171244621277,
-      "learning_rate": 1.7447368421052632e-05,
-      "loss": 0.0027,
-      "step": 329
-    },
-    {
-      "epoch": 14.954545454545455,
-      "eval_loss": 0.0014887653524056077,
-      "eval_runtime": 0.2298,
-      "eval_samples_per_second": 382.875,
-      "eval_steps_per_second": 47.859,
-      "step": 329
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 0.021899493411183357,
-      "learning_rate": 1.7407894736842106e-05,
-      "loss": 0.0026,
-      "step": 330
-    },
-    {
-      "epoch": 15.0,
-      "eval_loss": 0.0014844763791188598,
-      "eval_runtime": 0.2287,
-      "eval_samples_per_second": 384.811,
-      "eval_steps_per_second": 48.101,
-      "step": 330
-    },
-    {
-      "epoch": 15.045454545454545,
-      "grad_norm": 0.02722894586622715,
-      "learning_rate": 1.736842105263158e-05,
-      "loss": 0.0029,
-      "step": 331
-    },
-    {
-      "epoch": 15.045454545454545,
-      "eval_loss": 0.001479836879298091,
-      "eval_runtime": 0.2296,
-      "eval_samples_per_second": 383.331,
-      "eval_steps_per_second": 47.916,
-      "step": 331
-    },
-    {
-      "epoch": 15.090909090909092,
-      "grad_norm": 0.0198600422590971,
-      "learning_rate": 1.732894736842105e-05,
-      "loss": 0.0023,
-      "step": 332
-    },
-    {
-      "epoch": 15.090909090909092,
-      "eval_loss": 0.001475546509027481,
-      "eval_runtime": 0.2293,
-      "eval_samples_per_second": 383.783,
-      "eval_steps_per_second": 47.973,
-      "step": 332
-    },
-    {
-      "epoch": 15.136363636363637,
-      "grad_norm": 0.018213720992207527,
-      "learning_rate": 1.728947368421053e-05,
-      "loss": 0.0021,
-      "step": 333
-    },
-    {
-      "epoch": 15.136363636363637,
-      "eval_loss": 0.0014714114367961884,
-      "eval_runtime": 0.2229,
-      "eval_samples_per_second": 394.882,
-      "eval_steps_per_second": 49.36,
-      "step": 333
-    },
-    {
-      "epoch": 15.181818181818182,
-      "grad_norm": 0.02195083722472191,
-      "learning_rate": 1.725e-05,
-      "loss": 0.0026,
-      "step": 334
-    },
-    {
-      "epoch": 15.181818181818182,
-      "eval_loss": 0.0014672887045890093,
-      "eval_runtime": 0.2307,
-      "eval_samples_per_second": 381.499,
-      "eval_steps_per_second": 47.687,
-      "step": 334
-    },
-    {
-      "epoch": 15.227272727272727,
-      "grad_norm": 0.020630402490496635,
-      "learning_rate": 1.7210526315789473e-05,
-      "loss": 0.0023,
-      "step": 335
-    },
-    {
-      "epoch": 15.227272727272727,
-      "eval_loss": 0.0014632240636274219,
-      "eval_runtime": 0.2345,
-      "eval_samples_per_second": 375.326,
-      "eval_steps_per_second": 46.916,
-      "step": 335
-    },
-    {
-      "epoch": 15.272727272727273,
-      "grad_norm": 0.01985459215939045,
-      "learning_rate": 1.7171052631578947e-05,
-      "loss": 0.0024,
-      "step": 336
-    },
-    {
-      "epoch": 15.272727272727273,
-      "eval_loss": 0.0014591444050893188,
-      "eval_runtime": 0.2344,
-      "eval_samples_per_second": 375.401,
-      "eval_steps_per_second": 46.925,
-      "step": 336
-    },
-    {
-      "epoch": 15.318181818181818,
-      "grad_norm": 0.02400742471218109,
-      "learning_rate": 1.713157894736842e-05,
-      "loss": 0.0024,
-      "step": 337
-    },
-    {
-      "epoch": 15.318181818181818,
-      "eval_loss": 0.001454763114452362,
-      "eval_runtime": 0.2401,
-      "eval_samples_per_second": 366.585,
-      "eval_steps_per_second": 45.823,
-      "step": 337
-    },
-    {
-      "epoch": 15.363636363636363,
-      "grad_norm": 0.02545950934290886,
-      "learning_rate": 1.7092105263157896e-05,
-      "loss": 0.0026,
-      "step": 338
-    },
-    {
-      "epoch": 15.363636363636363,
-      "eval_loss": 0.0014504102291539311,
-      "eval_runtime": 0.2315,
-      "eval_samples_per_second": 380.122,
-      "eval_steps_per_second": 47.515,
-      "step": 338
-    },
-    {
-      "epoch": 15.409090909090908,
-      "grad_norm": 0.02126440778374672,
-      "learning_rate": 1.705263157894737e-05,
-      "loss": 0.0024,
-      "step": 339
-    },
-    {
-      "epoch": 15.409090909090908,
-      "eval_loss": 0.0014461844693869352,
-      "eval_runtime": 0.2351,
-      "eval_samples_per_second": 374.294,
-      "eval_steps_per_second": 46.787,
-      "step": 339
-    },
-    {
-      "epoch": 15.454545454545455,
-      "grad_norm": 0.025197012349963188,
-      "learning_rate": 1.7013157894736844e-05,
-      "loss": 0.0025,
-      "step": 340
-    },
-    {
-      "epoch": 15.454545454545455,
-      "eval_loss": 0.0014418490463867784,
-      "eval_runtime": 0.2274,
-      "eval_samples_per_second": 387.064,
-      "eval_steps_per_second": 48.383,
-      "step": 340
-    },
-    {
-      "epoch": 15.5,
-      "grad_norm": 0.022640075534582138,
-      "learning_rate": 1.6973684210526315e-05,
-      "loss": 0.0024,
-      "step": 341
-    },
-    {
-      "epoch": 15.5,
-      "eval_loss": 0.0014375299215316772,
-      "eval_runtime": 0.2405,
-      "eval_samples_per_second": 365.83,
-      "eval_steps_per_second": 45.729,
-      "step": 341
-    },
-    {
-      "epoch": 15.545454545454545,
-      "grad_norm": 0.021050602197647095,
-      "learning_rate": 1.6934210526315792e-05,
-      "loss": 0.0024,
-      "step": 342
-    },
-    {
-      "epoch": 15.545454545454545,
-      "eval_loss": 0.0014335111482068896,
-      "eval_runtime": 0.226,
-      "eval_samples_per_second": 389.393,
-      "eval_steps_per_second": 48.674,
-      "step": 342
-    },
-    {
-      "epoch": 15.590909090909092,
-      "grad_norm": 0.0219247005879879,
-      "learning_rate": 1.6894736842105263e-05,
-      "loss": 0.0025,
-      "step": 343
-    },
-    {
-      "epoch": 15.590909090909092,
-      "eval_loss": 0.0014295299770310521,
-      "eval_runtime": 0.2342,
-      "eval_samples_per_second": 375.717,
-      "eval_steps_per_second": 46.965,
-      "step": 343
-    },
-    {
-      "epoch": 15.636363636363637,
-      "grad_norm": 0.020925231277942657,
-      "learning_rate": 1.6855263157894737e-05,
-      "loss": 0.0024,
-      "step": 344
-    },
-    {
-      "epoch": 15.636363636363637,
-      "eval_loss": 0.0014257035218179226,
-      "eval_runtime": 0.2368,
-      "eval_samples_per_second": 371.622,
-      "eval_steps_per_second": 46.453,
-      "step": 344
-    },
-    {
-      "epoch": 15.681818181818182,
-      "grad_norm": 0.019099295139312744,
-      "learning_rate": 1.681578947368421e-05,
-      "loss": 0.0023,
-      "step": 345
-    },
-    {
-      "epoch": 15.681818181818182,
-      "eval_loss": 0.0014218251453712583,
-      "eval_runtime": 0.2291,
-      "eval_samples_per_second": 384.074,
-      "eval_steps_per_second": 48.009,
-      "step": 345
-    },
-    {
-      "epoch": 15.727272727272727,
-      "grad_norm": 0.021133864298462868,
-      "learning_rate": 1.6776315789473686e-05,
-      "loss": 0.0023,
-      "step": 346
-    },
-    {
-      "epoch": 15.727272727272727,
-      "eval_loss": 0.0014178574783727527,
-      "eval_runtime": 0.2372,
-      "eval_samples_per_second": 370.96,
-      "eval_steps_per_second": 46.37,
-      "step": 346
-    },
-    {
-      "epoch": 15.772727272727273,
-      "grad_norm": 0.0220933947712183,
-      "learning_rate": 1.6736842105263156e-05,
-      "loss": 0.0024,
-      "step": 347
-    },
-    {
-      "epoch": 15.772727272727273,
-      "eval_loss": 0.0014137736288830638,
-      "eval_runtime": 0.2311,
-      "eval_samples_per_second": 380.859,
-      "eval_steps_per_second": 47.607,
-      "step": 347
-    },
-    {
-      "epoch": 15.818181818181818,
-      "grad_norm": 0.02274385653436184,
-      "learning_rate": 1.6697368421052634e-05,
-      "loss": 0.0023,
-      "step": 348
-    },
-    {
-      "epoch": 15.818181818181818,
-      "eval_loss": 0.0014094788348302245,
-      "eval_runtime": 0.2489,
-      "eval_samples_per_second": 353.537,
-      "eval_steps_per_second": 44.192,
-      "step": 348
-    },
-    {
-      "epoch": 15.863636363636363,
-      "grad_norm": 0.023772120475769043,
-      "learning_rate": 1.6657894736842105e-05,
-      "loss": 0.0025,
-      "step": 349
-    },
-    {
-      "epoch": 15.863636363636363,
-      "eval_loss": 0.0014053123304620385,
-      "eval_runtime": 0.2394,
-      "eval_samples_per_second": 367.516,
-      "eval_steps_per_second": 45.94,
-      "step": 349
-    },
-    {
-      "epoch": 15.909090909090908,
-      "grad_norm": 0.023701833561062813,
-      "learning_rate": 1.661842105263158e-05,
-      "loss": 0.0026,
-      "step": 350
-    },
-    {
-      "epoch": 15.909090909090908,
-      "eval_loss": 0.0014007468707859516,
-      "eval_runtime": 0.2428,
-      "eval_samples_per_second": 362.454,
-      "eval_steps_per_second": 45.307,
-      "step": 350
-    },
-    {
-      "epoch": 15.954545454545455,
-      "grad_norm": 0.020177854225039482,
-      "learning_rate": 1.6578947368421053e-05,
-      "loss": 0.0023,
-      "step": 351
-    },
-    {
-      "epoch": 15.954545454545455,
-      "eval_loss": 0.001396444975398481,
-      "eval_runtime": 0.2227,
-      "eval_samples_per_second": 395.086,
-      "eval_steps_per_second": 49.386,
-      "step": 351
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 0.018302910029888153,
-      "learning_rate": 1.6539473684210527e-05,
-      "loss": 0.0022,
-      "step": 352
-    },
-    {
-      "epoch": 16.0,
-      "eval_loss": 0.0013921987265348434,
-      "eval_runtime": 0.2255,
-      "eval_samples_per_second": 390.23,
-      "eval_steps_per_second": 48.779,
-      "step": 352
-    },
-    {
-      "epoch": 16.045454545454547,
-      "grad_norm": 0.02006903663277626,
-      "learning_rate": 1.65e-05,
-      "loss": 0.0024,
-      "step": 353
-    },
-    {
-      "epoch": 16.045454545454547,
-      "eval_loss": 0.0013879131292924285,
-      "eval_runtime": 0.2332,
-      "eval_samples_per_second": 377.362,
-      "eval_steps_per_second": 47.17,
-      "step": 353
-    },
-    {
-      "epoch": 16.09090909090909,
-      "grad_norm": 0.02006879448890686,
-      "learning_rate": 1.6460526315789472e-05,
-      "loss": 0.0024,
-      "step": 354
-    },
-    {
-      "epoch": 16.09090909090909,
-      "eval_loss": 0.0013836818980053067,
-      "eval_runtime": 0.2294,
-      "eval_samples_per_second": 383.546,
-      "eval_steps_per_second": 47.943,
-      "step": 354
-    },
-    {
-      "epoch": 16.136363636363637,
-      "grad_norm": 0.01927405595779419,
-      "learning_rate": 1.642105263157895e-05,
-      "loss": 0.0021,
-      "step": 355
-    },
-    {
-      "epoch": 16.136363636363637,
-      "eval_loss": 0.001379486988298595,
-      "eval_runtime": 0.2304,
-      "eval_samples_per_second": 381.9,
-      "eval_steps_per_second": 47.738,
-      "step": 355
-    },
-    {
-      "epoch": 16.181818181818183,
-      "grad_norm": 0.019441615790128708,
-      "learning_rate": 1.638157894736842e-05,
-      "loss": 0.0024,
-      "step": 356
-    },
-    {
-      "epoch": 16.181818181818183,
-      "eval_loss": 0.0013752405066043139,
-      "eval_runtime": 0.2339,
-      "eval_samples_per_second": 376.279,
-      "eval_steps_per_second": 47.035,
-      "step": 356
-    },
-    {
-      "epoch": 16.227272727272727,
-      "grad_norm": 0.019047444686293602,
-      "learning_rate": 1.6342105263157894e-05,
-      "loss": 0.0022,
-      "step": 357
-    },
-    {
-      "epoch": 16.227272727272727,
-      "eval_loss": 0.0013710103230550885,
-      "eval_runtime": 0.2296,
-      "eval_samples_per_second": 383.255,
-      "eval_steps_per_second": 47.907,
-      "step": 357
-    },
-    {
-      "epoch": 16.272727272727273,
-      "grad_norm": 0.02004443109035492,
-      "learning_rate": 1.630263157894737e-05,
-      "loss": 0.002,
-      "step": 358
-    },
-    {
-      "epoch": 16.272727272727273,
-      "eval_loss": 0.0013666612794622779,
-      "eval_runtime": 0.2306,
-      "eval_samples_per_second": 381.651,
-      "eval_steps_per_second": 47.706,
-      "step": 358
-    },
-    {
-      "epoch": 16.318181818181817,
-      "grad_norm": 0.018162380903959274,
-      "learning_rate": 1.6263157894736843e-05,
-      "loss": 0.0022,
-      "step": 359
-    },
-    {
-      "epoch": 16.318181818181817,
-      "eval_loss": 0.0013625015271827579,
-      "eval_runtime": 0.2336,
-      "eval_samples_per_second": 376.757,
-      "eval_steps_per_second": 47.095,
-      "step": 359
-    },
-    {
-      "epoch": 16.363636363636363,
-      "grad_norm": 0.01866663061082363,
-      "learning_rate": 1.6223684210526314e-05,
-      "loss": 0.0023,
-      "step": 360
-    },
-    {
-      "epoch": 16.363636363636363,
-      "eval_loss": 0.001358471461571753,
-      "eval_runtime": 0.234,
-      "eval_samples_per_second": 376.031,
-      "eval_steps_per_second": 47.004,
-      "step": 360
-    },
-    {
-      "epoch": 16.40909090909091,
-      "grad_norm": 0.023692943155765533,
-      "learning_rate": 1.618421052631579e-05,
-      "loss": 0.0021,
-      "step": 361
-    },
-    {
-      "epoch": 16.40909090909091,
-      "eval_loss": 0.001354728126898408,
-      "eval_runtime": 0.236,
-      "eval_samples_per_second": 372.916,
-      "eval_steps_per_second": 46.614,
-      "step": 361
-    },
-    {
-      "epoch": 16.454545454545453,
-      "grad_norm": 0.021557440981268883,
-      "learning_rate": 1.6144736842105262e-05,
-      "loss": 0.0025,
-      "step": 362
-    },
-    {
-      "epoch": 16.454545454545453,
-      "eval_loss": 0.0013508024858310819,
-      "eval_runtime": 0.2359,
-      "eval_samples_per_second": 373.118,
-      "eval_steps_per_second": 46.64,
-      "step": 362
-    },
-    {
-      "epoch": 16.5,
-      "grad_norm": 0.02110958844423294,
-      "learning_rate": 1.6105263157894736e-05,
-      "loss": 0.0023,
-      "step": 363
-    },
-    {
-      "epoch": 16.5,
-      "eval_loss": 0.0013467645039781928,
-      "eval_runtime": 0.2299,
-      "eval_samples_per_second": 382.703,
-      "eval_steps_per_second": 47.838,
-      "step": 363
-    },
-    {
-      "epoch": 16.545454545454547,
-      "grad_norm": 0.019328676164150238,
-      "learning_rate": 1.6065789473684214e-05,
-      "loss": 0.0024,
-      "step": 364
-    },
-    {
-      "epoch": 16.545454545454547,
-      "eval_loss": 0.0013428251259028912,
-      "eval_runtime": 0.2289,
-      "eval_samples_per_second": 384.389,
-      "eval_steps_per_second": 48.049,
-      "step": 364
-    },
-    {
-      "epoch": 16.59090909090909,
-      "grad_norm": 0.022835319861769676,
-      "learning_rate": 1.6026315789473684e-05,
-      "loss": 0.0023,
-      "step": 365
-    },
-    {
-      "epoch": 16.59090909090909,
-      "eval_loss": 0.0013391603715717793,
-      "eval_runtime": 0.2311,
-      "eval_samples_per_second": 380.86,
-      "eval_steps_per_second": 47.607,
-      "step": 365
-    },
-    {
-      "epoch": 16.636363636363637,
-      "grad_norm": 0.01819239743053913,
-      "learning_rate": 1.598684210526316e-05,
-      "loss": 0.0022,
-      "step": 366
-    },
-    {
-      "epoch": 16.636363636363637,
-      "eval_loss": 0.0013354604598134756,
-      "eval_runtime": 0.2268,
-      "eval_samples_per_second": 388.088,
-      "eval_steps_per_second": 48.511,
-      "step": 366
-    },
-    {
-      "epoch": 16.681818181818183,
-      "grad_norm": 0.019428908824920654,
-      "learning_rate": 1.5947368421052633e-05,
-      "loss": 0.0021,
-      "step": 367
-    },
-    {
-      "epoch": 16.681818181818183,
-      "eval_loss": 0.001331814331933856,
-      "eval_runtime": 0.2357,
-      "eval_samples_per_second": 373.331,
-      "eval_steps_per_second": 46.666,
-      "step": 367
-    },
-    {
-      "epoch": 16.727272727272727,
-      "grad_norm": 0.018047934398055077,
-      "learning_rate": 1.5907894736842107e-05,
-      "loss": 0.0022,
-      "step": 368
-    },
-    {
-      "epoch": 16.727272727272727,
-      "eval_loss": 0.0013281968422234058,
-      "eval_runtime": 0.2353,
-      "eval_samples_per_second": 374.058,
-      "eval_steps_per_second": 46.757,
-      "step": 368
-    },
-    {
-      "epoch": 16.772727272727273,
-      "grad_norm": 0.022303372621536255,
-      "learning_rate": 1.5868421052631578e-05,
-      "loss": 0.0022,
-      "step": 369
-    },
-    {
-      "epoch": 16.772727272727273,
-      "eval_loss": 0.0013246661983430386,
-      "eval_runtime": 0.2364,
-      "eval_samples_per_second": 372.233,
-      "eval_steps_per_second": 46.529,
-      "step": 369
-    },
-    {
-      "epoch": 16.818181818181817,
-      "grad_norm": 0.017466159537434578,
-      "learning_rate": 1.5828947368421055e-05,
-      "loss": 0.0021,
-      "step": 370
-    },
-    {
-      "epoch": 16.818181818181817,
-      "eval_loss": 0.001321229967288673,
-      "eval_runtime": 0.2328,
-      "eval_samples_per_second": 378.075,
-      "eval_steps_per_second": 47.259,
-      "step": 370
-    },
-    {
-      "epoch": 16.863636363636363,
-      "grad_norm": 0.018749618902802467,
-      "learning_rate": 1.5789473684210526e-05,
-      "loss": 0.0021,
-      "step": 371
-    },
-    {
-      "epoch": 16.863636363636363,
-      "eval_loss": 0.0013179152738302946,
-      "eval_runtime": 0.2372,
-      "eval_samples_per_second": 371.017,
-      "eval_steps_per_second": 46.377,
-      "step": 371
-    },
-    {
-      "epoch": 16.90909090909091,
-      "grad_norm": 0.01943541131913662,
-      "learning_rate": 1.575e-05,
-      "loss": 0.0021,
-      "step": 372
-    },
-    {
-      "epoch": 16.90909090909091,
-      "eval_loss": 0.0013147753197699785,
-      "eval_runtime": 0.2325,
-      "eval_samples_per_second": 378.47,
-      "eval_steps_per_second": 47.309,
-      "step": 372
-    },
-    {
-      "epoch": 16.954545454545453,
-      "grad_norm": 0.018470529466867447,
-      "learning_rate": 1.5710526315789474e-05,
-      "loss": 0.0021,
-      "step": 373
-    },
-    {
-      "epoch": 16.954545454545453,
-      "eval_loss": 0.0013116110349074006,
-      "eval_runtime": 0.2449,
-      "eval_samples_per_second": 359.303,
-      "eval_steps_per_second": 44.913,
-      "step": 373
-    },
-    {
-      "epoch": 17.0,
-      "grad_norm": 0.02088373526930809,
-      "learning_rate": 1.5671052631578948e-05,
-      "loss": 0.0022,
-      "step": 374
-    },
-    {
-      "epoch": 17.0,
-      "eval_loss": 0.0013083978556096554,
-      "eval_runtime": 0.2373,
-      "eval_samples_per_second": 370.786,
-      "eval_steps_per_second": 46.348,
-      "step": 374
-    },
-    {
-      "epoch": 17.045454545454547,
-      "grad_norm": 0.02049199491739273,
-      "learning_rate": 1.563157894736842e-05,
-      "loss": 0.0021,
-      "step": 375
-    },
-    {
-      "epoch": 17.045454545454547,
-      "eval_loss": 0.0013052173890173435,
-      "eval_runtime": 0.2375,
-      "eval_samples_per_second": 370.52,
-      "eval_steps_per_second": 46.315,
-      "step": 375
-    },
-    {
-      "epoch": 17.09090909090909,
-      "grad_norm": 0.022884204983711243,
-      "learning_rate": 1.5592105263157897e-05,
-      "loss": 0.0023,
-      "step": 376
-    },
-    {
-      "epoch": 17.09090909090909,
-      "eval_loss": 0.0013022100320085883,
-      "eval_runtime": 0.2451,
-      "eval_samples_per_second": 359.032,
-      "eval_steps_per_second": 44.879,
-      "step": 376
-    },
-    {
-      "epoch": 17.136363636363637,
-      "grad_norm": 0.018668444827198982,
-      "learning_rate": 1.5552631578947367e-05,
-      "loss": 0.002,
-      "step": 377
-    },
-    {
-      "epoch": 17.136363636363637,
-      "eval_loss": 0.0012990765972062945,
-      "eval_runtime": 0.2377,
-      "eval_samples_per_second": 370.243,
-      "eval_steps_per_second": 46.28,
-      "step": 377
-    },
-    {
-      "epoch": 17.181818181818183,
-      "grad_norm": 0.018272867426276207,
-      "learning_rate": 1.551315789473684e-05,
-      "loss": 0.002,
-      "step": 378
-    },
-    {
-      "epoch": 17.181818181818183,
-      "eval_loss": 0.0012959121959283948,
-      "eval_runtime": 0.2445,
-      "eval_samples_per_second": 359.966,
-      "eval_steps_per_second": 44.996,
-      "step": 378
-    },
-    {
-      "epoch": 17.227272727272727,
-      "grad_norm": 0.018142884597182274,
-      "learning_rate": 1.547368421052632e-05,
-      "loss": 0.0023,
-      "step": 379
-    },
-    {
-      "epoch": 17.227272727272727,
-      "eval_loss": 0.0012926937779411674,
-      "eval_runtime": 0.2463,
-      "eval_samples_per_second": 357.295,
-      "eval_steps_per_second": 44.662,
-      "step": 379
-    },
-    {
-      "epoch": 17.272727272727273,
-      "grad_norm": 0.019035378471016884,
-      "learning_rate": 1.543421052631579e-05,
-      "loss": 0.002,
-      "step": 380
-    },
-    {
-      "epoch": 17.272727272727273,
-      "eval_loss": 0.0012895982945337892,
-      "eval_runtime": 0.2335,
-      "eval_samples_per_second": 376.923,
-      "eval_steps_per_second": 47.115,
-      "step": 380
-    },
-    {
-      "epoch": 17.318181818181817,
-      "grad_norm": 0.02087828330695629,
-      "learning_rate": 1.5394736842105264e-05,
-      "loss": 0.0023,
-      "step": 381
-    },
-    {
-      "epoch": 17.318181818181817,
-      "eval_loss": 0.0012864163145422935,
-      "eval_runtime": 0.2398,
-      "eval_samples_per_second": 367.034,
-      "eval_steps_per_second": 45.879,
-      "step": 381
-    },
-    {
-      "epoch": 17.363636363636363,
-      "grad_norm": 0.019186902791261673,
-      "learning_rate": 1.5355263157894738e-05,
-      "loss": 0.0021,
-      "step": 382
-    },
-    {
-      "epoch": 17.363636363636363,
-      "eval_loss": 0.001283234334550798,
-      "eval_runtime": 0.2265,
-      "eval_samples_per_second": 388.504,
-      "eval_steps_per_second": 48.563,
-      "step": 382
-    },
-    {
-      "epoch": 17.40909090909091,
-      "grad_norm": 0.01789664290845394,
-      "learning_rate": 1.5315789473684212e-05,
-      "loss": 0.002,
-      "step": 383
-    },
-    {
-      "epoch": 17.40909090909091,
-      "eval_loss": 0.0012801456032320857,
-      "eval_runtime": 0.229,
-      "eval_samples_per_second": 384.262,
-      "eval_steps_per_second": 48.033,
-      "step": 383
-    },
-    {
-      "epoch": 17.454545454545453,
-      "grad_norm": 0.017828669399023056,
-      "learning_rate": 1.5276315789473683e-05,
-      "loss": 0.0021,
-      "step": 384
-    },
-    {
-      "epoch": 17.454545454545453,
-      "eval_loss": 0.0012770771281793714,
-      "eval_runtime": 0.2259,
-      "eval_samples_per_second": 389.598,
-      "eval_steps_per_second": 48.7,
-      "step": 384
-    },
-    {
-      "epoch": 17.5,
-      "grad_norm": 0.0225471593439579,
-      "learning_rate": 1.5236842105263159e-05,
-      "loss": 0.0022,
-      "step": 385
-    },
-    {
-      "epoch": 17.5,
-      "eval_loss": 0.0012742335675284266,
-      "eval_runtime": 0.2398,
-      "eval_samples_per_second": 366.97,
-      "eval_steps_per_second": 45.871,
-      "step": 385
-    },
-    {
-      "epoch": 17.545454545454547,
-      "grad_norm": 0.02024303376674652,
-      "learning_rate": 1.5197368421052631e-05,
-      "loss": 0.0021,
-      "step": 386
-    },
-    {
-      "epoch": 17.545454545454547,
-      "eval_loss": 0.0012715155025944114,
-      "eval_runtime": 0.2322,
-      "eval_samples_per_second": 378.914,
-      "eval_steps_per_second": 47.364,
-      "step": 386
-    },
-    {
-      "epoch": 17.59090909090909,
-      "grad_norm": 0.021520059555768967,
-      "learning_rate": 1.5157894736842105e-05,
-      "loss": 0.0021,
-      "step": 387
-    },
-    {
-      "epoch": 17.59090909090909,
-      "eval_loss": 0.0012686135014519095,
-      "eval_runtime": 0.2273,
-      "eval_samples_per_second": 387.222,
-      "eval_steps_per_second": 48.403,
-      "step": 387
-    },
-    {
-      "epoch": 17.636363636363637,
-      "grad_norm": 0.02026878483593464,
-      "learning_rate": 1.5118421052631578e-05,
-      "loss": 0.0024,
-      "step": 388
-    },
-    {
-      "epoch": 17.636363636363637,
-      "eval_loss": 0.0012655220925807953,
-      "eval_runtime": 0.2345,
-      "eval_samples_per_second": 375.273,
-      "eval_steps_per_second": 46.909,
-      "step": 388
-    },
-    {
-      "epoch": 17.681818181818183,
-      "grad_norm": 0.017312707379460335,
-      "learning_rate": 1.5078947368421054e-05,
-      "loss": 0.0019,
-      "step": 389
-    },
-    {
-      "epoch": 17.681818181818183,
-      "eval_loss": 0.0012624793453142047,
-      "eval_runtime": 0.2341,
-      "eval_samples_per_second": 375.953,
-      "eval_steps_per_second": 46.994,
-      "step": 389
-    },
-    {
-      "epoch": 17.727272727272727,
-      "grad_norm": 0.014796672388911247,
-      "learning_rate": 1.5039473684210525e-05,
-      "loss": 0.0018,
-      "step": 390
-    },
-    {
-      "epoch": 17.727272727272727,
-      "eval_loss": 0.0012595909647643566,
-      "eval_runtime": 0.2412,
-      "eval_samples_per_second": 364.883,
-      "eval_steps_per_second": 45.61,
-      "step": 390
-    },
-    {
-      "epoch": 17.772727272727273,
-      "grad_norm": 0.024672966450452805,
-      "learning_rate": 1.5e-05,
-      "loss": 0.0024,
-      "step": 391
-    },
-    {
-      "epoch": 17.772727272727273,
-      "eval_loss": 0.001256533432751894,
-      "eval_runtime": 0.2394,
-      "eval_samples_per_second": 367.656,
-      "eval_steps_per_second": 45.957,
-      "step": 391
-    },
-    {
-      "epoch": 17.818181818181817,
-      "grad_norm": 0.01785973645746708,
-      "learning_rate": 1.4960526315789475e-05,
-      "loss": 0.0021,
-      "step": 392
-    },
-    {
-      "epoch": 17.818181818181817,
-      "eval_loss": 0.001253555528819561,
-      "eval_runtime": 0.2448,
-      "eval_samples_per_second": 359.499,
-      "eval_steps_per_second": 44.937,
-      "step": 392
-    },
-    {
-      "epoch": 17.863636363636363,
-      "grad_norm": 0.018725674599409103,
-      "learning_rate": 1.4921052631578947e-05,
-      "loss": 0.0022,
-      "step": 393
-    },
-    {
-      "epoch": 17.863636363636363,
-      "eval_loss": 0.001250546658411622,
-      "eval_runtime": 0.2295,
-      "eval_samples_per_second": 383.446,
-      "eval_steps_per_second": 47.931,
-      "step": 393
-    },
-    {
-      "epoch": 17.90909090909091,
-      "grad_norm": 0.01906488463282585,
-      "learning_rate": 1.4881578947368421e-05,
-      "loss": 0.0019,
-      "step": 394
-    },
-    {
-      "epoch": 17.90909090909091,
-      "eval_loss": 0.0012476051924750209,
-      "eval_runtime": 0.2392,
-      "eval_samples_per_second": 367.955,
-      "eval_steps_per_second": 45.994,
-      "step": 394
-    },
-    {
-      "epoch": 17.954545454545453,
-      "grad_norm": 0.01702312007546425,
-      "learning_rate": 1.4842105263157895e-05,
-      "loss": 0.0021,
-      "step": 395
-    },
-    {
-      "epoch": 17.954545454545453,
-      "eval_loss": 0.0012446870096027851,
-      "eval_runtime": 0.2408,
-      "eval_samples_per_second": 365.513,
-      "eval_steps_per_second": 45.689,
-      "step": 395
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 0.018446706235408783,
-      "learning_rate": 1.4802631578947368e-05,
-      "loss": 0.0021,
-      "step": 396
-    },
-    {
-      "epoch": 18.0,
-      "eval_loss": 0.0012417498510330915,
-      "eval_runtime": 0.2401,
-      "eval_samples_per_second": 366.532,
-      "eval_steps_per_second": 45.816,
-      "step": 396
-    },
-    {
-      "epoch": 18.045454545454547,
-      "grad_norm": 0.017580052837729454,
-      "learning_rate": 1.4763157894736842e-05,
-      "loss": 0.002,
-      "step": 397
-    },
-    {
-      "epoch": 18.045454545454547,
-      "eval_loss": 0.0012387962779030204,
-      "eval_runtime": 0.2359,
-      "eval_samples_per_second": 373.019,
-      "eval_steps_per_second": 46.627,
-      "step": 397
-    },
-    {
-      "epoch": 18.09090909090909,
-      "grad_norm": 0.018549149855971336,
-      "learning_rate": 1.4723684210526318e-05,
-      "loss": 0.002,
-      "step": 398
-    },
-    {
-      "epoch": 18.09090909090909,
-      "eval_loss": 0.0012358062667772174,
-      "eval_runtime": 0.2409,
-      "eval_samples_per_second": 365.331,
-      "eval_steps_per_second": 45.666,
-      "step": 398
-    },
-    {
-      "epoch": 18.136363636363637,
-      "grad_norm": 0.021288642659783363,
-      "learning_rate": 1.468421052631579e-05,
-      "loss": 0.0021,
-      "step": 399
-    },
-    {
-      "epoch": 18.136363636363637,
-      "eval_loss": 0.00123285548761487,
-      "eval_runtime": 0.239,
-      "eval_samples_per_second": 368.2,
-      "eval_steps_per_second": 46.025,
-      "step": 399
-    },
-    {
-      "epoch": 18.181818181818183,
-      "grad_norm": 0.018042676150798798,
-      "learning_rate": 1.4644736842105264e-05,
-      "loss": 0.0021,
-      "step": 400
-    },
-    {
-      "epoch": 18.181818181818183,
-      "eval_loss": 0.0012299600057303905,
-      "eval_runtime": 0.2368,
-      "eval_samples_per_second": 371.628,
-      "eval_steps_per_second": 46.454,
-      "step": 400
-    },
-    {
-      "epoch": 18.227272727272727,
-      "grad_norm": 0.017950624227523804,
-      "learning_rate": 1.4605263157894737e-05,
-      "loss": 0.002,
-      "step": 401
-    },
-    {
-      "epoch": 18.227272727272727,
-      "eval_loss": 0.0012270959559828043,
-      "eval_runtime": 0.2217,
-      "eval_samples_per_second": 396.934,
-      "eval_steps_per_second": 49.617,
-      "step": 401
-    },
-    {
-      "epoch": 18.272727272727273,
-      "grad_norm": 0.016649143770337105,
-      "learning_rate": 1.4565789473684211e-05,
-      "loss": 0.002,
-      "step": 402
-    },
-    {
-      "epoch": 18.272727272727273,
-      "eval_loss": 0.0012242384254932404,
-      "eval_runtime": 0.2287,
-      "eval_samples_per_second": 384.84,
-      "eval_steps_per_second": 48.105,
-      "step": 402
-    },
-    {
-      "epoch": 18.318181818181817,
-      "grad_norm": 0.016468649730086327,
-      "learning_rate": 1.4526315789473685e-05,
-      "loss": 0.0018,
-      "step": 403
-    },
-    {
-      "epoch": 18.318181818181817,
-      "eval_loss": 0.001221520360559225,
-      "eval_runtime": 0.2271,
-      "eval_samples_per_second": 387.51,
-      "eval_steps_per_second": 48.439,
-      "step": 403
-    },
-    {
-      "epoch": 18.363636363636363,
-      "grad_norm": 0.01778615266084671,
-      "learning_rate": 1.4486842105263158e-05,
-      "loss": 0.002,
-      "step": 404
-    },
-    {
-      "epoch": 18.363636363636363,
-      "eval_loss": 0.0012188454857096076,
-      "eval_runtime": 0.2323,
-      "eval_samples_per_second": 378.869,
-      "eval_steps_per_second": 47.359,
-      "step": 404
-    },
-    {
-      "epoch": 18.40909090909091,
-      "grad_norm": 0.019096923992037773,
-      "learning_rate": 1.4447368421052632e-05,
-      "loss": 0.0021,
-      "step": 405
-    },
-    {
-      "epoch": 18.40909090909091,
-      "eval_loss": 0.0012163707287982106,
-      "eval_runtime": 0.2287,
-      "eval_samples_per_second": 384.807,
-      "eval_steps_per_second": 48.101,
-      "step": 405
-    },
-    {
-      "epoch": 18.454545454545453,
-      "grad_norm": 0.020378055050969124,
-      "learning_rate": 1.4407894736842106e-05,
-      "loss": 0.0019,
-      "step": 406
-    },
-    {
-      "epoch": 18.454545454545453,
-      "eval_loss": 0.0012139691971242428,
-      "eval_runtime": 0.2285,
-      "eval_samples_per_second": 385.172,
-      "eval_steps_per_second": 48.146,
-      "step": 406
-    },
-    {
-      "epoch": 18.5,
-      "grad_norm": 0.01801607571542263,
-      "learning_rate": 1.4368421052631578e-05,
-      "loss": 0.0019,
-      "step": 407
-    },
-    {
-      "epoch": 18.5,
-      "eval_loss": 0.0012113729026168585,
-      "eval_runtime": 0.2323,
-      "eval_samples_per_second": 378.867,
-      "eval_steps_per_second": 47.358,
-      "step": 407
-    },
-    {
-      "epoch": 18.545454545454547,
-      "grad_norm": 0.016806334257125854,
-      "learning_rate": 1.4328947368421052e-05,
-      "loss": 0.0019,
-      "step": 408
-    },
-    {
-      "epoch": 18.545454545454547,
-      "eval_loss": 0.0012086898786947131,
-      "eval_runtime": 0.2266,
-      "eval_samples_per_second": 388.422,
-      "eval_steps_per_second": 48.553,
-      "step": 408
-    },
-    {
-      "epoch": 18.59090909090909,
-      "grad_norm": 0.01768423058092594,
-      "learning_rate": 1.4289473684210527e-05,
-      "loss": 0.0019,
-      "step": 409
-    },
-    {
-      "epoch": 18.59090909090909,
-      "eval_loss": 0.001205993234179914,
-      "eval_runtime": 0.233,
-      "eval_samples_per_second": 377.712,
-      "eval_steps_per_second": 47.214,
-      "step": 409
-    },
-    {
-      "epoch": 18.636363636363637,
-      "grad_norm": 0.016840273514389992,
-      "learning_rate": 1.4249999999999999e-05,
-      "loss": 0.0019,
-      "step": 410
-    },
-    {
-      "epoch": 18.636363636363637,
-      "eval_loss": 0.00120334152597934,
-      "eval_runtime": 0.2278,
-      "eval_samples_per_second": 386.255,
-      "eval_steps_per_second": 48.282,
-      "step": 410
-    },
-    {
-      "epoch": 18.681818181818183,
-      "grad_norm": 0.019254090264439583,
-      "learning_rate": 1.4210526315789473e-05,
-      "loss": 0.0021,
-      "step": 411
-    },
-    {
-      "epoch": 18.681818181818183,
-      "eval_loss": 0.001200651633553207,
-      "eval_runtime": 0.2414,
-      "eval_samples_per_second": 364.529,
-      "eval_steps_per_second": 45.566,
-      "step": 411
-    },
-    {
-      "epoch": 18.727272727272727,
-      "grad_norm": 0.018222426995635033,
-      "learning_rate": 1.4171052631578949e-05,
-      "loss": 0.0021,
-      "step": 412
-    },
-    {
-      "epoch": 18.727272727272727,
-      "eval_loss": 0.0011977426474913955,
-      "eval_runtime": 0.2297,
-      "eval_samples_per_second": 383.168,
-      "eval_steps_per_second": 47.896,
-      "step": 412
-    },
-    {
-      "epoch": 18.772727272727273,
-      "grad_norm": 0.017460381612181664,
-      "learning_rate": 1.4131578947368422e-05,
-      "loss": 0.0019,
-      "step": 413
-    },
-    {
-      "epoch": 18.772727272727273,
-      "eval_loss": 0.0011948675382882357,
-      "eval_runtime": 0.2295,
-      "eval_samples_per_second": 383.384,
-      "eval_steps_per_second": 47.923,
-      "step": 413
-    },
-    {
-      "epoch": 18.818181818181817,
-      "grad_norm": 0.014636803418397903,
-      "learning_rate": 1.4092105263157896e-05,
-      "loss": 0.0018,
-      "step": 414
-    },
-    {
-      "epoch": 18.818181818181817,
-      "eval_loss": 0.0011919679818674922,
-      "eval_runtime": 0.2375,
-      "eval_samples_per_second": 370.502,
-      "eval_steps_per_second": 46.313,
-      "step": 414
-    },
-    {
-      "epoch": 18.863636363636363,
-      "grad_norm": 0.01725298911333084,
-      "learning_rate": 1.405263157894737e-05,
-      "loss": 0.0019,
-      "step": 415
-    },
-    {
-      "epoch": 18.863636363636363,
-      "eval_loss": 0.0011888709850609303,
-      "eval_runtime": 0.2319,
-      "eval_samples_per_second": 379.492,
-      "eval_steps_per_second": 47.437,
-      "step": 415
-    },
-    {
-      "epoch": 18.90909090909091,
-      "grad_norm": 0.017635343596339226,
-      "learning_rate": 1.4013157894736842e-05,
-      "loss": 0.0019,
-      "step": 416
-    },
-    {
-      "epoch": 18.90909090909091,
-      "eval_loss": 0.0011859294027090073,
-      "eval_runtime": 0.232,
-      "eval_samples_per_second": 379.329,
-      "eval_steps_per_second": 47.416,
-      "step": 416
-    },
-    {
-      "epoch": 18.954545454545453,
-      "grad_norm": 0.017270755022764206,
-      "learning_rate": 1.3973684210526316e-05,
-      "loss": 0.002,
-      "step": 417
-    },
-    {
-      "epoch": 18.954545454545453,
-      "eval_loss": 0.0011831001611426473,
-      "eval_runtime": 0.2293,
-      "eval_samples_per_second": 383.786,
-      "eval_steps_per_second": 47.973,
-      "step": 417
-    },
-    {
-      "epoch": 19.0,
-      "grad_norm": 0.017159774899482727,
-      "learning_rate": 1.393421052631579e-05,
-      "loss": 0.0018,
-      "step": 418
-    },
-    {
-      "epoch": 19.0,
-      "eval_loss": 0.001180406310595572,
-      "eval_runtime": 0.2475,
-      "eval_samples_per_second": 355.577,
-      "eval_steps_per_second": 44.447,
-      "step": 418
-    },
-    {
-      "epoch": 19.045454545454547,
-      "grad_norm": 0.015916157513856888,
-      "learning_rate": 1.3894736842105263e-05,
-      "loss": 0.0018,
-      "step": 419
-    },
-    {
-      "epoch": 19.045454545454547,
-      "eval_loss": 0.0011776703177019954,
-      "eval_runtime": 0.2406,
-      "eval_samples_per_second": 365.71,
-      "eval_steps_per_second": 45.714,
-      "step": 419
-    },
-    {
-      "epoch": 19.09090909090909,
-      "grad_norm": 0.016425369307398796,
-      "learning_rate": 1.3855263157894737e-05,
-      "loss": 0.002,
-      "step": 420
-    },
-    {
-      "epoch": 19.09090909090909,
-      "eval_loss": 0.0011750170961022377,
-      "eval_runtime": 0.2379,
-      "eval_samples_per_second": 369.975,
-      "eval_steps_per_second": 46.247,
-      "step": 420
-    },
-    {
-      "epoch": 19.136363636363637,
-      "grad_norm": 0.017857089638710022,
-      "learning_rate": 1.3815789473684211e-05,
-      "loss": 0.0019,
-      "step": 421
-    },
-    {
-      "epoch": 19.136363636363637,
-      "eval_loss": 0.0011724097421392798,
-      "eval_runtime": 0.2504,
-      "eval_samples_per_second": 351.397,
-      "eval_steps_per_second": 43.925,
-      "step": 421
-    },
-    {
-      "epoch": 19.181818181818183,
-      "grad_norm": 0.01837003231048584,
-      "learning_rate": 1.3776315789473684e-05,
-      "loss": 0.0022,
-      "step": 422
-    },
-    {
-      "epoch": 19.181818181818183,
-      "eval_loss": 0.0011697578011080623,
-      "eval_runtime": 0.2585,
-      "eval_samples_per_second": 340.422,
-      "eval_steps_per_second": 42.553,
-      "step": 422
-    },
-    {
-      "epoch": 19.227272727272727,
-      "grad_norm": 0.019487086683511734,
-      "learning_rate": 1.3736842105263158e-05,
-      "loss": 0.0021,
-      "step": 423
-    },
-    {
-      "epoch": 19.227272727272727,
-      "eval_loss": 0.0011671868851408362,
-      "eval_runtime": 0.2398,
-      "eval_samples_per_second": 366.896,
-      "eval_steps_per_second": 45.862,
-      "step": 423
-    },
-    {
-      "epoch": 19.272727272727273,
-      "grad_norm": 0.016021518036723137,
-      "learning_rate": 1.369736842105263e-05,
-      "loss": 0.0019,
-      "step": 424
-    },
-    {
-      "epoch": 19.272727272727273,
-      "eval_loss": 0.001164758112281561,
-      "eval_runtime": 0.2642,
-      "eval_samples_per_second": 333.083,
-      "eval_steps_per_second": 41.635,
-      "step": 424
-    },
-    {
-      "epoch": 19.318181818181817,
-      "grad_norm": 0.018122289329767227,
-      "learning_rate": 1.3657894736842106e-05,
-      "loss": 0.0019,
-      "step": 425
-    },
-    {
-      "epoch": 19.318181818181817,
-      "eval_loss": 0.001162288710474968,
-      "eval_runtime": 0.2578,
-      "eval_samples_per_second": 341.316,
-      "eval_steps_per_second": 42.665,
-      "step": 425
-    },
-    {
-      "epoch": 19.363636363636363,
-      "grad_norm": 0.015892351046204567,
-      "learning_rate": 1.361842105263158e-05,
-      "loss": 0.0018,
-      "step": 426
-    },
-    {
-      "epoch": 19.363636363636363,
-      "eval_loss": 0.001159931649453938,
-      "eval_runtime": 0.2409,
-      "eval_samples_per_second": 365.291,
-      "eval_steps_per_second": 45.661,
-      "step": 426
-    },
-    {
-      "epoch": 19.40909090909091,
-      "grad_norm": 0.015699921175837517,
-      "learning_rate": 1.3578947368421053e-05,
-      "loss": 0.0019,
-      "step": 427
-    },
-    {
-      "epoch": 19.40909090909091,
-      "eval_loss": 0.0011575055541470647,
-      "eval_runtime": 0.2388,
-      "eval_samples_per_second": 368.523,
-      "eval_steps_per_second": 46.065,
-      "step": 427
-    },
-    {
-      "epoch": 19.454545454545453,
-      "grad_norm": 0.01474451832473278,
-      "learning_rate": 1.3539473684210527e-05,
-      "loss": 0.0017,
-      "step": 428
-    },
-    {
-      "epoch": 19.454545454545453,
-      "eval_loss": 0.001155222998932004,
-      "eval_runtime": 0.2408,
-      "eval_samples_per_second": 365.449,
-      "eval_steps_per_second": 45.681,
-      "step": 428
-    },
-    {
-      "epoch": 19.5,
-      "grad_norm": 0.016437875106930733,
-      "learning_rate": 1.3500000000000001e-05,
-      "loss": 0.0018,
-      "step": 429
-    },
-    {
-      "epoch": 19.5,
-      "eval_loss": 0.0011530268238857388,
-      "eval_runtime": 0.2325,
-      "eval_samples_per_second": 378.535,
-      "eval_steps_per_second": 47.317,
-      "step": 429
-    },
-    {
-      "epoch": 19.545454545454547,
-      "grad_norm": 0.01538484264165163,
-      "learning_rate": 1.3460526315789474e-05,
-      "loss": 0.0018,
-      "step": 430
-    },
-    {
-      "epoch": 19.545454545454547,
-      "eval_loss": 0.0011508835013955832,
-      "eval_runtime": 0.2309,
-      "eval_samples_per_second": 381.166,
-      "eval_steps_per_second": 47.646,
-      "step": 430
-    },
-    {
-      "epoch": 19.59090909090909,
-      "grad_norm": 0.017129214480519295,
-      "learning_rate": 1.3421052631578948e-05,
-      "loss": 0.0019,
-      "step": 431
-    },
-    {
-      "epoch": 19.59090909090909,
-      "eval_loss": 0.0011487645097076893,
-      "eval_runtime": 0.2362,
-      "eval_samples_per_second": 372.58,
-      "eval_steps_per_second": 46.573,
-      "step": 431
-    },
-    {
-      "epoch": 19.636363636363637,
-      "grad_norm": 0.016592320054769516,
-      "learning_rate": 1.3381578947368422e-05,
-      "loss": 0.0019,
-      "step": 432
-    },
-    {
-      "epoch": 19.636363636363637,
-      "eval_loss": 0.0011467835865914822,
-      "eval_runtime": 0.2418,
-      "eval_samples_per_second": 364.003,
-      "eval_steps_per_second": 45.5,
-      "step": 432
-    },
-    {
-      "epoch": 19.681818181818183,
-      "grad_norm": 0.018111824989318848,
-      "learning_rate": 1.3342105263157894e-05,
-      "loss": 0.0019,
-      "step": 433
-    },
-    {
-      "epoch": 19.681818181818183,
-      "eval_loss": 0.0011448581935837865,
-      "eval_runtime": 0.2437,
-      "eval_samples_per_second": 361.142,
-      "eval_steps_per_second": 45.143,
-      "step": 433
-    },
-    {
-      "epoch": 19.727272727272727,
-      "grad_norm": 0.01678645797073841,
-      "learning_rate": 1.3302631578947369e-05,
-      "loss": 0.0018,
-      "step": 434
-    },
-    {
-      "epoch": 19.727272727272727,
-      "eval_loss": 0.0011427812278270721,
-      "eval_runtime": 0.229,
-      "eval_samples_per_second": 384.254,
-      "eval_steps_per_second": 48.032,
-      "step": 434
-    },
-    {
-      "epoch": 19.772727272727273,
-      "grad_norm": 0.01921844109892845,
-      "learning_rate": 1.3263157894736843e-05,
-      "loss": 0.0021,
-      "step": 435
-    },
-    {
-      "epoch": 19.772727272727273,
-      "eval_loss": 0.0011407433776184916,
-      "eval_runtime": 0.24,
-      "eval_samples_per_second": 366.62,
-      "eval_steps_per_second": 45.828,
-      "step": 435
-    },
-    {
-      "epoch": 19.818181818181817,
-      "grad_norm": 0.01700635813176632,
-      "learning_rate": 1.3223684210526315e-05,
-      "loss": 0.0019,
-      "step": 436
-    },
-    {
-      "epoch": 19.818181818181817,
-      "eval_loss": 0.0011388043640181422,
-      "eval_runtime": 0.241,
-      "eval_samples_per_second": 365.22,
-      "eval_steps_per_second": 45.652,
-      "step": 436
-    },
-    {
-      "epoch": 19.863636363636363,
-      "grad_norm": 0.02139265649020672,
-      "learning_rate": 1.318421052631579e-05,
-      "loss": 0.0021,
-      "step": 437
-    },
-    {
-      "epoch": 19.863636363636363,
-      "eval_loss": 0.0011367396218702197,
-      "eval_runtime": 0.2327,
-      "eval_samples_per_second": 378.128,
-      "eval_steps_per_second": 47.266,
-      "step": 437
-    },
-    {
-      "epoch": 19.90909090909091,
-      "grad_norm": 0.016315054148435593,
-      "learning_rate": 1.3144736842105263e-05,
-      "loss": 0.0018,
-      "step": 438
-    },
-    {
-      "epoch": 19.90909090909091,
-      "eval_loss": 0.001134704565629363,
-      "eval_runtime": 0.243,
-      "eval_samples_per_second": 362.095,
-      "eval_steps_per_second": 45.262,
-      "step": 438
-    },
-    {
-      "epoch": 19.954545454545453,
-      "grad_norm": 0.015357021242380142,
-      "learning_rate": 1.3105263157894738e-05,
-      "loss": 0.0019,
-      "step": 439
-    },
-    {
-      "epoch": 19.954545454545453,
-      "eval_loss": 0.0011326519306749105,
-      "eval_runtime": 0.238,
-      "eval_samples_per_second": 369.798,
-      "eval_steps_per_second": 46.225,
-      "step": 439
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.01644103042781353,
-      "learning_rate": 1.3065789473684212e-05,
-      "loss": 0.0019,
-      "step": 440
-    },
-    {
-      "epoch": 20.0,
-      "eval_loss": 0.0011306345695629716,
-      "eval_runtime": 0.2373,
-      "eval_samples_per_second": 370.835,
-      "eval_steps_per_second": 46.354,
-      "step": 440
-    },
-    {
-      "epoch": 20.045454545454547,
-      "grad_norm": 0.0168069489300251,
-      "learning_rate": 1.3026315789473684e-05,
-      "loss": 0.002,
-      "step": 441
-    },
-    {
-      "epoch": 20.045454545454547,
-      "eval_loss": 0.0011284599313512444,
-      "eval_runtime": 0.2305,
-      "eval_samples_per_second": 381.741,
-      "eval_steps_per_second": 47.718,
-      "step": 441
-    },
-    {
-      "epoch": 20.09090909090909,
-      "grad_norm": 0.015401924960315228,
-      "learning_rate": 1.2986842105263158e-05,
-      "loss": 0.0019,
-      "step": 442
-    },
-    {
-      "epoch": 20.09090909090909,
-      "eval_loss": 0.0011262963525950909,
-      "eval_runtime": 0.2364,
-      "eval_samples_per_second": 372.316,
-      "eval_steps_per_second": 46.54,
-      "step": 442
-    },
-    {
-      "epoch": 20.136363636363637,
-      "grad_norm": 0.019058704376220703,
-      "learning_rate": 1.2947368421052633e-05,
-      "loss": 0.0019,
-      "step": 443
-    },
-    {
-      "epoch": 20.136363636363637,
-      "eval_loss": 0.0011239717714488506,
-      "eval_runtime": 0.2383,
-      "eval_samples_per_second": 369.214,
-      "eval_steps_per_second": 46.152,
-      "step": 443
-    },
-    {
-      "epoch": 20.181818181818183,
-      "grad_norm": 0.018643731251358986,
-      "learning_rate": 1.2907894736842105e-05,
-      "loss": 0.0019,
-      "step": 444
-    },
-    {
-      "epoch": 20.181818181818183,
-      "eval_loss": 0.0011216469574719667,
-      "eval_runtime": 0.2413,
-      "eval_samples_per_second": 364.671,
-      "eval_steps_per_second": 45.584,
-      "step": 444
-    },
-    {
-      "epoch": 20.227272727272727,
-      "grad_norm": 0.018360739573836327,
-      "learning_rate": 1.2868421052631579e-05,
-      "loss": 0.002,
-      "step": 445
-    },
-    {
-      "epoch": 20.227272727272727,
-      "eval_loss": 0.0011192425154149532,
-      "eval_runtime": 0.2331,
-      "eval_samples_per_second": 377.473,
-      "eval_steps_per_second": 47.184,
-      "step": 445
-    },
-    {
-      "epoch": 20.272727272727273,
-      "grad_norm": 0.016574162989854813,
-      "learning_rate": 1.2828947368421053e-05,
-      "loss": 0.0019,
-      "step": 446
-    },
-    {
-      "epoch": 20.272727272727273,
-      "eval_loss": 0.001116919214837253,
-      "eval_runtime": 0.2433,
-      "eval_samples_per_second": 361.621,
-      "eval_steps_per_second": 45.203,
-      "step": 446
-    },
-    {
-      "epoch": 20.318181818181817,
-      "grad_norm": 0.01646783947944641,
-      "learning_rate": 1.2789473684210526e-05,
-      "loss": 0.0019,
-      "step": 447
-    },
-    {
-      "epoch": 20.318181818181817,
-      "eval_loss": 0.0011146310716867447,
-      "eval_runtime": 0.2514,
-      "eval_samples_per_second": 349.985,
-      "eval_steps_per_second": 43.748,
-      "step": 447
-    },
-    {
-      "epoch": 20.363636363636363,
-      "grad_norm": 0.017044425010681152,
-      "learning_rate": 1.275e-05,
-      "loss": 0.0018,
-      "step": 448
-    },
-    {
-      "epoch": 20.363636363636363,
-      "eval_loss": 0.0011123091680929065,
-      "eval_runtime": 0.253,
-      "eval_samples_per_second": 347.827,
-      "eval_steps_per_second": 43.478,
-      "step": 448
-    },
-    {
-      "epoch": 20.40909090909091,
-      "grad_norm": 0.017729461193084717,
-      "learning_rate": 1.2710526315789474e-05,
-      "loss": 0.0019,
-      "step": 449
-    },
-    {
-      "epoch": 20.40909090909091,
-      "eval_loss": 0.001110163051635027,
-      "eval_runtime": 0.2651,
-      "eval_samples_per_second": 331.944,
-      "eval_steps_per_second": 41.493,
-      "step": 449
-    },
-    {
-      "epoch": 20.454545454545453,
-      "grad_norm": 0.014911322854459286,
-      "learning_rate": 1.2671052631578947e-05,
-      "loss": 0.0017,
-      "step": 450
-    },
-    {
-      "epoch": 20.454545454545453,
-      "eval_loss": 0.0011080644326284528,
-      "eval_runtime": 0.2496,
-      "eval_samples_per_second": 352.625,
-      "eval_steps_per_second": 44.078,
-      "step": 450
-    },
-    {
-      "epoch": 20.5,
-      "grad_norm": 0.016675200313329697,
-      "learning_rate": 1.263157894736842e-05,
-      "loss": 0.0019,
-      "step": 451
-    },
-    {
-      "epoch": 20.5,
-      "eval_loss": 0.0011060454417020082,
-      "eval_runtime": 0.26,
-      "eval_samples_per_second": 338.446,
-      "eval_steps_per_second": 42.306,
-      "step": 451
-    },
-    {
-      "epoch": 20.545454545454547,
-      "grad_norm": 0.016018547117710114,
-      "learning_rate": 1.2592105263157895e-05,
-      "loss": 0.0018,
-      "step": 452
-    },
-    {
-      "epoch": 20.545454545454547,
-      "eval_loss": 0.0011039102682843804,
-      "eval_runtime": 0.2399,
-      "eval_samples_per_second": 366.846,
-      "eval_steps_per_second": 45.856,
-      "step": 452
-    },
-    {
-      "epoch": 20.59090909090909,
-      "grad_norm": 0.016912776976823807,
-      "learning_rate": 1.2552631578947369e-05,
-      "loss": 0.0019,
-      "step": 453
-    },
-    {
-      "epoch": 20.59090909090909,
-      "eval_loss": 0.0011017858050763607,
-      "eval_runtime": 0.2273,
-      "eval_samples_per_second": 387.134,
-      "eval_steps_per_second": 48.392,
-      "step": 453
-    },
-    {
-      "epoch": 20.636363636363637,
-      "grad_norm": 0.015879783779382706,
-      "learning_rate": 1.2513157894736843e-05,
-      "loss": 0.0018,
-      "step": 454
-    },
-    {
-      "epoch": 20.636363636363637,
-      "eval_loss": 0.0010996219934895635,
-      "eval_runtime": 0.2449,
-      "eval_samples_per_second": 359.378,
-      "eval_steps_per_second": 44.922,
-      "step": 454
-    },
-    {
-      "epoch": 20.681818181818183,
-      "grad_norm": 0.017021868377923965,
-      "learning_rate": 1.2473684210526317e-05,
-      "loss": 0.0019,
-      "step": 455
-    },
-    {
-      "epoch": 20.681818181818183,
-      "eval_loss": 0.0010973933385685086,
-      "eval_runtime": 0.229,
-      "eval_samples_per_second": 384.317,
-      "eval_steps_per_second": 48.04,
-      "step": 455
-    },
-    {
-      "epoch": 20.727272727272727,
-      "grad_norm": 0.015419513918459415,
-      "learning_rate": 1.243421052631579e-05,
-      "loss": 0.0019,
-      "step": 456
-    },
-    {
-      "epoch": 20.727272727272727,
-      "eval_loss": 0.001095130923204124,
-      "eval_runtime": 0.2362,
-      "eval_samples_per_second": 372.489,
-      "eval_steps_per_second": 46.561,
-      "step": 456
-    },
-    {
-      "epoch": 20.772727272727273,
-      "grad_norm": 0.01693497784435749,
-      "learning_rate": 1.2394736842105264e-05,
-      "loss": 0.0018,
-      "step": 457
-    },
-    {
-      "epoch": 20.772727272727273,
-      "eval_loss": 0.0010928618721663952,
-      "eval_runtime": 0.2233,
-      "eval_samples_per_second": 394.174,
-      "eval_steps_per_second": 49.272,
-      "step": 457
-    },
-    {
-      "epoch": 20.818181818181817,
-      "grad_norm": 0.017432473599910736,
-      "learning_rate": 1.2355263157894738e-05,
-      "loss": 0.0018,
-      "step": 458
-    },
-    {
-      "epoch": 20.818181818181817,
-      "eval_loss": 0.0010908265830948949,
-      "eval_runtime": 0.2275,
-      "eval_samples_per_second": 386.81,
-      "eval_steps_per_second": 48.351,
-      "step": 458
-    },
-    {
-      "epoch": 20.863636363636363,
-      "grad_norm": 0.014237020164728165,
-      "learning_rate": 1.231578947368421e-05,
-      "loss": 0.0016,
-      "step": 459
-    },
-    {
-      "epoch": 20.863636363636363,
-      "eval_loss": 0.0010887522948905826,
-      "eval_runtime": 0.236,
-      "eval_samples_per_second": 372.82,
-      "eval_steps_per_second": 46.603,
-      "step": 459
-    },
-    {
-      "epoch": 20.90909090909091,
-      "grad_norm": 0.016278453171253204,
-      "learning_rate": 1.2276315789473685e-05,
-      "loss": 0.0017,
-      "step": 460
-    },
-    {
-      "epoch": 20.90909090909091,
-      "eval_loss": 0.0010867157252505422,
-      "eval_runtime": 0.2288,
-      "eval_samples_per_second": 384.554,
-      "eval_steps_per_second": 48.069,
-      "step": 460
-    },
-    {
-      "epoch": 20.954545454545453,
-      "grad_norm": 0.01595933921635151,
-      "learning_rate": 1.2236842105263159e-05,
-      "loss": 0.0019,
-      "step": 461
-    },
-    {
-      "epoch": 20.954545454545453,
-      "eval_loss": 0.0010847292141988873,
-      "eval_runtime": 0.2252,
-      "eval_samples_per_second": 390.754,
-      "eval_steps_per_second": 48.844,
-      "step": 461
-    },
-    {
-      "epoch": 21.0,
-      "grad_norm": 0.017483873292803764,
-      "learning_rate": 1.2197368421052631e-05,
-      "loss": 0.0018,
-      "step": 462
-    },
-    {
-      "epoch": 21.0,
-      "eval_loss": 0.0010827549267560244,
-      "eval_runtime": 0.2236,
-      "eval_samples_per_second": 393.554,
-      "eval_steps_per_second": 49.194,
-      "step": 462
-    },
-    {
-      "epoch": 21.045454545454547,
-      "grad_norm": 0.01537961047142744,
-      "learning_rate": 1.2157894736842105e-05,
-      "loss": 0.0018,
-      "step": 463
-    },
-    {
-      "epoch": 21.045454545454547,
-      "eval_loss": 0.0010808442020788789,
-      "eval_runtime": 0.2361,
-      "eval_samples_per_second": 372.729,
-      "eval_steps_per_second": 46.591,
-      "step": 463
-    },
-    {
-      "epoch": 21.09090909090909,
-      "grad_norm": 0.015306917950510979,
-      "learning_rate": 1.2118421052631578e-05,
-      "loss": 0.0017,
-      "step": 464
-    },
-    {
-      "epoch": 21.09090909090909,
-      "eval_loss": 0.0010790039086714387,
-      "eval_runtime": 0.2298,
-      "eval_samples_per_second": 382.888,
-      "eval_steps_per_second": 47.861,
-      "step": 464
-    },
-    {
-      "epoch": 21.136363636363637,
-      "grad_norm": 0.013436819426715374,
-      "learning_rate": 1.2078947368421052e-05,
-      "loss": 0.0016,
-      "step": 465
-    },
-    {
-      "epoch": 21.136363636363637,
-      "eval_loss": 0.0010772122768685222,
-      "eval_runtime": 0.2421,
-      "eval_samples_per_second": 363.528,
-      "eval_steps_per_second": 45.441,
-      "step": 465
-    },
-    {
-      "epoch": 21.181818181818183,
-      "grad_norm": 0.016245294362306595,
-      "learning_rate": 1.2039473684210528e-05,
-      "loss": 0.0018,
-      "step": 466
-    },
-    {
-      "epoch": 21.181818181818183,
-      "eval_loss": 0.0010752826929092407,
-      "eval_runtime": 0.2313,
-      "eval_samples_per_second": 380.386,
-      "eval_steps_per_second": 47.548,
-      "step": 466
-    },
-    {
-      "epoch": 21.227272727272727,
-      "grad_norm": 0.015921350568532944,
-      "learning_rate": 1.2e-05,
-      "loss": 0.0017,
-      "step": 467
-    },
-    {
-      "epoch": 21.227272727272727,
-      "eval_loss": 0.0010733003728091717,
-      "eval_runtime": 0.2302,
-      "eval_samples_per_second": 382.349,
-      "eval_steps_per_second": 47.794,
-      "step": 467
-    },
-    {
-      "epoch": 21.272727272727273,
-      "grad_norm": 0.016333753243088722,
-      "learning_rate": 1.1960526315789474e-05,
-      "loss": 0.0018,
-      "step": 468
-    },
-    {
-      "epoch": 21.272727272727273,
-      "eval_loss": 0.0010712259681895375,
-      "eval_runtime": 0.2299,
-      "eval_samples_per_second": 382.824,
-      "eval_steps_per_second": 47.853,
-      "step": 468
-    },
-    {
-      "epoch": 21.318181818181817,
-      "grad_norm": 0.015542343258857727,
-      "learning_rate": 1.1921052631578949e-05,
-      "loss": 0.0017,
-      "step": 469
-    },
-    {
-      "epoch": 21.318181818181817,
-      "eval_loss": 0.0010691812494769692,
-      "eval_runtime": 0.2401,
-      "eval_samples_per_second": 366.569,
-      "eval_steps_per_second": 45.821,
-      "step": 469
-    },
-    {
-      "epoch": 21.363636363636363,
-      "grad_norm": 0.017036397010087967,
-      "learning_rate": 1.1881578947368421e-05,
-      "loss": 0.0019,
-      "step": 470
-    },
-    {
-      "epoch": 21.363636363636363,
-      "eval_loss": 0.0010671325726434588,
-      "eval_runtime": 0.2367,
-      "eval_samples_per_second": 371.749,
-      "eval_steps_per_second": 46.469,
-      "step": 470
-    },
-    {
-      "epoch": 21.40909090909091,
-      "grad_norm": 0.01621134579181671,
-      "learning_rate": 1.1842105263157895e-05,
-      "loss": 0.0018,
-      "step": 471
-    },
-    {
-      "epoch": 21.40909090909091,
-      "eval_loss": 0.0010652164928615093,
-      "eval_runtime": 0.2376,
-      "eval_samples_per_second": 370.382,
-      "eval_steps_per_second": 46.298,
-      "step": 471
-    },
-    {
-      "epoch": 21.454545454545453,
-      "grad_norm": 0.013604752719402313,
-      "learning_rate": 1.180263157894737e-05,
-      "loss": 0.0017,
-      "step": 472
-    },
-    {
-      "epoch": 21.454545454545453,
-      "eval_loss": 0.0010633313795551658,
-      "eval_runtime": 0.2408,
-      "eval_samples_per_second": 365.399,
-      "eval_steps_per_second": 45.675,
-      "step": 472
-    },
-    {
-      "epoch": 21.5,
-      "grad_norm": 0.014795001596212387,
-      "learning_rate": 1.1763157894736842e-05,
-      "loss": 0.0016,
-      "step": 473
-    },
-    {
-      "epoch": 21.5,
-      "eval_loss": 0.001061469316482544,
-      "eval_runtime": 0.2486,
-      "eval_samples_per_second": 354.0,
-      "eval_steps_per_second": 44.25,
-      "step": 473
-    },
-    {
-      "epoch": 21.545454545454547,
-      "grad_norm": 0.015267064794898033,
-      "learning_rate": 1.1723684210526316e-05,
-      "loss": 0.0018,
-      "step": 474
-    },
-    {
-      "epoch": 21.545454545454547,
-      "eval_loss": 0.0010596156353130937,
-      "eval_runtime": 0.2421,
-      "eval_samples_per_second": 363.419,
-      "eval_steps_per_second": 45.427,
-      "step": 474
-    },
-    {
-      "epoch": 21.59090909090909,
-      "grad_norm": 0.017209574580192566,
-      "learning_rate": 1.168421052631579e-05,
-      "loss": 0.0018,
-      "step": 475
-    },
-    {
-      "epoch": 21.59090909090909,
-      "eval_loss": 0.0010576344793662429,
-      "eval_runtime": 0.2464,
-      "eval_samples_per_second": 357.122,
-      "eval_steps_per_second": 44.64,
-      "step": 475
-    },
-    {
-      "epoch": 21.636363636363637,
-      "grad_norm": 0.0154210040345788,
-      "learning_rate": 1.1644736842105263e-05,
-      "loss": 0.0018,
-      "step": 476
-    },
-    {
-      "epoch": 21.636363636363637,
-      "eval_loss": 0.0010555870831012726,
-      "eval_runtime": 0.2538,
-      "eval_samples_per_second": 346.671,
-      "eval_steps_per_second": 43.334,
-      "step": 476
-    },
-    {
-      "epoch": 21.681818181818183,
-      "grad_norm": 0.017148546874523163,
-      "learning_rate": 1.1605263157894737e-05,
-      "loss": 0.0018,
-      "step": 477
-    },
-    {
-      "epoch": 21.681818181818183,
-      "eval_loss": 0.0010535044129937887,
-      "eval_runtime": 0.2437,
-      "eval_samples_per_second": 361.038,
-      "eval_steps_per_second": 45.13,
-      "step": 477
-    },
-    {
-      "epoch": 21.727272727272727,
-      "grad_norm": 0.01518462784588337,
-      "learning_rate": 1.1565789473684211e-05,
-      "loss": 0.0017,
-      "step": 478
-    },
-    {
-      "epoch": 21.727272727272727,
-      "eval_loss": 0.0010514232562854886,
-      "eval_runtime": 0.2402,
-      "eval_samples_per_second": 366.378,
-      "eval_steps_per_second": 45.797,
-      "step": 478
-    },
-    {
-      "epoch": 21.772727272727273,
-      "grad_norm": 0.01500785257667303,
-      "learning_rate": 1.1526315789473683e-05,
-      "loss": 0.0016,
-      "step": 479
-    },
-    {
-      "epoch": 21.772727272727273,
-      "eval_loss": 0.0010493744630366564,
-      "eval_runtime": 0.2449,
-      "eval_samples_per_second": 359.362,
-      "eval_steps_per_second": 44.92,
-      "step": 479
-    },
-    {
-      "epoch": 21.818181818181817,
-      "grad_norm": 0.015978703275322914,
-      "learning_rate": 1.148684210526316e-05,
-      "loss": 0.0018,
-      "step": 480
-    },
-    {
-      "epoch": 21.818181818181817,
-      "eval_loss": 0.0010474204318597913,
-      "eval_runtime": 0.2586,
-      "eval_samples_per_second": 340.345,
-      "eval_steps_per_second": 42.543,
-      "step": 480
-    },
-    {
-      "epoch": 21.863636363636363,
-      "grad_norm": 0.01765250600874424,
-      "learning_rate": 1.1447368421052632e-05,
-      "loss": 0.0017,
-      "step": 481
-    },
-    {
-      "epoch": 21.863636363636363,
-      "eval_loss": 0.0010454690782353282,
-      "eval_runtime": 0.2292,
-      "eval_samples_per_second": 383.999,
-      "eval_steps_per_second": 48.0,
-      "step": 481
-    },
-    {
-      "epoch": 21.90909090909091,
-      "grad_norm": 0.016576098278164864,
-      "learning_rate": 1.1407894736842106e-05,
-      "loss": 0.0017,
-      "step": 482
-    },
-    {
-      "epoch": 21.90909090909091,
-      "eval_loss": 0.0010435826843604445,
-      "eval_runtime": 0.2414,
-      "eval_samples_per_second": 364.501,
-      "eval_steps_per_second": 45.563,
-      "step": 482
-    },
-    {
-      "epoch": 21.954545454545453,
-      "grad_norm": 0.014276851899921894,
-      "learning_rate": 1.136842105263158e-05,
-      "loss": 0.0017,
-      "step": 483
-    },
-    {
-      "epoch": 21.954545454545453,
-      "eval_loss": 0.0010416691657155752,
-      "eval_runtime": 0.2241,
-      "eval_samples_per_second": 392.673,
-      "eval_steps_per_second": 49.084,
-      "step": 483
-    },
-    {
-      "epoch": 22.0,
-      "grad_norm": 0.01667684316635132,
-      "learning_rate": 1.1328947368421052e-05,
-      "loss": 0.0017,
-      "step": 484
-    },
-    {
-      "epoch": 22.0,
-      "eval_loss": 0.0010398232843726873,
-      "eval_runtime": 0.24,
-      "eval_samples_per_second": 366.592,
-      "eval_steps_per_second": 45.824,
-      "step": 484
-    },
-    {
-      "epoch": 22.045454545454547,
-      "grad_norm": 0.016187671571969986,
-      "learning_rate": 1.1289473684210527e-05,
-      "loss": 0.0018,
-      "step": 485
-    },
-    {
-      "epoch": 22.045454545454547,
-      "eval_loss": 0.0010379315353929996,
-      "eval_runtime": 0.2306,
-      "eval_samples_per_second": 381.551,
-      "eval_steps_per_second": 47.694,
-      "step": 485
-    },
-    {
-      "epoch": 22.09090909090909,
-      "grad_norm": 0.014743163250386715,
-      "learning_rate": 1.125e-05,
-      "loss": 0.0018,
-      "step": 486
-    },
-    {
-      "epoch": 22.09090909090909,
-      "eval_loss": 0.0010359951993450522,
-      "eval_runtime": 0.227,
-      "eval_samples_per_second": 387.598,
-      "eval_steps_per_second": 48.45,
-      "step": 486
-    },
-    {
-      "epoch": 22.136363636363637,
-      "grad_norm": 0.01694609597325325,
-      "learning_rate": 1.1210526315789473e-05,
-      "loss": 0.0017,
-      "step": 487
-    },
-    {
-      "epoch": 22.136363636363637,
-      "eval_loss": 0.0010341384913772345,
-      "eval_runtime": 0.2407,
-      "eval_samples_per_second": 365.633,
-      "eval_steps_per_second": 45.704,
-      "step": 487
-    },
-    {
-      "epoch": 22.181818181818183,
-      "grad_norm": 0.014260073192417622,
-      "learning_rate": 1.1171052631578947e-05,
-      "loss": 0.0017,
-      "step": 488
-    },
-    {
-      "epoch": 22.181818181818183,
-      "eval_loss": 0.0010322789894416928,
-      "eval_runtime": 0.2279,
-      "eval_samples_per_second": 386.189,
-      "eval_steps_per_second": 48.274,
-      "step": 488
-    },
-    {
-      "epoch": 22.227272727272727,
-      "grad_norm": 0.017539717257022858,
-      "learning_rate": 1.1131578947368421e-05,
-      "loss": 0.0016,
-      "step": 489
-    },
-    {
-      "epoch": 22.227272727272727,
-      "eval_loss": 0.001030544051900506,
-      "eval_runtime": 0.239,
-      "eval_samples_per_second": 368.276,
-      "eval_steps_per_second": 46.034,
-      "step": 489
-    },
-    {
-      "epoch": 22.272727272727273,
-      "grad_norm": 0.013456945307552814,
-      "learning_rate": 1.1092105263157894e-05,
-      "loss": 0.0016,
-      "step": 490
-    },
-    {
-      "epoch": 22.272727272727273,
-      "eval_loss": 0.0010288661578670144,
-      "eval_runtime": 0.2301,
-      "eval_samples_per_second": 382.513,
-      "eval_steps_per_second": 47.814,
-      "step": 490
-    },
-    {
-      "epoch": 22.318181818181817,
-      "grad_norm": 0.016474781557917595,
-      "learning_rate": 1.1052631578947368e-05,
-      "loss": 0.0017,
-      "step": 491
-    },
-    {
-      "epoch": 22.318181818181817,
-      "eval_loss": 0.0010273018851876259,
-      "eval_runtime": 0.235,
-      "eval_samples_per_second": 374.491,
-      "eval_steps_per_second": 46.811,
-      "step": 491
-    },
-    {
-      "epoch": 22.363636363636363,
-      "grad_norm": 0.01373574323952198,
-      "learning_rate": 1.1013157894736842e-05,
-      "loss": 0.0014,
-      "step": 492
-    },
-    {
-      "epoch": 22.363636363636363,
-      "eval_loss": 0.00102571165189147,
-      "eval_runtime": 0.2263,
-      "eval_samples_per_second": 388.813,
-      "eval_steps_per_second": 48.602,
-      "step": 492
-    },
-    {
-      "epoch": 22.40909090909091,
-      "grad_norm": 0.015442097559571266,
-      "learning_rate": 1.0973684210526316e-05,
-      "loss": 0.0016,
-      "step": 493
-    },
-    {
-      "epoch": 22.40909090909091,
-      "eval_loss": 0.0010241527343168855,
-      "eval_runtime": 0.2352,
-      "eval_samples_per_second": 374.081,
-      "eval_steps_per_second": 46.76,
-      "step": 493
-    },
-    {
-      "epoch": 22.454545454545453,
-      "grad_norm": 0.015592455863952637,
-      "learning_rate": 1.093421052631579e-05,
-      "loss": 0.0017,
-      "step": 494
-    },
-    {
-      "epoch": 22.454545454545453,
-      "eval_loss": 0.0010226276936009526,
-      "eval_runtime": 0.2373,
-      "eval_samples_per_second": 370.902,
-      "eval_steps_per_second": 46.363,
-      "step": 494
-    },
-    {
-      "epoch": 22.5,
-      "grad_norm": 0.013556539081037045,
-      "learning_rate": 1.0894736842105265e-05,
-      "loss": 0.0016,
-      "step": 495
-    },
-    {
-      "epoch": 22.5,
-      "eval_loss": 0.001021133502945304,
-      "eval_runtime": 0.2433,
-      "eval_samples_per_second": 361.732,
-      "eval_steps_per_second": 45.217,
-      "step": 495
-    },
-    {
-      "epoch": 22.545454545454547,
-      "grad_norm": 0.012894881889224052,
-      "learning_rate": 1.0855263157894737e-05,
-      "loss": 0.0016,
-      "step": 496
-    },
-    {
-      "epoch": 22.545454545454547,
-      "eval_loss": 0.0010197004303336143,
-      "eval_runtime": 0.2415,
-      "eval_samples_per_second": 364.331,
-      "eval_steps_per_second": 45.541,
-      "step": 496
-    },
-    {
-      "epoch": 22.59090909090909,
-      "grad_norm": 0.014628540724515915,
-      "learning_rate": 1.0815789473684211e-05,
-      "loss": 0.0017,
-      "step": 497
-    },
-    {
-      "epoch": 22.59090909090909,
-      "eval_loss": 0.0010182132245972753,
-      "eval_runtime": 0.2417,
-      "eval_samples_per_second": 364.047,
-      "eval_steps_per_second": 45.506,
-      "step": 497
-    },
-    {
-      "epoch": 22.636363636363637,
-      "grad_norm": 0.014721691608428955,
-      "learning_rate": 1.0776315789473685e-05,
-      "loss": 0.0017,
-      "step": 498
-    },
-    {
-      "epoch": 22.636363636363637,
-      "eval_loss": 0.0010166773572564125,
-      "eval_runtime": 0.2388,
-      "eval_samples_per_second": 368.522,
-      "eval_steps_per_second": 46.065,
-      "step": 498
-    },
-    {
-      "epoch": 22.681818181818183,
-      "grad_norm": 0.01576976478099823,
-      "learning_rate": 1.0736842105263158e-05,
-      "loss": 0.0018,
-      "step": 499
-    },
-    {
-      "epoch": 22.681818181818183,
-      "eval_loss": 0.001015029032714665,
-      "eval_runtime": 0.2308,
-      "eval_samples_per_second": 381.26,
-      "eval_steps_per_second": 47.657,
-      "step": 499
-    },
-    {
-      "epoch": 22.727272727272727,
-      "grad_norm": 0.015886450186371803,
-      "learning_rate": 1.0697368421052632e-05,
-      "loss": 0.0017,
-      "step": 500
-    },
-    {
-      "epoch": 22.727272727272727,
-      "eval_loss": 0.0010134456679224968,
-      "eval_runtime": 0.236,
-      "eval_samples_per_second": 372.817,
-      "eval_steps_per_second": 46.602,
-      "step": 500
-    },
-    {
-      "epoch": 22.772727272727273,
-      "grad_norm": 0.01687587983906269,
-      "learning_rate": 1.0657894736842106e-05,
-      "loss": 0.0017,
-      "step": 501
-    },
-    {
-      "epoch": 22.772727272727273,
-      "eval_loss": 0.0010118514765053988,
-      "eval_runtime": 0.2468,
-      "eval_samples_per_second": 356.526,
-      "eval_steps_per_second": 44.566,
-      "step": 501
-    },
-    {
-      "epoch": 22.818181818181817,
-      "grad_norm": 0.013874330557882786,
-      "learning_rate": 1.0618421052631579e-05,
-      "loss": 0.0016,
-      "step": 502
-    },
-    {
-      "epoch": 22.818181818181817,
-      "eval_loss": 0.0010103358654305339,
-      "eval_runtime": 0.2231,
-      "eval_samples_per_second": 394.376,
-      "eval_steps_per_second": 49.297,
-      "step": 502
-    },
-    {
-      "epoch": 22.863636363636363,
-      "grad_norm": 0.014864981174468994,
-      "learning_rate": 1.0578947368421053e-05,
-      "loss": 0.0017,
-      "step": 503
-    },
-    {
-      "epoch": 22.863636363636363,
-      "eval_loss": 0.001008835039101541,
-      "eval_runtime": 0.2399,
-      "eval_samples_per_second": 366.77,
-      "eval_steps_per_second": 45.846,
-      "step": 503
-    },
-    {
-      "epoch": 22.90909090909091,
-      "grad_norm": 0.013614412397146225,
-      "learning_rate": 1.0539473684210525e-05,
-      "loss": 0.0016,
-      "step": 504
-    },
-    {
-      "epoch": 22.90909090909091,
-      "eval_loss": 0.001007361221127212,
-      "eval_runtime": 0.2267,
-      "eval_samples_per_second": 388.143,
-      "eval_steps_per_second": 48.518,
-      "step": 504
-    },
-    {
-      "epoch": 22.954545454545453,
-      "grad_norm": 0.019395658746361732,
-      "learning_rate": 1.05e-05,
-      "loss": 0.0019,
-      "step": 505
-    },
-    {
-      "epoch": 22.954545454545453,
-      "eval_loss": 0.0010058052139356732,
-      "eval_runtime": 0.2757,
-      "eval_samples_per_second": 319.24,
-      "eval_steps_per_second": 39.905,
-      "step": 505
-    },
-    {
-      "epoch": 23.0,
-      "grad_norm": 0.017713138833642006,
-      "learning_rate": 1.0460526315789474e-05,
-      "loss": 0.0018,
-      "step": 506
-    },
-    {
-      "epoch": 23.0,
-      "eval_loss": 0.0010041649220511317,
-      "eval_runtime": 0.2305,
-      "eval_samples_per_second": 381.809,
-      "eval_steps_per_second": 47.726,
-      "step": 506
-    },
-    {
-      "epoch": 23.045454545454547,
-      "grad_norm": 0.014331554993987083,
-      "learning_rate": 1.0421052631578948e-05,
-      "loss": 0.0017,
-      "step": 507
-    },
-    {
-      "epoch": 23.045454545454547,
-      "eval_loss": 0.0010025816736742854,
-      "eval_runtime": 0.2325,
-      "eval_samples_per_second": 378.56,
-      "eval_steps_per_second": 47.32,
-      "step": 507
-    },
-    {
-      "epoch": 23.09090909090909,
-      "grad_norm": 0.014041769318282604,
-      "learning_rate": 1.0381578947368422e-05,
-      "loss": 0.0017,
-      "step": 508
-    },
-    {
-      "epoch": 23.09090909090909,
-      "eval_loss": 0.001001022639684379,
-      "eval_runtime": 0.2296,
-      "eval_samples_per_second": 383.301,
-      "eval_steps_per_second": 47.913,
-      "step": 508
-    },
-    {
-      "epoch": 23.136363636363637,
-      "grad_norm": 0.014782671816647053,
-      "learning_rate": 1.0342105263157896e-05,
-      "loss": 0.0017,
-      "step": 509
-    },
-    {
-      "epoch": 23.136363636363637,
-      "eval_loss": 0.0009995178552344441,
-      "eval_runtime": 0.2324,
-      "eval_samples_per_second": 378.719,
-      "eval_steps_per_second": 47.34,
-      "step": 509
-    },
-    {
-      "epoch": 23.181818181818183,
-      "grad_norm": 0.014820964075624943,
-      "learning_rate": 1.0302631578947368e-05,
-      "loss": 0.0017,
-      "step": 510
-    },
-    {
-      "epoch": 23.181818181818183,
-      "eval_loss": 0.0009979914175346494,
-      "eval_runtime": 0.2306,
-      "eval_samples_per_second": 381.609,
-      "eval_steps_per_second": 47.701,
-      "step": 510
-    },
-    {
-      "epoch": 23.227272727272727,
-      "grad_norm": 0.014552117325365543,
-      "learning_rate": 1.0263157894736843e-05,
-      "loss": 0.0017,
-      "step": 511
-    },
-    {
-      "epoch": 23.227272727272727,
-      "eval_loss": 0.0009964742930606008,
-      "eval_runtime": 0.2277,
-      "eval_samples_per_second": 386.477,
-      "eval_steps_per_second": 48.31,
-      "step": 511
-    },
-    {
-      "epoch": 23.272727272727273,
-      "grad_norm": 0.016575666144490242,
-      "learning_rate": 1.0223684210526317e-05,
-      "loss": 0.0018,
-      "step": 512
-    },
-    {
-      "epoch": 23.272727272727273,
-      "eval_loss": 0.0009949287632480264,
-      "eval_runtime": 0.2408,
-      "eval_samples_per_second": 365.446,
-      "eval_steps_per_second": 45.681,
-      "step": 512
-    },
-    {
-      "epoch": 23.318181818181817,
-      "grad_norm": 0.013247662223875523,
-      "learning_rate": 1.018421052631579e-05,
-      "loss": 0.0016,
-      "step": 513
-    },
-    {
-      "epoch": 23.318181818181817,
-      "eval_loss": 0.0009934090776368976,
-      "eval_runtime": 0.2312,
-      "eval_samples_per_second": 380.548,
-      "eval_steps_per_second": 47.569,
-      "step": 513
-    },
-    {
-      "epoch": 23.363636363636363,
-      "grad_norm": 0.014102768152952194,
-      "learning_rate": 1.0144736842105263e-05,
-      "loss": 0.0017,
-      "step": 514
-    },
-    {
-      "epoch": 23.363636363636363,
-      "eval_loss": 0.0009918283903971314,
-      "eval_runtime": 0.2315,
-      "eval_samples_per_second": 380.202,
-      "eval_steps_per_second": 47.525,
-      "step": 514
-    },
-    {
-      "epoch": 23.40909090909091,
-      "grad_norm": 0.015047273598611355,
-      "learning_rate": 1.0105263157894738e-05,
-      "loss": 0.0017,
-      "step": 515
-    },
-    {
-      "epoch": 23.40909090909091,
-      "eval_loss": 0.0009903222089633346,
-      "eval_runtime": 0.2308,
-      "eval_samples_per_second": 381.309,
-      "eval_steps_per_second": 47.664,
-      "step": 515
-    },
-    {
-      "epoch": 23.454545454545453,
-      "grad_norm": 0.016119079664349556,
-      "learning_rate": 1.006578947368421e-05,
-      "loss": 0.0018,
-      "step": 516
-    },
-    {
-      "epoch": 23.454545454545453,
-      "eval_loss": 0.0009887360502034426,
-      "eval_runtime": 0.2356,
-      "eval_samples_per_second": 373.467,
-      "eval_steps_per_second": 46.683,
-      "step": 516
-    },
-    {
-      "epoch": 23.5,
-      "grad_norm": 0.013055874034762383,
-      "learning_rate": 1.0026315789473684e-05,
-      "loss": 0.0015,
-      "step": 517
-    },
-    {
-      "epoch": 23.5,
-      "eval_loss": 0.0009872028604149818,
-      "eval_runtime": 0.2353,
-      "eval_samples_per_second": 373.918,
-      "eval_steps_per_second": 46.74,
-      "step": 517
-    },
-    {
-      "epoch": 23.545454545454547,
-      "grad_norm": 0.014796939678490162,
-      "learning_rate": 9.986842105263158e-06,
-      "loss": 0.0017,
-      "step": 518
-    },
-    {
-      "epoch": 23.545454545454547,
-      "eval_loss": 0.0009856532560661435,
-      "eval_runtime": 0.236,
-      "eval_samples_per_second": 372.816,
-      "eval_steps_per_second": 46.602,
-      "step": 518
-    },
-    {
-      "epoch": 23.59090909090909,
-      "grad_norm": 0.01749352179467678,
-      "learning_rate": 9.94736842105263e-06,
-      "loss": 0.0018,
-      "step": 519
-    },
-    {
-      "epoch": 23.59090909090909,
-      "eval_loss": 0.000984109123237431,
-      "eval_runtime": 0.2375,
-      "eval_samples_per_second": 370.519,
-      "eval_steps_per_second": 46.315,
-      "step": 519
-    },
-    {
-      "epoch": 23.636363636363637,
-      "grad_norm": 0.014436857774853706,
-      "learning_rate": 9.907894736842107e-06,
-      "loss": 0.0017,
-      "step": 520
-    },
-    {
-      "epoch": 23.636363636363637,
-      "eval_loss": 0.0009825569577515125,
-      "eval_runtime": 0.2329,
-      "eval_samples_per_second": 377.839,
-      "eval_steps_per_second": 47.23,
-      "step": 520
-    },
-    {
-      "epoch": 23.681818181818183,
-      "grad_norm": 0.0134369982406497,
-      "learning_rate": 9.868421052631579e-06,
-      "loss": 0.0015,
-      "step": 521
-    },
-    {
-      "epoch": 23.681818181818183,
-      "eval_loss": 0.0009810830233618617,
-      "eval_runtime": 0.2463,
-      "eval_samples_per_second": 357.352,
-      "eval_steps_per_second": 44.669,
-      "step": 521
-    },
-    {
-      "epoch": 23.727272727272727,
-      "grad_norm": 0.015284021385014057,
-      "learning_rate": 9.828947368421053e-06,
-      "loss": 0.0017,
-      "step": 522
-    },
-    {
-      "epoch": 23.727272727272727,
-      "eval_loss": 0.0009796229423955083,
-      "eval_runtime": 0.2303,
-      "eval_samples_per_second": 382.111,
-      "eval_steps_per_second": 47.764,
-      "step": 522
-    },
-    {
-      "epoch": 23.772727272727273,
-      "grad_norm": 0.01389851700514555,
-      "learning_rate": 9.789473684210527e-06,
-      "loss": 0.0016,
-      "step": 523
-    },
-    {
-      "epoch": 23.772727272727273,
-      "eval_loss": 0.0009782682172954082,
-      "eval_runtime": 0.2358,
-      "eval_samples_per_second": 373.188,
-      "eval_steps_per_second": 46.649,
-      "step": 523
-    },
-    {
-      "epoch": 23.818181818181817,
-      "grad_norm": 0.013064984232187271,
-      "learning_rate": 9.75e-06,
-      "loss": 0.0016,
-      "step": 524
-    },
-    {
-      "epoch": 23.818181818181817,
-      "eval_loss": 0.000976921641267836,
-      "eval_runtime": 0.4347,
-      "eval_samples_per_second": 202.42,
-      "eval_steps_per_second": 25.303,
-      "step": 524
-    },
-    {
-      "epoch": 23.863636363636363,
-      "grad_norm": 0.01853189431130886,
-      "learning_rate": 9.710526315789474e-06,
-      "loss": 0.0018,
-      "step": 525
-    },
-    {
-      "epoch": 23.863636363636363,
-      "eval_loss": 0.0009755737846717238,
-      "eval_runtime": 0.3094,
-      "eval_samples_per_second": 284.419,
-      "eval_steps_per_second": 35.552,
-      "step": 525
-    },
-    {
-      "epoch": 23.90909090909091,
-      "grad_norm": 0.015431704930961132,
-      "learning_rate": 9.671052631578948e-06,
-      "loss": 0.0016,
-      "step": 526
-    },
-    {
-      "epoch": 23.90909090909091,
-      "eval_loss": 0.0009742649854160845,
-      "eval_runtime": 0.3285,
-      "eval_samples_per_second": 267.881,
-      "eval_steps_per_second": 33.485,
-      "step": 526
-    },
-    {
-      "epoch": 23.954545454545453,
-      "grad_norm": 0.015396500937640667,
-      "learning_rate": 9.63157894736842e-06,
-      "loss": 0.0017,
-      "step": 527
-    },
-    {
-      "epoch": 23.954545454545453,
-      "eval_loss": 0.0009728847653605044,
-      "eval_runtime": 0.379,
-      "eval_samples_per_second": 232.167,
-      "eval_steps_per_second": 29.021,
-      "step": 527
-    },
-    {
-      "epoch": 24.0,
-      "grad_norm": 0.018940720707178116,
-      "learning_rate": 9.592105263157895e-06,
-      "loss": 0.0018,
-      "step": 528
-    },
-    {
-      "epoch": 24.0,
-      "eval_loss": 0.0009714543703012168,
-      "eval_runtime": 0.4121,
-      "eval_samples_per_second": 213.562,
-      "eval_steps_per_second": 26.695,
-      "step": 528
-    },
-    {
-      "epoch": 24.045454545454547,
-      "grad_norm": 0.013447549194097519,
-      "learning_rate": 9.552631578947369e-06,
-      "loss": 0.0016,
-      "step": 529
-    },
-    {
-      "epoch": 24.045454545454547,
-      "eval_loss": 0.0009699968504719436,
-      "eval_runtime": 0.4871,
-      "eval_samples_per_second": 180.65,
-      "eval_steps_per_second": 22.581,
-      "step": 529
-    },
-    {
-      "epoch": 24.09090909090909,
-      "grad_norm": 0.01361093670129776,
-      "learning_rate": 9.513157894736841e-06,
-      "loss": 0.0016,
-      "step": 530
-    },
-    {
-      "epoch": 24.09090909090909,
-      "eval_loss": 0.0009685555123724043,
-      "eval_runtime": 0.4944,
-      "eval_samples_per_second": 178.009,
-      "eval_steps_per_second": 22.251,
-      "step": 530
-    },
-    {
-      "epoch": 24.136363636363637,
-      "grad_norm": 0.014719787985086441,
-      "learning_rate": 9.473684210526315e-06,
-      "loss": 0.0016,
-      "step": 531
-    },
-    {
-      "epoch": 24.136363636363637,
-      "eval_loss": 0.0009670979925431311,
-      "eval_runtime": 0.3472,
-      "eval_samples_per_second": 253.483,
-      "eval_steps_per_second": 31.685,
-      "step": 531
-    },
-    {
-      "epoch": 24.181818181818183,
-      "grad_norm": 0.01682870462536812,
-      "learning_rate": 9.43421052631579e-06,
-      "loss": 0.0018,
-      "step": 532
-    },
-    {
-      "epoch": 24.181818181818183,
-      "eval_loss": 0.0009655930334702134,
-      "eval_runtime": 0.2295,
-      "eval_samples_per_second": 383.473,
-      "eval_steps_per_second": 47.934,
-      "step": 532
-    },
-    {
-      "epoch": 24.227272727272727,
-      "grad_norm": 0.015661459416151047,
-      "learning_rate": 9.394736842105262e-06,
-      "loss": 0.0016,
-      "step": 533
-    },
-    {
-      "epoch": 24.227272727272727,
-      "eval_loss": 0.0009641083306632936,
-      "eval_runtime": 0.247,
-      "eval_samples_per_second": 356.243,
-      "eval_steps_per_second": 44.53,
-      "step": 533
-    },
-    {
-      "epoch": 24.272727272727273,
-      "grad_norm": 0.015652479603886604,
-      "learning_rate": 9.355263157894738e-06,
-      "loss": 0.0016,
-      "step": 534
-    },
-    {
-      "epoch": 24.272727272727273,
-      "eval_loss": 0.0009626846294850111,
-      "eval_runtime": 0.2337,
-      "eval_samples_per_second": 376.608,
-      "eval_steps_per_second": 47.076,
-      "step": 534
-    },
-    {
-      "epoch": 24.318181818181817,
-      "grad_norm": 0.013394070789217949,
-      "learning_rate": 9.315789473684212e-06,
-      "loss": 0.0016,
-      "step": 535
-    },
-    {
-      "epoch": 24.318181818181817,
-      "eval_loss": 0.0009613109868951142,
-      "eval_runtime": 0.2315,
-      "eval_samples_per_second": 380.202,
-      "eval_steps_per_second": 47.525,
-      "step": 535
-    },
-    {
-      "epoch": 24.363636363636363,
-      "grad_norm": 0.015152989886701107,
-      "learning_rate": 9.276315789473685e-06,
-      "loss": 0.0016,
-      "step": 536
-    },
-    {
-      "epoch": 24.363636363636363,
-      "eval_loss": 0.0009599780314601958,
-      "eval_runtime": 0.2373,
-      "eval_samples_per_second": 370.835,
-      "eval_steps_per_second": 46.354,
-      "step": 536
-    },
-    {
-      "epoch": 24.40909090909091,
-      "grad_norm": 0.014209273271262646,
-      "learning_rate": 9.236842105263159e-06,
-      "loss": 0.0016,
-      "step": 537
-    },
-    {
-      "epoch": 24.40909090909091,
-      "eval_loss": 0.0009586341911926866,
-      "eval_runtime": 0.2342,
-      "eval_samples_per_second": 375.816,
-      "eval_steps_per_second": 46.977,
-      "step": 537
-    },
-    {
-      "epoch": 24.454545454545453,
-      "grad_norm": 0.014566083438694477,
-      "learning_rate": 9.197368421052633e-06,
-      "loss": 0.0015,
-      "step": 538
-    },
-    {
-      "epoch": 24.454545454545453,
-      "eval_loss": 0.000957344425842166,
-      "eval_runtime": 0.2373,
-      "eval_samples_per_second": 370.82,
-      "eval_steps_per_second": 46.352,
-      "step": 538
-    },
-    {
-      "epoch": 24.5,
-      "grad_norm": 0.016195589676499367,
-      "learning_rate": 9.157894736842105e-06,
-      "loss": 0.0017,
-      "step": 539
-    },
-    {
-      "epoch": 24.5,
-      "eval_loss": 0.0009560330072417855,
-      "eval_runtime": 0.2313,
-      "eval_samples_per_second": 380.382,
-      "eval_steps_per_second": 47.548,
-      "step": 539
-    },
-    {
-      "epoch": 24.545454545454547,
-      "grad_norm": 0.01577996276319027,
-      "learning_rate": 9.11842105263158e-06,
-      "loss": 0.0017,
-      "step": 540
-    },
-    {
-      "epoch": 24.545454545454547,
-      "eval_loss": 0.0009547690278850496,
-      "eval_runtime": 0.2288,
-      "eval_samples_per_second": 384.628,
-      "eval_steps_per_second": 48.079,
-      "step": 540
-    },
-    {
-      "epoch": 24.59090909090909,
-      "grad_norm": 0.013901899568736553,
-      "learning_rate": 9.078947368421054e-06,
-      "loss": 0.0015,
-      "step": 541
-    },
-    {
-      "epoch": 24.59090909090909,
-      "eval_loss": 0.0009535103454254568,
-      "eval_runtime": 0.2351,
-      "eval_samples_per_second": 374.379,
-      "eval_steps_per_second": 46.797,
-      "step": 541
-    },
-    {
-      "epoch": 24.636363636363637,
-      "grad_norm": 0.014091338962316513,
-      "learning_rate": 9.039473684210526e-06,
-      "loss": 0.0016,
-      "step": 542
-    },
-    {
-      "epoch": 24.636363636363637,
-      "eval_loss": 0.0009522747131995857,
-      "eval_runtime": 0.2274,
-      "eval_samples_per_second": 387.015,
-      "eval_steps_per_second": 48.377,
-      "step": 542
-    },
-    {
-      "epoch": 24.681818181818183,
-      "grad_norm": 0.014544407837092876,
-      "learning_rate": 9e-06,
-      "loss": 0.0017,
-      "step": 543
-    },
-    {
-      "epoch": 24.681818181818183,
-      "eval_loss": 0.0009510606760159135,
-      "eval_runtime": 0.2442,
-      "eval_samples_per_second": 360.336,
-      "eval_steps_per_second": 45.042,
-      "step": 543
-    },
-    {
-      "epoch": 24.727272727272727,
-      "grad_norm": 0.01616845279932022,
-      "learning_rate": 8.960526315789473e-06,
-      "loss": 0.0017,
-      "step": 544
-    },
-    {
-      "epoch": 24.727272727272727,
-      "eval_loss": 0.0009498685249127448,
-      "eval_runtime": 0.2388,
-      "eval_samples_per_second": 368.514,
-      "eval_steps_per_second": 46.064,
-      "step": 544
-    },
-    {
-      "epoch": 24.772727272727273,
-      "grad_norm": 0.01609298586845398,
-      "learning_rate": 8.921052631578947e-06,
-      "loss": 0.0017,
-      "step": 545
-    },
-    {
-      "epoch": 24.772727272727273,
-      "eval_loss": 0.0009486477356404066,
-      "eval_runtime": 0.2287,
-      "eval_samples_per_second": 384.803,
-      "eval_steps_per_second": 48.1,
-      "step": 545
-    },
-    {
-      "epoch": 24.818181818181817,
-      "grad_norm": 0.013633071444928646,
-      "learning_rate": 8.881578947368421e-06,
-      "loss": 0.0016,
-      "step": 546
-    },
-    {
-      "epoch": 24.818181818181817,
-      "eval_loss": 0.0009474134421907365,
-      "eval_runtime": 0.2393,
-      "eval_samples_per_second": 367.684,
-      "eval_steps_per_second": 45.96,
-      "step": 546
-    },
-    {
-      "epoch": 24.863636363636363,
-      "grad_norm": 0.013738269917666912,
-      "learning_rate": 8.842105263157893e-06,
-      "loss": 0.0016,
-      "step": 547
-    },
-    {
-      "epoch": 24.863636363636363,
-      "eval_loss": 0.0009461792069487274,
-      "eval_runtime": 0.2312,
-      "eval_samples_per_second": 380.637,
-      "eval_steps_per_second": 47.58,
-      "step": 547
-    },
-    {
-      "epoch": 24.90909090909091,
-      "grad_norm": 0.013620936311781406,
-      "learning_rate": 8.80263157894737e-06,
-      "loss": 0.0015,
-      "step": 548
-    },
-    {
-      "epoch": 24.90909090909091,
-      "eval_loss": 0.0009449638891965151,
-      "eval_runtime": 0.2459,
-      "eval_samples_per_second": 357.891,
-      "eval_steps_per_second": 44.736,
-      "step": 548
-    },
-    {
-      "epoch": 24.954545454545453,
-      "grad_norm": 0.015967663377523422,
-      "learning_rate": 8.763157894736843e-06,
-      "loss": 0.0017,
-      "step": 549
-    },
-    {
-      "epoch": 24.954545454545453,
-      "eval_loss": 0.0009437742992304265,
-      "eval_runtime": 0.239,
-      "eval_samples_per_second": 368.142,
-      "eval_steps_per_second": 46.018,
-      "step": 549
-    },
-    {
-      "epoch": 25.0,
-      "grad_norm": 0.012870087288320065,
-      "learning_rate": 8.723684210526316e-06,
-      "loss": 0.0015,
-      "step": 550
-    },
-    {
-      "epoch": 25.0,
-      "eval_loss": 0.0009425426251254976,
-      "eval_runtime": 0.2335,
-      "eval_samples_per_second": 376.798,
-      "eval_steps_per_second": 47.1,
-      "step": 550
-    },
-    {
-      "epoch": 25.045454545454547,
-      "grad_norm": 0.012893461622297764,
-      "learning_rate": 8.68421052631579e-06,
-      "loss": 0.0015,
-      "step": 551
-    },
-    {
-      "epoch": 25.045454545454547,
-      "eval_loss": 0.0009413667139597237,
-      "eval_runtime": 0.236,
-      "eval_samples_per_second": 372.836,
-      "eval_steps_per_second": 46.605,
-      "step": 551
-    },
-    {
-      "epoch": 25.09090909090909,
-      "grad_norm": 0.014959870837628841,
-      "learning_rate": 8.644736842105264e-06,
-      "loss": 0.0016,
-      "step": 552
-    },
-    {
-      "epoch": 25.09090909090909,
-      "eval_loss": 0.0009402299183420837,
-      "eval_runtime": 0.2482,
-      "eval_samples_per_second": 354.624,
-      "eval_steps_per_second": 44.328,
-      "step": 552
-    },
-    {
-      "epoch": 25.136363636363637,
-      "grad_norm": 0.01649138703942299,
-      "learning_rate": 8.605263157894737e-06,
-      "loss": 0.0017,
-      "step": 553
-    },
-    {
-      "epoch": 25.136363636363637,
-      "eval_loss": 0.0009390347986482084,
-      "eval_runtime": 0.2599,
-      "eval_samples_per_second": 338.554,
-      "eval_steps_per_second": 42.319,
-      "step": 553
-    },
-    {
-      "epoch": 25.181818181818183,
-      "grad_norm": 0.01470938976854086,
-      "learning_rate": 8.56578947368421e-06,
-      "loss": 0.0016,
-      "step": 554
-    },
-    {
-      "epoch": 25.181818181818183,
-      "eval_loss": 0.0009378465474583209,
-      "eval_runtime": 0.2574,
-      "eval_samples_per_second": 341.926,
-      "eval_steps_per_second": 42.741,
-      "step": 554
-    },
-    {
-      "epoch": 25.227272727272727,
-      "grad_norm": 0.011589915491640568,
-      "learning_rate": 8.526315789473685e-06,
-      "loss": 0.0014,
-      "step": 555
-    },
-    {
-      "epoch": 25.227272727272727,
-      "eval_loss": 0.000936675991397351,
-      "eval_runtime": 0.2348,
-      "eval_samples_per_second": 374.714,
-      "eval_steps_per_second": 46.839,
-      "step": 555
-    },
-    {
-      "epoch": 25.272727272727273,
-      "grad_norm": 0.012033880688250065,
-      "learning_rate": 8.486842105263157e-06,
-      "loss": 0.0014,
-      "step": 556
-    },
-    {
-      "epoch": 25.272727272727273,
-      "eval_loss": 0.0009355823858641088,
-      "eval_runtime": 0.2479,
-      "eval_samples_per_second": 354.912,
-      "eval_steps_per_second": 44.364,
-      "step": 556
-    },
-    {
-      "epoch": 25.318181818181817,
-      "grad_norm": 0.012967276386916637,
-      "learning_rate": 8.447368421052632e-06,
-      "loss": 0.0016,
-      "step": 557
-    },
-    {
-      "epoch": 25.318181818181817,
-      "eval_loss": 0.0009344658465124667,
-      "eval_runtime": 0.2455,
-      "eval_samples_per_second": 358.387,
-      "eval_steps_per_second": 44.798,
-      "step": 557
-    },
-    {
-      "epoch": 25.363636363636363,
-      "grad_norm": 0.01223038136959076,
-      "learning_rate": 8.407894736842106e-06,
-      "loss": 0.0015,
-      "step": 558
-    },
-    {
-      "epoch": 25.363636363636363,
-      "eval_loss": 0.0009333452326245606,
-      "eval_runtime": 0.2906,
-      "eval_samples_per_second": 302.832,
-      "eval_steps_per_second": 37.854,
-      "step": 558
-    },
-    {
-      "epoch": 25.40909090909091,
-      "grad_norm": 0.015218369662761688,
-      "learning_rate": 8.368421052631578e-06,
-      "loss": 0.0016,
-      "step": 559
-    },
-    {
-      "epoch": 25.40909090909091,
-      "eval_loss": 0.0009322408004663885,
-      "eval_runtime": 0.2272,
-      "eval_samples_per_second": 387.247,
-      "eval_steps_per_second": 48.406,
-      "step": 559
-    },
-    {
-      "epoch": 25.454545454545453,
-      "grad_norm": 0.015988919883966446,
-      "learning_rate": 8.328947368421052e-06,
-      "loss": 0.0016,
-      "step": 560
-    },
-    {
-      "epoch": 25.454545454545453,
-      "eval_loss": 0.0009310647728852928,
-      "eval_runtime": 0.2299,
-      "eval_samples_per_second": 382.796,
-      "eval_steps_per_second": 47.85,
-      "step": 560
-    },
-    {
-      "epoch": 25.5,
-      "grad_norm": 0.012890150770545006,
-      "learning_rate": 8.289473684210526e-06,
-      "loss": 0.0015,
-      "step": 561
-    },
-    {
-      "epoch": 25.5,
-      "eval_loss": 0.0009298656368628144,
-      "eval_runtime": 0.2335,
-      "eval_samples_per_second": 376.874,
-      "eval_steps_per_second": 47.109,
-      "step": 561
-    },
-    {
-      "epoch": 25.545454545454547,
-      "grad_norm": 0.013084178790450096,
-      "learning_rate": 8.25e-06,
-      "loss": 0.0016,
-      "step": 562
-    },
-    {
-      "epoch": 25.545454545454547,
-      "eval_loss": 0.0009286908898502588,
-      "eval_runtime": 0.2286,
-      "eval_samples_per_second": 384.978,
-      "eval_steps_per_second": 48.122,
-      "step": 562
-    },
-    {
-      "epoch": 25.59090909090909,
-      "grad_norm": 0.01568671688437462,
-      "learning_rate": 8.210526315789475e-06,
-      "loss": 0.0018,
-      "step": 563
-    },
-    {
-      "epoch": 25.59090909090909,
-      "eval_loss": 0.0009274999029003084,
-      "eval_runtime": 0.2258,
-      "eval_samples_per_second": 389.702,
-      "eval_steps_per_second": 48.713,
-      "step": 563
-    },
-    {
-      "epoch": 25.636363636363637,
-      "grad_norm": 0.012654740363359451,
-      "learning_rate": 8.171052631578947e-06,
-      "loss": 0.0014,
-      "step": 564
-    },
-    {
-      "epoch": 25.636363636363637,
-      "eval_loss": 0.0009263442480005324,
-      "eval_runtime": 0.2297,
-      "eval_samples_per_second": 383.078,
-      "eval_steps_per_second": 47.885,
-      "step": 564
-    },
-    {
-      "epoch": 25.681818181818183,
-      "grad_norm": 0.014308282174170017,
-      "learning_rate": 8.131578947368421e-06,
-      "loss": 0.0016,
-      "step": 565
-    },
-    {
-      "epoch": 25.681818181818183,
-      "eval_loss": 0.0009251585579477251,
-      "eval_runtime": 0.2407,
-      "eval_samples_per_second": 365.643,
-      "eval_steps_per_second": 45.705,
-      "step": 565
-    },
-    {
-      "epoch": 25.727272727272727,
-      "grad_norm": 0.013645520433783531,
-      "learning_rate": 8.092105263157896e-06,
-      "loss": 0.0016,
-      "step": 566
-    },
-    {
-      "epoch": 25.727272727272727,
-      "eval_loss": 0.000924033869523555,
-      "eval_runtime": 0.2295,
-      "eval_samples_per_second": 383.49,
-      "eval_steps_per_second": 47.936,
-      "step": 566
-    },
-    {
-      "epoch": 25.772727272727273,
-      "grad_norm": 0.013325618579983711,
-      "learning_rate": 8.052631578947368e-06,
-      "loss": 0.0016,
-      "step": 567
-    },
-    {
-      "epoch": 25.772727272727273,
-      "eval_loss": 0.0009229186689481139,
-      "eval_runtime": 0.2286,
-      "eval_samples_per_second": 384.951,
-      "eval_steps_per_second": 48.119,
-      "step": 567
-    },
-    {
-      "epoch": 25.818181818181817,
-      "grad_norm": 0.013046055100858212,
-      "learning_rate": 8.013157894736842e-06,
-      "loss": 0.0015,
-      "step": 568
-    },
-    {
-      "epoch": 25.818181818181817,
-      "eval_loss": 0.0009218386840075254,
-      "eval_runtime": 0.2278,
-      "eval_samples_per_second": 386.339,
-      "eval_steps_per_second": 48.292,
-      "step": 568
-    },
-    {
-      "epoch": 25.863636363636363,
-      "grad_norm": 0.014013804495334625,
-      "learning_rate": 7.973684210526316e-06,
-      "loss": 0.0015,
-      "step": 569
-    },
-    {
-      "epoch": 25.863636363636363,
-      "eval_loss": 0.0009208493283949792,
-      "eval_runtime": 0.239,
-      "eval_samples_per_second": 368.218,
-      "eval_steps_per_second": 46.027,
-      "step": 569
-    },
-    {
-      "epoch": 25.90909090909091,
-      "grad_norm": 0.014438400976359844,
-      "learning_rate": 7.934210526315789e-06,
-      "loss": 0.0016,
-      "step": 570
-    },
-    {
-      "epoch": 25.90909090909091,
-      "eval_loss": 0.0009198287734761834,
-      "eval_runtime": 0.2403,
-      "eval_samples_per_second": 366.205,
-      "eval_steps_per_second": 45.776,
-      "step": 570
-    },
-    {
-      "epoch": 25.954545454545453,
-      "grad_norm": 0.013837904669344425,
-      "learning_rate": 7.894736842105263e-06,
-      "loss": 0.0016,
-      "step": 571
-    },
-    {
-      "epoch": 25.954545454545453,
-      "eval_loss": 0.0009188164258375764,
-      "eval_runtime": 0.2295,
-      "eval_samples_per_second": 383.499,
-      "eval_steps_per_second": 47.937,
-      "step": 571
-    },
-    {
-      "epoch": 26.0,
-      "grad_norm": 0.014442033134400845,
-      "learning_rate": 7.855263157894737e-06,
-      "loss": 0.0015,
-      "step": 572
-    },
-    {
-      "epoch": 26.0,
-      "eval_loss": 0.0009178462787531316,
-      "eval_runtime": 0.2369,
-      "eval_samples_per_second": 371.428,
-      "eval_steps_per_second": 46.428,
-      "step": 572
-    },
-    {
-      "epoch": 26.045454545454547,
-      "grad_norm": 0.01597905345261097,
-      "learning_rate": 7.81578947368421e-06,
-      "loss": 0.0016,
-      "step": 573
-    },
-    {
-      "epoch": 26.045454545454547,
-      "eval_loss": 0.000916794640943408,
-      "eval_runtime": 0.2272,
-      "eval_samples_per_second": 387.243,
-      "eval_steps_per_second": 48.405,
-      "step": 573
-    },
-    {
-      "epoch": 26.09090909090909,
-      "grad_norm": 0.014845073223114014,
-      "learning_rate": 7.776315789473684e-06,
-      "loss": 0.0016,
-      "step": 574
-    },
-    {
-      "epoch": 26.09090909090909,
-      "eval_loss": 0.0009157375898212194,
-      "eval_runtime": 0.2356,
-      "eval_samples_per_second": 373.503,
-      "eval_steps_per_second": 46.688,
-      "step": 574
-    },
-    {
-      "epoch": 26.136363636363637,
-      "grad_norm": 0.016282513737678528,
-      "learning_rate": 7.73684210526316e-06,
-      "loss": 0.0016,
-      "step": 575
-    },
-    {
-      "epoch": 26.136363636363637,
-      "eval_loss": 0.0009147171513177454,
-      "eval_runtime": 0.232,
-      "eval_samples_per_second": 379.38,
-      "eval_steps_per_second": 47.422,
-      "step": 575
-    },
-    {
-      "epoch": 26.181818181818183,
-      "grad_norm": 0.01518057007342577,
-      "learning_rate": 7.697368421052632e-06,
-      "loss": 0.0016,
-      "step": 576
-    },
-    {
-      "epoch": 26.181818181818183,
-      "eval_loss": 0.0009137062006630003,
-      "eval_runtime": 0.2426,
-      "eval_samples_per_second": 362.715,
-      "eval_steps_per_second": 45.339,
-      "step": 576
-    },
-    {
-      "epoch": 26.227272727272727,
-      "grad_norm": 0.014094051904976368,
-      "learning_rate": 7.657894736842106e-06,
-      "loss": 0.0016,
-      "step": 577
-    },
-    {
-      "epoch": 26.227272727272727,
-      "eval_loss": 0.0009126991499215364,
-      "eval_runtime": 0.2293,
-      "eval_samples_per_second": 383.817,
-      "eval_steps_per_second": 47.977,
-      "step": 577
-    },
-    {
-      "epoch": 26.272727272727273,
-      "grad_norm": 0.013502271845936775,
-      "learning_rate": 7.6184210526315794e-06,
-      "loss": 0.0015,
-      "step": 578
-    },
-    {
-      "epoch": 26.272727272727273,
-      "eval_loss": 0.0009116692817769945,
-      "eval_runtime": 0.2603,
-      "eval_samples_per_second": 338.068,
-      "eval_steps_per_second": 42.258,
-      "step": 578
-    },
-    {
-      "epoch": 26.318181818181817,
-      "grad_norm": 0.01577981747686863,
-      "learning_rate": 7.578947368421053e-06,
-      "loss": 0.0016,
-      "step": 579
-    },
-    {
-      "epoch": 26.318181818181817,
-      "eval_loss": 0.0009106568759307265,
-      "eval_runtime": 0.2284,
-      "eval_samples_per_second": 385.212,
-      "eval_steps_per_second": 48.151,
-      "step": 579
-    },
-    {
-      "epoch": 26.363636363636363,
-      "grad_norm": 0.013350007124245167,
-      "learning_rate": 7.539473684210527e-06,
-      "loss": 0.0016,
-      "step": 580
-    },
-    {
-      "epoch": 26.363636363636363,
-      "eval_loss": 0.0009096513967961073,
-      "eval_runtime": 0.251,
-      "eval_samples_per_second": 350.661,
-      "eval_steps_per_second": 43.833,
-      "step": 580
-    },
-    {
-      "epoch": 26.40909090909091,
-      "grad_norm": 0.013078941963613033,
-      "learning_rate": 7.5e-06,
-      "loss": 0.0014,
-      "step": 581
-    },
-    {
-      "epoch": 26.40909090909091,
-      "eval_loss": 0.000908670190256089,
-      "eval_runtime": 0.2388,
-      "eval_samples_per_second": 368.458,
-      "eval_steps_per_second": 46.057,
-      "step": 581
-    },
-    {
-      "epoch": 26.454545454545453,
-      "grad_norm": 0.013791137374937534,
-      "learning_rate": 7.4605263157894735e-06,
-      "loss": 0.0015,
-      "step": 582
-    },
-    {
-      "epoch": 26.454545454545453,
-      "eval_loss": 0.000907672569155693,
-      "eval_runtime": 0.242,
-      "eval_samples_per_second": 363.581,
-      "eval_steps_per_second": 45.448,
-      "step": 582
-    },
-    {
-      "epoch": 26.5,
-      "grad_norm": 0.015615719370543957,
-      "learning_rate": 7.421052631578948e-06,
-      "loss": 0.0017,
-      "step": 583
-    },
-    {
-      "epoch": 26.5,
-      "eval_loss": 0.0009066305938176811,
-      "eval_runtime": 0.2567,
-      "eval_samples_per_second": 342.844,
-      "eval_steps_per_second": 42.856,
-      "step": 583
-    },
-    {
-      "epoch": 26.545454545454547,
-      "grad_norm": 0.015224572271108627,
-      "learning_rate": 7.381578947368421e-06,
-      "loss": 0.0016,
-      "step": 584
-    },
-    {
-      "epoch": 26.545454545454547,
-      "eval_loss": 0.000905528839211911,
-      "eval_runtime": 0.2456,
-      "eval_samples_per_second": 358.266,
-      "eval_steps_per_second": 44.783,
-      "step": 584
-    },
-    {
-      "epoch": 26.59090909090909,
-      "grad_norm": 0.015507878735661507,
-      "learning_rate": 7.342105263157895e-06,
-      "loss": 0.0016,
-      "step": 585
-    },
-    {
-      "epoch": 26.59090909090909,
-      "eval_loss": 0.0009044149774126709,
-      "eval_runtime": 0.2492,
-      "eval_samples_per_second": 353.074,
-      "eval_steps_per_second": 44.134,
-      "step": 585
-    },
-    {
-      "epoch": 26.636363636363637,
-      "grad_norm": 0.012780736200511456,
-      "learning_rate": 7.302631578947368e-06,
-      "loss": 0.0015,
-      "step": 586
-    },
-    {
-      "epoch": 26.636363636363637,
-      "eval_loss": 0.0009033335372805595,
-      "eval_runtime": 0.2468,
-      "eval_samples_per_second": 356.58,
-      "eval_steps_per_second": 44.572,
-      "step": 586
-    },
-    {
-      "epoch": 26.681818181818183,
-      "grad_norm": 0.014048571698367596,
-      "learning_rate": 7.2631578947368426e-06,
-      "loss": 0.0015,
-      "step": 587
-    },
-    {
-      "epoch": 26.681818181818183,
-      "eval_loss": 0.0009022265439853072,
-      "eval_runtime": 0.2552,
-      "eval_samples_per_second": 344.851,
-      "eval_steps_per_second": 43.106,
-      "step": 587
-    },
-    {
-      "epoch": 26.727272727272727,
-      "grad_norm": 0.015583625994622707,
-      "learning_rate": 7.223684210526316e-06,
-      "loss": 0.0017,
-      "step": 588
-    },
-    {
-      "epoch": 26.727272727272727,
-      "eval_loss": 0.0009011449874378741,
-      "eval_runtime": 0.2308,
-      "eval_samples_per_second": 381.278,
-      "eval_steps_per_second": 47.66,
-      "step": 588
-    },
-    {
-      "epoch": 26.772727272727273,
-      "grad_norm": 0.01401633583009243,
-      "learning_rate": 7.184210526315789e-06,
-      "loss": 0.0015,
-      "step": 589
-    },
-    {
-      "epoch": 26.772727272727273,
-      "eval_loss": 0.0009001016733236611,
-      "eval_runtime": 0.2374,
-      "eval_samples_per_second": 370.679,
-      "eval_steps_per_second": 46.335,
-      "step": 589
-    },
-    {
-      "epoch": 26.818181818181817,
-      "grad_norm": 0.01262589916586876,
-      "learning_rate": 7.144736842105263e-06,
-      "loss": 0.0015,
-      "step": 590
-    },
-    {
-      "epoch": 26.818181818181817,
-      "eval_loss": 0.0008990716305561364,
-      "eval_runtime": 0.2399,
-      "eval_samples_per_second": 366.822,
-      "eval_steps_per_second": 45.853,
-      "step": 590
-    },
-    {
-      "epoch": 26.863636363636363,
-      "grad_norm": 0.015306267887353897,
-      "learning_rate": 7.105263157894737e-06,
-      "loss": 0.0016,
-      "step": 591
-    },
-    {
-      "epoch": 26.863636363636363,
-      "eval_loss": 0.0008980457205325365,
-      "eval_runtime": 0.2286,
-      "eval_samples_per_second": 385.033,
-      "eval_steps_per_second": 48.129,
-      "step": 591
-    },
-    {
-      "epoch": 26.90909090909091,
-      "grad_norm": 0.014178605750203133,
-      "learning_rate": 7.065789473684211e-06,
-      "loss": 0.0016,
-      "step": 592
-    },
-    {
-      "epoch": 26.90909090909091,
-      "eval_loss": 0.0008970522903837264,
-      "eval_runtime": 0.2364,
-      "eval_samples_per_second": 372.229,
-      "eval_steps_per_second": 46.529,
-      "step": 592
-    },
-    {
-      "epoch": 26.954545454545453,
-      "grad_norm": 0.013244709931313992,
-      "learning_rate": 7.026315789473685e-06,
-      "loss": 0.0016,
-      "step": 593
-    },
-    {
-      "epoch": 26.954545454545453,
-      "eval_loss": 0.0008960642153397202,
-      "eval_runtime": 0.2462,
-      "eval_samples_per_second": 357.44,
-      "eval_steps_per_second": 44.68,
-      "step": 593
-    },
-    {
-      "epoch": 27.0,
-      "grad_norm": 0.012383348308503628,
-      "learning_rate": 6.986842105263158e-06,
-      "loss": 0.0014,
-      "step": 594
-    },
-    {
-      "epoch": 27.0,
-      "eval_loss": 0.0008951277122832835,
-      "eval_runtime": 0.2326,
-      "eval_samples_per_second": 378.306,
-      "eval_steps_per_second": 47.288,
-      "step": 594
-    },
-    {
-      "epoch": 27.045454545454547,
-      "grad_norm": 0.011418252252042294,
-      "learning_rate": 6.9473684210526315e-06,
-      "loss": 0.0014,
-      "step": 595
-    },
-    {
-      "epoch": 27.045454545454547,
-      "eval_loss": 0.0008942168205976486,
-      "eval_runtime": 0.2431,
-      "eval_samples_per_second": 362.037,
-      "eval_steps_per_second": 45.255,
-      "step": 595
-    },
-    {
-      "epoch": 27.09090909090909,
-      "grad_norm": 0.013398653827607632,
-      "learning_rate": 6.907894736842106e-06,
-      "loss": 0.0014,
-      "step": 596
-    },
-    {
-      "epoch": 27.09090909090909,
-      "eval_loss": 0.0008933371282182634,
-      "eval_runtime": 0.2375,
-      "eval_samples_per_second": 370.507,
-      "eval_steps_per_second": 46.313,
-      "step": 596
-    },
-    {
-      "epoch": 27.136363636363637,
-      "grad_norm": 0.013324232771992683,
-      "learning_rate": 6.868421052631579e-06,
-      "loss": 0.0014,
-      "step": 597
-    },
-    {
-      "epoch": 27.136363636363637,
-      "eval_loss": 0.0008924913126975298,
-      "eval_runtime": 0.2409,
-      "eval_samples_per_second": 365.308,
-      "eval_steps_per_second": 45.663,
-      "step": 597
-    },
-    {
-      "epoch": 27.181818181818183,
-      "grad_norm": 0.014774598181247711,
-      "learning_rate": 6.828947368421053e-06,
-      "loss": 0.0016,
-      "step": 598
-    },
-    {
-      "epoch": 27.181818181818183,
-      "eval_loss": 0.0008916006772778928,
-      "eval_runtime": 0.2374,
-      "eval_samples_per_second": 370.613,
-      "eval_steps_per_second": 46.327,
-      "step": 598
-    },
-    {
-      "epoch": 27.227272727272727,
-      "grad_norm": 0.015260329470038414,
-      "learning_rate": 6.7894736842105264e-06,
-      "loss": 0.0016,
-      "step": 599
-    },
-    {
-      "epoch": 27.227272727272727,
-      "eval_loss": 0.0008907453739084303,
-      "eval_runtime": 0.2427,
-      "eval_samples_per_second": 362.645,
-      "eval_steps_per_second": 45.331,
-      "step": 599
-    },
-    {
-      "epoch": 27.272727272727273,
-      "grad_norm": 0.01440617348998785,
-      "learning_rate": 6.750000000000001e-06,
-      "loss": 0.0016,
-      "step": 600
-    },
-    {
-      "epoch": 27.272727272727273,
-      "eval_loss": 0.0008899224339984357,
-      "eval_runtime": 0.2506,
-      "eval_samples_per_second": 351.14,
-      "eval_steps_per_second": 43.892,
-      "step": 600
-    },
-    {
-      "epoch": 27.318181818181817,
-      "grad_norm": 0.0139328483492136,
-      "learning_rate": 6.710526315789474e-06,
-      "loss": 0.0015,
-      "step": 601
-    },
-    {
-      "epoch": 27.318181818181817,
-      "eval_loss": 0.0008891185279935598,
-      "eval_runtime": 0.223,
-      "eval_samples_per_second": 394.603,
-      "eval_steps_per_second": 49.325,
-      "step": 601
-    },
-    {
-      "epoch": 27.363636363636363,
-      "grad_norm": 0.014009720645844936,
-      "learning_rate": 6.671052631578947e-06,
-      "loss": 0.0015,
-      "step": 602
-    },
-    {
-      "epoch": 27.363636363636363,
-      "eval_loss": 0.0008883295231498778,
-      "eval_runtime": 0.2262,
-      "eval_samples_per_second": 389.114,
-      "eval_steps_per_second": 48.639,
-      "step": 602
-    },
-    {
-      "epoch": 27.40909090909091,
-      "grad_norm": 0.014640220440924168,
-      "learning_rate": 6.631578947368421e-06,
-      "loss": 0.0016,
-      "step": 603
-    },
-    {
-      "epoch": 27.40909090909091,
-      "eval_loss": 0.0008875647909007967,
-      "eval_runtime": 0.2259,
-      "eval_samples_per_second": 389.586,
-      "eval_steps_per_second": 48.698,
-      "step": 603
-    },
-    {
-      "epoch": 27.454545454545453,
-      "grad_norm": 0.012875789776444435,
-      "learning_rate": 6.592105263157895e-06,
-      "loss": 0.0014,
-      "step": 604
-    },
-    {
-      "epoch": 27.454545454545453,
-      "eval_loss": 0.0008868000004440546,
-      "eval_runtime": 0.2267,
-      "eval_samples_per_second": 388.239,
-      "eval_steps_per_second": 48.53,
-      "step": 604
-    },
-    {
-      "epoch": 27.5,
-      "grad_norm": 0.012748241424560547,
-      "learning_rate": 6.552631578947369e-06,
-      "loss": 0.0014,
-      "step": 605
-    },
-    {
-      "epoch": 27.5,
-      "eval_loss": 0.0008860474918037653,
-      "eval_runtime": 0.2273,
-      "eval_samples_per_second": 387.108,
-      "eval_steps_per_second": 48.388,
-      "step": 605
-    },
-    {
-      "epoch": 27.545454545454547,
-      "grad_norm": 0.015082623809576035,
-      "learning_rate": 6.513157894736842e-06,
-      "loss": 0.0016,
-      "step": 606
-    },
-    {
-      "epoch": 27.545454545454547,
-      "eval_loss": 0.0008852502796798944,
-      "eval_runtime": 0.2413,
-      "eval_samples_per_second": 364.656,
-      "eval_steps_per_second": 45.582,
-      "step": 606
-    },
-    {
-      "epoch": 27.59090909090909,
-      "grad_norm": 0.012016087770462036,
-      "learning_rate": 6.473684210526316e-06,
-      "loss": 0.0014,
-      "step": 607
-    },
-    {
-      "epoch": 27.59090909090909,
-      "eval_loss": 0.0008844301337376237,
-      "eval_runtime": 0.2344,
-      "eval_samples_per_second": 375.37,
-      "eval_steps_per_second": 46.921,
-      "step": 607
-    },
-    {
-      "epoch": 27.636363636363637,
-      "grad_norm": 0.013424508273601532,
-      "learning_rate": 6.4342105263157896e-06,
-      "loss": 0.0014,
-      "step": 608
-    },
-    {
-      "epoch": 27.636363636363637,
-      "eval_loss": 0.0008835734915919602,
-      "eval_runtime": 0.2456,
-      "eval_samples_per_second": 358.327,
-      "eval_steps_per_second": 44.791,
-      "step": 608
-    },
-    {
-      "epoch": 27.681818181818183,
-      "grad_norm": 0.014258569106459618,
-      "learning_rate": 6.394736842105263e-06,
-      "loss": 0.0016,
-      "step": 609
-    },
-    {
-      "epoch": 27.681818181818183,
-      "eval_loss": 0.0008827546262182295,
-      "eval_runtime": 0.2293,
-      "eval_samples_per_second": 383.729,
-      "eval_steps_per_second": 47.966,
-      "step": 609
-    },
-    {
-      "epoch": 27.727272727272727,
-      "grad_norm": 0.012304065749049187,
-      "learning_rate": 6.355263157894737e-06,
-      "loss": 0.0014,
-      "step": 610
-    },
-    {
-      "epoch": 27.727272727272727,
-      "eval_loss": 0.0008819656213745475,
-      "eval_runtime": 0.2293,
-      "eval_samples_per_second": 383.825,
-      "eval_steps_per_second": 47.978,
-      "step": 610
-    },
-    {
-      "epoch": 27.772727272727273,
-      "grad_norm": 0.01459804829210043,
-      "learning_rate": 6.31578947368421e-06,
-      "loss": 0.0016,
-      "step": 611
-    },
-    {
-      "epoch": 27.772727272727273,
-      "eval_loss": 0.000881133193615824,
-      "eval_runtime": 0.2354,
-      "eval_samples_per_second": 373.888,
-      "eval_steps_per_second": 46.736,
-      "step": 611
-    },
-    {
-      "epoch": 27.818181818181817,
-      "grad_norm": 0.013015978038311005,
-      "learning_rate": 6.2763157894736845e-06,
-      "loss": 0.0014,
-      "step": 612
-    },
-    {
-      "epoch": 27.818181818181817,
-      "eval_loss": 0.0008803331875242293,
-      "eval_runtime": 0.267,
-      "eval_samples_per_second": 329.599,
-      "eval_steps_per_second": 41.2,
-      "step": 612
-    },
-    {
-      "epoch": 27.863636363636363,
-      "grad_norm": 0.013901845552027225,
-      "learning_rate": 6.236842105263159e-06,
-      "loss": 0.0016,
-      "step": 613
-    },
-    {
-      "epoch": 27.863636363636363,
-      "eval_loss": 0.0008795224712230265,
-      "eval_runtime": 0.2596,
-      "eval_samples_per_second": 339.008,
-      "eval_steps_per_second": 42.376,
-      "step": 613
-    },
-    {
-      "epoch": 27.90909090909091,
-      "grad_norm": 0.012065750546753407,
-      "learning_rate": 6.197368421052632e-06,
-      "loss": 0.0014,
-      "step": 614
-    },
-    {
-      "epoch": 27.90909090909091,
-      "eval_loss": 0.0008787267142906785,
-      "eval_runtime": 0.2638,
-      "eval_samples_per_second": 333.543,
-      "eval_steps_per_second": 41.693,
-      "step": 614
-    },
-    {
-      "epoch": 27.954545454545453,
-      "grad_norm": 0.013637811876833439,
-      "learning_rate": 6.157894736842105e-06,
-      "loss": 0.0016,
-      "step": 615
-    },
-    {
-      "epoch": 27.954545454545453,
-      "eval_loss": 0.0008779308409430087,
-      "eval_runtime": 0.2586,
-      "eval_samples_per_second": 340.291,
-      "eval_steps_per_second": 42.536,
-      "step": 615
-    },
-    {
-      "epoch": 28.0,
-      "grad_norm": 0.012989726848900318,
-      "learning_rate": 6.118421052631579e-06,
-      "loss": 0.0015,
-      "step": 616
-    },
-    {
-      "epoch": 28.0,
-      "eval_loss": 0.0008771241991780698,
-      "eval_runtime": 0.2429,
-      "eval_samples_per_second": 362.255,
-      "eval_steps_per_second": 45.282,
-      "step": 616
-    },
-    {
-      "epoch": 28.045454545454547,
-      "grad_norm": 0.011249346658587456,
-      "learning_rate": 6.078947368421053e-06,
-      "loss": 0.0013,
-      "step": 617
-    },
-    {
-      "epoch": 28.045454545454547,
-      "eval_loss": 0.0008763446821831167,
-      "eval_runtime": 0.2419,
-      "eval_samples_per_second": 363.721,
-      "eval_steps_per_second": 45.465,
-      "step": 617
-    },
-    {
-      "epoch": 28.09090909090909,
-      "grad_norm": 0.013492336496710777,
-      "learning_rate": 6.039473684210526e-06,
-      "loss": 0.0016,
-      "step": 618
-    },
-    {
-      "epoch": 28.09090909090909,
-      "eval_loss": 0.000875540659762919,
-      "eval_runtime": 0.2616,
-      "eval_samples_per_second": 336.357,
-      "eval_steps_per_second": 42.045,
-      "step": 618
-    },
-    {
-      "epoch": 28.136363636363637,
-      "grad_norm": 0.013201452791690826,
-      "learning_rate": 6e-06,
-      "loss": 0.0014,
-      "step": 619
-    },
-    {
-      "epoch": 28.136363636363637,
-      "eval_loss": 0.0008747638785280287,
-      "eval_runtime": 0.2332,
-      "eval_samples_per_second": 377.308,
-      "eval_steps_per_second": 47.163,
-      "step": 619
-    },
-    {
-      "epoch": 28.181818181818183,
-      "grad_norm": 0.012346605770289898,
-      "learning_rate": 5.960526315789474e-06,
-      "loss": 0.0015,
-      "step": 620
-    },
-    {
-      "epoch": 28.181818181818183,
-      "eval_loss": 0.0008740072953514755,
-      "eval_runtime": 0.2297,
-      "eval_samples_per_second": 383.134,
-      "eval_steps_per_second": 47.892,
-      "step": 620
-    },
-    {
-      "epoch": 28.227272727272727,
-      "grad_norm": 0.013474266044795513,
-      "learning_rate": 5.921052631578948e-06,
-      "loss": 0.0015,
-      "step": 621
-    },
-    {
-      "epoch": 28.227272727272727,
-      "eval_loss": 0.0008732505375519395,
-      "eval_runtime": 0.2261,
-      "eval_samples_per_second": 389.249,
-      "eval_steps_per_second": 48.656,
-      "step": 621
-    },
-    {
-      "epoch": 28.272727272727273,
-      "grad_norm": 0.011779211461544037,
-      "learning_rate": 5.881578947368421e-06,
-      "loss": 0.0013,
-      "step": 622
-    },
-    {
-      "epoch": 28.272727272727273,
-      "eval_loss": 0.0008725319639779627,
-      "eval_runtime": 0.2358,
-      "eval_samples_per_second": 373.257,
-      "eval_steps_per_second": 46.657,
-      "step": 622
-    },
-    {
-      "epoch": 28.318181818181817,
-      "grad_norm": 0.01458238996565342,
-      "learning_rate": 5.842105263157895e-06,
-      "loss": 0.0015,
-      "step": 623
-    },
-    {
-      "epoch": 28.318181818181817,
-      "eval_loss": 0.0008718472090549767,
-      "eval_runtime": 0.2469,
-      "eval_samples_per_second": 356.442,
-      "eval_steps_per_second": 44.555,
-      "step": 623
-    },
-    {
-      "epoch": 28.363636363636363,
-      "grad_norm": 0.013492444530129433,
-      "learning_rate": 5.802631578947368e-06,
-      "loss": 0.0015,
-      "step": 624
-    },
-    {
-      "epoch": 28.363636363636363,
-      "eval_loss": 0.0008711445843800902,
-      "eval_runtime": 0.2339,
-      "eval_samples_per_second": 376.299,
-      "eval_steps_per_second": 47.037,
-      "step": 624
-    },
-    {
-      "epoch": 28.40909090909091,
-      "grad_norm": 0.016801927238702774,
-      "learning_rate": 5.763157894736842e-06,
-      "loss": 0.0016,
-      "step": 625
-    },
-    {
-      "epoch": 28.40909090909091,
-      "eval_loss": 0.0008704178035259247,
-      "eval_runtime": 0.2467,
-      "eval_samples_per_second": 356.761,
-      "eval_steps_per_second": 44.595,
-      "step": 625
-    },
-    {
-      "epoch": 28.454545454545453,
-      "grad_norm": 0.01472269557416439,
-      "learning_rate": 5.723684210526316e-06,
-      "loss": 0.0015,
-      "step": 626
-    },
-    {
-      "epoch": 28.454545454545453,
-      "eval_loss": 0.0008697099983692169,
-      "eval_runtime": 0.2361,
-      "eval_samples_per_second": 372.695,
-      "eval_steps_per_second": 46.587,
-      "step": 626
-    },
-    {
-      "epoch": 28.5,
-      "grad_norm": 0.012456816621124744,
-      "learning_rate": 5.68421052631579e-06,
-      "loss": 0.0014,
-      "step": 627
-    },
-    {
-      "epoch": 28.5,
-      "eval_loss": 0.0008690251270309091,
-      "eval_runtime": 0.227,
-      "eval_samples_per_second": 387.675,
-      "eval_steps_per_second": 48.459,
-      "step": 627
-    },
-    {
-      "epoch": 28.545454545454547,
-      "grad_norm": 0.010930378921329975,
-      "learning_rate": 5.644736842105263e-06,
-      "loss": 0.0013,
-      "step": 628
-    },
-    {
-      "epoch": 28.545454545454547,
-      "eval_loss": 0.0008683226769790053,
-      "eval_runtime": 0.2396,
-      "eval_samples_per_second": 367.217,
-      "eval_steps_per_second": 45.902,
-      "step": 628
-    },
-    {
-      "epoch": 28.59090909090909,
-      "grad_norm": 0.013773776590824127,
-      "learning_rate": 5.605263157894737e-06,
-      "loss": 0.0016,
-      "step": 629
-    },
-    {
-      "epoch": 28.59090909090909,
-      "eval_loss": 0.0008676418801769614,
-      "eval_runtime": 0.2255,
-      "eval_samples_per_second": 390.204,
-      "eval_steps_per_second": 48.776,
-      "step": 629
-    },
-    {
-      "epoch": 28.636363636363637,
-      "grad_norm": 0.01485821045935154,
-      "learning_rate": 5.565789473684211e-06,
-      "loss": 0.0015,
-      "step": 630
-    },
-    {
-      "epoch": 28.636363636363637,
-      "eval_loss": 0.0008669787785038352,
-      "eval_runtime": 0.238,
-      "eval_samples_per_second": 369.806,
-      "eval_steps_per_second": 46.226,
-      "step": 630
-    },
-    {
-      "epoch": 28.681818181818183,
-      "grad_norm": 0.012882347218692303,
-      "learning_rate": 5.526315789473684e-06,
-      "loss": 0.0015,
-      "step": 631
-    },
-    {
-      "epoch": 28.681818181818183,
-      "eval_loss": 0.0008663006592541933,
-      "eval_runtime": 0.2392,
-      "eval_samples_per_second": 367.945,
-      "eval_steps_per_second": 45.993,
-      "step": 631
-    },
-    {
-      "epoch": 28.727272727272727,
-      "grad_norm": 0.013756033033132553,
-      "learning_rate": 5.486842105263158e-06,
-      "loss": 0.0015,
-      "step": 632
-    },
-    {
-      "epoch": 28.727272727272727,
-      "eval_loss": 0.0008656617719680071,
-      "eval_runtime": 0.2392,
-      "eval_samples_per_second": 367.897,
-      "eval_steps_per_second": 45.987,
-      "step": 632
-    },
-    {
-      "epoch": 28.772727272727273,
-      "grad_norm": 0.011964356526732445,
-      "learning_rate": 5.447368421052632e-06,
-      "loss": 0.0014,
-      "step": 633
-    },
-    {
-      "epoch": 28.772727272727273,
-      "eval_loss": 0.0008649809169583023,
-      "eval_runtime": 0.2416,
-      "eval_samples_per_second": 364.235,
-      "eval_steps_per_second": 45.529,
-      "step": 633
-    },
-    {
-      "epoch": 28.818181818181817,
-      "grad_norm": 0.014426548965275288,
-      "learning_rate": 5.407894736842106e-06,
-      "loss": 0.0015,
-      "step": 634
-    },
-    {
-      "epoch": 28.818181818181817,
-      "eval_loss": 0.0008642975008115172,
-      "eval_runtime": 0.2426,
-      "eval_samples_per_second": 362.673,
-      "eval_steps_per_second": 45.334,
-      "step": 634
-    },
-    {
-      "epoch": 28.863636363636363,
-      "grad_norm": 0.013472221791744232,
-      "learning_rate": 5.368421052631579e-06,
-      "loss": 0.0014,
-      "step": 635
-    },
-    {
-      "epoch": 28.863636363636363,
-      "eval_loss": 0.0008636031416244805,
-      "eval_runtime": 0.2517,
-      "eval_samples_per_second": 349.684,
-      "eval_steps_per_second": 43.711,
-      "step": 635
-    },
-    {
-      "epoch": 28.90909090909091,
-      "grad_norm": 0.012157904915511608,
-      "learning_rate": 5.328947368421053e-06,
-      "loss": 0.0014,
-      "step": 636
-    },
-    {
-      "epoch": 28.90909090909091,
-      "eval_loss": 0.000862881715875119,
-      "eval_runtime": 0.2369,
-      "eval_samples_per_second": 371.509,
-      "eval_steps_per_second": 46.439,
-      "step": 636
-    },
-    {
-      "epoch": 28.954545454545453,
-      "grad_norm": 0.012409983202815056,
-      "learning_rate": 5.289473684210526e-06,
-      "loss": 0.0014,
-      "step": 637
-    },
-    {
-      "epoch": 28.954545454545453,
-      "eval_loss": 0.0008621684974059463,
-      "eval_runtime": 0.2465,
-      "eval_samples_per_second": 357.054,
-      "eval_steps_per_second": 44.632,
-      "step": 637
-    },
-    {
-      "epoch": 29.0,
-      "grad_norm": 0.013315846212208271,
-      "learning_rate": 5.25e-06,
-      "loss": 0.0015,
-      "step": 638
-    },
-    {
-      "epoch": 29.0,
-      "eval_loss": 0.0008614835678599775,
-      "eval_runtime": 0.2407,
-      "eval_samples_per_second": 365.586,
-      "eval_steps_per_second": 45.698,
-      "step": 638
-    },
-    {
-      "epoch": 29.045454545454547,
-      "grad_norm": 0.015236815437674522,
-      "learning_rate": 5.210526315789474e-06,
-      "loss": 0.0016,
-      "step": 639
-    },
-    {
-      "epoch": 29.045454545454547,
-      "eval_loss": 0.0008607918862253428,
-      "eval_runtime": 0.2362,
-      "eval_samples_per_second": 372.636,
-      "eval_steps_per_second": 46.579,
-      "step": 639
-    },
-    {
-      "epoch": 29.09090909090909,
-      "grad_norm": 0.01497814990580082,
-      "learning_rate": 5.171052631578948e-06,
-      "loss": 0.0015,
-      "step": 640
-    },
-    {
-      "epoch": 29.09090909090909,
-      "eval_loss": 0.0008601464214734733,
-      "eval_runtime": 0.2513,
-      "eval_samples_per_second": 350.225,
-      "eval_steps_per_second": 43.778,
-      "step": 640
-    },
-    {
-      "epoch": 29.136363636363637,
-      "grad_norm": 0.010525020770728588,
-      "learning_rate": 5.131578947368421e-06,
-      "loss": 0.0013,
-      "step": 641
-    },
-    {
-      "epoch": 29.136363636363637,
-      "eval_loss": 0.0008594872197136283,
-      "eval_runtime": 0.2472,
-      "eval_samples_per_second": 355.947,
-      "eval_steps_per_second": 44.493,
-      "step": 641
-    },
-    {
-      "epoch": 29.181818181818183,
-      "grad_norm": 0.012257490307092667,
-      "learning_rate": 5.092105263157895e-06,
-      "loss": 0.0014,
-      "step": 642
-    },
-    {
-      "epoch": 29.181818181818183,
-      "eval_loss": 0.0008588552009314299,
-      "eval_runtime": 0.2514,
-      "eval_samples_per_second": 350.01,
-      "eval_steps_per_second": 43.751,
-      "step": 642
-    },
-    {
-      "epoch": 29.227272727272727,
-      "grad_norm": 0.016379721462726593,
-      "learning_rate": 5.052631578947369e-06,
-      "loss": 0.0016,
-      "step": 643
-    },
-    {
-      "epoch": 29.227272727272727,
-      "eval_loss": 0.0008582230657339096,
-      "eval_runtime": 0.2421,
-      "eval_samples_per_second": 363.525,
-      "eval_steps_per_second": 45.441,
-      "step": 643
-    },
-    {
-      "epoch": 29.272727272727273,
-      "grad_norm": 0.013389473780989647,
-      "learning_rate": 5.013157894736842e-06,
-      "loss": 0.0014,
-      "step": 644
-    },
-    {
-      "epoch": 29.272727272727273,
-      "eval_loss": 0.0008576181135140359,
-      "eval_runtime": 0.2837,
-      "eval_samples_per_second": 310.222,
-      "eval_steps_per_second": 38.778,
-      "step": 644
-    },
-    {
-      "epoch": 29.318181818181817,
-      "grad_norm": 0.011728441342711449,
-      "learning_rate": 4.973684210526315e-06,
-      "loss": 0.0014,
-      "step": 645
-    },
-    {
-      "epoch": 29.318181818181817,
-      "eval_loss": 0.0008570144418627024,
-      "eval_runtime": 0.3144,
-      "eval_samples_per_second": 279.869,
-      "eval_steps_per_second": 34.984,
-      "step": 645
-    },
-    {
-      "epoch": 29.363636363636363,
-      "grad_norm": 0.014150052331387997,
-      "learning_rate": 4.9342105263157895e-06,
-      "loss": 0.0015,
-      "step": 646
-    },
-    {
-      "epoch": 29.363636363636363,
-      "eval_loss": 0.0008564500021748245,
-      "eval_runtime": 0.2427,
-      "eval_samples_per_second": 362.611,
-      "eval_steps_per_second": 45.326,
-      "step": 646
-    },
-    {
-      "epoch": 29.40909090909091,
-      "grad_norm": 0.012562847696244717,
-      "learning_rate": 4.894736842105264e-06,
-      "loss": 0.0015,
-      "step": 647
-    },
-    {
-      "epoch": 29.40909090909091,
-      "eval_loss": 0.0008558626868762076,
-      "eval_runtime": 0.2385,
-      "eval_samples_per_second": 368.954,
-      "eval_steps_per_second": 46.119,
-      "step": 647
-    },
-    {
-      "epoch": 29.454545454545453,
-      "grad_norm": 0.01115860603749752,
-      "learning_rate": 4.855263157894737e-06,
-      "loss": 0.0012,
-      "step": 648
-    },
-    {
-      "epoch": 29.454545454545453,
-      "eval_loss": 0.000855276535730809,
-      "eval_runtime": 0.2434,
-      "eval_samples_per_second": 361.501,
-      "eval_steps_per_second": 45.188,
-      "step": 648
-    },
-    {
-      "epoch": 29.5,
-      "grad_norm": 0.014787169173359871,
-      "learning_rate": 4.81578947368421e-06,
-      "loss": 0.0015,
-      "step": 649
-    },
-    {
-      "epoch": 29.5,
-      "eval_loss": 0.0008546687895432115,
-      "eval_runtime": 0.2404,
-      "eval_samples_per_second": 366.019,
-      "eval_steps_per_second": 45.752,
-      "step": 649
-    },
-    {
-      "epoch": 29.545454545454547,
-      "grad_norm": 0.014013570733368397,
-      "learning_rate": 4.7763157894736844e-06,
-      "loss": 0.0014,
-      "step": 650
-    },
-    {
-      "epoch": 29.545454545454547,
-      "eval_loss": 0.0008540409035049379,
-      "eval_runtime": 0.2415,
-      "eval_samples_per_second": 364.376,
-      "eval_steps_per_second": 45.547,
-      "step": 650
-    },
-    {
-      "epoch": 29.59090909090909,
-      "grad_norm": 0.013314800336956978,
-      "learning_rate": 4.736842105263158e-06,
-      "loss": 0.0015,
-      "step": 651
-    },
-    {
-      "epoch": 29.59090909090909,
-      "eval_loss": 0.0008533978252671659,
-      "eval_runtime": 0.2334,
-      "eval_samples_per_second": 377.055,
-      "eval_steps_per_second": 47.132,
-      "step": 651
-    },
-    {
-      "epoch": 29.636363636363637,
-      "grad_norm": 0.011727740988135338,
-      "learning_rate": 4.697368421052631e-06,
-      "loss": 0.0014,
-      "step": 652
-    },
-    {
-      "epoch": 29.636363636363637,
-      "eval_loss": 0.0008527915342710912,
-      "eval_runtime": 0.2324,
-      "eval_samples_per_second": 378.693,
-      "eval_steps_per_second": 47.337,
-      "step": 652
-    },
-    {
-      "epoch": 29.681818181818183,
-      "grad_norm": 0.014551502652466297,
-      "learning_rate": 4.657894736842106e-06,
-      "loss": 0.0016,
-      "step": 653
-    },
-    {
-      "epoch": 29.681818181818183,
-      "eval_loss": 0.0008521459531039,
-      "eval_runtime": 0.2274,
-      "eval_samples_per_second": 387.021,
-      "eval_steps_per_second": 48.378,
-      "step": 653
-    },
-    {
-      "epoch": 29.727272727272727,
-      "grad_norm": 0.01226063258945942,
-      "learning_rate": 4.618421052631579e-06,
-      "loss": 0.0013,
-      "step": 654
-    },
-    {
-      "epoch": 29.727272727272727,
-      "eval_loss": 0.0008515057852491736,
-      "eval_runtime": 0.2277,
-      "eval_samples_per_second": 386.523,
-      "eval_steps_per_second": 48.315,
-      "step": 654
-    },
-    {
-      "epoch": 29.772727272727273,
-      "grad_norm": 0.013769338838756084,
-      "learning_rate": 4.578947368421053e-06,
-      "loss": 0.0015,
-      "step": 655
-    },
-    {
-      "epoch": 29.772727272727273,
-      "eval_loss": 0.0008508588653057814,
-      "eval_runtime": 0.2246,
-      "eval_samples_per_second": 391.814,
-      "eval_steps_per_second": 48.977,
-      "step": 655
-    },
-    {
-      "epoch": 29.818181818181817,
-      "grad_norm": 0.012221275828778744,
-      "learning_rate": 4.539473684210527e-06,
-      "loss": 0.0015,
-      "step": 656
-    },
-    {
-      "epoch": 29.818181818181817,
-      "eval_loss": 0.0008502537966705859,
-      "eval_runtime": 0.2288,
-      "eval_samples_per_second": 384.596,
-      "eval_steps_per_second": 48.075,
-      "step": 656
-    },
-    {
-      "epoch": 29.863636363636363,
-      "grad_norm": 0.011863375082612038,
-      "learning_rate": 4.5e-06,
-      "loss": 0.0013,
-      "step": 657
-    },
-    {
-      "epoch": 29.863636363636363,
-      "eval_loss": 0.0008496582740917802,
-      "eval_runtime": 0.2473,
-      "eval_samples_per_second": 355.889,
-      "eval_steps_per_second": 44.486,
-      "step": 657
-    },
-    {
-      "epoch": 29.90909090909091,
-      "grad_norm": 0.01440768875181675,
-      "learning_rate": 4.460526315789473e-06,
-      "loss": 0.0015,
-      "step": 658
-    },
-    {
-      "epoch": 29.90909090909091,
-      "eval_loss": 0.0008490938926115632,
-      "eval_runtime": 0.2279,
-      "eval_samples_per_second": 386.137,
-      "eval_steps_per_second": 48.267,
-      "step": 658
-    },
-    {
-      "epoch": 29.954545454545453,
-      "grad_norm": 0.013953134417533875,
-      "learning_rate": 4.421052631578947e-06,
-      "loss": 0.0014,
-      "step": 659
-    },
-    {
-      "epoch": 29.954545454545453,
-      "eval_loss": 0.0008485484286211431,
-      "eval_runtime": 0.2309,
-      "eval_samples_per_second": 381.17,
-      "eval_steps_per_second": 47.646,
-      "step": 659
-    },
-    {
-      "epoch": 30.0,
-      "grad_norm": 0.012044006027281284,
-      "learning_rate": 4.381578947368422e-06,
-      "loss": 0.0014,
-      "step": 660
-    },
-    {
-      "epoch": 30.0,
-      "eval_loss": 0.0008479988318867981,
-      "eval_runtime": 0.2301,
-      "eval_samples_per_second": 382.482,
-      "eval_steps_per_second": 47.81,
-      "step": 660
-    },
-    {
-      "epoch": 30.045454545454547,
-      "grad_norm": 0.014352229423820972,
-      "learning_rate": 4.342105263157895e-06,
-      "loss": 0.0015,
-      "step": 661
-    },
-    {
-      "epoch": 30.045454545454547,
-      "eval_loss": 0.0008474763599224389,
-      "eval_runtime": 0.228,
-      "eval_samples_per_second": 385.949,
-      "eval_steps_per_second": 48.244,
-      "step": 661
-    },
-    {
-      "epoch": 30.09090909090909,
-      "grad_norm": 0.012857983820140362,
-      "learning_rate": 4.302631578947368e-06,
-      "loss": 0.0015,
-      "step": 662
-    },
-    {
-      "epoch": 30.09090909090909,
-      "eval_loss": 0.0008469296153634787,
-      "eval_runtime": 0.2254,
-      "eval_samples_per_second": 390.463,
-      "eval_steps_per_second": 48.808,
-      "step": 662
-    },
-    {
-      "epoch": 30.136363636363637,
-      "grad_norm": 0.013745253905653954,
-      "learning_rate": 4.2631578947368425e-06,
-      "loss": 0.0014,
-      "step": 663
-    },
-    {
-      "epoch": 30.136363636363637,
-      "eval_loss": 0.0008464112761430442,
-      "eval_runtime": 0.2615,
-      "eval_samples_per_second": 336.504,
-      "eval_steps_per_second": 42.063,
-      "step": 663
-    },
-    {
-      "epoch": 30.181818181818183,
-      "grad_norm": 0.011542108841240406,
-      "learning_rate": 4.223684210526316e-06,
-      "loss": 0.0014,
-      "step": 664
-    },
-    {
-      "epoch": 30.181818181818183,
-      "eval_loss": 0.0008458928787149489,
-      "eval_runtime": 0.2363,
-      "eval_samples_per_second": 372.361,
-      "eval_steps_per_second": 46.545,
-      "step": 664
-    },
-    {
-      "epoch": 30.227272727272727,
-      "grad_norm": 0.013680350966751575,
-      "learning_rate": 4.184210526315789e-06,
-      "loss": 0.0015,
-      "step": 665
-    },
-    {
-      "epoch": 30.227272727272727,
-      "eval_loss": 0.0008453825721517205,
-      "eval_runtime": 0.2422,
-      "eval_samples_per_second": 363.317,
-      "eval_steps_per_second": 45.415,
-      "step": 665
-    },
-    {
-      "epoch": 30.272727272727273,
-      "grad_norm": 0.01278683077543974,
-      "learning_rate": 4.144736842105263e-06,
-      "loss": 0.0013,
-      "step": 666
-    },
-    {
-      "epoch": 30.272727272727273,
-      "eval_loss": 0.0008448913577012718,
-      "eval_runtime": 0.2274,
-      "eval_samples_per_second": 386.997,
-      "eval_steps_per_second": 48.375,
-      "step": 666
-    },
-    {
-      "epoch": 30.318181818181817,
-      "grad_norm": 0.013793477788567543,
-      "learning_rate": 4.105263157894737e-06,
-      "loss": 0.0016,
-      "step": 667
-    },
-    {
-      "epoch": 30.318181818181817,
-      "eval_loss": 0.0008444040431641042,
-      "eval_runtime": 0.2383,
-      "eval_samples_per_second": 369.303,
-      "eval_steps_per_second": 46.163,
-      "step": 667
-    },
-    {
-      "epoch": 30.363636363636363,
-      "grad_norm": 0.013766897842288017,
-      "learning_rate": 4.065789473684211e-06,
-      "loss": 0.0014,
-      "step": 668
-    },
-    {
-      "epoch": 30.363636363636363,
-      "eval_loss": 0.0008439045632258058,
-      "eval_runtime": 0.2472,
-      "eval_samples_per_second": 355.963,
-      "eval_steps_per_second": 44.495,
-      "step": 668
-    },
-    {
-      "epoch": 30.40909090909091,
-      "grad_norm": 0.01388518325984478,
-      "learning_rate": 4.026315789473684e-06,
-      "loss": 0.0014,
-      "step": 669
-    },
-    {
-      "epoch": 30.40909090909091,
-      "eval_loss": 0.0008434146293438971,
-      "eval_runtime": 0.2555,
-      "eval_samples_per_second": 344.476,
-      "eval_steps_per_second": 43.059,
-      "step": 669
-    },
-    {
-      "epoch": 30.454545454545453,
-      "grad_norm": 0.013302307575941086,
-      "learning_rate": 3.986842105263158e-06,
-      "loss": 0.0014,
-      "step": 670
-    },
-    {
-      "epoch": 30.454545454545453,
-      "eval_loss": 0.0008429314475506544,
-      "eval_runtime": 0.234,
-      "eval_samples_per_second": 375.99,
-      "eval_steps_per_second": 46.999,
-      "step": 670
-    },
-    {
-      "epoch": 30.5,
-      "grad_norm": 0.015602638944983482,
-      "learning_rate": 3.9473684210526315e-06,
-      "loss": 0.0015,
-      "step": 671
-    },
-    {
-      "epoch": 30.5,
-      "eval_loss": 0.0008424482657574117,
-      "eval_runtime": 0.2312,
-      "eval_samples_per_second": 380.69,
-      "eval_steps_per_second": 47.586,
-      "step": 671
-    },
-    {
-      "epoch": 30.545454545454547,
-      "grad_norm": 0.012195833958685398,
-      "learning_rate": 3.907894736842105e-06,
-      "loss": 0.0014,
-      "step": 672
-    },
-    {
-      "epoch": 30.545454545454547,
-      "eval_loss": 0.0008419921505264938,
-      "eval_runtime": 0.2348,
-      "eval_samples_per_second": 374.848,
-      "eval_steps_per_second": 46.856,
-      "step": 672
-    },
-    {
-      "epoch": 30.59090909090909,
-      "grad_norm": 0.012124909088015556,
-      "learning_rate": 3.86842105263158e-06,
-      "loss": 0.0014,
-      "step": 673
-    },
-    {
-      "epoch": 30.59090909090909,
-      "eval_loss": 0.0008415495394729078,
-      "eval_runtime": 0.2337,
-      "eval_samples_per_second": 376.514,
-      "eval_steps_per_second": 47.064,
-      "step": 673
-    },
-    {
-      "epoch": 30.636363636363637,
-      "grad_norm": 0.012487749569118023,
-      "learning_rate": 3.828947368421053e-06,
-      "loss": 0.0014,
-      "step": 674
-    },
-    {
-      "epoch": 30.636363636363637,
-      "eval_loss": 0.0008411163580603898,
-      "eval_runtime": 0.2252,
-      "eval_samples_per_second": 390.686,
-      "eval_steps_per_second": 48.836,
-      "step": 674
-    },
-    {
-      "epoch": 30.681818181818183,
-      "grad_norm": 0.013694563880562782,
-      "learning_rate": 3.7894736842105264e-06,
-      "loss": 0.0015,
-      "step": 675
-    },
-    {
-      "epoch": 30.681818181818183,
-      "eval_loss": 0.0008406452834606171,
-      "eval_runtime": 0.2277,
-      "eval_samples_per_second": 386.401,
-      "eval_steps_per_second": 48.3,
-      "step": 675
-    },
-    {
-      "epoch": 30.727272727272727,
-      "grad_norm": 0.012177863158285618,
-      "learning_rate": 3.75e-06,
-      "loss": 0.0015,
-      "step": 676
-    },
-    {
-      "epoch": 30.727272727272727,
-      "eval_loss": 0.0008401837549172342,
-      "eval_runtime": 0.2284,
-      "eval_samples_per_second": 385.297,
-      "eval_steps_per_second": 48.162,
-      "step": 676
-    },
-    {
-      "epoch": 30.772727272727273,
-      "grad_norm": 0.011734875850379467,
-      "learning_rate": 3.710526315789474e-06,
-      "loss": 0.0013,
-      "step": 677
-    },
-    {
-      "epoch": 30.772727272727273,
-      "eval_loss": 0.0008397437632083893,
-      "eval_runtime": 0.2349,
-      "eval_samples_per_second": 374.661,
-      "eval_steps_per_second": 46.833,
-      "step": 677
-    },
-    {
-      "epoch": 30.818181818181817,
-      "grad_norm": 0.012181814759969711,
-      "learning_rate": 3.6710526315789476e-06,
-      "loss": 0.0015,
-      "step": 678
-    },
-    {
-      "epoch": 30.818181818181817,
-      "eval_loss": 0.000839310756418854,
-      "eval_runtime": 0.2267,
-      "eval_samples_per_second": 388.249,
-      "eval_steps_per_second": 48.531,
-      "step": 678
-    },
-    {
-      "epoch": 30.863636363636363,
-      "grad_norm": 0.014351209625601768,
-      "learning_rate": 3.6315789473684213e-06,
-      "loss": 0.0015,
-      "step": 679
-    },
-    {
-      "epoch": 30.863636363636363,
-      "eval_loss": 0.0008388804271817207,
-      "eval_runtime": 0.2382,
-      "eval_samples_per_second": 369.474,
-      "eval_steps_per_second": 46.184,
-      "step": 679
-    },
-    {
-      "epoch": 30.90909090909091,
-      "grad_norm": 0.01179533638060093,
-      "learning_rate": 3.5921052631578946e-06,
-      "loss": 0.0014,
-      "step": 680
-    },
-    {
-      "epoch": 30.90909090909091,
-      "eval_loss": 0.0008384499233216047,
-      "eval_runtime": 0.227,
-      "eval_samples_per_second": 387.694,
-      "eval_steps_per_second": 48.462,
-      "step": 680
-    },
-    {
-      "epoch": 30.954545454545453,
-      "grad_norm": 0.01200299896299839,
-      "learning_rate": 3.5526315789473683e-06,
-      "loss": 0.0014,
-      "step": 681
-    },
-    {
-      "epoch": 30.954545454545453,
-      "eval_loss": 0.0008380439248867333,
-      "eval_runtime": 0.2357,
-      "eval_samples_per_second": 373.384,
-      "eval_steps_per_second": 46.673,
-      "step": 681
-    },
-    {
-      "epoch": 31.0,
-      "grad_norm": 0.012165653519332409,
-      "learning_rate": 3.5131578947368425e-06,
-      "loss": 0.0014,
-      "step": 682
-    },
-    {
-      "epoch": 31.0,
-      "eval_loss": 0.0008376243058592081,
-      "eval_runtime": 0.2268,
-      "eval_samples_per_second": 387.994,
-      "eval_steps_per_second": 48.499,
-      "step": 682
-    },
-    {
-      "epoch": 31.045454545454547,
-      "grad_norm": 0.013023504056036472,
-      "learning_rate": 3.4736842105263158e-06,
-      "loss": 0.0014,
-      "step": 683
-    },
-    {
-      "epoch": 31.045454545454547,
-      "eval_loss": 0.0008372208685614169,
-      "eval_runtime": 0.2408,
-      "eval_samples_per_second": 365.51,
-      "eval_steps_per_second": 45.689,
-      "step": 683
-    },
-    {
-      "epoch": 31.09090909090909,
-      "grad_norm": 0.012478847056627274,
-      "learning_rate": 3.4342105263157895e-06,
-      "loss": 0.0015,
-      "step": 684
-    },
-    {
-      "epoch": 31.09090909090909,
-      "eval_loss": 0.0008367864647880197,
-      "eval_runtime": 0.2261,
-      "eval_samples_per_second": 389.221,
-      "eval_steps_per_second": 48.653,
-      "step": 684
-    },
-    {
-      "epoch": 31.136363636363637,
-      "grad_norm": 0.011943116784095764,
-      "learning_rate": 3.3947368421052632e-06,
-      "loss": 0.0014,
-      "step": 685
-    },
-    {
-      "epoch": 31.136363636363637,
-      "eval_loss": 0.0008363695815205574,
-      "eval_runtime": 0.2405,
-      "eval_samples_per_second": 365.829,
-      "eval_steps_per_second": 45.729,
-      "step": 685
-    },
-    {
-      "epoch": 31.181818181818183,
-      "grad_norm": 0.012198768556118011,
-      "learning_rate": 3.355263157894737e-06,
-      "loss": 0.0014,
-      "step": 686
-    },
-    {
-      "epoch": 31.181818181818183,
-      "eval_loss": 0.000835962186101824,
-      "eval_runtime": 0.2414,
-      "eval_samples_per_second": 364.526,
-      "eval_steps_per_second": 45.566,
-      "step": 686
-    },
-    {
-      "epoch": 31.227272727272727,
-      "grad_norm": 0.012970656156539917,
-      "learning_rate": 3.3157894736842107e-06,
-      "loss": 0.0014,
-      "step": 687
-    },
-    {
-      "epoch": 31.227272727272727,
-      "eval_loss": 0.0008355574682354927,
-      "eval_runtime": 0.2355,
-      "eval_samples_per_second": 373.686,
-      "eval_steps_per_second": 46.711,
-      "step": 687
-    },
-    {
-      "epoch": 31.272727272727273,
-      "grad_norm": 0.01133756898343563,
-      "learning_rate": 3.2763157894736844e-06,
-      "loss": 0.0012,
-      "step": 688
-    },
-    {
-      "epoch": 31.272727272727273,
-      "eval_loss": 0.0008351581636816263,
-      "eval_runtime": 0.239,
-      "eval_samples_per_second": 368.146,
-      "eval_steps_per_second": 46.018,
-      "step": 688
-    },
-    {
-      "epoch": 31.318181818181817,
-      "grad_norm": 0.014246292412281036,
-      "learning_rate": 3.236842105263158e-06,
-      "loss": 0.0014,
-      "step": 689
-    },
-    {
-      "epoch": 31.318181818181817,
-      "eval_loss": 0.0008347549010068178,
-      "eval_runtime": 0.2413,
-      "eval_samples_per_second": 364.723,
-      "eval_steps_per_second": 45.59,
-      "step": 689
-    },
-    {
-      "epoch": 31.363636363636363,
-      "grad_norm": 0.01505040843039751,
-      "learning_rate": 3.1973684210526314e-06,
-      "loss": 0.0016,
-      "step": 690
-    },
-    {
-      "epoch": 31.363636363636363,
-      "eval_loss": 0.0008343501249328256,
-      "eval_runtime": 0.2321,
-      "eval_samples_per_second": 379.09,
-      "eval_steps_per_second": 47.386,
-      "step": 690
-    },
-    {
-      "epoch": 31.40909090909091,
-      "grad_norm": 0.011749452911317348,
-      "learning_rate": 3.157894736842105e-06,
-      "loss": 0.0013,
-      "step": 691
-    },
-    {
-      "epoch": 31.40909090909091,
-      "eval_loss": 0.0008339481428265572,
-      "eval_runtime": 0.2656,
-      "eval_samples_per_second": 331.332,
-      "eval_steps_per_second": 41.416,
-      "step": 691
-    },
-    {
-      "epoch": 31.454545454545453,
-      "grad_norm": 0.012921934016048908,
-      "learning_rate": 3.1184210526315793e-06,
-      "loss": 0.0015,
-      "step": 692
-    },
-    {
-      "epoch": 31.454545454545453,
-      "eval_loss": 0.0008335394668392837,
-      "eval_runtime": 0.2542,
-      "eval_samples_per_second": 346.242,
-      "eval_steps_per_second": 43.28,
-      "step": 692
-    },
-    {
-      "epoch": 31.5,
-      "grad_norm": 0.01331315003335476,
-      "learning_rate": 3.0789473684210526e-06,
-      "loss": 0.0014,
-      "step": 693
-    },
-    {
-      "epoch": 31.5,
-      "eval_loss": 0.0008331468561664224,
-      "eval_runtime": 0.2417,
-      "eval_samples_per_second": 364.055,
-      "eval_steps_per_second": 45.507,
-      "step": 693
-    },
-    {
-      "epoch": 31.545454545454547,
-      "grad_norm": 0.012770496308803558,
-      "learning_rate": 3.0394736842105263e-06,
-      "loss": 0.0015,
-      "step": 694
-    },
-    {
-      "epoch": 31.545454545454547,
-      "eval_loss": 0.0008327368414029479,
-      "eval_runtime": 0.2689,
-      "eval_samples_per_second": 327.265,
-      "eval_steps_per_second": 40.908,
-      "step": 694
-    },
-    {
-      "epoch": 31.59090909090909,
-      "grad_norm": 0.012804139405488968,
-      "learning_rate": 3e-06,
-      "loss": 0.0014,
-      "step": 695
-    },
-    {
-      "epoch": 31.59090909090909,
-      "eval_loss": 0.0008323252550326288,
-      "eval_runtime": 0.2468,
-      "eval_samples_per_second": 356.61,
-      "eval_steps_per_second": 44.576,
-      "step": 695
-    },
-    {
-      "epoch": 31.636363636363637,
-      "grad_norm": 0.014062759466469288,
-      "learning_rate": 2.960526315789474e-06,
-      "loss": 0.0015,
-      "step": 696
-    },
-    {
-      "epoch": 31.636363636363637,
-      "eval_loss": 0.0008318935870192945,
-      "eval_runtime": 0.2529,
-      "eval_samples_per_second": 347.95,
-      "eval_steps_per_second": 43.494,
-      "step": 696
-    },
-    {
-      "epoch": 31.681818181818183,
-      "grad_norm": 0.013049440458416939,
-      "learning_rate": 2.9210526315789475e-06,
-      "loss": 0.0014,
-      "step": 697
-    },
-    {
-      "epoch": 31.681818181818183,
-      "eval_loss": 0.0008314928272739053,
-      "eval_runtime": 0.2521,
-      "eval_samples_per_second": 349.0,
-      "eval_steps_per_second": 43.625,
-      "step": 697
-    },
-    {
-      "epoch": 31.727272727272727,
-      "grad_norm": 0.01172225084155798,
-      "learning_rate": 2.881578947368421e-06,
-      "loss": 0.0013,
-      "step": 698
-    },
-    {
-      "epoch": 31.727272727272727,
-      "eval_loss": 0.0008310881094075739,
-      "eval_runtime": 0.2672,
-      "eval_samples_per_second": 329.329,
-      "eval_steps_per_second": 41.166,
-      "step": 698
-    },
-    {
-      "epoch": 31.772727272727273,
-      "grad_norm": 0.01266531739383936,
-      "learning_rate": 2.842105263157895e-06,
-      "loss": 0.0014,
-      "step": 699
-    },
-    {
-      "epoch": 31.772727272727273,
-      "eval_loss": 0.0008307105163112283,
-      "eval_runtime": 0.3176,
-      "eval_samples_per_second": 277.082,
-      "eval_steps_per_second": 34.635,
-      "step": 699
-    },
-    {
-      "epoch": 31.818181818181817,
-      "grad_norm": 0.014071842655539513,
-      "learning_rate": 2.8026315789473683e-06,
-      "loss": 0.0015,
-      "step": 700
-    },
-    {
-      "epoch": 31.818181818181817,
-      "eval_loss": 0.0008303424110636115,
-      "eval_runtime": 0.2648,
-      "eval_samples_per_second": 332.279,
-      "eval_steps_per_second": 41.535,
-      "step": 700
-    },
-    {
-      "epoch": 31.863636363636363,
-      "grad_norm": 0.01333391759544611,
-      "learning_rate": 2.763157894736842e-06,
-      "loss": 0.0015,
-      "step": 701
-    },
-    {
-      "epoch": 31.863636363636363,
-      "eval_loss": 0.0008299809414893389,
-      "eval_runtime": 0.2429,
-      "eval_samples_per_second": 362.239,
-      "eval_steps_per_second": 45.28,
-      "step": 701
-    },
-    {
-      "epoch": 31.90909090909091,
-      "grad_norm": 0.010583317838609219,
-      "learning_rate": 2.723684210526316e-06,
-      "loss": 0.0012,
-      "step": 702
-    },
-    {
-      "epoch": 31.90909090909091,
-      "eval_loss": 0.0008296439773403108,
-      "eval_runtime": 0.2463,
-      "eval_samples_per_second": 357.358,
-      "eval_steps_per_second": 44.67,
-      "step": 702
-    },
-    {
-      "epoch": 31.954545454545453,
-      "grad_norm": 0.01122986525297165,
-      "learning_rate": 2.6842105263157895e-06,
-      "loss": 0.0013,
-      "step": 703
-    },
-    {
-      "epoch": 31.954545454545453,
-      "eval_loss": 0.0008293138234876096,
-      "eval_runtime": 0.2433,
-      "eval_samples_per_second": 361.652,
-      "eval_steps_per_second": 45.206,
-      "step": 703
-    },
-    {
-      "epoch": 32.0,
-      "grad_norm": 0.011437175795435905,
-      "learning_rate": 2.644736842105263e-06,
-      "loss": 0.0013,
-      "step": 704
-    },
-    {
-      "epoch": 32.0,
-      "eval_loss": 0.0008289901888929307,
-      "eval_runtime": 0.2357,
-      "eval_samples_per_second": 373.319,
-      "eval_steps_per_second": 46.665,
-      "step": 704
-    },
-    {
-      "epoch": 32.04545454545455,
-      "grad_norm": 0.012699670158326626,
-      "learning_rate": 2.605263157894737e-06,
-      "loss": 0.0014,
-      "step": 705
-    },
-    {
-      "epoch": 32.04545454545455,
-      "eval_loss": 0.0008286829688586295,
-      "eval_runtime": 0.2319,
-      "eval_samples_per_second": 379.476,
-      "eval_steps_per_second": 47.435,
-      "step": 705
-    },
-    {
-      "epoch": 32.09090909090909,
-      "grad_norm": 0.013239861465990543,
-      "learning_rate": 2.5657894736842107e-06,
-      "loss": 0.0014,
-      "step": 706
-    },
-    {
-      "epoch": 32.09090909090909,
-      "eval_loss": 0.0008283716160804033,
-      "eval_runtime": 0.2319,
-      "eval_samples_per_second": 379.415,
-      "eval_steps_per_second": 47.427,
-      "step": 706
-    },
-    {
-      "epoch": 32.13636363636363,
-      "grad_norm": 0.012133197858929634,
-      "learning_rate": 2.5263157894736844e-06,
-      "loss": 0.0013,
-      "step": 707
-    },
-    {
-      "epoch": 32.13636363636363,
-      "eval_loss": 0.0008280739421024919,
-      "eval_runtime": 0.2242,
-      "eval_samples_per_second": 392.558,
-      "eval_steps_per_second": 49.07,
-      "step": 707
-    },
-    {
-      "epoch": 32.18181818181818,
-      "grad_norm": 0.011126801371574402,
-      "learning_rate": 2.4868421052631577e-06,
-      "loss": 0.0013,
-      "step": 708
-    },
-    {
-      "epoch": 32.18181818181818,
-      "eval_loss": 0.0008277747547253966,
-      "eval_runtime": 0.2381,
-      "eval_samples_per_second": 369.534,
-      "eval_steps_per_second": 46.192,
-      "step": 708
-    },
-    {
-      "epoch": 32.22727272727273,
-      "grad_norm": 0.012151258997619152,
-      "learning_rate": 2.447368421052632e-06,
-      "loss": 0.0014,
-      "step": 709
-    },
-    {
-      "epoch": 32.22727272727273,
-      "eval_loss": 0.0008274810388684273,
-      "eval_runtime": 0.265,
-      "eval_samples_per_second": 332.045,
-      "eval_steps_per_second": 41.506,
-      "step": 709
-    },
-    {
-      "epoch": 32.27272727272727,
-      "grad_norm": 0.013219231739640236,
-      "learning_rate": 2.407894736842105e-06,
-      "loss": 0.0014,
-      "step": 710
-    },
-    {
-      "epoch": 32.27272727272727,
-      "eval_loss": 0.0008271847036667168,
-      "eval_runtime": 0.2428,
-      "eval_samples_per_second": 362.463,
-      "eval_steps_per_second": 45.308,
-      "step": 710
-    },
-    {
-      "epoch": 32.31818181818182,
-      "grad_norm": 0.010275053791701794,
-      "learning_rate": 2.368421052631579e-06,
-      "loss": 0.0012,
-      "step": 711
-    },
-    {
-      "epoch": 32.31818181818182,
-      "eval_loss": 0.0008268963429145515,
-      "eval_runtime": 0.2418,
-      "eval_samples_per_second": 363.953,
-      "eval_steps_per_second": 45.494,
-      "step": 711
-    },
-    {
-      "epoch": 32.36363636363637,
-      "grad_norm": 0.013079304248094559,
-      "learning_rate": 2.328947368421053e-06,
-      "loss": 0.0014,
-      "step": 712
-    },
-    {
-      "epoch": 32.36363636363637,
-      "eval_loss": 0.00082661077613011,
-      "eval_runtime": 0.232,
-      "eval_samples_per_second": 379.238,
-      "eval_steps_per_second": 47.405,
-      "step": 712
-    },
-    {
-      "epoch": 32.40909090909091,
-      "grad_norm": 0.019619744271039963,
-      "learning_rate": 2.2894736842105263e-06,
-      "loss": 0.0014,
-      "step": 713
-    },
-    {
-      "epoch": 32.40909090909091,
-      "eval_loss": 0.0008263156050816178,
-      "eval_runtime": 0.2626,
-      "eval_samples_per_second": 335.09,
-      "eval_steps_per_second": 41.886,
-      "step": 713
-    },
-    {
-      "epoch": 32.45454545454545,
-      "grad_norm": 0.014103109948337078,
-      "learning_rate": 2.25e-06,
-      "loss": 0.0015,
-      "step": 714
-    },
-    {
-      "epoch": 32.45454545454545,
-      "eval_loss": 0.0008260206668637693,
-      "eval_runtime": 0.256,
-      "eval_samples_per_second": 343.813,
-      "eval_steps_per_second": 42.977,
-      "step": 714
-    },
-    {
-      "epoch": 32.5,
-      "grad_norm": 0.013360358774662018,
-      "learning_rate": 2.2105263157894734e-06,
-      "loss": 0.0015,
-      "step": 715
-    },
-    {
-      "epoch": 32.5,
-      "eval_loss": 0.0008257552981376648,
-      "eval_runtime": 0.2719,
-      "eval_samples_per_second": 323.628,
-      "eval_steps_per_second": 40.454,
-      "step": 715
-    },
-    {
-      "epoch": 32.54545454545455,
-      "grad_norm": 0.012335807085037231,
-      "learning_rate": 2.1710526315789475e-06,
-      "loss": 0.0014,
-      "step": 716
-    },
-    {
-      "epoch": 32.54545454545455,
-      "eval_loss": 0.0008254764834418893,
-      "eval_runtime": 0.257,
-      "eval_samples_per_second": 342.453,
-      "eval_steps_per_second": 42.807,
-      "step": 716
-    },
-    {
-      "epoch": 32.59090909090909,
-      "grad_norm": 0.012738436460494995,
-      "learning_rate": 2.1315789473684212e-06,
-      "loss": 0.0014,
-      "step": 717
-    },
-    {
-      "epoch": 32.59090909090909,
-      "eval_loss": 0.0008252071565948427,
-      "eval_runtime": 0.2774,
-      "eval_samples_per_second": 317.284,
-      "eval_steps_per_second": 39.66,
-      "step": 717
-    },
-    {
-      "epoch": 32.63636363636363,
-      "grad_norm": 0.011913586407899857,
-      "learning_rate": 2.0921052631578945e-06,
-      "loss": 0.0013,
-      "step": 718
-    },
-    {
-      "epoch": 32.63636363636363,
-      "eval_loss": 0.0008249431848526001,
-      "eval_runtime": 0.2458,
-      "eval_samples_per_second": 358.083,
-      "eval_steps_per_second": 44.76,
-      "step": 718
-    },
-    {
-      "epoch": 32.68181818181818,
-      "grad_norm": 0.010375920683145523,
-      "learning_rate": 2.0526315789473687e-06,
-      "loss": 0.0013,
-      "step": 719
-    },
-    {
-      "epoch": 32.68181818181818,
-      "eval_loss": 0.0008246820070780814,
-      "eval_runtime": 0.2548,
-      "eval_samples_per_second": 345.32,
-      "eval_steps_per_second": 43.165,
-      "step": 719
-    },
-    {
-      "epoch": 32.72727272727273,
-      "grad_norm": 0.016080064699053764,
-      "learning_rate": 2.013157894736842e-06,
-      "loss": 0.0016,
-      "step": 720
-    },
-    {
-      "epoch": 32.72727272727273,
-      "eval_loss": 0.0008244179771281779,
-      "eval_runtime": 0.2695,
-      "eval_samples_per_second": 326.571,
-      "eval_steps_per_second": 40.821,
-      "step": 720
-    },
-    {
-      "epoch": 32.77272727272727,
-      "grad_norm": 0.01252568420022726,
-      "learning_rate": 1.9736842105263157e-06,
-      "loss": 0.0013,
-      "step": 721
-    },
-    {
-      "epoch": 32.77272727272727,
-      "eval_loss": 0.0008241839241236448,
-      "eval_runtime": 0.2948,
-      "eval_samples_per_second": 298.515,
-      "eval_steps_per_second": 37.314,
-      "step": 721
-    },
-    {
-      "epoch": 32.81818181818182,
-      "grad_norm": 0.012378372251987457,
-      "learning_rate": 1.93421052631579e-06,
-      "loss": 0.0014,
-      "step": 722
-    },
-    {
-      "epoch": 32.81818181818182,
-      "eval_loss": 0.0008239619201049209,
-      "eval_runtime": 0.2733,
-      "eval_samples_per_second": 321.958,
-      "eval_steps_per_second": 40.245,
-      "step": 722
-    },
-    {
-      "epoch": 32.86363636363637,
-      "grad_norm": 0.013344389386475086,
-      "learning_rate": 1.8947368421052632e-06,
-      "loss": 0.0015,
-      "step": 723
-    },
-    {
-      "epoch": 32.86363636363637,
-      "eval_loss": 0.000823718321043998,
-      "eval_runtime": 0.2569,
-      "eval_samples_per_second": 342.55,
-      "eval_steps_per_second": 42.819,
-      "step": 723
-    },
-    {
-      "epoch": 32.90909090909091,
-      "grad_norm": 0.012948358431458473,
-      "learning_rate": 1.855263157894737e-06,
-      "loss": 0.0015,
-      "step": 724
-    },
-    {
-      "epoch": 32.90909090909091,
-      "eval_loss": 0.0008235003333538771,
-      "eval_runtime": 0.2559,
-      "eval_samples_per_second": 343.901,
-      "eval_steps_per_second": 42.988,
-      "step": 724
-    },
-    {
-      "epoch": 32.95454545454545,
-      "grad_norm": 0.011233711615204811,
-      "learning_rate": 1.8157894736842106e-06,
-      "loss": 0.0012,
-      "step": 725
-    },
-    {
-      "epoch": 32.95454545454545,
-      "eval_loss": 0.000823282403871417,
-      "eval_runtime": 0.2642,
-      "eval_samples_per_second": 333.059,
-      "eval_steps_per_second": 41.632,
-      "step": 725
-    },
-    {
-      "epoch": 33.0,
-      "grad_norm": 0.01327808853238821,
-      "learning_rate": 1.7763157894736842e-06,
-      "loss": 0.0015,
-      "step": 726
-    },
-    {
-      "epoch": 33.0,
-      "eval_loss": 0.0008230686071328819,
-      "eval_runtime": 0.2841,
-      "eval_samples_per_second": 309.721,
-      "eval_steps_per_second": 38.715,
-      "step": 726
-    },
-    {
-      "epoch": 33.04545454545455,
-      "grad_norm": 0.011662392877042294,
-      "learning_rate": 1.7368421052631579e-06,
-      "loss": 0.0014,
-      "step": 727
-    },
-    {
-      "epoch": 33.04545454545455,
-      "eval_loss": 0.0008228750666603446,
-      "eval_runtime": 0.249,
-      "eval_samples_per_second": 353.382,
-      "eval_steps_per_second": 44.173,
-      "step": 727
-    },
-    {
-      "epoch": 33.09090909090909,
-      "grad_norm": 0.011290736496448517,
-      "learning_rate": 1.6973684210526316e-06,
-      "loss": 0.0013,
-      "step": 728
-    },
-    {
-      "epoch": 33.09090909090909,
-      "eval_loss": 0.0008226787904277444,
-      "eval_runtime": 0.2459,
-      "eval_samples_per_second": 357.906,
-      "eval_steps_per_second": 44.738,
-      "step": 728
-    },
-    {
-      "epoch": 33.13636363636363,
-      "grad_norm": 0.011928938329219818,
-      "learning_rate": 1.6578947368421053e-06,
-      "loss": 0.0014,
-      "step": 729
-    },
-    {
-      "epoch": 33.13636363636363,
-      "eval_loss": 0.0008224839111790061,
-      "eval_runtime": 0.2693,
-      "eval_samples_per_second": 326.807,
-      "eval_steps_per_second": 40.851,
-      "step": 729
-    },
-    {
-      "epoch": 33.18181818181818,
-      "grad_norm": 0.013969271443784237,
-      "learning_rate": 1.618421052631579e-06,
-      "loss": 0.0014,
-      "step": 730
-    },
-    {
-      "epoch": 33.18181818181818,
-      "eval_loss": 0.0008223024778999388,
-      "eval_runtime": 0.2985,
-      "eval_samples_per_second": 294.848,
-      "eval_steps_per_second": 36.856,
-      "step": 730
-    },
-    {
-      "epoch": 33.22727272727273,
-      "grad_norm": 0.01247771643102169,
-      "learning_rate": 1.5789473684210526e-06,
-      "loss": 0.0014,
-      "step": 731
-    },
-    {
-      "epoch": 33.22727272727273,
-      "eval_loss": 0.0008221129537560046,
-      "eval_runtime": 0.2564,
-      "eval_samples_per_second": 343.194,
-      "eval_steps_per_second": 42.899,
-      "step": 731
-    },
-    {
-      "epoch": 33.27272727272727,
-      "grad_norm": 0.012111688032746315,
-      "learning_rate": 1.5394736842105263e-06,
-      "loss": 0.0013,
-      "step": 732
-    },
-    {
-      "epoch": 33.27272727272727,
-      "eval_loss": 0.0008219464216381311,
-      "eval_runtime": 0.2484,
-      "eval_samples_per_second": 354.308,
-      "eval_steps_per_second": 44.289,
-      "step": 732
-    },
-    {
-      "epoch": 33.31818181818182,
-      "grad_norm": 0.01268478948622942,
-      "learning_rate": 1.5e-06,
-      "loss": 0.0014,
-      "step": 733
-    },
-    {
-      "epoch": 33.31818181818182,
-      "eval_loss": 0.0008217745926231146,
-      "eval_runtime": 0.2938,
-      "eval_samples_per_second": 299.518,
-      "eval_steps_per_second": 37.44,
-      "step": 733
-    },
-    {
-      "epoch": 33.36363636363637,
-      "grad_norm": 0.01151086576282978,
-      "learning_rate": 1.4605263157894738e-06,
-      "loss": 0.0012,
-      "step": 734
-    },
-    {
-      "epoch": 33.36363636363637,
-      "eval_loss": 0.0008215824491344392,
-      "eval_runtime": 0.2627,
-      "eval_samples_per_second": 335.021,
-      "eval_steps_per_second": 41.878,
-      "step": 734
-    },
-    {
-      "epoch": 33.40909090909091,
-      "grad_norm": 0.012743664905428886,
-      "learning_rate": 1.4210526315789475e-06,
-      "loss": 0.0014,
-      "step": 735
-    },
-    {
-      "epoch": 33.40909090909091,
-      "eval_loss": 0.0008214117842726409,
-      "eval_runtime": 0.257,
-      "eval_samples_per_second": 342.469,
-      "eval_steps_per_second": 42.809,
-      "step": 735
-    },
-    {
-      "epoch": 33.45454545454545,
-      "grad_norm": 0.014465508982539177,
-      "learning_rate": 1.381578947368421e-06,
-      "loss": 0.0015,
-      "step": 736
-    },
-    {
-      "epoch": 33.45454545454545,
-      "eval_loss": 0.0008212332031689584,
-      "eval_runtime": 0.2383,
-      "eval_samples_per_second": 369.294,
-      "eval_steps_per_second": 46.162,
-      "step": 736
-    },
-    {
-      "epoch": 33.5,
-      "grad_norm": 0.011136289685964584,
-      "learning_rate": 1.3421052631578947e-06,
-      "loss": 0.0013,
-      "step": 737
-    },
-    {
-      "epoch": 33.5,
-      "eval_loss": 0.0008210748201236129,
-      "eval_runtime": 0.2515,
-      "eval_samples_per_second": 349.848,
-      "eval_steps_per_second": 43.731,
-      "step": 737
-    },
-    {
-      "epoch": 33.54545454545455,
-      "grad_norm": 0.013279801234602928,
-      "learning_rate": 1.3026315789473685e-06,
-      "loss": 0.0014,
-      "step": 738
-    },
-    {
-      "epoch": 33.54545454545455,
-      "eval_loss": 0.0008209014777094126,
-      "eval_runtime": 0.2624,
-      "eval_samples_per_second": 335.412,
-      "eval_steps_per_second": 41.926,
-      "step": 738
-    },
-    {
-      "epoch": 33.59090909090909,
-      "grad_norm": 0.011146324686706066,
-      "learning_rate": 1.2631578947368422e-06,
-      "loss": 0.0012,
-      "step": 739
-    },
-    {
-      "epoch": 33.59090909090909,
-      "eval_loss": 0.0008207445498555899,
-      "eval_runtime": 0.2477,
-      "eval_samples_per_second": 355.277,
-      "eval_steps_per_second": 44.41,
-      "step": 739
-    },
-    {
-      "epoch": 33.63636363636363,
-      "grad_norm": 0.011300037615001202,
-      "learning_rate": 1.223684210526316e-06,
-      "loss": 0.0013,
-      "step": 740
-    },
-    {
-      "epoch": 33.63636363636363,
-      "eval_loss": 0.0008206011261790991,
-      "eval_runtime": 0.2524,
-      "eval_samples_per_second": 348.598,
-      "eval_steps_per_second": 43.575,
-      "step": 740
-    },
-    {
-      "epoch": 33.68181818181818,
-      "grad_norm": 0.013210857287049294,
-      "learning_rate": 1.1842105263157894e-06,
-      "loss": 0.0013,
-      "step": 741
-    },
-    {
-      "epoch": 33.68181818181818,
-      "eval_loss": 0.0008204494952224195,
-      "eval_runtime": 0.2769,
-      "eval_samples_per_second": 317.777,
-      "eval_steps_per_second": 39.722,
-      "step": 741
-    },
-    {
-      "epoch": 33.72727272727273,
-      "grad_norm": 0.011201176792383194,
-      "learning_rate": 1.1447368421052632e-06,
-      "loss": 0.0013,
-      "step": 742
-    },
-    {
-      "epoch": 33.72727272727273,
-      "eval_loss": 0.0008203128236345947,
-      "eval_runtime": 0.259,
-      "eval_samples_per_second": 339.749,
-      "eval_steps_per_second": 42.469,
-      "step": 742
-    },
-    {
-      "epoch": 33.77272727272727,
-      "grad_norm": 0.012550720945000648,
-      "learning_rate": 1.1052631578947367e-06,
-      "loss": 0.0013,
-      "step": 743
-    },
-    {
-      "epoch": 33.77272727272727,
-      "eval_loss": 0.0008201680611819029,
-      "eval_runtime": 0.2549,
-      "eval_samples_per_second": 345.3,
-      "eval_steps_per_second": 43.163,
-      "step": 743
-    },
-    {
-      "epoch": 33.81818181818182,
-      "grad_norm": 0.011524029076099396,
-      "learning_rate": 1.0657894736842106e-06,
-      "loss": 0.0014,
-      "step": 744
-    },
-    {
-      "epoch": 33.81818181818182,
-      "eval_loss": 0.0008200569427572191,
-      "eval_runtime": 0.2576,
-      "eval_samples_per_second": 341.575,
-      "eval_steps_per_second": 42.697,
-      "step": 744
-    },
-    {
-      "epoch": 33.86363636363637,
-      "grad_norm": 0.014999749138951302,
-      "learning_rate": 1.0263157894736843e-06,
-      "loss": 0.0015,
-      "step": 745
-    },
-    {
-      "epoch": 33.86363636363637,
-      "eval_loss": 0.0008199459407478571,
-      "eval_runtime": 0.2573,
-      "eval_samples_per_second": 342.038,
-      "eval_steps_per_second": 42.755,
-      "step": 745
-    },
-    {
-      "epoch": 33.90909090909091,
-      "grad_norm": 0.013432620093226433,
-      "learning_rate": 9.868421052631579e-07,
-      "loss": 0.0014,
-      "step": 746
-    },
-    {
-      "epoch": 33.90909090909091,
-      "eval_loss": 0.0008198119467124343,
-      "eval_runtime": 0.2794,
-      "eval_samples_per_second": 314.936,
-      "eval_steps_per_second": 39.367,
-      "step": 746
-    },
-    {
-      "epoch": 33.95454545454545,
-      "grad_norm": 0.011333504691720009,
-      "learning_rate": 9.473684210526316e-07,
-      "loss": 0.0014,
-      "step": 747
-    },
-    {
-      "epoch": 33.95454545454545,
-      "eval_loss": 0.0008196914568543434,
-      "eval_runtime": 0.2549,
-      "eval_samples_per_second": 345.205,
-      "eval_steps_per_second": 43.151,
-      "step": 747
-    },
-    {
-      "epoch": 34.0,
-      "grad_norm": 0.0102554215118289,
-      "learning_rate": 9.078947368421053e-07,
-      "loss": 0.0012,
-      "step": 748
-    },
-    {
-      "epoch": 34.0,
-      "eval_loss": 0.0008195764967240393,
-      "eval_runtime": 0.2656,
-      "eval_samples_per_second": 331.349,
-      "eval_steps_per_second": 41.419,
-      "step": 748
-    },
-    {
-      "epoch": 34.04545454545455,
-      "grad_norm": 0.011500447988510132,
-      "learning_rate": 8.684210526315789e-07,
-      "loss": 0.0013,
-      "step": 749
-    },
-    {
-      "epoch": 34.04545454545455,
-      "eval_loss": 0.0008194709080271423,
-      "eval_runtime": 0.2631,
-      "eval_samples_per_second": 334.415,
-      "eval_steps_per_second": 41.802,
-      "step": 749
-    },
-    {
-      "epoch": 34.09090909090909,
-      "grad_norm": 0.011614636518061161,
-      "learning_rate": 8.289473684210527e-07,
-      "loss": 0.0014,
-      "step": 750
-    },
-    {
-      "epoch": 34.09090909090909,
-      "eval_loss": 0.0008193707326427102,
-      "eval_runtime": 0.2898,
-      "eval_samples_per_second": 303.667,
-      "eval_steps_per_second": 37.958,
-      "step": 750
-    },
-    {
-      "epoch": 34.13636363636363,
-      "grad_norm": 0.010696956887841225,
-      "learning_rate": 7.894736842105263e-07,
-      "loss": 0.0013,
-      "step": 751
-    },
-    {
-      "epoch": 34.13636363636363,
-      "eval_loss": 0.0008192665409296751,
-      "eval_runtime": 0.2328,
-      "eval_samples_per_second": 378.006,
-      "eval_steps_per_second": 47.251,
-      "step": 751
-    },
-    {
-      "epoch": 34.18181818181818,
-      "grad_norm": 0.011633389629423618,
-      "learning_rate": 7.5e-07,
-      "loss": 0.0014,
-      "step": 752
-    },
-    {
-      "epoch": 34.18181818181818,
-      "eval_loss": 0.0008191689848899841,
-      "eval_runtime": 0.2379,
-      "eval_samples_per_second": 369.833,
-      "eval_steps_per_second": 46.229,
-      "step": 752
-    },
-    {
-      "epoch": 34.22727272727273,
-      "grad_norm": 0.013071279041469097,
-      "learning_rate": 7.105263157894737e-07,
-      "loss": 0.0013,
-      "step": 753
-    },
-    {
-      "epoch": 34.22727272727273,
-      "eval_loss": 0.0008190743392333388,
-      "eval_runtime": 0.2373,
-      "eval_samples_per_second": 370.812,
-      "eval_steps_per_second": 46.351,
-      "step": 753
-    },
-    {
-      "epoch": 34.27272727272727,
-      "grad_norm": 0.011386328376829624,
-      "learning_rate": 6.710526315789474e-07,
-      "loss": 0.0013,
-      "step": 754
-    },
-    {
-      "epoch": 34.27272727272727,
-      "eval_loss": 0.0008190052467398345,
-      "eval_runtime": 0.2237,
-      "eval_samples_per_second": 393.447,
-      "eval_steps_per_second": 49.181,
-      "step": 754
-    },
-    {
-      "epoch": 34.31818181818182,
-      "grad_norm": 0.011327208951115608,
-      "learning_rate": 6.315789473684211e-07,
-      "loss": 0.0013,
-      "step": 755
-    },
-    {
-      "epoch": 34.31818181818182,
-      "eval_loss": 0.0008189321961253881,
-      "eval_runtime": 0.2293,
-      "eval_samples_per_second": 383.737,
-      "eval_steps_per_second": 47.967,
-      "step": 755
-    },
-    {
-      "epoch": 34.36363636363637,
-      "grad_norm": 0.011524545960128307,
-      "learning_rate": 5.921052631578947e-07,
-      "loss": 0.0014,
-      "step": 756
-    },
-    {
-      "epoch": 34.36363636363637,
-      "eval_loss": 0.0008188713109120727,
-      "eval_runtime": 0.2355,
-      "eval_samples_per_second": 373.643,
-      "eval_steps_per_second": 46.705,
-      "step": 756
-    },
-    {
-      "epoch": 34.40909090909091,
-      "grad_norm": 0.012313243001699448,
-      "learning_rate": 5.526315789473683e-07,
-      "loss": 0.0014,
-      "step": 757
-    },
-    {
-      "epoch": 34.40909090909091,
-      "eval_loss": 0.0008188103674910963,
-      "eval_runtime": 0.4518,
-      "eval_samples_per_second": 194.767,
-      "eval_steps_per_second": 24.346,
-      "step": 757
-    },
-    {
-      "epoch": 34.45454545454545,
-      "grad_norm": 0.012687238864600658,
-      "learning_rate": 5.131578947368422e-07,
-      "loss": 0.0014,
-      "step": 758
-    },
-    {
-      "epoch": 34.45454545454545,
-      "eval_loss": 0.0008187480852939188,
-      "eval_runtime": 0.2941,
-      "eval_samples_per_second": 299.267,
-      "eval_steps_per_second": 37.408,
-      "step": 758
-    },
-    {
-      "epoch": 34.5,
-      "grad_norm": 0.012826275080442429,
-      "learning_rate": 4.736842105263158e-07,
-      "loss": 0.0013,
-      "step": 759
-    },
-    {
-      "epoch": 34.5,
-      "eval_loss": 0.0008186926716007292,
-      "eval_runtime": 0.3991,
-      "eval_samples_per_second": 220.5,
-      "eval_steps_per_second": 27.562,
-      "step": 759
-    },
-    {
-      "epoch": 34.54545454545455,
-      "grad_norm": 0.012961960397660732,
-      "learning_rate": 4.3421052631578947e-07,
-      "loss": 0.0015,
-      "step": 760
-    },
-    {
-      "epoch": 34.54545454545455,
-      "eval_loss": 0.0008186465711332858,
-      "eval_runtime": 0.2484,
-      "eval_samples_per_second": 354.263,
-      "eval_steps_per_second": 44.283,
-      "step": 760
-    },
-    {
-      "epoch": 34.59090909090909,
-      "grad_norm": 0.013269671238958836,
-      "learning_rate": 3.9473684210526315e-07,
-      "loss": 0.0014,
-      "step": 761
-    },
-    {
-      "epoch": 34.59090909090909,
-      "eval_loss": 0.0008186018676497042,
-      "eval_runtime": 0.291,
-      "eval_samples_per_second": 302.416,
-      "eval_steps_per_second": 37.802,
-      "step": 761
-    },
-    {
-      "epoch": 34.63636363636363,
-      "grad_norm": 0.012951558455824852,
-      "learning_rate": 3.5526315789473687e-07,
-      "loss": 0.0013,
-      "step": 762
-    },
-    {
-      "epoch": 34.63636363636363,
-      "eval_loss": 0.0008185504120774567,
-      "eval_runtime": 0.2594,
-      "eval_samples_per_second": 339.213,
-      "eval_steps_per_second": 42.402,
-      "step": 762
-    },
-    {
-      "epoch": 34.68181818181818,
-      "grad_norm": 0.01040305569767952,
-      "learning_rate": 3.1578947368421055e-07,
-      "loss": 0.0013,
-      "step": 763
-    },
-    {
-      "epoch": 34.68181818181818,
-      "eval_loss": 0.0008185274782590568,
-      "eval_runtime": 0.3222,
-      "eval_samples_per_second": 273.081,
-      "eval_steps_per_second": 34.135,
-      "step": 763
-    },
-    {
-      "epoch": 34.72727272727273,
-      "grad_norm": 0.013104148209095001,
-      "learning_rate": 2.7631578947368417e-07,
-      "loss": 0.0014,
-      "step": 764
-    },
-    {
-      "epoch": 34.72727272727273,
-      "eval_loss": 0.0008184895268641412,
-      "eval_runtime": 0.3124,
-      "eval_samples_per_second": 281.65,
-      "eval_steps_per_second": 35.206,
-      "step": 764
-    },
-    {
-      "epoch": 34.77272727272727,
-      "grad_norm": 0.012136269360780716,
-      "learning_rate": 2.368421052631579e-07,
-      "loss": 0.0014,
-      "step": 765
-    },
-    {
-      "epoch": 34.77272727272727,
-      "eval_loss": 0.0008184570469893515,
-      "eval_runtime": 0.2394,
-      "eval_samples_per_second": 367.55,
-      "eval_steps_per_second": 45.944,
-      "step": 765
-    },
-    {
-      "epoch": 34.81818181818182,
-      "grad_norm": 0.011621113866567612,
-      "learning_rate": 1.9736842105263157e-07,
-      "loss": 0.0014,
-      "step": 766
-    },
-    {
-      "epoch": 34.81818181818182,
-      "eval_loss": 0.0008184341131709516,
-      "eval_runtime": 0.2627,
-      "eval_samples_per_second": 334.967,
-      "eval_steps_per_second": 41.871,
-      "step": 766
-    },
-    {
-      "epoch": 34.86363636363637,
-      "grad_norm": 0.0140585508197546,
-      "learning_rate": 1.5789473684210527e-07,
-      "loss": 0.0014,
-      "step": 767
-    },
-    {
-      "epoch": 34.86363636363637,
-      "eval_loss": 0.0008184110629372299,
-      "eval_runtime": 0.2624,
-      "eval_samples_per_second": 335.359,
-      "eval_steps_per_second": 41.92,
-      "step": 767
-    },
-    {
-      "epoch": 34.90909090909091,
-      "grad_norm": 0.0137332146987319,
-      "learning_rate": 1.1842105263157895e-07,
-      "loss": 0.0013,
-      "step": 768
-    },
-    {
-      "epoch": 34.90909090909091,
-      "eval_loss": 0.000818394822999835,
-      "eval_runtime": 0.3455,
-      "eval_samples_per_second": 254.714,
-      "eval_steps_per_second": 31.839,
-      "step": 768
-    },
-    {
-      "epoch": 34.95454545454545,
-      "grad_norm": 0.013574851676821709,
-      "learning_rate": 7.894736842105264e-08,
-      "loss": 0.0015,
-      "step": 769
-    },
-    {
-      "epoch": 34.95454545454545,
-      "eval_loss": 0.000818385393358767,
-      "eval_runtime": 0.4011,
-      "eval_samples_per_second": 219.413,
-      "eval_steps_per_second": 27.427,
-      "step": 769
-    },
-    {
-      "epoch": 35.0,
-      "grad_norm": 0.01393211167305708,
-      "learning_rate": 3.947368421052632e-08,
-      "loss": 0.0014,
-      "step": 770
-    },
-    {
-      "epoch": 35.0,
-      "eval_loss": 0.0008183813188225031,
-      "eval_runtime": 0.2776,
-      "eval_samples_per_second": 316.984,
-      "eval_steps_per_second": 39.623,
-      "step": 770
-    }
-  ],
-  "logging_steps": 1,
-  "max_steps": 770,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 35,
-  "save_steps": 50,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 335566894333440.0,
-  "train_batch_size": 4,
-  "trial_name": null,
-  "trial_params": null
-}