diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,65844 @@
+{
+  "best_global_step": 25000,
+  "best_metric": 0.3259987235069275,
+  "best_model_checkpoint": "saves/prompt-tuning/mistral-7b-instruct/train_boolq_1745950280/checkpoint-25000",
+  "epoch": 18.85902876001886,
+  "eval_steps": 200,
+  "global_step": 40000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0023573785950023575,
+      "grad_norm": 0.33430787920951843,
+      "learning_rate": 0.29999999259779675,
+      "loss": 8.8046,
+      "num_input_tokens_seen": 4576,
+      "step": 5
+    },
+    {
+      "epoch": 0.004714757190004715,
+      "grad_norm": 0.8599618077278137,
+      "learning_rate": 0.29999996252634736,
+      "loss": 7.1753,
+      "num_input_tokens_seen": 9008,
+      "step": 10
+    },
+    {
+      "epoch": 0.007072135785007072,
+      "grad_norm": 0.9729431867599487,
+      "learning_rate": 0.2999999093230187,
+      "loss": 2.2257,
+      "num_input_tokens_seen": 13600,
+      "step": 15
+    },
+    {
+      "epoch": 0.00942951438000943,
+      "grad_norm": 0.22995910048484802,
+      "learning_rate": 0.299999832987819,
+      "loss": 1.0727,
+      "num_input_tokens_seen": 18624,
+      "step": 20
+    },
+    {
+      "epoch": 0.011786892975011787,
+      "grad_norm": 0.04951251298189163,
+      "learning_rate": 0.29999973352076004,
+      "loss": 0.745,
+      "num_input_tokens_seen": 23376,
+      "step": 25
+    },
+    {
+      "epoch": 0.014144271570014143,
+      "grad_norm": 0.030260488390922546,
+      "learning_rate": 0.2999996109218572,
+      "loss": 0.4143,
+      "num_input_tokens_seen": 27824,
+      "step": 30
+    },
+    {
+      "epoch": 0.0165016501650165,
+      "grad_norm": 0.009147812612354755,
+      "learning_rate": 0.2999994651911293,
+      "loss": 0.3913,
+      "num_input_tokens_seen": 31648,
+      "step": 35
+    },
+    {
+      "epoch": 0.01885902876001886,
+      "grad_norm": 0.033210091292858124,
+      "learning_rate": 0.2999992963285989,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 35920,
+      "step": 40
+    },
+    {
+      "epoch": 0.021216407355021217,
+      "grad_norm": 0.006491045467555523,
+      "learning_rate": 0.29999910433429194,
+      "loss": 0.3877,
+      "num_input_tokens_seen": 40240,
+      "step": 45
+    },
+    {
+      "epoch": 0.023573785950023574,
+      "grad_norm": 0.0068594408221542835,
+      "learning_rate": 0.29999888920823814,
+      "loss": 0.355,
+      "num_input_tokens_seen": 44688,
+      "step": 50
+    },
+    {
+      "epoch": 0.02593116454502593,
+      "grad_norm": 0.00561863835901022,
+      "learning_rate": 0.29999865095047057,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 49536,
+      "step": 55
+    },
+    {
+      "epoch": 0.028288543140028287,
+      "grad_norm": 0.012460967525839806,
+      "learning_rate": 0.29999838956102604,
+      "loss": 0.4659,
+      "num_input_tokens_seen": 54624,
+      "step": 60
+    },
+    {
+      "epoch": 0.030645921735030647,
+      "grad_norm": 0.007927211932837963,
+      "learning_rate": 0.29999810503994484,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 59456,
+      "step": 65
+    },
+    {
+      "epoch": 0.033003300330033,
+      "grad_norm": 0.011650650762021542,
+      "learning_rate": 0.29999779738727084,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 64768,
+      "step": 70
+    },
+    {
+      "epoch": 0.03536067892503536,
+      "grad_norm": 0.01629701256752014,
+      "learning_rate": 0.29999746660305154,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 68816,
+      "step": 75
+    },
+    {
+      "epoch": 0.03771805752003772,
+      "grad_norm": 0.002335917204618454,
+      "learning_rate": 0.2999971126873379,
+      "loss": 0.2922,
+      "num_input_tokens_seen": 73600,
+      "step": 80
+    },
+    {
+      "epoch": 0.040075436115040074,
+      "grad_norm": 0.004941327031701803,
+      "learning_rate": 0.2999967356401845,
+      "loss": 0.3558,
+      "num_input_tokens_seen": 77776,
+      "step": 85
+    },
+    {
+      "epoch": 0.042432814710042434,
+      "grad_norm": 0.0044502015225589275,
+      "learning_rate": 0.29999633546164944,
+      "loss": 0.3124,
+      "num_input_tokens_seen": 81840,
+      "step": 90
+    },
+    {
+      "epoch": 0.04479019330504479,
+      "grad_norm": 0.0051016248762607574,
+      "learning_rate": 0.29999591215179444,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 85984,
+      "step": 95
+    },
+    {
+      "epoch": 0.04714757190004715,
+      "grad_norm": 0.002545285504311323,
+      "learning_rate": 0.2999954657106849,
+      "loss": 0.3614,
+      "num_input_tokens_seen": 90768,
+      "step": 100
+    },
+    {
+      "epoch": 0.04950495049504951,
+      "grad_norm": 0.0037795668467879295,
+      "learning_rate": 0.2999949961383896,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 95072,
+      "step": 105
+    },
+    {
+      "epoch": 0.05186232909005186,
+      "grad_norm": 0.0041952128522098064,
+      "learning_rate": 0.2999945034349809,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 99840,
+      "step": 110
+    },
+    {
+      "epoch": 0.05421970768505422,
+      "grad_norm": 0.001957130618393421,
+      "learning_rate": 0.2999939876005348,
+      "loss": 0.2426,
+      "num_input_tokens_seen": 105120,
+      "step": 115
+    },
+    {
+      "epoch": 0.056577086280056574,
+      "grad_norm": 0.0025490603875368834,
+      "learning_rate": 0.29999344863513094,
+      "loss": 0.4444,
+      "num_input_tokens_seen": 110304,
+      "step": 120
+    },
+    {
+      "epoch": 0.058934464875058934,
+      "grad_norm": 0.007854728028178215,
+      "learning_rate": 0.2999928865388523,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 116144,
+      "step": 125
+    },
+    {
+      "epoch": 0.061291843470061294,
+      "grad_norm": 0.003510520327836275,
+      "learning_rate": 0.29999230131178567,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 121376,
+      "step": 130
+    },
+    {
+      "epoch": 0.06364922206506365,
+      "grad_norm": 0.009421180002391338,
+      "learning_rate": 0.2999916929540212,
+      "loss": 0.3677,
+      "num_input_tokens_seen": 126432,
+      "step": 135
+    },
+    {
+      "epoch": 0.066006600660066,
+      "grad_norm": 0.005844749044626951,
+      "learning_rate": 0.29999106146565285,
+      "loss": 0.3516,
+      "num_input_tokens_seen": 131056,
+      "step": 140
+    },
+    {
+      "epoch": 0.06836397925506836,
+      "grad_norm": 0.003300114767625928,
+      "learning_rate": 0.29999040684677786,
+      "loss": 0.333,
+      "num_input_tokens_seen": 135584,
+      "step": 145
+    },
+    {
+      "epoch": 0.07072135785007072,
+      "grad_norm": 0.004235754255205393,
+      "learning_rate": 0.2999897290974972,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 140064,
+      "step": 150
+    },
+    {
+      "epoch": 0.07307873644507308,
+      "grad_norm": 0.002008005976676941,
+      "learning_rate": 0.2999890282179155,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 145056,
+      "step": 155
+    },
+    {
+      "epoch": 0.07543611504007544,
+      "grad_norm": 0.0013251225464046001,
+      "learning_rate": 0.29998830420814077,
+      "loss": 0.2841,
+      "num_input_tokens_seen": 149472,
+      "step": 160
+    },
+    {
+      "epoch": 0.07779349363507779,
+      "grad_norm": 0.0017541453707963228,
+      "learning_rate": 0.2999875570682846,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 154720,
+      "step": 165
+    },
+    {
+      "epoch": 0.08015087223008015,
+      "grad_norm": 0.004730600863695145,
+      "learning_rate": 0.2999867867984623,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 159696,
+      "step": 170
+    },
+    {
+      "epoch": 0.08250825082508251,
+      "grad_norm": 0.010462909005582333,
+      "learning_rate": 0.29998599339879267,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 164784,
+      "step": 175
+    },
+    {
+      "epoch": 0.08486562942008487,
+      "grad_norm": 0.004843809176236391,
+      "learning_rate": 0.29998517686939796,
+      "loss": 0.3636,
+      "num_input_tokens_seen": 168768,
+      "step": 180
+    },
+    {
+      "epoch": 0.08722300801508723,
+      "grad_norm": 0.0012744307750836015,
+      "learning_rate": 0.29998433721040413,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 173744,
+      "step": 185
+    },
+    {
+      "epoch": 0.08958038661008957,
+      "grad_norm": 0.008185259997844696,
+      "learning_rate": 0.29998347442194073,
+      "loss": 0.356,
+      "num_input_tokens_seen": 177728,
+      "step": 190
+    },
+    {
+      "epoch": 0.09193776520509193,
+      "grad_norm": 0.004525322932749987,
+      "learning_rate": 0.2999825885041407,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 182128,
+      "step": 195
+    },
+    {
+      "epoch": 0.0942951438000943,
+      "grad_norm": 0.0013548878487199545,
+      "learning_rate": 0.29998167945714077,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 186768,
+      "step": 200
+    },
+    {
+      "epoch": 0.0942951438000943,
+      "eval_loss": 0.33534181118011475,
+      "eval_runtime": 33.473,
+      "eval_samples_per_second": 28.172,
+      "eval_steps_per_second": 14.101,
+      "num_input_tokens_seen": 186768,
+      "step": 200
+    },
+    {
+      "epoch": 0.09665252239509665,
+      "grad_norm": 0.0026040172670036554,
+      "learning_rate": 0.2999807472810811,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 191696,
+      "step": 205
+    },
+    {
+      "epoch": 0.09900990099009901,
+      "grad_norm": 0.001794121810235083,
+      "learning_rate": 0.29997979197610536,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 196288,
+      "step": 210
+    },
+    {
+      "epoch": 0.10136727958510136,
+      "grad_norm": 0.001899594091810286,
+      "learning_rate": 0.299978813542361,
+      "loss": 0.3569,
+      "num_input_tokens_seen": 200752,
+      "step": 215
+    },
+    {
+      "epoch": 0.10372465818010372,
+      "grad_norm": 0.0020993556827306747,
+      "learning_rate": 0.2999778119799988,
+      "loss": 0.2861,
+      "num_input_tokens_seen": 205136,
+      "step": 220
+    },
+    {
+      "epoch": 0.10608203677510608,
+      "grad_norm": 0.0031987312249839306,
+      "learning_rate": 0.29997678728917326,
+      "loss": 0.3089,
+      "num_input_tokens_seen": 209552,
+      "step": 225
+    },
+    {
+      "epoch": 0.10843941537010844,
+      "grad_norm": 0.0012057984713464975,
+      "learning_rate": 0.2999757394700424,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 214176,
+      "step": 230
+    },
+    {
+      "epoch": 0.1107967939651108,
+      "grad_norm": 0.0036712950095534325,
+      "learning_rate": 0.29997466852276783,
+      "loss": 0.3586,
+      "num_input_tokens_seen": 218416,
+      "step": 235
+    },
+    {
+      "epoch": 0.11315417256011315,
+      "grad_norm": 0.0032430917490273714,
+      "learning_rate": 0.29997357444751466,
+      "loss": 0.3074,
+      "num_input_tokens_seen": 223120,
+      "step": 240
+    },
+    {
+      "epoch": 0.11551155115511551,
+      "grad_norm": 0.005455018021166325,
+      "learning_rate": 0.2999724572444516,
+      "loss": 0.4136,
+      "num_input_tokens_seen": 227408,
+      "step": 245
+    },
+    {
+      "epoch": 0.11786892975011787,
+      "grad_norm": 0.006345480680465698,
+      "learning_rate": 0.29997131691375095,
+      "loss": 0.3174,
+      "num_input_tokens_seen": 232384,
+      "step": 250
+    },
+    {
+      "epoch": 0.12022630834512023,
+      "grad_norm": 0.0011439290829002857,
+      "learning_rate": 0.2999701534555886,
+      "loss": 0.359,
+      "num_input_tokens_seen": 236784,
+      "step": 255
+    },
+    {
+      "epoch": 0.12258368694012259,
+      "grad_norm": 0.00623343838378787,
+      "learning_rate": 0.2999689668701439,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 241136,
+      "step": 260
+    },
+    {
+      "epoch": 0.12494106553512493,
+      "grad_norm": 0.0014192028902471066,
+      "learning_rate": 0.29996775715759993,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 245296,
+      "step": 265
+    },
+    {
+      "epoch": 0.1272984441301273,
+      "grad_norm": 0.0019782469607889652,
+      "learning_rate": 0.2999665243181432,
+      "loss": 0.3124,
+      "num_input_tokens_seen": 249632,
+      "step": 270
+    },
+    {
+      "epoch": 0.12965582272512965,
+      "grad_norm": 0.0016107280971482396,
+      "learning_rate": 0.2999652683519638,
+      "loss": 0.2735,
+      "num_input_tokens_seen": 254128,
+      "step": 275
+    },
+    {
+      "epoch": 0.132013201320132,
+      "grad_norm": 0.0014401866355910897,
+      "learning_rate": 0.29996398925925544,
+      "loss": 0.283,
+      "num_input_tokens_seen": 259472,
+      "step": 280
+    },
+    {
+      "epoch": 0.13437057991513437,
+      "grad_norm": 0.008019005879759789,
+      "learning_rate": 0.2999626870402154,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 263408,
+      "step": 285
+    },
+    {
+      "epoch": 0.13672795851013672,
+      "grad_norm": 0.005458638072013855,
+      "learning_rate": 0.29996136169504445,
+      "loss": 0.417,
+      "num_input_tokens_seen": 268240,
+      "step": 290
+    },
+    {
+      "epoch": 0.1390853371051391,
+      "grad_norm": 0.0033505430910736322,
+      "learning_rate": 0.29996001322394694,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 272096,
+      "step": 295
+    },
+    {
+      "epoch": 0.14144271570014144,
+      "grad_norm": 0.00869831908494234,
+      "learning_rate": 0.29995864162713093,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 276672,
+      "step": 300
+    },
+    {
+      "epoch": 0.1438000942951438,
+      "grad_norm": 0.0015720619121566415,
+      "learning_rate": 0.2999572469048079,
+      "loss": 0.3606,
+      "num_input_tokens_seen": 281632,
+      "step": 305
+    },
+    {
+      "epoch": 0.14615747289014616,
+      "grad_norm": 0.00236710486933589,
+      "learning_rate": 0.29995582905719287,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 286000,
+      "step": 310
+    },
+    {
+      "epoch": 0.1485148514851485,
+      "grad_norm": 0.0026328573003411293,
+      "learning_rate": 0.2999543880845046,
+      "loss": 0.3958,
+      "num_input_tokens_seen": 289808,
+      "step": 315
+    },
+    {
+      "epoch": 0.15087223008015088,
+      "grad_norm": 0.00925245601683855,
+      "learning_rate": 0.2999529239869652,
+      "loss": 0.3791,
+      "num_input_tokens_seen": 294240,
+      "step": 320
+    },
+    {
+      "epoch": 0.15322960867515323,
+      "grad_norm": 0.0021155208814889193,
+      "learning_rate": 0.2999514367648005,
+      "loss": 0.3632,
+      "num_input_tokens_seen": 298768,
+      "step": 325
+    },
+    {
+      "epoch": 0.15558698727015557,
+      "grad_norm": 0.0018887680489569902,
+      "learning_rate": 0.29994992641823987,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 303664,
+      "step": 330
+    },
+    {
+      "epoch": 0.15794436586515795,
+      "grad_norm": 0.0026563103310763836,
+      "learning_rate": 0.29994839294751613,
+      "loss": 0.336,
+      "num_input_tokens_seen": 308656,
+      "step": 335
+    },
+    {
+      "epoch": 0.1603017444601603,
+      "grad_norm": 0.001984589034691453,
+      "learning_rate": 0.29994683635286584,
+      "loss": 0.2836,
+      "num_input_tokens_seen": 315200,
+      "step": 340
+    },
+    {
+      "epoch": 0.16265912305516267,
+      "grad_norm": 0.019206777215003967,
+      "learning_rate": 0.2999452566345291,
+      "loss": 0.3912,
+      "num_input_tokens_seen": 319536,
+      "step": 345
+    },
+    {
+      "epoch": 0.16501650165016502,
+      "grad_norm": 0.006742631550878286,
+      "learning_rate": 0.2999436537927494,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 324432,
+      "step": 350
+    },
+    {
+      "epoch": 0.16737388024516736,
+      "grad_norm": 0.0030526008922606707,
+      "learning_rate": 0.299942027827774,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 328816,
+      "step": 355
+    },
+    {
+      "epoch": 0.16973125884016974,
+      "grad_norm": 0.0036015042569488287,
+      "learning_rate": 0.29994037873985363,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 333664,
+      "step": 360
+    },
+    {
+      "epoch": 0.17208863743517208,
+      "grad_norm": 0.004438447300344706,
+      "learning_rate": 0.29993870652924254,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 338288,
+      "step": 365
+    },
+    {
+      "epoch": 0.17444601603017446,
+      "grad_norm": 0.0016046524979174137,
+      "learning_rate": 0.29993701119619876,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 343104,
+      "step": 370
+    },
+    {
+      "epoch": 0.1768033946251768,
+      "grad_norm": 0.0033581324387341738,
+      "learning_rate": 0.2999352927409835,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 347824,
+      "step": 375
+    },
+    {
+      "epoch": 0.17916077322017915,
+      "grad_norm": 0.0026258511934429407,
+      "learning_rate": 0.29993355116386194,
+      "loss": 0.3262,
+      "num_input_tokens_seen": 352048,
+      "step": 380
+    },
+    {
+      "epoch": 0.18151815181518152,
+      "grad_norm": 0.0040007964707911015,
+      "learning_rate": 0.29993178646510266,
+      "loss": 0.2391,
+      "num_input_tokens_seen": 356816,
+      "step": 385
+    },
+    {
+      "epoch": 0.18387553041018387,
+      "grad_norm": 0.003007269464433193,
+      "learning_rate": 0.2999299986449777,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 361728,
+      "step": 390
+    },
+    {
+      "epoch": 0.18623290900518624,
+      "grad_norm": 0.006058376748114824,
+      "learning_rate": 0.29992818770376284,
+      "loss": 0.2266,
+      "num_input_tokens_seen": 365536,
+      "step": 395
+    },
+    {
+      "epoch": 0.1885902876001886,
+      "grad_norm": 0.012701766565442085,
+      "learning_rate": 0.29992635364173725,
+      "loss": 0.6655,
+      "num_input_tokens_seen": 369808,
+      "step": 400
+    },
+    {
+      "epoch": 0.1885902876001886,
+      "eval_loss": 1.263672947883606,
+      "eval_runtime": 33.5521,
+      "eval_samples_per_second": 28.106,
+      "eval_steps_per_second": 14.068,
+      "num_input_tokens_seen": 369808,
+      "step": 400
+    },
+    {
+      "epoch": 0.19094766619519093,
+      "grad_norm": 0.048771876841783524,
+      "learning_rate": 0.2999244964591839,
+      "loss": 0.5834,
+      "num_input_tokens_seen": 374560,
+      "step": 405
+    },
+    {
+      "epoch": 0.1933050447901933,
+      "grad_norm": 0.023426713421940804,
+      "learning_rate": 0.2999226161563891,
+      "loss": 0.4403,
+      "num_input_tokens_seen": 379168,
+      "step": 410
+    },
+    {
+      "epoch": 0.19566242338519566,
+      "grad_norm": 0.035177070647478104,
+      "learning_rate": 0.2999207127336429,
+      "loss": 0.3893,
+      "num_input_tokens_seen": 383888,
+      "step": 415
+    },
+    {
+      "epoch": 0.19801980198019803,
+      "grad_norm": 0.010165275074541569,
+      "learning_rate": 0.2999187861912387,
+      "loss": 0.4277,
+      "num_input_tokens_seen": 388880,
+      "step": 420
+    },
+    {
+      "epoch": 0.20037718057520038,
+      "grad_norm": 0.010132357478141785,
+      "learning_rate": 0.2999168365294737,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 394560,
+      "step": 425
+    },
+    {
+      "epoch": 0.20273455917020272,
+      "grad_norm": 0.009794114157557487,
+      "learning_rate": 0.29991486374864856,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 398976,
+      "step": 430
+    },
+    {
+      "epoch": 0.2050919377652051,
+      "grad_norm": 0.0016988433199003339,
+      "learning_rate": 0.29991286784906745,
+      "loss": 0.3164,
+      "num_input_tokens_seen": 404432,
+      "step": 435
+    },
+    {
+      "epoch": 0.20744931636020744,
+      "grad_norm": 0.00445991475135088,
+      "learning_rate": 0.2999108488310382,
+      "loss": 0.4242,
+      "num_input_tokens_seen": 408672,
+      "step": 440
+    },
+    {
+      "epoch": 0.20980669495520982,
+      "grad_norm": 0.004623482935130596,
+      "learning_rate": 0.29990880669487213,
+      "loss": 0.3759,
+      "num_input_tokens_seen": 412928,
+      "step": 445
+    },
+    {
+      "epoch": 0.21216407355021216,
+      "grad_norm": 0.002472479594871402,
+      "learning_rate": 0.29990674144088425,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 418288,
+      "step": 450
+    },
+    {
+      "epoch": 0.2145214521452145,
+      "grad_norm": 0.0016940919449552894,
+      "learning_rate": 0.299904653069393,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 422400,
+      "step": 455
+    },
+    {
+      "epoch": 0.21687883074021688,
+      "grad_norm": 0.0010321236914023757,
+      "learning_rate": 0.29990254158072044,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 426240,
+      "step": 460
+    },
+    {
+      "epoch": 0.21923620933521923,
+      "grad_norm": 0.0010780765442177653,
+      "learning_rate": 0.2999004069751921,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 430816,
+      "step": 465
+    },
+    {
+      "epoch": 0.2215935879302216,
+      "grad_norm": 0.008707652799785137,
+      "learning_rate": 0.2998982492531373,
+      "loss": 0.403,
+      "num_input_tokens_seen": 435168,
+      "step": 470
+    },
+    {
+      "epoch": 0.22395096652522395,
+      "grad_norm": 0.0013893981231376529,
+      "learning_rate": 0.2998960684148887,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 439712,
+      "step": 475
+    },
+    {
+      "epoch": 0.2263083451202263,
+      "grad_norm": 0.0030659183394163847,
+      "learning_rate": 0.29989386446078264,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 443632,
+      "step": 480
+    },
+    {
+      "epoch": 0.22866572371522867,
+      "grad_norm": 0.0008525006705895066,
+      "learning_rate": 0.299891637391159,
+      "loss": 0.346,
+      "num_input_tokens_seen": 448320,
+      "step": 485
+    },
+    {
+      "epoch": 0.23102310231023102,
+      "grad_norm": 0.0008619721047580242,
+      "learning_rate": 0.2998893872063612,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 452928,
+      "step": 490
+    },
+    {
+      "epoch": 0.2333804809052334,
+      "grad_norm": 0.0009125699289143085,
+      "learning_rate": 0.2998871139067363,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 457520,
+      "step": 495
+    },
+    {
+      "epoch": 0.23573785950023574,
+      "grad_norm": 0.0013898126780986786,
+      "learning_rate": 0.2998848174926348,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 462368,
+      "step": 500
+    },
+    {
+      "epoch": 0.23809523809523808,
+      "grad_norm": 0.0018963743932545185,
+      "learning_rate": 0.2998824979644109,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 466544,
+      "step": 505
+    },
+    {
+      "epoch": 0.24045261669024046,
+      "grad_norm": 0.004014518111944199,
+      "learning_rate": 0.29988015532242224,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 470976,
+      "step": 510
+    },
+    {
+      "epoch": 0.2428099952852428,
+      "grad_norm": 0.001222137245349586,
+      "learning_rate": 0.29987778956703015,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 475424,
+      "step": 515
+    },
+    {
+      "epoch": 0.24516737388024518,
+      "grad_norm": 0.0011795061873272061,
+      "learning_rate": 0.2998754006985994,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 480176,
+      "step": 520
+    },
+    {
+      "epoch": 0.24752475247524752,
+      "grad_norm": 0.0011672858381643891,
+      "learning_rate": 0.29987298871749846,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 485632,
+      "step": 525
+    },
+    {
+      "epoch": 0.24988213107024987,
+      "grad_norm": 0.0019695779774338007,
+      "learning_rate": 0.2998705536240992,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 489648,
+      "step": 530
+    },
+    {
+      "epoch": 0.2522395096652522,
+      "grad_norm": 0.0038081940729171038,
+      "learning_rate": 0.2998680954187772,
+      "loss": 0.2344,
+      "num_input_tokens_seen": 494224,
+      "step": 535
+    },
+    {
+      "epoch": 0.2545968882602546,
+      "grad_norm": 0.002360420534387231,
+      "learning_rate": 0.2998656141019115,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 498560,
+      "step": 540
+    },
+    {
+      "epoch": 0.25695426685525696,
+      "grad_norm": 0.003126238938421011,
+      "learning_rate": 0.2998631096738848,
+      "loss": 0.261,
+      "num_input_tokens_seen": 503360,
+      "step": 545
+    },
+    {
+      "epoch": 0.2593116454502593,
+      "grad_norm": 0.0006552660488523543,
+      "learning_rate": 0.29986058213508326,
+      "loss": 0.4214,
+      "num_input_tokens_seen": 507264,
+      "step": 550
+    },
+    {
+      "epoch": 0.26166902404526166,
+      "grad_norm": 0.004819876980036497,
+      "learning_rate": 0.29985803148589674,
+      "loss": 0.3676,
+      "num_input_tokens_seen": 512160,
+      "step": 555
+    },
+    {
+      "epoch": 0.264026402640264,
+      "grad_norm": 0.0013736604014411569,
+      "learning_rate": 0.2998554577267185,
+      "loss": 0.3755,
+      "num_input_tokens_seen": 516544,
+      "step": 560
+    },
+    {
+      "epoch": 0.2663837812352664,
+      "grad_norm": 0.001472347415983677,
+      "learning_rate": 0.2998528608579455,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 522176,
+      "step": 565
+    },
+    {
+      "epoch": 0.26874115983026875,
+      "grad_norm": 0.0037995141465216875,
+      "learning_rate": 0.2998502408799781,
+      "loss": 0.3487,
+      "num_input_tokens_seen": 526208,
+      "step": 570
+    },
+    {
+      "epoch": 0.2710985384252711,
+      "grad_norm": 0.0014522760175168514,
+      "learning_rate": 0.2998475977932205,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 531408,
+      "step": 575
+    },
+    {
+      "epoch": 0.27345591702027344,
+      "grad_norm": 0.007380456663668156,
+      "learning_rate": 0.29984493159808023,
+      "loss": 0.3553,
+      "num_input_tokens_seen": 536848,
+      "step": 580
+    },
+    {
+      "epoch": 0.2758132956152758,
+      "grad_norm": 0.004404288716614246,
+      "learning_rate": 0.29984224229496836,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 541184,
+      "step": 585
+    },
+    {
+      "epoch": 0.2781706742102782,
+      "grad_norm": 0.004294331185519695,
+      "learning_rate": 0.2998395298842998,
+      "loss": 0.291,
+      "num_input_tokens_seen": 545856,
+      "step": 590
+    },
+    {
+      "epoch": 0.28052805280528054,
+      "grad_norm": 0.0011426364071667194,
+      "learning_rate": 0.29983679436649263,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 549824,
+      "step": 595
+    },
+    {
+      "epoch": 0.2828854314002829,
+      "grad_norm": 0.0019927790854126215,
+      "learning_rate": 0.2998340357419689,
+      "loss": 0.4242,
+      "num_input_tokens_seen": 554928,
+      "step": 600
+    },
+    {
+      "epoch": 0.2828854314002829,
+      "eval_loss": 0.32871514558792114,
+      "eval_runtime": 33.4978,
+      "eval_samples_per_second": 28.151,
+      "eval_steps_per_second": 14.09,
+      "num_input_tokens_seen": 554928,
+      "step": 600
+    },
+    {
+      "epoch": 0.28524280999528523,
+      "grad_norm": 0.002123794984072447,
+      "learning_rate": 0.29983125401115385,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 559184,
+      "step": 605
+    },
+    {
+      "epoch": 0.2876001885902876,
+      "grad_norm": 0.00215711141936481,
+      "learning_rate": 0.29982844917447654,
+      "loss": 0.3253,
+      "num_input_tokens_seen": 563840,
+      "step": 610
+    },
+    {
+      "epoch": 0.28995756718529,
+      "grad_norm": 0.0011152733350172639,
+      "learning_rate": 0.2998256212323695,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 568080,
+      "step": 615
+    },
+    {
+      "epoch": 0.2923149457802923,
+      "grad_norm": 0.001529980101622641,
+      "learning_rate": 0.29982277018526887,
+      "loss": 0.3614,
+      "num_input_tokens_seen": 572624,
+      "step": 620
+    },
+    {
+      "epoch": 0.29467232437529467,
+      "grad_norm": 0.0010712618241086602,
+      "learning_rate": 0.2998198960336143,
+      "loss": 0.3728,
+      "num_input_tokens_seen": 577552,
+      "step": 625
+    },
+    {
+      "epoch": 0.297029702970297,
+      "grad_norm": 0.004243182018399239,
+      "learning_rate": 0.299816998777849,
+      "loss": 0.3102,
+      "num_input_tokens_seen": 583120,
+      "step": 630
+    },
+    {
+      "epoch": 0.29938708156529936,
+      "grad_norm": 0.0016897887689992785,
+      "learning_rate": 0.2998140784184197,
+      "loss": 0.2972,
+      "num_input_tokens_seen": 588416,
+      "step": 635
+    },
+    {
+      "epoch": 0.30174446016030176,
+      "grad_norm": 0.005779348313808441,
+      "learning_rate": 0.2998111349557769,
+      "loss": 0.3679,
+      "num_input_tokens_seen": 592928,
+      "step": 640
+    },
+    {
+      "epoch": 0.3041018387553041,
+      "grad_norm": 0.004530003294348717,
+      "learning_rate": 0.29980816839037444,
+      "loss": 0.3656,
+      "num_input_tokens_seen": 597536,
+      "step": 645
+    },
+    {
+      "epoch": 0.30645921735030646,
+      "grad_norm": 0.001678461441770196,
+      "learning_rate": 0.2998051787226698,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 602576,
+      "step": 650
+    },
+    {
+      "epoch": 0.3088165959453088,
+      "grad_norm": 0.0017382270889356732,
+      "learning_rate": 0.29980216595312403,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 607808,
+      "step": 655
+    },
+    {
+      "epoch": 0.31117397454031115,
+      "grad_norm": 0.001787922577932477,
+      "learning_rate": 0.29979913008220177,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 611872,
+      "step": 660
+    },
+    {
+      "epoch": 0.31353135313531355,
+      "grad_norm": 0.0055055017583072186,
+      "learning_rate": 0.2997960711103711,
+      "loss": 0.3561,
+      "num_input_tokens_seen": 616336,
+      "step": 665
+    },
+    {
+      "epoch": 0.3158887317303159,
+      "grad_norm": 0.0012156127486377954,
+      "learning_rate": 0.29979298903810386,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 620896,
+      "step": 670
+    },
+    {
+      "epoch": 0.31824611032531824,
+      "grad_norm": 0.0008683472988195717,
+      "learning_rate": 0.29978988386587524,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 626912,
+      "step": 675
+    },
+    {
+      "epoch": 0.3206034889203206,
+      "grad_norm": 0.004293828271329403,
+      "learning_rate": 0.2997867555941642,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 631424,
+      "step": 680
+    },
+    {
+      "epoch": 0.32296086751532294,
+      "grad_norm": 0.0013720106799155474,
+      "learning_rate": 0.299783604223453,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 635952,
+      "step": 685
+    },
+    {
+      "epoch": 0.32531824611032534,
+      "grad_norm": 0.001367791322991252,
+      "learning_rate": 0.29978042975422786,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 640496,
+      "step": 690
+    },
+    {
+      "epoch": 0.3276756247053277,
+      "grad_norm": 0.00375883630476892,
+      "learning_rate": 0.29977723218697816,
+      "loss": 0.346,
+      "num_input_tokens_seen": 645456,
+      "step": 695
+    },
+    {
+      "epoch": 0.33003300330033003,
+      "grad_norm": 0.0014069010503590107,
+      "learning_rate": 0.299774011522197,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 650192,
+      "step": 700
+    },
+    {
+      "epoch": 0.3323903818953324,
+      "grad_norm": 0.0019323573214933276,
+      "learning_rate": 0.29977076776038114,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 654144,
+      "step": 705
+    },
+    {
+      "epoch": 0.3347477604903347,
+      "grad_norm": 0.0012280731461942196,
+      "learning_rate": 0.2997675009020307,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 658688,
+      "step": 710
+    },
+    {
+      "epoch": 0.3371051390853371,
+      "grad_norm": 0.0038777394220232964,
+      "learning_rate": 0.2997642109476496,
+      "loss": 0.3593,
+      "num_input_tokens_seen": 664096,
+      "step": 715
+    },
+    {
+      "epoch": 0.33946251768033947,
+      "grad_norm": 0.0014876971254125237,
+      "learning_rate": 0.299760897897745,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 669312,
+      "step": 720
+    },
+    {
+      "epoch": 0.3418198962753418,
+      "grad_norm": 0.004233703948557377,
+      "learning_rate": 0.29975756175282803,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 674752,
+      "step": 725
+    },
+    {
+      "epoch": 0.34417727487034416,
+      "grad_norm": 0.004214745480567217,
+      "learning_rate": 0.29975420251341306,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 679952,
+      "step": 730
+    },
+    {
+      "epoch": 0.3465346534653465,
+      "grad_norm": 0.0013600388774648309,
+      "learning_rate": 0.29975082018001814,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 684704,
+      "step": 735
+    },
+    {
+      "epoch": 0.3488920320603489,
+      "grad_norm": 0.0009132089908234775,
+      "learning_rate": 0.2997474147531648,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 689216,
+      "step": 740
+    },
+    {
+      "epoch": 0.35124941065535126,
+      "grad_norm": 0.001754377270117402,
+      "learning_rate": 0.29974398623337833,
+      "loss": 0.2958,
+      "num_input_tokens_seen": 694640,
+      "step": 745
+    },
+    {
+      "epoch": 0.3536067892503536,
+      "grad_norm": 0.0072180661372840405,
+      "learning_rate": 0.2997405346211873,
+      "loss": 0.4083,
+      "num_input_tokens_seen": 700176,
+      "step": 750
+    },
+    {
+      "epoch": 0.35596416784535595,
+      "grad_norm": 0.0038601229898631573,
+      "learning_rate": 0.2997370599171241,
+      "loss": 0.346,
+      "num_input_tokens_seen": 704288,
+      "step": 755
+    },
+    {
+      "epoch": 0.3583215464403583,
+      "grad_norm": 0.0022205947898328304,
+      "learning_rate": 0.2997335621217246,
+      "loss": 0.354,
+      "num_input_tokens_seen": 708496,
+      "step": 760
+    },
+    {
+      "epoch": 0.3606789250353607,
+      "grad_norm": 0.004047990310937166,
+      "learning_rate": 0.29973004123552816,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 713696,
+      "step": 765
+    },
+    {
+      "epoch": 0.36303630363036304,
+      "grad_norm": 0.0015782024711370468,
+      "learning_rate": 0.2997264972590777,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 718016,
+      "step": 770
+    },
+    {
+      "epoch": 0.3653936822253654,
+      "grad_norm": 0.0037923248019069433,
+      "learning_rate": 0.29972293019291973,
+      "loss": 0.3737,
+      "num_input_tokens_seen": 722848,
+      "step": 775
+    },
+    {
+      "epoch": 0.36775106082036774,
+      "grad_norm": 0.003576065879315138,
+      "learning_rate": 0.2997193400376045,
+      "loss": 0.2771,
+      "num_input_tokens_seen": 727536,
+      "step": 780
+    },
+    {
+      "epoch": 0.3701084394153701,
+      "grad_norm": 0.0019053814467042685,
+      "learning_rate": 0.2997157267936854,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 732384,
+      "step": 785
+    },
+    {
+      "epoch": 0.3724658180103725,
+      "grad_norm": 0.0017049539601430297,
+      "learning_rate": 0.2997120904617199,
+      "loss": 0.3714,
+      "num_input_tokens_seen": 736912,
+      "step": 790
+    },
+    {
+      "epoch": 0.37482319660537483,
+      "grad_norm": 0.0037968826945871115,
+      "learning_rate": 0.29970843104226863,
+      "loss": 0.3152,
+      "num_input_tokens_seen": 741824,
+      "step": 795
+    },
+    {
+      "epoch": 0.3771805752003772,
+      "grad_norm": 0.003926784731447697,
+      "learning_rate": 0.2997047485358959,
+      "loss": 0.2999,
+      "num_input_tokens_seen": 746560,
+      "step": 800
+    },
+    {
+      "epoch": 0.3771805752003772,
+      "eval_loss": 0.32766789197921753,
+      "eval_runtime": 33.5115,
+      "eval_samples_per_second": 28.14,
+      "eval_steps_per_second": 14.085,
+      "num_input_tokens_seen": 746560,
+      "step": 800
+    },
+    {
+      "epoch": 0.3795379537953795,
+      "grad_norm": 0.003428816329687834,
+      "learning_rate": 0.2997010429431697,
+      "loss": 0.326,
+      "num_input_tokens_seen": 751152,
+      "step": 805
+    },
+    {
+      "epoch": 0.38189533239038187,
+      "grad_norm": 0.0011939220130443573,
+      "learning_rate": 0.29969731426466134,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 755616,
+      "step": 810
+    },
+    {
+      "epoch": 0.38425271098538427,
+      "grad_norm": 0.0017843515379354358,
+      "learning_rate": 0.299693562500946,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 759408,
+      "step": 815
+    },
+    {
+      "epoch": 0.3866100895803866,
+      "grad_norm": 0.004139292519539595,
+      "learning_rate": 0.29968978765260207,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 764080,
+      "step": 820
+    },
+    {
+      "epoch": 0.38896746817538896,
+      "grad_norm": 0.003000156721100211,
+      "learning_rate": 0.2996859897202118,
+      "loss": 0.2669,
+      "num_input_tokens_seen": 768896,
+      "step": 825
+    },
+    {
+      "epoch": 0.3913248467703913,
+      "grad_norm": 0.003983345348387957,
+      "learning_rate": 0.2996821687043609,
+      "loss": 0.3943,
+      "num_input_tokens_seen": 773856,
+      "step": 830
+    },
+    {
+      "epoch": 0.39368222536539366,
+      "grad_norm": 0.0011115659726783633,
+      "learning_rate": 0.2996783246056384,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 778304,
+      "step": 835
+    },
+    {
+      "epoch": 0.39603960396039606,
+      "grad_norm": 0.0017535389633849263,
+      "learning_rate": 0.29967445742463744,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 783456,
+      "step": 840
+    },
+    {
+      "epoch": 0.3983969825553984,
+      "grad_norm": 0.0014856553170830011,
+      "learning_rate": 0.29967056716195417,
+      "loss": 0.3683,
+      "num_input_tokens_seen": 788448,
+      "step": 845
+    },
+    {
+      "epoch": 0.40075436115040075,
+      "grad_norm": 0.003988800570368767,
+      "learning_rate": 0.2996666538181885,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 792928,
+      "step": 850
+    },
+    {
+      "epoch": 0.4031117397454031,
+      "grad_norm": 0.003749583847820759,
+      "learning_rate": 0.29966271739394407,
+      "loss": 0.339,
+      "num_input_tokens_seen": 797408,
+      "step": 855
+    },
+    {
+      "epoch": 0.40546911834040544,
+      "grad_norm": 0.0019710897468030453,
+      "learning_rate": 0.29965875788982776,
+      "loss": 0.331,
+      "num_input_tokens_seen": 801616,
+      "step": 860
+    },
+    {
+      "epoch": 0.40782649693540785,
+      "grad_norm": 0.0011133828666061163,
+      "learning_rate": 0.2996547753064503,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 805984,
+      "step": 865
+    },
+    {
+      "epoch": 0.4101838755304102,
+      "grad_norm": 0.0030272623989731073,
+      "learning_rate": 0.29965076964442583,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 810480,
+      "step": 870
+    },
+    {
+      "epoch": 0.41254125412541254,
+      "grad_norm": 0.0034333334770053625,
+      "learning_rate": 0.299646740904372,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 815072,
+      "step": 875
+    },
+    {
+      "epoch": 0.4148986327204149,
+      "grad_norm": 0.0012225382961332798,
+      "learning_rate": 0.29964268908691016,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 819408,
+      "step": 880
+    },
+    {
+      "epoch": 0.41725601131541723,
+      "grad_norm": 0.0013394375564530492,
+      "learning_rate": 0.29963861419266513,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 825072,
+      "step": 885
+    },
+    {
+      "epoch": 0.41961338991041963,
+      "grad_norm": 0.0011879304656758904,
+      "learning_rate": 0.29963451622226533,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 829776,
+      "step": 890
+    },
+    {
+      "epoch": 0.421970768505422,
+      "grad_norm": 0.0030492348596453667,
+      "learning_rate": 0.29963039517634277,
+      "loss": 0.3602,
+      "num_input_tokens_seen": 834496,
+      "step": 895
+    },
+    {
+      "epoch": 0.4243281471004243,
+      "grad_norm": 0.0011653504334390163,
+      "learning_rate": 0.2996262510555328,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 841600,
+      "step": 900
+    },
+    {
+      "epoch": 0.42668552569542667,
+      "grad_norm": 0.002891477895900607,
+      "learning_rate": 0.2996220838604746,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 845888,
+      "step": 905
+    },
+    {
+      "epoch": 0.429042904290429,
+      "grad_norm": 0.0020050036255270243,
+      "learning_rate": 0.29961789359181085,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 851008,
+      "step": 910
+    },
+    {
+      "epoch": 0.4314002828854314,
+      "grad_norm": 0.0013831771211698651,
+      "learning_rate": 0.29961368025018764,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 855984,
+      "step": 915
+    },
+    {
+      "epoch": 0.43375766148043376,
+      "grad_norm": 0.003928794991225004,
+      "learning_rate": 0.2996094438362548,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 860464,
+      "step": 920
+    },
+    {
+      "epoch": 0.4361150400754361,
+      "grad_norm": 0.001306679449044168,
+      "learning_rate": 0.2996051843506657,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 864976,
+      "step": 925
+    },
+    {
+      "epoch": 0.43847241867043846,
+      "grad_norm": 0.001259846379980445,
+      "learning_rate": 0.299600901794077,
+      "loss": 0.362,
+      "num_input_tokens_seen": 869120,
+      "step": 930
+    },
+    {
+      "epoch": 0.4408297972654408,
+      "grad_norm": 0.001212054630741477,
+      "learning_rate": 0.29959659616714923,
+      "loss": 0.3521,
+      "num_input_tokens_seen": 873136,
+      "step": 935
+    },
+    {
+      "epoch": 0.4431871758604432,
+      "grad_norm": 0.0036681045312434435,
+      "learning_rate": 0.2995922674705464,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 877936,
+      "step": 940
+    },
+    {
+      "epoch": 0.44554455445544555,
+      "grad_norm": 0.003316648304462433,
+      "learning_rate": 0.2995879157049361,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 883664,
+      "step": 945
+    },
+    {
+      "epoch": 0.4479019330504479,
+      "grad_norm": 0.001272142748348415,
+      "learning_rate": 0.2995835408709893,
+      "loss": 0.3927,
+      "num_input_tokens_seen": 887744,
+      "step": 950
+    },
+    {
+      "epoch": 0.45025931164545024,
+      "grad_norm": 0.0031602384988218546,
+      "learning_rate": 0.29957914296938076,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 891824,
+      "step": 955
+    },
+    {
+      "epoch": 0.4526166902404526,
+      "grad_norm": 0.0031584922689944506,
+      "learning_rate": 0.2995747220007886,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 895904,
+      "step": 960
+    },
+    {
+      "epoch": 0.454974068835455,
+      "grad_norm": 0.0019205415155738592,
+      "learning_rate": 0.2995702779658947,
+      "loss": 0.3175,
+      "num_input_tokens_seen": 900032,
+      "step": 965
+    },
+    {
+      "epoch": 0.45733144743045734,
+      "grad_norm": 0.0020907658617943525,
+      "learning_rate": 0.29956581086538425,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 904544,
+      "step": 970
+    },
+    {
+      "epoch": 0.4596888260254597,
+      "grad_norm": 0.006203664932399988,
+      "learning_rate": 0.2995613206999462,
+      "loss": 0.399,
+      "num_input_tokens_seen": 909136,
+      "step": 975
+    },
+    {
+      "epoch": 0.46204620462046203,
+      "grad_norm": 0.005182255059480667,
+      "learning_rate": 0.29955680747027297,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 913312,
+      "step": 980
+    },
+    {
+      "epoch": 0.4644035832154644,
+      "grad_norm": 0.005124473478645086,
+      "learning_rate": 0.2995522711770607,
+      "loss": 0.3593,
+      "num_input_tokens_seen": 918240,
+      "step": 985
+    },
+    {
+      "epoch": 0.4667609618104668,
+      "grad_norm": 0.0030167794320732355,
+      "learning_rate": 0.2995477118210087,
+      "loss": 0.321,
+      "num_input_tokens_seen": 923424,
+      "step": 990
+    },
+    {
+      "epoch": 0.4691183404054691,
+      "grad_norm": 0.0014518728712573647,
+      "learning_rate": 0.29954312940282024,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 928368,
+      "step": 995
+    },
+    {
+      "epoch": 0.47147571900047147,
+      "grad_norm": 0.0013448884710669518,
+      "learning_rate": 0.29953852392320196,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 932848,
+      "step": 1000
+    },
+    {
+      "epoch": 0.47147571900047147,
+      "eval_loss": 0.3282974064350128,
+      "eval_runtime": 33.5736,
+      "eval_samples_per_second": 28.088,
+      "eval_steps_per_second": 14.059,
+      "num_input_tokens_seen": 932848,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4738330975954738,
+      "grad_norm": 0.0009026210755109787,
+      "learning_rate": 0.2995338953828641,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 936672,
+      "step": 1005
+    },
+    {
+      "epoch": 0.47619047619047616,
+      "grad_norm": 0.0031212721951305866,
+      "learning_rate": 0.2995292437825204,
+      "loss": 0.3644,
+      "num_input_tokens_seen": 941216,
+      "step": 1010
+    },
+    {
+      "epoch": 0.47854785478547857,
+      "grad_norm": 0.0018376590451225638,
+      "learning_rate": 0.29952456912288816,
+      "loss": 0.3721,
+      "num_input_tokens_seen": 945536,
+      "step": 1015
+    },
+    {
+      "epoch": 0.4809052333804809,
+      "grad_norm": 0.0021840552799403667,
+      "learning_rate": 0.2995198714046884,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 949584,
+      "step": 1020
+    },
+    {
+      "epoch": 0.48326261197548326,
+      "grad_norm": 0.0019181977258995175,
+      "learning_rate": 0.2995151506286454,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 954656,
+      "step": 1025
+    },
+    {
+      "epoch": 0.4856199905704856,
+      "grad_norm": 0.0020529080647975206,
+      "learning_rate": 0.2995104067954873,
+      "loss": 0.3507,
+      "num_input_tokens_seen": 959072,
+      "step": 1030
+    },
+    {
+      "epoch": 0.48797736916548795,
+      "grad_norm": 0.0009282183600589633,
+      "learning_rate": 0.2995056399059456,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 963280,
+      "step": 1035
+    },
+    {
+      "epoch": 0.49033474776049035,
+      "grad_norm": 0.0010654361685737967,
+      "learning_rate": 0.2995008499607554,
+      "loss": 0.3322,
+      "num_input_tokens_seen": 968192,
+      "step": 1040
+    },
+    {
+      "epoch": 0.4926921263554927,
+      "grad_norm": 0.0010797327850013971,
+      "learning_rate": 0.2994960369606554,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 973232,
+      "step": 1045
+    },
+    {
+      "epoch": 0.49504950495049505,
+      "grad_norm": 0.002720769727602601,
+      "learning_rate": 0.2994912009063878,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 978256,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4974068835454974,
+      "grad_norm": 0.0025262257549911737,
+      "learning_rate": 0.29948634179869843,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 982768,
+      "step": 1055
+    },
+    {
+      "epoch": 0.49976426214049974,
+      "grad_norm": 0.004807708319276571,
+      "learning_rate": 0.29948145963833656,
+      "loss": 0.4069,
+      "num_input_tokens_seen": 987200,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5021216407355021,
+      "grad_norm": 0.0011140615679323673,
+      "learning_rate": 0.29947655442605514,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 992176,
+      "step": 1065
+    },
+    {
+      "epoch": 0.5044790193305044,
+      "grad_norm": 0.002764082280918956,
+      "learning_rate": 0.2994716261626106,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 995856,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5068363979255068,
+      "grad_norm": 0.002738803159445524,
+      "learning_rate": 0.2994666748487629,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 999952,
+      "step": 1075
+    },
+    {
+      "epoch": 0.5091937765205092,
+      "grad_norm": 0.0012755305506289005,
+      "learning_rate": 0.2994617004852756,
+      "loss": 0.3795,
+      "num_input_tokens_seen": 1003840,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5115511551155115,
+      "grad_norm": 0.0012116192374378443,
+      "learning_rate": 0.2994567030729159,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 1008544,
+      "step": 1085
+    },
+    {
+      "epoch": 0.5139085337105139,
+      "grad_norm": 0.0010623331181704998,
+      "learning_rate": 0.29945168261245436,
+      "loss": 0.352,
+      "num_input_tokens_seen": 1012576,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5162659123055162,
+      "grad_norm": 0.0028545393142849207,
+      "learning_rate": 0.29944663910466524,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 1018464,
+      "step": 1095
+    },
+    {
+      "epoch": 0.5186232909005186,
+      "grad_norm": 0.00262465956620872,
+      "learning_rate": 0.2994415725503263,
+      "loss": 0.2712,
+      "num_input_tokens_seen": 1022512,
+      "step": 1100
+    },
+    {
+      "epoch": 0.520980669495521,
+      "grad_norm": 0.003254160052165389,
+      "learning_rate": 0.29943648295021885,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 1027360,
+      "step": 1105
+    },
+    {
+      "epoch": 0.5233380480905233,
+      "grad_norm": 0.000713048386387527,
+      "learning_rate": 0.2994313703051278,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 1032640,
+      "step": 1110
+    },
+    {
+      "epoch": 0.5256954266855257,
+      "grad_norm": 0.0008046419825404882,
+      "learning_rate": 0.29942623461584156,
+      "loss": 0.3807,
+      "num_input_tokens_seen": 1037104,
+      "step": 1115
+    },
+    {
+      "epoch": 0.528052805280528,
+      "grad_norm": 0.001171373762190342,
+      "learning_rate": 0.29942107588315214,
+      "loss": 0.2957,
+      "num_input_tokens_seen": 1040560,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5304101838755304,
+      "grad_norm": 0.001180421095341444,
+      "learning_rate": 0.29941589410785513,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 1046368,
+      "step": 1125
+    },
+    {
+      "epoch": 0.5327675624705328,
+      "grad_norm": 0.0035853669978678226,
+      "learning_rate": 0.29941068929074954,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 1051488,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5351249410655351,
+      "grad_norm": 0.0016054398147389293,
+      "learning_rate": 0.2994054614326381,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 1056880,
+      "step": 1135
+    },
+    {
+      "epoch": 0.5374823196605375,
+      "grad_norm": 0.002481067320331931,
+      "learning_rate": 0.29940021053432686,
+      "loss": 0.3691,
+      "num_input_tokens_seen": 1061792,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5398396982555398,
+      "grad_norm": 0.001152522279880941,
+      "learning_rate": 0.29939493659662575,
+      "loss": 0.3511,
+      "num_input_tokens_seen": 1067088,
+      "step": 1145
+    },
+    {
+      "epoch": 0.5421970768505422,
+      "grad_norm": 0.002978774020448327,
+      "learning_rate": 0.299389639620348,
+      "loss": 0.3263,
+      "num_input_tokens_seen": 1072000,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5445544554455446,
+      "grad_norm": 0.0010994072072207928,
+      "learning_rate": 0.29938431960631046,
+      "loss": 0.3613,
+      "num_input_tokens_seen": 1076384,
+      "step": 1155
+    },
+    {
+      "epoch": 0.5469118340405469,
+      "grad_norm": 0.0007895186427049339,
+      "learning_rate": 0.2993789765553335,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 1079936,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5492692126355493,
+      "grad_norm": 0.0017486372962594032,
+      "learning_rate": 0.2993736104682412,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 1084256,
+      "step": 1165
+    },
+    {
+      "epoch": 0.5516265912305516,
+      "grad_norm": 0.0035758204758167267,
+      "learning_rate": 0.299368221345861,
+      "loss": 0.3309,
+      "num_input_tokens_seen": 1088928,
+      "step": 1170
+    },
+    {
+      "epoch": 0.553983969825554,
+      "grad_norm": 0.0026401616632938385,
+      "learning_rate": 0.29936280918902397,
+      "loss": 0.3018,
+      "num_input_tokens_seen": 1094064,
+      "step": 1175
+    },
+    {
+      "epoch": 0.5563413484205564,
+      "grad_norm": 0.0013492064317688346,
+      "learning_rate": 0.2993573739985648,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 1098768,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5586987270155587,
+      "grad_norm": 0.0033756913617253304,
+      "learning_rate": 0.2993519157753216,
+      "loss": 0.352,
+      "num_input_tokens_seen": 1103712,
+      "step": 1185
+    },
+    {
+      "epoch": 0.5610561056105611,
+      "grad_norm": 0.003073120256885886,
+      "learning_rate": 0.2993464345201361,
+      "loss": 0.4009,
+      "num_input_tokens_seen": 1107328,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5634134842055634,
+      "grad_norm": 0.0034312852658331394,
+      "learning_rate": 0.2993409302338536,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 1111648,
+      "step": 1195
+    },
+    {
+      "epoch": 0.5657708628005658,
+      "grad_norm": 0.0015411700587719679,
+      "learning_rate": 0.2993354029173229,
+      "loss": 0.3099,
+      "num_input_tokens_seen": 1116128,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5657708628005658,
+      "eval_loss": 0.33020395040512085,
+      "eval_runtime": 33.5597,
+      "eval_samples_per_second": 28.099,
+      "eval_steps_per_second": 14.065,
+      "num_input_tokens_seen": 1116128,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5681282413955682,
+      "grad_norm": 0.0026605657767504454,
+      "learning_rate": 0.2993298525713965,
+      "loss": 0.3784,
+      "num_input_tokens_seen": 1120432,
+      "step": 1205
+    },
+    {
+      "epoch": 0.5704856199905705,
+      "grad_norm": 0.0011644645128399134,
+      "learning_rate": 0.29932427919693017,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 1125664,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5728429985855729,
+      "grad_norm": 0.0009816318051889539,
+      "learning_rate": 0.2993186827947834,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 1129952,
+      "step": 1215
+    },
+    {
+      "epoch": 0.5752003771805752,
+      "grad_norm": 0.0012743663974106312,
+      "learning_rate": 0.2993130633658194,
+      "loss": 0.3191,
+      "num_input_tokens_seen": 1134928,
+      "step": 1220
+    },
+    {
+      "epoch": 0.5775577557755776,
+      "grad_norm": 0.0007645924924872816,
+      "learning_rate": 0.29930742091090456,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 1139088,
+      "step": 1225
+    },
+    {
+      "epoch": 0.57991513437058,
+      "grad_norm": 0.0013635344803333282,
+      "learning_rate": 0.29930175543090914,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 1143888,
+      "step": 1230
+    },
+    {
+      "epoch": 0.5822725129655822,
+      "grad_norm": 0.002082626800984144,
+      "learning_rate": 0.2992960669267068,
+      "loss": 0.215,
+      "num_input_tokens_seen": 1149056,
+      "step": 1235
+    },
+    {
+      "epoch": 0.5846298915605846,
+      "grad_norm": 0.0016231334302574396,
+      "learning_rate": 0.29929035539917476,
+      "loss": 0.3795,
+      "num_input_tokens_seen": 1153632,
+      "step": 1240
+    },
+    {
+      "epoch": 0.5869872701555869,
+      "grad_norm": 0.0006263582617975771,
+      "learning_rate": 0.2992846208491938,
+      "loss": 0.3763,
+      "num_input_tokens_seen": 1158096,
+      "step": 1245
+    },
+    {
+      "epoch": 0.5893446487505893,
+      "grad_norm": 0.0029455467592924833,
+      "learning_rate": 0.2992788632776483,
+      "loss": 0.3263,
+      "num_input_tokens_seen": 1162960,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5917020273455917,
+      "grad_norm": 0.0009088475489988923,
+      "learning_rate": 0.29927308268542613,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 1166800,
+      "step": 1255
+    },
+    {
+      "epoch": 0.594059405940594,
+      "grad_norm": 0.002273793565109372,
+      "learning_rate": 0.2992672790734187,
+      "loss": 0.2921,
+      "num_input_tokens_seen": 1171456,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5964167845355964,
+      "grad_norm": 0.0028441566973924637,
+      "learning_rate": 0.299261452442521,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 1176016,
+      "step": 1265
+    },
+    {
+      "epoch": 0.5987741631305987,
+      "grad_norm": 0.0008623084286227822,
+      "learning_rate": 0.29925560279363167,
+      "loss": 0.342,
+      "num_input_tokens_seen": 1179824,
+      "step": 1270
+    },
+    {
+      "epoch": 0.6011315417256011,
+      "grad_norm": 0.0028372204396873713,
+      "learning_rate": 0.29924973012765266,
+      "loss": 0.3692,
+      "num_input_tokens_seen": 1183760,
+      "step": 1275
+    },
+    {
+      "epoch": 0.6034889203206035,
+      "grad_norm": 0.0013199439272284508,
+      "learning_rate": 0.29924383444548974,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 1187984,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6058462989156058,
+      "grad_norm": 0.004355447832494974,
+      "learning_rate": 0.299237915748052,
+      "loss": 0.3685,
+      "num_input_tokens_seen": 1192544,
+      "step": 1285
+    },
+    {
+      "epoch": 0.6082036775106082,
+      "grad_norm": 0.0025103494990617037,
+      "learning_rate": 0.2992319740362522,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 1196416,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6105610561056105,
+      "grad_norm": 0.002673013834282756,
+      "learning_rate": 0.2992260093110066,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 1200384,
+      "step": 1295
+    },
+    {
+      "epoch": 0.6129184347006129,
+      "grad_norm": 0.001342449220828712,
+      "learning_rate": 0.2992200215732352,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 1205184,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6152758132956153,
+      "grad_norm": 0.0020151103381067514,
+      "learning_rate": 0.2992140108238611,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 1209328,
+      "step": 1305
+    },
+    {
+      "epoch": 0.6176331918906176,
+      "grad_norm": 0.0010223882272839546,
+      "learning_rate": 0.2992079770638115,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 1214032,
+      "step": 1310
+    },
+    {
+      "epoch": 0.61999057048562,
+      "grad_norm": 0.001947667682543397,
+      "learning_rate": 0.29920192029401677,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 1221104,
+      "step": 1315
+    },
+    {
+      "epoch": 0.6223479490806223,
+      "grad_norm": 0.0013448518002405763,
+      "learning_rate": 0.2991958405154109,
+      "loss": 0.3374,
+      "num_input_tokens_seen": 1225088,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6247053276756247,
+      "grad_norm": 0.0010403752094134688,
+      "learning_rate": 0.29918973772893154,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 1229744,
+      "step": 1325
+    },
+    {
+      "epoch": 0.6270627062706271,
+      "grad_norm": 0.0026737372390925884,
+      "learning_rate": 0.29918361193551973,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 1234144,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6294200848656294,
+      "grad_norm": 0.0013730003265663981,
+      "learning_rate": 0.29917746313612026,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 1238736,
+      "step": 1335
+    },
+    {
+      "epoch": 0.6317774634606318,
+      "grad_norm": 0.0014334878651425242,
+      "learning_rate": 0.29917129133168124,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 1244336,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6341348420556341,
+      "grad_norm": 0.0026961113326251507,
+      "learning_rate": 0.2991650965231546,
+      "loss": 0.303,
+      "num_input_tokens_seen": 1248944,
+      "step": 1345
+    },
+    {
+      "epoch": 0.6364922206506365,
+      "grad_norm": 0.00368593935854733,
+      "learning_rate": 0.29915887871149544,
+      "loss": 0.306,
+      "num_input_tokens_seen": 1253088,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6388495992456389,
+      "grad_norm": 0.004118124023079872,
+      "learning_rate": 0.2991526378976628,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 1256816,
+      "step": 1355
+    },
+    {
+      "epoch": 0.6412069778406412,
+      "grad_norm": 0.0012876461260020733,
+      "learning_rate": 0.29914637408261896,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 1261136,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6435643564356436,
+      "grad_norm": 0.0013698997208848596,
+      "learning_rate": 0.29914008726733,
+      "loss": 0.3957,
+      "num_input_tokens_seen": 1265248,
+      "step": 1365
+    },
+    {
+      "epoch": 0.6459217350306459,
+      "grad_norm": 0.0007569738081656396,
+      "learning_rate": 0.2991337774527653,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 1271248,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6482791136256483,
+      "grad_norm": 0.0009176426101475954,
+      "learning_rate": 0.2991274446398981,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 1275824,
+      "step": 1375
+    },
+    {
+      "epoch": 0.6506364922206507,
+      "grad_norm": 0.002688433974981308,
+      "learning_rate": 0.29912108882970484,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 1279712,
+      "step": 1380
+    },
+    {
+      "epoch": 0.652993870815653,
+      "grad_norm": 0.00277320365421474,
+      "learning_rate": 0.2991147100231657,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 1284720,
+      "step": 1385
+    },
+    {
+      "epoch": 0.6553512494106554,
+      "grad_norm": 0.002793003572151065,
+      "learning_rate": 0.2991083082212644,
+      "loss": 0.3062,
+      "num_input_tokens_seen": 1290624,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6577086280056577,
+      "grad_norm": 0.001223033876158297,
+      "learning_rate": 0.2991018834249881,
+      "loss": 0.4052,
+      "num_input_tokens_seen": 1295040,
+      "step": 1395
+    },
+    {
+      "epoch": 0.6600660066006601,
+      "grad_norm": 0.0022126648109406233,
+      "learning_rate": 0.29909543563532764,
+      "loss": 0.3801,
+      "num_input_tokens_seen": 1299664,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6600660066006601,
+      "eval_loss": 0.3414253890514374,
+      "eval_runtime": 33.5271,
+      "eval_samples_per_second": 28.126,
+      "eval_steps_per_second": 14.078,
+      "num_input_tokens_seen": 1299664,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6624233851956625,
+      "grad_norm": 0.0009488030336797237,
+      "learning_rate": 0.29908896485327746,
+      "loss": 0.3459,
+      "num_input_tokens_seen": 1303920,
+      "step": 1405
+    },
+    {
+      "epoch": 0.6647807637906648,
+      "grad_norm": 0.003036333015188575,
+      "learning_rate": 0.29908247107983527,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 1308912,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6671381423856672,
+      "grad_norm": 0.0028128414414823055,
+      "learning_rate": 0.29907595431600253,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 1313440,
+      "step": 1415
+    },
+    {
+      "epoch": 0.6694955209806694,
+      "grad_norm": 0.0029256921261548996,
+      "learning_rate": 0.29906941456278424,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 1317584,
+      "step": 1420
+    },
+    {
+      "epoch": 0.6718528995756718,
+      "grad_norm": 0.0032293780241161585,
+      "learning_rate": 0.2990628518211889,
+      "loss": 0.3485,
+      "num_input_tokens_seen": 1322064,
+      "step": 1425
+    },
+    {
+      "epoch": 0.6742102781706742,
+      "grad_norm": 0.0013860655017197132,
+      "learning_rate": 0.2990562660922286,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 1327008,
+      "step": 1430
+    },
+    {
+      "epoch": 0.6765676567656765,
+      "grad_norm": 0.0014472069451585412,
+      "learning_rate": 0.2990496573769189,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 1331088,
+      "step": 1435
+    },
+    {
+      "epoch": 0.6789250353606789,
+      "grad_norm": 0.0021355245262384415,
+      "learning_rate": 0.29904302567627894,
+      "loss": 0.291,
+      "num_input_tokens_seen": 1335664,
+      "step": 1440
+    },
+    {
+      "epoch": 0.6812824139556812,
+      "grad_norm": 0.00894838385283947,
+      "learning_rate": 0.2990363709913314,
+      "loss": 0.276,
+      "num_input_tokens_seen": 1340224,
+      "step": 1445
+    },
+    {
+      "epoch": 0.6836397925506836,
+      "grad_norm": 0.0011989445192739367,
+      "learning_rate": 0.29902969332310264,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 1344528,
+      "step": 1450
+    },
+    {
+      "epoch": 0.685997171145686,
+      "grad_norm": 0.005556725896894932,
+      "learning_rate": 0.2990229926726223,
+      "loss": 0.4245,
+      "num_input_tokens_seen": 1348496,
+      "step": 1455
+    },
+    {
+      "epoch": 0.6883545497406883,
+      "grad_norm": 0.0040074787102639675,
+      "learning_rate": 0.29901626904092365,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 1353264,
+      "step": 1460
+    },
+    {
+      "epoch": 0.6907119283356907,
+      "grad_norm": 0.0044610025361180305,
+      "learning_rate": 0.2990095224290438,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 1357712,
+      "step": 1465
+    },
+    {
+      "epoch": 0.693069306930693,
+      "grad_norm": 0.001575607224367559,
+      "learning_rate": 0.29900275283802297,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 1361856,
+      "step": 1470
+    },
+    {
+      "epoch": 0.6954266855256954,
+      "grad_norm": 0.0035856368485838175,
+      "learning_rate": 0.2989959602689051,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 1366960,
+      "step": 1475
+    },
+    {
+      "epoch": 0.6977840641206978,
+      "grad_norm": 0.0017035824712365866,
+      "learning_rate": 0.2989891447227379,
+      "loss": 0.316,
+      "num_input_tokens_seen": 1371776,
+      "step": 1480
+    },
+    {
+      "epoch": 0.7001414427157001,
+      "grad_norm": 0.009100579656660557,
+      "learning_rate": 0.29898230620057215,
+      "loss": 0.366,
+      "num_input_tokens_seen": 1375632,
+      "step": 1485
+    },
+    {
+      "epoch": 0.7024988213107025,
+      "grad_norm": 0.0011175137478858232,
+      "learning_rate": 0.2989754447034626,
+      "loss": 0.302,
+      "num_input_tokens_seen": 1379776,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7048561999057048,
+      "grad_norm": 0.00328019168227911,
+      "learning_rate": 0.2989685602324673,
+      "loss": 0.3288,
+      "num_input_tokens_seen": 1384272,
+      "step": 1495
+    },
+    {
+      "epoch": 0.7072135785007072,
+      "grad_norm": 0.0012514012632891536,
+      "learning_rate": 0.298961652788648,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 1388304,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7095709570957096,
+      "grad_norm": 0.002194954315200448,
+      "learning_rate": 0.29895472237306986,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 1393120,
+      "step": 1505
+    },
+    {
+      "epoch": 0.7119283356907119,
+      "grad_norm": 0.0013792496174573898,
+      "learning_rate": 0.29894776898680164,
+      "loss": 0.3687,
+      "num_input_tokens_seen": 1397600,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 0.0033429828472435474,
+      "learning_rate": 0.29894079263091566,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 1402592,
+      "step": 1515
+    },
+    {
+      "epoch": 0.7166430928807166,
+      "grad_norm": 0.002000486711040139,
+      "learning_rate": 0.2989337933064877,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 1407360,
+      "step": 1520
+    },
+    {
+      "epoch": 0.719000471475719,
+      "grad_norm": 0.0016007852973416448,
+      "learning_rate": 0.29892677101459725,
+      "loss": 0.3099,
+      "num_input_tokens_seen": 1410992,
+      "step": 1525
+    },
+    {
+      "epoch": 0.7213578500707214,
+      "grad_norm": 0.001398505293764174,
+      "learning_rate": 0.2989197257563272,
+      "loss": 0.3557,
+      "num_input_tokens_seen": 1415072,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7237152286657237,
+      "grad_norm": 0.0014311724808067083,
+      "learning_rate": 0.2989126575327639,
+      "loss": 0.3415,
+      "num_input_tokens_seen": 1420064,
+      "step": 1535
+    },
+    {
+      "epoch": 0.7260726072607261,
+      "grad_norm": 0.001441912492737174,
+      "learning_rate": 0.29890556634499754,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 1423856,
+      "step": 1540
+    },
+    {
+      "epoch": 0.7284299858557284,
+      "grad_norm": 0.0012074904516339302,
+      "learning_rate": 0.2988984521941216,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 1428016,
+      "step": 1545
+    },
+    {
+      "epoch": 0.7307873644507308,
+      "grad_norm": 0.001823672791942954,
+      "learning_rate": 0.29889131508123307,
+      "loss": 0.3717,
+      "num_input_tokens_seen": 1433376,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7331447430457332,
+      "grad_norm": 0.002574797486886382,
+      "learning_rate": 0.2988841550074327,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 1438240,
+      "step": 1555
+    },
+    {
+      "epoch": 0.7355021216407355,
+      "grad_norm": 0.0031076734885573387,
+      "learning_rate": 0.2988769719738246,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 1442768,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7378595002357379,
+      "grad_norm": 0.0014278239104896784,
+      "learning_rate": 0.29886976598151666,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 1448096,
+      "step": 1565
+    },
+    {
+      "epoch": 0.7402168788307402,
+      "grad_norm": 0.0029769777320325375,
+      "learning_rate": 0.29886253703161986,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 1452640,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7425742574257426,
+      "grad_norm": 0.0012444884050637484,
+      "learning_rate": 0.29885528512524917,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 1458032,
+      "step": 1575
+    },
+    {
+      "epoch": 0.744931636020745,
+      "grad_norm": 0.0005188742652535439,
+      "learning_rate": 0.29884801026352287,
+      "loss": 0.2529,
+      "num_input_tokens_seen": 1462512,
+      "step": 1580
+    },
+    {
+      "epoch": 0.7472890146157473,
+      "grad_norm": 0.003981109242886305,
+      "learning_rate": 0.2988407124475629,
+      "loss": 0.3683,
+      "num_input_tokens_seen": 1467536,
+      "step": 1585
+    },
+    {
+      "epoch": 0.7496463932107497,
+      "grad_norm": 0.0036733157467097044,
+      "learning_rate": 0.2988333916784945,
+      "loss": 0.3836,
+      "num_input_tokens_seen": 1472368,
+      "step": 1590
+    },
+    {
+      "epoch": 0.752003771805752,
+      "grad_norm": 0.002339660655707121,
+      "learning_rate": 0.2988260479574468,
+      "loss": 0.2907,
+      "num_input_tokens_seen": 1476464,
+      "step": 1595
+    },
+    {
+      "epoch": 0.7543611504007544,
+      "grad_norm": 0.0012715079355984926,
+      "learning_rate": 0.2988186812855523,
+      "loss": 0.2952,
+      "num_input_tokens_seen": 1481856,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7543611504007544,
+      "eval_loss": 0.32911041378974915,
+      "eval_runtime": 33.5192,
+      "eval_samples_per_second": 28.133,
+      "eval_steps_per_second": 14.081,
+      "num_input_tokens_seen": 1481856,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7567185289957568,
+      "grad_norm": 0.0006751236505806446,
+      "learning_rate": 0.29881129166394693,
+      "loss": 0.2893,
+      "num_input_tokens_seen": 1486256,
+      "step": 1605
+    },
+    {
+      "epoch": 0.759075907590759,
+      "grad_norm": 0.0007587228319607675,
+      "learning_rate": 0.29880387909377026,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 1490800,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7614332861857614,
+      "grad_norm": 0.0014058772940188646,
+      "learning_rate": 0.2987964435761655,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 1495056,
+      "step": 1615
+    },
+    {
+      "epoch": 0.7637906647807637,
+      "grad_norm": 0.0013533371966332197,
+      "learning_rate": 0.29878898511227925,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 1499648,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7661480433757661,
+      "grad_norm": 0.0019292894285172224,
+      "learning_rate": 0.2987815037032617,
+      "loss": 0.262,
+      "num_input_tokens_seen": 1504464,
+      "step": 1625
+    },
+    {
+      "epoch": 0.7685054219707685,
+      "grad_norm": 0.001503610284999013,
+      "learning_rate": 0.29877399935026655,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 1509488,
+      "step": 1630
+    },
+    {
+      "epoch": 0.7708628005657708,
+      "grad_norm": 0.0016248149331659079,
+      "learning_rate": 0.2987664720544511,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 1514064,
+      "step": 1635
+    },
+    {
+      "epoch": 0.7732201791607732,
+      "grad_norm": 0.0014259560266509652,
+      "learning_rate": 0.2987589218169761,
+      "loss": 0.3338,
+      "num_input_tokens_seen": 1519072,
+      "step": 1640
+    },
+    {
+      "epoch": 0.7755775577557755,
+      "grad_norm": 0.001208463218063116,
+      "learning_rate": 0.29875134863900604,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 1524224,
+      "step": 1645
+    },
+    {
+      "epoch": 0.7779349363507779,
+      "grad_norm": 0.0020622911397367716,
+      "learning_rate": 0.29874375252170865,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 1528528,
+      "step": 1650
+    },
+    {
+      "epoch": 0.7802923149457803,
+      "grad_norm": 0.0027212672866880894,
+      "learning_rate": 0.2987361334662553,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 1533712,
+      "step": 1655
+    },
+    {
+      "epoch": 0.7826496935407826,
+      "grad_norm": 0.002059413120150566,
+      "learning_rate": 0.29872849147382113,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 1539024,
+      "step": 1660
+    },
+    {
+      "epoch": 0.785007072135785,
+      "grad_norm": 0.0026282425969839096,
+      "learning_rate": 0.2987208265455845,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 1544272,
+      "step": 1665
+    },
+    {
+      "epoch": 0.7873644507307873,
+      "grad_norm": 0.0010448130778968334,
+      "learning_rate": 0.29871313868272753,
+      "loss": 0.3713,
+      "num_input_tokens_seen": 1548800,
+      "step": 1670
+    },
+    {
+      "epoch": 0.7897218293257897,
+      "grad_norm": 0.000859607185702771,
+      "learning_rate": 0.29870542788643567,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 1553888,
+      "step": 1675
+    },
+    {
+      "epoch": 0.7920792079207921,
+      "grad_norm": 0.0010064038215205073,
+      "learning_rate": 0.2986976941578981,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 1558192,
+      "step": 1680
+    },
+    {
+      "epoch": 0.7944365865157944,
+      "grad_norm": 0.002183601027354598,
+      "learning_rate": 0.29868993749830747,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 1562912,
+      "step": 1685
+    },
+    {
+      "epoch": 0.7967939651107968,
+      "grad_norm": 0.0009226575493812561,
+      "learning_rate": 0.2986821579088598,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 1567728,
+      "step": 1690
+    },
+    {
+      "epoch": 0.7991513437057991,
+      "grad_norm": 0.0021422968711704016,
+      "learning_rate": 0.29867435539075504,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 1572016,
+      "step": 1695
+    },
+    {
+      "epoch": 0.8015087223008015,
+      "grad_norm": 0.0010366275673732162,
+      "learning_rate": 0.2986665299451963,
+      "loss": 0.3161,
+      "num_input_tokens_seen": 1576832,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8038661008958039,
+      "grad_norm": 0.0008427934953942895,
+      "learning_rate": 0.29865868157339037,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 1581376,
+      "step": 1705
+    },
+    {
+      "epoch": 0.8062234794908062,
+      "grad_norm": 0.0009740583482198417,
+      "learning_rate": 0.2986508102765476,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 1585872,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8085808580858086,
+      "grad_norm": 0.0011685614008456469,
+      "learning_rate": 0.2986429160558818,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 1591664,
+      "step": 1715
+    },
+    {
+      "epoch": 0.8109382366808109,
+      "grad_norm": 0.0015841820277273655,
+      "learning_rate": 0.2986349989126104,
+      "loss": 0.4147,
+      "num_input_tokens_seen": 1596720,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8132956152758133,
+      "grad_norm": 0.0025079604238271713,
+      "learning_rate": 0.29862705884795426,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 1602784,
+      "step": 1725
+    },
+    {
+      "epoch": 0.8156529938708157,
+      "grad_norm": 0.002628210000693798,
+      "learning_rate": 0.2986190958631379,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 1607488,
+      "step": 1730
+    },
+    {
+      "epoch": 0.818010372465818,
+      "grad_norm": 0.0024245905224233866,
+      "learning_rate": 0.29861110995938933,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 1611488,
+      "step": 1735
+    },
+    {
+      "epoch": 0.8203677510608204,
+      "grad_norm": 0.0018995330901816487,
+      "learning_rate": 0.29860310113794,
+      "loss": 0.341,
+      "num_input_tokens_seen": 1615680,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8227251296558227,
+      "grad_norm": 0.003073848318308592,
+      "learning_rate": 0.29859506940002506,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 1620224,
+      "step": 1745
+    },
+    {
+      "epoch": 0.8250825082508251,
+      "grad_norm": 0.0007809565868228674,
+      "learning_rate": 0.298587014746883,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 1624640,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8274398868458275,
+      "grad_norm": 0.004190902225673199,
+      "learning_rate": 0.298578937179756,
+      "loss": 0.3676,
+      "num_input_tokens_seen": 1629984,
+      "step": 1755
+    },
+    {
+      "epoch": 0.8297972654408298,
+      "grad_norm": 0.002523979404941201,
+      "learning_rate": 0.29857083669988976,
+      "loss": 0.328,
+      "num_input_tokens_seen": 1634480,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8321546440358322,
+      "grad_norm": 0.0014868302969262004,
+      "learning_rate": 0.29856271330853346,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 1639360,
+      "step": 1765
+    },
+    {
+      "epoch": 0.8345120226308345,
+      "grad_norm": 0.014223870821297169,
+      "learning_rate": 0.2985545670069398,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 1644256,
+      "step": 1770
+    },
+    {
+      "epoch": 0.8368694012258369,
+      "grad_norm": 0.002347873291000724,
+      "learning_rate": 0.29854639779636505,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 1649376,
+      "step": 1775
+    },
+    {
+      "epoch": 0.8392267798208393,
+      "grad_norm": 0.0008729292312636971,
+      "learning_rate": 0.298538205678069,
+      "loss": 0.321,
+      "num_input_tokens_seen": 1653472,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8415841584158416,
+      "grad_norm": 0.001001281081698835,
+      "learning_rate": 0.298529990653315,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 1657808,
+      "step": 1785
+    },
+    {
+      "epoch": 0.843941537010844,
+      "grad_norm": 0.0008202531025744975,
+      "learning_rate": 0.29852175272336984,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 1662576,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8462989156058462,
+      "grad_norm": 0.0027230416890233755,
+      "learning_rate": 0.29851349188950405,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 1667216,
+      "step": 1795
+    },
+    {
+      "epoch": 0.8486562942008486,
+      "grad_norm": 0.001135131809860468,
+      "learning_rate": 0.2985052081529914,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 1672160,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8486562942008486,
+      "eval_loss": 0.3287978768348694,
+      "eval_runtime": 33.5701,
+      "eval_samples_per_second": 28.09,
+      "eval_steps_per_second": 14.06,
+      "num_input_tokens_seen": 1672160,
+      "step": 1800
+    },
+    {
+      "epoch": 0.851013672795851,
+      "grad_norm": 0.0022791498340666294,
+      "learning_rate": 0.29849690151510944,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 1676400,
+      "step": 1805
+    },
+    {
+      "epoch": 0.8533710513908533,
+      "grad_norm": 0.000999532756395638,
+      "learning_rate": 0.2984885719771392,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 1680528,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8557284299858557,
+      "grad_norm": 0.0009344656718894839,
+      "learning_rate": 0.2984802195403651,
+      "loss": 0.3678,
+      "num_input_tokens_seen": 1684880,
+      "step": 1815
+    },
+    {
+      "epoch": 0.858085808580858,
+      "grad_norm": 0.001186990411952138,
+      "learning_rate": 0.2984718442060752,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 1689376,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8604431871758604,
+      "grad_norm": 0.0026030270382761955,
+      "learning_rate": 0.2984634459755611,
+      "loss": 0.3658,
+      "num_input_tokens_seen": 1694752,
+      "step": 1825
+    },
+    {
+      "epoch": 0.8628005657708628,
+      "grad_norm": 0.002830725396052003,
+      "learning_rate": 0.29845502485011793,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 1699040,
+      "step": 1830
+    },
+    {
+      "epoch": 0.8651579443658651,
+      "grad_norm": 0.00114137539640069,
+      "learning_rate": 0.2984465808310444,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 1703872,
+      "step": 1835
+    },
+    {
+      "epoch": 0.8675153229608675,
+      "grad_norm": 0.0007316744886338711,
+      "learning_rate": 0.29843811391964253,
+      "loss": 0.2902,
+      "num_input_tokens_seen": 1708096,
+      "step": 1840
+    },
+    {
+      "epoch": 0.8698727015558698,
+      "grad_norm": 0.000702373799867928,
+      "learning_rate": 0.2984296241172182,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 1712320,
+      "step": 1845
+    },
+    {
+      "epoch": 0.8722300801508722,
+      "grad_norm": 0.0019824467599391937,
+      "learning_rate": 0.29842111142508043,
+      "loss": 0.306,
+      "num_input_tokens_seen": 1717136,
+      "step": 1850
+    },
+    {
+      "epoch": 0.8745874587458746,
+      "grad_norm": 0.0014642555033788085,
+      "learning_rate": 0.29841257584454217,
+      "loss": 0.4375,
+      "num_input_tokens_seen": 1721952,
+      "step": 1855
+    },
+    {
+      "epoch": 0.8769448373408769,
+      "grad_norm": 0.0010411691619083285,
+      "learning_rate": 0.29840401737691963,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 1726976,
+      "step": 1860
+    },
+    {
+      "epoch": 0.8793022159358793,
+      "grad_norm": 0.002769376849755645,
+      "learning_rate": 0.29839543602353263,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 1732016,
+      "step": 1865
+    },
+    {
+      "epoch": 0.8816595945308816,
+      "grad_norm": 0.0009478320716880262,
+      "learning_rate": 0.2983868317857046,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 1737248,
+      "step": 1870
+    },
+    {
+      "epoch": 0.884016973125884,
+      "grad_norm": 0.001267736777663231,
+      "learning_rate": 0.2983782046647623,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 1741392,
+      "step": 1875
+    },
+    {
+      "epoch": 0.8863743517208864,
+      "grad_norm": 0.0017870732117444277,
+      "learning_rate": 0.2983695546620362,
+      "loss": 0.3581,
+      "num_input_tokens_seen": 1745904,
+      "step": 1880
+    },
+    {
+      "epoch": 0.8887317303158887,
+      "grad_norm": 0.0016476488672196865,
+      "learning_rate": 0.2983608817788603,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 1750560,
+      "step": 1885
+    },
+    {
+      "epoch": 0.8910891089108911,
+      "grad_norm": 0.001756369019858539,
+      "learning_rate": 0.29835218601657193,
+      "loss": 0.349,
+      "num_input_tokens_seen": 1755136,
+      "step": 1890
+    },
+    {
+      "epoch": 0.8934464875058934,
+      "grad_norm": 0.0012392655480653048,
+      "learning_rate": 0.29834346737651224,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 1760544,
+      "step": 1895
+    },
+    {
+      "epoch": 0.8958038661008958,
+      "grad_norm": 0.0010103691602125764,
+      "learning_rate": 0.29833472586002563,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 1765232,
+      "step": 1900
+    },
+    {
+      "epoch": 0.8981612446958982,
+      "grad_norm": 0.0007058290066197515,
+      "learning_rate": 0.29832596146846024,
+      "loss": 0.2976,
+      "num_input_tokens_seen": 1769552,
+      "step": 1905
+    },
+    {
+      "epoch": 0.9005186232909005,
+      "grad_norm": 0.0016885458026081324,
+      "learning_rate": 0.2983171742031676,
+      "loss": 0.3865,
+      "num_input_tokens_seen": 1774656,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9028760018859029,
+      "grad_norm": 0.0015062117017805576,
+      "learning_rate": 0.2983083640655028,
+      "loss": 0.2937,
+      "num_input_tokens_seen": 1779600,
+      "step": 1915
+    },
+    {
+      "epoch": 0.9052333804809052,
+      "grad_norm": 0.000683712656609714,
+      "learning_rate": 0.29829953105682455,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 1784352,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9075907590759076,
+      "grad_norm": 0.0027556668501347303,
+      "learning_rate": 0.29829067517849495,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 1789440,
+      "step": 1925
+    },
+    {
+      "epoch": 0.90994813767091,
+      "grad_norm": 0.0026287841610610485,
+      "learning_rate": 0.2982817964318797,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 1793920,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9123055162659123,
+      "grad_norm": 0.001749712391756475,
+      "learning_rate": 0.298272894818348,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 1798624,
+      "step": 1935
+    },
+    {
+      "epoch": 0.9146628948609147,
+      "grad_norm": 0.0012827434111386538,
+      "learning_rate": 0.2982639703392726,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 1803184,
+      "step": 1940
+    },
+    {
+      "epoch": 0.917020273455917,
+      "grad_norm": 0.0019223097478970885,
+      "learning_rate": 0.29825502299602974,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 1808192,
+      "step": 1945
+    },
+    {
+      "epoch": 0.9193776520509194,
+      "grad_norm": 0.0007555926567874849,
+      "learning_rate": 0.2982460527899993,
+      "loss": 0.2779,
+      "num_input_tokens_seen": 1813008,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9217350306459218,
+      "grad_norm": 0.0009770274627953768,
+      "learning_rate": 0.29823705972256453,
+      "loss": 0.4367,
+      "num_input_tokens_seen": 1817456,
+      "step": 1955
+    },
+    {
+      "epoch": 0.9240924092409241,
+      "grad_norm": 0.00105181650724262,
+      "learning_rate": 0.2982280437951123,
+      "loss": 0.3099,
+      "num_input_tokens_seen": 1821616,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9264497878359265,
+      "grad_norm": 0.0021741436794400215,
+      "learning_rate": 0.298219005009033,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 1827232,
+      "step": 1965
+    },
+    {
+      "epoch": 0.9288071664309288,
+      "grad_norm": 0.002369645517319441,
+      "learning_rate": 0.29820994336572043,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 1832320,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9311645450259312,
+      "grad_norm": 0.0008689808310009539,
+      "learning_rate": 0.2982008588665721,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 1837424,
+      "step": 1975
+    },
+    {
+      "epoch": 0.9335219236209336,
+      "grad_norm": 0.0008632023818790913,
+      "learning_rate": 0.2981917515129889,
+      "loss": 0.3871,
+      "num_input_tokens_seen": 1842304,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9358793022159358,
+      "grad_norm": 0.0008590960642322898,
+      "learning_rate": 0.2981826213063753,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 1847712,
+      "step": 1985
+    },
+    {
+      "epoch": 0.9382366808109383,
+      "grad_norm": 0.0008218036964535713,
+      "learning_rate": 0.2981734682481394,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 1852032,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9405940594059405,
+      "grad_norm": 0.0010901844361796975,
+      "learning_rate": 0.29816429233969255,
+      "loss": 0.2964,
+      "num_input_tokens_seen": 1856192,
+      "step": 1995
+    },
+    {
+      "epoch": 0.9429514380009429,
+      "grad_norm": 0.00224917009472847,
+      "learning_rate": 0.2981550935824499,
+      "loss": 0.3976,
+      "num_input_tokens_seen": 1860608,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9429514380009429,
+      "eval_loss": 0.32745420932769775,
+      "eval_runtime": 33.5888,
+      "eval_samples_per_second": 28.075,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 1860608,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9453088165959453,
+      "grad_norm": 0.0007364080520346761,
+      "learning_rate": 0.29814587197783,
+      "loss": 0.3645,
+      "num_input_tokens_seen": 1864848,
+      "step": 2005
+    },
+    {
+      "epoch": 0.9476661951909476,
+      "grad_norm": 0.0009173231082968414,
+      "learning_rate": 0.29813662752725495,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 1870512,
+      "step": 2010
+    },
+    {
+      "epoch": 0.95002357378595,
+      "grad_norm": 0.000529613287653774,
+      "learning_rate": 0.29812736023215025,
+      "loss": 0.3629,
+      "num_input_tokens_seen": 1875648,
+      "step": 2015
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.0015655227471143007,
+      "learning_rate": 0.29811807009394514,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 1880384,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9547383309759547,
+      "grad_norm": 0.001486762659624219,
+      "learning_rate": 0.2981087571140723,
+      "loss": 0.3521,
+      "num_input_tokens_seen": 1885296,
+      "step": 2025
+    },
+    {
+      "epoch": 0.9570957095709571,
+      "grad_norm": 0.0010925979586318135,
+      "learning_rate": 0.2980994212939678,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 1889376,
+      "step": 2030
+    },
+    {
+      "epoch": 0.9594530881659594,
+      "grad_norm": 0.0010049444390460849,
+      "learning_rate": 0.2980900626350715,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 1894688,
+      "step": 2035
+    },
+    {
+      "epoch": 0.9618104667609618,
+      "grad_norm": 0.0009567509405314922,
+      "learning_rate": 0.29808068113882646,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 1899424,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9641678453559641,
+      "grad_norm": 0.0007257091929204762,
+      "learning_rate": 0.2980712768066795,
+      "loss": 0.337,
+      "num_input_tokens_seen": 1903760,
+      "step": 2045
+    },
+    {
+      "epoch": 0.9665252239509665,
+      "grad_norm": 0.00117787707131356,
+      "learning_rate": 0.2980618496400809,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 1908416,
+      "step": 2050
+    },
+    {
+      "epoch": 0.9688826025459689,
+      "grad_norm": 0.0006537000299431384,
+      "learning_rate": 0.2980523996404844,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 1912928,
+      "step": 2055
+    },
+    {
+      "epoch": 0.9712399811409712,
+      "grad_norm": 0.0018737325444817543,
+      "learning_rate": 0.2980429268093473,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 1917584,
+      "step": 2060
+    },
+    {
+      "epoch": 0.9735973597359736,
+      "grad_norm": 0.00229787384159863,
+      "learning_rate": 0.29803343114813047,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 1922576,
+      "step": 2065
+    },
+    {
+      "epoch": 0.9759547383309759,
+      "grad_norm": 0.0008368285489268601,
+      "learning_rate": 0.2980239126582983,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 1928112,
+      "step": 2070
+    },
+    {
+      "epoch": 0.9783121169259783,
+      "grad_norm": 0.002778928726911545,
+      "learning_rate": 0.2980143713413186,
+      "loss": 0.3521,
+      "num_input_tokens_seen": 1932576,
+      "step": 2075
+    },
+    {
+      "epoch": 0.9806694955209807,
+      "grad_norm": 0.0020575025118887424,
+      "learning_rate": 0.29800480719866274,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 1937408,
+      "step": 2080
+    },
+    {
+      "epoch": 0.983026874115983,
+      "grad_norm": 0.001624731463380158,
+      "learning_rate": 0.2979952202318057,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 1941328,
+      "step": 2085
+    },
+    {
+      "epoch": 0.9853842527109854,
+      "grad_norm": 0.0008205328485928476,
+      "learning_rate": 0.2979856104422259,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 1945744,
+      "step": 2090
+    },
+    {
+      "epoch": 0.9877416313059877,
+      "grad_norm": 0.0013462621718645096,
+      "learning_rate": 0.2979759778314052,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 1950240,
+      "step": 2095
+    },
+    {
+      "epoch": 0.9900990099009901,
+      "grad_norm": 0.0007502309745177627,
+      "learning_rate": 0.2979663224008292,
+      "loss": 0.3614,
+      "num_input_tokens_seen": 1954464,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9924563884959925,
+      "grad_norm": 0.0019022339256480336,
+      "learning_rate": 0.2979566441519868,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 1958608,
+      "step": 2105
+    },
+    {
+      "epoch": 0.9948137670909948,
+      "grad_norm": 0.0016173558542504907,
+      "learning_rate": 0.29794694308637054,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 1962480,
+      "step": 2110
+    },
+    {
+      "epoch": 0.9971711456859972,
+      "grad_norm": 0.0006383006693795323,
+      "learning_rate": 0.2979372192054764,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 1967264,
+      "step": 2115
+    },
+    {
+      "epoch": 0.9995285242809995,
+      "grad_norm": 0.0021106423810124397,
+      "learning_rate": 0.297927472510804,
+      "loss": 0.3133,
+      "num_input_tokens_seen": 1971952,
+      "step": 2120
+    },
+    {
+      "epoch": 1.0018859028760019,
+      "grad_norm": 0.0007191105396486819,
+      "learning_rate": 0.29791770300385634,
+      "loss": 0.3588,
+      "num_input_tokens_seen": 1976976,
+      "step": 2125
+    },
+    {
+      "epoch": 1.0042432814710043,
+      "grad_norm": 0.0021986826322972775,
+      "learning_rate": 0.29790791068614003,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 1981088,
+      "step": 2130
+    },
+    {
+      "epoch": 1.0066006600660067,
+      "grad_norm": 0.0011536123929545283,
+      "learning_rate": 0.2978980955591652,
+      "loss": 0.326,
+      "num_input_tokens_seen": 1986176,
+      "step": 2135
+    },
+    {
+      "epoch": 1.0089580386610089,
+      "grad_norm": 0.0007258948171511292,
+      "learning_rate": 0.2978882576244454,
+      "loss": 0.2708,
+      "num_input_tokens_seen": 1991616,
+      "step": 2140
+    },
+    {
+      "epoch": 1.0113154172560113,
+      "grad_norm": 0.0007261212449520826,
+      "learning_rate": 0.2978783968834978,
+      "loss": 0.325,
+      "num_input_tokens_seen": 1996736,
+      "step": 2145
+    },
+    {
+      "epoch": 1.0136727958510137,
+      "grad_norm": 0.002440448384732008,
+      "learning_rate": 0.29786851333784303,
+      "loss": 0.2841,
+      "num_input_tokens_seen": 2002656,
+      "step": 2150
+    },
+    {
+      "epoch": 1.016030174446016,
+      "grad_norm": 0.0030918738339096308,
+      "learning_rate": 0.2978586069890053,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 2007520,
+      "step": 2155
+    },
+    {
+      "epoch": 1.0183875530410185,
+      "grad_norm": 0.0008205387857742608,
+      "learning_rate": 0.29784867783851227,
+      "loss": 0.4547,
+      "num_input_tokens_seen": 2012320,
+      "step": 2160
+    },
+    {
+      "epoch": 1.0207449316360206,
+      "grad_norm": 0.0025311841163784266,
+      "learning_rate": 0.2978387258878951,
+      "loss": 0.3665,
+      "num_input_tokens_seen": 2017392,
+      "step": 2165
+    },
+    {
+      "epoch": 1.023102310231023,
+      "grad_norm": 0.0017228273209184408,
+      "learning_rate": 0.29782875113868856,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 2022576,
+      "step": 2170
+    },
+    {
+      "epoch": 1.0254596888260255,
+      "grad_norm": 0.0011019010562449694,
+      "learning_rate": 0.2978187535924309,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 2027168,
+      "step": 2175
+    },
+    {
+      "epoch": 1.0278170674210279,
+      "grad_norm": 0.0009552336996421218,
+      "learning_rate": 0.29780873325066376,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 2031424,
+      "step": 2180
+    },
+    {
+      "epoch": 1.0301744460160303,
+      "grad_norm": 0.004054049961268902,
+      "learning_rate": 0.2977986901149325,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 2034960,
+      "step": 2185
+    },
+    {
+      "epoch": 1.0325318246110324,
+      "grad_norm": 0.0007665170123800635,
+      "learning_rate": 0.29778862418678587,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 2039952,
+      "step": 2190
+    },
+    {
+      "epoch": 1.0348892032060348,
+      "grad_norm": 0.0010455090086907148,
+      "learning_rate": 0.29777853546777616,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 2043808,
+      "step": 2195
+    },
+    {
+      "epoch": 1.0372465818010372,
+      "grad_norm": 0.0010561344679445028,
+      "learning_rate": 0.2977684239594592,
+      "loss": 0.359,
+      "num_input_tokens_seen": 2047984,
+      "step": 2200
+    },
+    {
+      "epoch": 1.0372465818010372,
+      "eval_loss": 0.32951706647872925,
+      "eval_runtime": 33.5194,
+      "eval_samples_per_second": 28.133,
+      "eval_steps_per_second": 14.081,
+      "num_input_tokens_seen": 2047984,
+      "step": 2200
+    },
+    {
+      "epoch": 1.0396039603960396,
+      "grad_norm": 0.0006877172272652388,
+      "learning_rate": 0.29775828966339424,
+      "loss": 0.3737,
+      "num_input_tokens_seen": 2052032,
+      "step": 2205
+    },
+    {
+      "epoch": 1.041961338991042,
+      "grad_norm": 0.001753293676301837,
+      "learning_rate": 0.29774813258114424,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 2056576,
+      "step": 2210
+    },
+    {
+      "epoch": 1.0443187175860442,
+      "grad_norm": 0.0015628259861841798,
+      "learning_rate": 0.29773795271427544,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 2060912,
+      "step": 2215
+    },
+    {
+      "epoch": 1.0466760961810466,
+      "grad_norm": 0.00044920790242031217,
+      "learning_rate": 0.2977277500643577,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 2065568,
+      "step": 2220
+    },
+    {
+      "epoch": 1.049033474776049,
+      "grad_norm": 0.0010443887440487742,
+      "learning_rate": 0.29771752463296447,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 2070288,
+      "step": 2225
+    },
+    {
+      "epoch": 1.0513908533710514,
+      "grad_norm": 0.0009870881913229823,
+      "learning_rate": 0.29770727642167266,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 2074112,
+      "step": 2230
+    },
+    {
+      "epoch": 1.0537482319660538,
+      "grad_norm": 0.000902745348867029,
+      "learning_rate": 0.29769700543206257,
+      "loss": 0.3074,
+      "num_input_tokens_seen": 2078592,
+      "step": 2235
+    },
+    {
+      "epoch": 1.056105610561056,
+      "grad_norm": 0.0006773360073566437,
+      "learning_rate": 0.2976867116657182,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 2083568,
+      "step": 2240
+    },
+    {
+      "epoch": 1.0584629891560584,
+      "grad_norm": 0.0005790849681943655,
+      "learning_rate": 0.2976763951242269,
+      "loss": 0.2956,
+      "num_input_tokens_seen": 2088288,
+      "step": 2245
+    },
+    {
+      "epoch": 1.0608203677510608,
+      "grad_norm": 0.0023698245640844107,
+      "learning_rate": 0.29766605580917965,
+      "loss": 0.2846,
+      "num_input_tokens_seen": 2093360,
+      "step": 2250
+    },
+    {
+      "epoch": 1.0631777463460632,
+      "grad_norm": 0.0012898629065603018,
+      "learning_rate": 0.29765569372217093,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 2097680,
+      "step": 2255
+    },
+    {
+      "epoch": 1.0655351249410656,
+      "grad_norm": 0.0013451799750328064,
+      "learning_rate": 0.2976453088647987,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 2101968,
+      "step": 2260
+    },
+    {
+      "epoch": 1.0678925035360678,
+      "grad_norm": 0.00048540992429479957,
+      "learning_rate": 0.2976349012386644,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 2106400,
+      "step": 2265
+    },
+    {
+      "epoch": 1.0702498821310702,
+      "grad_norm": 0.00043426573392935097,
+      "learning_rate": 0.29762447084537297,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 2110288,
+      "step": 2270
+    },
+    {
+      "epoch": 1.0726072607260726,
+      "grad_norm": 0.0004103451210539788,
+      "learning_rate": 0.29761401768653306,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 2115536,
+      "step": 2275
+    },
+    {
+      "epoch": 1.074964639321075,
+      "grad_norm": 0.0008374769822694361,
+      "learning_rate": 0.29760354176375653,
+      "loss": 0.3812,
+      "num_input_tokens_seen": 2119296,
+      "step": 2280
+    },
+    {
+      "epoch": 1.0773220179160774,
+      "grad_norm": 0.0015903353923931718,
+      "learning_rate": 0.29759304307865897,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 2123616,
+      "step": 2285
+    },
+    {
+      "epoch": 1.0796793965110796,
+      "grad_norm": 0.000669107015710324,
+      "learning_rate": 0.2975825216328594,
+      "loss": 0.351,
+      "num_input_tokens_seen": 2128592,
+      "step": 2290
+    },
+    {
+      "epoch": 1.082036775106082,
+      "grad_norm": 0.0006005504983477294,
+      "learning_rate": 0.2975719774279804,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 2132992,
+      "step": 2295
+    },
+    {
+      "epoch": 1.0843941537010844,
+      "grad_norm": 0.000766666722483933,
+      "learning_rate": 0.29756141046564794,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 2137200,
+      "step": 2300
+    },
+    {
+      "epoch": 1.0867515322960868,
+      "grad_norm": 0.0006626266986131668,
+      "learning_rate": 0.2975508207474916,
+      "loss": 0.3507,
+      "num_input_tokens_seen": 2142368,
+      "step": 2305
+    },
+    {
+      "epoch": 1.0891089108910892,
+      "grad_norm": 0.0006525155040435493,
+      "learning_rate": 0.2975402082751445,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 2146816,
+      "step": 2310
+    },
+    {
+      "epoch": 1.0914662894860914,
+      "grad_norm": 0.0015301514649763703,
+      "learning_rate": 0.29752957305024313,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 2150880,
+      "step": 2315
+    },
+    {
+      "epoch": 1.0938236680810938,
+      "grad_norm": 0.001774410018697381,
+      "learning_rate": 0.2975189150744277,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 2154752,
+      "step": 2320
+    },
+    {
+      "epoch": 1.0961810466760962,
+      "grad_norm": 0.0006802518619224429,
+      "learning_rate": 0.29750823434934165,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 2159024,
+      "step": 2325
+    },
+    {
+      "epoch": 1.0985384252710986,
+      "grad_norm": 0.0007993755862116814,
+      "learning_rate": 0.29749753087663217,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 2164256,
+      "step": 2330
+    },
+    {
+      "epoch": 1.100895803866101,
+      "grad_norm": 0.001749227405525744,
+      "learning_rate": 0.29748680465794985,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 2168512,
+      "step": 2335
+    },
+    {
+      "epoch": 1.1032531824611032,
+      "grad_norm": 0.0006220301729626954,
+      "learning_rate": 0.29747605569494884,
+      "loss": 0.348,
+      "num_input_tokens_seen": 2172768,
+      "step": 2340
+    },
+    {
+      "epoch": 1.1056105610561056,
+      "grad_norm": 0.0018171350238844752,
+      "learning_rate": 0.29746528398928673,
+      "loss": 0.3664,
+      "num_input_tokens_seen": 2178192,
+      "step": 2345
+    },
+    {
+      "epoch": 1.107967939651108,
+      "grad_norm": 0.0009168416145257652,
+      "learning_rate": 0.2974544895426247,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 2181984,
+      "step": 2350
+    },
+    {
+      "epoch": 1.1103253182461104,
+      "grad_norm": 0.0016276742098852992,
+      "learning_rate": 0.29744367235662733,
+      "loss": 0.3485,
+      "num_input_tokens_seen": 2186304,
+      "step": 2355
+    },
+    {
+      "epoch": 1.1126826968411128,
+      "grad_norm": 0.0015435211826115847,
+      "learning_rate": 0.29743283243296276,
+      "loss": 0.3621,
+      "num_input_tokens_seen": 2192800,
+      "step": 2360
+    },
+    {
+      "epoch": 1.115040075436115,
+      "grad_norm": 0.0004430967092048377,
+      "learning_rate": 0.29742196977330276,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 2197328,
+      "step": 2365
+    },
+    {
+      "epoch": 1.1173974540311173,
+      "grad_norm": 0.0014657573774456978,
+      "learning_rate": 0.2974110843793223,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 2203216,
+      "step": 2370
+    },
+    {
+      "epoch": 1.1197548326261197,
+      "grad_norm": 0.0025989303831011057,
+      "learning_rate": 0.2974001762527002,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 2207856,
+      "step": 2375
+    },
+    {
+      "epoch": 1.1221122112211221,
+      "grad_norm": 0.0010499993804842234,
+      "learning_rate": 0.2973892453951186,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 2212032,
+      "step": 2380
+    },
+    {
+      "epoch": 1.1244695898161245,
+      "grad_norm": 0.000998336123302579,
+      "learning_rate": 0.2973782918082631,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 2216768,
+      "step": 2385
+    },
+    {
+      "epoch": 1.1268269684111267,
+      "grad_norm": 0.0018395492807030678,
+      "learning_rate": 0.29736731549382295,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 2221440,
+      "step": 2390
+    },
+    {
+      "epoch": 1.1291843470061291,
+      "grad_norm": 0.0017990338383242488,
+      "learning_rate": 0.2973563164534908,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 2225520,
+      "step": 2395
+    },
+    {
+      "epoch": 1.1315417256011315,
+      "grad_norm": 0.0005769074195995927,
+      "learning_rate": 0.29734529468896287,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 2230960,
+      "step": 2400
+    },
+    {
+      "epoch": 1.1315417256011315,
+      "eval_loss": 0.32823577523231506,
+      "eval_runtime": 33.5562,
+      "eval_samples_per_second": 28.102,
+      "eval_steps_per_second": 14.066,
+      "num_input_tokens_seen": 2230960,
+      "step": 2400
+    },
+    {
+      "epoch": 1.133899104196134,
+      "grad_norm": 0.0012728921137750149,
+      "learning_rate": 0.2973342502019388,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 2235312,
+      "step": 2405
+    },
+    {
+      "epoch": 1.1362564827911363,
+      "grad_norm": 0.0005304578226059675,
+      "learning_rate": 0.2973231829941219,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 2239808,
+      "step": 2410
+    },
+    {
+      "epoch": 1.1386138613861387,
+      "grad_norm": 0.001087941462174058,
+      "learning_rate": 0.2973120930672188,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 2243984,
+      "step": 2415
+    },
+    {
+      "epoch": 1.140971239981141,
+      "grad_norm": 0.0006159497424960136,
+      "learning_rate": 0.2973009804229397,
+      "loss": 0.3158,
+      "num_input_tokens_seen": 2248784,
+      "step": 2420
+    },
+    {
+      "epoch": 1.1433286185761433,
+      "grad_norm": 0.0006316857761703432,
+      "learning_rate": 0.29728984506299827,
+      "loss": 0.3829,
+      "num_input_tokens_seen": 2253376,
+      "step": 2425
+    },
+    {
+      "epoch": 1.1456859971711457,
+      "grad_norm": 0.0008123802836053073,
+      "learning_rate": 0.2972786869891118,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 2257728,
+      "step": 2430
+    },
+    {
+      "epoch": 1.1480433757661481,
+      "grad_norm": 0.0008435999043285847,
+      "learning_rate": 0.29726750620300096,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 2262816,
+      "step": 2435
+    },
+    {
+      "epoch": 1.1504007543611503,
+      "grad_norm": 0.0006142446072772145,
+      "learning_rate": 0.29725630270639003,
+      "loss": 0.347,
+      "num_input_tokens_seen": 2268464,
+      "step": 2440
+    },
+    {
+      "epoch": 1.1527581329561527,
+      "grad_norm": 0.0007917231996543705,
+      "learning_rate": 0.2972450765010067,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 2273584,
+      "step": 2445
+    },
+    {
+      "epoch": 1.155115511551155,
+      "grad_norm": 0.0007709518540650606,
+      "learning_rate": 0.29723382758858213,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 2278224,
+      "step": 2450
+    },
+    {
+      "epoch": 1.1574728901461575,
+      "grad_norm": 0.0017432105960324407,
+      "learning_rate": 0.29722255597085107,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 2284000,
+      "step": 2455
+    },
+    {
+      "epoch": 1.15983026874116,
+      "grad_norm": 0.001656810869462788,
+      "learning_rate": 0.2972112616495518,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 2288672,
+      "step": 2460
+    },
+    {
+      "epoch": 1.1621876473361623,
+      "grad_norm": 0.001046420424245298,
+      "learning_rate": 0.297199944626426,
+      "loss": 0.35,
+      "num_input_tokens_seen": 2294320,
+      "step": 2465
+    },
+    {
+      "epoch": 1.1645450259311645,
+      "grad_norm": 0.00172089459374547,
+      "learning_rate": 0.2971886049032189,
+      "loss": 0.32,
+      "num_input_tokens_seen": 2298496,
+      "step": 2470
+    },
+    {
+      "epoch": 1.166902404526167,
+      "grad_norm": 0.0006552261183969676,
+      "learning_rate": 0.29717724248167926,
+      "loss": 0.3048,
+      "num_input_tokens_seen": 2302928,
+      "step": 2475
+    },
+    {
+      "epoch": 1.1692597831211693,
+      "grad_norm": 0.0009712156024761498,
+      "learning_rate": 0.29716585736355927,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 2306992,
+      "step": 2480
+    },
+    {
+      "epoch": 1.1716171617161717,
+      "grad_norm": 0.0016511543653905392,
+      "learning_rate": 0.2971544495506147,
+      "loss": 0.2309,
+      "num_input_tokens_seen": 2311824,
+      "step": 2485
+    },
+    {
+      "epoch": 1.1739745403111739,
+      "grad_norm": 0.0021943063475191593,
+      "learning_rate": 0.2971430190446048,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 2316576,
+      "step": 2490
+    },
+    {
+      "epoch": 1.1763319189061763,
+      "grad_norm": 0.00375533290207386,
+      "learning_rate": 0.2971315658472921,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 2321744,
+      "step": 2495
+    },
+    {
+      "epoch": 1.1786892975011787,
+      "grad_norm": 0.0022396836429834366,
+      "learning_rate": 0.2971200899604431,
+      "loss": 0.3863,
+      "num_input_tokens_seen": 2325824,
+      "step": 2500
+    },
+    {
+      "epoch": 1.181046676096181,
+      "grad_norm": 0.0013370807282626629,
+      "learning_rate": 0.29710859138582735,
+      "loss": 0.3829,
+      "num_input_tokens_seen": 2331664,
+      "step": 2505
+    },
+    {
+      "epoch": 1.1834040546911835,
+      "grad_norm": 0.0008657741127535701,
+      "learning_rate": 0.29709707012521813,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 2336512,
+      "step": 2510
+    },
+    {
+      "epoch": 1.1857614332861859,
+      "grad_norm": 0.0030586575157940388,
+      "learning_rate": 0.29708552618039213,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 2341376,
+      "step": 2515
+    },
+    {
+      "epoch": 1.188118811881188,
+      "grad_norm": 0.002112599555402994,
+      "learning_rate": 0.2970739595531296,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 2345952,
+      "step": 2520
+    },
+    {
+      "epoch": 1.1904761904761905,
+      "grad_norm": 0.0006559910834766924,
+      "learning_rate": 0.2970623702452143,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 2350848,
+      "step": 2525
+    },
+    {
+      "epoch": 1.1928335690711929,
+      "grad_norm": 0.0009347882587462664,
+      "learning_rate": 0.2970507582584334,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 2355360,
+      "step": 2530
+    },
+    {
+      "epoch": 1.1951909476661953,
+      "grad_norm": 0.0023864235263317823,
+      "learning_rate": 0.2970391235945776,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 2359824,
+      "step": 2535
+    },
+    {
+      "epoch": 1.1975483262611974,
+      "grad_norm": 0.0006326520233415067,
+      "learning_rate": 0.2970274662554412,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 2363728,
+      "step": 2540
+    },
+    {
+      "epoch": 1.1999057048561999,
+      "grad_norm": 0.0011299208272248507,
+      "learning_rate": 0.2970157862428218,
+      "loss": 0.3347,
+      "num_input_tokens_seen": 2368480,
+      "step": 2545
+    },
+    {
+      "epoch": 1.2022630834512023,
+      "grad_norm": 0.0009819787228479981,
+      "learning_rate": 0.2970040835585206,
+      "loss": 0.3111,
+      "num_input_tokens_seen": 2373008,
+      "step": 2550
+    },
+    {
+      "epoch": 1.2046204620462047,
+      "grad_norm": 0.0006815157830715179,
+      "learning_rate": 0.2969923582043424,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 2376912,
+      "step": 2555
+    },
+    {
+      "epoch": 1.206977840641207,
+      "grad_norm": 0.0017789463745430112,
+      "learning_rate": 0.2969806101820953,
+      "loss": 0.2793,
+      "num_input_tokens_seen": 2381120,
+      "step": 2560
+    },
+    {
+      "epoch": 1.2093352192362095,
+      "grad_norm": 0.002076560165733099,
+      "learning_rate": 0.2969688394935911,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 2385536,
+      "step": 2565
+    },
+    {
+      "epoch": 1.2116925978312116,
+      "grad_norm": 0.0014034000923857093,
+      "learning_rate": 0.2969570461406449,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 2389984,
+      "step": 2570
+    },
+    {
+      "epoch": 1.214049976426214,
+      "grad_norm": 0.0009676700574345887,
+      "learning_rate": 0.29694523012507534,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 2394304,
+      "step": 2575
+    },
+    {
+      "epoch": 1.2164073550212164,
+      "grad_norm": 0.0007118795765563846,
+      "learning_rate": 0.2969333914487048,
+      "loss": 0.32,
+      "num_input_tokens_seen": 2398880,
+      "step": 2580
+    },
+    {
+      "epoch": 1.2187647336162188,
+      "grad_norm": 0.0008247637306340039,
+      "learning_rate": 0.2969215301133587,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 2403472,
+      "step": 2585
+    },
+    {
+      "epoch": 1.221122112211221,
+      "grad_norm": 0.0007056360482238233,
+      "learning_rate": 0.29690964612086634,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 2408336,
+      "step": 2590
+    },
+    {
+      "epoch": 1.2234794908062234,
+      "grad_norm": 0.0008611454395577312,
+      "learning_rate": 0.2968977394730604,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 2412768,
+      "step": 2595
+    },
+    {
+      "epoch": 1.2258368694012258,
+      "grad_norm": 0.000725161749869585,
+      "learning_rate": 0.296885810171777,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 2417664,
+      "step": 2600
+    },
+    {
+      "epoch": 1.2258368694012258,
+      "eval_loss": 0.3286598026752472,
+      "eval_runtime": 33.5839,
+      "eval_samples_per_second": 28.079,
+      "eval_steps_per_second": 14.054,
+      "num_input_tokens_seen": 2417664,
+      "step": 2600
+    },
+    {
+      "epoch": 1.2281942479962282,
+      "grad_norm": 0.0007530698785558343,
+      "learning_rate": 0.2968738582188558,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 2422240,
+      "step": 2605
+    },
+    {
+      "epoch": 1.2305516265912306,
+      "grad_norm": 0.0005812308518216014,
+      "learning_rate": 0.2968618836161399,
+      "loss": 0.3135,
+      "num_input_tokens_seen": 2426416,
+      "step": 2610
+    },
+    {
+      "epoch": 1.232909005186233,
+      "grad_norm": 0.0009182698559015989,
+      "learning_rate": 0.296849886365476,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 2430512,
+      "step": 2615
+    },
+    {
+      "epoch": 1.2352663837812352,
+      "grad_norm": 0.0008824971737340093,
+      "learning_rate": 0.2968378664687142,
+      "loss": 0.4014,
+      "num_input_tokens_seen": 2434800,
+      "step": 2620
+    },
+    {
+      "epoch": 1.2376237623762376,
+      "grad_norm": 0.0006806799792684615,
+      "learning_rate": 0.296825823927708,
+      "loss": 0.296,
+      "num_input_tokens_seen": 2439488,
+      "step": 2625
+    },
+    {
+      "epoch": 1.23998114097124,
+      "grad_norm": 0.0008419912192039192,
+      "learning_rate": 0.29681375874431476,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 2443536,
+      "step": 2630
+    },
+    {
+      "epoch": 1.2423385195662424,
+      "grad_norm": 0.0007952768355607986,
+      "learning_rate": 0.29680167092039483,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 2448064,
+      "step": 2635
+    },
+    {
+      "epoch": 1.2446958981612446,
+      "grad_norm": 0.0016461617778986692,
+      "learning_rate": 0.2967895604578125,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 2453088,
+      "step": 2640
+    },
+    {
+      "epoch": 1.247053276756247,
+      "grad_norm": 0.0006592822028324008,
+      "learning_rate": 0.2967774273584352,
+      "loss": 0.3713,
+      "num_input_tokens_seen": 2457424,
+      "step": 2645
+    },
+    {
+      "epoch": 1.2494106553512494,
+      "grad_norm": 0.0030235773883759975,
+      "learning_rate": 0.2967652716241342,
+      "loss": 0.3991,
+      "num_input_tokens_seen": 2462960,
+      "step": 2650
+    },
+    {
+      "epoch": 1.2517680339462518,
+      "grad_norm": 0.0004634458164218813,
+      "learning_rate": 0.29675309325678384,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 2467936,
+      "step": 2655
+    },
+    {
+      "epoch": 1.2541254125412542,
+      "grad_norm": 0.002272189361974597,
+      "learning_rate": 0.29674089225826233,
+      "loss": 0.3595,
+      "num_input_tokens_seen": 2472016,
+      "step": 2660
+    },
+    {
+      "epoch": 1.2564827911362566,
+      "grad_norm": 0.00048219802556559443,
+      "learning_rate": 0.29672866863045116,
+      "loss": 0.3541,
+      "num_input_tokens_seen": 2476480,
+      "step": 2665
+    },
+    {
+      "epoch": 1.2588401697312588,
+      "grad_norm": 0.0012058886932209134,
+      "learning_rate": 0.2967164223752354,
+      "loss": 0.349,
+      "num_input_tokens_seen": 2480912,
+      "step": 2670
+    },
+    {
+      "epoch": 1.2611975483262612,
+      "grad_norm": 0.002453332766890526,
+      "learning_rate": 0.2967041534945035,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 2485632,
+      "step": 2675
+    },
+    {
+      "epoch": 1.2635549269212636,
+      "grad_norm": 0.0007254735101014376,
+      "learning_rate": 0.2966918619901476,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 2490176,
+      "step": 2680
+    },
+    {
+      "epoch": 1.265912305516266,
+      "grad_norm": 0.0007013574941083789,
+      "learning_rate": 0.2966795478640631,
+      "loss": 0.3002,
+      "num_input_tokens_seen": 2495040,
+      "step": 2685
+    },
+    {
+      "epoch": 1.2682696841112682,
+      "grad_norm": 0.0029987571761012077,
+      "learning_rate": 0.29666721111814903,
+      "loss": 0.4059,
+      "num_input_tokens_seen": 2498832,
+      "step": 2690
+    },
+    {
+      "epoch": 1.2706270627062706,
+      "grad_norm": 0.001861733035184443,
+      "learning_rate": 0.2966548517543079,
+      "loss": 0.361,
+      "num_input_tokens_seen": 2503088,
+      "step": 2695
+    },
+    {
+      "epoch": 1.272984441301273,
+      "grad_norm": 0.0019459181930869818,
+      "learning_rate": 0.29664246977444564,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 2507536,
+      "step": 2700
+    },
+    {
+      "epoch": 1.2753418198962754,
+      "grad_norm": 0.0014814585447311401,
+      "learning_rate": 0.2966300651804717,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 2511824,
+      "step": 2705
+    },
+    {
+      "epoch": 1.2776991984912778,
+      "grad_norm": 0.0018692661542445421,
+      "learning_rate": 0.296617637974299,
+      "loss": 0.322,
+      "num_input_tokens_seen": 2516176,
+      "step": 2710
+    },
+    {
+      "epoch": 1.2800565770862802,
+      "grad_norm": 0.0006880394066683948,
+      "learning_rate": 0.2966051881578441,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 2520576,
+      "step": 2715
+    },
+    {
+      "epoch": 1.2824139556812824,
+      "grad_norm": 0.0016579537186771631,
+      "learning_rate": 0.29659271573302676,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 2525248,
+      "step": 2720
+    },
+    {
+      "epoch": 1.2847713342762848,
+      "grad_norm": 0.001591829233802855,
+      "learning_rate": 0.2965802207017705,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 2529840,
+      "step": 2725
+    },
+    {
+      "epoch": 1.2871287128712872,
+      "grad_norm": 0.0017426186241209507,
+      "learning_rate": 0.2965677030660021,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 2533968,
+      "step": 2730
+    },
+    {
+      "epoch": 1.2894860914662896,
+      "grad_norm": 0.0009566521039232612,
+      "learning_rate": 0.2965551628276521,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 2539120,
+      "step": 2735
+    },
+    {
+      "epoch": 1.2918434700612917,
+      "grad_norm": 0.001115460298024118,
+      "learning_rate": 0.29654259998865423,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 2543696,
+      "step": 2740
+    },
+    {
+      "epoch": 1.2942008486562941,
+      "grad_norm": 0.0008402324165217578,
+      "learning_rate": 0.2965300145509458,
+      "loss": 0.3868,
+      "num_input_tokens_seen": 2548464,
+      "step": 2745
+    },
+    {
+      "epoch": 1.2965582272512965,
+      "grad_norm": 0.0008014168124645948,
+      "learning_rate": 0.2965174065164678,
+      "loss": 0.2808,
+      "num_input_tokens_seen": 2553184,
+      "step": 2750
+    },
+    {
+      "epoch": 1.298915605846299,
+      "grad_norm": 0.0009684404358267784,
+      "learning_rate": 0.2965047758871644,
+      "loss": 0.3664,
+      "num_input_tokens_seen": 2558352,
+      "step": 2755
+    },
+    {
+      "epoch": 1.3012729844413014,
+      "grad_norm": 0.0004355540149845183,
+      "learning_rate": 0.2964921226649835,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 2562688,
+      "step": 2760
+    },
+    {
+      "epoch": 1.3036303630363038,
+      "grad_norm": 0.001103103393688798,
+      "learning_rate": 0.2964794468518763,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 2567872,
+      "step": 2765
+    },
+    {
+      "epoch": 1.305987741631306,
+      "grad_norm": 0.001010249019600451,
+      "learning_rate": 0.2964667484497977,
+      "loss": 0.342,
+      "num_input_tokens_seen": 2572448,
+      "step": 2770
+    },
+    {
+      "epoch": 1.3083451202263083,
+      "grad_norm": 0.0008366577094420791,
+      "learning_rate": 0.29645402746070587,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 2577536,
+      "step": 2775
+    },
+    {
+      "epoch": 1.3107024988213107,
+      "grad_norm": 0.0006056443089619279,
+      "learning_rate": 0.2964412838865625,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 2582208,
+      "step": 2780
+    },
+    {
+      "epoch": 1.3130598774163131,
+      "grad_norm": 0.0017288235248997808,
+      "learning_rate": 0.29642851772933293,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 2587424,
+      "step": 2785
+    },
+    {
+      "epoch": 1.3154172560113153,
+      "grad_norm": 0.0018244585953652859,
+      "learning_rate": 0.29641572899098567,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 2591584,
+      "step": 2790
+    },
+    {
+      "epoch": 1.3177746346063177,
+      "grad_norm": 0.0006078686565160751,
+      "learning_rate": 0.29640291767349314,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 2595616,
+      "step": 2795
+    },
+    {
+      "epoch": 1.3201320132013201,
+      "grad_norm": 0.0016401041066274047,
+      "learning_rate": 0.2963900837788308,
+      "loss": 0.3535,
+      "num_input_tokens_seen": 2600368,
+      "step": 2800
+    },
+    {
+      "epoch": 1.3201320132013201,
+      "eval_loss": 0.32707250118255615,
+      "eval_runtime": 33.5934,
+      "eval_samples_per_second": 28.071,
+      "eval_steps_per_second": 14.05,
+      "num_input_tokens_seen": 2600368,
+      "step": 2800
+    },
+    {
+      "epoch": 1.3224893917963225,
+      "grad_norm": 0.0015301528619602323,
+      "learning_rate": 0.2963772273089779,
+      "loss": 0.3415,
+      "num_input_tokens_seen": 2605024,
+      "step": 2805
+    },
+    {
+      "epoch": 1.324846770391325,
+      "grad_norm": 0.0015173725550994277,
+      "learning_rate": 0.2963643482659171,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 2609456,
+      "step": 2810
+    },
+    {
+      "epoch": 1.3272041489863273,
+      "grad_norm": 0.0006098422454670072,
+      "learning_rate": 0.2963514466516345,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 2613472,
+      "step": 2815
+    },
+    {
+      "epoch": 1.3295615275813295,
+      "grad_norm": 0.0006688358844257891,
+      "learning_rate": 0.2963385224681196,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 2618416,
+      "step": 2820
+    },
+    {
+      "epoch": 1.331918906176332,
+      "grad_norm": 0.0006583965150639415,
+      "learning_rate": 0.29632557571736556,
+      "loss": 0.308,
+      "num_input_tokens_seen": 2624544,
+      "step": 2825
+    },
+    {
+      "epoch": 1.3342762847713343,
+      "grad_norm": 0.0016872218111529946,
+      "learning_rate": 0.2963126064013689,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 2629856,
+      "step": 2830
+    },
+    {
+      "epoch": 1.3366336633663367,
+      "grad_norm": 0.0015328176086768508,
+      "learning_rate": 0.29629961452212966,
+      "loss": 0.3512,
+      "num_input_tokens_seen": 2633984,
+      "step": 2835
+    },
+    {
+      "epoch": 1.338991041961339,
+      "grad_norm": 0.000665924628265202,
+      "learning_rate": 0.2962866000816513,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 2638416,
+      "step": 2840
+    },
+    {
+      "epoch": 1.3413484205563413,
+      "grad_norm": 0.0006680990336462855,
+      "learning_rate": 0.2962735630819409,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 2643008,
+      "step": 2845
+    },
+    {
+      "epoch": 1.3437057991513437,
+      "grad_norm": 0.0007377355359494686,
+      "learning_rate": 0.2962605035250089,
+      "loss": 0.315,
+      "num_input_tokens_seen": 2648576,
+      "step": 2850
+    },
+    {
+      "epoch": 1.346063177746346,
+      "grad_norm": 0.0016608177684247494,
+      "learning_rate": 0.29624742141286914,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 2653296,
+      "step": 2855
+    },
+    {
+      "epoch": 1.3484205563413485,
+      "grad_norm": 0.001706043491140008,
+      "learning_rate": 0.29623431674753925,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 2657312,
+      "step": 2860
+    },
+    {
+      "epoch": 1.350777934936351,
+      "grad_norm": 0.0009816334350034595,
+      "learning_rate": 0.29622118953103993,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 2661600,
+      "step": 2865
+    },
+    {
+      "epoch": 1.353135313531353,
+      "grad_norm": 0.0007710206555202603,
+      "learning_rate": 0.2962080397653957,
+      "loss": 0.3627,
+      "num_input_tokens_seen": 2666496,
+      "step": 2870
+    },
+    {
+      "epoch": 1.3554926921263555,
+      "grad_norm": 0.0018190654227510095,
+      "learning_rate": 0.29619486745263435,
+      "loss": 0.3803,
+      "num_input_tokens_seen": 2671072,
+      "step": 2875
+    },
+    {
+      "epoch": 1.3578500707213579,
+      "grad_norm": 0.001544359838590026,
+      "learning_rate": 0.2961816725947873,
+      "loss": 0.3135,
+      "num_input_tokens_seen": 2675056,
+      "step": 2880
+    },
+    {
+      "epoch": 1.3602074493163603,
+      "grad_norm": 0.0009295602794736624,
+      "learning_rate": 0.29616845519388924,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 2680928,
+      "step": 2885
+    },
+    {
+      "epoch": 1.3625648279113625,
+      "grad_norm": 0.0027356469072401524,
+      "learning_rate": 0.2961552152519785,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 2686144,
+      "step": 2890
+    },
+    {
+      "epoch": 1.3649222065063649,
+      "grad_norm": 0.0016309719067066908,
+      "learning_rate": 0.29614195277109695,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 2690416,
+      "step": 2895
+    },
+    {
+      "epoch": 1.3672795851013673,
+      "grad_norm": 0.0003964797069784254,
+      "learning_rate": 0.2961286677532897,
+      "loss": 0.343,
+      "num_input_tokens_seen": 2695168,
+      "step": 2900
+    },
+    {
+      "epoch": 1.3696369636963697,
+      "grad_norm": 0.0015151449479162693,
+      "learning_rate": 0.2961153602006055,
+      "loss": 0.3309,
+      "num_input_tokens_seen": 2700208,
+      "step": 2905
+    },
+    {
+      "epoch": 1.371994342291372,
+      "grad_norm": 0.002427006373181939,
+      "learning_rate": 0.29610203011509656,
+      "loss": 0.366,
+      "num_input_tokens_seen": 2704880,
+      "step": 2910
+    },
+    {
+      "epoch": 1.3743517208863745,
+      "grad_norm": 0.0020559870172291994,
+      "learning_rate": 0.29608867749881856,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 2710336,
+      "step": 2915
+    },
+    {
+      "epoch": 1.3767090994813767,
+      "grad_norm": 0.0014848436694592237,
+      "learning_rate": 0.29607530235383067,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 2714784,
+      "step": 2920
+    },
+    {
+      "epoch": 1.379066478076379,
+      "grad_norm": 0.0016749046044424176,
+      "learning_rate": 0.2960619046821954,
+      "loss": 0.3366,
+      "num_input_tokens_seen": 2719200,
+      "step": 2925
+    },
+    {
+      "epoch": 1.3814238566713815,
+      "grad_norm": 0.0006387961911968887,
+      "learning_rate": 0.2960484844859789,
+      "loss": 0.3004,
+      "num_input_tokens_seen": 2724064,
+      "step": 2930
+    },
+    {
+      "epoch": 1.3837812352663839,
+      "grad_norm": 0.000857545412145555,
+      "learning_rate": 0.29603504176725076,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 2728400,
+      "step": 2935
+    },
+    {
+      "epoch": 1.386138613861386,
+      "grad_norm": 0.0017816225299611688,
+      "learning_rate": 0.296021576528084,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 2732528,
+      "step": 2940
+    },
+    {
+      "epoch": 1.3884959924563884,
+      "grad_norm": 0.0013307230547070503,
+      "learning_rate": 0.29600808877055507,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 2736928,
+      "step": 2945
+    },
+    {
+      "epoch": 1.3908533710513908,
+      "grad_norm": 0.0013708891347050667,
+      "learning_rate": 0.29599457849674404,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 2741344,
+      "step": 2950
+    },
+    {
+      "epoch": 1.3932107496463932,
+      "grad_norm": 0.0006624708184972405,
+      "learning_rate": 0.2959810457087343,
+      "loss": 0.3984,
+      "num_input_tokens_seen": 2745808,
+      "step": 2955
+    },
+    {
+      "epoch": 1.3955681282413956,
+      "grad_norm": 0.00043372472282499075,
+      "learning_rate": 0.2959674904086128,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 2750144,
+      "step": 2960
+    },
+    {
+      "epoch": 1.397925506836398,
+      "grad_norm": 0.0015693744644522667,
+      "learning_rate": 0.2959539125984699,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 2755568,
+      "step": 2965
+    },
+    {
+      "epoch": 1.4002828854314002,
+      "grad_norm": 0.001430126023478806,
+      "learning_rate": 0.2959403122803996,
+      "loss": 0.3191,
+      "num_input_tokens_seen": 2760224,
+      "step": 2970
+    },
+    {
+      "epoch": 1.4026402640264026,
+      "grad_norm": 0.0006651032017543912,
+      "learning_rate": 0.2959266894564991,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 2764544,
+      "step": 2975
+    },
+    {
+      "epoch": 1.404997642621405,
+      "grad_norm": 0.00043966053635813296,
+      "learning_rate": 0.2959130441288692,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 2768448,
+      "step": 2980
+    },
+    {
+      "epoch": 1.4073550212164074,
+      "grad_norm": 0.0005655871937051415,
+      "learning_rate": 0.2958993762996143,
+      "loss": 0.2719,
+      "num_input_tokens_seen": 2772608,
+      "step": 2985
+    },
+    {
+      "epoch": 1.4097123998114096,
+      "grad_norm": 0.0013141595991328359,
+      "learning_rate": 0.2958856859708421,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 2777840,
+      "step": 2990
+    },
+    {
+      "epoch": 1.412069778406412,
+      "grad_norm": 0.001272458117455244,
+      "learning_rate": 0.2958719731446638,
+      "loss": 0.2838,
+      "num_input_tokens_seen": 2782064,
+      "step": 2995
+    },
+    {
+      "epoch": 1.4144271570014144,
+      "grad_norm": 0.001005903584882617,
+      "learning_rate": 0.29585823782319404,
+      "loss": 0.2831,
+      "num_input_tokens_seen": 2786848,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4144271570014144,
+      "eval_loss": 0.3373872935771942,
+      "eval_runtime": 33.5138,
+      "eval_samples_per_second": 28.138,
+      "eval_steps_per_second": 14.084,
+      "num_input_tokens_seen": 2786848,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4167845355964168,
+      "grad_norm": 0.0011598067358136177,
+      "learning_rate": 0.2958444800085511,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 2790672,
+      "step": 3005
+    },
+    {
+      "epoch": 1.4191419141914192,
+      "grad_norm": 0.0011478910455480218,
+      "learning_rate": 0.2958306997028565,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 2794960,
+      "step": 3010
+    },
+    {
+      "epoch": 1.4214992927864216,
+      "grad_norm": 0.00033013345091603696,
+      "learning_rate": 0.2958168969082354,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 2799264,
+      "step": 3015
+    },
+    {
+      "epoch": 1.4238566713814238,
+      "grad_norm": 0.0008794648456387222,
+      "learning_rate": 0.2958030716268164,
+      "loss": 0.3666,
+      "num_input_tokens_seen": 2803600,
+      "step": 3020
+    },
+    {
+      "epoch": 1.4262140499764262,
+      "grad_norm": 0.0012820569099858403,
+      "learning_rate": 0.2957892238607314,
+      "loss": 0.2543,
+      "num_input_tokens_seen": 2807920,
+      "step": 3025
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 0.0005444618873298168,
+      "learning_rate": 0.2957753536121161,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 2812528,
+      "step": 3030
+    },
+    {
+      "epoch": 1.430928807166431,
+      "grad_norm": 0.0007958830101415515,
+      "learning_rate": 0.29576146088310923,
+      "loss": 0.2888,
+      "num_input_tokens_seen": 2817312,
+      "step": 3035
+    },
+    {
+      "epoch": 1.4332861857614332,
+      "grad_norm": 0.0007183038396760821,
+      "learning_rate": 0.2957475456758533,
+      "loss": 0.3814,
+      "num_input_tokens_seen": 2821408,
+      "step": 3040
+    },
+    {
+      "epoch": 1.4356435643564356,
+      "grad_norm": 0.001284101977944374,
+      "learning_rate": 0.2957336079924944,
+      "loss": 0.2167,
+      "num_input_tokens_seen": 2826576,
+      "step": 3045
+    },
+    {
+      "epoch": 1.438000942951438,
+      "grad_norm": 0.0018044398166239262,
+      "learning_rate": 0.2957196478351816,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 2831648,
+      "step": 3050
+    },
+    {
+      "epoch": 1.4403583215464404,
+      "grad_norm": 0.0005606666090898216,
+      "learning_rate": 0.295705665206068,
+      "loss": 0.2806,
+      "num_input_tokens_seen": 2835808,
+      "step": 3055
+    },
+    {
+      "epoch": 1.4427157001414428,
+      "grad_norm": 0.00297626038081944,
+      "learning_rate": 0.2956916601073097,
+      "loss": 0.3934,
+      "num_input_tokens_seen": 2839984,
+      "step": 3060
+    },
+    {
+      "epoch": 1.4450730787364452,
+      "grad_norm": 0.0005728596006520092,
+      "learning_rate": 0.29567763254106655,
+      "loss": 0.4131,
+      "num_input_tokens_seen": 2844784,
+      "step": 3065
+    },
+    {
+      "epoch": 1.4474304573314474,
+      "grad_norm": 0.001379624824039638,
+      "learning_rate": 0.29566358250950175,
+      "loss": 0.3746,
+      "num_input_tokens_seen": 2849040,
+      "step": 3070
+    },
+    {
+      "epoch": 1.4497878359264498,
+      "grad_norm": 0.0013516147155314684,
+      "learning_rate": 0.295649510014782,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 2853648,
+      "step": 3075
+    },
+    {
+      "epoch": 1.4521452145214522,
+      "grad_norm": 0.0009974654531106353,
+      "learning_rate": 0.2956354150590775,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 2858416,
+      "step": 3080
+    },
+    {
+      "epoch": 1.4545025931164546,
+      "grad_norm": 0.0021952001843601465,
+      "learning_rate": 0.2956212976445618,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 2862800,
+      "step": 3085
+    },
+    {
+      "epoch": 1.4568599717114568,
+      "grad_norm": 0.001896818052046001,
+      "learning_rate": 0.295607157773412,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 2867728,
+      "step": 3090
+    },
+    {
+      "epoch": 1.4592173503064592,
+      "grad_norm": 0.0007737106643617153,
+      "learning_rate": 0.2955929954478087,
+      "loss": 0.3288,
+      "num_input_tokens_seen": 2872416,
+      "step": 3095
+    },
+    {
+      "epoch": 1.4615747289014616,
+      "grad_norm": 0.0013849284732714295,
+      "learning_rate": 0.29557881066993585,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 2877136,
+      "step": 3100
+    },
+    {
+      "epoch": 1.463932107496464,
+      "grad_norm": 0.0006302854744717479,
+      "learning_rate": 0.29556460344198093,
+      "loss": 0.382,
+      "num_input_tokens_seen": 2881344,
+      "step": 3105
+    },
+    {
+      "epoch": 1.4662894860914664,
+      "grad_norm": 0.0005326950922608376,
+      "learning_rate": 0.29555037376613486,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 2885376,
+      "step": 3110
+    },
+    {
+      "epoch": 1.4686468646864688,
+      "grad_norm": 0.0006589362164959311,
+      "learning_rate": 0.29553612164459203,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 2890336,
+      "step": 3115
+    },
+    {
+      "epoch": 1.471004243281471,
+      "grad_norm": 0.0005832643364556134,
+      "learning_rate": 0.29552184707955037,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 2894720,
+      "step": 3120
+    },
+    {
+      "epoch": 1.4733616218764733,
+      "grad_norm": 0.0007535797776654363,
+      "learning_rate": 0.29550755007321117,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 2899232,
+      "step": 3125
+    },
+    {
+      "epoch": 1.4757190004714758,
+      "grad_norm": 0.0008037126972340047,
+      "learning_rate": 0.29549323062777916,
+      "loss": 0.3609,
+      "num_input_tokens_seen": 2904032,
+      "step": 3130
+    },
+    {
+      "epoch": 1.4780763790664782,
+      "grad_norm": 0.0006043007015250623,
+      "learning_rate": 0.29547888874546263,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 2908304,
+      "step": 3135
+    },
+    {
+      "epoch": 1.4804337576614803,
+      "grad_norm": 0.0006142293568700552,
+      "learning_rate": 0.2954645244284732,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 2912816,
+      "step": 3140
+    },
+    {
+      "epoch": 1.4827911362564827,
+      "grad_norm": 0.0006493296823464334,
+      "learning_rate": 0.2954501376790261,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 2916912,
+      "step": 3145
+    },
+    {
+      "epoch": 1.4851485148514851,
+      "grad_norm": 0.0014072050107643008,
+      "learning_rate": 0.29543572849933997,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 2921616,
+      "step": 3150
+    },
+    {
+      "epoch": 1.4875058934464875,
+      "grad_norm": 0.0013073680456727743,
+      "learning_rate": 0.2954212968916368,
+      "loss": 0.2646,
+      "num_input_tokens_seen": 2925472,
+      "step": 3155
+    },
+    {
+      "epoch": 1.48986327204149,
+      "grad_norm": 0.0008622588939033449,
+      "learning_rate": 0.29540684285814217,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 2930144,
+      "step": 3160
+    },
+    {
+      "epoch": 1.4922206506364923,
+      "grad_norm": 0.0008062444976530969,
+      "learning_rate": 0.2953923664010851,
+      "loss": 0.3835,
+      "num_input_tokens_seen": 2935616,
+      "step": 3165
+    },
+    {
+      "epoch": 1.4945780292314945,
+      "grad_norm": 0.0015048370696604252,
+      "learning_rate": 0.295377867522698,
+      "loss": 0.294,
+      "num_input_tokens_seen": 2940896,
+      "step": 3170
+    },
+    {
+      "epoch": 1.496935407826497,
+      "grad_norm": 0.00046064157504588366,
+      "learning_rate": 0.2953633462252168,
+      "loss": 0.369,
+      "num_input_tokens_seen": 2945344,
+      "step": 3175
+    },
+    {
+      "epoch": 1.4992927864214993,
+      "grad_norm": 0.0008781656506471336,
+      "learning_rate": 0.2953488025108809,
+      "loss": 0.2907,
+      "num_input_tokens_seen": 2951440,
+      "step": 3180
+    },
+    {
+      "epoch": 1.5016501650165015,
+      "grad_norm": 0.001561294891871512,
+      "learning_rate": 0.295334236381933,
+      "loss": 0.2806,
+      "num_input_tokens_seen": 2957472,
+      "step": 3185
+    },
+    {
+      "epoch": 1.504007543611504,
+      "grad_norm": 0.002671104157343507,
+      "learning_rate": 0.29531964784061954,
+      "loss": 0.3117,
+      "num_input_tokens_seen": 2962880,
+      "step": 3190
+    },
+    {
+      "epoch": 1.5063649222065063,
+      "grad_norm": 0.0029527160804718733,
+      "learning_rate": 0.2953050368891902,
+      "loss": 0.391,
+      "num_input_tokens_seen": 2967936,
+      "step": 3195
+    },
+    {
+      "epoch": 1.5087223008015087,
+      "grad_norm": 0.0008093948126770556,
+      "learning_rate": 0.29529040352989805,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 2972672,
+      "step": 3200
+    },
+    {
+      "epoch": 1.5087223008015087,
+      "eval_loss": 0.3291572332382202,
+      "eval_runtime": 33.5427,
+      "eval_samples_per_second": 28.113,
+      "eval_steps_per_second": 14.072,
+      "num_input_tokens_seen": 2972672,
+      "step": 3200
+    },
+    {
+      "epoch": 1.511079679396511,
+      "grad_norm": 0.0007112721214070916,
+      "learning_rate": 0.29527574776499993,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 2977504,
+      "step": 3205
+    },
+    {
+      "epoch": 1.5134370579915135,
+      "grad_norm": 0.0011246574576944113,
+      "learning_rate": 0.2952610695967558,
+      "loss": 0.344,
+      "num_input_tokens_seen": 2982976,
+      "step": 3210
+    },
+    {
+      "epoch": 1.515794436586516,
+      "grad_norm": 0.0011239954037591815,
+      "learning_rate": 0.29524636902742935,
+      "loss": 0.338,
+      "num_input_tokens_seen": 2987344,
+      "step": 3215
+    },
+    {
+      "epoch": 1.5181518151815183,
+      "grad_norm": 0.0006766761653125286,
+      "learning_rate": 0.2952316460592875,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 2992112,
+      "step": 3220
+    },
+    {
+      "epoch": 1.5205091937765205,
+      "grad_norm": 0.0006501871976070106,
+      "learning_rate": 0.29521690069460066,
+      "loss": 0.3375,
+      "num_input_tokens_seen": 2996160,
+      "step": 3225
+    },
+    {
+      "epoch": 1.522866572371523,
+      "grad_norm": 0.0015793911879882216,
+      "learning_rate": 0.29520213293564285,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 3000544,
+      "step": 3230
+    },
+    {
+      "epoch": 1.525223950966525,
+      "grad_norm": 0.0013393406989052892,
+      "learning_rate": 0.29518734278469144,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 3004576,
+      "step": 3235
+    },
+    {
+      "epoch": 1.5275813295615275,
+      "grad_norm": 0.001346125965937972,
+      "learning_rate": 0.29517253024402723,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 3009408,
+      "step": 3240
+    },
+    {
+      "epoch": 1.5299387081565299,
+      "grad_norm": 0.0004665075393859297,
+      "learning_rate": 0.2951576953159345,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 3014000,
+      "step": 3245
+    },
+    {
+      "epoch": 1.5322960867515323,
+      "grad_norm": 0.0004335396515671164,
+      "learning_rate": 0.29514283800270097,
+      "loss": 0.4033,
+      "num_input_tokens_seen": 3018432,
+      "step": 3250
+    },
+    {
+      "epoch": 1.5346534653465347,
+      "grad_norm": 0.0014840626390650868,
+      "learning_rate": 0.2951279583066179,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 3023440,
+      "step": 3255
+    },
+    {
+      "epoch": 1.537010843941537,
+      "grad_norm": 0.0007734315586276352,
+      "learning_rate": 0.2951130562299798,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 3028176,
+      "step": 3260
+    },
+    {
+      "epoch": 1.5393682225365395,
+      "grad_norm": 0.0013196023646742105,
+      "learning_rate": 0.29509813177508487,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 3032192,
+      "step": 3265
+    },
+    {
+      "epoch": 1.541725601131542,
+      "grad_norm": 0.0005889503518119454,
+      "learning_rate": 0.2950831849442346,
+      "loss": 0.3602,
+      "num_input_tokens_seen": 3036208,
+      "step": 3270
+    },
+    {
+      "epoch": 1.544082979726544,
+      "grad_norm": 0.0005610797670669854,
+      "learning_rate": 0.2950682157397339,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 3041008,
+      "step": 3275
+    },
+    {
+      "epoch": 1.5464403583215465,
+      "grad_norm": 0.0008357508340850472,
+      "learning_rate": 0.2950532241638914,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 3045376,
+      "step": 3280
+    },
+    {
+      "epoch": 1.5487977369165487,
+      "grad_norm": 0.0005148329655639827,
+      "learning_rate": 0.2950382102190188,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 3049200,
+      "step": 3285
+    },
+    {
+      "epoch": 1.551155115511551,
+      "grad_norm": 0.0006305245333351195,
+      "learning_rate": 0.2950231739074316,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 3054720,
+      "step": 3290
+    },
+    {
+      "epoch": 1.5535124941065535,
+      "grad_norm": 0.0007618063827976584,
+      "learning_rate": 0.29500811523144843,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 3059424,
+      "step": 3295
+    },
+    {
+      "epoch": 1.5558698727015559,
+      "grad_norm": 0.0014184259343892336,
+      "learning_rate": 0.2949930341933917,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 3064592,
+      "step": 3300
+    },
+    {
+      "epoch": 1.5582272512965583,
+      "grad_norm": 0.0006686263368465006,
+      "learning_rate": 0.29497793079558693,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 3069312,
+      "step": 3305
+    },
+    {
+      "epoch": 1.5605846298915607,
+      "grad_norm": 0.0009709391742944717,
+      "learning_rate": 0.2949628050403633,
+      "loss": 0.344,
+      "num_input_tokens_seen": 3073440,
+      "step": 3310
+    },
+    {
+      "epoch": 1.562942008486563,
+      "grad_norm": 0.0017512135673314333,
+      "learning_rate": 0.2949476569300535,
+      "loss": 0.3198,
+      "num_input_tokens_seen": 3077104,
+      "step": 3315
+    },
+    {
+      "epoch": 1.5652993870815655,
+      "grad_norm": 0.0007883835933171213,
+      "learning_rate": 0.29493248646699344,
+      "loss": 0.263,
+      "num_input_tokens_seen": 3081552,
+      "step": 3320
+    },
+    {
+      "epoch": 1.5676567656765676,
+      "grad_norm": 0.0007265892345458269,
+      "learning_rate": 0.29491729365352265,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 3086944,
+      "step": 3325
+    },
+    {
+      "epoch": 1.57001414427157,
+      "grad_norm": 0.0008694501593708992,
+      "learning_rate": 0.29490207849198397,
+      "loss": 0.3484,
+      "num_input_tokens_seen": 3091472,
+      "step": 3330
+    },
+    {
+      "epoch": 1.5723715228665722,
+      "grad_norm": 0.0017575833480805159,
+      "learning_rate": 0.29488684098472384,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 3096544,
+      "step": 3335
+    },
+    {
+      "epoch": 1.5747289014615746,
+      "grad_norm": 0.0013522914377972484,
+      "learning_rate": 0.2948715811340921,
+      "loss": 0.2669,
+      "num_input_tokens_seen": 3101440,
+      "step": 3340
+    },
+    {
+      "epoch": 1.577086280056577,
+      "grad_norm": 0.0010281275026500225,
+      "learning_rate": 0.294856298942442,
+      "loss": 0.2896,
+      "num_input_tokens_seen": 3105968,
+      "step": 3345
+    },
+    {
+      "epoch": 1.5794436586515794,
+      "grad_norm": 0.002527958946302533,
+      "learning_rate": 0.2948409944121302,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 3110272,
+      "step": 3350
+    },
+    {
+      "epoch": 1.5818010372465818,
+      "grad_norm": 0.0004226562741678208,
+      "learning_rate": 0.29482566754551687,
+      "loss": 0.3524,
+      "num_input_tokens_seen": 3114656,
+      "step": 3355
+    },
+    {
+      "epoch": 1.5841584158415842,
+      "grad_norm": 0.0004072903539054096,
+      "learning_rate": 0.2948103183449656,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 3119600,
+      "step": 3360
+    },
+    {
+      "epoch": 1.5865157944365866,
+      "grad_norm": 0.001328345388174057,
+      "learning_rate": 0.2947949468128435,
+      "loss": 0.3095,
+      "num_input_tokens_seen": 3124032,
+      "step": 3365
+    },
+    {
+      "epoch": 1.588873173031589,
+      "grad_norm": 0.0006054875557310879,
+      "learning_rate": 0.2947795529515209,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 3128400,
+      "step": 3370
+    },
+    {
+      "epoch": 1.5912305516265912,
+      "grad_norm": 0.0020909111481159925,
+      "learning_rate": 0.29476413676337193,
+      "loss": 0.3854,
+      "num_input_tokens_seen": 3132288,
+      "step": 3375
+    },
+    {
+      "epoch": 1.5935879302215936,
+      "grad_norm": 0.0004418823809828609,
+      "learning_rate": 0.2947486982507738,
+      "loss": 0.3569,
+      "num_input_tokens_seen": 3136256,
+      "step": 3380
+    },
+    {
+      "epoch": 1.5959453088165958,
+      "grad_norm": 0.0016658907989040017,
+      "learning_rate": 0.29473323741610735,
+      "loss": 0.332,
+      "num_input_tokens_seen": 3141312,
+      "step": 3385
+    },
+    {
+      "epoch": 1.5983026874115982,
+      "grad_norm": 0.0010582866379991174,
+      "learning_rate": 0.2947177542617569,
+      "loss": 0.3621,
+      "num_input_tokens_seen": 3145920,
+      "step": 3390
+    },
+    {
+      "epoch": 1.6006600660066006,
+      "grad_norm": 0.0007320994045585394,
+      "learning_rate": 0.2947022487901101,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 3150592,
+      "step": 3395
+    },
+    {
+      "epoch": 1.603017444601603,
+      "grad_norm": 0.0007645041332580149,
+      "learning_rate": 0.2946867210035581,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 3154640,
+      "step": 3400
+    },
+    {
+      "epoch": 1.603017444601603,
+      "eval_loss": 0.3337741196155548,
+      "eval_runtime": 33.5854,
+      "eval_samples_per_second": 28.078,
+      "eval_steps_per_second": 14.054,
+      "num_input_tokens_seen": 3154640,
+      "step": 3400
+    },
+    {
+      "epoch": 1.6053748231966054,
+      "grad_norm": 0.0004120844532735646,
+      "learning_rate": 0.2946711709044954,
+      "loss": 0.344,
+      "num_input_tokens_seen": 3159408,
+      "step": 3405
+    },
+    {
+      "epoch": 1.6077322017916078,
+      "grad_norm": 0.0005191084346733987,
+      "learning_rate": 0.2946555984953202,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 3163904,
+      "step": 3410
+    },
+    {
+      "epoch": 1.6100895803866102,
+      "grad_norm": 0.000560266082175076,
+      "learning_rate": 0.2946400037784338,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 3168848,
+      "step": 3415
+    },
+    {
+      "epoch": 1.6124469589816126,
+      "grad_norm": 0.00043913142872042954,
+      "learning_rate": 0.29462438675624114,
+      "loss": 0.3467,
+      "num_input_tokens_seen": 3173168,
+      "step": 3420
+    },
+    {
+      "epoch": 1.6148043375766148,
+      "grad_norm": 0.0004504957178141922,
+      "learning_rate": 0.2946087474311506,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 3177488,
+      "step": 3425
+    },
+    {
+      "epoch": 1.6171617161716172,
+      "grad_norm": 0.0007617223309352994,
+      "learning_rate": 0.294593085805574,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 3182448,
+      "step": 3430
+    },
+    {
+      "epoch": 1.6195190947666194,
+      "grad_norm": 0.001419432694092393,
+      "learning_rate": 0.2945774018819264,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 3186768,
+      "step": 3435
+    },
+    {
+      "epoch": 1.6218764733616218,
+      "grad_norm": 0.0005967900506220758,
+      "learning_rate": 0.2945616956626266,
+      "loss": 0.3102,
+      "num_input_tokens_seen": 3190800,
+      "step": 3440
+    },
+    {
+      "epoch": 1.6242338519566242,
+      "grad_norm": 0.0006089987000450492,
+      "learning_rate": 0.2945459671500966,
+      "loss": 0.2924,
+      "num_input_tokens_seen": 3195712,
+      "step": 3445
+    },
+    {
+      "epoch": 1.6265912305516266,
+      "grad_norm": 0.0006497091380879283,
+      "learning_rate": 0.2945302163467621,
+      "loss": 0.372,
+      "num_input_tokens_seen": 3200480,
+      "step": 3450
+    },
+    {
+      "epoch": 1.628948609146629,
+      "grad_norm": 0.0004950871225446463,
+      "learning_rate": 0.2945144432550519,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 3204720,
+      "step": 3455
+    },
+    {
+      "epoch": 1.6313059877416314,
+      "grad_norm": 0.0024160321336239576,
+      "learning_rate": 0.29449864787739843,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 3209472,
+      "step": 3460
+    },
+    {
+      "epoch": 1.6336633663366338,
+      "grad_norm": 0.0007247604662552476,
+      "learning_rate": 0.2944828302162376,
+      "loss": 0.351,
+      "num_input_tokens_seen": 3213728,
+      "step": 3465
+    },
+    {
+      "epoch": 1.6360207449316362,
+      "grad_norm": 0.0006542729097418487,
+      "learning_rate": 0.2944669902740087,
+      "loss": 0.3052,
+      "num_input_tokens_seen": 3217520,
+      "step": 3470
+    },
+    {
+      "epoch": 1.6383781235266384,
+      "grad_norm": 0.0015423616860061884,
+      "learning_rate": 0.2944511280531544,
+      "loss": 0.339,
+      "num_input_tokens_seen": 3222720,
+      "step": 3475
+    },
+    {
+      "epoch": 1.6407355021216408,
+      "grad_norm": 0.0006666749832220376,
+      "learning_rate": 0.29443524355612083,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 3227552,
+      "step": 3480
+    },
+    {
+      "epoch": 1.643092880716643,
+      "grad_norm": 0.0005904610152356327,
+      "learning_rate": 0.29441933678535764,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 3233312,
+      "step": 3485
+    },
+    {
+      "epoch": 1.6454502593116453,
+      "grad_norm": 0.0011148987105116248,
+      "learning_rate": 0.29440340774331786,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 3237056,
+      "step": 3490
+    },
+    {
+      "epoch": 1.6478076379066477,
+      "grad_norm": 0.0024144891649484634,
+      "learning_rate": 0.2943874564324579,
+      "loss": 0.354,
+      "num_input_tokens_seen": 3242000,
+      "step": 3495
+    },
+    {
+      "epoch": 1.6501650165016502,
+      "grad_norm": 0.0022523622028529644,
+      "learning_rate": 0.2943714828552376,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 3246768,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6525223950966526,
+      "grad_norm": 0.0016918162582442164,
+      "learning_rate": 0.29435548701412045,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 3251232,
+      "step": 3505
+    },
+    {
+      "epoch": 1.654879773691655,
+      "grad_norm": 0.0006303279078565538,
+      "learning_rate": 0.2943394689115731,
+      "loss": 0.3031,
+      "num_input_tokens_seen": 3255408,
+      "step": 3510
+    },
+    {
+      "epoch": 1.6572371522866574,
+      "grad_norm": 0.0017624730244278908,
+      "learning_rate": 0.29432342855006577,
+      "loss": 0.3937,
+      "num_input_tokens_seen": 3259648,
+      "step": 3515
+    },
+    {
+      "epoch": 1.6595945308816598,
+      "grad_norm": 0.0008000654052011669,
+      "learning_rate": 0.294307365932072,
+      "loss": 0.3347,
+      "num_input_tokens_seen": 3264064,
+      "step": 3520
+    },
+    {
+      "epoch": 1.661951909476662,
+      "grad_norm": 0.0018728122813627124,
+      "learning_rate": 0.294291281060069,
+      "loss": 0.3024,
+      "num_input_tokens_seen": 3269344,
+      "step": 3525
+    },
+    {
+      "epoch": 1.6643092880716643,
+      "grad_norm": 0.0022039704490453005,
+      "learning_rate": 0.29427517393653724,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 3274544,
+      "step": 3530
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.0007714197272434831,
+      "learning_rate": 0.29425904456396046,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 3278704,
+      "step": 3535
+    },
+    {
+      "epoch": 1.669024045261669,
+      "grad_norm": 0.0007064076489768922,
+      "learning_rate": 0.2942428929448262,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 3282480,
+      "step": 3540
+    },
+    {
+      "epoch": 1.6713814238566713,
+      "grad_norm": 0.0017251154640689492,
+      "learning_rate": 0.2942267190816252,
+      "loss": 0.2335,
+      "num_input_tokens_seen": 3286672,
+      "step": 3545
+    },
+    {
+      "epoch": 1.6737388024516737,
+      "grad_norm": 0.0006279684021137655,
+      "learning_rate": 0.2942105229768516,
+      "loss": 0.2811,
+      "num_input_tokens_seen": 3291408,
+      "step": 3550
+    },
+    {
+      "epoch": 1.6760961810466761,
+      "grad_norm": 0.0021541414316743612,
+      "learning_rate": 0.29419430463300306,
+      "loss": 0.2474,
+      "num_input_tokens_seen": 3295824,
+      "step": 3555
+    },
+    {
+      "epoch": 1.6784535596416785,
+      "grad_norm": 0.0054678646847605705,
+      "learning_rate": 0.2941780640525808,
+      "loss": 0.3687,
+      "num_input_tokens_seen": 3300768,
+      "step": 3560
+    },
+    {
+      "epoch": 1.680810938236681,
+      "grad_norm": 0.0011803105007857084,
+      "learning_rate": 0.2941618012380891,
+      "loss": 0.3201,
+      "num_input_tokens_seen": 3306160,
+      "step": 3565
+    },
+    {
+      "epoch": 1.6831683168316833,
+      "grad_norm": 0.0013020801125094295,
+      "learning_rate": 0.29414551619203605,
+      "loss": 0.2617,
+      "num_input_tokens_seen": 3310864,
+      "step": 3570
+    },
+    {
+      "epoch": 1.6855256954266855,
+      "grad_norm": 0.00136716035194695,
+      "learning_rate": 0.29412920891693295,
+      "loss": 0.2823,
+      "num_input_tokens_seen": 3316064,
+      "step": 3575
+    },
+    {
+      "epoch": 1.687883074021688,
+      "grad_norm": 0.0012351791374385357,
+      "learning_rate": 0.2941128794152946,
+      "loss": 0.4162,
+      "num_input_tokens_seen": 3321248,
+      "step": 3580
+    },
+    {
+      "epoch": 1.69024045261669,
+      "grad_norm": 0.0006875171675346792,
+      "learning_rate": 0.2940965276896392,
+      "loss": 0.4228,
+      "num_input_tokens_seen": 3325872,
+      "step": 3585
+    },
+    {
+      "epoch": 1.6925978312116925,
+      "grad_norm": 0.0019690683111548424,
+      "learning_rate": 0.2940801537424884,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 3330816,
+      "step": 3590
+    },
+    {
+      "epoch": 1.694955209806695,
+      "grad_norm": 0.001990183722227812,
+      "learning_rate": 0.2940637575763673,
+      "loss": 0.34,
+      "num_input_tokens_seen": 3335136,
+      "step": 3595
+    },
+    {
+      "epoch": 1.6973125884016973,
+      "grad_norm": 0.0011707325465977192,
+      "learning_rate": 0.2940473391938043,
+      "loss": 0.3532,
+      "num_input_tokens_seen": 3339328,
+      "step": 3600
+    },
+    {
+      "epoch": 1.6973125884016973,
+      "eval_loss": 0.34582948684692383,
+      "eval_runtime": 33.5925,
+      "eval_samples_per_second": 28.072,
+      "eval_steps_per_second": 14.051,
+      "num_input_tokens_seen": 3339328,
+      "step": 3600
+    },
+    {
+      "epoch": 1.6996699669966997,
+      "grad_norm": 0.000548082054592669,
+      "learning_rate": 0.29403089859733145,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 3344528,
+      "step": 3605
+    },
+    {
+      "epoch": 1.702027345591702,
+      "grad_norm": 0.0008823553798720241,
+      "learning_rate": 0.294014435789484,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 3348912,
+      "step": 3610
+    },
+    {
+      "epoch": 1.7043847241867045,
+      "grad_norm": 0.0007989132427610457,
+      "learning_rate": 0.2939979507728007,
+      "loss": 0.3203,
+      "num_input_tokens_seen": 3354368,
+      "step": 3615
+    },
+    {
+      "epoch": 1.706742102781707,
+      "grad_norm": 0.0007661431445740163,
+      "learning_rate": 0.2939814435498239,
+      "loss": 0.2951,
+      "num_input_tokens_seen": 3359296,
+      "step": 3620
+    },
+    {
+      "epoch": 1.709099481376709,
+      "grad_norm": 0.0025041319895535707,
+      "learning_rate": 0.29396491412309905,
+      "loss": 0.3966,
+      "num_input_tokens_seen": 3363648,
+      "step": 3625
+    },
+    {
+      "epoch": 1.7114568599717115,
+      "grad_norm": 0.0010689652990549803,
+      "learning_rate": 0.2939483624951753,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 3367792,
+      "step": 3630
+    },
+    {
+      "epoch": 1.7138142385667137,
+      "grad_norm": 0.002698895987123251,
+      "learning_rate": 0.2939317886686051,
+      "loss": 0.3516,
+      "num_input_tokens_seen": 3372880,
+      "step": 3635
+    },
+    {
+      "epoch": 1.716171617161716,
+      "grad_norm": 0.003326830454170704,
+      "learning_rate": 0.2939151926459443,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 3377296,
+      "step": 3640
+    },
+    {
+      "epoch": 1.7185289957567185,
+      "grad_norm": 0.0014602907467633486,
+      "learning_rate": 0.2938985744297522,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 3381808,
+      "step": 3645
+    },
+    {
+      "epoch": 1.7208863743517209,
+      "grad_norm": 0.000548659183550626,
+      "learning_rate": 0.29388193402259166,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 3385920,
+      "step": 3650
+    },
+    {
+      "epoch": 1.7232437529467233,
+      "grad_norm": 0.0005706205265596509,
+      "learning_rate": 0.29386527142702873,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 3389600,
+      "step": 3655
+    },
+    {
+      "epoch": 1.7256011315417257,
+      "grad_norm": 0.0009644468082115054,
+      "learning_rate": 0.293848586645633,
+      "loss": 0.3809,
+      "num_input_tokens_seen": 3394960,
+      "step": 3660
+    },
+    {
+      "epoch": 1.727958510136728,
+      "grad_norm": 0.0005844941479153931,
+      "learning_rate": 0.2938318796809775,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 3399136,
+      "step": 3665
+    },
+    {
+      "epoch": 1.7303158887317305,
+      "grad_norm": 0.0007524824468418956,
+      "learning_rate": 0.29381515053563867,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 3404288,
+      "step": 3670
+    },
+    {
+      "epoch": 1.7326732673267327,
+      "grad_norm": 0.0010223786812275648,
+      "learning_rate": 0.29379839921219636,
+      "loss": 0.337,
+      "num_input_tokens_seen": 3409136,
+      "step": 3675
+    },
+    {
+      "epoch": 1.735030645921735,
+      "grad_norm": 0.0005731748533435166,
+      "learning_rate": 0.2937816257132338,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 3414048,
+      "step": 3680
+    },
+    {
+      "epoch": 1.7373880245167372,
+      "grad_norm": 0.0014688203809782863,
+      "learning_rate": 0.2937648300413376,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 3418384,
+      "step": 3685
+    },
+    {
+      "epoch": 1.7397454031117396,
+      "grad_norm": 0.0004944918327964842,
+      "learning_rate": 0.293748012199098,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 3422496,
+      "step": 3690
+    },
+    {
+      "epoch": 1.742102781706742,
+      "grad_norm": 0.0012720652157440782,
+      "learning_rate": 0.29373117218910844,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 3426784,
+      "step": 3695
+    },
+    {
+      "epoch": 1.7444601603017444,
+      "grad_norm": 0.0015457073459401727,
+      "learning_rate": 0.2937143100139659,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 3431520,
+      "step": 3700
+    },
+    {
+      "epoch": 1.7468175388967468,
+      "grad_norm": 0.0007974884356372058,
+      "learning_rate": 0.29369742567627083,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 3435712,
+      "step": 3705
+    },
+    {
+      "epoch": 1.7491749174917492,
+      "grad_norm": 0.0005136951804161072,
+      "learning_rate": 0.29368051917862675,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 3440592,
+      "step": 3710
+    },
+    {
+      "epoch": 1.7515322960867516,
+      "grad_norm": 0.0007479639025405049,
+      "learning_rate": 0.2936635905236411,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 3445184,
+      "step": 3715
+    },
+    {
+      "epoch": 1.753889674681754,
+      "grad_norm": 0.0005779566708952188,
+      "learning_rate": 0.2936466397139244,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 3449264,
+      "step": 3720
+    },
+    {
+      "epoch": 1.7562470532767562,
+      "grad_norm": 0.0014391704462468624,
+      "learning_rate": 0.2936296667520907,
+      "loss": 0.3672,
+      "num_input_tokens_seen": 3453232,
+      "step": 3725
+    },
+    {
+      "epoch": 1.7586044318717586,
+      "grad_norm": 0.00040278982487507164,
+      "learning_rate": 0.2936126716407574,
+      "loss": 0.3656,
+      "num_input_tokens_seen": 3457840,
+      "step": 3730
+    },
+    {
+      "epoch": 1.7609618104667608,
+      "grad_norm": 0.0008813929744064808,
+      "learning_rate": 0.29359565438254537,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 3462240,
+      "step": 3735
+    },
+    {
+      "epoch": 1.7633191890617632,
+      "grad_norm": 0.000518277520313859,
+      "learning_rate": 0.29357861498007887,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 3466848,
+      "step": 3740
+    },
+    {
+      "epoch": 1.7656765676567656,
+      "grad_norm": 0.000599664228502661,
+      "learning_rate": 0.29356155343598567,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 3471712,
+      "step": 3745
+    },
+    {
+      "epoch": 1.768033946251768,
+      "grad_norm": 0.00039564064354635775,
+      "learning_rate": 0.2935444697528968,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 3475824,
+      "step": 3750
+    },
+    {
+      "epoch": 1.7703913248467704,
+      "grad_norm": 0.001405048300512135,
+      "learning_rate": 0.2935273639334468,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 3480656,
+      "step": 3755
+    },
+    {
+      "epoch": 1.7727487034417728,
+      "grad_norm": 0.0005188470822758973,
+      "learning_rate": 0.29351023598027365,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 3484480,
+      "step": 3760
+    },
+    {
+      "epoch": 1.7751060820367752,
+      "grad_norm": 0.0012393764918670058,
+      "learning_rate": 0.2934930858960186,
+      "loss": 0.2799,
+      "num_input_tokens_seen": 3488352,
+      "step": 3765
+    },
+    {
+      "epoch": 1.7774634606317776,
+      "grad_norm": 0.00042869089520536363,
+      "learning_rate": 0.29347591368332643,
+      "loss": 0.3735,
+      "num_input_tokens_seen": 3493456,
+      "step": 3770
+    },
+    {
+      "epoch": 1.7798208392267798,
+      "grad_norm": 0.0006400645361281931,
+      "learning_rate": 0.2934587193448454,
+      "loss": 0.338,
+      "num_input_tokens_seen": 3497600,
+      "step": 3775
+    },
+    {
+      "epoch": 1.7821782178217822,
+      "grad_norm": 0.0014716475270688534,
+      "learning_rate": 0.29344150288322696,
+      "loss": 0.4038,
+      "num_input_tokens_seen": 3503552,
+      "step": 3780
+    },
+    {
+      "epoch": 1.7845355964167844,
+      "grad_norm": 0.000575117242988199,
+      "learning_rate": 0.2934242643011263,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 3508640,
+      "step": 3785
+    },
+    {
+      "epoch": 1.7868929750117868,
+      "grad_norm": 0.0005854589398950338,
+      "learning_rate": 0.2934070036012016,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 3513264,
+      "step": 3790
+    },
+    {
+      "epoch": 1.7892503536067892,
+      "grad_norm": 0.001323037315160036,
+      "learning_rate": 0.29338972078611475,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 3517760,
+      "step": 3795
+    },
+    {
+      "epoch": 1.7916077322017916,
+      "grad_norm": 0.0006728402222506702,
+      "learning_rate": 0.2933724158585311,
+      "loss": 0.3734,
+      "num_input_tokens_seen": 3522384,
+      "step": 3800
+    },
+    {
+      "epoch": 1.7916077322017916,
+      "eval_loss": 0.3275451362133026,
+      "eval_runtime": 33.5274,
+      "eval_samples_per_second": 28.126,
+      "eval_steps_per_second": 14.078,
+      "num_input_tokens_seen": 3522384,
+      "step": 3800
+    },
+    {
+      "epoch": 1.793965110796794,
+      "grad_norm": 0.0007023833459243178,
+      "learning_rate": 0.29335508882111916,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 3527216,
+      "step": 3805
+    },
+    {
+      "epoch": 1.7963224893917964,
+      "grad_norm": 0.0005898504168726504,
+      "learning_rate": 0.29333773967655097,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 3532240,
+      "step": 3810
+    },
+    {
+      "epoch": 1.7986798679867988,
+      "grad_norm": 0.0004876596503891051,
+      "learning_rate": 0.2933203684275021,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 3536192,
+      "step": 3815
+    },
+    {
+      "epoch": 1.8010372465818012,
+      "grad_norm": 0.0014748265966773033,
+      "learning_rate": 0.2933029750766513,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 3540352,
+      "step": 3820
+    },
+    {
+      "epoch": 1.8033946251768034,
+      "grad_norm": 0.001941409194841981,
+      "learning_rate": 0.2932855596266809,
+      "loss": 0.4112,
+      "num_input_tokens_seen": 3544976,
+      "step": 3825
+    },
+    {
+      "epoch": 1.8057520037718058,
+      "grad_norm": 0.0005114049417898059,
+      "learning_rate": 0.2932681220802765,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 3549920,
+      "step": 3830
+    },
+    {
+      "epoch": 1.808109382366808,
+      "grad_norm": 0.0007558243232779205,
+      "learning_rate": 0.2932506624401274,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 3555200,
+      "step": 3835
+    },
+    {
+      "epoch": 1.8104667609618104,
+      "grad_norm": 0.0007001924095675349,
+      "learning_rate": 0.29323318070892584,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 3559680,
+      "step": 3840
+    },
+    {
+      "epoch": 1.8128241395568128,
+      "grad_norm": 0.0009392719948664308,
+      "learning_rate": 0.29321567688936784,
+      "loss": 0.333,
+      "num_input_tokens_seen": 3564304,
+      "step": 3845
+    },
+    {
+      "epoch": 1.8151815181518152,
+      "grad_norm": 0.0006191290449351072,
+      "learning_rate": 0.29319815098415275,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 3570128,
+      "step": 3850
+    },
+    {
+      "epoch": 1.8175388967468176,
+      "grad_norm": 0.00044218613766133785,
+      "learning_rate": 0.2931806029959832,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 3574992,
+      "step": 3855
+    },
+    {
+      "epoch": 1.81989627534182,
+      "grad_norm": 0.0008363845990970731,
+      "learning_rate": 0.29316303292756535,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 3580672,
+      "step": 3860
+    },
+    {
+      "epoch": 1.8222536539368224,
+      "grad_norm": 0.000594274781178683,
+      "learning_rate": 0.29314544078160876,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 3585632,
+      "step": 3865
+    },
+    {
+      "epoch": 1.8246110325318248,
+      "grad_norm": 0.0002532626094762236,
+      "learning_rate": 0.2931278265608263,
+      "loss": 0.2865,
+      "num_input_tokens_seen": 3589984,
+      "step": 3870
+    },
+    {
+      "epoch": 1.826968411126827,
+      "grad_norm": 0.0014606670010834932,
+      "learning_rate": 0.29311019026793433,
+      "loss": 0.347,
+      "num_input_tokens_seen": 3594672,
+      "step": 3875
+    },
+    {
+      "epoch": 1.8293257897218294,
+      "grad_norm": 0.0007763470057398081,
+      "learning_rate": 0.29309253190565254,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 3599568,
+      "step": 3880
+    },
+    {
+      "epoch": 1.8316831683168315,
+      "grad_norm": 0.00032367624226026237,
+      "learning_rate": 0.2930748514767042,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 3604000,
+      "step": 3885
+    },
+    {
+      "epoch": 1.834040546911834,
+      "grad_norm": 0.000745602766983211,
+      "learning_rate": 0.29305714898381574,
+      "loss": 0.3741,
+      "num_input_tokens_seen": 3609104,
+      "step": 3890
+    },
+    {
+      "epoch": 1.8363979255068363,
+      "grad_norm": 0.0006835366366431117,
+      "learning_rate": 0.29303942442971714,
+      "loss": 0.3267,
+      "num_input_tokens_seen": 3614528,
+      "step": 3895
+    },
+    {
+      "epoch": 1.8387553041018387,
+      "grad_norm": 0.001250922679901123,
+      "learning_rate": 0.2930216778171417,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 3619088,
+      "step": 3900
+    },
+    {
+      "epoch": 1.8411126826968411,
+      "grad_norm": 0.0014670206001028419,
+      "learning_rate": 0.2930039091488263,
+      "loss": 0.311,
+      "num_input_tokens_seen": 3623616,
+      "step": 3905
+    },
+    {
+      "epoch": 1.8434700612918435,
+      "grad_norm": 0.000487210025312379,
+      "learning_rate": 0.29298611842751093,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 3628528,
+      "step": 3910
+    },
+    {
+      "epoch": 1.845827439886846,
+      "grad_norm": 0.00132307643070817,
+      "learning_rate": 0.29296830565593923,
+      "loss": 0.307,
+      "num_input_tokens_seen": 3633232,
+      "step": 3915
+    },
+    {
+      "epoch": 1.8481848184818483,
+      "grad_norm": 0.0012439308920875192,
+      "learning_rate": 0.2929504708368582,
+      "loss": 0.3833,
+      "num_input_tokens_seen": 3637648,
+      "step": 3920
+    },
+    {
+      "epoch": 1.8505421970768505,
+      "grad_norm": 0.0013845039065927267,
+      "learning_rate": 0.29293261397301806,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 3643040,
+      "step": 3925
+    },
+    {
+      "epoch": 1.852899575671853,
+      "grad_norm": 0.0012910666409879923,
+      "learning_rate": 0.29291473506717275,
+      "loss": 0.3698,
+      "num_input_tokens_seen": 3647648,
+      "step": 3930
+    },
+    {
+      "epoch": 1.855256954266855,
+      "grad_norm": 0.0009471097146160901,
+      "learning_rate": 0.29289683412207923,
+      "loss": 0.3049,
+      "num_input_tokens_seen": 3652368,
+      "step": 3935
+    },
+    {
+      "epoch": 1.8576143328618575,
+      "grad_norm": 0.0004187542654108256,
+      "learning_rate": 0.29287891114049813,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 3656704,
+      "step": 3940
+    },
+    {
+      "epoch": 1.85997171145686,
+      "grad_norm": 0.0005473711644299328,
+      "learning_rate": 0.29286096612519347,
+      "loss": 0.3148,
+      "num_input_tokens_seen": 3661040,
+      "step": 3945
+    },
+    {
+      "epoch": 1.8623290900518623,
+      "grad_norm": 0.0011177468113601208,
+      "learning_rate": 0.2928429990789325,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 3666064,
+      "step": 3950
+    },
+    {
+      "epoch": 1.8646864686468647,
+      "grad_norm": 0.0004418600001372397,
+      "learning_rate": 0.29282501000448596,
+      "loss": 0.278,
+      "num_input_tokens_seen": 3670288,
+      "step": 3955
+    },
+    {
+      "epoch": 1.8670438472418671,
+      "grad_norm": 0.0006071640527807176,
+      "learning_rate": 0.2928069989046281,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 3676224,
+      "step": 3960
+    },
+    {
+      "epoch": 1.8694012258368695,
+      "grad_norm": 0.0009398493566550314,
+      "learning_rate": 0.2927889657821363,
+      "loss": 0.3094,
+      "num_input_tokens_seen": 3681536,
+      "step": 3965
+    },
+    {
+      "epoch": 1.871758604431872,
+      "grad_norm": 0.00026502201217226684,
+      "learning_rate": 0.2927709106397916,
+      "loss": 0.3885,
+      "num_input_tokens_seen": 3686080,
+      "step": 3970
+    },
+    {
+      "epoch": 1.874115983026874,
+      "grad_norm": 0.00040156071190722287,
+      "learning_rate": 0.29275283348037834,
+      "loss": 0.3032,
+      "num_input_tokens_seen": 3690384,
+      "step": 3975
+    },
+    {
+      "epoch": 1.8764733616218765,
+      "grad_norm": 0.0003624171658884734,
+      "learning_rate": 0.29273473430668423,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 3695104,
+      "step": 3980
+    },
+    {
+      "epoch": 1.8788307402168787,
+      "grad_norm": 0.0003397473192308098,
+      "learning_rate": 0.2927166131215003,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 3699200,
+      "step": 3985
+    },
+    {
+      "epoch": 1.881188118811881,
+      "grad_norm": 0.0004282458685338497,
+      "learning_rate": 0.2926984699276212,
+      "loss": 0.3725,
+      "num_input_tokens_seen": 3703728,
+      "step": 3990
+    },
+    {
+      "epoch": 1.8835454974068835,
+      "grad_norm": 0.0005199284059926867,
+      "learning_rate": 0.29268030472784473,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 3707696,
+      "step": 3995
+    },
+    {
+      "epoch": 1.8859028760018859,
+      "grad_norm": 0.0005231445538811386,
+      "learning_rate": 0.2926621175249723,
+      "loss": 0.294,
+      "num_input_tokens_seen": 3712352,
+      "step": 4000
+    },
+    {
+      "epoch": 1.8859028760018859,
+      "eval_loss": 0.32809823751449585,
+      "eval_runtime": 33.5539,
+      "eval_samples_per_second": 28.104,
+      "eval_steps_per_second": 14.067,
+      "num_input_tokens_seen": 3712352,
+      "step": 4000
+    },
+    {
+      "epoch": 1.8882602545968883,
+      "grad_norm": 0.0004312072414904833,
+      "learning_rate": 0.29264390832180853,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 3716528,
+      "step": 4005
+    },
+    {
+      "epoch": 1.8906176331918907,
+      "grad_norm": 0.0006354266661219299,
+      "learning_rate": 0.29262567712116144,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 3720976,
+      "step": 4010
+    },
+    {
+      "epoch": 1.892975011786893,
+      "grad_norm": 0.0010775915579870343,
+      "learning_rate": 0.29260742392584266,
+      "loss": 0.31,
+      "num_input_tokens_seen": 3725536,
+      "step": 4015
+    },
+    {
+      "epoch": 1.8953323903818955,
+      "grad_norm": 0.0005156929255463183,
+      "learning_rate": 0.292589148738667,
+      "loss": 0.2925,
+      "num_input_tokens_seen": 3730080,
+      "step": 4020
+    },
+    {
+      "epoch": 1.8976897689768977,
+      "grad_norm": 0.0005851315218023956,
+      "learning_rate": 0.2925708515624527,
+      "loss": 0.3898,
+      "num_input_tokens_seen": 3734480,
+      "step": 4025
+    },
+    {
+      "epoch": 1.9000471475719,
+      "grad_norm": 0.0004946418339386582,
+      "learning_rate": 0.29255253240002144,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 3740048,
+      "step": 4030
+    },
+    {
+      "epoch": 1.9024045261669023,
+      "grad_norm": 0.00046103811473585665,
+      "learning_rate": 0.2925341912541983,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 3745424,
+      "step": 4035
+    },
+    {
+      "epoch": 1.9047619047619047,
+      "grad_norm": 0.000519347726367414,
+      "learning_rate": 0.2925158281278116,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 3749376,
+      "step": 4040
+    },
+    {
+      "epoch": 1.907119283356907,
+      "grad_norm": 0.0005051956395618618,
+      "learning_rate": 0.29249744302369324,
+      "loss": 0.344,
+      "num_input_tokens_seen": 3754512,
+      "step": 4045
+    },
+    {
+      "epoch": 1.9094766619519095,
+      "grad_norm": 0.0012804461875930429,
+      "learning_rate": 0.29247903594467844,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 3758848,
+      "step": 4050
+    },
+    {
+      "epoch": 1.9118340405469119,
+      "grad_norm": 0.0005008411244489253,
+      "learning_rate": 0.2924606068936058,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 3762992,
+      "step": 4055
+    },
+    {
+      "epoch": 1.9141914191419143,
+      "grad_norm": 0.0006379918777383864,
+      "learning_rate": 0.2924421558733173,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 3768240,
+      "step": 4060
+    },
+    {
+      "epoch": 1.9165487977369167,
+      "grad_norm": 0.0008272385457530618,
+      "learning_rate": 0.2924236828866583,
+      "loss": 0.3039,
+      "num_input_tokens_seen": 3772656,
+      "step": 4065
+    },
+    {
+      "epoch": 1.918906176331919,
+      "grad_norm": 0.0010651255724951625,
+      "learning_rate": 0.29240518793647763,
+      "loss": 0.2367,
+      "num_input_tokens_seen": 3776960,
+      "step": 4070
+    },
+    {
+      "epoch": 1.9212635549269212,
+      "grad_norm": 0.0009953463450074196,
+      "learning_rate": 0.29238667102562743,
+      "loss": 0.3838,
+      "num_input_tokens_seen": 3781584,
+      "step": 4075
+    },
+    {
+      "epoch": 1.9236209335219236,
+      "grad_norm": 0.00040870317025110126,
+      "learning_rate": 0.29236813215696317,
+      "loss": 0.3833,
+      "num_input_tokens_seen": 3786256,
+      "step": 4080
+    },
+    {
+      "epoch": 1.9259783121169258,
+      "grad_norm": 0.0005435068160295486,
+      "learning_rate": 0.2923495713333439,
+      "loss": 0.3525,
+      "num_input_tokens_seen": 3791232,
+      "step": 4085
+    },
+    {
+      "epoch": 1.9283356907119282,
+      "grad_norm": 0.0005343425436876714,
+      "learning_rate": 0.29233098855763173,
+      "loss": 0.355,
+      "num_input_tokens_seen": 3795984,
+      "step": 4090
+    },
+    {
+      "epoch": 1.9306930693069306,
+      "grad_norm": 0.0007761603337712586,
+      "learning_rate": 0.29231238383269254,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 3801056,
+      "step": 4095
+    },
+    {
+      "epoch": 1.933050447901933,
+      "grad_norm": 0.0017457042122259736,
+      "learning_rate": 0.2922937571613954,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 3805328,
+      "step": 4100
+    },
+    {
+      "epoch": 1.9354078264969354,
+      "grad_norm": 0.0009714410407468677,
+      "learning_rate": 0.29227510854661265,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 3810000,
+      "step": 4105
+    },
+    {
+      "epoch": 1.9377652050919378,
+      "grad_norm": 0.0005597067065536976,
+      "learning_rate": 0.29225643799122025,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 3814720,
+      "step": 4110
+    },
+    {
+      "epoch": 1.9401225836869402,
+      "grad_norm": 0.0011273791315034032,
+      "learning_rate": 0.2922377454980974,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 3818768,
+      "step": 4115
+    },
+    {
+      "epoch": 1.9424799622819426,
+      "grad_norm": 0.001136656617745757,
+      "learning_rate": 0.29221903107012676,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 3822864,
+      "step": 4120
+    },
+    {
+      "epoch": 1.9448373408769448,
+      "grad_norm": 0.0017677897121757269,
+      "learning_rate": 0.29220029471019426,
+      "loss": 0.3487,
+      "num_input_tokens_seen": 3826976,
+      "step": 4125
+    },
+    {
+      "epoch": 1.9471947194719472,
+      "grad_norm": 0.0011757755419239402,
+      "learning_rate": 0.2921815364211893,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 3832064,
+      "step": 4130
+    },
+    {
+      "epoch": 1.9495520980669494,
+      "grad_norm": 0.0002860789536498487,
+      "learning_rate": 0.29216275620600474,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 3836304,
+      "step": 4135
+    },
+    {
+      "epoch": 1.9519094766619518,
+      "grad_norm": 0.000583023764193058,
+      "learning_rate": 0.29214395406753657,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 3842624,
+      "step": 4140
+    },
+    {
+      "epoch": 1.9542668552569542,
+      "grad_norm": 0.0017651693196967244,
+      "learning_rate": 0.2921251300086844,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 3846832,
+      "step": 4145
+    },
+    {
+      "epoch": 1.9566242338519566,
+      "grad_norm": 0.0010861990740522742,
+      "learning_rate": 0.2921062840323511,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 3851600,
+      "step": 4150
+    },
+    {
+      "epoch": 1.958981612446959,
+      "grad_norm": 0.0012266698759049177,
+      "learning_rate": 0.29208741614144307,
+      "loss": 0.3593,
+      "num_input_tokens_seen": 3856832,
+      "step": 4155
+    },
+    {
+      "epoch": 1.9613389910419614,
+      "grad_norm": 0.0005356980254873633,
+      "learning_rate": 0.2920685263388698,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 3862896,
+      "step": 4160
+    },
+    {
+      "epoch": 1.9636963696369638,
+      "grad_norm": 0.0003848083724733442,
+      "learning_rate": 0.2920496146275445,
+      "loss": 0.3015,
+      "num_input_tokens_seen": 3867952,
+      "step": 4165
+    },
+    {
+      "epoch": 1.9660537482319662,
+      "grad_norm": 0.0012182497885078192,
+      "learning_rate": 0.29203068101038343,
+      "loss": 0.4214,
+      "num_input_tokens_seen": 3872880,
+      "step": 4170
+    },
+    {
+      "epoch": 1.9684111268269684,
+      "grad_norm": 0.0012408471666276455,
+      "learning_rate": 0.2920117254903065,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 3877248,
+      "step": 4175
+    },
+    {
+      "epoch": 1.9707685054219708,
+      "grad_norm": 0.0005993511877022684,
+      "learning_rate": 0.29199274807023695,
+      "loss": 0.3326,
+      "num_input_tokens_seen": 3881168,
+      "step": 4180
+    },
+    {
+      "epoch": 1.973125884016973,
+      "grad_norm": 0.0007447289535775781,
+      "learning_rate": 0.29197374875310117,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 3886128,
+      "step": 4185
+    },
+    {
+      "epoch": 1.9754832626119754,
+      "grad_norm": 0.0006859703571535647,
+      "learning_rate": 0.2919547275418292,
+      "loss": 0.337,
+      "num_input_tokens_seen": 3890816,
+      "step": 4190
+    },
+    {
+      "epoch": 1.9778406412069778,
+      "grad_norm": 0.00040659328806214035,
+      "learning_rate": 0.29193568443935436,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 3895152,
+      "step": 4195
+    },
+    {
+      "epoch": 1.9801980198019802,
+      "grad_norm": 0.0005490731564350426,
+      "learning_rate": 0.2919166194486133,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 3899328,
+      "step": 4200
+    },
+    {
+      "epoch": 1.9801980198019802,
+      "eval_loss": 0.33021771907806396,
+      "eval_runtime": 33.5838,
+      "eval_samples_per_second": 28.079,
+      "eval_steps_per_second": 14.054,
+      "num_input_tokens_seen": 3899328,
+      "step": 4200
+    },
+    {
+      "epoch": 1.9825553983969826,
+      "grad_norm": 0.0004494386666920036,
+      "learning_rate": 0.2918975325725461,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 3904064,
+      "step": 4205
+    },
+    {
+      "epoch": 1.984912776991985,
+      "grad_norm": 0.0006677923374809325,
+      "learning_rate": 0.29187842381409607,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 3908864,
+      "step": 4210
+    },
+    {
+      "epoch": 1.9872701555869874,
+      "grad_norm": 0.00048781721852719784,
+      "learning_rate": 0.29185929317621023,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 3912560,
+      "step": 4215
+    },
+    {
+      "epoch": 1.9896275341819898,
+      "grad_norm": 0.0004160495300311595,
+      "learning_rate": 0.29184014066183867,
+      "loss": 0.2805,
+      "num_input_tokens_seen": 3917344,
+      "step": 4220
+    },
+    {
+      "epoch": 1.991984912776992,
+      "grad_norm": 0.001385014969855547,
+      "learning_rate": 0.2918209662739349,
+      "loss": 0.3721,
+      "num_input_tokens_seen": 3922272,
+      "step": 4225
+    },
+    {
+      "epoch": 1.9943422913719944,
+      "grad_norm": 0.0010132449679076672,
+      "learning_rate": 0.29180177001545593,
+      "loss": 0.3254,
+      "num_input_tokens_seen": 3927216,
+      "step": 4230
+    },
+    {
+      "epoch": 1.9966996699669965,
+      "grad_norm": 0.0005601259181275964,
+      "learning_rate": 0.29178255188936203,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 3931952,
+      "step": 4235
+    },
+    {
+      "epoch": 1.999057048561999,
+      "grad_norm": 0.0012939708540216088,
+      "learning_rate": 0.2917633118986169,
+      "loss": 0.3094,
+      "num_input_tokens_seen": 3936944,
+      "step": 4240
+    },
+    {
+      "epoch": 2.0014144271570014,
+      "grad_norm": 0.000619134574662894,
+      "learning_rate": 0.2917440500461875,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 3941840,
+      "step": 4245
+    },
+    {
+      "epoch": 2.0037718057520038,
+      "grad_norm": 0.0007497835322283208,
+      "learning_rate": 0.29172476633504435,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 3946336,
+      "step": 4250
+    },
+    {
+      "epoch": 2.006129184347006,
+      "grad_norm": 0.00037625603727065027,
+      "learning_rate": 0.2917054607681612,
+      "loss": 0.318,
+      "num_input_tokens_seen": 3951616,
+      "step": 4255
+    },
+    {
+      "epoch": 2.0084865629420086,
+      "grad_norm": 0.0012734634801745415,
+      "learning_rate": 0.29168613334851523,
+      "loss": 0.3553,
+      "num_input_tokens_seen": 3955584,
+      "step": 4260
+    },
+    {
+      "epoch": 2.010843941537011,
+      "grad_norm": 0.00040921784238889813,
+      "learning_rate": 0.2916667840790869,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 3960080,
+      "step": 4265
+    },
+    {
+      "epoch": 2.0132013201320134,
+      "grad_norm": 0.0010165268322452903,
+      "learning_rate": 0.2916474129628603,
+      "loss": 0.2742,
+      "num_input_tokens_seen": 3964880,
+      "step": 4270
+    },
+    {
+      "epoch": 2.0155586987270158,
+      "grad_norm": 0.000558532599825412,
+      "learning_rate": 0.29162802000282245,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 3969952,
+      "step": 4275
+    },
+    {
+      "epoch": 2.0179160773220177,
+      "grad_norm": 0.0007117665372788906,
+      "learning_rate": 0.2916086052019642,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 3975104,
+      "step": 4280
+    },
+    {
+      "epoch": 2.02027345591702,
+      "grad_norm": 0.0007105499971657991,
+      "learning_rate": 0.2915891685632794,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 3980512,
+      "step": 4285
+    },
+    {
+      "epoch": 2.0226308345120225,
+      "grad_norm": 0.00042613083496689796,
+      "learning_rate": 0.29156971008976545,
+      "loss": 0.3615,
+      "num_input_tokens_seen": 3985136,
+      "step": 4290
+    },
+    {
+      "epoch": 2.024988213107025,
+      "grad_norm": 0.00044970313319936395,
+      "learning_rate": 0.2915502297844232,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 3989840,
+      "step": 4295
+    },
+    {
+      "epoch": 2.0273455917020273,
+      "grad_norm": 0.001197685138322413,
+      "learning_rate": 0.2915307276502566,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 3994352,
+      "step": 4300
+    },
+    {
+      "epoch": 2.0297029702970297,
+      "grad_norm": 0.0012812112690880895,
+      "learning_rate": 0.29151120369027334,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 3999104,
+      "step": 4305
+    },
+    {
+      "epoch": 2.032060348892032,
+      "grad_norm": 0.0005932415369898081,
+      "learning_rate": 0.29149165790748405,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 4003696,
+      "step": 4310
+    },
+    {
+      "epoch": 2.0344177274870345,
+      "grad_norm": 0.000511081307195127,
+      "learning_rate": 0.291472090304903,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 4008240,
+      "step": 4315
+    },
+    {
+      "epoch": 2.036775106082037,
+      "grad_norm": 0.0013951603323221207,
+      "learning_rate": 0.2914525008855478,
+      "loss": 0.3331,
+      "num_input_tokens_seen": 4013040,
+      "step": 4320
+    },
+    {
+      "epoch": 2.0391324846770393,
+      "grad_norm": 0.00037235821946524084,
+      "learning_rate": 0.2914328896524394,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 4017920,
+      "step": 4325
+    },
+    {
+      "epoch": 2.0414898632720413,
+      "grad_norm": 0.0013582793762907386,
+      "learning_rate": 0.291413256608602,
+      "loss": 0.281,
+      "num_input_tokens_seen": 4022352,
+      "step": 4330
+    },
+    {
+      "epoch": 2.0438472418670437,
+      "grad_norm": 0.0004653563955798745,
+      "learning_rate": 0.29139360175706336,
+      "loss": 0.3509,
+      "num_input_tokens_seen": 4027600,
+      "step": 4335
+    },
+    {
+      "epoch": 2.046204620462046,
+      "grad_norm": 0.0010539303766563535,
+      "learning_rate": 0.2913739251008544,
+      "loss": 0.2914,
+      "num_input_tokens_seen": 4031696,
+      "step": 4340
+    },
+    {
+      "epoch": 2.0485619990570485,
+      "grad_norm": 0.00037460849853232503,
+      "learning_rate": 0.29135422664300964,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 4036272,
+      "step": 4345
+    },
+    {
+      "epoch": 2.050919377652051,
+      "grad_norm": 0.0004312103264965117,
+      "learning_rate": 0.29133450638656677,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 4040800,
+      "step": 4350
+    },
+    {
+      "epoch": 2.0532767562470533,
+      "grad_norm": 0.0011321291094645858,
+      "learning_rate": 0.2913147643345669,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 4045200,
+      "step": 4355
+    },
+    {
+      "epoch": 2.0556341348420557,
+      "grad_norm": 0.0004709014610853046,
+      "learning_rate": 0.29129500049005447,
+      "loss": 0.3005,
+      "num_input_tokens_seen": 4049360,
+      "step": 4360
+    },
+    {
+      "epoch": 2.057991513437058,
+      "grad_norm": 0.0009702217648737133,
+      "learning_rate": 0.2912752148560773,
+      "loss": 0.313,
+      "num_input_tokens_seen": 4053472,
+      "step": 4365
+    },
+    {
+      "epoch": 2.0603488920320605,
+      "grad_norm": 0.0004102165694348514,
+      "learning_rate": 0.2912554074356866,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 4058000,
+      "step": 4370
+    },
+    {
+      "epoch": 2.062706270627063,
+      "grad_norm": 0.0004951044684275985,
+      "learning_rate": 0.2912355782319371,
+      "loss": 0.3845,
+      "num_input_tokens_seen": 4062160,
+      "step": 4375
+    },
+    {
+      "epoch": 2.065063649222065,
+      "grad_norm": 0.0005250634858384728,
+      "learning_rate": 0.2912157272478864,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 4067008,
+      "step": 4380
+    },
+    {
+      "epoch": 2.0674210278170673,
+      "grad_norm": 0.00031829162617214024,
+      "learning_rate": 0.291195854486596,
+      "loss": 0.3349,
+      "num_input_tokens_seen": 4071696,
+      "step": 4385
+    },
+    {
+      "epoch": 2.0697784064120697,
+      "grad_norm": 0.0005311949644237757,
+      "learning_rate": 0.2911759599511305,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 4076464,
+      "step": 4390
+    },
+    {
+      "epoch": 2.072135785007072,
+      "grad_norm": 0.0010129599831998348,
+      "learning_rate": 0.29115604364455777,
+      "loss": 0.2674,
+      "num_input_tokens_seen": 4081600,
+      "step": 4395
+    },
+    {
+      "epoch": 2.0744931636020745,
+      "grad_norm": 0.0005212658434174955,
+      "learning_rate": 0.2911361055699493,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 4085888,
+      "step": 4400
+    },
+    {
+      "epoch": 2.0744931636020745,
+      "eval_loss": 0.32725974917411804,
+      "eval_runtime": 33.5744,
+      "eval_samples_per_second": 28.087,
+      "eval_steps_per_second": 14.058,
+      "num_input_tokens_seen": 4085888,
+      "step": 4400
+    },
+    {
+      "epoch": 2.076850542197077,
+      "grad_norm": 0.0003295020724181086,
+      "learning_rate": 0.2911161457303797,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 4090096,
+      "step": 4405
+    },
+    {
+      "epoch": 2.0792079207920793,
+      "grad_norm": 0.0005313731380738318,
+      "learning_rate": 0.291096164128927,
+      "loss": 0.3459,
+      "num_input_tokens_seen": 4095136,
+      "step": 4410
+    },
+    {
+      "epoch": 2.0815652993870817,
+      "grad_norm": 0.0003312290646135807,
+      "learning_rate": 0.2910761607686727,
+      "loss": 0.3793,
+      "num_input_tokens_seen": 4099552,
+      "step": 4415
+    },
+    {
+      "epoch": 2.083922677982084,
+      "grad_norm": 0.00045827782014384866,
+      "learning_rate": 0.2910561356527016,
+      "loss": 0.3263,
+      "num_input_tokens_seen": 4104112,
+      "step": 4420
+    },
+    {
+      "epoch": 2.0862800565770865,
+      "grad_norm": 0.001211156020872295,
+      "learning_rate": 0.2910360887841017,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 4108560,
+      "step": 4425
+    },
+    {
+      "epoch": 2.0886374351720884,
+      "grad_norm": 0.000471474981168285,
+      "learning_rate": 0.2910160201659645,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 4113664,
+      "step": 4430
+    },
+    {
+      "epoch": 2.090994813767091,
+      "grad_norm": 0.00036222345079295337,
+      "learning_rate": 0.29099592980138494,
+      "loss": 0.2717,
+      "num_input_tokens_seen": 4118368,
+      "step": 4435
+    },
+    {
+      "epoch": 2.0933521923620932,
+      "grad_norm": 0.0005339769413694739,
+      "learning_rate": 0.29097581769346115,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 4123680,
+      "step": 4440
+    },
+    {
+      "epoch": 2.0957095709570956,
+      "grad_norm": 0.00046295413631014526,
+      "learning_rate": 0.29095568384529463,
+      "loss": 0.3793,
+      "num_input_tokens_seen": 4129536,
+      "step": 4445
+    },
+    {
+      "epoch": 2.098066949552098,
+      "grad_norm": 0.0005380364018492401,
+      "learning_rate": 0.2909355282599903,
+      "loss": 0.323,
+      "num_input_tokens_seen": 4134064,
+      "step": 4450
+    },
+    {
+      "epoch": 2.1004243281471005,
+      "grad_norm": 0.0004019822517875582,
+      "learning_rate": 0.29091535094065635,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 4138368,
+      "step": 4455
+    },
+    {
+      "epoch": 2.102781706742103,
+      "grad_norm": 0.0003753489290829748,
+      "learning_rate": 0.2908951518904045,
+      "loss": 0.2918,
+      "num_input_tokens_seen": 4142896,
+      "step": 4460
+    },
+    {
+      "epoch": 2.1051390853371053,
+      "grad_norm": 0.00029273072141222656,
+      "learning_rate": 0.29087493111234963,
+      "loss": 0.2656,
+      "num_input_tokens_seen": 4147968,
+      "step": 4465
+    },
+    {
+      "epoch": 2.1074964639321077,
+      "grad_norm": 0.0013913429575040936,
+      "learning_rate": 0.29085468860961,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 4153024,
+      "step": 4470
+    },
+    {
+      "epoch": 2.10985384252711,
+      "grad_norm": 0.0002991998044308275,
+      "learning_rate": 0.2908344243853073,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 4157280,
+      "step": 4475
+    },
+    {
+      "epoch": 2.112211221122112,
+      "grad_norm": 0.00029221849399618804,
+      "learning_rate": 0.2908141384425666,
+      "loss": 0.261,
+      "num_input_tokens_seen": 4161824,
+      "step": 4480
+    },
+    {
+      "epoch": 2.1145685997171144,
+      "grad_norm": 0.0008480196120217443,
+      "learning_rate": 0.2907938307845161,
+      "loss": 0.3032,
+      "num_input_tokens_seen": 4167152,
+      "step": 4485
+    },
+    {
+      "epoch": 2.116925978312117,
+      "grad_norm": 0.0006839123088866472,
+      "learning_rate": 0.2907735014142876,
+      "loss": 0.3699,
+      "num_input_tokens_seen": 4172192,
+      "step": 4490
+    },
+    {
+      "epoch": 2.119283356907119,
+      "grad_norm": 0.000621325452812016,
+      "learning_rate": 0.2907531503350161,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 4175920,
+      "step": 4495
+    },
+    {
+      "epoch": 2.1216407355021216,
+      "grad_norm": 0.00036235727020539343,
+      "learning_rate": 0.29073277754983995,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 4180224,
+      "step": 4500
+    },
+    {
+      "epoch": 2.123998114097124,
+      "grad_norm": 0.0006624109810218215,
+      "learning_rate": 0.290712383061901,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 4184528,
+      "step": 4505
+    },
+    {
+      "epoch": 2.1263554926921264,
+      "grad_norm": 0.00047076758346520364,
+      "learning_rate": 0.2906919668743443,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 4189408,
+      "step": 4510
+    },
+    {
+      "epoch": 2.128712871287129,
+      "grad_norm": 0.0010846353834494948,
+      "learning_rate": 0.29067152899031823,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 4193952,
+      "step": 4515
+    },
+    {
+      "epoch": 2.1310702498821312,
+      "grad_norm": 0.0011289439862594008,
+      "learning_rate": 0.2906510694129746,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 4198320,
+      "step": 4520
+    },
+    {
+      "epoch": 2.1334276284771336,
+      "grad_norm": 0.0005006834981031716,
+      "learning_rate": 0.2906305881454685,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 4203152,
+      "step": 4525
+    },
+    {
+      "epoch": 2.1357850070721356,
+      "grad_norm": 0.0007503482629545033,
+      "learning_rate": 0.2906100851909585,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 4208176,
+      "step": 4530
+    },
+    {
+      "epoch": 2.138142385667138,
+      "grad_norm": 0.0006666271365247667,
+      "learning_rate": 0.29058956055260626,
+      "loss": 0.345,
+      "num_input_tokens_seen": 4212832,
+      "step": 4535
+    },
+    {
+      "epoch": 2.1404997642621404,
+      "grad_norm": 0.001088055083528161,
+      "learning_rate": 0.2905690142335771,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 4217824,
+      "step": 4540
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 0.0013919094344601035,
+      "learning_rate": 0.29054844623703946,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 4222848,
+      "step": 4545
+    },
+    {
+      "epoch": 2.145214521452145,
+      "grad_norm": 0.0009673124295659363,
+      "learning_rate": 0.2905278565661651,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 4227488,
+      "step": 4550
+    },
+    {
+      "epoch": 2.1475719000471476,
+      "grad_norm": 0.0005222531617619097,
+      "learning_rate": 0.2905072452241293,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 4231632,
+      "step": 4555
+    },
+    {
+      "epoch": 2.14992927864215,
+      "grad_norm": 0.0010849855607375503,
+      "learning_rate": 0.2904866122141106,
+      "loss": 0.3487,
+      "num_input_tokens_seen": 4236208,
+      "step": 4560
+    },
+    {
+      "epoch": 2.1522866572371524,
+      "grad_norm": 0.0007161469548009336,
+      "learning_rate": 0.2904659575392908,
+      "loss": 0.3512,
+      "num_input_tokens_seen": 4240288,
+      "step": 4565
+    },
+    {
+      "epoch": 2.154644035832155,
+      "grad_norm": 0.0007929434650577605,
+      "learning_rate": 0.2904452812028551,
+      "loss": 0.356,
+      "num_input_tokens_seen": 4244624,
+      "step": 4570
+    },
+    {
+      "epoch": 2.157001414427157,
+      "grad_norm": 0.0015363793354481459,
+      "learning_rate": 0.2904245832079922,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 4248544,
+      "step": 4575
+    },
+    {
+      "epoch": 2.159358793022159,
+      "grad_norm": 0.0010770951630547643,
+      "learning_rate": 0.29040386355789377,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 4253728,
+      "step": 4580
+    },
+    {
+      "epoch": 2.1617161716171616,
+      "grad_norm": 0.0011840339284390211,
+      "learning_rate": 0.29038312225575524,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 4258144,
+      "step": 4585
+    },
+    {
+      "epoch": 2.164073550212164,
+      "grad_norm": 0.0010846697259694338,
+      "learning_rate": 0.29036235930477505,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 4262640,
+      "step": 4590
+    },
+    {
+      "epoch": 2.1664309288071664,
+      "grad_norm": 0.00037887427606619895,
+      "learning_rate": 0.29034157470815514,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 4267024,
+      "step": 4595
+    },
+    {
+      "epoch": 2.1687883074021688,
+      "grad_norm": 0.001173457014374435,
+      "learning_rate": 0.2903207684691008,
+      "loss": 0.4222,
+      "num_input_tokens_seen": 4271936,
+      "step": 4600
+    },
+    {
+      "epoch": 2.1687883074021688,
+      "eval_loss": 0.32656148076057434,
+      "eval_runtime": 33.5224,
+      "eval_samples_per_second": 28.13,
+      "eval_steps_per_second": 14.08,
+      "num_input_tokens_seen": 4271936,
+      "step": 4600
+    },
+    {
+      "epoch": 2.171145685997171,
+      "grad_norm": 0.000744846707675606,
+      "learning_rate": 0.29029994059082054,
+      "loss": 0.398,
+      "num_input_tokens_seen": 4276608,
+      "step": 4605
+    },
+    {
+      "epoch": 2.1735030645921736,
+      "grad_norm": 0.0006026483606547117,
+      "learning_rate": 0.2902790910765264,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 4281360,
+      "step": 4610
+    },
+    {
+      "epoch": 2.175860443187176,
+      "grad_norm": 0.0009191129356622696,
+      "learning_rate": 0.29025821992943346,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 4286192,
+      "step": 4615
+    },
+    {
+      "epoch": 2.1782178217821784,
+      "grad_norm": 0.000675099203363061,
+      "learning_rate": 0.29023732715276046,
+      "loss": 0.3349,
+      "num_input_tokens_seen": 4290864,
+      "step": 4620
+    },
+    {
+      "epoch": 2.1805752003771808,
+      "grad_norm": 0.0007344585028477013,
+      "learning_rate": 0.2902164127497293,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 4295952,
+      "step": 4625
+    },
+    {
+      "epoch": 2.1829325789721827,
+      "grad_norm": 0.0004982978571206331,
+      "learning_rate": 0.2901954767235652,
+      "loss": 0.334,
+      "num_input_tokens_seen": 4300208,
+      "step": 4630
+    },
+    {
+      "epoch": 2.185289957567185,
+      "grad_norm": 0.0010584696428850293,
+      "learning_rate": 0.2901745190774968,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 4305024,
+      "step": 4635
+    },
+    {
+      "epoch": 2.1876473361621875,
+      "grad_norm": 0.0010441869962960482,
+      "learning_rate": 0.290153539814756,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 4309920,
+      "step": 4640
+    },
+    {
+      "epoch": 2.19000471475719,
+      "grad_norm": 0.0005471967742778361,
+      "learning_rate": 0.2901325389385781,
+      "loss": 0.2608,
+      "num_input_tokens_seen": 4314752,
+      "step": 4645
+    },
+    {
+      "epoch": 2.1923620933521923,
+      "grad_norm": 0.0006208121194504201,
+      "learning_rate": 0.2901115164522016,
+      "loss": 0.3838,
+      "num_input_tokens_seen": 4319040,
+      "step": 4650
+    },
+    {
+      "epoch": 2.1947194719471947,
+      "grad_norm": 0.0009427589830011129,
+      "learning_rate": 0.29009047235886865,
+      "loss": 0.3232,
+      "num_input_tokens_seen": 4323488,
+      "step": 4655
+    },
+    {
+      "epoch": 2.197076850542197,
+      "grad_norm": 0.0005125474999658763,
+      "learning_rate": 0.2900694066618243,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 4327600,
+      "step": 4660
+    },
+    {
+      "epoch": 2.1994342291371995,
+      "grad_norm": 0.000627735280431807,
+      "learning_rate": 0.2900483193643172,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 4331888,
+      "step": 4665
+    },
+    {
+      "epoch": 2.201791607732202,
+      "grad_norm": 0.00046152411960065365,
+      "learning_rate": 0.29002721046959934,
+      "loss": 0.3089,
+      "num_input_tokens_seen": 4336128,
+      "step": 4670
+    },
+    {
+      "epoch": 2.2041489863272044,
+      "grad_norm": 0.0022313478402793407,
+      "learning_rate": 0.29000607998092587,
+      "loss": 0.3848,
+      "num_input_tokens_seen": 4340160,
+      "step": 4675
+    },
+    {
+      "epoch": 2.2065063649222063,
+      "grad_norm": 0.0013043646467849612,
+      "learning_rate": 0.2899849279015555,
+      "loss": 0.321,
+      "num_input_tokens_seen": 4345264,
+      "step": 4680
+    },
+    {
+      "epoch": 2.2088637435172087,
+      "grad_norm": 0.0013018983881920576,
+      "learning_rate": 0.28996375423475007,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 4350112,
+      "step": 4685
+    },
+    {
+      "epoch": 2.211221122112211,
+      "grad_norm": 0.000781942275352776,
+      "learning_rate": 0.28994255898377486,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 4354400,
+      "step": 4690
+    },
+    {
+      "epoch": 2.2135785007072135,
+      "grad_norm": 0.0007381723262369633,
+      "learning_rate": 0.2899213421518984,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 4358432,
+      "step": 4695
+    },
+    {
+      "epoch": 2.215935879302216,
+      "grad_norm": 0.0008484988356940448,
+      "learning_rate": 0.2899001037423926,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 4362432,
+      "step": 4700
+    },
+    {
+      "epoch": 2.2182932578972183,
+      "grad_norm": 0.0013138544745743275,
+      "learning_rate": 0.28987884375853273,
+      "loss": 0.3065,
+      "num_input_tokens_seen": 4367552,
+      "step": 4705
+    },
+    {
+      "epoch": 2.2206506364922207,
+      "grad_norm": 0.0007285140454769135,
+      "learning_rate": 0.2898575622035974,
+      "loss": 0.3531,
+      "num_input_tokens_seen": 4371808,
+      "step": 4710
+    },
+    {
+      "epoch": 2.223008015087223,
+      "grad_norm": 0.0010650893673300743,
+      "learning_rate": 0.2898362590808683,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 4376176,
+      "step": 4715
+    },
+    {
+      "epoch": 2.2253653936822255,
+      "grad_norm": 0.003927308600395918,
+      "learning_rate": 0.2898149343936308,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 4379840,
+      "step": 4720
+    },
+    {
+      "epoch": 2.227722772277228,
+      "grad_norm": 0.0010933317244052887,
+      "learning_rate": 0.2897935881451734,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 4384688,
+      "step": 4725
+    },
+    {
+      "epoch": 2.23008015087223,
+      "grad_norm": 0.0006373464711941779,
+      "learning_rate": 0.28977222033878797,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 4389376,
+      "step": 4730
+    },
+    {
+      "epoch": 2.2324375294672323,
+      "grad_norm": 0.0005117717082612216,
+      "learning_rate": 0.28975083097776966,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 4393568,
+      "step": 4735
+    },
+    {
+      "epoch": 2.2347949080622347,
+      "grad_norm": 0.0014926823787391186,
+      "learning_rate": 0.28972942006541696,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 4400304,
+      "step": 4740
+    },
+    {
+      "epoch": 2.237152286657237,
+      "grad_norm": 0.0004923623637296259,
+      "learning_rate": 0.2897079876050318,
+      "loss": 0.3807,
+      "num_input_tokens_seen": 4406080,
+      "step": 4745
+    },
+    {
+      "epoch": 2.2395096652522395,
+      "grad_norm": 0.0005560540012083948,
+      "learning_rate": 0.2896865335999192,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 4410704,
+      "step": 4750
+    },
+    {
+      "epoch": 2.241867043847242,
+      "grad_norm": 0.0012946849456056952,
+      "learning_rate": 0.28966505805338777,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 4415552,
+      "step": 4755
+    },
+    {
+      "epoch": 2.2442244224422443,
+      "grad_norm": 0.0003199493221472949,
+      "learning_rate": 0.2896435609687492,
+      "loss": 0.332,
+      "num_input_tokens_seen": 4420528,
+      "step": 4760
+    },
+    {
+      "epoch": 2.2465818010372467,
+      "grad_norm": 0.00031537594622932374,
+      "learning_rate": 0.2896220423493187,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 4424512,
+      "step": 4765
+    },
+    {
+      "epoch": 2.248939179632249,
+      "grad_norm": 0.0004171939508523792,
+      "learning_rate": 0.28960050219841466,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 4429072,
+      "step": 4770
+    },
+    {
+      "epoch": 2.251296558227251,
+      "grad_norm": 0.0010132177267223597,
+      "learning_rate": 0.28957894051935884,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 4432896,
+      "step": 4775
+    },
+    {
+      "epoch": 2.2536539368222535,
+      "grad_norm": 0.0004279844870325178,
+      "learning_rate": 0.2895573573154764,
+      "loss": 0.2978,
+      "num_input_tokens_seen": 4437792,
+      "step": 4780
+    },
+    {
+      "epoch": 2.256011315417256,
+      "grad_norm": 0.0006925704656168818,
+      "learning_rate": 0.28953575259009556,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 4442736,
+      "step": 4785
+    },
+    {
+      "epoch": 2.2583686940122583,
+      "grad_norm": 0.0011390859726816416,
+      "learning_rate": 0.2895141263465482,
+      "loss": 0.2729,
+      "num_input_tokens_seen": 4447824,
+      "step": 4790
+    },
+    {
+      "epoch": 2.2607260726072607,
+      "grad_norm": 0.0003275278431829065,
+      "learning_rate": 0.28949247858816934,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 4451936,
+      "step": 4795
+    },
+    {
+      "epoch": 2.263083451202263,
+      "grad_norm": 0.0008746245875954628,
+      "learning_rate": 0.2894708093182973,
+      "loss": 0.2797,
+      "num_input_tokens_seen": 4456320,
+      "step": 4800
+    },
+    {
+      "epoch": 2.263083451202263,
+      "eval_loss": 0.3313846290111542,
+      "eval_runtime": 33.5734,
+      "eval_samples_per_second": 28.088,
+      "eval_steps_per_second": 14.059,
+      "num_input_tokens_seen": 4456320,
+      "step": 4800
+    },
+    {
+      "epoch": 2.2654408297972655,
+      "grad_norm": 0.0012951039243489504,
+      "learning_rate": 0.2894491185402737,
+      "loss": 0.4447,
+      "num_input_tokens_seen": 4461184,
+      "step": 4805
+    },
+    {
+      "epoch": 2.267798208392268,
+      "grad_norm": 0.0012331658508628607,
+      "learning_rate": 0.2894274062574437,
+      "loss": 0.3832,
+      "num_input_tokens_seen": 4465088,
+      "step": 4810
+    },
+    {
+      "epoch": 2.2701555869872703,
+      "grad_norm": 0.0004749911604449153,
+      "learning_rate": 0.2894056724731554,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 4469360,
+      "step": 4815
+    },
+    {
+      "epoch": 2.2725129655822727,
+      "grad_norm": 0.00034625461557880044,
+      "learning_rate": 0.28938391719076056,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 4473840,
+      "step": 4820
+    },
+    {
+      "epoch": 2.274870344177275,
+      "grad_norm": 0.0003445517795626074,
+      "learning_rate": 0.28936214041361413,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 4478640,
+      "step": 4825
+    },
+    {
+      "epoch": 2.2772277227722775,
+      "grad_norm": 0.0004142574325669557,
+      "learning_rate": 0.2893403421450743,
+      "loss": 0.2942,
+      "num_input_tokens_seen": 4483344,
+      "step": 4830
+    },
+    {
+      "epoch": 2.2795851013672794,
+      "grad_norm": 0.001670635538175702,
+      "learning_rate": 0.2893185223885026,
+      "loss": 0.3648,
+      "num_input_tokens_seen": 4487680,
+      "step": 4835
+    },
+    {
+      "epoch": 2.281942479962282,
+      "grad_norm": 0.000993689289316535,
+      "learning_rate": 0.289296681147264,
+      "loss": 0.372,
+      "num_input_tokens_seen": 4492176,
+      "step": 4840
+    },
+    {
+      "epoch": 2.2842998585572842,
+      "grad_norm": 0.0004567044379655272,
+      "learning_rate": 0.28927481842472663,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 4496912,
+      "step": 4845
+    },
+    {
+      "epoch": 2.2866572371522866,
+      "grad_norm": 0.0004932140000164509,
+      "learning_rate": 0.28925293422426207,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 4501920,
+      "step": 4850
+    },
+    {
+      "epoch": 2.289014615747289,
+      "grad_norm": 0.00042449383181519806,
+      "learning_rate": 0.28923102854924504,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 4506624,
+      "step": 4855
+    },
+    {
+      "epoch": 2.2913719943422914,
+      "grad_norm": 0.00039843289414420724,
+      "learning_rate": 0.2892091014030537,
+      "loss": 0.3815,
+      "num_input_tokens_seen": 4509984,
+      "step": 4860
+    },
+    {
+      "epoch": 2.293729372937294,
+      "grad_norm": 0.0005139590357430279,
+      "learning_rate": 0.2891871527890696,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 4515008,
+      "step": 4865
+    },
+    {
+      "epoch": 2.2960867515322962,
+      "grad_norm": 0.0009830149356275797,
+      "learning_rate": 0.2891651827106773,
+      "loss": 0.2947,
+      "num_input_tokens_seen": 4520432,
+      "step": 4870
+    },
+    {
+      "epoch": 2.298444130127298,
+      "grad_norm": 0.0009463283349759877,
+      "learning_rate": 0.2891431911712651,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 4524752,
+      "step": 4875
+    },
+    {
+      "epoch": 2.3008015087223006,
+      "grad_norm": 0.001810486544854939,
+      "learning_rate": 0.2891211781742241,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 4528880,
+      "step": 4880
+    },
+    {
+      "epoch": 2.303158887317303,
+      "grad_norm": 0.0003255919727962464,
+      "learning_rate": 0.2890991437229492,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 4532912,
+      "step": 4885
+    },
+    {
+      "epoch": 2.3055162659123054,
+      "grad_norm": 0.0003965021460317075,
+      "learning_rate": 0.2890770878208383,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 4537312,
+      "step": 4890
+    },
+    {
+      "epoch": 2.307873644507308,
+      "grad_norm": 0.00035305091296322644,
+      "learning_rate": 0.28905501047129273,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 4542128,
+      "step": 4895
+    },
+    {
+      "epoch": 2.31023102310231,
+      "grad_norm": 0.0003776109660975635,
+      "learning_rate": 0.289032911677717,
+      "loss": 0.2712,
+      "num_input_tokens_seen": 4546224,
+      "step": 4900
+    },
+    {
+      "epoch": 2.3125884016973126,
+      "grad_norm": 0.0004892190336249769,
+      "learning_rate": 0.28901079144351915,
+      "loss": 0.32,
+      "num_input_tokens_seen": 4551200,
+      "step": 4905
+    },
+    {
+      "epoch": 2.314945780292315,
+      "grad_norm": 0.0005584369064308703,
+      "learning_rate": 0.2889886497721103,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 4556336,
+      "step": 4910
+    },
+    {
+      "epoch": 2.3173031588873174,
+      "grad_norm": 0.00026682321913540363,
+      "learning_rate": 0.28896648666690505,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 4561408,
+      "step": 4915
+    },
+    {
+      "epoch": 2.31966053748232,
+      "grad_norm": 0.0013424219796434045,
+      "learning_rate": 0.2889443021313212,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 4566032,
+      "step": 4920
+    },
+    {
+      "epoch": 2.322017916077322,
+      "grad_norm": 0.0003563074569683522,
+      "learning_rate": 0.28892209616877984,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 4570368,
+      "step": 4925
+    },
+    {
+      "epoch": 2.3243752946723246,
+      "grad_norm": 0.0003152435820084065,
+      "learning_rate": 0.28889986878270546,
+      "loss": 0.317,
+      "num_input_tokens_seen": 4573840,
+      "step": 4930
+    },
+    {
+      "epoch": 2.3267326732673266,
+      "grad_norm": 0.00038280669832602143,
+      "learning_rate": 0.28887761997652583,
+      "loss": 0.3069,
+      "num_input_tokens_seen": 4578224,
+      "step": 4935
+    },
+    {
+      "epoch": 2.329090051862329,
+      "grad_norm": 0.0010323559399694204,
+      "learning_rate": 0.2888553497536719,
+      "loss": 0.3995,
+      "num_input_tokens_seen": 4582176,
+      "step": 4940
+    },
+    {
+      "epoch": 2.3314474304573314,
+      "grad_norm": 0.000466240308014676,
+      "learning_rate": 0.2888330581175781,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 4586480,
+      "step": 4945
+    },
+    {
+      "epoch": 2.333804809052334,
+      "grad_norm": 0.00039337502676062286,
+      "learning_rate": 0.28881074507168203,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 4591152,
+      "step": 4950
+    },
+    {
+      "epoch": 2.336162187647336,
+      "grad_norm": 0.00031029645469971,
+      "learning_rate": 0.2887884106194247,
+      "loss": 0.364,
+      "num_input_tokens_seen": 4595424,
+      "step": 4955
+    },
+    {
+      "epoch": 2.3385195662423386,
+      "grad_norm": 0.000695997616276145,
+      "learning_rate": 0.28876605476425027,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 4600176,
+      "step": 4960
+    },
+    {
+      "epoch": 2.340876944837341,
+      "grad_norm": 0.00026365069788880646,
+      "learning_rate": 0.2887436775096064,
+      "loss": 0.3581,
+      "num_input_tokens_seen": 4604688,
+      "step": 4965
+    },
+    {
+      "epoch": 2.3432343234323434,
+      "grad_norm": 0.0007064339006319642,
+      "learning_rate": 0.2887212788589439,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 4610416,
+      "step": 4970
+    },
+    {
+      "epoch": 2.3455917020273453,
+      "grad_norm": 0.0012350620236247778,
+      "learning_rate": 0.2886988588157169,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 4615840,
+      "step": 4975
+    },
+    {
+      "epoch": 2.3479490806223478,
+      "grad_norm": 0.000647037522867322,
+      "learning_rate": 0.28867641738338284,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 4620256,
+      "step": 4980
+    },
+    {
+      "epoch": 2.35030645921735,
+      "grad_norm": 0.00031331280479207635,
+      "learning_rate": 0.2886539545654026,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 4624448,
+      "step": 4985
+    },
+    {
+      "epoch": 2.3526638378123526,
+      "grad_norm": 0.0003928408841602504,
+      "learning_rate": 0.28863147036524006,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 4629024,
+      "step": 4990
+    },
+    {
+      "epoch": 2.355021216407355,
+      "grad_norm": 0.00046619042404927313,
+      "learning_rate": 0.2886089647863626,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 4633680,
+      "step": 4995
+    },
+    {
+      "epoch": 2.3573785950023574,
+      "grad_norm": 0.0003624492383096367,
+      "learning_rate": 0.288586437832241,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 4638512,
+      "step": 5000
+    },
+    {
+      "epoch": 2.3573785950023574,
+      "eval_loss": 0.32777705788612366,
+      "eval_runtime": 33.5735,
+      "eval_samples_per_second": 28.088,
+      "eval_steps_per_second": 14.059,
+      "num_input_tokens_seen": 4638512,
+      "step": 5000
+    },
+    {
+      "epoch": 2.3597359735973598,
+      "grad_norm": 0.000940831727348268,
+      "learning_rate": 0.28856388950634904,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 4642288,
+      "step": 5005
+    },
+    {
+      "epoch": 2.362093352192362,
+      "grad_norm": 0.0004358153964858502,
+      "learning_rate": 0.288541319812164,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 4647056,
+      "step": 5010
+    },
+    {
+      "epoch": 2.3644507307873646,
+      "grad_norm": 0.00039568162173964083,
+      "learning_rate": 0.2885187287531665,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 4651040,
+      "step": 5015
+    },
+    {
+      "epoch": 2.366808109382367,
+      "grad_norm": 0.0003735830541700125,
+      "learning_rate": 0.2884961163328402,
+      "loss": 0.3655,
+      "num_input_tokens_seen": 4656624,
+      "step": 5020
+    },
+    {
+      "epoch": 2.3691654879773694,
+      "grad_norm": 0.0009514371631667018,
+      "learning_rate": 0.28847348255467237,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 4662144,
+      "step": 5025
+    },
+    {
+      "epoch": 2.3715228665723718,
+      "grad_norm": 0.001219304045662284,
+      "learning_rate": 0.28845082742215333,
+      "loss": 0.3015,
+      "num_input_tokens_seen": 4666992,
+      "step": 5030
+    },
+    {
+      "epoch": 2.3738802451673737,
+      "grad_norm": 0.0009352687047794461,
+      "learning_rate": 0.2884281509387769,
+      "loss": 0.3356,
+      "num_input_tokens_seen": 4671344,
+      "step": 5035
+    },
+    {
+      "epoch": 2.376237623762376,
+      "grad_norm": 0.0005445389542728662,
+      "learning_rate": 0.2884054531080399,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 4675648,
+      "step": 5040
+    },
+    {
+      "epoch": 2.3785950023573785,
+      "grad_norm": 0.0009654434397816658,
+      "learning_rate": 0.28838273393344277,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 4680576,
+      "step": 5045
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 0.0005918371025472879,
+      "learning_rate": 0.288359993418489,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 4686032,
+      "step": 5050
+    },
+    {
+      "epoch": 2.3833097595473833,
+      "grad_norm": 0.00042762490920722485,
+      "learning_rate": 0.28833723156668556,
+      "loss": 0.3584,
+      "num_input_tokens_seen": 4690032,
+      "step": 5055
+    },
+    {
+      "epoch": 2.3856671381423857,
+      "grad_norm": 0.0009222652297466993,
+      "learning_rate": 0.2883144483815425,
+      "loss": 0.3729,
+      "num_input_tokens_seen": 4694784,
+      "step": 5060
+    },
+    {
+      "epoch": 2.388024516737388,
+      "grad_norm": 0.0008888925658538938,
+      "learning_rate": 0.28829164386657335,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 4699040,
+      "step": 5065
+    },
+    {
+      "epoch": 2.3903818953323905,
+      "grad_norm": 0.000974099850282073,
+      "learning_rate": 0.28826881802529486,
+      "loss": 0.3127,
+      "num_input_tokens_seen": 4703648,
+      "step": 5070
+    },
+    {
+      "epoch": 2.3927392739273925,
+      "grad_norm": 0.00035457624471746385,
+      "learning_rate": 0.28824597086122705,
+      "loss": 0.3687,
+      "num_input_tokens_seen": 4708112,
+      "step": 5075
+    },
+    {
+      "epoch": 2.395096652522395,
+      "grad_norm": 0.0011220156447961926,
+      "learning_rate": 0.28822310237789317,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 4712640,
+      "step": 5080
+    },
+    {
+      "epoch": 2.3974540311173973,
+      "grad_norm": 0.00030890776542946696,
+      "learning_rate": 0.2882002125788199,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 4717600,
+      "step": 5085
+    },
+    {
+      "epoch": 2.3998114097123997,
+      "grad_norm": 0.0013337121345102787,
+      "learning_rate": 0.2881773014675371,
+      "loss": 0.379,
+      "num_input_tokens_seen": 4722144,
+      "step": 5090
+    },
+    {
+      "epoch": 2.402168788307402,
+      "grad_norm": 0.0006034150719642639,
+      "learning_rate": 0.288154369047578,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 4727344,
+      "step": 5095
+    },
+    {
+      "epoch": 2.4045261669024045,
+      "grad_norm": 0.001084864023141563,
+      "learning_rate": 0.28813141532247905,
+      "loss": 0.3191,
+      "num_input_tokens_seen": 4731936,
+      "step": 5100
+    },
+    {
+      "epoch": 2.406883545497407,
+      "grad_norm": 0.00041332360706292093,
+      "learning_rate": 0.28810844029578,
+      "loss": 0.3012,
+      "num_input_tokens_seen": 4736832,
+      "step": 5105
+    },
+    {
+      "epoch": 2.4092409240924093,
+      "grad_norm": 0.0006556926527991891,
+      "learning_rate": 0.2880854439710238,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 4740848,
+      "step": 5110
+    },
+    {
+      "epoch": 2.4115983026874117,
+      "grad_norm": 0.000996165326796472,
+      "learning_rate": 0.28806242635175694,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 4747168,
+      "step": 5115
+    },
+    {
+      "epoch": 2.413955681282414,
+      "grad_norm": 0.0014282891061156988,
+      "learning_rate": 0.2880393874415289,
+      "loss": 0.3993,
+      "num_input_tokens_seen": 4752288,
+      "step": 5120
+    },
+    {
+      "epoch": 2.4163130598774165,
+      "grad_norm": 0.0010422617197036743,
+      "learning_rate": 0.2880163272438926,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 4757856,
+      "step": 5125
+    },
+    {
+      "epoch": 2.418670438472419,
+      "grad_norm": 0.0010666917078197002,
+      "learning_rate": 0.2879932457624042,
+      "loss": 0.2644,
+      "num_input_tokens_seen": 4762832,
+      "step": 5130
+    },
+    {
+      "epoch": 2.421027817067421,
+      "grad_norm": 0.0003952036495320499,
+      "learning_rate": 0.2879701430006232,
+      "loss": 0.3734,
+      "num_input_tokens_seen": 4767616,
+      "step": 5135
+    },
+    {
+      "epoch": 2.4233851956624233,
+      "grad_norm": 0.001055356115102768,
+      "learning_rate": 0.28794701896211233,
+      "loss": 0.3766,
+      "num_input_tokens_seen": 4772736,
+      "step": 5140
+    },
+    {
+      "epoch": 2.4257425742574257,
+      "grad_norm": 0.00042624594061635435,
+      "learning_rate": 0.28792387365043753,
+      "loss": 0.3512,
+      "num_input_tokens_seen": 4776224,
+      "step": 5145
+    },
+    {
+      "epoch": 2.428099952852428,
+      "grad_norm": 0.000922289676964283,
+      "learning_rate": 0.28790070706916815,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 4782192,
+      "step": 5150
+    },
+    {
+      "epoch": 2.4304573314474305,
+      "grad_norm": 0.0005102012655697763,
+      "learning_rate": 0.2878775192218768,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 4788992,
+      "step": 5155
+    },
+    {
+      "epoch": 2.432814710042433,
+      "grad_norm": 0.0009912396781146526,
+      "learning_rate": 0.2878543101121393,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 4793936,
+      "step": 5160
+    },
+    {
+      "epoch": 2.4351720886374353,
+      "grad_norm": 0.0003338093520142138,
+      "learning_rate": 0.28783107974353483,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 4798400,
+      "step": 5165
+    },
+    {
+      "epoch": 2.4375294672324377,
+      "grad_norm": 0.0004451108106877655,
+      "learning_rate": 0.2878078281196457,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 4803296,
+      "step": 5170
+    },
+    {
+      "epoch": 2.4398868458274396,
+      "grad_norm": 0.000345653883414343,
+      "learning_rate": 0.28778455524405777,
+      "loss": 0.388,
+      "num_input_tokens_seen": 4807312,
+      "step": 5175
+    },
+    {
+      "epoch": 2.442244224422442,
+      "grad_norm": 0.0008570115314796567,
+      "learning_rate": 0.2877612611203598,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 4811328,
+      "step": 5180
+    },
+    {
+      "epoch": 2.4446016030174444,
+      "grad_norm": 0.0004237669054418802,
+      "learning_rate": 0.28773794575214423,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 4816112,
+      "step": 5185
+    },
+    {
+      "epoch": 2.446958981612447,
+      "grad_norm": 0.00041808123933151364,
+      "learning_rate": 0.28771460914300645,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 4820384,
+      "step": 5190
+    },
+    {
+      "epoch": 2.4493163602074493,
+      "grad_norm": 0.0006030116346664727,
+      "learning_rate": 0.2876912512965454,
+      "loss": 0.348,
+      "num_input_tokens_seen": 4826160,
+      "step": 5195
+    },
+    {
+      "epoch": 2.4516737388024517,
+      "grad_norm": 0.0008089568000286818,
+      "learning_rate": 0.287667872216363,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 4830688,
+      "step": 5200
+    },
+    {
+      "epoch": 2.4516737388024517,
+      "eval_loss": 0.3283120095729828,
+      "eval_runtime": 33.5709,
+      "eval_samples_per_second": 28.09,
+      "eval_steps_per_second": 14.06,
+      "num_input_tokens_seen": 4830688,
+      "step": 5200
+    },
+    {
+      "epoch": 2.454031117397454,
+      "grad_norm": 0.0005368787096813321,
+      "learning_rate": 0.2876444719060647,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 4835520,
+      "step": 5205
+    },
+    {
+      "epoch": 2.4563884959924565,
+      "grad_norm": 0.0007875020382925868,
+      "learning_rate": 0.287621050369259,
+      "loss": 0.3587,
+      "num_input_tokens_seen": 4839280,
+      "step": 5210
+    },
+    {
+      "epoch": 2.458745874587459,
+      "grad_norm": 0.0004379508027341217,
+      "learning_rate": 0.28759760760955794,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 4843904,
+      "step": 5215
+    },
+    {
+      "epoch": 2.4611032531824613,
+      "grad_norm": 0.0003718930820468813,
+      "learning_rate": 0.2875741436305766,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 4848400,
+      "step": 5220
+    },
+    {
+      "epoch": 2.4634606317774637,
+      "grad_norm": 0.0009815380908548832,
+      "learning_rate": 0.28755065843593347,
+      "loss": 0.341,
+      "num_input_tokens_seen": 4852528,
+      "step": 5225
+    },
+    {
+      "epoch": 2.465818010372466,
+      "grad_norm": 0.0010978671489283442,
+      "learning_rate": 0.2875271520292502,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 4856848,
+      "step": 5230
+    },
+    {
+      "epoch": 2.468175388967468,
+      "grad_norm": 0.0003869474458042532,
+      "learning_rate": 0.28750362441415184,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 4861680,
+      "step": 5235
+    },
+    {
+      "epoch": 2.4705327675624704,
+      "grad_norm": 0.00039909707265906036,
+      "learning_rate": 0.28748007559426664,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 4867440,
+      "step": 5240
+    },
+    {
+      "epoch": 2.472890146157473,
+      "grad_norm": 0.0008902017725631595,
+      "learning_rate": 0.2874565055732261,
+      "loss": 0.3561,
+      "num_input_tokens_seen": 4873488,
+      "step": 5245
+    },
+    {
+      "epoch": 2.4752475247524752,
+      "grad_norm": 0.00046390315401367843,
+      "learning_rate": 0.28743291435466495,
+      "loss": 0.318,
+      "num_input_tokens_seen": 4878768,
+      "step": 5250
+    },
+    {
+      "epoch": 2.4776049033474776,
+      "grad_norm": 0.00035371744888834655,
+      "learning_rate": 0.2874093019422214,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 4883440,
+      "step": 5255
+    },
+    {
+      "epoch": 2.47996228194248,
+      "grad_norm": 0.0008179498836398125,
+      "learning_rate": 0.28738566833953666,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 4888272,
+      "step": 5260
+    },
+    {
+      "epoch": 2.4823196605374824,
+      "grad_norm": 0.00047225263551808894,
+      "learning_rate": 0.28736201355025537,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 4892992,
+      "step": 5265
+    },
+    {
+      "epoch": 2.484677039132485,
+      "grad_norm": 0.000960125878918916,
+      "learning_rate": 0.28733833757802535,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 4898352,
+      "step": 5270
+    },
+    {
+      "epoch": 2.487034417727487,
+      "grad_norm": 0.0003762214910238981,
+      "learning_rate": 0.28731464042649785,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 4903696,
+      "step": 5275
+    },
+    {
+      "epoch": 2.489391796322489,
+      "grad_norm": 0.0003775651566684246,
+      "learning_rate": 0.2872909220993271,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 4908688,
+      "step": 5280
+    },
+    {
+      "epoch": 2.4917491749174916,
+      "grad_norm": 0.00044885894749313593,
+      "learning_rate": 0.287267182600171,
+      "loss": 0.2921,
+      "num_input_tokens_seen": 4913200,
+      "step": 5285
+    },
+    {
+      "epoch": 2.494106553512494,
+      "grad_norm": 0.0005067434394732118,
+      "learning_rate": 0.2872434219326902,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 4919120,
+      "step": 5290
+    },
+    {
+      "epoch": 2.4964639321074964,
+      "grad_norm": 0.0004901603679172695,
+      "learning_rate": 0.28721964010054907,
+      "loss": 0.3671,
+      "num_input_tokens_seen": 4923568,
+      "step": 5295
+    },
+    {
+      "epoch": 2.498821310702499,
+      "grad_norm": 0.00037902971962466836,
+      "learning_rate": 0.28719583710741503,
+      "loss": 0.3375,
+      "num_input_tokens_seen": 4928224,
+      "step": 5300
+    },
+    {
+      "epoch": 2.501178689297501,
+      "grad_norm": 0.00046530948020517826,
+      "learning_rate": 0.28717201295695877,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 4932736,
+      "step": 5305
+    },
+    {
+      "epoch": 2.5035360678925036,
+      "grad_norm": 0.00036840460961684585,
+      "learning_rate": 0.28714816765285434,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 4937344,
+      "step": 5310
+    },
+    {
+      "epoch": 2.505893446487506,
+      "grad_norm": 0.0004988592700101435,
+      "learning_rate": 0.28712430119877896,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 4942192,
+      "step": 5315
+    },
+    {
+      "epoch": 2.5082508250825084,
+      "grad_norm": 0.0005651742685586214,
+      "learning_rate": 0.28710041359841304,
+      "loss": 0.322,
+      "num_input_tokens_seen": 4946288,
+      "step": 5320
+    },
+    {
+      "epoch": 2.510608203677511,
+      "grad_norm": 0.001192040159367025,
+      "learning_rate": 0.28707650485544056,
+      "loss": 0.2838,
+      "num_input_tokens_seen": 4950432,
+      "step": 5325
+    },
+    {
+      "epoch": 2.512965582272513,
+      "grad_norm": 0.00047335014096461236,
+      "learning_rate": 0.28705257497354836,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 4954384,
+      "step": 5330
+    },
+    {
+      "epoch": 2.515322960867515,
+      "grad_norm": 0.0009556649602018297,
+      "learning_rate": 0.28702862395642675,
+      "loss": 0.3642,
+      "num_input_tokens_seen": 4958768,
+      "step": 5335
+    },
+    {
+      "epoch": 2.5176803394625176,
+      "grad_norm": 0.0006045996560715139,
+      "learning_rate": 0.28700465180776935,
+      "loss": 0.2951,
+      "num_input_tokens_seen": 4963360,
+      "step": 5340
+    },
+    {
+      "epoch": 2.52003771805752,
+      "grad_norm": 0.0013992663007229567,
+      "learning_rate": 0.2869806585312729,
+      "loss": 0.3624,
+      "num_input_tokens_seen": 4967696,
+      "step": 5345
+    },
+    {
+      "epoch": 2.5223950966525224,
+      "grad_norm": 0.0011294602882117033,
+      "learning_rate": 0.28695664413063754,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 4972320,
+      "step": 5350
+    },
+    {
+      "epoch": 2.5247524752475248,
+      "grad_norm": 0.0012297499924898148,
+      "learning_rate": 0.28693260860956654,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 4976032,
+      "step": 5355
+    },
+    {
+      "epoch": 2.527109853842527,
+      "grad_norm": 0.0012562532210722566,
+      "learning_rate": 0.2869085519717665,
+      "loss": 0.413,
+      "num_input_tokens_seen": 4981008,
+      "step": 5360
+    },
+    {
+      "epoch": 2.5294672324375296,
+      "grad_norm": 0.002415180206298828,
+      "learning_rate": 0.28688447422094726,
+      "loss": 0.3591,
+      "num_input_tokens_seen": 4984656,
+      "step": 5365
+    },
+    {
+      "epoch": 2.531824611032532,
+      "grad_norm": 0.001059749280102551,
+      "learning_rate": 0.2868603753608219,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 4989296,
+      "step": 5370
+    },
+    {
+      "epoch": 2.534181989627534,
+      "grad_norm": 0.0014179127756506205,
+      "learning_rate": 0.28683625539510665,
+      "loss": 0.342,
+      "num_input_tokens_seen": 4993520,
+      "step": 5375
+    },
+    {
+      "epoch": 2.5365393682225363,
+      "grad_norm": 0.0003927628858946264,
+      "learning_rate": 0.28681211432752135,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 4998512,
+      "step": 5380
+    },
+    {
+      "epoch": 2.5388967468175387,
+      "grad_norm": 0.00033720312057994306,
+      "learning_rate": 0.2867879521617887,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 5003024,
+      "step": 5385
+    },
+    {
+      "epoch": 2.541254125412541,
+      "grad_norm": 0.00040796809480525553,
+      "learning_rate": 0.28676376890163485,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 5008080,
+      "step": 5390
+    },
+    {
+      "epoch": 2.5436115040075435,
+      "grad_norm": 0.0003423486487008631,
+      "learning_rate": 0.2867395645507891,
+      "loss": 0.3111,
+      "num_input_tokens_seen": 5011872,
+      "step": 5395
+    },
+    {
+      "epoch": 2.545968882602546,
+      "grad_norm": 0.0005815046024508774,
+      "learning_rate": 0.2867153391129842,
+      "loss": 0.304,
+      "num_input_tokens_seen": 5016480,
+      "step": 5400
+    },
+    {
+      "epoch": 2.545968882602546,
+      "eval_loss": 0.32689982652664185,
+      "eval_runtime": 33.5132,
+      "eval_samples_per_second": 28.138,
+      "eval_steps_per_second": 14.084,
+      "num_input_tokens_seen": 5016480,
+      "step": 5400
+    },
+    {
+      "epoch": 2.5483262611975483,
+      "grad_norm": 0.0004223784781061113,
+      "learning_rate": 0.28669109259195585,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 5020896,
+      "step": 5405
+    },
+    {
+      "epoch": 2.5506836397925507,
+      "grad_norm": 0.0007013995782472193,
+      "learning_rate": 0.2866668249914433,
+      "loss": 0.2899,
+      "num_input_tokens_seen": 5025888,
+      "step": 5410
+    },
+    {
+      "epoch": 2.553041018387553,
+      "grad_norm": 0.0004330759111326188,
+      "learning_rate": 0.2866425363151889,
+      "loss": 0.2875,
+      "num_input_tokens_seen": 5031136,
+      "step": 5415
+    },
+    {
+      "epoch": 2.5553983969825556,
+      "grad_norm": 0.0008615573751740158,
+      "learning_rate": 0.2866182265669382,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 5034912,
+      "step": 5420
+    },
+    {
+      "epoch": 2.557755775577558,
+      "grad_norm": 0.0011720983311533928,
+      "learning_rate": 0.28659389575044014,
+      "loss": 0.2239,
+      "num_input_tokens_seen": 5039312,
+      "step": 5425
+    },
+    {
+      "epoch": 2.5601131541725604,
+      "grad_norm": 0.0008304403745569289,
+      "learning_rate": 0.28656954386944683,
+      "loss": 0.302,
+      "num_input_tokens_seen": 5043632,
+      "step": 5430
+    },
+    {
+      "epoch": 2.5624705327675623,
+      "grad_norm": 0.01589055359363556,
+      "learning_rate": 0.28654517092771353,
+      "loss": 0.4253,
+      "num_input_tokens_seen": 5047632,
+      "step": 5435
+    },
+    {
+      "epoch": 2.5648279113625647,
+      "grad_norm": 1.9122463464736938,
+      "learning_rate": 0.286520776928999,
+      "loss": 1.728,
+      "num_input_tokens_seen": 5052464,
+      "step": 5440
+    },
+    {
+      "epoch": 2.567185289957567,
+      "grad_norm": 0.007031003478914499,
+      "learning_rate": 0.286496361877065,
+      "loss": 1.3214,
+      "num_input_tokens_seen": 5057424,
+      "step": 5445
+    },
+    {
+      "epoch": 2.5695426685525695,
+      "grad_norm": 0.5410842299461365,
+      "learning_rate": 0.28647192577567676,
+      "loss": 2.3797,
+      "num_input_tokens_seen": 5062720,
+      "step": 5450
+    },
+    {
+      "epoch": 2.571900047147572,
+      "grad_norm": 0.08674337714910507,
+      "learning_rate": 0.28644746862860254,
+      "loss": 2.8453,
+      "num_input_tokens_seen": 5068704,
+      "step": 5455
+    },
+    {
+      "epoch": 2.5742574257425743,
+      "grad_norm": 0.011085191741585732,
+      "learning_rate": 0.2864229904396139,
+      "loss": 0.7116,
+      "num_input_tokens_seen": 5073056,
+      "step": 5460
+    },
+    {
+      "epoch": 2.5766148043375767,
+      "grad_norm": 0.006555632222443819,
+      "learning_rate": 0.28639849121248573,
+      "loss": 0.4212,
+      "num_input_tokens_seen": 5077568,
+      "step": 5465
+    },
+    {
+      "epoch": 2.578972182932579,
+      "grad_norm": 0.011554434895515442,
+      "learning_rate": 0.28637397095099615,
+      "loss": 0.373,
+      "num_input_tokens_seen": 5082448,
+      "step": 5470
+    },
+    {
+      "epoch": 2.581329561527581,
+      "grad_norm": 0.049673642963171005,
+      "learning_rate": 0.28634942965892646,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 5086064,
+      "step": 5475
+    },
+    {
+      "epoch": 2.5836869401225835,
+      "grad_norm": 0.0029194701928645372,
+      "learning_rate": 0.28632486734006124,
+      "loss": 0.3844,
+      "num_input_tokens_seen": 5090496,
+      "step": 5480
+    },
+    {
+      "epoch": 2.586044318717586,
+      "grad_norm": 0.005468866787850857,
+      "learning_rate": 0.28630028399818835,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 5096336,
+      "step": 5485
+    },
+    {
+      "epoch": 2.5884016973125883,
+      "grad_norm": 0.015894770622253418,
+      "learning_rate": 0.2862756796370987,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 5100448,
+      "step": 5490
+    },
+    {
+      "epoch": 2.5907590759075907,
+      "grad_norm": 0.013919076882302761,
+      "learning_rate": 0.2862510542605868,
+      "loss": 0.4139,
+      "num_input_tokens_seen": 5105824,
+      "step": 5495
+    },
+    {
+      "epoch": 2.593116454502593,
+      "grad_norm": 0.009754986502230167,
+      "learning_rate": 0.2862264078724501,
+      "loss": 0.2962,
+      "num_input_tokens_seen": 5110016,
+      "step": 5500
+    },
+    {
+      "epoch": 2.5954738330975955,
+      "grad_norm": 0.0020731838885694742,
+      "learning_rate": 0.28620174047648933,
+      "loss": 0.368,
+      "num_input_tokens_seen": 5115120,
+      "step": 5505
+    },
+    {
+      "epoch": 2.597831211692598,
+      "grad_norm": 0.0019740948919206858,
+      "learning_rate": 0.2861770520765086,
+      "loss": 0.3166,
+      "num_input_tokens_seen": 5119264,
+      "step": 5510
+    },
+    {
+      "epoch": 2.6001885902876003,
+      "grad_norm": 0.0018775154603645205,
+      "learning_rate": 0.2861523426763151,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 5123568,
+      "step": 5515
+    },
+    {
+      "epoch": 2.6025459688826027,
+      "grad_norm": 0.0007818337180651724,
+      "learning_rate": 0.2861276122797194,
+      "loss": 0.3733,
+      "num_input_tokens_seen": 5128400,
+      "step": 5520
+    },
+    {
+      "epoch": 2.604903347477605,
+      "grad_norm": 0.0030940293800085783,
+      "learning_rate": 0.28610286089053516,
+      "loss": 0.3547,
+      "num_input_tokens_seen": 5132720,
+      "step": 5525
+    },
+    {
+      "epoch": 2.6072607260726075,
+      "grad_norm": 0.0015388904139399529,
+      "learning_rate": 0.28607808851257943,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 5137328,
+      "step": 5530
+    },
+    {
+      "epoch": 2.6096181046676095,
+      "grad_norm": 0.0007465629023499787,
+      "learning_rate": 0.28605329514967237,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 5141424,
+      "step": 5535
+    },
+    {
+      "epoch": 2.611975483262612,
+      "grad_norm": 0.004233842715620995,
+      "learning_rate": 0.2860284808056374,
+      "loss": 0.4147,
+      "num_input_tokens_seen": 5145840,
+      "step": 5540
+    },
+    {
+      "epoch": 2.6143328618576143,
+      "grad_norm": 0.0014447688590735197,
+      "learning_rate": 0.28600364548430135,
+      "loss": 0.3901,
+      "num_input_tokens_seen": 5150928,
+      "step": 5545
+    },
+    {
+      "epoch": 2.6166902404526167,
+      "grad_norm": 0.002520099049434066,
+      "learning_rate": 0.28597878918949393,
+      "loss": 0.403,
+      "num_input_tokens_seen": 5155840,
+      "step": 5550
+    },
+    {
+      "epoch": 2.619047619047619,
+      "grad_norm": 0.0014968300238251686,
+      "learning_rate": 0.2859539119250485,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 5160384,
+      "step": 5555
+    },
+    {
+      "epoch": 2.6214049976426215,
+      "grad_norm": 0.0012338577071204782,
+      "learning_rate": 0.2859290136948013,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 5165424,
+      "step": 5560
+    },
+    {
+      "epoch": 2.623762376237624,
+      "grad_norm": 0.0033065960742533207,
+      "learning_rate": 0.28590409450259197,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 5170736,
+      "step": 5565
+    },
+    {
+      "epoch": 2.6261197548326263,
+      "grad_norm": 0.0022463698405772448,
+      "learning_rate": 0.28587915435226346,
+      "loss": 0.312,
+      "num_input_tokens_seen": 5174672,
+      "step": 5570
+    },
+    {
+      "epoch": 2.6284771334276282,
+      "grad_norm": 0.0015220876084640622,
+      "learning_rate": 0.2858541932476617,
+      "loss": 0.3001,
+      "num_input_tokens_seen": 5179392,
+      "step": 5575
+    },
+    {
+      "epoch": 2.6308345120226306,
+      "grad_norm": 0.0016095854807645082,
+      "learning_rate": 0.2858292111926361,
+      "loss": 0.3161,
+      "num_input_tokens_seen": 5184128,
+      "step": 5580
+    },
+    {
+      "epoch": 2.633191890617633,
+      "grad_norm": 0.0005200877203606069,
+      "learning_rate": 0.28580420819103924,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 5188832,
+      "step": 5585
+    },
+    {
+      "epoch": 2.6355492692126354,
+      "grad_norm": 0.0011425362899899483,
+      "learning_rate": 0.2857791842467269,
+      "loss": 0.3698,
+      "num_input_tokens_seen": 5194032,
+      "step": 5590
+    },
+    {
+      "epoch": 2.637906647807638,
+      "grad_norm": 0.0007136868080124259,
+      "learning_rate": 0.2857541393635579,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 5199056,
+      "step": 5595
+    },
+    {
+      "epoch": 2.6402640264026402,
+      "grad_norm": 0.0009527934016659856,
+      "learning_rate": 0.2857290735453948,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 5204048,
+      "step": 5600
+    },
+    {
+      "epoch": 2.6402640264026402,
+      "eval_loss": 0.32878053188323975,
+      "eval_runtime": 33.4687,
+      "eval_samples_per_second": 28.176,
+      "eval_steps_per_second": 14.103,
+      "num_input_tokens_seen": 5204048,
+      "step": 5600
+    },
+    {
+      "epoch": 2.6426214049976426,
+      "grad_norm": 0.0007019216427579522,
+      "learning_rate": 0.28570398679610276,
+      "loss": 0.286,
+      "num_input_tokens_seen": 5208768,
+      "step": 5605
+    },
+    {
+      "epoch": 2.644978783592645,
+      "grad_norm": 0.0019293692894279957,
+      "learning_rate": 0.2856788791195506,
+      "loss": 0.2863,
+      "num_input_tokens_seen": 5213184,
+      "step": 5610
+    },
+    {
+      "epoch": 2.6473361621876474,
+      "grad_norm": 0.0014756562886759639,
+      "learning_rate": 0.28565375051961023,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 5217632,
+      "step": 5615
+    },
+    {
+      "epoch": 2.64969354078265,
+      "grad_norm": 0.0004768880025949329,
+      "learning_rate": 0.28562860100015686,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 5222736,
+      "step": 5620
+    },
+    {
+      "epoch": 2.6520509193776522,
+      "grad_norm": 0.0010454836301505566,
+      "learning_rate": 0.2856034305650687,
+      "loss": 0.3677,
+      "num_input_tokens_seen": 5226608,
+      "step": 5625
+    },
+    {
+      "epoch": 2.6544082979726547,
+      "grad_norm": 0.00128517288248986,
+      "learning_rate": 0.28557823921822756,
+      "loss": 0.362,
+      "num_input_tokens_seen": 5230688,
+      "step": 5630
+    },
+    {
+      "epoch": 2.6567656765676566,
+      "grad_norm": 0.0004826377553399652,
+      "learning_rate": 0.2855530269635181,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 5235376,
+      "step": 5635
+    },
+    {
+      "epoch": 2.659123055162659,
+      "grad_norm": 0.0008886624709703028,
+      "learning_rate": 0.2855277938048284,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 5240256,
+      "step": 5640
+    },
+    {
+      "epoch": 2.6614804337576614,
+      "grad_norm": 0.0009367933962494135,
+      "learning_rate": 0.2855025397460498,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 5244496,
+      "step": 5645
+    },
+    {
+      "epoch": 2.663837812352664,
+      "grad_norm": 0.0017961852718144655,
+      "learning_rate": 0.28547726479107666,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 5249824,
+      "step": 5650
+    },
+    {
+      "epoch": 2.666195190947666,
+      "grad_norm": 0.0007279280107468367,
+      "learning_rate": 0.2854519689438068,
+      "loss": 0.3752,
+      "num_input_tokens_seen": 5253872,
+      "step": 5655
+    },
+    {
+      "epoch": 2.6685525695426686,
+      "grad_norm": 0.002065676497295499,
+      "learning_rate": 0.2854266522081412,
+      "loss": 0.3121,
+      "num_input_tokens_seen": 5257888,
+      "step": 5660
+    },
+    {
+      "epoch": 2.670909948137671,
+      "grad_norm": 0.002101457677781582,
+      "learning_rate": 0.28540131458798385,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 5262480,
+      "step": 5665
+    },
+    {
+      "epoch": 2.6732673267326734,
+      "grad_norm": 0.0005329066189005971,
+      "learning_rate": 0.28537595608724226,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 5267856,
+      "step": 5670
+    },
+    {
+      "epoch": 2.6756247053276754,
+      "grad_norm": 0.0009074744302779436,
+      "learning_rate": 0.28535057670982705,
+      "loss": 0.278,
+      "num_input_tokens_seen": 5272192,
+      "step": 5675
+    },
+    {
+      "epoch": 2.677982083922678,
+      "grad_norm": 0.0009992045816034079,
+      "learning_rate": 0.285325176459652,
+      "loss": 0.3749,
+      "num_input_tokens_seen": 5276528,
+      "step": 5680
+    },
+    {
+      "epoch": 2.68033946251768,
+      "grad_norm": 0.0006474113906733692,
+      "learning_rate": 0.28529975534063406,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 5280928,
+      "step": 5685
+    },
+    {
+      "epoch": 2.6826968411126826,
+      "grad_norm": 0.0007290068315342069,
+      "learning_rate": 0.2852743133566936,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 5286176,
+      "step": 5690
+    },
+    {
+      "epoch": 2.685054219707685,
+      "grad_norm": 0.0005522191640920937,
+      "learning_rate": 0.2852488505117541,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 5289856,
+      "step": 5695
+    },
+    {
+      "epoch": 2.6874115983026874,
+      "grad_norm": 0.0012006873730570078,
+      "learning_rate": 0.28522336680974214,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 5294976,
+      "step": 5700
+    },
+    {
+      "epoch": 2.68976897689769,
+      "grad_norm": 0.0009943239856511354,
+      "learning_rate": 0.2851978622545877,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 5298832,
+      "step": 5705
+    },
+    {
+      "epoch": 2.692126355492692,
+      "grad_norm": 0.0019808700308203697,
+      "learning_rate": 0.285172336850224,
+      "loss": 0.32,
+      "num_input_tokens_seen": 5302848,
+      "step": 5710
+    },
+    {
+      "epoch": 2.6944837340876946,
+      "grad_norm": 0.0007753113750368357,
+      "learning_rate": 0.2851467906005871,
+      "loss": 0.3871,
+      "num_input_tokens_seen": 5307344,
+      "step": 5715
+    },
+    {
+      "epoch": 2.696841112682697,
+      "grad_norm": 0.001861104159615934,
+      "learning_rate": 0.28512122350961683,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 5312432,
+      "step": 5720
+    },
+    {
+      "epoch": 2.6991984912776994,
+      "grad_norm": 0.0006999231409281492,
+      "learning_rate": 0.2850956355812559,
+      "loss": 0.3581,
+      "num_input_tokens_seen": 5317088,
+      "step": 5725
+    },
+    {
+      "epoch": 2.701555869872702,
+      "grad_norm": 0.0006525728385895491,
+      "learning_rate": 0.28507002681945015,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 5321648,
+      "step": 5730
+    },
+    {
+      "epoch": 2.7039132484677038,
+      "grad_norm": 0.0021018662955611944,
+      "learning_rate": 0.28504439722814895,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 5326096,
+      "step": 5735
+    },
+    {
+      "epoch": 2.706270627062706,
+      "grad_norm": 0.0005905411089770496,
+      "learning_rate": 0.28501874681130457,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 5330736,
+      "step": 5740
+    },
+    {
+      "epoch": 2.7086280056577086,
+      "grad_norm": 0.000698222138453275,
+      "learning_rate": 0.2849930755728727,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 5334704,
+      "step": 5745
+    },
+    {
+      "epoch": 2.710985384252711,
+      "grad_norm": 0.0007488296250812709,
+      "learning_rate": 0.28496738351681217,
+      "loss": 0.337,
+      "num_input_tokens_seen": 5339280,
+      "step": 5750
+    },
+    {
+      "epoch": 2.7133427628477134,
+      "grad_norm": 0.0008322976063936949,
+      "learning_rate": 0.284941670647085,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 5343664,
+      "step": 5755
+    },
+    {
+      "epoch": 2.7157001414427158,
+      "grad_norm": 0.0005439819651655853,
+      "learning_rate": 0.2849159369676563,
+      "loss": 0.3262,
+      "num_input_tokens_seen": 5347568,
+      "step": 5760
+    },
+    {
+      "epoch": 2.718057520037718,
+      "grad_norm": 0.000900173035915941,
+      "learning_rate": 0.2848901824824948,
+      "loss": 0.2787,
+      "num_input_tokens_seen": 5351632,
+      "step": 5765
+    },
+    {
+      "epoch": 2.7204148986327206,
+      "grad_norm": 0.0011536120437085629,
+      "learning_rate": 0.284864407195572,
+      "loss": 0.3509,
+      "num_input_tokens_seen": 5356032,
+      "step": 5770
+    },
+    {
+      "epoch": 2.7227722772277225,
+      "grad_norm": 0.0002926317974925041,
+      "learning_rate": 0.28483861111086284,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 5361040,
+      "step": 5775
+    },
+    {
+      "epoch": 2.725129655822725,
+      "grad_norm": 0.000843232439365238,
+      "learning_rate": 0.2848127942323453,
+      "loss": 0.3884,
+      "num_input_tokens_seen": 5366624,
+      "step": 5780
+    },
+    {
+      "epoch": 2.7274870344177273,
+      "grad_norm": 0.0016837463481351733,
+      "learning_rate": 0.2847869565640007,
+      "loss": 0.2963,
+      "num_input_tokens_seen": 5371136,
+      "step": 5785
+    },
+    {
+      "epoch": 2.7298444130127297,
+      "grad_norm": 0.0005531804636120796,
+      "learning_rate": 0.2847610981098136,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 5375472,
+      "step": 5790
+    },
+    {
+      "epoch": 2.732201791607732,
+      "grad_norm": 0.0018331923056393862,
+      "learning_rate": 0.2847352188737716,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 5379840,
+      "step": 5795
+    },
+    {
+      "epoch": 2.7345591702027345,
+      "grad_norm": 0.0017721853218972683,
+      "learning_rate": 0.2847093188598658,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 5383984,
+      "step": 5800
+    },
+    {
+      "epoch": 2.7345591702027345,
+      "eval_loss": 0.32813048362731934,
+      "eval_runtime": 33.4722,
+      "eval_samples_per_second": 28.173,
+      "eval_steps_per_second": 14.101,
+      "num_input_tokens_seen": 5383984,
+      "step": 5800
+    },
+    {
+      "epoch": 2.736916548797737,
+      "grad_norm": 0.0007500264327973127,
+      "learning_rate": 0.28468339807209003,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 5389440,
+      "step": 5805
+    },
+    {
+      "epoch": 2.7392739273927393,
+      "grad_norm": 0.0005116124521009624,
+      "learning_rate": 0.2846574565144418,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 5393904,
+      "step": 5810
+    },
+    {
+      "epoch": 2.7416313059877417,
+      "grad_norm": 0.0009911138331517577,
+      "learning_rate": 0.28463149419092154,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 5397776,
+      "step": 5815
+    },
+    {
+      "epoch": 2.743988684582744,
+      "grad_norm": 0.0006225823890417814,
+      "learning_rate": 0.284605511105533,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 5402784,
+      "step": 5820
+    },
+    {
+      "epoch": 2.7463460631777465,
+      "grad_norm": 0.000662450969684869,
+      "learning_rate": 0.28457950726228315,
+      "loss": 0.2971,
+      "num_input_tokens_seen": 5408096,
+      "step": 5825
+    },
+    {
+      "epoch": 2.748703441772749,
+      "grad_norm": 0.000523373659234494,
+      "learning_rate": 0.28455348266518193,
+      "loss": 0.3012,
+      "num_input_tokens_seen": 5412528,
+      "step": 5830
+    },
+    {
+      "epoch": 2.751060820367751,
+      "grad_norm": 0.0020930867176502943,
+      "learning_rate": 0.28452743731824287,
+      "loss": 0.4075,
+      "num_input_tokens_seen": 5416832,
+      "step": 5835
+    },
+    {
+      "epoch": 2.7534181989627533,
+      "grad_norm": 0.0005460801185108721,
+      "learning_rate": 0.28450137122548236,
+      "loss": 0.2987,
+      "num_input_tokens_seen": 5421680,
+      "step": 5840
+    },
+    {
+      "epoch": 2.7557755775577557,
+      "grad_norm": 0.0005663937772624195,
+      "learning_rate": 0.2844752843909201,
+      "loss": 0.349,
+      "num_input_tokens_seen": 5427072,
+      "step": 5845
+    },
+    {
+      "epoch": 2.758132956152758,
+      "grad_norm": 0.001743117580190301,
+      "learning_rate": 0.28444917681857923,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 5431888,
+      "step": 5850
+    },
+    {
+      "epoch": 2.7604903347477605,
+      "grad_norm": 0.0007132417522370815,
+      "learning_rate": 0.28442304851248557,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 5436416,
+      "step": 5855
+    },
+    {
+      "epoch": 2.762847713342763,
+      "grad_norm": 0.0018885093741118908,
+      "learning_rate": 0.2843968994766686,
+      "loss": 0.332,
+      "num_input_tokens_seen": 5440960,
+      "step": 5860
+    },
+    {
+      "epoch": 2.7652050919377653,
+      "grad_norm": 0.001648976351134479,
+      "learning_rate": 0.28437072971516075,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 5445104,
+      "step": 5865
+    },
+    {
+      "epoch": 2.7675624705327677,
+      "grad_norm": 0.0016764526953920722,
+      "learning_rate": 0.2843445392319979,
+      "loss": 0.311,
+      "num_input_tokens_seen": 5449552,
+      "step": 5870
+    },
+    {
+      "epoch": 2.7699198491277697,
+      "grad_norm": 0.0007036786410026252,
+      "learning_rate": 0.28431832803121865,
+      "loss": 0.3611,
+      "num_input_tokens_seen": 5454064,
+      "step": 5875
+    },
+    {
+      "epoch": 2.772277227722772,
+      "grad_norm": 0.0007087194826453924,
+      "learning_rate": 0.28429209611686534,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 5458944,
+      "step": 5880
+    },
+    {
+      "epoch": 2.7746346063177745,
+      "grad_norm": 0.00048210175009444356,
+      "learning_rate": 0.28426584349298323,
+      "loss": 0.3751,
+      "num_input_tokens_seen": 5463472,
+      "step": 5885
+    },
+    {
+      "epoch": 2.776991984912777,
+      "grad_norm": 0.0004112401802558452,
+      "learning_rate": 0.2842395701636207,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 5467744,
+      "step": 5890
+    },
+    {
+      "epoch": 2.7793493635077793,
+      "grad_norm": 0.0003433091624174267,
+      "learning_rate": 0.28421327613282954,
+      "loss": 0.339,
+      "num_input_tokens_seen": 5472640,
+      "step": 5895
+    },
+    {
+      "epoch": 2.7817067421027817,
+      "grad_norm": 0.000331616320181638,
+      "learning_rate": 0.28418696140466454,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 5477600,
+      "step": 5900
+    },
+    {
+      "epoch": 2.784064120697784,
+      "grad_norm": 0.0012528077932074666,
+      "learning_rate": 0.2841606259831838,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 5482000,
+      "step": 5905
+    },
+    {
+      "epoch": 2.7864214992927865,
+      "grad_norm": 0.001276882947422564,
+      "learning_rate": 0.2841342698724486,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 5486656,
+      "step": 5910
+    },
+    {
+      "epoch": 2.788778877887789,
+      "grad_norm": 0.0014369020937010646,
+      "learning_rate": 0.28410789307652334,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 5491600,
+      "step": 5915
+    },
+    {
+      "epoch": 2.7911362564827913,
+      "grad_norm": 0.0004933428717777133,
+      "learning_rate": 0.2840814955994756,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 5497104,
+      "step": 5920
+    },
+    {
+      "epoch": 2.7934936350777937,
+      "grad_norm": 0.00198163790628314,
+      "learning_rate": 0.2840550774453763,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 5501888,
+      "step": 5925
+    },
+    {
+      "epoch": 2.795851013672796,
+      "grad_norm": 0.0006373528740368783,
+      "learning_rate": 0.28402863861829947,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 5506256,
+      "step": 5930
+    },
+    {
+      "epoch": 2.798208392267798,
+      "grad_norm": 0.0007240835693664849,
+      "learning_rate": 0.2840021791223222,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 5511328,
+      "step": 5935
+    },
+    {
+      "epoch": 2.8005657708628005,
+      "grad_norm": 0.0015394787769764662,
+      "learning_rate": 0.2839756989615249,
+      "loss": 0.352,
+      "num_input_tokens_seen": 5516000,
+      "step": 5940
+    },
+    {
+      "epoch": 2.802923149457803,
+      "grad_norm": 0.0007355326088145375,
+      "learning_rate": 0.28394919813999125,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 5521344,
+      "step": 5945
+    },
+    {
+      "epoch": 2.8052805280528053,
+      "grad_norm": 0.0005162341403774917,
+      "learning_rate": 0.28392267666180787,
+      "loss": 0.3068,
+      "num_input_tokens_seen": 5526208,
+      "step": 5950
+    },
+    {
+      "epoch": 2.8076379066478077,
+      "grad_norm": 0.0007497802143916488,
+      "learning_rate": 0.2838961345310648,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 5531376,
+      "step": 5955
+    },
+    {
+      "epoch": 2.80999528524281,
+      "grad_norm": 0.0014977826504036784,
+      "learning_rate": 0.2838695717518552,
+      "loss": 0.2579,
+      "num_input_tokens_seen": 5536464,
+      "step": 5960
+    },
+    {
+      "epoch": 2.8123526638378125,
+      "grad_norm": 0.0003759034734684974,
+      "learning_rate": 0.28384298832827526,
+      "loss": 0.2994,
+      "num_input_tokens_seen": 5541104,
+      "step": 5965
+    },
+    {
+      "epoch": 2.814710042432815,
+      "grad_norm": 0.0012608794495463371,
+      "learning_rate": 0.28381638426442457,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 5545792,
+      "step": 5970
+    },
+    {
+      "epoch": 2.817067421027817,
+      "grad_norm": 0.002389310160651803,
+      "learning_rate": 0.2837897595644057,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 5550000,
+      "step": 5975
+    },
+    {
+      "epoch": 2.8194247996228192,
+      "grad_norm": 0.0002653328119777143,
+      "learning_rate": 0.28376311423232475,
+      "loss": 0.3889,
+      "num_input_tokens_seen": 5554560,
+      "step": 5980
+    },
+    {
+      "epoch": 2.8217821782178216,
+      "grad_norm": 0.0006633526063524187,
+      "learning_rate": 0.2837364482722905,
+      "loss": 0.3959,
+      "num_input_tokens_seen": 5560128,
+      "step": 5985
+    },
+    {
+      "epoch": 2.824139556812824,
+      "grad_norm": 0.0018207543762400746,
+      "learning_rate": 0.28370976168841533,
+      "loss": 0.2937,
+      "num_input_tokens_seen": 5564560,
+      "step": 5990
+    },
+    {
+      "epoch": 2.8264969354078264,
+      "grad_norm": 0.0015778833767399192,
+      "learning_rate": 0.2836830544848146,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 5569696,
+      "step": 5995
+    },
+    {
+      "epoch": 2.828854314002829,
+      "grad_norm": 0.0015408466570079327,
+      "learning_rate": 0.2836563266656069,
+      "loss": 0.376,
+      "num_input_tokens_seen": 5574016,
+      "step": 6000
+    },
+    {
+      "epoch": 2.828854314002829,
+      "eval_loss": 0.3293037712574005,
+      "eval_runtime": 33.4872,
+      "eval_samples_per_second": 28.16,
+      "eval_steps_per_second": 14.095,
+      "num_input_tokens_seen": 5574016,
+      "step": 6000
+    },
+    {
+      "epoch": 2.8312116925978312,
+      "grad_norm": 0.0016256901435554028,
+      "learning_rate": 0.283629578234914,
+      "loss": 0.2952,
+      "num_input_tokens_seen": 5578288,
+      "step": 6005
+    },
+    {
+      "epoch": 2.8335690711928336,
+      "grad_norm": 0.00041359176975674927,
+      "learning_rate": 0.2836028091968608,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 5582288,
+      "step": 6010
+    },
+    {
+      "epoch": 2.835926449787836,
+      "grad_norm": 0.00030515261460095644,
+      "learning_rate": 0.28357601955557554,
+      "loss": 0.2658,
+      "num_input_tokens_seen": 5587120,
+      "step": 6015
+    },
+    {
+      "epoch": 2.8382838283828384,
+      "grad_norm": 0.0018505589105188847,
+      "learning_rate": 0.2835492093151894,
+      "loss": 0.4035,
+      "num_input_tokens_seen": 5591552,
+      "step": 6020
+    },
+    {
+      "epoch": 2.840641206977841,
+      "grad_norm": 0.0001908236154122278,
+      "learning_rate": 0.2835223784798369,
+      "loss": 0.2358,
+      "num_input_tokens_seen": 5596192,
+      "step": 6025
+    },
+    {
+      "epoch": 2.8429985855728432,
+      "grad_norm": 0.00024354613560717553,
+      "learning_rate": 0.2834955270536557,
+      "loss": 0.3856,
+      "num_input_tokens_seen": 5600832,
+      "step": 6030
+    },
+    {
+      "epoch": 2.845355964167845,
+      "grad_norm": 0.000535080733243376,
+      "learning_rate": 0.2834686550407866,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 5606272,
+      "step": 6035
+    },
+    {
+      "epoch": 2.8477133427628476,
+      "grad_norm": 0.0004622150445356965,
+      "learning_rate": 0.28344176244537367,
+      "loss": 0.2843,
+      "num_input_tokens_seen": 5611616,
+      "step": 6040
+    },
+    {
+      "epoch": 2.85007072135785,
+      "grad_norm": 0.0008987509645521641,
+      "learning_rate": 0.28341484927156396,
+      "loss": 0.3887,
+      "num_input_tokens_seen": 5616320,
+      "step": 6045
+    },
+    {
+      "epoch": 2.8524280999528524,
+      "grad_norm": 0.0007741654990240932,
+      "learning_rate": 0.28338791552350795,
+      "loss": 0.3629,
+      "num_input_tokens_seen": 5620400,
+      "step": 6050
+    },
+    {
+      "epoch": 2.854785478547855,
+      "grad_norm": 0.0016765119507908821,
+      "learning_rate": 0.28336096120535914,
+      "loss": 0.3047,
+      "num_input_tokens_seen": 5625840,
+      "step": 6055
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.0005895097274333239,
+      "learning_rate": 0.2833339863212741,
+      "loss": 0.3507,
+      "num_input_tokens_seen": 5630432,
+      "step": 6060
+    },
+    {
+      "epoch": 2.8595002357378596,
+      "grad_norm": 0.001653575454838574,
+      "learning_rate": 0.28330699087541283,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 5635616,
+      "step": 6065
+    },
+    {
+      "epoch": 2.861857614332862,
+      "grad_norm": 0.000635448086541146,
+      "learning_rate": 0.2832799748719384,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 5640144,
+      "step": 6070
+    },
+    {
+      "epoch": 2.864214992927864,
+      "grad_norm": 0.0006364876171573997,
+      "learning_rate": 0.28325293831501686,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 5644544,
+      "step": 6075
+    },
+    {
+      "epoch": 2.8665723715228664,
+      "grad_norm": 0.0005722296191379428,
+      "learning_rate": 0.2832258812088177,
+      "loss": 0.3674,
+      "num_input_tokens_seen": 5649440,
+      "step": 6080
+    },
+    {
+      "epoch": 2.8689297501178688,
+      "grad_norm": 0.0014606023905798793,
+      "learning_rate": 0.2831988035575134,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 5653680,
+      "step": 6085
+    },
+    {
+      "epoch": 2.871287128712871,
+      "grad_norm": 0.0007569685112684965,
+      "learning_rate": 0.28317170536527975,
+      "loss": 0.3175,
+      "num_input_tokens_seen": 5658672,
+      "step": 6090
+    },
+    {
+      "epoch": 2.8736445073078736,
+      "grad_norm": 0.0024433054495602846,
+      "learning_rate": 0.2831445866362956,
+      "loss": 0.3024,
+      "num_input_tokens_seen": 5662672,
+      "step": 6095
+    },
+    {
+      "epoch": 2.876001885902876,
+      "grad_norm": 0.0026464087422937155,
+      "learning_rate": 0.2831174473747429,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 5667664,
+      "step": 6100
+    },
+    {
+      "epoch": 2.8783592644978784,
+      "grad_norm": 0.003642070572823286,
+      "learning_rate": 0.2830902875848071,
+      "loss": 0.3524,
+      "num_input_tokens_seen": 5673072,
+      "step": 6105
+    },
+    {
+      "epoch": 2.880716643092881,
+      "grad_norm": 0.0013031921116635203,
+      "learning_rate": 0.28306310727067635,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 5678080,
+      "step": 6110
+    },
+    {
+      "epoch": 2.883074021687883,
+      "grad_norm": 0.003994347993284464,
+      "learning_rate": 0.2830359064365423,
+      "loss": 0.4391,
+      "num_input_tokens_seen": 5682832,
+      "step": 6115
+    },
+    {
+      "epoch": 2.8854314002828856,
+      "grad_norm": 0.003339915769174695,
+      "learning_rate": 0.28300868508659965,
+      "loss": 0.3351,
+      "num_input_tokens_seen": 5688016,
+      "step": 6120
+    },
+    {
+      "epoch": 2.887788778877888,
+      "grad_norm": 0.00038362902705557644,
+      "learning_rate": 0.28298144322504626,
+      "loss": 0.347,
+      "num_input_tokens_seen": 5691840,
+      "step": 6125
+    },
+    {
+      "epoch": 2.8901461574728904,
+      "grad_norm": 0.0003787115856539458,
+      "learning_rate": 0.2829541808560832,
+      "loss": 0.3484,
+      "num_input_tokens_seen": 5696064,
+      "step": 6130
+    },
+    {
+      "epoch": 2.8925035360678923,
+      "grad_norm": 0.00033424151479266584,
+      "learning_rate": 0.2829268979839146,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 5701024,
+      "step": 6135
+    },
+    {
+      "epoch": 2.8948609146628947,
+      "grad_norm": 0.0009159775800071657,
+      "learning_rate": 0.2828995946127479,
+      "loss": 0.349,
+      "num_input_tokens_seen": 5705456,
+      "step": 6140
+    },
+    {
+      "epoch": 2.897218293257897,
+      "grad_norm": 0.0011939991964027286,
+      "learning_rate": 0.2828722707467936,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 5709248,
+      "step": 6145
+    },
+    {
+      "epoch": 2.8995756718528995,
+      "grad_norm": 0.0021442004945129156,
+      "learning_rate": 0.2828449263902653,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 5713856,
+      "step": 6150
+    },
+    {
+      "epoch": 2.901933050447902,
+      "grad_norm": 0.000981904100626707,
+      "learning_rate": 0.28281756154738,
+      "loss": 0.3444,
+      "num_input_tokens_seen": 5719344,
+      "step": 6155
+    },
+    {
+      "epoch": 2.9042904290429044,
+      "grad_norm": 0.0008642451139166951,
+      "learning_rate": 0.28279017622235764,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 5724304,
+      "step": 6160
+    },
+    {
+      "epoch": 2.9066478076379068,
+      "grad_norm": 0.0006056948332116008,
+      "learning_rate": 0.28276277041942127,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 5728672,
+      "step": 6165
+    },
+    {
+      "epoch": 2.909005186232909,
+      "grad_norm": 0.000523712660651654,
+      "learning_rate": 0.2827353441427974,
+      "loss": 0.3719,
+      "num_input_tokens_seen": 5733424,
+      "step": 6170
+    },
+    {
+      "epoch": 2.911362564827911,
+      "grad_norm": 0.0005301037454046309,
+      "learning_rate": 0.2827078973967153,
+      "loss": 0.2728,
+      "num_input_tokens_seen": 5737600,
+      "step": 6175
+    },
+    {
+      "epoch": 2.9137199434229135,
+      "grad_norm": 0.0005799143691547215,
+      "learning_rate": 0.2826804301854078,
+      "loss": 0.3803,
+      "num_input_tokens_seen": 5742416,
+      "step": 6180
+    },
+    {
+      "epoch": 2.916077322017916,
+      "grad_norm": 0.001602625590749085,
+      "learning_rate": 0.2826529425131105,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 5747648,
+      "step": 6185
+    },
+    {
+      "epoch": 2.9184347006129183,
+      "grad_norm": 0.0014859481016173959,
+      "learning_rate": 0.2826254343840625,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 5751936,
+      "step": 6190
+    },
+    {
+      "epoch": 2.9207920792079207,
+      "grad_norm": 0.0005503223510459065,
+      "learning_rate": 0.2825979058025059,
+      "loss": 0.4074,
+      "num_input_tokens_seen": 5756688,
+      "step": 6195
+    },
+    {
+      "epoch": 2.923149457802923,
+      "grad_norm": 0.00024591339752078056,
+      "learning_rate": 0.2825703567726858,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 5761616,
+      "step": 6200
+    },
+    {
+      "epoch": 2.923149457802923,
+      "eval_loss": 0.3377496898174286,
+      "eval_runtime": 33.4142,
+      "eval_samples_per_second": 28.222,
+      "eval_steps_per_second": 14.126,
+      "num_input_tokens_seen": 5761616,
+      "step": 6200
+    },
+    {
+      "epoch": 2.9255068363979255,
+      "grad_norm": 0.0008027727017179132,
+      "learning_rate": 0.2825427872988508,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 5765600,
+      "step": 6205
+    },
+    {
+      "epoch": 2.927864214992928,
+      "grad_norm": 0.0011860367376357317,
+      "learning_rate": 0.28251519738525227,
+      "loss": 0.359,
+      "num_input_tokens_seen": 5770048,
+      "step": 6210
+    },
+    {
+      "epoch": 2.9302215935879303,
+      "grad_norm": 0.0003791844646912068,
+      "learning_rate": 0.28248758703614507,
+      "loss": 0.345,
+      "num_input_tokens_seen": 5774800,
+      "step": 6215
+    },
+    {
+      "epoch": 2.9325789721829327,
+      "grad_norm": 0.00037948504905216396,
+      "learning_rate": 0.28245995625578696,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 5779248,
+      "step": 6220
+    },
+    {
+      "epoch": 2.934936350777935,
+      "grad_norm": 0.00016023982607293874,
+      "learning_rate": 0.282432305048439,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 5783728,
+      "step": 6225
+    },
+    {
+      "epoch": 2.9372937293729375,
+      "grad_norm": 0.0017829224234446883,
+      "learning_rate": 0.28240463341836536,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 5788496,
+      "step": 6230
+    },
+    {
+      "epoch": 2.9396511079679395,
+      "grad_norm": 0.0007206877926364541,
+      "learning_rate": 0.2823769413698334,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 5793392,
+      "step": 6235
+    },
+    {
+      "epoch": 2.942008486562942,
+      "grad_norm": 0.0005615462432615459,
+      "learning_rate": 0.2823492289071135,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 5798016,
+      "step": 6240
+    },
+    {
+      "epoch": 2.9443658651579443,
+      "grad_norm": 0.001421129098162055,
+      "learning_rate": 0.2823214960344793,
+      "loss": 0.3734,
+      "num_input_tokens_seen": 5802320,
+      "step": 6245
+    },
+    {
+      "epoch": 2.9467232437529467,
+      "grad_norm": 0.0007665565353818238,
+      "learning_rate": 0.28229374275620756,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 5807680,
+      "step": 6250
+    },
+    {
+      "epoch": 2.949080622347949,
+      "grad_norm": 0.0004160597163718194,
+      "learning_rate": 0.28226596907657814,
+      "loss": 0.2702,
+      "num_input_tokens_seen": 5811936,
+      "step": 6255
+    },
+    {
+      "epoch": 2.9514380009429515,
+      "grad_norm": 0.0012102910550311208,
+      "learning_rate": 0.28223817499987414,
+      "loss": 0.3619,
+      "num_input_tokens_seen": 5816592,
+      "step": 6260
+    },
+    {
+      "epoch": 2.953795379537954,
+      "grad_norm": 0.0014615175314247608,
+      "learning_rate": 0.2822103605303818,
+      "loss": 0.4412,
+      "num_input_tokens_seen": 5822656,
+      "step": 6265
+    },
+    {
+      "epoch": 2.9561527581329563,
+      "grad_norm": 0.0006484282785095274,
+      "learning_rate": 0.2821825256723903,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 5826752,
+      "step": 6270
+    },
+    {
+      "epoch": 2.9585101367279583,
+      "grad_norm": 0.001599958399310708,
+      "learning_rate": 0.2821546704301923,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 5831488,
+      "step": 6275
+    },
+    {
+      "epoch": 2.9608675153229607,
+      "grad_norm": 0.0007077016052789986,
+      "learning_rate": 0.2821267948080834,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 5835760,
+      "step": 6280
+    },
+    {
+      "epoch": 2.963224893917963,
+      "grad_norm": 0.0004124624247197062,
+      "learning_rate": 0.28209889881036226,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 5840272,
+      "step": 6285
+    },
+    {
+      "epoch": 2.9655822725129655,
+      "grad_norm": 0.0020943013951182365,
+      "learning_rate": 0.28207098244133094,
+      "loss": 0.358,
+      "num_input_tokens_seen": 5845552,
+      "step": 6290
+    },
+    {
+      "epoch": 2.967939651107968,
+      "grad_norm": 0.0019830013625323772,
+      "learning_rate": 0.2820430457052943,
+      "loss": 0.3787,
+      "num_input_tokens_seen": 5849856,
+      "step": 6295
+    },
+    {
+      "epoch": 2.9702970297029703,
+      "grad_norm": 0.0010590937454253435,
+      "learning_rate": 0.28201508860656077,
+      "loss": 0.338,
+      "num_input_tokens_seen": 5853392,
+      "step": 6300
+    },
+    {
+      "epoch": 2.9726544082979727,
+      "grad_norm": 0.0018068845383822918,
+      "learning_rate": 0.2819871111494415,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 5857968,
+      "step": 6305
+    },
+    {
+      "epoch": 2.975011786892975,
+      "grad_norm": 0.0008458157535642385,
+      "learning_rate": 0.28195911333825113,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 5861808,
+      "step": 6310
+    },
+    {
+      "epoch": 2.9773691654879775,
+      "grad_norm": 0.00033609505044296384,
+      "learning_rate": 0.28193109517730713,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 5866864,
+      "step": 6315
+    },
+    {
+      "epoch": 2.97972654408298,
+      "grad_norm": 0.0006005226750858128,
+      "learning_rate": 0.2819030566709303,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 5871760,
+      "step": 6320
+    },
+    {
+      "epoch": 2.9820839226779823,
+      "grad_norm": 0.00039466118323616683,
+      "learning_rate": 0.2818749978234445,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 5876064,
+      "step": 6325
+    },
+    {
+      "epoch": 2.9844413012729847,
+      "grad_norm": 0.000579965824726969,
+      "learning_rate": 0.2818469186391768,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 5880576,
+      "step": 6330
+    },
+    {
+      "epoch": 2.9867986798679866,
+      "grad_norm": 0.00040615754551254213,
+      "learning_rate": 0.28181881912245743,
+      "loss": 0.325,
+      "num_input_tokens_seen": 5884800,
+      "step": 6335
+    },
+    {
+      "epoch": 2.989156058462989,
+      "grad_norm": 0.0005233724368736148,
+      "learning_rate": 0.2817906992776195,
+      "loss": 0.3531,
+      "num_input_tokens_seen": 5890432,
+      "step": 6340
+    },
+    {
+      "epoch": 2.9915134370579914,
+      "grad_norm": 0.0004260526620782912,
+      "learning_rate": 0.28176255910899967,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 5894512,
+      "step": 6345
+    },
+    {
+      "epoch": 2.993870815652994,
+      "grad_norm": 0.00046661889064125717,
+      "learning_rate": 0.2817343986209373,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 5898704,
+      "step": 6350
+    },
+    {
+      "epoch": 2.9962281942479962,
+      "grad_norm": 0.0012000409187749028,
+      "learning_rate": 0.2817062178177753,
+      "loss": 0.378,
+      "num_input_tokens_seen": 5903104,
+      "step": 6355
+    },
+    {
+      "epoch": 2.9985855728429986,
+      "grad_norm": 0.0008334671147167683,
+      "learning_rate": 0.2816780167038593,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 5907280,
+      "step": 6360
+    },
+    {
+      "epoch": 3.000942951438001,
+      "grad_norm": 0.0010444533545523882,
+      "learning_rate": 0.28164979528353834,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 5911760,
+      "step": 6365
+    },
+    {
+      "epoch": 3.0033003300330035,
+      "grad_norm": 0.00029933679616078734,
+      "learning_rate": 0.28162155356116453,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 5916224,
+      "step": 6370
+    },
+    {
+      "epoch": 3.005657708628006,
+      "grad_norm": 0.0021567740477621555,
+      "learning_rate": 0.28159329154109314,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 5922032,
+      "step": 6375
+    },
+    {
+      "epoch": 3.008015087223008,
+      "grad_norm": 0.001109480857849121,
+      "learning_rate": 0.28156500922768246,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 5927504,
+      "step": 6380
+    },
+    {
+      "epoch": 3.01037246581801,
+      "grad_norm": 0.001262107864022255,
+      "learning_rate": 0.28153670662529406,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 5932336,
+      "step": 6385
+    },
+    {
+      "epoch": 3.0127298444130126,
+      "grad_norm": 0.0019104244420304894,
+      "learning_rate": 0.28150838373829246,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 5937152,
+      "step": 6390
+    },
+    {
+      "epoch": 3.015087223008015,
+      "grad_norm": 0.00030311328009702265,
+      "learning_rate": 0.2814800405710455,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 5943520,
+      "step": 6395
+    },
+    {
+      "epoch": 3.0174446016030174,
+      "grad_norm": 0.0015103303594514728,
+      "learning_rate": 0.2814516771279239,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 5948128,
+      "step": 6400
+    },
+    {
+      "epoch": 3.0174446016030174,
+      "eval_loss": 0.32894036173820496,
+      "eval_runtime": 33.4848,
+      "eval_samples_per_second": 28.162,
+      "eval_steps_per_second": 14.096,
+      "num_input_tokens_seen": 5948128,
+      "step": 6400
+    },
+    {
+      "epoch": 3.01980198019802,
+      "grad_norm": 0.0012717219069600105,
+      "learning_rate": 0.28142329341330186,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 5951888,
+      "step": 6405
+    },
+    {
+      "epoch": 3.022159358793022,
+      "grad_norm": 0.0004988843575119972,
+      "learning_rate": 0.2813948894315564,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 5956112,
+      "step": 6410
+    },
+    {
+      "epoch": 3.0245167373880246,
+      "grad_norm": 0.0004905707901343703,
+      "learning_rate": 0.2813664651870677,
+      "loss": 0.3765,
+      "num_input_tokens_seen": 5961264,
+      "step": 6415
+    },
+    {
+      "epoch": 3.026874115983027,
+      "grad_norm": 0.00042542762821540236,
+      "learning_rate": 0.28133802068421926,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 5965792,
+      "step": 6420
+    },
+    {
+      "epoch": 3.0292314945780294,
+      "grad_norm": 0.0005791764706373215,
+      "learning_rate": 0.28130955592739754,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 5970832,
+      "step": 6425
+    },
+    {
+      "epoch": 3.0315888731730314,
+      "grad_norm": 0.0004074614553246647,
+      "learning_rate": 0.2812810709209922,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 5975680,
+      "step": 6430
+    },
+    {
+      "epoch": 3.033946251768034,
+      "grad_norm": 0.0005528598558157682,
+      "learning_rate": 0.2812525656693959,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 5981104,
+      "step": 6435
+    },
+    {
+      "epoch": 3.036303630363036,
+      "grad_norm": 0.0005039939424023032,
+      "learning_rate": 0.28122404017700453,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 5986624,
+      "step": 6440
+    },
+    {
+      "epoch": 3.0386610089580386,
+      "grad_norm": 0.0012797873932868242,
+      "learning_rate": 0.2811954944482171,
+      "loss": 0.2979,
+      "num_input_tokens_seen": 5990352,
+      "step": 6445
+    },
+    {
+      "epoch": 3.041018387553041,
+      "grad_norm": 0.0010719564743340015,
+      "learning_rate": 0.2811669284874358,
+      "loss": 0.2904,
+      "num_input_tokens_seen": 5995392,
+      "step": 6450
+    },
+    {
+      "epoch": 3.0433757661480434,
+      "grad_norm": 0.0010509504936635494,
+      "learning_rate": 0.2811383422990657,
+      "loss": 0.308,
+      "num_input_tokens_seen": 6000048,
+      "step": 6455
+    },
+    {
+      "epoch": 3.045733144743046,
+      "grad_norm": 0.0006762858829461038,
+      "learning_rate": 0.2811097358875152,
+      "loss": 0.3778,
+      "num_input_tokens_seen": 6004976,
+      "step": 6460
+    },
+    {
+      "epoch": 3.048090523338048,
+      "grad_norm": 0.0013858728343620896,
+      "learning_rate": 0.2810811092571959,
+      "loss": 0.3773,
+      "num_input_tokens_seen": 6010176,
+      "step": 6465
+    },
+    {
+      "epoch": 3.0504479019330506,
+      "grad_norm": 0.00045461655827239156,
+      "learning_rate": 0.28105246241252224,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 6014640,
+      "step": 6470
+    },
+    {
+      "epoch": 3.052805280528053,
+      "grad_norm": 0.0013912757858633995,
+      "learning_rate": 0.28102379535791194,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 6019200,
+      "step": 6475
+    },
+    {
+      "epoch": 3.055162659123055,
+      "grad_norm": 0.000677175703458488,
+      "learning_rate": 0.2809951080977859,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 6023504,
+      "step": 6480
+    },
+    {
+      "epoch": 3.0575200377180574,
+      "grad_norm": 0.0005821343511343002,
+      "learning_rate": 0.28096640063656797,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 6028288,
+      "step": 6485
+    },
+    {
+      "epoch": 3.0598774163130598,
+      "grad_norm": 0.0005362437223084271,
+      "learning_rate": 0.2809376729786852,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 6032400,
+      "step": 6490
+    },
+    {
+      "epoch": 3.062234794908062,
+      "grad_norm": 0.0013565538683906198,
+      "learning_rate": 0.28090892512856785,
+      "loss": 0.334,
+      "num_input_tokens_seen": 6037136,
+      "step": 6495
+    },
+    {
+      "epoch": 3.0645921735030646,
+      "grad_norm": 0.0004896592581644654,
+      "learning_rate": 0.2808801570906491,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 6041600,
+      "step": 6500
+    },
+    {
+      "epoch": 3.066949552098067,
+      "grad_norm": 0.0005319683696143329,
+      "learning_rate": 0.2808513688693654,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 6045888,
+      "step": 6505
+    },
+    {
+      "epoch": 3.0693069306930694,
+      "grad_norm": 0.0014650837983936071,
+      "learning_rate": 0.28082256046915627,
+      "loss": 0.2832,
+      "num_input_tokens_seen": 6050512,
+      "step": 6510
+    },
+    {
+      "epoch": 3.0716643092880718,
+      "grad_norm": 0.0006988757522776723,
+      "learning_rate": 0.28079373189446427,
+      "loss": 0.3588,
+      "num_input_tokens_seen": 6055280,
+      "step": 6515
+    },
+    {
+      "epoch": 3.074021687883074,
+      "grad_norm": 0.00044099200749769807,
+      "learning_rate": 0.28076488314973513,
+      "loss": 0.2879,
+      "num_input_tokens_seen": 6060112,
+      "step": 6520
+    },
+    {
+      "epoch": 3.0763790664780766,
+      "grad_norm": 0.0017546671442687511,
+      "learning_rate": 0.28073601423941774,
+      "loss": 0.3849,
+      "num_input_tokens_seen": 6064176,
+      "step": 6525
+    },
+    {
+      "epoch": 3.0787364450730785,
+      "grad_norm": 0.0006893179379403591,
+      "learning_rate": 0.28070712516796403,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 6069120,
+      "step": 6530
+    },
+    {
+      "epoch": 3.081093823668081,
+      "grad_norm": 0.0013611945323646069,
+      "learning_rate": 0.28067821593982906,
+      "loss": 0.3795,
+      "num_input_tokens_seen": 6073248,
+      "step": 6535
+    },
+    {
+      "epoch": 3.0834512022630833,
+      "grad_norm": 0.0016936565516516566,
+      "learning_rate": 0.28064928655947097,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 6078480,
+      "step": 6540
+    },
+    {
+      "epoch": 3.0858085808580857,
+      "grad_norm": 0.0005425396957434714,
+      "learning_rate": 0.28062033703135103,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 6083360,
+      "step": 6545
+    },
+    {
+      "epoch": 3.088165959453088,
+      "grad_norm": 0.0012814250076189637,
+      "learning_rate": 0.2805913673599337,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 6086992,
+      "step": 6550
+    },
+    {
+      "epoch": 3.0905233380480905,
+      "grad_norm": 0.00043560602352954447,
+      "learning_rate": 0.2805623775496864,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 6092144,
+      "step": 6555
+    },
+    {
+      "epoch": 3.092880716643093,
+      "grad_norm": 0.00045816137571819127,
+      "learning_rate": 0.2805333676050797,
+      "loss": 0.3664,
+      "num_input_tokens_seen": 6096160,
+      "step": 6560
+    },
+    {
+      "epoch": 3.0952380952380953,
+      "grad_norm": 0.0011809910647571087,
+      "learning_rate": 0.2805043375305873,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 6100512,
+      "step": 6565
+    },
+    {
+      "epoch": 3.0975954738330977,
+      "grad_norm": 0.0006048380746506155,
+      "learning_rate": 0.2804752873306861,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 6105248,
+      "step": 6570
+    },
+    {
+      "epoch": 3.0999528524281,
+      "grad_norm": 0.0018609989201650023,
+      "learning_rate": 0.2804462170098559,
+      "loss": 0.3331,
+      "num_input_tokens_seen": 6109664,
+      "step": 6575
+    },
+    {
+      "epoch": 3.102310231023102,
+      "grad_norm": 0.0005646491190418601,
+      "learning_rate": 0.2804171265725797,
+      "loss": 0.312,
+      "num_input_tokens_seen": 6115264,
+      "step": 6580
+    },
+    {
+      "epoch": 3.1046676096181045,
+      "grad_norm": 0.0012670583091676235,
+      "learning_rate": 0.28038801602334373,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 6119888,
+      "step": 6585
+    },
+    {
+      "epoch": 3.107024988213107,
+      "grad_norm": 0.0005568562191911042,
+      "learning_rate": 0.28035888536663717,
+      "loss": 0.333,
+      "num_input_tokens_seen": 6125024,
+      "step": 6590
+    },
+    {
+      "epoch": 3.1093823668081093,
+      "grad_norm": 0.001162243541330099,
+      "learning_rate": 0.2803297346069522,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 6129680,
+      "step": 6595
+    },
+    {
+      "epoch": 3.1117397454031117,
+      "grad_norm": 0.00115584721788764,
+      "learning_rate": 0.28030056374878437,
+      "loss": 0.352,
+      "num_input_tokens_seen": 6134304,
+      "step": 6600
+    },
+    {
+      "epoch": 3.1117397454031117,
+      "eval_loss": 0.3286130130290985,
+      "eval_runtime": 33.4712,
+      "eval_samples_per_second": 28.173,
+      "eval_steps_per_second": 14.102,
+      "num_input_tokens_seen": 6134304,
+      "step": 6600
+    },
+    {
+      "epoch": 3.114097123998114,
+      "grad_norm": 0.0004764320619869977,
+      "learning_rate": 0.2802713727966321,
+      "loss": 0.2841,
+      "num_input_tokens_seen": 6138720,
+      "step": 6605
+    },
+    {
+      "epoch": 3.1164545025931165,
+      "grad_norm": 0.0003942529147025198,
+      "learning_rate": 0.28024216175499717,
+      "loss": 0.3076,
+      "num_input_tokens_seen": 6143568,
+      "step": 6610
+    },
+    {
+      "epoch": 3.118811881188119,
+      "grad_norm": 0.001357363536953926,
+      "learning_rate": 0.2802129306283841,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 6147072,
+      "step": 6615
+    },
+    {
+      "epoch": 3.1211692597831213,
+      "grad_norm": 0.0003777545935008675,
+      "learning_rate": 0.28018367942130074,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 6151456,
+      "step": 6620
+    },
+    {
+      "epoch": 3.1235266383781237,
+      "grad_norm": 0.0005262906779535115,
+      "learning_rate": 0.28015440813825804,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 6155472,
+      "step": 6625
+    },
+    {
+      "epoch": 3.1258840169731257,
+      "grad_norm": 0.0012124814093112946,
+      "learning_rate": 0.28012511678377006,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 6160032,
+      "step": 6630
+    },
+    {
+      "epoch": 3.128241395568128,
+      "grad_norm": 0.0012811720371246338,
+      "learning_rate": 0.28009580536235373,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 6164832,
+      "step": 6635
+    },
+    {
+      "epoch": 3.1305987741631305,
+      "grad_norm": 0.001275444868952036,
+      "learning_rate": 0.28006647387852934,
+      "loss": 0.326,
+      "num_input_tokens_seen": 6170016,
+      "step": 6640
+    },
+    {
+      "epoch": 3.132956152758133,
+      "grad_norm": 0.00044059735955670476,
+      "learning_rate": 0.28003712233682015,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 6175568,
+      "step": 6645
+    },
+    {
+      "epoch": 3.1353135313531353,
+      "grad_norm": 0.0004895885940641165,
+      "learning_rate": 0.2800077507417526,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 6180016,
+      "step": 6650
+    },
+    {
+      "epoch": 3.1376709099481377,
+      "grad_norm": 0.000488077785121277,
+      "learning_rate": 0.2799783590978561,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 6184320,
+      "step": 6655
+    },
+    {
+      "epoch": 3.14002828854314,
+      "grad_norm": 0.00036027925671078265,
+      "learning_rate": 0.2799489474096632,
+      "loss": 0.3582,
+      "num_input_tokens_seen": 6189296,
+      "step": 6660
+    },
+    {
+      "epoch": 3.1423856671381425,
+      "grad_norm": 0.0004175576032139361,
+      "learning_rate": 0.27991951568170953,
+      "loss": 0.3267,
+      "num_input_tokens_seen": 6193472,
+      "step": 6665
+    },
+    {
+      "epoch": 3.144743045733145,
+      "grad_norm": 0.0011357403127476573,
+      "learning_rate": 0.2798900639185339,
+      "loss": 0.3095,
+      "num_input_tokens_seen": 6198480,
+      "step": 6670
+    },
+    {
+      "epoch": 3.1471004243281473,
+      "grad_norm": 0.0004390960675664246,
+      "learning_rate": 0.2798605921246781,
+      "loss": 0.2657,
+      "num_input_tokens_seen": 6203408,
+      "step": 6675
+    },
+    {
+      "epoch": 3.1494578029231493,
+      "grad_norm": 0.000325357133988291,
+      "learning_rate": 0.2798311003046871,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 6208432,
+      "step": 6680
+    },
+    {
+      "epoch": 3.1518151815181517,
+      "grad_norm": 0.000653024937491864,
+      "learning_rate": 0.2798015884631089,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 6214432,
+      "step": 6685
+    },
+    {
+      "epoch": 3.154172560113154,
+      "grad_norm": 0.0006160585908219218,
+      "learning_rate": 0.27977205660449445,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 6219936,
+      "step": 6690
+    },
+    {
+      "epoch": 3.1565299387081565,
+      "grad_norm": 0.0010218898532912135,
+      "learning_rate": 0.2797425047333981,
+      "loss": 0.3735,
+      "num_input_tokens_seen": 6224672,
+      "step": 6695
+    },
+    {
+      "epoch": 3.158887317303159,
+      "grad_norm": 0.0004606071743182838,
+      "learning_rate": 0.27971293285437715,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 6229088,
+      "step": 6700
+    },
+    {
+      "epoch": 3.1612446958981613,
+      "grad_norm": 0.00042440934339538217,
+      "learning_rate": 0.2796833409719918,
+      "loss": 0.3117,
+      "num_input_tokens_seen": 6234208,
+      "step": 6705
+    },
+    {
+      "epoch": 3.1636020744931637,
+      "grad_norm": 0.00041050248546525836,
+      "learning_rate": 0.27965372909080566,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 6238144,
+      "step": 6710
+    },
+    {
+      "epoch": 3.165959453088166,
+      "grad_norm": 0.0003676996857393533,
+      "learning_rate": 0.27962409721538506,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 6242416,
+      "step": 6715
+    },
+    {
+      "epoch": 3.1683168316831685,
+      "grad_norm": 0.0012936309212818742,
+      "learning_rate": 0.27959444535029976,
+      "loss": 0.3818,
+      "num_input_tokens_seen": 6246864,
+      "step": 6720
+    },
+    {
+      "epoch": 3.170674210278171,
+      "grad_norm": 0.0009455333347432315,
+      "learning_rate": 0.27956477350012243,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 6250816,
+      "step": 6725
+    },
+    {
+      "epoch": 3.173031588873173,
+      "grad_norm": 0.00016581873933319002,
+      "learning_rate": 0.27953508166942875,
+      "loss": 0.351,
+      "num_input_tokens_seen": 6255232,
+      "step": 6730
+    },
+    {
+      "epoch": 3.1753889674681752,
+      "grad_norm": 0.0008294981089420617,
+      "learning_rate": 0.27950536986279767,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 6259392,
+      "step": 6735
+    },
+    {
+      "epoch": 3.1777463460631776,
+      "grad_norm": 0.0008308448013849556,
+      "learning_rate": 0.2794756380848111,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 6263216,
+      "step": 6740
+    },
+    {
+      "epoch": 3.18010372465818,
+      "grad_norm": 0.0007062103250063956,
+      "learning_rate": 0.279445886340054,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 6267808,
+      "step": 6745
+    },
+    {
+      "epoch": 3.1824611032531824,
+      "grad_norm": 0.00044468670967034996,
+      "learning_rate": 0.27941611463311455,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 6272768,
+      "step": 6750
+    },
+    {
+      "epoch": 3.184818481848185,
+      "grad_norm": 0.0006634331657551229,
+      "learning_rate": 0.2793863229685839,
+      "loss": 0.3605,
+      "num_input_tokens_seen": 6277680,
+      "step": 6755
+    },
+    {
+      "epoch": 3.1871758604431872,
+      "grad_norm": 0.0005053635104559362,
+      "learning_rate": 0.27935651135105627,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 6282768,
+      "step": 6760
+    },
+    {
+      "epoch": 3.1895332390381896,
+      "grad_norm": 0.0010384557535871863,
+      "learning_rate": 0.279326679785129,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 6287104,
+      "step": 6765
+    },
+    {
+      "epoch": 3.191890617633192,
+      "grad_norm": 0.0004885767702944577,
+      "learning_rate": 0.2792968282754024,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 6292800,
+      "step": 6770
+    },
+    {
+      "epoch": 3.1942479962281944,
+      "grad_norm": 0.0011409330181777477,
+      "learning_rate": 0.2792669568264801,
+      "loss": 0.3608,
+      "num_input_tokens_seen": 6298096,
+      "step": 6775
+    },
+    {
+      "epoch": 3.1966053748231964,
+      "grad_norm": 0.0004393315757624805,
+      "learning_rate": 0.27923706544296856,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 6302016,
+      "step": 6780
+    },
+    {
+      "epoch": 3.198962753418199,
+      "grad_norm": 0.000457602582173422,
+      "learning_rate": 0.2792071541294775,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 6306176,
+      "step": 6785
+    },
+    {
+      "epoch": 3.201320132013201,
+      "grad_norm": 0.00044790402171202004,
+      "learning_rate": 0.27917722289061947,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 6310592,
+      "step": 6790
+    },
+    {
+      "epoch": 3.2036775106082036,
+      "grad_norm": 0.00039481930434703827,
+      "learning_rate": 0.27914727173101034,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 6315440,
+      "step": 6795
+    },
+    {
+      "epoch": 3.206034889203206,
+      "grad_norm": 0.00039271824061870575,
+      "learning_rate": 0.279117300655269,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 6319616,
+      "step": 6800
+    },
+    {
+      "epoch": 3.206034889203206,
+      "eval_loss": 0.32705023884773254,
+      "eval_runtime": 33.5004,
+      "eval_samples_per_second": 28.149,
+      "eval_steps_per_second": 14.089,
+      "num_input_tokens_seen": 6319616,
+      "step": 6800
+    },
+    {
+      "epoch": 3.2083922677982084,
+      "grad_norm": 0.0010870755650103092,
+      "learning_rate": 0.2790873096680173,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 6324784,
+      "step": 6805
+    },
+    {
+      "epoch": 3.210749646393211,
+      "grad_norm": 0.0003688315046019852,
+      "learning_rate": 0.2790572987738802,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 6329536,
+      "step": 6810
+    },
+    {
+      "epoch": 3.213107024988213,
+      "grad_norm": 0.0010902159847319126,
+      "learning_rate": 0.27902726797748584,
+      "loss": 0.2999,
+      "num_input_tokens_seen": 6333664,
+      "step": 6815
+    },
+    {
+      "epoch": 3.2154644035832156,
+      "grad_norm": 0.0010011479025706649,
+      "learning_rate": 0.2789972172834652,
+      "loss": 0.2979,
+      "num_input_tokens_seen": 6338976,
+      "step": 6820
+    },
+    {
+      "epoch": 3.217821782178218,
+      "grad_norm": 0.0009687397978268564,
+      "learning_rate": 0.2789671466964527,
+      "loss": 0.341,
+      "num_input_tokens_seen": 6343904,
+      "step": 6825
+    },
+    {
+      "epoch": 3.22017916077322,
+      "grad_norm": 0.00033921244903467596,
+      "learning_rate": 0.2789370562210854,
+      "loss": 0.3786,
+      "num_input_tokens_seen": 6349232,
+      "step": 6830
+    },
+    {
+      "epoch": 3.2225365393682224,
+      "grad_norm": 0.00037023541517555714,
+      "learning_rate": 0.27890694586200376,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 6353968,
+      "step": 6835
+    },
+    {
+      "epoch": 3.2248939179632248,
+      "grad_norm": 0.000540912093129009,
+      "learning_rate": 0.2788768156238511,
+      "loss": 0.39,
+      "num_input_tokens_seen": 6358640,
+      "step": 6840
+    },
+    {
+      "epoch": 3.227251296558227,
+      "grad_norm": 0.0004078771162312478,
+      "learning_rate": 0.27884666551127385,
+      "loss": 0.367,
+      "num_input_tokens_seen": 6362832,
+      "step": 6845
+    },
+    {
+      "epoch": 3.2296086751532296,
+      "grad_norm": 0.0005917249945923686,
+      "learning_rate": 0.2788164955289217,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 6367280,
+      "step": 6850
+    },
+    {
+      "epoch": 3.231966053748232,
+      "grad_norm": 0.0006453784881159663,
+      "learning_rate": 0.27878630568144697,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 6371760,
+      "step": 6855
+    },
+    {
+      "epoch": 3.2343234323432344,
+      "grad_norm": 0.0001875765301520005,
+      "learning_rate": 0.2787560959735056,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 6376592,
+      "step": 6860
+    },
+    {
+      "epoch": 3.236680810938237,
+      "grad_norm": 0.0008471531327813864,
+      "learning_rate": 0.27872586640975616,
+      "loss": 0.3612,
+      "num_input_tokens_seen": 6380544,
+      "step": 6865
+    },
+    {
+      "epoch": 3.239038189533239,
+      "grad_norm": 0.0002498670946806669,
+      "learning_rate": 0.27869561699486045,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 6384896,
+      "step": 6870
+    },
+    {
+      "epoch": 3.2413955681282416,
+      "grad_norm": 0.0006617127219215035,
+      "learning_rate": 0.2786653477334833,
+      "loss": 0.34,
+      "num_input_tokens_seen": 6388720,
+      "step": 6875
+    },
+    {
+      "epoch": 3.2437529467232435,
+      "grad_norm": 0.0006447118357755244,
+      "learning_rate": 0.2786350586302926,
+      "loss": 0.337,
+      "num_input_tokens_seen": 6394176,
+      "step": 6880
+    },
+    {
+      "epoch": 3.246110325318246,
+      "grad_norm": 0.0006385213928297162,
+      "learning_rate": 0.27860474968995935,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 6398272,
+      "step": 6885
+    },
+    {
+      "epoch": 3.2484677039132484,
+      "grad_norm": 0.000296257552690804,
+      "learning_rate": 0.27857442091715756,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 6403936,
+      "step": 6890
+    },
+    {
+      "epoch": 3.2508250825082508,
+      "grad_norm": 0.0012324510607868433,
+      "learning_rate": 0.27854407231656425,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 6408368,
+      "step": 6895
+    },
+    {
+      "epoch": 3.253182461103253,
+      "grad_norm": 0.0023715610150247812,
+      "learning_rate": 0.2785137038928596,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 6413888,
+      "step": 6900
+    },
+    {
+      "epoch": 3.2555398396982556,
+      "grad_norm": 0.0005479201790876687,
+      "learning_rate": 0.27848331565072687,
+      "loss": 0.3621,
+      "num_input_tokens_seen": 6419872,
+      "step": 6905
+    },
+    {
+      "epoch": 3.257897218293258,
+      "grad_norm": 0.0008832195308059454,
+      "learning_rate": 0.27845290759485225,
+      "loss": 0.3195,
+      "num_input_tokens_seen": 6424720,
+      "step": 6910
+    },
+    {
+      "epoch": 3.2602545968882604,
+      "grad_norm": 0.0014793737791478634,
+      "learning_rate": 0.278422479729925,
+      "loss": 0.3694,
+      "num_input_tokens_seen": 6429536,
+      "step": 6915
+    },
+    {
+      "epoch": 3.2626119754832628,
+      "grad_norm": 0.0018543583573773503,
+      "learning_rate": 0.2783920320606375,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 6434080,
+      "step": 6920
+    },
+    {
+      "epoch": 3.264969354078265,
+      "grad_norm": 0.0006046277703717351,
+      "learning_rate": 0.2783615645916852,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 6439264,
+      "step": 6925
+    },
+    {
+      "epoch": 3.2673267326732676,
+      "grad_norm": 0.0014001368544995785,
+      "learning_rate": 0.2783310773277666,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 6443088,
+      "step": 6930
+    },
+    {
+      "epoch": 3.2696841112682695,
+      "grad_norm": 0.0007806034991517663,
+      "learning_rate": 0.2783005702735831,
+      "loss": 0.34,
+      "num_input_tokens_seen": 6448592,
+      "step": 6935
+    },
+    {
+      "epoch": 3.272041489863272,
+      "grad_norm": 0.00114888371899724,
+      "learning_rate": 0.2782700434338394,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 6453104,
+      "step": 6940
+    },
+    {
+      "epoch": 3.2743988684582743,
+      "grad_norm": 0.0005364081589505076,
+      "learning_rate": 0.278239496813243,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 6457408,
+      "step": 6945
+    },
+    {
+      "epoch": 3.2767562470532767,
+      "grad_norm": 0.0010402922052890062,
+      "learning_rate": 0.27820893041650463,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 6461952,
+      "step": 6950
+    },
+    {
+      "epoch": 3.279113625648279,
+      "grad_norm": 0.0006699529476463795,
+      "learning_rate": 0.27817834424833804,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 6466816,
+      "step": 6955
+    },
+    {
+      "epoch": 3.2814710042432815,
+      "grad_norm": 0.0003591636777855456,
+      "learning_rate": 0.27814773831345996,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 6471104,
+      "step": 6960
+    },
+    {
+      "epoch": 3.283828382838284,
+      "grad_norm": 0.0005837203352712095,
+      "learning_rate": 0.2781171126165902,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 6475200,
+      "step": 6965
+    },
+    {
+      "epoch": 3.2861857614332863,
+      "grad_norm": 0.0011373587185516953,
+      "learning_rate": 0.2780864671624517,
+      "loss": 0.3876,
+      "num_input_tokens_seen": 6479312,
+      "step": 6970
+    },
+    {
+      "epoch": 3.2885431400282887,
+      "grad_norm": 0.0012077452847734094,
+      "learning_rate": 0.27805580195577034,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 6483664,
+      "step": 6975
+    },
+    {
+      "epoch": 3.2909005186232907,
+      "grad_norm": 0.0005487556336447597,
+      "learning_rate": 0.2780251170012751,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 6488096,
+      "step": 6980
+    },
+    {
+      "epoch": 3.293257897218293,
+      "grad_norm": 0.00026068935403600335,
+      "learning_rate": 0.27799441230369787,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 6492656,
+      "step": 6985
+    },
+    {
+      "epoch": 3.2956152758132955,
+      "grad_norm": 0.0013354661641642451,
+      "learning_rate": 0.27796368786777387,
+      "loss": 0.3436,
+      "num_input_tokens_seen": 6496768,
+      "step": 6990
+    },
+    {
+      "epoch": 3.297972654408298,
+      "grad_norm": 0.001348852994851768,
+      "learning_rate": 0.277932943698241,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 6500656,
+      "step": 6995
+    },
+    {
+      "epoch": 3.3003300330033003,
+      "grad_norm": 0.0011436972999945283,
+      "learning_rate": 0.2779021797998406,
+      "loss": 0.3445,
+      "num_input_tokens_seen": 6505744,
+      "step": 7000
+    },
+    {
+      "epoch": 3.3003300330033003,
+      "eval_loss": 0.3292427062988281,
+      "eval_runtime": 33.3888,
+      "eval_samples_per_second": 28.243,
+      "eval_steps_per_second": 14.136,
+      "num_input_tokens_seen": 6505744,
+      "step": 7000
+    },
+    {
+      "epoch": 3.3026874115983027,
+      "grad_norm": 0.001141281332820654,
+      "learning_rate": 0.2778713961773167,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 6510528,
+      "step": 7005
+    },
+    {
+      "epoch": 3.305044790193305,
+      "grad_norm": 0.001198300626128912,
+      "learning_rate": 0.2778405928354166,
+      "loss": 0.2833,
+      "num_input_tokens_seen": 6514832,
+      "step": 7010
+    },
+    {
+      "epoch": 3.3074021687883075,
+      "grad_norm": 0.0013040329795330763,
+      "learning_rate": 0.27780976977889055,
+      "loss": 0.3723,
+      "num_input_tokens_seen": 6518400,
+      "step": 7015
+    },
+    {
+      "epoch": 3.30975954738331,
+      "grad_norm": 0.0012615653686225414,
+      "learning_rate": 0.27777892701249185,
+      "loss": 0.37,
+      "num_input_tokens_seen": 6523152,
+      "step": 7020
+    },
+    {
+      "epoch": 3.3121169259783123,
+      "grad_norm": 0.0012097287690266967,
+      "learning_rate": 0.2777480645409768,
+      "loss": 0.3548,
+      "num_input_tokens_seen": 6528432,
+      "step": 7025
+    },
+    {
+      "epoch": 3.3144743045733147,
+      "grad_norm": 0.00028915845905430615,
+      "learning_rate": 0.27771718236910486,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 6532304,
+      "step": 7030
+    },
+    {
+      "epoch": 3.3168316831683167,
+      "grad_norm": 0.0006235881592147052,
+      "learning_rate": 0.27768628050163835,
+      "loss": 0.345,
+      "num_input_tokens_seen": 6537696,
+      "step": 7035
+    },
+    {
+      "epoch": 3.319189061763319,
+      "grad_norm": 0.00020513350318651646,
+      "learning_rate": 0.2776553589433428,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 6542720,
+      "step": 7040
+    },
+    {
+      "epoch": 3.3215464403583215,
+      "grad_norm": 0.00024514400865882635,
+      "learning_rate": 0.27762441769898666,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 6546896,
+      "step": 7045
+    },
+    {
+      "epoch": 3.323903818953324,
+      "grad_norm": 0.0005308067193254828,
+      "learning_rate": 0.2775934567733415,
+      "loss": 0.352,
+      "num_input_tokens_seen": 6551680,
+      "step": 7050
+    },
+    {
+      "epoch": 3.3262611975483263,
+      "grad_norm": 0.0006046982016414404,
+      "learning_rate": 0.2775624761711819,
+      "loss": 0.331,
+      "num_input_tokens_seen": 6556384,
+      "step": 7055
+    },
+    {
+      "epoch": 3.3286185761433287,
+      "grad_norm": 0.00037229707231745124,
+      "learning_rate": 0.2775314758972854,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 6561184,
+      "step": 7060
+    },
+    {
+      "epoch": 3.330975954738331,
+      "grad_norm": 0.000416870869230479,
+      "learning_rate": 0.2775004559564327,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 6565728,
+      "step": 7065
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.00048288924153894186,
+      "learning_rate": 0.2774694163534073,
+      "loss": 0.3612,
+      "num_input_tokens_seen": 6570384,
+      "step": 7070
+    },
+    {
+      "epoch": 3.335690711928336,
+      "grad_norm": 0.0004200038965791464,
+      "learning_rate": 0.27743835709299614,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 6574864,
+      "step": 7075
+    },
+    {
+      "epoch": 3.338048090523338,
+      "grad_norm": 0.00042515830136835575,
+      "learning_rate": 0.2774072781799888,
+      "loss": 0.3031,
+      "num_input_tokens_seen": 6579408,
+      "step": 7080
+    },
+    {
+      "epoch": 3.3404054691183402,
+      "grad_norm": 0.00037259317468851805,
+      "learning_rate": 0.27737617961917804,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 6583392,
+      "step": 7085
+    },
+    {
+      "epoch": 3.3427628477133426,
+      "grad_norm": 0.00041015303577296436,
+      "learning_rate": 0.27734506141535964,
+      "loss": 0.372,
+      "num_input_tokens_seen": 6588912,
+      "step": 7090
+    },
+    {
+      "epoch": 3.345120226308345,
+      "grad_norm": 0.0003360736300237477,
+      "learning_rate": 0.2773139235733325,
+      "loss": 0.3484,
+      "num_input_tokens_seen": 6593568,
+      "step": 7095
+    },
+    {
+      "epoch": 3.3474776049033474,
+      "grad_norm": 0.000338043988449499,
+      "learning_rate": 0.2772827660978984,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 6598096,
+      "step": 7100
+    },
+    {
+      "epoch": 3.34983498349835,
+      "grad_norm": 0.0005519305705092847,
+      "learning_rate": 0.27725158899386226,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 6602368,
+      "step": 7105
+    },
+    {
+      "epoch": 3.3521923620933523,
+      "grad_norm": 0.00020476638746913522,
+      "learning_rate": 0.27722039226603196,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 6606896,
+      "step": 7110
+    },
+    {
+      "epoch": 3.3545497406883547,
+      "grad_norm": 0.0003255469200666994,
+      "learning_rate": 0.2771891759192184,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 6611808,
+      "step": 7115
+    },
+    {
+      "epoch": 3.356907119283357,
+      "grad_norm": 0.0009569344110786915,
+      "learning_rate": 0.2771579399582355,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 6615984,
+      "step": 7120
+    },
+    {
+      "epoch": 3.3592644978783595,
+      "grad_norm": 0.0017865928821265697,
+      "learning_rate": 0.2771266843879004,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 6620848,
+      "step": 7125
+    },
+    {
+      "epoch": 3.361621876473362,
+      "grad_norm": 0.000498883833643049,
+      "learning_rate": 0.2770954092130329,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 6625360,
+      "step": 7130
+    },
+    {
+      "epoch": 3.363979255068364,
+      "grad_norm": 0.00034022631007246673,
+      "learning_rate": 0.27706411443845613,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 6630032,
+      "step": 7135
+    },
+    {
+      "epoch": 3.366336633663366,
+      "grad_norm": 0.0012323163682594895,
+      "learning_rate": 0.27703280006899617,
+      "loss": 0.313,
+      "num_input_tokens_seen": 6634688,
+      "step": 7140
+    },
+    {
+      "epoch": 3.3686940122583686,
+      "grad_norm": 0.00046187223051674664,
+      "learning_rate": 0.277001466109482,
+      "loss": 0.3555,
+      "num_input_tokens_seen": 6638496,
+      "step": 7145
+    },
+    {
+      "epoch": 3.371051390853371,
+      "grad_norm": 0.0005180164007470012,
+      "learning_rate": 0.2769701125647458,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 6643760,
+      "step": 7150
+    },
+    {
+      "epoch": 3.3734087694483734,
+      "grad_norm": 0.0010442648781463504,
+      "learning_rate": 0.27693873943962266,
+      "loss": 0.3873,
+      "num_input_tokens_seen": 6647872,
+      "step": 7155
+    },
+    {
+      "epoch": 3.375766148043376,
+      "grad_norm": 0.0005721607012674212,
+      "learning_rate": 0.2769073467389506,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 6653440,
+      "step": 7160
+    },
+    {
+      "epoch": 3.3781235266383782,
+      "grad_norm": 0.0005514575750567019,
+      "learning_rate": 0.2768759344675709,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 6658528,
+      "step": 7165
+    },
+    {
+      "epoch": 3.3804809052333806,
+      "grad_norm": 0.0004843217902816832,
+      "learning_rate": 0.27684450263032767,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 6663408,
+      "step": 7170
+    },
+    {
+      "epoch": 3.382838283828383,
+      "grad_norm": 0.0004155293572694063,
+      "learning_rate": 0.2768130512320682,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 6668096,
+      "step": 7175
+    },
+    {
+      "epoch": 3.385195662423385,
+      "grad_norm": 0.001871942076832056,
+      "learning_rate": 0.27678158027764244,
+      "loss": 0.3441,
+      "num_input_tokens_seen": 6672672,
+      "step": 7180
+    },
+    {
+      "epoch": 3.3875530410183874,
+      "grad_norm": 0.00030195844010449946,
+      "learning_rate": 0.27675008977190385,
+      "loss": 0.2743,
+      "num_input_tokens_seen": 6677840,
+      "step": 7185
+    },
+    {
+      "epoch": 3.38991041961339,
+      "grad_norm": 0.0002069099573418498,
+      "learning_rate": 0.2767185797197086,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 6683040,
+      "step": 7190
+    },
+    {
+      "epoch": 3.392267798208392,
+      "grad_norm": 0.0011875415220856667,
+      "learning_rate": 0.2766870501259159,
+      "loss": 0.4347,
+      "num_input_tokens_seen": 6687088,
+      "step": 7195
+    },
+    {
+      "epoch": 3.3946251768033946,
+      "grad_norm": 0.00044821883784607053,
+      "learning_rate": 0.276655500995388,
+      "loss": 0.3611,
+      "num_input_tokens_seen": 6692208,
+      "step": 7200
+    },
+    {
+      "epoch": 3.3946251768033946,
+      "eval_loss": 0.32903265953063965,
+      "eval_runtime": 33.5247,
+      "eval_samples_per_second": 28.129,
+      "eval_steps_per_second": 14.079,
+      "num_input_tokens_seen": 6692208,
+      "step": 7200
+    },
+    {
+      "epoch": 3.396982555398397,
+      "grad_norm": 0.0009222084190696478,
+      "learning_rate": 0.27662393233299015,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 6696624,
+      "step": 7205
+    },
+    {
+      "epoch": 3.3993399339933994,
+      "grad_norm": 0.0002572966041043401,
+      "learning_rate": 0.27659234414359074,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 6700800,
+      "step": 7210
+    },
+    {
+      "epoch": 3.401697312588402,
+      "grad_norm": 0.00019321597937960178,
+      "learning_rate": 0.27656073643206097,
+      "loss": 0.3535,
+      "num_input_tokens_seen": 6705040,
+      "step": 7215
+    },
+    {
+      "epoch": 3.404054691183404,
+      "grad_norm": 0.0007023201324045658,
+      "learning_rate": 0.27652910920327517,
+      "loss": 0.3524,
+      "num_input_tokens_seen": 6708688,
+      "step": 7220
+    },
+    {
+      "epoch": 3.4064120697784066,
+      "grad_norm": 0.0006888559437356889,
+      "learning_rate": 0.2764974624621107,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 6712816,
+      "step": 7225
+    },
+    {
+      "epoch": 3.408769448373409,
+      "grad_norm": 0.0012560066534206271,
+      "learning_rate": 0.2764657962134479,
+      "loss": 0.338,
+      "num_input_tokens_seen": 6717200,
+      "step": 7230
+    },
+    {
+      "epoch": 3.411126826968411,
+      "grad_norm": 0.0003044821205548942,
+      "learning_rate": 0.27643411046217,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 6722192,
+      "step": 7235
+    },
+    {
+      "epoch": 3.4134842055634134,
+      "grad_norm": 0.00030947502818889916,
+      "learning_rate": 0.27640240521316334,
+      "loss": 0.3717,
+      "num_input_tokens_seen": 6727296,
+      "step": 7240
+    },
+    {
+      "epoch": 3.4158415841584158,
+      "grad_norm": 0.00041863819933496416,
+      "learning_rate": 0.2763706804713174,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 6732848,
+      "step": 7245
+    },
+    {
+      "epoch": 3.418198962753418,
+      "grad_norm": 0.00037680810783058405,
+      "learning_rate": 0.2763389362415245,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 6738256,
+      "step": 7250
+    },
+    {
+      "epoch": 3.4205563413484206,
+      "grad_norm": 0.0003486588248051703,
+      "learning_rate": 0.27630717252867987,
+      "loss": 0.2691,
+      "num_input_tokens_seen": 6743024,
+      "step": 7255
+    },
+    {
+      "epoch": 3.422913719943423,
+      "grad_norm": 0.00028852029936388135,
+      "learning_rate": 0.276275389337682,
+      "loss": 0.3088,
+      "num_input_tokens_seen": 6747328,
+      "step": 7260
+    },
+    {
+      "epoch": 3.4252710985384254,
+      "grad_norm": 0.00022062611242290586,
+      "learning_rate": 0.2762435866734322,
+      "loss": 0.29,
+      "num_input_tokens_seen": 6752352,
+      "step": 7265
+    },
+    {
+      "epoch": 3.4276284771334278,
+      "grad_norm": 0.000603372638579458,
+      "learning_rate": 0.27621176454083485,
+      "loss": 0.367,
+      "num_input_tokens_seen": 6756624,
+      "step": 7270
+    },
+    {
+      "epoch": 3.42998585572843,
+      "grad_norm": 0.00027490014326758683,
+      "learning_rate": 0.2761799229447973,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 6761392,
+      "step": 7275
+    },
+    {
+      "epoch": 3.432343234323432,
+      "grad_norm": 0.0005767496186308563,
+      "learning_rate": 0.27614806189023006,
+      "loss": 0.3047,
+      "num_input_tokens_seen": 6766672,
+      "step": 7280
+    },
+    {
+      "epoch": 3.4347006129184345,
+      "grad_norm": 0.0005212030955590308,
+      "learning_rate": 0.27611618138204636,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 6771376,
+      "step": 7285
+    },
+    {
+      "epoch": 3.437057991513437,
+      "grad_norm": 0.00026422334485687315,
+      "learning_rate": 0.2760842814251626,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 6775744,
+      "step": 7290
+    },
+    {
+      "epoch": 3.4394153701084393,
+      "grad_norm": 0.0009024105966091156,
+      "learning_rate": 0.2760523620244982,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 6779744,
+      "step": 7295
+    },
+    {
+      "epoch": 3.4417727487034417,
+      "grad_norm": 0.0009140587062574923,
+      "learning_rate": 0.27602042318497544,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 6783792,
+      "step": 7300
+    },
+    {
+      "epoch": 3.444130127298444,
+      "grad_norm": 0.00023159250849857926,
+      "learning_rate": 0.2759884649115198,
+      "loss": 0.29,
+      "num_input_tokens_seen": 6788128,
+      "step": 7305
+    },
+    {
+      "epoch": 3.4464875058934465,
+      "grad_norm": 0.0002118518459610641,
+      "learning_rate": 0.2759564872090596,
+      "loss": 0.311,
+      "num_input_tokens_seen": 6792496,
+      "step": 7310
+    },
+    {
+      "epoch": 3.448844884488449,
+      "grad_norm": 0.0008846670971252024,
+      "learning_rate": 0.2759244900825262,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 6797328,
+      "step": 7315
+    },
+    {
+      "epoch": 3.4512022630834513,
+      "grad_norm": 0.0005589252687059343,
+      "learning_rate": 0.2758924735368539,
+      "loss": 0.354,
+      "num_input_tokens_seen": 6801664,
+      "step": 7320
+    },
+    {
+      "epoch": 3.4535596416784538,
+      "grad_norm": 0.00022318284027278423,
+      "learning_rate": 0.27586043757698014,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 6806448,
+      "step": 7325
+    },
+    {
+      "epoch": 3.455917020273456,
+      "grad_norm": 0.000956936099100858,
+      "learning_rate": 0.27582838220784534,
+      "loss": 0.2855,
+      "num_input_tokens_seen": 6810752,
+      "step": 7330
+    },
+    {
+      "epoch": 3.458274398868458,
+      "grad_norm": 0.0009727692231535912,
+      "learning_rate": 0.27579630743439265,
+      "loss": 0.2575,
+      "num_input_tokens_seen": 6814560,
+      "step": 7335
+    },
+    {
+      "epoch": 3.4606317774634605,
+      "grad_norm": 0.00019993443856947124,
+      "learning_rate": 0.2757642132615686,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 6819104,
+      "step": 7340
+    },
+    {
+      "epoch": 3.462989156058463,
+      "grad_norm": 0.0006674634059891105,
+      "learning_rate": 0.2757320996943223,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 6824256,
+      "step": 7345
+    },
+    {
+      "epoch": 3.4653465346534653,
+      "grad_norm": 0.0006425976753234863,
+      "learning_rate": 0.2756999667376062,
+      "loss": 0.3954,
+      "num_input_tokens_seen": 6828464,
+      "step": 7350
+    },
+    {
+      "epoch": 3.4677039132484677,
+      "grad_norm": 0.0010499762138351798,
+      "learning_rate": 0.2756678143963756,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 6832960,
+      "step": 7355
+    },
+    {
+      "epoch": 3.47006129184347,
+      "grad_norm": 0.0011655886191874743,
+      "learning_rate": 0.2756356426755888,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 6837712,
+      "step": 7360
+    },
+    {
+      "epoch": 3.4724186704384725,
+      "grad_norm": 0.00044683049782179296,
+      "learning_rate": 0.27560345158020705,
+      "loss": 0.2946,
+      "num_input_tokens_seen": 6843200,
+      "step": 7365
+    },
+    {
+      "epoch": 3.474776049033475,
+      "grad_norm": 0.000500668422318995,
+      "learning_rate": 0.27557124111519465,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 6848480,
+      "step": 7370
+    },
+    {
+      "epoch": 3.4771334276284773,
+      "grad_norm": 0.0009187315590679646,
+      "learning_rate": 0.27553901128551883,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 6852672,
+      "step": 7375
+    },
+    {
+      "epoch": 3.4794908062234793,
+      "grad_norm": 0.000325986446114257,
+      "learning_rate": 0.2755067620961498,
+      "loss": 0.3591,
+      "num_input_tokens_seen": 6857472,
+      "step": 7380
+    },
+    {
+      "epoch": 3.4818481848184817,
+      "grad_norm": 0.001639852998778224,
+      "learning_rate": 0.27547449355206094,
+      "loss": 0.4008,
+      "num_input_tokens_seen": 6862368,
+      "step": 7385
+    },
+    {
+      "epoch": 3.484205563413484,
+      "grad_norm": 0.0005392979364842176,
+      "learning_rate": 0.2754422056582283,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 6867040,
+      "step": 7390
+    },
+    {
+      "epoch": 3.4865629420084865,
+      "grad_norm": 0.0011958788381889462,
+      "learning_rate": 0.27540989841963115,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 6871424,
+      "step": 7395
+    },
+    {
+      "epoch": 3.488920320603489,
+      "grad_norm": 0.00021978007862344384,
+      "learning_rate": 0.27537757184125167,
+      "loss": 0.3608,
+      "num_input_tokens_seen": 6875616,
+      "step": 7400
+    },
+    {
+      "epoch": 3.488920320603489,
+      "eval_loss": 0.3350490629673004,
+      "eval_runtime": 33.4705,
+      "eval_samples_per_second": 28.174,
+      "eval_steps_per_second": 14.102,
+      "num_input_tokens_seen": 6875616,
+      "step": 7400
+    },
+    {
+      "epoch": 3.4912776991984913,
+      "grad_norm": 0.0006025228649377823,
+      "learning_rate": 0.275345225928075,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 6880080,
+      "step": 7405
+    },
+    {
+      "epoch": 3.4936350777934937,
+      "grad_norm": 0.0005149265634827316,
+      "learning_rate": 0.2753128606850893,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 6884480,
+      "step": 7410
+    },
+    {
+      "epoch": 3.495992456388496,
+      "grad_norm": 0.00026879686629399657,
+      "learning_rate": 0.2752804761172858,
+      "loss": 0.3374,
+      "num_input_tokens_seen": 6889520,
+      "step": 7415
+    },
+    {
+      "epoch": 3.4983498349834985,
+      "grad_norm": 0.0009427524637430906,
+      "learning_rate": 0.27524807222965836,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 6894288,
+      "step": 7420
+    },
+    {
+      "epoch": 3.500707213578501,
+      "grad_norm": 0.000478199654025957,
+      "learning_rate": 0.27521564902720436,
+      "loss": 0.3141,
+      "num_input_tokens_seen": 6898640,
+      "step": 7425
+    },
+    {
+      "epoch": 3.5030645921735033,
+      "grad_norm": 0.00038509423029609025,
+      "learning_rate": 0.2751832065149236,
+      "loss": 0.2854,
+      "num_input_tokens_seen": 6902832,
+      "step": 7430
+    },
+    {
+      "epoch": 3.5054219707685053,
+      "grad_norm": 0.0005676053115166724,
+      "learning_rate": 0.2751507446978193,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 6906784,
+      "step": 7435
+    },
+    {
+      "epoch": 3.5077793493635077,
+      "grad_norm": 0.00024406866577919573,
+      "learning_rate": 0.2751182635808974,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 6911664,
+      "step": 7440
+    },
+    {
+      "epoch": 3.51013672795851,
+      "grad_norm": 0.0014143661828711629,
+      "learning_rate": 0.27508576316916694,
+      "loss": 0.2888,
+      "num_input_tokens_seen": 6916096,
+      "step": 7445
+    },
+    {
+      "epoch": 3.5124941065535125,
+      "grad_norm": 0.0007048466359265149,
+      "learning_rate": 0.2750532434676399,
+      "loss": 0.3615,
+      "num_input_tokens_seen": 6920368,
+      "step": 7450
+    },
+    {
+      "epoch": 3.514851485148515,
+      "grad_norm": 0.00014092723722569644,
+      "learning_rate": 0.27502070448133115,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 6926112,
+      "step": 7455
+    },
+    {
+      "epoch": 3.5172088637435173,
+      "grad_norm": 0.0006581756751984358,
+      "learning_rate": 0.2749881462152587,
+      "loss": 0.2856,
+      "num_input_tokens_seen": 6931120,
+      "step": 7460
+    },
+    {
+      "epoch": 3.5195662423385197,
+      "grad_norm": 0.001923330477438867,
+      "learning_rate": 0.2749555686744434,
+      "loss": 0.3958,
+      "num_input_tokens_seen": 6935472,
+      "step": 7465
+    },
+    {
+      "epoch": 3.521923620933522,
+      "grad_norm": 0.00043589400593191385,
+      "learning_rate": 0.2749229718639091,
+      "loss": 0.3672,
+      "num_input_tokens_seen": 6939904,
+      "step": 7470
+    },
+    {
+      "epoch": 3.524280999528524,
+      "grad_norm": 0.00036789648584090173,
+      "learning_rate": 0.27489035578868265,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 6944208,
+      "step": 7475
+    },
+    {
+      "epoch": 3.5266383781235264,
+      "grad_norm": 0.001061439048498869,
+      "learning_rate": 0.2748577204537939,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 6948768,
+      "step": 7480
+    },
+    {
+      "epoch": 3.528995756718529,
+      "grad_norm": 0.0004609517636708915,
+      "learning_rate": 0.2748250658642756,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 6953888,
+      "step": 7485
+    },
+    {
+      "epoch": 3.5313531353135312,
+      "grad_norm": 0.0004429292748682201,
+      "learning_rate": 0.2747923920251634,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 6958640,
+      "step": 7490
+    },
+    {
+      "epoch": 3.5337105139085336,
+      "grad_norm": 0.0004278825072105974,
+      "learning_rate": 0.27475969894149627,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 6964128,
+      "step": 7495
+    },
+    {
+      "epoch": 3.536067892503536,
+      "grad_norm": 0.00048333421000279486,
+      "learning_rate": 0.2747269866183156,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 6968496,
+      "step": 7500
+    },
+    {
+      "epoch": 3.5384252710985384,
+      "grad_norm": 0.00042587099596858025,
+      "learning_rate": 0.27469425506066625,
+      "loss": 0.3161,
+      "num_input_tokens_seen": 6973728,
+      "step": 7505
+    },
+    {
+      "epoch": 3.540782649693541,
+      "grad_norm": 0.00040336293750442564,
+      "learning_rate": 0.27466150427359576,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 6978096,
+      "step": 7510
+    },
+    {
+      "epoch": 3.5431400282885432,
+      "grad_norm": 0.0003604175290092826,
+      "learning_rate": 0.2746287342621547,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 6982272,
+      "step": 7515
+    },
+    {
+      "epoch": 3.5454974068835456,
+      "grad_norm": 0.0009642152581363916,
+      "learning_rate": 0.2745959450313966,
+      "loss": 0.3006,
+      "num_input_tokens_seen": 6986560,
+      "step": 7520
+    },
+    {
+      "epoch": 3.547854785478548,
+      "grad_norm": 0.0016689995536580682,
+      "learning_rate": 0.27456313658637804,
+      "loss": 0.387,
+      "num_input_tokens_seen": 6992080,
+      "step": 7525
+    },
+    {
+      "epoch": 3.5502121640735504,
+      "grad_norm": 0.0003305624704807997,
+      "learning_rate": 0.27453030893215846,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 6996704,
+      "step": 7530
+    },
+    {
+      "epoch": 3.5525695426685524,
+      "grad_norm": 0.00034019339364022017,
+      "learning_rate": 0.2744974620738003,
+      "loss": 0.337,
+      "num_input_tokens_seen": 7001584,
+      "step": 7535
+    },
+    {
+      "epoch": 3.554926921263555,
+      "grad_norm": 0.0009002278093248606,
+      "learning_rate": 0.27446459601636897,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 7006384,
+      "step": 7540
+    },
+    {
+      "epoch": 3.557284299858557,
+      "grad_norm": 0.0004320394655223936,
+      "learning_rate": 0.2744317107649328,
+      "loss": 0.3104,
+      "num_input_tokens_seen": 7011072,
+      "step": 7545
+    },
+    {
+      "epoch": 3.5596416784535596,
+      "grad_norm": 0.00024752947501838207,
+      "learning_rate": 0.2743988063245631,
+      "loss": 0.3781,
+      "num_input_tokens_seen": 7015600,
+      "step": 7550
+    },
+    {
+      "epoch": 3.561999057048562,
+      "grad_norm": 0.0010814904235303402,
+      "learning_rate": 0.2743658827003342,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 7019696,
+      "step": 7555
+    },
+    {
+      "epoch": 3.5643564356435644,
+      "grad_norm": 0.0010546399280428886,
+      "learning_rate": 0.27433293989732327,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 7024064,
+      "step": 7560
+    },
+    {
+      "epoch": 3.566713814238567,
+      "grad_norm": 0.00033145028282888234,
+      "learning_rate": 0.27429997792061056,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 7029216,
+      "step": 7565
+    },
+    {
+      "epoch": 3.569071192833569,
+      "grad_norm": 0.0002990816137753427,
+      "learning_rate": 0.27426699677527927,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 7033264,
+      "step": 7570
+    },
+    {
+      "epoch": 3.571428571428571,
+      "grad_norm": 0.00038741240859963,
+      "learning_rate": 0.2742339964664154,
+      "loss": 0.3685,
+      "num_input_tokens_seen": 7037424,
+      "step": 7575
+    },
+    {
+      "epoch": 3.5737859500235736,
+      "grad_norm": 0.0009442874579690397,
+      "learning_rate": 0.274200976999108,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 7042544,
+      "step": 7580
+    },
+    {
+      "epoch": 3.576143328618576,
+      "grad_norm": 0.0009767170995473862,
+      "learning_rate": 0.27416793837844916,
+      "loss": 0.2892,
+      "num_input_tokens_seen": 7046768,
+      "step": 7585
+    },
+    {
+      "epoch": 3.5785007072135784,
+      "grad_norm": 0.000933323404751718,
+      "learning_rate": 0.27413488060953384,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 7050656,
+      "step": 7590
+    },
+    {
+      "epoch": 3.580858085808581,
+      "grad_norm": 0.0003453513782005757,
+      "learning_rate": 0.27410180369745996,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 7055056,
+      "step": 7595
+    },
+    {
+      "epoch": 3.583215464403583,
+      "grad_norm": 0.0002899340761359781,
+      "learning_rate": 0.27406870764732844,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 7059472,
+      "step": 7600
+    },
+    {
+      "epoch": 3.583215464403583,
+      "eval_loss": 0.3288579285144806,
+      "eval_runtime": 33.4114,
+      "eval_samples_per_second": 28.224,
+      "eval_steps_per_second": 14.127,
+      "num_input_tokens_seen": 7059472,
+      "step": 7600
+    },
+    {
+      "epoch": 3.5855728429985856,
+      "grad_norm": 0.0002321567153558135,
+      "learning_rate": 0.27403559246424297,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 7063760,
+      "step": 7605
+    },
+    {
+      "epoch": 3.587930221593588,
+      "grad_norm": 0.00045190000673756003,
+      "learning_rate": 0.2740024581533105,
+      "loss": 0.323,
+      "num_input_tokens_seen": 7067696,
+      "step": 7610
+    },
+    {
+      "epoch": 3.5902876001885904,
+      "grad_norm": 0.0004277000844012946,
+      "learning_rate": 0.2739693047196406,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 7071296,
+      "step": 7615
+    },
+    {
+      "epoch": 3.592644978783593,
+      "grad_norm": 0.00039097489207051694,
+      "learning_rate": 0.27393613216834606,
+      "loss": 0.3679,
+      "num_input_tokens_seen": 7075776,
+      "step": 7620
+    },
+    {
+      "epoch": 3.595002357378595,
+      "grad_norm": 0.0009546118672005832,
+      "learning_rate": 0.2739029405045424,
+      "loss": 0.3653,
+      "num_input_tokens_seen": 7080016,
+      "step": 7625
+    },
+    {
+      "epoch": 3.5973597359735976,
+      "grad_norm": 0.0009657223708927631,
+      "learning_rate": 0.2738697297333483,
+      "loss": 0.2775,
+      "num_input_tokens_seen": 7085264,
+      "step": 7630
+    },
+    {
+      "epoch": 3.5997171145685996,
+      "grad_norm": 0.00031251952168531716,
+      "learning_rate": 0.2738364998598852,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 7090384,
+      "step": 7635
+    },
+    {
+      "epoch": 3.602074493163602,
+      "grad_norm": 0.0003842128498945385,
+      "learning_rate": 0.27380325088927765,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 7094720,
+      "step": 7640
+    },
+    {
+      "epoch": 3.6044318717586044,
+      "grad_norm": 0.0003886324411723763,
+      "learning_rate": 0.27376998282665294,
+      "loss": 0.325,
+      "num_input_tokens_seen": 7098976,
+      "step": 7645
+    },
+    {
+      "epoch": 3.6067892503536068,
+      "grad_norm": 0.00042641189065761864,
+      "learning_rate": 0.27373669567714154,
+      "loss": 0.342,
+      "num_input_tokens_seen": 7103536,
+      "step": 7650
+    },
+    {
+      "epoch": 3.609146628948609,
+      "grad_norm": 0.0004160230455454439,
+      "learning_rate": 0.27370338944587663,
+      "loss": 0.3566,
+      "num_input_tokens_seen": 7108640,
+      "step": 7655
+    },
+    {
+      "epoch": 3.6115040075436116,
+      "grad_norm": 0.0009350707987323403,
+      "learning_rate": 0.27367006413799455,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 7113440,
+      "step": 7660
+    },
+    {
+      "epoch": 3.613861386138614,
+      "grad_norm": 0.0004903597291558981,
+      "learning_rate": 0.2736367197586345,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 7118896,
+      "step": 7665
+    },
+    {
+      "epoch": 3.6162187647336164,
+      "grad_norm": 0.0008892054320313036,
+      "learning_rate": 0.2736033563129385,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 7123488,
+      "step": 7670
+    },
+    {
+      "epoch": 3.6185761433286183,
+      "grad_norm": 0.00034307679743506014,
+      "learning_rate": 0.27356997380605164,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 7128640,
+      "step": 7675
+    },
+    {
+      "epoch": 3.6209335219236207,
+      "grad_norm": 0.0003603905497584492,
+      "learning_rate": 0.27353657224312194,
+      "loss": 0.313,
+      "num_input_tokens_seen": 7132976,
+      "step": 7680
+    },
+    {
+      "epoch": 3.623290900518623,
+      "grad_norm": 0.0003392187354620546,
+      "learning_rate": 0.2735031516293004,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 7137856,
+      "step": 7685
+    },
+    {
+      "epoch": 3.6256482791136255,
+      "grad_norm": 0.00030958300339989364,
+      "learning_rate": 0.2734697119697408,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 7142128,
+      "step": 7690
+    },
+    {
+      "epoch": 3.628005657708628,
+      "grad_norm": 0.0004988667205907404,
+      "learning_rate": 0.27343625326959997,
+      "loss": 0.2966,
+      "num_input_tokens_seen": 7146368,
+      "step": 7695
+    },
+    {
+      "epoch": 3.6303630363036303,
+      "grad_norm": 0.00021368225861806422,
+      "learning_rate": 0.27340277553403775,
+      "loss": 0.3048,
+      "num_input_tokens_seen": 7151872,
+      "step": 7700
+    },
+    {
+      "epoch": 3.6327204148986327,
+      "grad_norm": 0.0001770689559634775,
+      "learning_rate": 0.2733692787682167,
+      "loss": 0.2493,
+      "num_input_tokens_seen": 7156240,
+      "step": 7705
+    },
+    {
+      "epoch": 3.635077793493635,
+      "grad_norm": 0.0008014112245291471,
+      "learning_rate": 0.27333576297730255,
+      "loss": 0.287,
+      "num_input_tokens_seen": 7160816,
+      "step": 7710
+    },
+    {
+      "epoch": 3.6374351720886375,
+      "grad_norm": 0.00076538126450032,
+      "learning_rate": 0.2733022281664638,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 7165712,
+      "step": 7715
+    },
+    {
+      "epoch": 3.63979255068364,
+      "grad_norm": 0.00014925975119695067,
+      "learning_rate": 0.273268674340872,
+      "loss": 0.2352,
+      "num_input_tokens_seen": 7170960,
+      "step": 7720
+    },
+    {
+      "epoch": 3.6421499292786423,
+      "grad_norm": 0.00019417864677961916,
+      "learning_rate": 0.27323510150570146,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 7175664,
+      "step": 7725
+    },
+    {
+      "epoch": 3.6445073078736447,
+      "grad_norm": 0.00024487145128659904,
+      "learning_rate": 0.27320150966612966,
+      "loss": 0.3673,
+      "num_input_tokens_seen": 7180000,
+      "step": 7730
+    },
+    {
+      "epoch": 3.6468646864686467,
+      "grad_norm": 0.001241894788108766,
+      "learning_rate": 0.2731678988273368,
+      "loss": 0.3748,
+      "num_input_tokens_seen": 7184064,
+      "step": 7735
+    },
+    {
+      "epoch": 3.649222065063649,
+      "grad_norm": 0.0003699868975672871,
+      "learning_rate": 0.27313426899450605,
+      "loss": 0.3683,
+      "num_input_tokens_seen": 7189280,
+      "step": 7740
+    },
+    {
+      "epoch": 3.6515794436586515,
+      "grad_norm": 0.0005232110852375627,
+      "learning_rate": 0.27310062017282366,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 7193840,
+      "step": 7745
+    },
+    {
+      "epoch": 3.653936822253654,
+      "grad_norm": 0.0007770595839247108,
+      "learning_rate": 0.2730669523674787,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 7198416,
+      "step": 7750
+    },
+    {
+      "epoch": 3.6562942008486563,
+      "grad_norm": 0.001347412820905447,
+      "learning_rate": 0.2730332655836631,
+      "loss": 0.3253,
+      "num_input_tokens_seen": 7202160,
+      "step": 7755
+    },
+    {
+      "epoch": 3.6586515794436587,
+      "grad_norm": 0.0009648898849263787,
+      "learning_rate": 0.2729995598265718,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 7206368,
+      "step": 7760
+    },
+    {
+      "epoch": 3.661008958038661,
+      "grad_norm": 0.00039416475920006633,
+      "learning_rate": 0.2729658351014027,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 7210768,
+      "step": 7765
+    },
+    {
+      "epoch": 3.6633663366336635,
+      "grad_norm": 0.00033470673952251673,
+      "learning_rate": 0.27293209141335656,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 7214784,
+      "step": 7770
+    },
+    {
+      "epoch": 3.6657237152286655,
+      "grad_norm": 0.000354907417204231,
+      "learning_rate": 0.27289832876763703,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 7219664,
+      "step": 7775
+    },
+    {
+      "epoch": 3.668081093823668,
+      "grad_norm": 0.0004406171210575849,
+      "learning_rate": 0.27286454716945074,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 7224320,
+      "step": 7780
+    },
+    {
+      "epoch": 3.6704384724186703,
+      "grad_norm": 0.00040403485763818026,
+      "learning_rate": 0.27283074662400725,
+      "loss": 0.3633,
+      "num_input_tokens_seen": 7228768,
+      "step": 7785
+    },
+    {
+      "epoch": 3.6727958510136727,
+      "grad_norm": 0.0003801805432885885,
+      "learning_rate": 0.2727969271365191,
+      "loss": 0.3147,
+      "num_input_tokens_seen": 7233232,
+      "step": 7790
+    },
+    {
+      "epoch": 3.675153229608675,
+      "grad_norm": 0.00032245382317341864,
+      "learning_rate": 0.2727630887122016,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 7238112,
+      "step": 7795
+    },
+    {
+      "epoch": 3.6775106082036775,
+      "grad_norm": 0.0004623924905899912,
+      "learning_rate": 0.27272923135627314,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 7243472,
+      "step": 7800
+    },
+    {
+      "epoch": 3.6775106082036775,
+      "eval_loss": 0.32784199714660645,
+      "eval_runtime": 33.3684,
+      "eval_samples_per_second": 28.26,
+      "eval_steps_per_second": 14.145,
+      "num_input_tokens_seen": 7243472,
+      "step": 7800
+    },
+    {
+      "epoch": 3.67986798679868,
+      "grad_norm": 0.00026365008670836687,
+      "learning_rate": 0.2726953550739548,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 7247648,
+      "step": 7805
+    },
+    {
+      "epoch": 3.6822253653936823,
+      "grad_norm": 0.0002486209268681705,
+      "learning_rate": 0.27266145987047086,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 7251520,
+      "step": 7810
+    },
+    {
+      "epoch": 3.6845827439886847,
+      "grad_norm": 0.0004451635468285531,
+      "learning_rate": 0.27262754575104836,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 7256432,
+      "step": 7815
+    },
+    {
+      "epoch": 3.686940122583687,
+      "grad_norm": 0.0009883084567263722,
+      "learning_rate": 0.27259361272091726,
+      "loss": 0.3894,
+      "num_input_tokens_seen": 7261008,
+      "step": 7820
+    },
+    {
+      "epoch": 3.6892975011786895,
+      "grad_norm": 0.0009492583340033889,
+      "learning_rate": 0.27255966078531046,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 7265760,
+      "step": 7825
+    },
+    {
+      "epoch": 3.691654879773692,
+      "grad_norm": 0.0003834457602351904,
+      "learning_rate": 0.2725256899494638,
+      "loss": 0.2993,
+      "num_input_tokens_seen": 7270288,
+      "step": 7830
+    },
+    {
+      "epoch": 3.694012258368694,
+      "grad_norm": 0.00033010393963195384,
+      "learning_rate": 0.272491700218616,
+      "loss": 0.2978,
+      "num_input_tokens_seen": 7274528,
+      "step": 7835
+    },
+    {
+      "epoch": 3.6963696369636962,
+      "grad_norm": 0.001144860521890223,
+      "learning_rate": 0.27245769159800876,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 7278480,
+      "step": 7840
+    },
+    {
+      "epoch": 3.6987270155586986,
+      "grad_norm": 0.0002236016734968871,
+      "learning_rate": 0.2724236640928865,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 7282816,
+      "step": 7845
+    },
+    {
+      "epoch": 3.701084394153701,
+      "grad_norm": 0.0008769353153184056,
+      "learning_rate": 0.27238961770849673,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 7287008,
+      "step": 7850
+    },
+    {
+      "epoch": 3.7034417727487035,
+      "grad_norm": 0.00031667135772295296,
+      "learning_rate": 0.27235555245008997,
+      "loss": 0.3767,
+      "num_input_tokens_seen": 7291808,
+      "step": 7855
+    },
+    {
+      "epoch": 3.705799151343706,
+      "grad_norm": 0.00030674232402816415,
+      "learning_rate": 0.2723214683229193,
+      "loss": 0.2919,
+      "num_input_tokens_seen": 7296416,
+      "step": 7860
+    },
+    {
+      "epoch": 3.7081565299387083,
+      "grad_norm": 0.0005381538067013025,
+      "learning_rate": 0.27228736533224107,
+      "loss": 0.3602,
+      "num_input_tokens_seen": 7301408,
+      "step": 7865
+    },
+    {
+      "epoch": 3.7105139085337107,
+      "grad_norm": 0.00040164575329981744,
+      "learning_rate": 0.27225324348331437,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 7305920,
+      "step": 7870
+    },
+    {
+      "epoch": 3.7128712871287126,
+      "grad_norm": 0.0003972688573412597,
+      "learning_rate": 0.27221910278140116,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 7311312,
+      "step": 7875
+    },
+    {
+      "epoch": 3.715228665723715,
+      "grad_norm": 0.0004411212867125869,
+      "learning_rate": 0.2721849432317664,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 7316192,
+      "step": 7880
+    },
+    {
+      "epoch": 3.7175860443187174,
+      "grad_norm": 0.0008548677433282137,
+      "learning_rate": 0.2721507648396779,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 7320832,
+      "step": 7885
+    },
+    {
+      "epoch": 3.71994342291372,
+      "grad_norm": 0.0013643974671140313,
+      "learning_rate": 0.27211656761040653,
+      "loss": 0.3616,
+      "num_input_tokens_seen": 7324688,
+      "step": 7890
+    },
+    {
+      "epoch": 3.7223008015087222,
+      "grad_norm": 0.0012899638386443257,
+      "learning_rate": 0.2720823515492257,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 7329408,
+      "step": 7895
+    },
+    {
+      "epoch": 3.7246581801037246,
+      "grad_norm": 0.0014315767912194133,
+      "learning_rate": 0.27204811666141215,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 7333472,
+      "step": 7900
+    },
+    {
+      "epoch": 3.727015558698727,
+      "grad_norm": 0.00017287192167714238,
+      "learning_rate": 0.2720138629522452,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 7338080,
+      "step": 7905
+    },
+    {
+      "epoch": 3.7293729372937294,
+      "grad_norm": 0.0014110347256064415,
+      "learning_rate": 0.2719795904270073,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 7342656,
+      "step": 7910
+    },
+    {
+      "epoch": 3.731730315888732,
+      "grad_norm": 0.00023876968771219254,
+      "learning_rate": 0.2719452990909837,
+      "loss": 0.3553,
+      "num_input_tokens_seen": 7348272,
+      "step": 7915
+    },
+    {
+      "epoch": 3.7340876944837342,
+      "grad_norm": 0.000197991103050299,
+      "learning_rate": 0.2719109889494625,
+      "loss": 0.335,
+      "num_input_tokens_seen": 7353472,
+      "step": 7920
+    },
+    {
+      "epoch": 3.7364450730787366,
+      "grad_norm": 0.0011554565280675888,
+      "learning_rate": 0.27187666000773475,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 7358272,
+      "step": 7925
+    },
+    {
+      "epoch": 3.738802451673739,
+      "grad_norm": 0.0002811123849824071,
+      "learning_rate": 0.2718423122710944,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 7363760,
+      "step": 7930
+    },
+    {
+      "epoch": 3.741159830268741,
+      "grad_norm": 0.0008779158815741539,
+      "learning_rate": 0.2718079457448384,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 7368288,
+      "step": 7935
+    },
+    {
+      "epoch": 3.7435172088637434,
+      "grad_norm": 0.00031940621556714177,
+      "learning_rate": 0.27177356043426637,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 7374272,
+      "step": 7940
+    },
+    {
+      "epoch": 3.745874587458746,
+      "grad_norm": 0.0008962390711531043,
+      "learning_rate": 0.27173915634468104,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 7378480,
+      "step": 7945
+    },
+    {
+      "epoch": 3.748231966053748,
+      "grad_norm": 0.000324619555613026,
+      "learning_rate": 0.27170473348138796,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 7383664,
+      "step": 7950
+    },
+    {
+      "epoch": 3.7505893446487506,
+      "grad_norm": 0.0008902655681595206,
+      "learning_rate": 0.27167029184969554,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 7388544,
+      "step": 7955
+    },
+    {
+      "epoch": 3.752946723243753,
+      "grad_norm": 0.00030182540649548173,
+      "learning_rate": 0.27163583145491504,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 7393248,
+      "step": 7960
+    },
+    {
+      "epoch": 3.7553041018387554,
+      "grad_norm": 0.0003234590112697333,
+      "learning_rate": 0.2716013523023608,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 7397360,
+      "step": 7965
+    },
+    {
+      "epoch": 3.757661480433758,
+      "grad_norm": 0.0003748746821656823,
+      "learning_rate": 0.27156685439734995,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 7401632,
+      "step": 7970
+    },
+    {
+      "epoch": 3.7600188590287598,
+      "grad_norm": 0.000296729092951864,
+      "learning_rate": 0.2715323377452024,
+      "loss": 0.2913,
+      "num_input_tokens_seen": 7406288,
+      "step": 7975
+    },
+    {
+      "epoch": 3.762376237623762,
+      "grad_norm": 0.00024634230067022145,
+      "learning_rate": 0.2714978023512411,
+      "loss": 0.2522,
+      "num_input_tokens_seen": 7411088,
+      "step": 7980
+    },
+    {
+      "epoch": 3.7647336162187646,
+      "grad_norm": 0.00017651218513492495,
+      "learning_rate": 0.2714632482207918,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 7414896,
+      "step": 7985
+    },
+    {
+      "epoch": 3.767090994813767,
+      "grad_norm": 0.000549566640984267,
+      "learning_rate": 0.2714286753591833,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 7419360,
+      "step": 7990
+    },
+    {
+      "epoch": 3.7694483734087694,
+      "grad_norm": 0.000741468567866832,
+      "learning_rate": 0.27139408377174706,
+      "loss": 0.351,
+      "num_input_tokens_seen": 7424000,
+      "step": 7995
+    },
+    {
+      "epoch": 3.7718057520037718,
+      "grad_norm": 0.0001898415357572958,
+      "learning_rate": 0.27135947346381756,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 7428048,
+      "step": 8000
+    },
+    {
+      "epoch": 3.7718057520037718,
+      "eval_loss": 0.3299442231655121,
+      "eval_runtime": 33.497,
+      "eval_samples_per_second": 28.152,
+      "eval_steps_per_second": 14.091,
+      "num_input_tokens_seen": 7428048,
+      "step": 8000
+    },
+    {
+      "epoch": 3.774163130598774,
+      "grad_norm": 0.0004483495431486517,
+      "learning_rate": 0.2713248444407322,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 7433408,
+      "step": 8005
+    },
+    {
+      "epoch": 3.7765205091937766,
+      "grad_norm": 0.00041769820381887257,
+      "learning_rate": 0.27129019670783106,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 7438624,
+      "step": 8010
+    },
+    {
+      "epoch": 3.778877887788779,
+      "grad_norm": 0.0003340884286444634,
+      "learning_rate": 0.27125553027045746,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 7443328,
+      "step": 8015
+    },
+    {
+      "epoch": 3.7812352663837814,
+      "grad_norm": 0.0008826734265312552,
+      "learning_rate": 0.2712208451339572,
+      "loss": 0.3037,
+      "num_input_tokens_seen": 7448432,
+      "step": 8020
+    },
+    {
+      "epoch": 3.783592644978784,
+      "grad_norm": 0.0009604713413864374,
+      "learning_rate": 0.27118614130367935,
+      "loss": 0.367,
+      "num_input_tokens_seen": 7452688,
+      "step": 8025
+    },
+    {
+      "epoch": 3.785950023573786,
+      "grad_norm": 0.0003146468079648912,
+      "learning_rate": 0.2711514187849756,
+      "loss": 0.2811,
+      "num_input_tokens_seen": 7457936,
+      "step": 8030
+    },
+    {
+      "epoch": 3.7883074021687886,
+      "grad_norm": 0.0003232822928112,
+      "learning_rate": 0.27111667758320057,
+      "loss": 0.2904,
+      "num_input_tokens_seen": 7462096,
+      "step": 8035
+    },
+    {
+      "epoch": 3.7906647807637905,
+      "grad_norm": 0.0007678649271838367,
+      "learning_rate": 0.27108191770371176,
+      "loss": 0.3121,
+      "num_input_tokens_seen": 7467184,
+      "step": 8040
+    },
+    {
+      "epoch": 3.793022159358793,
+      "grad_norm": 0.00022632526815868914,
+      "learning_rate": 0.2710471391518697,
+      "loss": 0.3778,
+      "num_input_tokens_seen": 7471504,
+      "step": 8045
+    },
+    {
+      "epoch": 3.7953795379537953,
+      "grad_norm": 0.0008918778039515018,
+      "learning_rate": 0.2710123419330375,
+      "loss": 0.2753,
+      "num_input_tokens_seen": 7475648,
+      "step": 8050
+    },
+    {
+      "epoch": 3.7977369165487977,
+      "grad_norm": 0.0002506989403627813,
+      "learning_rate": 0.2709775260525816,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 7480864,
+      "step": 8055
+    },
+    {
+      "epoch": 3.8000942951438,
+      "grad_norm": 0.0005328568513505161,
+      "learning_rate": 0.27094269151587075,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 7485680,
+      "step": 8060
+    },
+    {
+      "epoch": 3.8024516737388026,
+      "grad_norm": 0.0003196418401785195,
+      "learning_rate": 0.27090783832827703,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 7489776,
+      "step": 8065
+    },
+    {
+      "epoch": 3.804809052333805,
+      "grad_norm": 0.00018183693464379758,
+      "learning_rate": 0.2708729664951753,
+      "loss": 0.2779,
+      "num_input_tokens_seen": 7493808,
+      "step": 8070
+    },
+    {
+      "epoch": 3.807166430928807,
+      "grad_norm": 0.0011548219481483102,
+      "learning_rate": 0.27083807602194304,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 7498544,
+      "step": 8075
+    },
+    {
+      "epoch": 3.8095238095238093,
+      "grad_norm": 0.0002183560427511111,
+      "learning_rate": 0.270803166913961,
+      "loss": 0.2831,
+      "num_input_tokens_seen": 7503232,
+      "step": 8080
+    },
+    {
+      "epoch": 3.8118811881188117,
+      "grad_norm": 0.000463721138658002,
+      "learning_rate": 0.27076823917661247,
+      "loss": 0.331,
+      "num_input_tokens_seen": 7508048,
+      "step": 8085
+    },
+    {
+      "epoch": 3.814238566713814,
+      "grad_norm": 0.000432492233812809,
+      "learning_rate": 0.2707332928152838,
+      "loss": 0.3624,
+      "num_input_tokens_seen": 7512656,
+      "step": 8090
+    },
+    {
+      "epoch": 3.8165959453088165,
+      "grad_norm": 0.00033767943386919796,
+      "learning_rate": 0.2706983278353641,
+      "loss": 0.3025,
+      "num_input_tokens_seen": 7517248,
+      "step": 8095
+    },
+    {
+      "epoch": 3.818953323903819,
+      "grad_norm": 0.00037640592199750245,
+      "learning_rate": 0.27066334424224553,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 7521888,
+      "step": 8100
+    },
+    {
+      "epoch": 3.8213107024988213,
+      "grad_norm": 0.00027695417520590127,
+      "learning_rate": 0.27062834204132297,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 7526544,
+      "step": 8105
+    },
+    {
+      "epoch": 3.8236680810938237,
+      "grad_norm": 0.000429630366852507,
+      "learning_rate": 0.27059332123799407,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 7530384,
+      "step": 8110
+    },
+    {
+      "epoch": 3.826025459688826,
+      "grad_norm": 0.0001977466745302081,
+      "learning_rate": 0.27055828183765956,
+      "loss": 0.2684,
+      "num_input_tokens_seen": 7534688,
+      "step": 8115
+    },
+    {
+      "epoch": 3.8283828382838285,
+      "grad_norm": 0.0006013475940562785,
+      "learning_rate": 0.270523223845723,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 7539920,
+      "step": 8120
+    },
+    {
+      "epoch": 3.830740216878831,
+      "grad_norm": 0.0007641144911758602,
+      "learning_rate": 0.2704881472675907,
+      "loss": 0.313,
+      "num_input_tokens_seen": 7544608,
+      "step": 8125
+    },
+    {
+      "epoch": 3.8330975954738333,
+      "grad_norm": 0.00018350692698732018,
+      "learning_rate": 0.270453052108672,
+      "loss": 0.324,
+      "num_input_tokens_seen": 7548976,
+      "step": 8130
+    },
+    {
+      "epoch": 3.8354549740688357,
+      "grad_norm": 0.0007629038882441819,
+      "learning_rate": 0.2704179383743789,
+      "loss": 0.2904,
+      "num_input_tokens_seen": 7553600,
+      "step": 8135
+    },
+    {
+      "epoch": 3.8378123526638377,
+      "grad_norm": 0.00022142035595607013,
+      "learning_rate": 0.27038280607012644,
+      "loss": 0.4111,
+      "num_input_tokens_seen": 7558448,
+      "step": 8140
+    },
+    {
+      "epoch": 3.84016973125884,
+      "grad_norm": 0.0003264245460741222,
+      "learning_rate": 0.27034765520133247,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 7562240,
+      "step": 8145
+    },
+    {
+      "epoch": 3.8425271098538425,
+      "grad_norm": 0.000280639564152807,
+      "learning_rate": 0.2703124857734177,
+      "loss": 0.3717,
+      "num_input_tokens_seen": 7566720,
+      "step": 8150
+    },
+    {
+      "epoch": 3.844884488448845,
+      "grad_norm": 0.00019572218297980726,
+      "learning_rate": 0.27027729779180565,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 7571008,
+      "step": 8155
+    },
+    {
+      "epoch": 3.8472418670438473,
+      "grad_norm": 0.00076295156031847,
+      "learning_rate": 0.27024209126192283,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 7575536,
+      "step": 8160
+    },
+    {
+      "epoch": 3.8495992456388497,
+      "grad_norm": 0.0002245338400825858,
+      "learning_rate": 0.2702068661891984,
+      "loss": 0.3591,
+      "num_input_tokens_seen": 7580144,
+      "step": 8165
+    },
+    {
+      "epoch": 3.851956624233852,
+      "grad_norm": 0.0003021625161636621,
+      "learning_rate": 0.2701716225790647,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 7584080,
+      "step": 8170
+    },
+    {
+      "epoch": 3.854314002828854,
+      "grad_norm": 0.00018384224676992744,
+      "learning_rate": 0.27013636043695655,
+      "loss": 0.331,
+      "num_input_tokens_seen": 7587776,
+      "step": 8175
+    },
+    {
+      "epoch": 3.8566713814238565,
+      "grad_norm": 0.0008327392279170454,
+      "learning_rate": 0.27010107976831194,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 7592736,
+      "step": 8180
+    },
+    {
+      "epoch": 3.859028760018859,
+      "grad_norm": 0.0007449529366567731,
+      "learning_rate": 0.2700657805785715,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 7597328,
+      "step": 8185
+    },
+    {
+      "epoch": 3.8613861386138613,
+      "grad_norm": 0.0003898128925357014,
+      "learning_rate": 0.2700304628731789,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 7601488,
+      "step": 8190
+    },
+    {
+      "epoch": 3.8637435172088637,
+      "grad_norm": 0.00027371637406758964,
+      "learning_rate": 0.26999512665758046,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 7606832,
+      "step": 8195
+    },
+    {
+      "epoch": 3.866100895803866,
+      "grad_norm": 0.0002493864740245044,
+      "learning_rate": 0.2699597719372256,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 7611184,
+      "step": 8200
+    },
+    {
+      "epoch": 3.866100895803866,
+      "eval_loss": 0.32907000184059143,
+      "eval_runtime": 33.5035,
+      "eval_samples_per_second": 28.146,
+      "eval_steps_per_second": 14.088,
+      "num_input_tokens_seen": 7611184,
+      "step": 8200
+    },
+    {
+      "epoch": 3.8684582743988685,
+      "grad_norm": 0.000280821172054857,
+      "learning_rate": 0.26992439871756635,
+      "loss": 0.3436,
+      "num_input_tokens_seen": 7615760,
+      "step": 8205
+    },
+    {
+      "epoch": 3.870815652993871,
+      "grad_norm": 0.0007714686798863113,
+      "learning_rate": 0.2698890070040578,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 7620384,
+      "step": 8210
+    },
+    {
+      "epoch": 3.8731730315888733,
+      "grad_norm": 0.0008465374121442437,
+      "learning_rate": 0.2698535968021577,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 7624480,
+      "step": 8215
+    },
+    {
+      "epoch": 3.8755304101838757,
+      "grad_norm": 0.0002680537581909448,
+      "learning_rate": 0.26981816811732684,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 7628944,
+      "step": 8220
+    },
+    {
+      "epoch": 3.877887788778878,
+      "grad_norm": 0.0002947988687083125,
+      "learning_rate": 0.26978272095502875,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 7633408,
+      "step": 8225
+    },
+    {
+      "epoch": 3.8802451673738805,
+      "grad_norm": 0.0003098547167610377,
+      "learning_rate": 0.26974725532072974,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 7638560,
+      "step": 8230
+    },
+    {
+      "epoch": 3.882602545968883,
+      "grad_norm": 0.0002755983150564134,
+      "learning_rate": 0.26971177121989914,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 7644256,
+      "step": 8235
+    },
+    {
+      "epoch": 3.884959924563885,
+      "grad_norm": 0.00031987277907319367,
+      "learning_rate": 0.2696762686580091,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 7649456,
+      "step": 8240
+    },
+    {
+      "epoch": 3.8873173031588872,
+      "grad_norm": 0.00031057713204063475,
+      "learning_rate": 0.26964074764053436,
+      "loss": 0.2934,
+      "num_input_tokens_seen": 7654704,
+      "step": 8245
+    },
+    {
+      "epoch": 3.8896746817538896,
+      "grad_norm": 0.001066414755769074,
+      "learning_rate": 0.2696052081729529,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 7659632,
+      "step": 8250
+    },
+    {
+      "epoch": 3.892032060348892,
+      "grad_norm": 0.0010115065379068255,
+      "learning_rate": 0.2695696502607453,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 7665888,
+      "step": 8255
+    },
+    {
+      "epoch": 3.8943894389438944,
+      "grad_norm": 0.00042789275175891817,
+      "learning_rate": 0.26953407390939504,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 7671104,
+      "step": 8260
+    },
+    {
+      "epoch": 3.896746817538897,
+      "grad_norm": 0.0009394038934260607,
+      "learning_rate": 0.26949847912438835,
+      "loss": 0.3326,
+      "num_input_tokens_seen": 7677280,
+      "step": 8265
+    },
+    {
+      "epoch": 3.8991041961338992,
+      "grad_norm": 0.00035107930307276547,
+      "learning_rate": 0.26946286591121454,
+      "loss": 0.3004,
+      "num_input_tokens_seen": 7681792,
+      "step": 8270
+    },
+    {
+      "epoch": 3.901461574728901,
+      "grad_norm": 0.00043985634692944586,
+      "learning_rate": 0.2694272342753655,
+      "loss": 0.3701,
+      "num_input_tokens_seen": 7686752,
+      "step": 8275
+    },
+    {
+      "epoch": 3.9038189533239036,
+      "grad_norm": 0.00037314597284421325,
+      "learning_rate": 0.26939158422233617,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 7691360,
+      "step": 8280
+    },
+    {
+      "epoch": 3.906176331918906,
+      "grad_norm": 0.000988546060398221,
+      "learning_rate": 0.26935591575762413,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 7695744,
+      "step": 8285
+    },
+    {
+      "epoch": 3.9085337105139084,
+      "grad_norm": 0.00039223552448675036,
+      "learning_rate": 0.26932022888672996,
+      "loss": 0.322,
+      "num_input_tokens_seen": 7700480,
+      "step": 8290
+    },
+    {
+      "epoch": 3.910891089108911,
+      "grad_norm": 0.0009420368587598205,
+      "learning_rate": 0.26928452361515703,
+      "loss": 0.3791,
+      "num_input_tokens_seen": 7705664,
+      "step": 8295
+    },
+    {
+      "epoch": 3.913248467703913,
+      "grad_norm": 0.00040919712046161294,
+      "learning_rate": 0.26924879994841155,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 7709568,
+      "step": 8300
+    },
+    {
+      "epoch": 3.9156058462989156,
+      "grad_norm": 0.00044829328544437885,
+      "learning_rate": 0.2692130578920025,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 7713664,
+      "step": 8305
+    },
+    {
+      "epoch": 3.917963224893918,
+      "grad_norm": 0.001098559470847249,
+      "learning_rate": 0.26917729745144187,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 7717856,
+      "step": 8310
+    },
+    {
+      "epoch": 3.9203206034889204,
+      "grad_norm": 0.00040623644599691033,
+      "learning_rate": 0.2691415186322443,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 7723152,
+      "step": 8315
+    },
+    {
+      "epoch": 3.922677982083923,
+      "grad_norm": 0.0002957569668069482,
+      "learning_rate": 0.2691057214399273,
+      "loss": 0.306,
+      "num_input_tokens_seen": 7726896,
+      "step": 8320
+    },
+    {
+      "epoch": 3.9250353606789252,
+      "grad_norm": 0.0002748729311861098,
+      "learning_rate": 0.2690699058800113,
+      "loss": 0.3665,
+      "num_input_tokens_seen": 7731568,
+      "step": 8325
+    },
+    {
+      "epoch": 3.9273927392739276,
+      "grad_norm": 0.00039355893386527896,
+      "learning_rate": 0.2690340719580194,
+      "loss": 0.3015,
+      "num_input_tokens_seen": 7735248,
+      "step": 8330
+    },
+    {
+      "epoch": 3.92975011786893,
+      "grad_norm": 0.001552291796542704,
+      "learning_rate": 0.2689982196794778,
+      "loss": 0.3606,
+      "num_input_tokens_seen": 7739936,
+      "step": 8335
+    },
+    {
+      "epoch": 3.932107496463932,
+      "grad_norm": 0.0003050668747164309,
+      "learning_rate": 0.2689623490499153,
+      "loss": 0.275,
+      "num_input_tokens_seen": 7744016,
+      "step": 8340
+    },
+    {
+      "epoch": 3.9344648750589344,
+      "grad_norm": 0.0004886484239250422,
+      "learning_rate": 0.2689264600748636,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 7748496,
+      "step": 8345
+    },
+    {
+      "epoch": 3.936822253653937,
+      "grad_norm": 0.0001848732790676877,
+      "learning_rate": 0.26889055275985724,
+      "loss": 0.2481,
+      "num_input_tokens_seen": 7752784,
+      "step": 8350
+    },
+    {
+      "epoch": 3.939179632248939,
+      "grad_norm": 0.0002704726066440344,
+      "learning_rate": 0.2688546271104335,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 7757760,
+      "step": 8355
+    },
+    {
+      "epoch": 3.9415370108439416,
+      "grad_norm": 0.0006403755396604538,
+      "learning_rate": 0.26881868313213275,
+      "loss": 0.3589,
+      "num_input_tokens_seen": 7761920,
+      "step": 8360
+    },
+    {
+      "epoch": 3.943894389438944,
+      "grad_norm": 0.0011134938104078174,
+      "learning_rate": 0.2687827208304978,
+      "loss": 0.378,
+      "num_input_tokens_seen": 7766416,
+      "step": 8365
+    },
+    {
+      "epoch": 3.9462517680339464,
+      "grad_norm": 0.00018771798931993544,
+      "learning_rate": 0.26874674021107464,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 7770432,
+      "step": 8370
+    },
+    {
+      "epoch": 3.9486091466289484,
+      "grad_norm": 0.00037684477865695953,
+      "learning_rate": 0.2687107412794118,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 7775696,
+      "step": 8375
+    },
+    {
+      "epoch": 3.9509665252239508,
+      "grad_norm": 0.00030874391086399555,
+      "learning_rate": 0.26867472404106096,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 7780032,
+      "step": 8380
+    },
+    {
+      "epoch": 3.953323903818953,
+      "grad_norm": 0.0003306962316855788,
+      "learning_rate": 0.26863868850157624,
+      "loss": 0.3099,
+      "num_input_tokens_seen": 7784160,
+      "step": 8385
+    },
+    {
+      "epoch": 3.9556812824139556,
+      "grad_norm": 0.00026025064289569855,
+      "learning_rate": 0.26860263466651485,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 7788448,
+      "step": 8390
+    },
+    {
+      "epoch": 3.958038661008958,
+      "grad_norm": 0.0008114713127724826,
+      "learning_rate": 0.26856656254143674,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 7792112,
+      "step": 8395
+    },
+    {
+      "epoch": 3.9603960396039604,
+      "grad_norm": 0.0007936967886053026,
+      "learning_rate": 0.2685304721319047,
+      "loss": 0.3928,
+      "num_input_tokens_seen": 7796112,
+      "step": 8400
+    },
+    {
+      "epoch": 3.9603960396039604,
+      "eval_loss": 0.33529940247535706,
+      "eval_runtime": 33.4536,
+      "eval_samples_per_second": 28.188,
+      "eval_steps_per_second": 14.109,
+      "num_input_tokens_seen": 7796112,
+      "step": 8400
+    },
+    {
+      "epoch": 3.9627534181989628,
+      "grad_norm": 0.0011105724843218923,
+      "learning_rate": 0.2684943634434843,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 7801616,
+      "step": 8405
+    },
+    {
+      "epoch": 3.965110796793965,
+      "grad_norm": 0.0004593806224875152,
+      "learning_rate": 0.268458236481744,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 7806736,
+      "step": 8410
+    },
+    {
+      "epoch": 3.9674681753889676,
+      "grad_norm": 0.0003769592149183154,
+      "learning_rate": 0.2684220912522549,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 7811008,
+      "step": 8415
+    },
+    {
+      "epoch": 3.96982555398397,
+      "grad_norm": 0.00041828403482213616,
+      "learning_rate": 0.2683859277605913,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 7815296,
+      "step": 8420
+    },
+    {
+      "epoch": 3.9721829325789724,
+      "grad_norm": 0.00033403519773855805,
+      "learning_rate": 0.2683497460123298,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 7820832,
+      "step": 8425
+    },
+    {
+      "epoch": 3.9745403111739748,
+      "grad_norm": 0.0003559388860594481,
+      "learning_rate": 0.26831354601305013,
+      "loss": 0.3031,
+      "num_input_tokens_seen": 7824864,
+      "step": 8430
+    },
+    {
+      "epoch": 3.976897689768977,
+      "grad_norm": 0.0007266617030836642,
+      "learning_rate": 0.26827732776833496,
+      "loss": 0.2896,
+      "num_input_tokens_seen": 7829440,
+      "step": 8435
+    },
+    {
+      "epoch": 3.979255068363979,
+      "grad_norm": 0.0004655473167076707,
+      "learning_rate": 0.26824109128376944,
+      "loss": 0.4007,
+      "num_input_tokens_seen": 7834512,
+      "step": 8440
+    },
+    {
+      "epoch": 3.9816124469589815,
+      "grad_norm": 0.0007592840702272952,
+      "learning_rate": 0.2682048365649417,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 7838928,
+      "step": 8445
+    },
+    {
+      "epoch": 3.983969825553984,
+      "grad_norm": 0.00037266442086547613,
+      "learning_rate": 0.2681685636174428,
+      "loss": 0.3557,
+      "num_input_tokens_seen": 7844032,
+      "step": 8450
+    },
+    {
+      "epoch": 3.9863272041489863,
+      "grad_norm": 0.0007997420034371316,
+      "learning_rate": 0.2681322724468663,
+      "loss": 0.3812,
+      "num_input_tokens_seen": 7848176,
+      "step": 8455
+    },
+    {
+      "epoch": 3.9886845827439887,
+      "grad_norm": 0.00027893640799447894,
+      "learning_rate": 0.2680959630588089,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 7852528,
+      "step": 8460
+    },
+    {
+      "epoch": 3.991041961338991,
+      "grad_norm": 0.00043557133176364005,
+      "learning_rate": 0.26805963545886985,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 7858704,
+      "step": 8465
+    },
+    {
+      "epoch": 3.9933993399339935,
+      "grad_norm": 0.0002883334818761796,
+      "learning_rate": 0.26802328965265143,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 7862592,
+      "step": 8470
+    },
+    {
+      "epoch": 3.9957567185289955,
+      "grad_norm": 0.0004111873859073967,
+      "learning_rate": 0.26798692564575854,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 7866976,
+      "step": 8475
+    },
+    {
+      "epoch": 3.998114097123998,
+      "grad_norm": 0.00034767165197990835,
+      "learning_rate": 0.26795054344379904,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 7871616,
+      "step": 8480
+    },
+    {
+      "epoch": 4.000471475719,
+      "grad_norm": 0.00021401894628070295,
+      "learning_rate": 0.2679141430523835,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 7875264,
+      "step": 8485
+    },
+    {
+      "epoch": 4.002828854314003,
+      "grad_norm": 0.00039544401806779206,
+      "learning_rate": 0.2678777244771252,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 7879728,
+      "step": 8490
+    },
+    {
+      "epoch": 4.005186232909005,
+      "grad_norm": 0.0002929831389337778,
+      "learning_rate": 0.2678412877236405,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 7883856,
+      "step": 8495
+    },
+    {
+      "epoch": 4.0075436115040075,
+      "grad_norm": 0.0002921987324953079,
+      "learning_rate": 0.2678048327975484,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 7888272,
+      "step": 8500
+    },
+    {
+      "epoch": 4.00990099009901,
+      "grad_norm": 0.0008057438535615802,
+      "learning_rate": 0.2677683597044706,
+      "loss": 0.2899,
+      "num_input_tokens_seen": 7893088,
+      "step": 8505
+    },
+    {
+      "epoch": 4.012258368694012,
+      "grad_norm": 0.0005252835690043867,
+      "learning_rate": 0.2677318684500318,
+      "loss": 0.2869,
+      "num_input_tokens_seen": 7897696,
+      "step": 8510
+    },
+    {
+      "epoch": 4.014615747289015,
+      "grad_norm": 0.0010577572975307703,
+      "learning_rate": 0.2676953590398593,
+      "loss": 0.4676,
+      "num_input_tokens_seen": 7901984,
+      "step": 8515
+    },
+    {
+      "epoch": 4.016973125884017,
+      "grad_norm": 0.0003410234348848462,
+      "learning_rate": 0.2676588314795834,
+      "loss": 0.315,
+      "num_input_tokens_seen": 7906384,
+      "step": 8520
+    },
+    {
+      "epoch": 4.0193305044790195,
+      "grad_norm": 0.0003885889600496739,
+      "learning_rate": 0.26762228577483715,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 7910592,
+      "step": 8525
+    },
+    {
+      "epoch": 4.021687883074022,
+      "grad_norm": 0.00033035376691259444,
+      "learning_rate": 0.2675857219312563,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 7914560,
+      "step": 8530
+    },
+    {
+      "epoch": 4.024045261669024,
+      "grad_norm": 0.0003896326234098524,
+      "learning_rate": 0.2675491399544794,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 7919424,
+      "step": 8535
+    },
+    {
+      "epoch": 4.026402640264027,
+      "grad_norm": 0.0003409609489608556,
+      "learning_rate": 0.2675125398501479,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 7923664,
+      "step": 8540
+    },
+    {
+      "epoch": 4.028760018859029,
+      "grad_norm": 0.0008135039824992418,
+      "learning_rate": 0.26747592162390604,
+      "loss": 0.2644,
+      "num_input_tokens_seen": 7927888,
+      "step": 8545
+    },
+    {
+      "epoch": 4.0311173974540315,
+      "grad_norm": 0.00043334547081030905,
+      "learning_rate": 0.26743928528140076,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 7933408,
+      "step": 8550
+    },
+    {
+      "epoch": 4.033474776049033,
+      "grad_norm": 0.00016896896704565734,
+      "learning_rate": 0.26740263082828186,
+      "loss": 0.2996,
+      "num_input_tokens_seen": 7937664,
+      "step": 8555
+    },
+    {
+      "epoch": 4.035832154644035,
+      "grad_norm": 0.0011162321316078305,
+      "learning_rate": 0.2673659582702019,
+      "loss": 0.3721,
+      "num_input_tokens_seen": 7942544,
+      "step": 8560
+    },
+    {
+      "epoch": 4.038189533239038,
+      "grad_norm": 0.0010078178020194173,
+      "learning_rate": 0.2673292676128163,
+      "loss": 0.4426,
+      "num_input_tokens_seen": 7947008,
+      "step": 8565
+    },
+    {
+      "epoch": 4.04054691183404,
+      "grad_norm": 0.00079910340718925,
+      "learning_rate": 0.2672925588617831,
+      "loss": 0.4046,
+      "num_input_tokens_seen": 7952032,
+      "step": 8570
+    },
+    {
+      "epoch": 4.042904290429043,
+      "grad_norm": 0.0006765066646039486,
+      "learning_rate": 0.2672558320227634,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 7956832,
+      "step": 8575
+    },
+    {
+      "epoch": 4.045261669024045,
+      "grad_norm": 0.0005927084130235016,
+      "learning_rate": 0.2672190871014209,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 7961104,
+      "step": 8580
+    },
+    {
+      "epoch": 4.0476190476190474,
+      "grad_norm": 0.0005683728959411383,
+      "learning_rate": 0.267182324103422,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 7966432,
+      "step": 8585
+    },
+    {
+      "epoch": 4.04997642621405,
+      "grad_norm": 0.00027704352396540344,
+      "learning_rate": 0.2671455430344362,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 7970352,
+      "step": 8590
+    },
+    {
+      "epoch": 4.052333804809052,
+      "grad_norm": 0.00047339205048047006,
+      "learning_rate": 0.2671087439001355,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 7974976,
+      "step": 8595
+    },
+    {
+      "epoch": 4.054691183404055,
+      "grad_norm": 0.00015832082135602832,
+      "learning_rate": 0.2670719267061948,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 7979520,
+      "step": 8600
+    },
+    {
+      "epoch": 4.054691183404055,
+      "eval_loss": 0.3320295512676239,
+      "eval_runtime": 33.4,
+      "eval_samples_per_second": 28.234,
+      "eval_steps_per_second": 14.132,
+      "num_input_tokens_seen": 7979520,
+      "step": 8600
+    },
+    {
+      "epoch": 4.057048561999057,
+      "grad_norm": 0.00027476210379973054,
+      "learning_rate": 0.2670350914582918,
+      "loss": 0.3025,
+      "num_input_tokens_seen": 7984576,
+      "step": 8605
+    },
+    {
+      "epoch": 4.0594059405940595,
+      "grad_norm": 0.0008870868477970362,
+      "learning_rate": 0.26699823816210694,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 7988960,
+      "step": 8610
+    },
+    {
+      "epoch": 4.061763319189062,
+      "grad_norm": 0.00019628358131740242,
+      "learning_rate": 0.26696136682332344,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 7993360,
+      "step": 8615
+    },
+    {
+      "epoch": 4.064120697784064,
+      "grad_norm": 0.0009085009805858135,
+      "learning_rate": 0.2669244774476274,
+      "loss": 0.3048,
+      "num_input_tokens_seen": 7998240,
+      "step": 8620
+    },
+    {
+      "epoch": 4.066478076379067,
+      "grad_norm": 0.0006604105583392084,
+      "learning_rate": 0.2668875700407075,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 8003408,
+      "step": 8625
+    },
+    {
+      "epoch": 4.068835454974069,
+      "grad_norm": 0.0002461062977090478,
+      "learning_rate": 0.26685064460825547,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 8007680,
+      "step": 8630
+    },
+    {
+      "epoch": 4.0711928335690715,
+      "grad_norm": 0.0002797246852423996,
+      "learning_rate": 0.26681370115596553,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 8012064,
+      "step": 8635
+    },
+    {
+      "epoch": 4.073550212164074,
+      "grad_norm": 0.0007659008260816336,
+      "learning_rate": 0.26677673968953497,
+      "loss": 0.2911,
+      "num_input_tokens_seen": 8016944,
+      "step": 8640
+    },
+    {
+      "epoch": 4.075907590759076,
+      "grad_norm": 0.00023981058620847762,
+      "learning_rate": 0.2667397602146636,
+      "loss": 0.2697,
+      "num_input_tokens_seen": 8021248,
+      "step": 8645
+    },
+    {
+      "epoch": 4.078264969354079,
+      "grad_norm": 0.0009442050359211862,
+      "learning_rate": 0.2667027627370542,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 8026320,
+      "step": 8650
+    },
+    {
+      "epoch": 4.08062234794908,
+      "grad_norm": 0.0001254876988241449,
+      "learning_rate": 0.26666574726241216,
+      "loss": 0.3025,
+      "num_input_tokens_seen": 8031216,
+      "step": 8655
+    },
+    {
+      "epoch": 4.082979726544083,
+      "grad_norm": 0.00022952778090257198,
+      "learning_rate": 0.2666287137964458,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 8035328,
+      "step": 8660
+    },
+    {
+      "epoch": 4.085337105139085,
+      "grad_norm": 0.00013813232362736017,
+      "learning_rate": 0.26659166234486614,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 8039824,
+      "step": 8665
+    },
+    {
+      "epoch": 4.087694483734087,
+      "grad_norm": 0.0003930059028789401,
+      "learning_rate": 0.2665545929133869,
+      "loss": 0.3662,
+      "num_input_tokens_seen": 8044608,
+      "step": 8670
+    },
+    {
+      "epoch": 4.09005186232909,
+      "grad_norm": 0.00021665840176865458,
+      "learning_rate": 0.2665175055077248,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 8048464,
+      "step": 8675
+    },
+    {
+      "epoch": 4.092409240924092,
+      "grad_norm": 0.0003121077024843544,
+      "learning_rate": 0.2664804001335991,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 8053584,
+      "step": 8680
+    },
+    {
+      "epoch": 4.094766619519095,
+      "grad_norm": 0.00031045987270772457,
+      "learning_rate": 0.26644327679673185,
+      "loss": 0.2975,
+      "num_input_tokens_seen": 8057792,
+      "step": 8685
+    },
+    {
+      "epoch": 4.097123998114097,
+      "grad_norm": 0.000270870077656582,
+      "learning_rate": 0.26640613550284803,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 8062720,
+      "step": 8690
+    },
+    {
+      "epoch": 4.099481376709099,
+      "grad_norm": 0.000736969814170152,
+      "learning_rate": 0.26636897625767525,
+      "loss": 0.3587,
+      "num_input_tokens_seen": 8067952,
+      "step": 8695
+    },
+    {
+      "epoch": 4.101838755304102,
+      "grad_norm": 0.00022754509700462222,
+      "learning_rate": 0.266331799066944,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 8074064,
+      "step": 8700
+    },
+    {
+      "epoch": 4.104196133899104,
+      "grad_norm": 0.0008974855300039053,
+      "learning_rate": 0.2662946039363874,
+      "loss": 0.3158,
+      "num_input_tokens_seen": 8078224,
+      "step": 8705
+    },
+    {
+      "epoch": 4.106553512494107,
+      "grad_norm": 0.00023176199465524405,
+      "learning_rate": 0.2662573908717414,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 8082352,
+      "step": 8710
+    },
+    {
+      "epoch": 4.108910891089109,
+      "grad_norm": 0.00037268490996211767,
+      "learning_rate": 0.2662201598787447,
+      "loss": 0.3294,
+      "num_input_tokens_seen": 8086480,
+      "step": 8715
+    },
+    {
+      "epoch": 4.111268269684111,
+      "grad_norm": 0.000880037376191467,
+      "learning_rate": 0.2661829109631389,
+      "loss": 0.3375,
+      "num_input_tokens_seen": 8090656,
+      "step": 8720
+    },
+    {
+      "epoch": 4.113625648279114,
+      "grad_norm": 0.000816187122836709,
+      "learning_rate": 0.26614564413066816,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 8096096,
+      "step": 8725
+    },
+    {
+      "epoch": 4.115983026874116,
+      "grad_norm": 0.000380623183446005,
+      "learning_rate": 0.2661083593870795,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 8101184,
+      "step": 8730
+    },
+    {
+      "epoch": 4.118340405469119,
+      "grad_norm": 0.0007662253337912261,
+      "learning_rate": 0.26607105673812276,
+      "loss": 0.3375,
+      "num_input_tokens_seen": 8106352,
+      "step": 8735
+    },
+    {
+      "epoch": 4.120697784064121,
+      "grad_norm": 0.0008181614684872329,
+      "learning_rate": 0.2660337361895504,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 8111840,
+      "step": 8740
+    },
+    {
+      "epoch": 4.123055162659123,
+      "grad_norm": 0.0002991316723637283,
+      "learning_rate": 0.26599639774711775,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 8116512,
+      "step": 8745
+    },
+    {
+      "epoch": 4.125412541254126,
+      "grad_norm": 0.0002239876048406586,
+      "learning_rate": 0.2659590414165829,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 8122304,
+      "step": 8750
+    },
+    {
+      "epoch": 4.127769919849127,
+      "grad_norm": 0.0003590598062146455,
+      "learning_rate": 0.2659216672037066,
+      "loss": 0.3,
+      "num_input_tokens_seen": 8126352,
+      "step": 8755
+    },
+    {
+      "epoch": 4.13012729844413,
+      "grad_norm": 0.00032083565020002425,
+      "learning_rate": 0.26588427511425244,
+      "loss": 0.3926,
+      "num_input_tokens_seen": 8130400,
+      "step": 8760
+    },
+    {
+      "epoch": 4.132484677039132,
+      "grad_norm": 0.0003891018277499825,
+      "learning_rate": 0.26584686515398676,
+      "loss": 0.3175,
+      "num_input_tokens_seen": 8134992,
+      "step": 8765
+    },
+    {
+      "epoch": 4.1348420556341345,
+      "grad_norm": 0.0009614070877432823,
+      "learning_rate": 0.2658094373286787,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 8139600,
+      "step": 8770
+    },
+    {
+      "epoch": 4.137199434229137,
+      "grad_norm": 0.0002496167435310781,
+      "learning_rate": 0.2657719916441,
+      "loss": 0.3583,
+      "num_input_tokens_seen": 8145104,
+      "step": 8775
+    },
+    {
+      "epoch": 4.139556812824139,
+      "grad_norm": 0.0007934444583952427,
+      "learning_rate": 0.2657345281060253,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 8148832,
+      "step": 8780
+    },
+    {
+      "epoch": 4.141914191419142,
+      "grad_norm": 0.0012122327461838722,
+      "learning_rate": 0.26569704672023203,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 8153472,
+      "step": 8785
+    },
+    {
+      "epoch": 4.144271570014144,
+      "grad_norm": 0.0004203508433420211,
+      "learning_rate": 0.26565954749250015,
+      "loss": 0.2987,
+      "num_input_tokens_seen": 8158400,
+      "step": 8790
+    },
+    {
+      "epoch": 4.1466289486091465,
+      "grad_norm": 0.0008916034130379558,
+      "learning_rate": 0.2656220304286126,
+      "loss": 0.3709,
+      "num_input_tokens_seen": 8163328,
+      "step": 8795
+    },
+    {
+      "epoch": 4.148986327204149,
+      "grad_norm": 0.0008573171799071133,
+      "learning_rate": 0.265584495534355,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 8167776,
+      "step": 8800
+    },
+    {
+      "epoch": 4.148986327204149,
+      "eval_loss": 0.32790064811706543,
+      "eval_runtime": 33.4461,
+      "eval_samples_per_second": 28.195,
+      "eval_steps_per_second": 14.112,
+      "num_input_tokens_seen": 8167776,
+      "step": 8800
+    },
+    {
+      "epoch": 4.151343705799151,
+      "grad_norm": 0.0002890779869630933,
+      "learning_rate": 0.2655469428155156,
+      "loss": 0.307,
+      "num_input_tokens_seen": 8172016,
+      "step": 8805
+    },
+    {
+      "epoch": 4.153701084394154,
+      "grad_norm": 0.00037616441841237247,
+      "learning_rate": 0.2655093722778856,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 8176656,
+      "step": 8810
+    },
+    {
+      "epoch": 4.156058462989156,
+      "grad_norm": 0.0002526803291402757,
+      "learning_rate": 0.2654717839272588,
+      "loss": 0.3553,
+      "num_input_tokens_seen": 8181184,
+      "step": 8815
+    },
+    {
+      "epoch": 4.158415841584159,
+      "grad_norm": 0.0009790100157260895,
+      "learning_rate": 0.2654341777694318,
+      "loss": 0.374,
+      "num_input_tokens_seen": 8184688,
+      "step": 8820
+    },
+    {
+      "epoch": 4.160773220179161,
+      "grad_norm": 0.00034856758429668844,
+      "learning_rate": 0.265396553810204,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 8188816,
+      "step": 8825
+    },
+    {
+      "epoch": 4.163130598774163,
+      "grad_norm": 0.0008516287198290229,
+      "learning_rate": 0.26535891205537737,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 8194368,
+      "step": 8830
+    },
+    {
+      "epoch": 4.165487977369166,
+      "grad_norm": 0.0003235660551581532,
+      "learning_rate": 0.26532125251075683,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 8198896,
+      "step": 8835
+    },
+    {
+      "epoch": 4.167845355964168,
+      "grad_norm": 0.00033550008083693683,
+      "learning_rate": 0.26528357518214996,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 8203840,
+      "step": 8840
+    },
+    {
+      "epoch": 4.170202734559171,
+      "grad_norm": 0.0003316717338748276,
+      "learning_rate": 0.26524588007536704,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 8208592,
+      "step": 8845
+    },
+    {
+      "epoch": 4.172560113154173,
+      "grad_norm": 0.0008167715859599411,
+      "learning_rate": 0.26520816719622115,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 8212672,
+      "step": 8850
+    },
+    {
+      "epoch": 4.174917491749175,
+      "grad_norm": 0.00038665931788273156,
+      "learning_rate": 0.2651704365505281,
+      "loss": 0.3147,
+      "num_input_tokens_seen": 8217536,
+      "step": 8855
+    },
+    {
+      "epoch": 4.177274870344177,
+      "grad_norm": 0.0008818241185508668,
+      "learning_rate": 0.26513268814410634,
+      "loss": 0.3535,
+      "num_input_tokens_seen": 8221904,
+      "step": 8860
+    },
+    {
+      "epoch": 4.179632248939179,
+      "grad_norm": 0.00030639010947197676,
+      "learning_rate": 0.2650949219827773,
+      "loss": 0.3954,
+      "num_input_tokens_seen": 8226736,
+      "step": 8865
+    },
+    {
+      "epoch": 4.181989627534182,
+      "grad_norm": 0.0007561382954008877,
+      "learning_rate": 0.26505713807236486,
+      "loss": 0.3175,
+      "num_input_tokens_seen": 8231008,
+      "step": 8870
+    },
+    {
+      "epoch": 4.184347006129184,
+      "grad_norm": 0.0003287573345005512,
+      "learning_rate": 0.26501933641869585,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 8235824,
+      "step": 8875
+    },
+    {
+      "epoch": 4.1867043847241865,
+      "grad_norm": 0.0002945988089777529,
+      "learning_rate": 0.26498151702759976,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 8240544,
+      "step": 8880
+    },
+    {
+      "epoch": 4.189061763319189,
+      "grad_norm": 0.00031021665199659765,
+      "learning_rate": 0.2649436799049088,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 8244800,
+      "step": 8885
+    },
+    {
+      "epoch": 4.191419141914191,
+      "grad_norm": 0.00031292939092963934,
+      "learning_rate": 0.2649058250564579,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 8249584,
+      "step": 8890
+    },
+    {
+      "epoch": 4.193776520509194,
+      "grad_norm": 0.0003425607574172318,
+      "learning_rate": 0.26486795248808476,
+      "loss": 0.3911,
+      "num_input_tokens_seen": 8255072,
+      "step": 8895
+    },
+    {
+      "epoch": 4.196133899104196,
+      "grad_norm": 0.0007226981106214225,
+      "learning_rate": 0.2648300622056298,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 8260160,
+      "step": 8900
+    },
+    {
+      "epoch": 4.1984912776991985,
+      "grad_norm": 0.0004733558453153819,
+      "learning_rate": 0.2647921542149363,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 8264880,
+      "step": 8905
+    },
+    {
+      "epoch": 4.200848656294201,
+      "grad_norm": 0.0005235751159489155,
+      "learning_rate": 0.26475422852185,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 8269040,
+      "step": 8910
+    },
+    {
+      "epoch": 4.203206034889203,
+      "grad_norm": 0.00013282410509418696,
+      "learning_rate": 0.2647162851322196,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 8274160,
+      "step": 8915
+    },
+    {
+      "epoch": 4.205563413484206,
+      "grad_norm": 0.0006287080468609929,
+      "learning_rate": 0.2646783240518964,
+      "loss": 0.3588,
+      "num_input_tokens_seen": 8278304,
+      "step": 8920
+    },
+    {
+      "epoch": 4.207920792079208,
+      "grad_norm": 0.00015361967962235212,
+      "learning_rate": 0.26464034528673447,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 8283792,
+      "step": 8925
+    },
+    {
+      "epoch": 4.2102781706742105,
+      "grad_norm": 0.0005677893059328198,
+      "learning_rate": 0.26460234884259065,
+      "loss": 0.332,
+      "num_input_tokens_seen": 8289296,
+      "step": 8930
+    },
+    {
+      "epoch": 4.212635549269213,
+      "grad_norm": 0.0002377838536631316,
+      "learning_rate": 0.2645643347253245,
+      "loss": 0.3164,
+      "num_input_tokens_seen": 8293824,
+      "step": 8935
+    },
+    {
+      "epoch": 4.214992927864215,
+      "grad_norm": 0.0003075591230299324,
+      "learning_rate": 0.2645263029407982,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 8298224,
+      "step": 8940
+    },
+    {
+      "epoch": 4.217350306459218,
+      "grad_norm": 0.00037032889667898417,
+      "learning_rate": 0.2644882534948767,
+      "loss": 0.3853,
+      "num_input_tokens_seen": 8302288,
+      "step": 8945
+    },
+    {
+      "epoch": 4.21970768505422,
+      "grad_norm": 0.0008155227405950427,
+      "learning_rate": 0.2644501863934278,
+      "loss": 0.3351,
+      "num_input_tokens_seen": 8307872,
+      "step": 8950
+    },
+    {
+      "epoch": 4.222065063649222,
+      "grad_norm": 0.0003438177518546581,
+      "learning_rate": 0.26441210164232193,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 8313312,
+      "step": 8955
+    },
+    {
+      "epoch": 4.224422442244224,
+      "grad_norm": 0.0008173094829544425,
+      "learning_rate": 0.26437399924743216,
+      "loss": 0.329,
+      "num_input_tokens_seen": 8317728,
+      "step": 8960
+    },
+    {
+      "epoch": 4.226779820839226,
+      "grad_norm": 0.0008307908428832889,
+      "learning_rate": 0.26433587921463436,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 8322176,
+      "step": 8965
+    },
+    {
+      "epoch": 4.229137199434229,
+      "grad_norm": 0.00034090608824044466,
+      "learning_rate": 0.2642977415498072,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 8327008,
+      "step": 8970
+    },
+    {
+      "epoch": 4.231494578029231,
+      "grad_norm": 0.00030580427846871316,
+      "learning_rate": 0.26425958625883195,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 8331024,
+      "step": 8975
+    },
+    {
+      "epoch": 4.233851956624234,
+      "grad_norm": 0.00021408800967037678,
+      "learning_rate": 0.2642214133475926,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 8335504,
+      "step": 8980
+    },
+    {
+      "epoch": 4.236209335219236,
+      "grad_norm": 0.00020222979946993291,
+      "learning_rate": 0.26418322282197587,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 8340512,
+      "step": 8985
+    },
+    {
+      "epoch": 4.238566713814238,
+      "grad_norm": 0.0003713041660375893,
+      "learning_rate": 0.2641450146878714,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 8345872,
+      "step": 8990
+    },
+    {
+      "epoch": 4.240924092409241,
+      "grad_norm": 0.0007358252187259495,
+      "learning_rate": 0.26410678895117107,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 8350816,
+      "step": 8995
+    },
+    {
+      "epoch": 4.243281471004243,
+      "grad_norm": 0.0007287781918421388,
+      "learning_rate": 0.26406854561777,
+      "loss": 0.2816,
+      "num_input_tokens_seen": 8355856,
+      "step": 9000
+    },
+    {
+      "epoch": 4.243281471004243,
+      "eval_loss": 0.3279794454574585,
+      "eval_runtime": 33.4325,
+      "eval_samples_per_second": 28.206,
+      "eval_steps_per_second": 14.118,
+      "num_input_tokens_seen": 8355856,
+      "step": 9000
+    },
+    {
+      "epoch": 4.245638849599246,
+      "grad_norm": 0.0003747129230760038,
+      "learning_rate": 0.26403028469356576,
+      "loss": 0.3807,
+      "num_input_tokens_seen": 8360048,
+      "step": 9005
+    },
+    {
+      "epoch": 4.247996228194248,
+      "grad_norm": 0.00034728762693703175,
+      "learning_rate": 0.2639920061844585,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 8365296,
+      "step": 9010
+    },
+    {
+      "epoch": 4.2503536067892504,
+      "grad_norm": 0.0007474096491932869,
+      "learning_rate": 0.2639537100963515,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 8369808,
+      "step": 9015
+    },
+    {
+      "epoch": 4.252710985384253,
+      "grad_norm": 0.0002471014449838549,
+      "learning_rate": 0.26391539643515033,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 8374144,
+      "step": 9020
+    },
+    {
+      "epoch": 4.255068363979255,
+      "grad_norm": 0.0008346230606548488,
+      "learning_rate": 0.26387706520676346,
+      "loss": 0.3024,
+      "num_input_tokens_seen": 8377856,
+      "step": 9025
+    },
+    {
+      "epoch": 4.257425742574258,
+      "grad_norm": 0.00030165808857418597,
+      "learning_rate": 0.26383871641710205,
+      "loss": 0.363,
+      "num_input_tokens_seen": 8382160,
+      "step": 9030
+    },
+    {
+      "epoch": 4.25978312116926,
+      "grad_norm": 0.0003884850302711129,
+      "learning_rate": 0.26380035007208,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 8387248,
+      "step": 9035
+    },
+    {
+      "epoch": 4.2621404997642625,
+      "grad_norm": 0.00031796490657143295,
+      "learning_rate": 0.26376196617761394,
+      "loss": 0.348,
+      "num_input_tokens_seen": 8391984,
+      "step": 9040
+    },
+    {
+      "epoch": 4.264497878359265,
+      "grad_norm": 0.00047631494817323983,
+      "learning_rate": 0.263723564739623,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 8396432,
+      "step": 9045
+    },
+    {
+      "epoch": 4.266855256954267,
+      "grad_norm": 0.0003966515650972724,
+      "learning_rate": 0.2636851457640293,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 8400768,
+      "step": 9050
+    },
+    {
+      "epoch": 4.26921263554927,
+      "grad_norm": 0.00030888590845279396,
+      "learning_rate": 0.26364670925675737,
+      "loss": 0.3092,
+      "num_input_tokens_seen": 8404688,
+      "step": 9055
+    },
+    {
+      "epoch": 4.271570014144271,
+      "grad_norm": 0.0003279074444435537,
+      "learning_rate": 0.2636082552237347,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 8410176,
+      "step": 9060
+    },
+    {
+      "epoch": 4.273927392739274,
+      "grad_norm": 0.00033657875610515475,
+      "learning_rate": 0.26356978367089146,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 8415344,
+      "step": 9065
+    },
+    {
+      "epoch": 4.276284771334276,
+      "grad_norm": 0.0014799457276239991,
+      "learning_rate": 0.26353129460416036,
+      "loss": 0.3935,
+      "num_input_tokens_seen": 8420320,
+      "step": 9070
+    },
+    {
+      "epoch": 4.278642149929278,
+      "grad_norm": 0.0004067558911629021,
+      "learning_rate": 0.2634927880294769,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 8424640,
+      "step": 9075
+    },
+    {
+      "epoch": 4.280999528524281,
+      "grad_norm": 0.001285953912883997,
+      "learning_rate": 0.26345426395277927,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 8429376,
+      "step": 9080
+    },
+    {
+      "epoch": 4.283356907119283,
+      "grad_norm": 0.0004094770411029458,
+      "learning_rate": 0.2634157223800084,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 8434240,
+      "step": 9085
+    },
+    {
+      "epoch": 4.285714285714286,
+      "grad_norm": 0.00026835669996216893,
+      "learning_rate": 0.26337716331710787,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 8438592,
+      "step": 9090
+    },
+    {
+      "epoch": 4.288071664309288,
+      "grad_norm": 0.00028245162684470415,
+      "learning_rate": 0.2633385867700239,
+      "loss": 0.3195,
+      "num_input_tokens_seen": 8443136,
+      "step": 9095
+    },
+    {
+      "epoch": 4.29042904290429,
+      "grad_norm": 0.00032734093838371336,
+      "learning_rate": 0.2632999927447056,
+      "loss": 0.3326,
+      "num_input_tokens_seen": 8448576,
+      "step": 9100
+    },
+    {
+      "epoch": 4.292786421499293,
+      "grad_norm": 0.0007721575675532222,
+      "learning_rate": 0.2632613812471046,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 8453104,
+      "step": 9105
+    },
+    {
+      "epoch": 4.295143800094295,
+      "grad_norm": 0.0002380203950451687,
+      "learning_rate": 0.2632227522831753,
+      "loss": 0.307,
+      "num_input_tokens_seen": 8457216,
+      "step": 9110
+    },
+    {
+      "epoch": 4.297501178689298,
+      "grad_norm": 0.0002479270624462515,
+      "learning_rate": 0.26318410585887475,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 8461264,
+      "step": 9115
+    },
+    {
+      "epoch": 4.2998585572843,
+      "grad_norm": 0.00039946360629983246,
+      "learning_rate": 0.2631454419801627,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 8465584,
+      "step": 9120
+    },
+    {
+      "epoch": 4.302215935879302,
+      "grad_norm": 0.0003297082439530641,
+      "learning_rate": 0.2631067606530016,
+      "loss": 0.4065,
+      "num_input_tokens_seen": 8470576,
+      "step": 9125
+    },
+    {
+      "epoch": 4.304573314474305,
+      "grad_norm": 0.00036159835872240365,
+      "learning_rate": 0.2630680618833567,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 8475120,
+      "step": 9130
+    },
+    {
+      "epoch": 4.306930693069307,
+      "grad_norm": 0.0008706074440851808,
+      "learning_rate": 0.26302934567719566,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 8480144,
+      "step": 9135
+    },
+    {
+      "epoch": 4.30928807166431,
+      "grad_norm": 0.0002449979947414249,
+      "learning_rate": 0.2629906120404892,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 8484800,
+      "step": 9140
+    },
+    {
+      "epoch": 4.311645450259312,
+      "grad_norm": 0.00038336165016517043,
+      "learning_rate": 0.26295186097921036,
+      "loss": 0.3589,
+      "num_input_tokens_seen": 8490720,
+      "step": 9145
+    },
+    {
+      "epoch": 4.314002828854314,
+      "grad_norm": 0.0008677972946316004,
+      "learning_rate": 0.2629130924993351,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 8494624,
+      "step": 9150
+    },
+    {
+      "epoch": 4.316360207449316,
+      "grad_norm": 0.0006385501474142075,
+      "learning_rate": 0.2628743066068421,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 8499344,
+      "step": 9155
+    },
+    {
+      "epoch": 4.318717586044318,
+      "grad_norm": 0.00037189392605796456,
+      "learning_rate": 0.26283550330771244,
+      "loss": 0.318,
+      "num_input_tokens_seen": 8503744,
+      "step": 9160
+    },
+    {
+      "epoch": 4.321074964639321,
+      "grad_norm": 0.0007552935858257115,
+      "learning_rate": 0.2627966826079303,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 8508000,
+      "step": 9165
+    },
+    {
+      "epoch": 4.323432343234323,
+      "grad_norm": 0.0002730203268583864,
+      "learning_rate": 0.26275784451348216,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 8512896,
+      "step": 9170
+    },
+    {
+      "epoch": 4.3257897218293255,
+      "grad_norm": 0.00021154896239750087,
+      "learning_rate": 0.2627189890303574,
+      "loss": 0.2762,
+      "num_input_tokens_seen": 8517392,
+      "step": 9175
+    },
+    {
+      "epoch": 4.328147100424328,
+      "grad_norm": 0.0001456770405638963,
+      "learning_rate": 0.262680116164548,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 8522336,
+      "step": 9180
+    },
+    {
+      "epoch": 4.33050447901933,
+      "grad_norm": 0.0006156833260320127,
+      "learning_rate": 0.2626412259220487,
+      "loss": 0.4259,
+      "num_input_tokens_seen": 8527088,
+      "step": 9185
+    },
+    {
+      "epoch": 4.332861857614333,
+      "grad_norm": 0.00034288238384760916,
+      "learning_rate": 0.2626023183088568,
+      "loss": 0.3886,
+      "num_input_tokens_seen": 8532832,
+      "step": 9190
+    },
+    {
+      "epoch": 4.335219236209335,
+      "grad_norm": 0.0003617980401031673,
+      "learning_rate": 0.26256339333097234,
+      "loss": 0.367,
+      "num_input_tokens_seen": 8537952,
+      "step": 9195
+    },
+    {
+      "epoch": 4.3375766148043375,
+      "grad_norm": 0.0008297374588437378,
+      "learning_rate": 0.2625244509943981,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 8543120,
+      "step": 9200
+    },
+    {
+      "epoch": 4.3375766148043375,
+      "eval_loss": 0.33205729722976685,
+      "eval_runtime": 33.4424,
+      "eval_samples_per_second": 28.198,
+      "eval_steps_per_second": 14.114,
+      "num_input_tokens_seen": 8543120,
+      "step": 9200
+    },
+    {
+      "epoch": 4.33993399339934,
+      "grad_norm": 0.00021094635303597897,
+      "learning_rate": 0.2624854913051395,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 8548096,
+      "step": 9205
+    },
+    {
+      "epoch": 4.342291371994342,
+      "grad_norm": 0.000320548570016399,
+      "learning_rate": 0.26244651426920446,
+      "loss": 0.322,
+      "num_input_tokens_seen": 8552384,
+      "step": 9210
+    },
+    {
+      "epoch": 4.344648750589345,
+      "grad_norm": 0.00024969762307591736,
+      "learning_rate": 0.26240751989260386,
+      "loss": 0.354,
+      "num_input_tokens_seen": 8556832,
+      "step": 9215
+    },
+    {
+      "epoch": 4.347006129184347,
+      "grad_norm": 0.00033615250140428543,
+      "learning_rate": 0.2623685081813511,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 8560880,
+      "step": 9220
+    },
+    {
+      "epoch": 4.3493635077793495,
+      "grad_norm": 0.00022033114510122687,
+      "learning_rate": 0.2623294791414623,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 8565632,
+      "step": 9225
+    },
+    {
+      "epoch": 4.351720886374352,
+      "grad_norm": 0.0003461702144704759,
+      "learning_rate": 0.26229043277895614,
+      "loss": 0.341,
+      "num_input_tokens_seen": 8570160,
+      "step": 9230
+    },
+    {
+      "epoch": 4.354078264969354,
+      "grad_norm": 0.00036515589454211295,
+      "learning_rate": 0.2622513690998542,
+      "loss": 0.337,
+      "num_input_tokens_seen": 8574704,
+      "step": 9235
+    },
+    {
+      "epoch": 4.356435643564357,
+      "grad_norm": 0.0002287969400640577,
+      "learning_rate": 0.26221228811018044,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 8579040,
+      "step": 9240
+    },
+    {
+      "epoch": 4.358793022159359,
+      "grad_norm": 0.0006323021370917559,
+      "learning_rate": 0.2621731898159617,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 8584544,
+      "step": 9245
+    },
+    {
+      "epoch": 4.3611504007543616,
+      "grad_norm": 0.0003874216054100543,
+      "learning_rate": 0.26213407422322743,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 8590064,
+      "step": 9250
+    },
+    {
+      "epoch": 4.363507779349364,
+      "grad_norm": 0.0003489634837023914,
+      "learning_rate": 0.2620949413380098,
+      "loss": 0.308,
+      "num_input_tokens_seen": 8594096,
+      "step": 9255
+    },
+    {
+      "epoch": 4.3658651579443655,
+      "grad_norm": 0.00018877074762713164,
+      "learning_rate": 0.26205579116634353,
+      "loss": 0.348,
+      "num_input_tokens_seen": 8598736,
+      "step": 9260
+    },
+    {
+      "epoch": 4.368222536539368,
+      "grad_norm": 0.0003093593113590032,
+      "learning_rate": 0.26201662371426604,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 8603248,
+      "step": 9265
+    },
+    {
+      "epoch": 4.37057991513437,
+      "grad_norm": 0.0007074687164276838,
+      "learning_rate": 0.2619774389878175,
+      "loss": 0.2775,
+      "num_input_tokens_seen": 8608048,
+      "step": 9270
+    },
+    {
+      "epoch": 4.372937293729373,
+      "grad_norm": 0.00019792343664448708,
+      "learning_rate": 0.2619382369930407,
+      "loss": 0.3626,
+      "num_input_tokens_seen": 8612240,
+      "step": 9275
+    },
+    {
+      "epoch": 4.375294672324375,
+      "grad_norm": 0.00039197082514874637,
+      "learning_rate": 0.261899017735981,
+      "loss": 0.3052,
+      "num_input_tokens_seen": 8616720,
+      "step": 9280
+    },
+    {
+      "epoch": 4.3776520509193775,
+      "grad_norm": 0.0008720499463379383,
+      "learning_rate": 0.2618597812226866,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 8621152,
+      "step": 9285
+    },
+    {
+      "epoch": 4.38000942951438,
+      "grad_norm": 0.0008695268188603222,
+      "learning_rate": 0.2618205274592082,
+      "loss": 0.3668,
+      "num_input_tokens_seen": 8625760,
+      "step": 9290
+    },
+    {
+      "epoch": 4.382366808109382,
+      "grad_norm": 0.0002548386109992862,
+      "learning_rate": 0.2617812564515992,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 8630512,
+      "step": 9295
+    },
+    {
+      "epoch": 4.384724186704385,
+      "grad_norm": 0.0002777112240437418,
+      "learning_rate": 0.2617419682059158,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 8634944,
+      "step": 9300
+    },
+    {
+      "epoch": 4.387081565299387,
+      "grad_norm": 0.0003006058104801923,
+      "learning_rate": 0.26170266272821663,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 8639696,
+      "step": 9305
+    },
+    {
+      "epoch": 4.3894389438943895,
+      "grad_norm": 0.0002698525495361537,
+      "learning_rate": 0.26166334002456315,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 8645520,
+      "step": 9310
+    },
+    {
+      "epoch": 4.391796322489392,
+      "grad_norm": 0.0002759180497378111,
+      "learning_rate": 0.2616240001010194,
+      "loss": 0.326,
+      "num_input_tokens_seen": 8650064,
+      "step": 9315
+    },
+    {
+      "epoch": 4.394153701084394,
+      "grad_norm": 0.0007678536931052804,
+      "learning_rate": 0.26158464296365197,
+      "loss": 0.3642,
+      "num_input_tokens_seen": 8654704,
+      "step": 9320
+    },
+    {
+      "epoch": 4.396511079679397,
+      "grad_norm": 0.0003151095879729837,
+      "learning_rate": 0.2615452686185304,
+      "loss": 0.2958,
+      "num_input_tokens_seen": 8658896,
+      "step": 9325
+    },
+    {
+      "epoch": 4.398868458274399,
+      "grad_norm": 0.000798705848865211,
+      "learning_rate": 0.26150587707172673,
+      "loss": 0.331,
+      "num_input_tokens_seen": 8662416,
+      "step": 9330
+    },
+    {
+      "epoch": 4.4012258368694015,
+      "grad_norm": 0.0002278765750816092,
+      "learning_rate": 0.2614664683293154,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 8667664,
+      "step": 9335
+    },
+    {
+      "epoch": 4.403583215464404,
+      "grad_norm": 0.0006962530314922333,
+      "learning_rate": 0.26142704239737397,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 8672112,
+      "step": 9340
+    },
+    {
+      "epoch": 4.405940594059406,
+      "grad_norm": 0.00026668974896892905,
+      "learning_rate": 0.26138759928198235,
+      "loss": 0.3904,
+      "num_input_tokens_seen": 8676576,
+      "step": 9345
+    },
+    {
+      "epoch": 4.408297972654409,
+      "grad_norm": 0.00017587197362445295,
+      "learning_rate": 0.26134813898922304,
+      "loss": 0.3203,
+      "num_input_tokens_seen": 8681264,
+      "step": 9350
+    },
+    {
+      "epoch": 4.41065535124941,
+      "grad_norm": 0.0003076927096117288,
+      "learning_rate": 0.26130866152518145,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 8685616,
+      "step": 9355
+    },
+    {
+      "epoch": 4.413012729844413,
+      "grad_norm": 0.000258017098531127,
+      "learning_rate": 0.2612691668959455,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 8690448,
+      "step": 9360
+    },
+    {
+      "epoch": 4.415370108439415,
+      "grad_norm": 0.00030201851041056216,
+      "learning_rate": 0.2612296551076057,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 8695600,
+      "step": 9365
+    },
+    {
+      "epoch": 4.417727487034417,
+      "grad_norm": 0.0002582772576715797,
+      "learning_rate": 0.26119012616625525,
+      "loss": 0.287,
+      "num_input_tokens_seen": 8699920,
+      "step": 9370
+    },
+    {
+      "epoch": 4.42008486562942,
+      "grad_norm": 0.00025149041903205216,
+      "learning_rate": 0.26115058007799,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 8704480,
+      "step": 9375
+    },
+    {
+      "epoch": 4.422442244224422,
+      "grad_norm": 0.00027459385455586016,
+      "learning_rate": 0.26111101684890864,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 8708688,
+      "step": 9380
+    },
+    {
+      "epoch": 4.424799622819425,
+      "grad_norm": 0.0003059940063394606,
+      "learning_rate": 0.26107143648511205,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 8714192,
+      "step": 9385
+    },
+    {
+      "epoch": 4.427157001414427,
+      "grad_norm": 0.0002862646942958236,
+      "learning_rate": 0.2610318389927042,
+      "loss": 0.2858,
+      "num_input_tokens_seen": 8718304,
+      "step": 9390
+    },
+    {
+      "epoch": 4.429514380009429,
+      "grad_norm": 0.0004174192145001143,
+      "learning_rate": 0.26099222437779146,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 8722768,
+      "step": 9395
+    },
+    {
+      "epoch": 4.431871758604432,
+      "grad_norm": 0.0018046930199488997,
+      "learning_rate": 0.26095259264648285,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 8727088,
+      "step": 9400
+    },
+    {
+      "epoch": 4.431871758604432,
+      "eval_loss": 0.32719722390174866,
+      "eval_runtime": 33.4266,
+      "eval_samples_per_second": 28.211,
+      "eval_steps_per_second": 14.12,
+      "num_input_tokens_seen": 8727088,
+      "step": 9400
+    },
+    {
+      "epoch": 4.434229137199434,
+      "grad_norm": 0.0002796376356855035,
+      "learning_rate": 0.2609129438048902,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 8731472,
+      "step": 9405
+    },
+    {
+      "epoch": 4.436586515794437,
+      "grad_norm": 0.00022083031944930553,
+      "learning_rate": 0.2608732778591278,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 8736016,
+      "step": 9410
+    },
+    {
+      "epoch": 4.438943894389439,
+      "grad_norm": 0.0002966425381600857,
+      "learning_rate": 0.2608335948153126,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 8740448,
+      "step": 9415
+    },
+    {
+      "epoch": 4.441301272984441,
+      "grad_norm": 0.0003698643995448947,
+      "learning_rate": 0.26079389467956426,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 8745344,
+      "step": 9420
+    },
+    {
+      "epoch": 4.443658651579444,
+      "grad_norm": 0.0002859498781617731,
+      "learning_rate": 0.26075417745800505,
+      "loss": 0.3717,
+      "num_input_tokens_seen": 8749520,
+      "step": 9425
+    },
+    {
+      "epoch": 4.446016030174446,
+      "grad_norm": 0.0002867445582523942,
+      "learning_rate": 0.26071444315675985,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 8754768,
+      "step": 9430
+    },
+    {
+      "epoch": 4.448373408769449,
+      "grad_norm": 0.00022220751270651817,
+      "learning_rate": 0.2606746917819562,
+      "loss": 0.2811,
+      "num_input_tokens_seen": 8759024,
+      "step": 9435
+    },
+    {
+      "epoch": 4.450730787364451,
+      "grad_norm": 0.00036432911292649806,
+      "learning_rate": 0.2606349233397242,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 8763072,
+      "step": 9440
+    },
+    {
+      "epoch": 4.4530881659594534,
+      "grad_norm": 0.00016088054690044373,
+      "learning_rate": 0.26059513783619676,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 8767408,
+      "step": 9445
+    },
+    {
+      "epoch": 4.455445544554456,
+      "grad_norm": 0.0013902082573622465,
+      "learning_rate": 0.26055533527750924,
+      "loss": 0.3894,
+      "num_input_tokens_seen": 8772032,
+      "step": 9450
+    },
+    {
+      "epoch": 4.457802923149458,
+      "grad_norm": 0.0004717958508990705,
+      "learning_rate": 0.26051551566979964,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 8778208,
+      "step": 9455
+    },
+    {
+      "epoch": 4.46016030174446,
+      "grad_norm": 0.0006885158945806324,
+      "learning_rate": 0.26047567901920876,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 8785920,
+      "step": 9460
+    },
+    {
+      "epoch": 4.462517680339462,
+      "grad_norm": 0.0006395967793650925,
+      "learning_rate": 0.2604358253318798,
+      "loss": 0.2552,
+      "num_input_tokens_seen": 8790896,
+      "step": 9465
+    },
+    {
+      "epoch": 4.464875058934465,
+      "grad_norm": 0.0008892652112990618,
+      "learning_rate": 0.26039595461395876,
+      "loss": 0.3971,
+      "num_input_tokens_seen": 8795984,
+      "step": 9470
+    },
+    {
+      "epoch": 4.467232437529467,
+      "grad_norm": 0.0008319196640513837,
+      "learning_rate": 0.26035606687159424,
+      "loss": 0.3958,
+      "num_input_tokens_seen": 8800496,
+      "step": 9475
+    },
+    {
+      "epoch": 4.469589816124469,
+      "grad_norm": 0.000301378924632445,
+      "learning_rate": 0.26031616211093733,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 8804832,
+      "step": 9480
+    },
+    {
+      "epoch": 4.471947194719472,
+      "grad_norm": 0.0008672586409375072,
+      "learning_rate": 0.26027624033814195,
+      "loss": 0.351,
+      "num_input_tokens_seen": 8809376,
+      "step": 9485
+    },
+    {
+      "epoch": 4.474304573314474,
+      "grad_norm": 0.00018741066742222756,
+      "learning_rate": 0.2602363015593645,
+      "loss": 0.3166,
+      "num_input_tokens_seen": 8813792,
+      "step": 9490
+    },
+    {
+      "epoch": 4.476661951909477,
+      "grad_norm": 0.001279273652471602,
+      "learning_rate": 0.26019634578076395,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 8819360,
+      "step": 9495
+    },
+    {
+      "epoch": 4.479019330504479,
+      "grad_norm": 0.0015207119286060333,
+      "learning_rate": 0.26015637300850214,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 8823872,
+      "step": 9500
+    },
+    {
+      "epoch": 4.481376709099481,
+      "grad_norm": 0.0009706058190204203,
+      "learning_rate": 0.26011638324874325,
+      "loss": 0.444,
+      "num_input_tokens_seen": 8828512,
+      "step": 9505
+    },
+    {
+      "epoch": 4.483734087694484,
+      "grad_norm": 0.00034690587199293077,
+      "learning_rate": 0.2600763765076543,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 8832752,
+      "step": 9510
+    },
+    {
+      "epoch": 4.486091466289486,
+      "grad_norm": 0.00036485327291302383,
+      "learning_rate": 0.2600363527914048,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 8837456,
+      "step": 9515
+    },
+    {
+      "epoch": 4.488448844884489,
+      "grad_norm": 0.002081015147268772,
+      "learning_rate": 0.25999631210616686,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 8842176,
+      "step": 9520
+    },
+    {
+      "epoch": 4.490806223479491,
+      "grad_norm": 0.0003741601831279695,
+      "learning_rate": 0.25995625445811527,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 8846352,
+      "step": 9525
+    },
+    {
+      "epoch": 4.493163602074493,
+      "grad_norm": 0.000799476751126349,
+      "learning_rate": 0.2599161798534275,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 8850944,
+      "step": 9530
+    },
+    {
+      "epoch": 4.495520980669496,
+      "grad_norm": 0.0018421659478917718,
+      "learning_rate": 0.25987608829828346,
+      "loss": 0.367,
+      "num_input_tokens_seen": 8856208,
+      "step": 9535
+    },
+    {
+      "epoch": 4.497878359264498,
+      "grad_norm": 0.0013654404319822788,
+      "learning_rate": 0.25983597979886586,
+      "loss": 0.3682,
+      "num_input_tokens_seen": 8859984,
+      "step": 9540
+    },
+    {
+      "epoch": 4.500235737859501,
+      "grad_norm": 0.0011824427638202906,
+      "learning_rate": 0.2597958543613599,
+      "loss": 0.3668,
+      "num_input_tokens_seen": 8864880,
+      "step": 9545
+    },
+    {
+      "epoch": 4.502593116454502,
+      "grad_norm": 0.001137905172072351,
+      "learning_rate": 0.25975571199195335,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 8869472,
+      "step": 9550
+    },
+    {
+      "epoch": 4.5049504950495045,
+      "grad_norm": 0.0012120123719796538,
+      "learning_rate": 0.25971555269683677,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 8873904,
+      "step": 9555
+    },
+    {
+      "epoch": 4.507307873644507,
+      "grad_norm": 0.0003265623818151653,
+      "learning_rate": 0.25967537648220324,
+      "loss": 0.3561,
+      "num_input_tokens_seen": 8878832,
+      "step": 9560
+    },
+    {
+      "epoch": 4.509665252239509,
+      "grad_norm": 0.003668507095426321,
+      "learning_rate": 0.2596351833542483,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 8883248,
+      "step": 9565
+    },
+    {
+      "epoch": 4.512022630834512,
+      "grad_norm": 0.0016450510593131185,
+      "learning_rate": 0.25959497331917036,
+      "loss": 0.3535,
+      "num_input_tokens_seen": 8887456,
+      "step": 9570
+    },
+    {
+      "epoch": 4.514380009429514,
+      "grad_norm": 0.002046421868726611,
+      "learning_rate": 0.2595547463831703,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 8891984,
+      "step": 9575
+    },
+    {
+      "epoch": 4.5167373880245165,
+      "grad_norm": 0.0005005395505577326,
+      "learning_rate": 0.25951450255245156,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 8896096,
+      "step": 9580
+    },
+    {
+      "epoch": 4.519094766619519,
+      "grad_norm": 0.001133466954343021,
+      "learning_rate": 0.2594742418332203,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 8899968,
+      "step": 9585
+    },
+    {
+      "epoch": 4.521452145214521,
+      "grad_norm": 0.000286232796497643,
+      "learning_rate": 0.2594339642316852,
+      "loss": 0.2862,
+      "num_input_tokens_seen": 8904912,
+      "step": 9590
+    },
+    {
+      "epoch": 4.523809523809524,
+      "grad_norm": 0.001264579244889319,
+      "learning_rate": 0.2593936697540576,
+      "loss": 0.4095,
+      "num_input_tokens_seen": 8909888,
+      "step": 9595
+    },
+    {
+      "epoch": 4.526166902404526,
+      "grad_norm": 0.0004228534235153347,
+      "learning_rate": 0.2593533584065514,
+      "loss": 0.3667,
+      "num_input_tokens_seen": 8914992,
+      "step": 9600
+    },
+    {
+      "epoch": 4.526166902404526,
+      "eval_loss": 0.32885557413101196,
+      "eval_runtime": 33.4807,
+      "eval_samples_per_second": 28.165,
+      "eval_steps_per_second": 14.098,
+      "num_input_tokens_seen": 8914992,
+      "step": 9600
+    },
+    {
+      "epoch": 4.5285242809995285,
+      "grad_norm": 0.00036538776475936174,
+      "learning_rate": 0.2593130301953831,
+      "loss": 0.2946,
+      "num_input_tokens_seen": 8920208,
+      "step": 9605
+    },
+    {
+      "epoch": 4.530881659594531,
+      "grad_norm": 0.0005015177302993834,
+      "learning_rate": 0.2592726851267718,
+      "loss": 0.3018,
+      "num_input_tokens_seen": 8924048,
+      "step": 9610
+    },
+    {
+      "epoch": 4.533239038189533,
+      "grad_norm": 0.0009319687378592789,
+      "learning_rate": 0.2592323232069393,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 8929248,
+      "step": 9615
+    },
+    {
+      "epoch": 4.535596416784536,
+      "grad_norm": 0.0026569117326289415,
+      "learning_rate": 0.25919194444210986,
+      "loss": 0.3745,
+      "num_input_tokens_seen": 8934336,
+      "step": 9620
+    },
+    {
+      "epoch": 4.537953795379538,
+      "grad_norm": 0.0008076741942204535,
+      "learning_rate": 0.2591515488385103,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 8938512,
+      "step": 9625
+    },
+    {
+      "epoch": 4.5403111739745405,
+      "grad_norm": 0.0005326460232026875,
+      "learning_rate": 0.2591111364023704,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 8943472,
+      "step": 9630
+    },
+    {
+      "epoch": 4.542668552569543,
+      "grad_norm": 0.0008104023290798068,
+      "learning_rate": 0.259070707139922,
+      "loss": 0.33,
+      "num_input_tokens_seen": 8947792,
+      "step": 9635
+    },
+    {
+      "epoch": 4.545025931164545,
+      "grad_norm": 0.0032573577482253313,
+      "learning_rate": 0.25903026105739985,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 8952736,
+      "step": 9640
+    },
+    {
+      "epoch": 4.547383309759548,
+      "grad_norm": 0.00033510950743220747,
+      "learning_rate": 0.2589897981610413,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 8957952,
+      "step": 9645
+    },
+    {
+      "epoch": 4.54974068835455,
+      "grad_norm": 0.0005050848703831434,
+      "learning_rate": 0.2589493184570863,
+      "loss": 0.3703,
+      "num_input_tokens_seen": 8962592,
+      "step": 9650
+    },
+    {
+      "epoch": 4.5520980669495525,
+      "grad_norm": 0.0005684623029083014,
+      "learning_rate": 0.25890882195177717,
+      "loss": 0.3627,
+      "num_input_tokens_seen": 8967072,
+      "step": 9655
+    },
+    {
+      "epoch": 4.554455445544555,
+      "grad_norm": 0.001405788934789598,
+      "learning_rate": 0.25886830865135907,
+      "loss": 0.3288,
+      "num_input_tokens_seen": 8971792,
+      "step": 9660
+    },
+    {
+      "epoch": 4.5568128241395565,
+      "grad_norm": 0.0003449566720519215,
+      "learning_rate": 0.25882777856207967,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 8975680,
+      "step": 9665
+    },
+    {
+      "epoch": 4.559170202734559,
+      "grad_norm": 0.0005852867034263909,
+      "learning_rate": 0.2587872316901892,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 8980880,
+      "step": 9670
+    },
+    {
+      "epoch": 4.561527581329561,
+      "grad_norm": 0.00121110409963876,
+      "learning_rate": 0.25874666804194046,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 8985872,
+      "step": 9675
+    },
+    {
+      "epoch": 4.563884959924564,
+      "grad_norm": 0.0008866693242453039,
+      "learning_rate": 0.258706087623589,
+      "loss": 0.2753,
+      "num_input_tokens_seen": 8990160,
+      "step": 9680
+    },
+    {
+      "epoch": 4.566242338519566,
+      "grad_norm": 0.0007618058589287102,
+      "learning_rate": 0.25866549044139264,
+      "loss": 0.2423,
+      "num_input_tokens_seen": 8993936,
+      "step": 9685
+    },
+    {
+      "epoch": 4.5685997171145685,
+      "grad_norm": 0.0007217800593934953,
+      "learning_rate": 0.25862487650161214,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 8998016,
+      "step": 9690
+    },
+    {
+      "epoch": 4.570957095709571,
+      "grad_norm": 0.0007377557922154665,
+      "learning_rate": 0.2585842458105106,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 9002336,
+      "step": 9695
+    },
+    {
+      "epoch": 4.573314474304573,
+      "grad_norm": 0.001502947648987174,
+      "learning_rate": 0.2585435983743538,
+      "loss": 0.2636,
+      "num_input_tokens_seen": 9007008,
+      "step": 9700
+    },
+    {
+      "epoch": 4.575671852899576,
+      "grad_norm": 0.000652484770398587,
+      "learning_rate": 0.2585029341994101,
+      "loss": 0.2567,
+      "num_input_tokens_seen": 9011952,
+      "step": 9705
+    },
+    {
+      "epoch": 4.578029231494578,
+      "grad_norm": 0.00046890342491678894,
+      "learning_rate": 0.2584622532919504,
+      "loss": 0.3047,
+      "num_input_tokens_seen": 9016224,
+      "step": 9710
+    },
+    {
+      "epoch": 4.5803866100895805,
+      "grad_norm": 0.0007050182321108878,
+      "learning_rate": 0.2584215556582482,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 9020352,
+      "step": 9715
+    },
+    {
+      "epoch": 4.582743988684583,
+      "grad_norm": 0.00019007442460861057,
+      "learning_rate": 0.25838084130457967,
+      "loss": 0.2544,
+      "num_input_tokens_seen": 9024176,
+      "step": 9720
+    },
+    {
+      "epoch": 4.585101367279585,
+      "grad_norm": 0.001298940391279757,
+      "learning_rate": 0.2583401102372234,
+      "loss": 0.3567,
+      "num_input_tokens_seen": 9028912,
+      "step": 9725
+    },
+    {
+      "epoch": 4.587458745874588,
+      "grad_norm": 0.0011069265892729163,
+      "learning_rate": 0.2582993624624606,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 9033312,
+      "step": 9730
+    },
+    {
+      "epoch": 4.58981612446959,
+      "grad_norm": 0.001123730093240738,
+      "learning_rate": 0.25825859798657513,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 9038224,
+      "step": 9735
+    },
+    {
+      "epoch": 4.5921735030645925,
+      "grad_norm": 0.00043558806646615267,
+      "learning_rate": 0.25821781681585343,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 9042912,
+      "step": 9740
+    },
+    {
+      "epoch": 4.594530881659595,
+      "grad_norm": 0.0005406700074672699,
+      "learning_rate": 0.2581770189565844,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 9048096,
+      "step": 9745
+    },
+    {
+      "epoch": 4.596888260254596,
+      "grad_norm": 0.0008747716201469302,
+      "learning_rate": 0.25813620441505963,
+      "loss": 0.2854,
+      "num_input_tokens_seen": 9053152,
+      "step": 9750
+    },
+    {
+      "epoch": 4.599245638849599,
+      "grad_norm": 0.0005213093245401978,
+      "learning_rate": 0.2580953731975732,
+      "loss": 0.338,
+      "num_input_tokens_seen": 9057888,
+      "step": 9755
+    },
+    {
+      "epoch": 4.601603017444601,
+      "grad_norm": 0.0007620283286087215,
+      "learning_rate": 0.2580545253104218,
+      "loss": 0.305,
+      "num_input_tokens_seen": 9062368,
+      "step": 9760
+    },
+    {
+      "epoch": 4.603960396039604,
+      "grad_norm": 0.0007271047215908766,
+      "learning_rate": 0.2580136607599047,
+      "loss": 0.349,
+      "num_input_tokens_seen": 9066384,
+      "step": 9765
+    },
+    {
+      "epoch": 4.606317774634606,
+      "grad_norm": 0.0005150919314473867,
+      "learning_rate": 0.2579727795523238,
+      "loss": 0.411,
+      "num_input_tokens_seen": 9070800,
+      "step": 9770
+    },
+    {
+      "epoch": 4.608675153229608,
+      "grad_norm": 0.000450799212558195,
+      "learning_rate": 0.25793188169398334,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 9074816,
+      "step": 9775
+    },
+    {
+      "epoch": 4.611032531824611,
+      "grad_norm": 0.001000275369733572,
+      "learning_rate": 0.25789096719119037,
+      "loss": 0.364,
+      "num_input_tokens_seen": 9078800,
+      "step": 9780
+    },
+    {
+      "epoch": 4.613389910419613,
+      "grad_norm": 0.0009706394048407674,
+      "learning_rate": 0.2578500360502544,
+      "loss": 0.3349,
+      "num_input_tokens_seen": 9082672,
+      "step": 9785
+    },
+    {
+      "epoch": 4.615747289014616,
+      "grad_norm": 0.006061803549528122,
+      "learning_rate": 0.2578090882774876,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 9087184,
+      "step": 9790
+    },
+    {
+      "epoch": 4.618104667609618,
+      "grad_norm": 0.14840927720069885,
+      "learning_rate": 0.25776812387920456,
+      "loss": 0.695,
+      "num_input_tokens_seen": 9091648,
+      "step": 9795
+    },
+    {
+      "epoch": 4.62046204620462,
+      "grad_norm": 0.01098870299756527,
+      "learning_rate": 0.2577271428617225,
+      "loss": 0.5646,
+      "num_input_tokens_seen": 9095040,
+      "step": 9800
+    },
+    {
+      "epoch": 4.62046204620462,
+      "eval_loss": 0.3885815441608429,
+      "eval_runtime": 33.586,
+      "eval_samples_per_second": 28.077,
+      "eval_steps_per_second": 14.053,
+      "num_input_tokens_seen": 9095040,
+      "step": 9800
+    },
+    {
+      "epoch": 4.622819424799623,
+      "grad_norm": 0.002816637745127082,
+      "learning_rate": 0.25768614523136124,
+      "loss": 0.3551,
+      "num_input_tokens_seen": 9100080,
+      "step": 9805
+    },
+    {
+      "epoch": 4.625176803394625,
+      "grad_norm": 0.00042734629823826253,
+      "learning_rate": 0.25764513099444314,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 9104528,
+      "step": 9810
+    },
+    {
+      "epoch": 4.627534181989628,
+      "grad_norm": 0.00043787434697151184,
+      "learning_rate": 0.25760410015729307,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 9109136,
+      "step": 9815
+    },
+    {
+      "epoch": 4.62989156058463,
+      "grad_norm": 0.0010776373092085123,
+      "learning_rate": 0.2575630527262385,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 9112688,
+      "step": 9820
+    },
+    {
+      "epoch": 4.632248939179632,
+      "grad_norm": 0.0016394727863371372,
+      "learning_rate": 0.25752198870760945,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 9117840,
+      "step": 9825
+    },
+    {
+      "epoch": 4.634606317774635,
+      "grad_norm": 0.0006824668380431831,
+      "learning_rate": 0.2574809081077386,
+      "loss": 0.34,
+      "num_input_tokens_seen": 9122192,
+      "step": 9830
+    },
+    {
+      "epoch": 4.636963696369637,
+      "grad_norm": 0.00044008635450154543,
+      "learning_rate": 0.257439810932961,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 9126048,
+      "step": 9835
+    },
+    {
+      "epoch": 4.63932107496464,
+      "grad_norm": 0.001981504959985614,
+      "learning_rate": 0.2573986971896144,
+      "loss": 0.361,
+      "num_input_tokens_seen": 9129776,
+      "step": 9840
+    },
+    {
+      "epoch": 4.641678453559642,
+      "grad_norm": 0.000603116350248456,
+      "learning_rate": 0.257357566884039,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 9133920,
+      "step": 9845
+    },
+    {
+      "epoch": 4.644035832154644,
+      "grad_norm": 0.017883488908410072,
+      "learning_rate": 0.25731642002257765,
+      "loss": 1.022,
+      "num_input_tokens_seen": 9139312,
+      "step": 9850
+    },
+    {
+      "epoch": 4.646393210749647,
+      "grad_norm": 0.007413922809064388,
+      "learning_rate": 0.25727525661157574,
+      "loss": 0.722,
+      "num_input_tokens_seen": 9143824,
+      "step": 9855
+    },
+    {
+      "epoch": 4.648750589344649,
+      "grad_norm": 0.004623658023774624,
+      "learning_rate": 0.2572340766573811,
+      "loss": 0.418,
+      "num_input_tokens_seen": 9147856,
+      "step": 9860
+    },
+    {
+      "epoch": 4.651107967939651,
+      "grad_norm": 0.003030546475201845,
+      "learning_rate": 0.25719288016634434,
+      "loss": 0.2908,
+      "num_input_tokens_seen": 9152880,
+      "step": 9865
+    },
+    {
+      "epoch": 4.653465346534653,
+      "grad_norm": 0.0038443896919488907,
+      "learning_rate": 0.25715166714481835,
+      "loss": 0.2747,
+      "num_input_tokens_seen": 9157152,
+      "step": 9870
+    },
+    {
+      "epoch": 4.655822725129656,
+      "grad_norm": 0.010788793675601482,
+      "learning_rate": 0.2571104375991587,
+      "loss": 0.3802,
+      "num_input_tokens_seen": 9161360,
+      "step": 9875
+    },
+    {
+      "epoch": 4.658180103724658,
+      "grad_norm": 0.0019849627278745174,
+      "learning_rate": 0.2570691915357236,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 9166240,
+      "step": 9880
+    },
+    {
+      "epoch": 4.66053748231966,
+      "grad_norm": 0.004031269811093807,
+      "learning_rate": 0.2570279289608736,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 9171088,
+      "step": 9885
+    },
+    {
+      "epoch": 4.662894860914663,
+      "grad_norm": 0.0015662299701943994,
+      "learning_rate": 0.256986649880972,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 9175584,
+      "step": 9890
+    },
+    {
+      "epoch": 4.665252239509665,
+      "grad_norm": 0.005899779964238405,
+      "learning_rate": 0.25694535430238447,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 9181600,
+      "step": 9895
+    },
+    {
+      "epoch": 4.667609618104668,
+      "grad_norm": 0.0006850965437479317,
+      "learning_rate": 0.25690404223147933,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 9186976,
+      "step": 9900
+    },
+    {
+      "epoch": 4.66996699669967,
+      "grad_norm": 0.0010931033175438643,
+      "learning_rate": 0.2568627136746275,
+      "loss": 0.3746,
+      "num_input_tokens_seen": 9191568,
+      "step": 9905
+    },
+    {
+      "epoch": 4.672324375294672,
+      "grad_norm": 0.002394832205027342,
+      "learning_rate": 0.25682136863820226,
+      "loss": 0.3676,
+      "num_input_tokens_seen": 9196704,
+      "step": 9910
+    },
+    {
+      "epoch": 4.674681753889675,
+      "grad_norm": 0.0015272678574547172,
+      "learning_rate": 0.25678000712857957,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 9201072,
+      "step": 9915
+    },
+    {
+      "epoch": 4.677039132484677,
+      "grad_norm": 0.0012842013966292143,
+      "learning_rate": 0.2567386291521379,
+      "loss": 0.337,
+      "num_input_tokens_seen": 9205792,
+      "step": 9920
+    },
+    {
+      "epoch": 4.67939651107968,
+      "grad_norm": 0.0009761276305653155,
+      "learning_rate": 0.2566972347152583,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 9211168,
+      "step": 9925
+    },
+    {
+      "epoch": 4.681753889674682,
+      "grad_norm": 0.002545124851167202,
+      "learning_rate": 0.2566558238243242,
+      "loss": 0.3124,
+      "num_input_tokens_seen": 9215856,
+      "step": 9930
+    },
+    {
+      "epoch": 4.684111268269684,
+      "grad_norm": 0.0007414029678329825,
+      "learning_rate": 0.25661439648572176,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 9220528,
+      "step": 9935
+    },
+    {
+      "epoch": 4.686468646864687,
+      "grad_norm": 0.002665545791387558,
+      "learning_rate": 0.25657295270583963,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 9224352,
+      "step": 9940
+    },
+    {
+      "epoch": 4.688826025459689,
+      "grad_norm": 0.0011374447494745255,
+      "learning_rate": 0.25653149249106894,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 9229232,
+      "step": 9945
+    },
+    {
+      "epoch": 4.691183404054691,
+      "grad_norm": 0.0025257428642362356,
+      "learning_rate": 0.25649001584780323,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 9234224,
+      "step": 9950
+    },
+    {
+      "epoch": 4.693540782649693,
+      "grad_norm": 0.0011956357629969716,
+      "learning_rate": 0.2564485227824389,
+      "loss": 0.315,
+      "num_input_tokens_seen": 9238608,
+      "step": 9955
+    },
+    {
+      "epoch": 4.6958981612446955,
+      "grad_norm": 0.0018597760936245322,
+      "learning_rate": 0.25640701330137466,
+      "loss": 0.2939,
+      "num_input_tokens_seen": 9243568,
+      "step": 9960
+    },
+    {
+      "epoch": 4.698255539839698,
+      "grad_norm": 0.00048131414223462343,
+      "learning_rate": 0.2563654874110117,
+      "loss": 0.2589,
+      "num_input_tokens_seen": 9248416,
+      "step": 9965
+    },
+    {
+      "epoch": 4.7006129184347,
+      "grad_norm": 0.0014941993867978454,
+      "learning_rate": 0.256323945117754,
+      "loss": 0.4531,
+      "num_input_tokens_seen": 9254080,
+      "step": 9970
+    },
+    {
+      "epoch": 4.702970297029703,
+      "grad_norm": 0.0036095380783081055,
+      "learning_rate": 0.2562823864280078,
+      "loss": 0.4045,
+      "num_input_tokens_seen": 9258880,
+      "step": 9975
+    },
+    {
+      "epoch": 4.705327675624705,
+      "grad_norm": 0.0012439255369827151,
+      "learning_rate": 0.25624081134818194,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 9263520,
+      "step": 9980
+    },
+    {
+      "epoch": 4.7076850542197075,
+      "grad_norm": 0.00394024234265089,
+      "learning_rate": 0.2561992198846879,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 9268512,
+      "step": 9985
+    },
+    {
+      "epoch": 4.71004243281471,
+      "grad_norm": 0.005859909113496542,
+      "learning_rate": 0.25615761204393955,
+      "loss": 0.3671,
+      "num_input_tokens_seen": 9273296,
+      "step": 9990
+    },
+    {
+      "epoch": 4.712399811409712,
+      "grad_norm": 0.0017313993303105235,
+      "learning_rate": 0.2561159878323534,
+      "loss": 0.3687,
+      "num_input_tokens_seen": 9278816,
+      "step": 9995
+    },
+    {
+      "epoch": 4.714757190004715,
+      "grad_norm": 0.0017405468970537186,
+      "learning_rate": 0.2560743472563483,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 9283072,
+      "step": 10000
+    },
+    {
+      "epoch": 4.714757190004715,
+      "eval_loss": 0.33284080028533936,
+      "eval_runtime": 33.4912,
+      "eval_samples_per_second": 28.157,
+      "eval_steps_per_second": 14.093,
+      "num_input_tokens_seen": 9283072,
+      "step": 10000
+    },
+    {
+      "epoch": 4.717114568599717,
+      "grad_norm": 0.0024055868852883577,
+      "learning_rate": 0.25603269032234593,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 9287104,
+      "step": 10005
+    },
+    {
+      "epoch": 4.7194719471947195,
+      "grad_norm": 0.0003036449779756367,
+      "learning_rate": 0.2559910170367702,
+      "loss": 0.3092,
+      "num_input_tokens_seen": 9291136,
+      "step": 10010
+    },
+    {
+      "epoch": 4.721829325789722,
+      "grad_norm": 0.0007097613997757435,
+      "learning_rate": 0.2559493274060477,
+      "loss": 0.308,
+      "num_input_tokens_seen": 9295552,
+      "step": 10015
+    },
+    {
+      "epoch": 4.724186704384724,
+      "grad_norm": 0.004303968045860529,
+      "learning_rate": 0.2559076214366074,
+      "loss": 0.3932,
+      "num_input_tokens_seen": 9301008,
+      "step": 10020
+    },
+    {
+      "epoch": 4.726544082979727,
+      "grad_norm": 0.0009964548517018557,
+      "learning_rate": 0.25586589913488106,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 9305344,
+      "step": 10025
+    },
+    {
+      "epoch": 4.728901461574729,
+      "grad_norm": 0.0014679157175123692,
+      "learning_rate": 0.2558241605073026,
+      "loss": 0.3746,
+      "num_input_tokens_seen": 9309072,
+      "step": 10030
+    },
+    {
+      "epoch": 4.7312588401697315,
+      "grad_norm": 0.0010441986378282309,
+      "learning_rate": 0.25578240556030873,
+      "loss": 0.3483,
+      "num_input_tokens_seen": 9313728,
+      "step": 10035
+    },
+    {
+      "epoch": 4.733616218764734,
+      "grad_norm": 0.0009679766953922808,
+      "learning_rate": 0.2557406343003386,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 9318480,
+      "step": 10040
+    },
+    {
+      "epoch": 4.735973597359736,
+      "grad_norm": 0.0011997201945632696,
+      "learning_rate": 0.25569884673383375,
+      "loss": 0.3569,
+      "num_input_tokens_seen": 9322880,
+      "step": 10045
+    },
+    {
+      "epoch": 4.738330975954739,
+      "grad_norm": 0.0013783389003947377,
+      "learning_rate": 0.25565704286723856,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 9328016,
+      "step": 10050
+    },
+    {
+      "epoch": 4.740688354549741,
+      "grad_norm": 0.0006557074375450611,
+      "learning_rate": 0.25561522270699955,
+      "loss": 0.341,
+      "num_input_tokens_seen": 9332448,
+      "step": 10055
+    },
+    {
+      "epoch": 4.7430457331447435,
+      "grad_norm": 0.001239510253071785,
+      "learning_rate": 0.25557338625956594,
+      "loss": 0.334,
+      "num_input_tokens_seen": 9336816,
+      "step": 10060
+    },
+    {
+      "epoch": 4.745403111739745,
+      "grad_norm": 0.0004867094103246927,
+      "learning_rate": 0.25553153353138947,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 9340912,
+      "step": 10065
+    },
+    {
+      "epoch": 4.7477604903347475,
+      "grad_norm": 0.0006400637212209404,
+      "learning_rate": 0.2554896645289243,
+      "loss": 0.3001,
+      "num_input_tokens_seen": 9345296,
+      "step": 10070
+    },
+    {
+      "epoch": 4.75011786892975,
+      "grad_norm": 0.001568093430250883,
+      "learning_rate": 0.2554477792586272,
+      "loss": 0.2897,
+      "num_input_tokens_seen": 9349664,
+      "step": 10075
+    },
+    {
+      "epoch": 4.752475247524752,
+      "grad_norm": 0.0027403084095567465,
+      "learning_rate": 0.25540587772695744,
+      "loss": 0.2575,
+      "num_input_tokens_seen": 9355328,
+      "step": 10080
+    },
+    {
+      "epoch": 4.754832626119755,
+      "grad_norm": 0.001792235067114234,
+      "learning_rate": 0.2553639599403767,
+      "loss": 0.4223,
+      "num_input_tokens_seen": 9360320,
+      "step": 10085
+    },
+    {
+      "epoch": 4.757190004714757,
+      "grad_norm": 0.001943246927112341,
+      "learning_rate": 0.2553220259053493,
+      "loss": 0.478,
+      "num_input_tokens_seen": 9365008,
+      "step": 10090
+    },
+    {
+      "epoch": 4.7595473833097595,
+      "grad_norm": 0.0016295064706355333,
+      "learning_rate": 0.2552800756283419,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 9369184,
+      "step": 10095
+    },
+    {
+      "epoch": 4.761904761904762,
+      "grad_norm": 0.0007880468619987369,
+      "learning_rate": 0.25523810911582373,
+      "loss": 0.332,
+      "num_input_tokens_seen": 9373408,
+      "step": 10100
+    },
+    {
+      "epoch": 4.764262140499764,
+      "grad_norm": 0.0008912782650440931,
+      "learning_rate": 0.25519612637426675,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 9377840,
+      "step": 10105
+    },
+    {
+      "epoch": 4.766619519094767,
+      "grad_norm": 0.000907773501239717,
+      "learning_rate": 0.25515412741014504,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 9382224,
+      "step": 10110
+    },
+    {
+      "epoch": 4.768976897689769,
+      "grad_norm": 0.0012007231125608087,
+      "learning_rate": 0.2551121122299355,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 9386960,
+      "step": 10115
+    },
+    {
+      "epoch": 4.7713342762847715,
+      "grad_norm": 0.0005069869803264737,
+      "learning_rate": 0.2550700808401173,
+      "loss": 0.3825,
+      "num_input_tokens_seen": 9391744,
+      "step": 10120
+    },
+    {
+      "epoch": 4.773691654879774,
+      "grad_norm": 0.0007112810271792114,
+      "learning_rate": 0.2550280332471722,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 9396400,
+      "step": 10125
+    },
+    {
+      "epoch": 4.776049033474776,
+      "grad_norm": 0.00147808319889009,
+      "learning_rate": 0.2549859694575845,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 9401264,
+      "step": 10130
+    },
+    {
+      "epoch": 4.778406412069779,
+      "grad_norm": 0.0017192086670547724,
+      "learning_rate": 0.254943889477841,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 9406000,
+      "step": 10135
+    },
+    {
+      "epoch": 4.780763790664781,
+      "grad_norm": 0.000388338667107746,
+      "learning_rate": 0.25490179331443097,
+      "loss": 0.3668,
+      "num_input_tokens_seen": 9411104,
+      "step": 10140
+    },
+    {
+      "epoch": 4.7831211692597835,
+      "grad_norm": 0.0007021071505732834,
+      "learning_rate": 0.25485968097384615,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 9416128,
+      "step": 10145
+    },
+    {
+      "epoch": 4.785478547854785,
+      "grad_norm": 0.0006415203679352999,
+      "learning_rate": 0.25481755246258075,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 9421504,
+      "step": 10150
+    },
+    {
+      "epoch": 4.787835926449787,
+      "grad_norm": 0.00041644813609309494,
+      "learning_rate": 0.2547754077871315,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 9426656,
+      "step": 10155
+    },
+    {
+      "epoch": 4.79019330504479,
+      "grad_norm": 0.0004467297694645822,
+      "learning_rate": 0.25473324695399774,
+      "loss": 0.3069,
+      "num_input_tokens_seen": 9431632,
+      "step": 10160
+    },
+    {
+      "epoch": 4.792550683639792,
+      "grad_norm": 0.00042570361983962357,
+      "learning_rate": 0.25469106996968105,
+      "loss": 0.3516,
+      "num_input_tokens_seen": 9436272,
+      "step": 10165
+    },
+    {
+      "epoch": 4.794908062234795,
+      "grad_norm": 0.007375405170023441,
+      "learning_rate": 0.2546488768406858,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 9440912,
+      "step": 10170
+    },
+    {
+      "epoch": 4.797265440829797,
+      "grad_norm": 0.002759076887741685,
+      "learning_rate": 0.25460666757351863,
+      "loss": 0.365,
+      "num_input_tokens_seen": 9445008,
+      "step": 10175
+    },
+    {
+      "epoch": 4.799622819424799,
+      "grad_norm": 0.0005601966986432672,
+      "learning_rate": 0.25456444217468877,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 9449696,
+      "step": 10180
+    },
+    {
+      "epoch": 4.801980198019802,
+      "grad_norm": 0.0011974896769970655,
+      "learning_rate": 0.25452220065070785,
+      "loss": 0.3718,
+      "num_input_tokens_seen": 9454528,
+      "step": 10185
+    },
+    {
+      "epoch": 4.804337576614804,
+      "grad_norm": 0.0013828607043251395,
+      "learning_rate": 0.2544799430080901,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 9458944,
+      "step": 10190
+    },
+    {
+      "epoch": 4.806694955209807,
+      "grad_norm": 0.0003843173908535391,
+      "learning_rate": 0.2544376692533522,
+      "loss": 0.3632,
+      "num_input_tokens_seen": 9463568,
+      "step": 10195
+    },
+    {
+      "epoch": 4.809052333804809,
+      "grad_norm": 0.0008061569533310831,
+      "learning_rate": 0.2543953793930132,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 9467600,
+      "step": 10200
+    },
+    {
+      "epoch": 4.809052333804809,
+      "eval_loss": 0.3448551595211029,
+      "eval_runtime": 33.4922,
+      "eval_samples_per_second": 28.156,
+      "eval_steps_per_second": 14.093,
+      "num_input_tokens_seen": 9467600,
+      "step": 10200
+    },
+    {
+      "epoch": 4.811409712399811,
+      "grad_norm": 0.0022962477523833513,
+      "learning_rate": 0.2543530734335948,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 9472784,
+      "step": 10205
+    },
+    {
+      "epoch": 4.813767090994814,
+      "grad_norm": 0.0009291485766880214,
+      "learning_rate": 0.2543107513816211,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 9477376,
+      "step": 10210
+    },
+    {
+      "epoch": 4.816124469589816,
+      "grad_norm": 0.0012427836190909147,
+      "learning_rate": 0.25426841324361865,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 9481888,
+      "step": 10215
+    },
+    {
+      "epoch": 4.818481848184819,
+      "grad_norm": 0.0015292648458853364,
+      "learning_rate": 0.2542260590261166,
+      "loss": 0.3698,
+      "num_input_tokens_seen": 9486624,
+      "step": 10220
+    },
+    {
+      "epoch": 4.820839226779821,
+      "grad_norm": 0.0018049516947939992,
+      "learning_rate": 0.2541836887356465,
+      "loss": 0.3902,
+      "num_input_tokens_seen": 9491040,
+      "step": 10225
+    },
+    {
+      "epoch": 4.823196605374823,
+      "grad_norm": 0.0005551694193854928,
+      "learning_rate": 0.2541413023787423,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 9496272,
+      "step": 10230
+    },
+    {
+      "epoch": 4.825553983969826,
+      "grad_norm": 0.7179509401321411,
+      "learning_rate": 0.2540988999619405,
+      "loss": 0.3525,
+      "num_input_tokens_seen": 9500688,
+      "step": 10235
+    },
+    {
+      "epoch": 4.827911362564828,
+      "grad_norm": 0.00275479000993073,
+      "learning_rate": 0.25405648149178023,
+      "loss": 0.9728,
+      "num_input_tokens_seen": 9505616,
+      "step": 10240
+    },
+    {
+      "epoch": 4.830268741159831,
+      "grad_norm": 0.004370320588350296,
+      "learning_rate": 0.2540140469748028,
+      "loss": 0.4431,
+      "num_input_tokens_seen": 9510720,
+      "step": 10245
+    },
+    {
+      "epoch": 4.832626119754833,
+      "grad_norm": 0.0009142222115769982,
+      "learning_rate": 0.25397159641755224,
+      "loss": 0.3555,
+      "num_input_tokens_seen": 9515920,
+      "step": 10250
+    },
+    {
+      "epoch": 4.834983498349835,
+      "grad_norm": 0.001221720245666802,
+      "learning_rate": 0.2539291298265749,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 9520192,
+      "step": 10255
+    },
+    {
+      "epoch": 4.837340876944838,
+      "grad_norm": 0.00043876696145161986,
+      "learning_rate": 0.2538866472084197,
+      "loss": 0.3198,
+      "num_input_tokens_seen": 9524592,
+      "step": 10260
+    },
+    {
+      "epoch": 4.839698255539839,
+      "grad_norm": 0.000534398655872792,
+      "learning_rate": 0.25384414856963794,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 9529120,
+      "step": 10265
+    },
+    {
+      "epoch": 4.842055634134842,
+      "grad_norm": 0.0019507729448378086,
+      "learning_rate": 0.25380163391678356,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 9533584,
+      "step": 10270
+    },
+    {
+      "epoch": 4.844413012729844,
+      "grad_norm": 0.0007449989789165556,
+      "learning_rate": 0.2537591032564127,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 9537984,
+      "step": 10275
+    },
+    {
+      "epoch": 4.8467703913248465,
+      "grad_norm": 0.0024424174334853888,
+      "learning_rate": 0.25371655659508424,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 9542720,
+      "step": 10280
+    },
+    {
+      "epoch": 4.849127769919849,
+      "grad_norm": 0.0008468247251585126,
+      "learning_rate": 0.25367399393935935,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 9546672,
+      "step": 10285
+    },
+    {
+      "epoch": 4.851485148514851,
+      "grad_norm": 0.0007128191064111888,
+      "learning_rate": 0.25363141529580174,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 9551296,
+      "step": 10290
+    },
+    {
+      "epoch": 4.853842527109854,
+      "grad_norm": 0.0007212267955765128,
+      "learning_rate": 0.2535888206709776,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 9555392,
+      "step": 10295
+    },
+    {
+      "epoch": 4.856199905704856,
+      "grad_norm": 0.0006867604679428041,
+      "learning_rate": 0.2535462100714555,
+      "loss": 0.2917,
+      "num_input_tokens_seen": 9560464,
+      "step": 10300
+    },
+    {
+      "epoch": 4.858557284299859,
+      "grad_norm": 0.001001308555714786,
+      "learning_rate": 0.2535035835038066,
+      "loss": 0.3735,
+      "num_input_tokens_seen": 9565344,
+      "step": 10305
+    },
+    {
+      "epoch": 4.860914662894861,
+      "grad_norm": 0.0008386682020500302,
+      "learning_rate": 0.2534609409746044,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 9570160,
+      "step": 10310
+    },
+    {
+      "epoch": 4.863272041489863,
+      "grad_norm": 0.0006588034448213875,
+      "learning_rate": 0.253418282490425,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 9574544,
+      "step": 10315
+    },
+    {
+      "epoch": 4.865629420084866,
+      "grad_norm": 0.000605246692430228,
+      "learning_rate": 0.2533756080578467,
+      "loss": 0.3549,
+      "num_input_tokens_seen": 9579568,
+      "step": 10320
+    },
+    {
+      "epoch": 4.867986798679868,
+      "grad_norm": 0.0018113884143531322,
+      "learning_rate": 0.25333291768345056,
+      "loss": 0.34,
+      "num_input_tokens_seen": 9584256,
+      "step": 10325
+    },
+    {
+      "epoch": 4.870344177274871,
+      "grad_norm": 0.0025619834195822477,
+      "learning_rate": 0.25329021137381996,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 9588480,
+      "step": 10330
+    },
+    {
+      "epoch": 4.872701555869873,
+      "grad_norm": 0.0007250777562148869,
+      "learning_rate": 0.25324748913554074,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 9593920,
+      "step": 10335
+    },
+    {
+      "epoch": 4.875058934464875,
+      "grad_norm": 0.002236074535176158,
+      "learning_rate": 0.2532047509752013,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 9598000,
+      "step": 10340
+    },
+    {
+      "epoch": 4.877416313059878,
+      "grad_norm": 0.0005991614307276905,
+      "learning_rate": 0.25316199689939217,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 9602576,
+      "step": 10345
+    },
+    {
+      "epoch": 4.879773691654879,
+      "grad_norm": 0.0005051397602073848,
+      "learning_rate": 0.2531192269147068,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 9607936,
+      "step": 10350
+    },
+    {
+      "epoch": 4.882131070249882,
+      "grad_norm": 0.0012521680910140276,
+      "learning_rate": 0.2530764410277407,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 9612384,
+      "step": 10355
+    },
+    {
+      "epoch": 4.884488448844884,
+      "grad_norm": 0.0022476159501820803,
+      "learning_rate": 0.25303363924509203,
+      "loss": 0.3609,
+      "num_input_tokens_seen": 9616320,
+      "step": 10360
+    },
+    {
+      "epoch": 4.8868458274398865,
+      "grad_norm": 0.0008893016492947936,
+      "learning_rate": 0.25299082157336145,
+      "loss": 0.333,
+      "num_input_tokens_seen": 9621536,
+      "step": 10365
+    },
+    {
+      "epoch": 4.889203206034889,
+      "grad_norm": 0.0005935034714639187,
+      "learning_rate": 0.2529479880191519,
+      "loss": 0.3441,
+      "num_input_tokens_seen": 9625680,
+      "step": 10370
+    },
+    {
+      "epoch": 4.891560584629891,
+      "grad_norm": 0.0011990034254267812,
+      "learning_rate": 0.2529051385890689,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 9629696,
+      "step": 10375
+    },
+    {
+      "epoch": 4.893917963224894,
+      "grad_norm": 0.0007220468251034617,
+      "learning_rate": 0.2528622732897203,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 9634416,
+      "step": 10380
+    },
+    {
+      "epoch": 4.896275341819896,
+      "grad_norm": 0.0008920222171582282,
+      "learning_rate": 0.25281939212771654,
+      "loss": 0.309,
+      "num_input_tokens_seen": 9638464,
+      "step": 10385
+    },
+    {
+      "epoch": 4.8986327204148985,
+      "grad_norm": 0.0009822912979871035,
+      "learning_rate": 0.2527764951096704,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 9643616,
+      "step": 10390
+    },
+    {
+      "epoch": 4.900990099009901,
+      "grad_norm": 0.0006595543818548322,
+      "learning_rate": 0.2527335822421971,
+      "loss": 0.3809,
+      "num_input_tokens_seen": 9648336,
+      "step": 10395
+    },
+    {
+      "epoch": 4.903347477604903,
+      "grad_norm": 0.003132415469735861,
+      "learning_rate": 0.25269065353191444,
+      "loss": 0.3709,
+      "num_input_tokens_seen": 9653456,
+      "step": 10400
+    },
+    {
+      "epoch": 4.903347477604903,
+      "eval_loss": 0.36762887239456177,
+      "eval_runtime": 33.5525,
+      "eval_samples_per_second": 28.105,
+      "eval_steps_per_second": 14.068,
+      "num_input_tokens_seen": 9653456,
+      "step": 10400
+    },
+    {
+      "epoch": 4.905704856199906,
+      "grad_norm": 0.0029026020783931017,
+      "learning_rate": 0.2526477089854425,
+      "loss": 0.3657,
+      "num_input_tokens_seen": 9658240,
+      "step": 10405
+    },
+    {
+      "epoch": 4.908062234794908,
+      "grad_norm": 0.0014063696144148707,
+      "learning_rate": 0.25260474860940385,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 9663456,
+      "step": 10410
+    },
+    {
+      "epoch": 4.9104196133899105,
+      "grad_norm": 0.000780191330704838,
+      "learning_rate": 0.2525617724104236,
+      "loss": 0.3074,
+      "num_input_tokens_seen": 9668208,
+      "step": 10415
+    },
+    {
+      "epoch": 4.912776991984913,
+      "grad_norm": 0.0008465714054182172,
+      "learning_rate": 0.25251878039512915,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 9672880,
+      "step": 10420
+    },
+    {
+      "epoch": 4.915134370579915,
+      "grad_norm": 0.000525908952113241,
+      "learning_rate": 0.25247577257015047,
+      "loss": 0.2649,
+      "num_input_tokens_seen": 9676800,
+      "step": 10425
+    },
+    {
+      "epoch": 4.917491749174918,
+      "grad_norm": 0.00047583781997673213,
+      "learning_rate": 0.2524327489421198,
+      "loss": 0.4195,
+      "num_input_tokens_seen": 9681888,
+      "step": 10430
+    },
+    {
+      "epoch": 4.91984912776992,
+      "grad_norm": 0.0018774032359942794,
+      "learning_rate": 0.25238970951767203,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 9686064,
+      "step": 10435
+    },
+    {
+      "epoch": 4.9222065063649225,
+      "grad_norm": 0.0010011710692197084,
+      "learning_rate": 0.25234665430344433,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 9690400,
+      "step": 10440
+    },
+    {
+      "epoch": 4.924563884959925,
+      "grad_norm": 0.0010937752667814493,
+      "learning_rate": 0.2523035833060764,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 9694832,
+      "step": 10445
+    },
+    {
+      "epoch": 4.926921263554927,
+      "grad_norm": 0.0019255522638559341,
+      "learning_rate": 0.2522604965322103,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 9699408,
+      "step": 10450
+    },
+    {
+      "epoch": 4.92927864214993,
+      "grad_norm": 0.00041795140714384615,
+      "learning_rate": 0.25221739398849047,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 9703776,
+      "step": 10455
+    },
+    {
+      "epoch": 4.931636020744932,
+      "grad_norm": 0.0008763475925661623,
+      "learning_rate": 0.252174275681564,
+      "loss": 0.3618,
+      "num_input_tokens_seen": 9707616,
+      "step": 10460
+    },
+    {
+      "epoch": 4.933993399339934,
+      "grad_norm": 0.0003805296146310866,
+      "learning_rate": 0.2521311416180802,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 9712560,
+      "step": 10465
+    },
+    {
+      "epoch": 4.936350777934936,
+      "grad_norm": 0.0017949749017134309,
+      "learning_rate": 0.25208799180469094,
+      "loss": 0.3781,
+      "num_input_tokens_seen": 9717280,
+      "step": 10470
+    },
+    {
+      "epoch": 4.938708156529938,
+      "grad_norm": 0.00043274209019728005,
+      "learning_rate": 0.2520448262480504,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 9722064,
+      "step": 10475
+    },
+    {
+      "epoch": 4.941065535124941,
+      "grad_norm": 0.0013404861092567444,
+      "learning_rate": 0.25200164495481525,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 9726896,
+      "step": 10480
+    },
+    {
+      "epoch": 4.943422913719943,
+      "grad_norm": 0.0020321174524724483,
+      "learning_rate": 0.25195844793164474,
+      "loss": 0.337,
+      "num_input_tokens_seen": 9732192,
+      "step": 10485
+    },
+    {
+      "epoch": 4.945780292314946,
+      "grad_norm": 0.0009038250427693129,
+      "learning_rate": 0.2519152351852001,
+      "loss": 0.333,
+      "num_input_tokens_seen": 9737680,
+      "step": 10490
+    },
+    {
+      "epoch": 4.948137670909948,
+      "grad_norm": 0.0006520404713228345,
+      "learning_rate": 0.25187200672214555,
+      "loss": 0.342,
+      "num_input_tokens_seen": 9742896,
+      "step": 10495
+    },
+    {
+      "epoch": 4.9504950495049505,
+      "grad_norm": 0.0005055763176642358,
+      "learning_rate": 0.2518287625491473,
+      "loss": 0.2937,
+      "num_input_tokens_seen": 9748432,
+      "step": 10500
+    },
+    {
+      "epoch": 4.952852428099953,
+      "grad_norm": 0.0010016406886279583,
+      "learning_rate": 0.25178550267287425,
+      "loss": 0.2939,
+      "num_input_tokens_seen": 9752368,
+      "step": 10505
+    },
+    {
+      "epoch": 4.955209806694955,
+      "grad_norm": 0.0011287350207567215,
+      "learning_rate": 0.2517422270999976,
+      "loss": 0.3827,
+      "num_input_tokens_seen": 9757008,
+      "step": 10510
+    },
+    {
+      "epoch": 4.957567185289958,
+      "grad_norm": 0.000255522143561393,
+      "learning_rate": 0.2516989358371909,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 9761488,
+      "step": 10515
+    },
+    {
+      "epoch": 4.95992456388496,
+      "grad_norm": 0.0007977051427587867,
+      "learning_rate": 0.25165562889113025,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 9766944,
+      "step": 10520
+    },
+    {
+      "epoch": 4.9622819424799625,
+      "grad_norm": 0.000774695654399693,
+      "learning_rate": 0.2516123062684942,
+      "loss": 0.344,
+      "num_input_tokens_seen": 9771392,
+      "step": 10525
+    },
+    {
+      "epoch": 4.964639321074965,
+      "grad_norm": 0.0014233218971639872,
+      "learning_rate": 0.25156896797596356,
+      "loss": 0.342,
+      "num_input_tokens_seen": 9775712,
+      "step": 10530
+    },
+    {
+      "epoch": 4.966996699669967,
+      "grad_norm": 0.00045123579911887646,
+      "learning_rate": 0.2515256140202216,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 9780736,
+      "step": 10535
+    },
+    {
+      "epoch": 4.96935407826497,
+      "grad_norm": 0.0004629731411114335,
+      "learning_rate": 0.25148224440795425,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 9784864,
+      "step": 10540
+    },
+    {
+      "epoch": 4.971711456859972,
+      "grad_norm": 0.0006711823516525328,
+      "learning_rate": 0.2514388591458494,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 9789408,
+      "step": 10545
+    },
+    {
+      "epoch": 4.974068835454974,
+      "grad_norm": 0.0007399938767775893,
+      "learning_rate": 0.2513954582405977,
+      "loss": 0.339,
+      "num_input_tokens_seen": 9794304,
+      "step": 10550
+    },
+    {
+      "epoch": 4.976426214049976,
+      "grad_norm": 0.0013062037760391831,
+      "learning_rate": 0.2513520416988922,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 9798496,
+      "step": 10555
+    },
+    {
+      "epoch": 4.978783592644978,
+      "grad_norm": 0.0005581201985478401,
+      "learning_rate": 0.2513086095274281,
+      "loss": 0.3253,
+      "num_input_tokens_seen": 9802976,
+      "step": 10560
+    },
+    {
+      "epoch": 4.981140971239981,
+      "grad_norm": 0.0006422360893338919,
+      "learning_rate": 0.25126516173290336,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 9807824,
+      "step": 10565
+    },
+    {
+      "epoch": 4.983498349834983,
+      "grad_norm": 0.0005790497525595129,
+      "learning_rate": 0.2512216983220181,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 9812400,
+      "step": 10570
+    },
+    {
+      "epoch": 4.985855728429986,
+      "grad_norm": 0.00152349635027349,
+      "learning_rate": 0.25117821930147494,
+      "loss": 0.3026,
+      "num_input_tokens_seen": 9817200,
+      "step": 10575
+    },
+    {
+      "epoch": 4.988213107024988,
+      "grad_norm": 0.0013010367983952165,
+      "learning_rate": 0.2511347246779788,
+      "loss": 0.2506,
+      "num_input_tokens_seen": 9821760,
+      "step": 10580
+    },
+    {
+      "epoch": 4.99057048561999,
+      "grad_norm": 0.002036371501162648,
+      "learning_rate": 0.25109121445823723,
+      "loss": 0.4278,
+      "num_input_tokens_seen": 9827008,
+      "step": 10585
+    },
+    {
+      "epoch": 4.992927864214993,
+      "grad_norm": 0.0008011845638975501,
+      "learning_rate": 0.25104768864896004,
+      "loss": 0.3833,
+      "num_input_tokens_seen": 9831760,
+      "step": 10590
+    },
+    {
+      "epoch": 4.995285242809995,
+      "grad_norm": 0.000988105544820428,
+      "learning_rate": 0.2510041472568594,
+      "loss": 0.2829,
+      "num_input_tokens_seen": 9836048,
+      "step": 10595
+    },
+    {
+      "epoch": 4.997642621404998,
+      "grad_norm": 0.0006431404035538435,
+      "learning_rate": 0.25096059028864987,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 9841232,
+      "step": 10600
+    },
+    {
+      "epoch": 4.997642621404998,
+      "eval_loss": 0.32858341932296753,
+      "eval_runtime": 33.5357,
+      "eval_samples_per_second": 28.119,
+      "eval_steps_per_second": 14.075,
+      "num_input_tokens_seen": 9841232,
+      "step": 10600
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.0005944448057562113,
+      "learning_rate": 0.25091701775104863,
+      "loss": 0.3326,
+      "num_input_tokens_seen": 9845840,
+      "step": 10605
+    },
+    {
+      "epoch": 5.002357378595002,
+      "grad_norm": 0.0007429782999679446,
+      "learning_rate": 0.250873429650775,
+      "loss": 0.3631,
+      "num_input_tokens_seen": 9850768,
+      "step": 10610
+    },
+    {
+      "epoch": 5.004714757190005,
+      "grad_norm": 0.0005985756870359182,
+      "learning_rate": 0.25082982599455095,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 9856032,
+      "step": 10615
+    },
+    {
+      "epoch": 5.007072135785007,
+      "grad_norm": 0.0003772929485421628,
+      "learning_rate": 0.2507862067891006,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 9859968,
+      "step": 10620
+    },
+    {
+      "epoch": 5.00942951438001,
+      "grad_norm": 0.0008000984089449048,
+      "learning_rate": 0.25074257204115064,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 9864464,
+      "step": 10625
+    },
+    {
+      "epoch": 5.011786892975012,
+      "grad_norm": 0.0008330229902639985,
+      "learning_rate": 0.25069892175742997,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 9869216,
+      "step": 10630
+    },
+    {
+      "epoch": 5.014144271570014,
+      "grad_norm": 0.0005487030721269548,
+      "learning_rate": 0.25065525594467014,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 9872896,
+      "step": 10635
+    },
+    {
+      "epoch": 5.016501650165017,
+      "grad_norm": 0.0008317765314131975,
+      "learning_rate": 0.2506115746096049,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 9877072,
+      "step": 10640
+    },
+    {
+      "epoch": 5.018859028760019,
+      "grad_norm": 0.0004154243506491184,
+      "learning_rate": 0.25056787775897055,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 9881440,
+      "step": 10645
+    },
+    {
+      "epoch": 5.021216407355022,
+      "grad_norm": 0.00033240829361602664,
+      "learning_rate": 0.2505241653995056,
+      "loss": 0.279,
+      "num_input_tokens_seen": 9886096,
+      "step": 10650
+    },
+    {
+      "epoch": 5.023573785950024,
+      "grad_norm": 0.00023758862516842782,
+      "learning_rate": 0.25048043753795113,
+      "loss": 0.2741,
+      "num_input_tokens_seen": 9891040,
+      "step": 10655
+    },
+    {
+      "epoch": 5.0259311645450255,
+      "grad_norm": 0.0001975028426386416,
+      "learning_rate": 0.2504366941810504,
+      "loss": 0.2624,
+      "num_input_tokens_seen": 9896608,
+      "step": 10660
+    },
+    {
+      "epoch": 5.028288543140028,
+      "grad_norm": 0.002697537885978818,
+      "learning_rate": 0.2503929353355493,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 9901696,
+      "step": 10665
+    },
+    {
+      "epoch": 5.03064592173503,
+      "grad_norm": 0.0010937789920717478,
+      "learning_rate": 0.250349161008196,
+      "loss": 0.2612,
+      "num_input_tokens_seen": 9905968,
+      "step": 10670
+    },
+    {
+      "epoch": 5.033003300330033,
+      "grad_norm": 0.00045346689876168966,
+      "learning_rate": 0.2503053712057409,
+      "loss": 0.3709,
+      "num_input_tokens_seen": 9910192,
+      "step": 10675
+    },
+    {
+      "epoch": 5.035360678925035,
+      "grad_norm": 0.0016456434968858957,
+      "learning_rate": 0.25026156593493715,
+      "loss": 0.454,
+      "num_input_tokens_seen": 9914768,
+      "step": 10680
+    },
+    {
+      "epoch": 5.0377180575200375,
+      "grad_norm": 0.000871630385518074,
+      "learning_rate": 0.2502177452025399,
+      "loss": 0.3765,
+      "num_input_tokens_seen": 9918912,
+      "step": 10685
+    },
+    {
+      "epoch": 5.04007543611504,
+      "grad_norm": 0.0010539690265432,
+      "learning_rate": 0.25017390901530695,
+      "loss": 0.3467,
+      "num_input_tokens_seen": 9922736,
+      "step": 10690
+    },
+    {
+      "epoch": 5.042432814710042,
+      "grad_norm": 0.0009647106635384262,
+      "learning_rate": 0.2501300573799984,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 9928272,
+      "step": 10695
+    },
+    {
+      "epoch": 5.044790193305045,
+      "grad_norm": 0.0017554768128320575,
+      "learning_rate": 0.2500861903033766,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 9933360,
+      "step": 10700
+    },
+    {
+      "epoch": 5.047147571900047,
+      "grad_norm": 0.002135459566488862,
+      "learning_rate": 0.25004230779220654,
+      "loss": 0.3714,
+      "num_input_tokens_seen": 9937840,
+      "step": 10705
+    },
+    {
+      "epoch": 5.0495049504950495,
+      "grad_norm": 0.0006603477522730827,
+      "learning_rate": 0.24999840985325542,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 9942576,
+      "step": 10710
+    },
+    {
+      "epoch": 5.051862329090052,
+      "grad_norm": 0.0011809624265879393,
+      "learning_rate": 0.24995449649329285,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 9947248,
+      "step": 10715
+    },
+    {
+      "epoch": 5.054219707685054,
+      "grad_norm": 0.000529032782651484,
+      "learning_rate": 0.2499105677190908,
+      "loss": 0.348,
+      "num_input_tokens_seen": 9951872,
+      "step": 10720
+    },
+    {
+      "epoch": 5.056577086280057,
+      "grad_norm": 0.0006561382906511426,
+      "learning_rate": 0.24986662353742364,
+      "loss": 0.3309,
+      "num_input_tokens_seen": 9956400,
+      "step": 10725
+    },
+    {
+      "epoch": 5.058934464875059,
+      "grad_norm": 0.0006413005758076906,
+      "learning_rate": 0.24982266395506814,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 9960624,
+      "step": 10730
+    },
+    {
+      "epoch": 5.061291843470062,
+      "grad_norm": 0.0005109473131597042,
+      "learning_rate": 0.2497786889788034,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 9964480,
+      "step": 10735
+    },
+    {
+      "epoch": 5.063649222065064,
+      "grad_norm": 0.0013366127386689186,
+      "learning_rate": 0.24973469861541095,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 9969232,
+      "step": 10740
+    },
+    {
+      "epoch": 5.066006600660066,
+      "grad_norm": 0.0004344847984611988,
+      "learning_rate": 0.24969069287167456,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 9973776,
+      "step": 10745
+    },
+    {
+      "epoch": 5.068363979255069,
+      "grad_norm": 0.0006500028539448977,
+      "learning_rate": 0.2496466717543806,
+      "loss": 0.2469,
+      "num_input_tokens_seen": 9978576,
+      "step": 10750
+    },
+    {
+      "epoch": 5.07072135785007,
+      "grad_norm": 0.0002755558234639466,
+      "learning_rate": 0.24960263527031762,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 9983200,
+      "step": 10755
+    },
+    {
+      "epoch": 5.073078736445073,
+      "grad_norm": 0.0009169834083877504,
+      "learning_rate": 0.24955858342627657,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 9987872,
+      "step": 10760
+    },
+    {
+      "epoch": 5.075436115040075,
+      "grad_norm": 0.0025735467206686735,
+      "learning_rate": 0.24951451622905083,
+      "loss": 0.398,
+      "num_input_tokens_seen": 9992912,
+      "step": 10765
+    },
+    {
+      "epoch": 5.0777934936350775,
+      "grad_norm": 0.0023942787665873766,
+      "learning_rate": 0.24947043368543612,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 9997552,
+      "step": 10770
+    },
+    {
+      "epoch": 5.08015087223008,
+      "grad_norm": 0.0005189829389564693,
+      "learning_rate": 0.2494263358022305,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 10002224,
+      "step": 10775
+    },
+    {
+      "epoch": 5.082508250825082,
+      "grad_norm": 0.000577873841393739,
+      "learning_rate": 0.24938222258623444,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 10006512,
+      "step": 10780
+    },
+    {
+      "epoch": 5.084865629420085,
+      "grad_norm": 0.00040337751852348447,
+      "learning_rate": 0.24933809404425075,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 10011024,
+      "step": 10785
+    },
+    {
+      "epoch": 5.087223008015087,
+      "grad_norm": 0.0005991364014334977,
+      "learning_rate": 0.24929395018308453,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 10016720,
+      "step": 10790
+    },
+    {
+      "epoch": 5.0895803866100895,
+      "grad_norm": 0.0006190525600686669,
+      "learning_rate": 0.24924979100954348,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 10021072,
+      "step": 10795
+    },
+    {
+      "epoch": 5.091937765205092,
+      "grad_norm": 0.0014858084032312036,
+      "learning_rate": 0.24920561653043735,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 10025504,
+      "step": 10800
+    },
+    {
+      "epoch": 5.091937765205092,
+      "eval_loss": 0.3288898766040802,
+      "eval_runtime": 33.4939,
+      "eval_samples_per_second": 28.154,
+      "eval_steps_per_second": 14.092,
+      "num_input_tokens_seen": 10025504,
+      "step": 10800
+    },
+    {
+      "epoch": 5.094295143800094,
+      "grad_norm": 0.00044330459786579013,
+      "learning_rate": 0.24916142675257846,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 10030256,
+      "step": 10805
+    },
+    {
+      "epoch": 5.096652522395097,
+      "grad_norm": 0.0005260383477434516,
+      "learning_rate": 0.24911722168278144,
+      "loss": 0.3717,
+      "num_input_tokens_seen": 10034864,
+      "step": 10810
+    },
+    {
+      "epoch": 5.099009900990099,
+      "grad_norm": 0.000467849982669577,
+      "learning_rate": 0.24907300132786328,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 10039408,
+      "step": 10815
+    },
+    {
+      "epoch": 5.1013672795851015,
+      "grad_norm": 0.00039526866748929024,
+      "learning_rate": 0.24902876569464322,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 10043856,
+      "step": 10820
+    },
+    {
+      "epoch": 5.103724658180104,
+      "grad_norm": 0.0007405228679999709,
+      "learning_rate": 0.24898451478994305,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 10048976,
+      "step": 10825
+    },
+    {
+      "epoch": 5.106082036775106,
+      "grad_norm": 0.0003242104721721262,
+      "learning_rate": 0.2489402486205868,
+      "loss": 0.3613,
+      "num_input_tokens_seen": 10053712,
+      "step": 10830
+    },
+    {
+      "epoch": 5.108439415370109,
+      "grad_norm": 0.0002199597074650228,
+      "learning_rate": 0.24889596719340085,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 10058928,
+      "step": 10835
+    },
+    {
+      "epoch": 5.110796793965111,
+      "grad_norm": 0.00033886643359437585,
+      "learning_rate": 0.24885167051521392,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 10063024,
+      "step": 10840
+    },
+    {
+      "epoch": 5.1131541725601135,
+      "grad_norm": 0.00043859740253537893,
+      "learning_rate": 0.24880735859285716,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 10067952,
+      "step": 10845
+    },
+    {
+      "epoch": 5.115511551155116,
+      "grad_norm": 0.0005869822925888002,
+      "learning_rate": 0.24876303143316406,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 10072096,
+      "step": 10850
+    },
+    {
+      "epoch": 5.117868929750118,
+      "grad_norm": 0.00047644414007663727,
+      "learning_rate": 0.24871868904297031,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 10076480,
+      "step": 10855
+    },
+    {
+      "epoch": 5.12022630834512,
+      "grad_norm": 0.00029412496951408684,
+      "learning_rate": 0.24867433142911416,
+      "loss": 0.2782,
+      "num_input_tokens_seen": 10081616,
+      "step": 10860
+    },
+    {
+      "epoch": 5.122583686940122,
+      "grad_norm": 0.0016506059328094125,
+      "learning_rate": 0.24862995859843612,
+      "loss": 0.4258,
+      "num_input_tokens_seen": 10086304,
+      "step": 10865
+    },
+    {
+      "epoch": 5.124941065535125,
+      "grad_norm": 0.0005917701637372375,
+      "learning_rate": 0.24858557055777897,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 10090752,
+      "step": 10870
+    },
+    {
+      "epoch": 5.127298444130127,
+      "grad_norm": 0.0012161573395133018,
+      "learning_rate": 0.24854116731398793,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 10095984,
+      "step": 10875
+    },
+    {
+      "epoch": 5.129655822725129,
+      "grad_norm": 0.0004819358582608402,
+      "learning_rate": 0.24849674887391052,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 10100720,
+      "step": 10880
+    },
+    {
+      "epoch": 5.132013201320132,
+      "grad_norm": 0.0005632298998534679,
+      "learning_rate": 0.2484523152443967,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 10105504,
+      "step": 10885
+    },
+    {
+      "epoch": 5.134370579915134,
+      "grad_norm": 0.00048667259397916496,
+      "learning_rate": 0.24840786643229862,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 10110720,
+      "step": 10890
+    },
+    {
+      "epoch": 5.136727958510137,
+      "grad_norm": 0.0006820143316872418,
+      "learning_rate": 0.2483634024444709,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 10114768,
+      "step": 10895
+    },
+    {
+      "epoch": 5.139085337105139,
+      "grad_norm": 0.0006695318152196705,
+      "learning_rate": 0.24831892328777033,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 10119616,
+      "step": 10900
+    },
+    {
+      "epoch": 5.141442715700141,
+      "grad_norm": 0.0005395420012064278,
+      "learning_rate": 0.2482744289690563,
+      "loss": 0.3728,
+      "num_input_tokens_seen": 10125632,
+      "step": 10905
+    },
+    {
+      "epoch": 5.143800094295144,
+      "grad_norm": 0.0007964163669385016,
+      "learning_rate": 0.2482299194951903,
+      "loss": 0.3615,
+      "num_input_tokens_seen": 10130320,
+      "step": 10910
+    },
+    {
+      "epoch": 5.146157472890146,
+      "grad_norm": 0.0016470735426992178,
+      "learning_rate": 0.2481853948730363,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 10136688,
+      "step": 10915
+    },
+    {
+      "epoch": 5.148514851485149,
+      "grad_norm": 0.0017926356522366405,
+      "learning_rate": 0.24814085510946052,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 10140512,
+      "step": 10920
+    },
+    {
+      "epoch": 5.150872230080151,
+      "grad_norm": 0.0005283222417347133,
+      "learning_rate": 0.24809630021133158,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 10145840,
+      "step": 10925
+    },
+    {
+      "epoch": 5.1532296086751535,
+      "grad_norm": 0.00031139643397182226,
+      "learning_rate": 0.24805173018552037,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 10150240,
+      "step": 10930
+    },
+    {
+      "epoch": 5.155586987270156,
+      "grad_norm": 0.0020379109773784876,
+      "learning_rate": 0.2480071450389002,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 10154816,
+      "step": 10935
+    },
+    {
+      "epoch": 5.157944365865158,
+      "grad_norm": 0.00036782442475669086,
+      "learning_rate": 0.24796254477834662,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 10158752,
+      "step": 10940
+    },
+    {
+      "epoch": 5.160301744460161,
+      "grad_norm": 0.0011303339852020144,
+      "learning_rate": 0.24791792941073754,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 10163504,
+      "step": 10945
+    },
+    {
+      "epoch": 5.162659123055163,
+      "grad_norm": 0.00032091542379930615,
+      "learning_rate": 0.2478732989429533,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 10168352,
+      "step": 10950
+    },
+    {
+      "epoch": 5.165016501650165,
+      "grad_norm": 0.0010775316040962934,
+      "learning_rate": 0.24782865338187632,
+      "loss": 0.33,
+      "num_input_tokens_seen": 10173024,
+      "step": 10955
+    },
+    {
+      "epoch": 5.167373880245167,
+      "grad_norm": 0.0006534196436405182,
+      "learning_rate": 0.2477839927343916,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 10177424,
+      "step": 10960
+    },
+    {
+      "epoch": 5.169731258840169,
+      "grad_norm": 0.0013326797634363174,
+      "learning_rate": 0.2477393170073864,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 10182032,
+      "step": 10965
+    },
+    {
+      "epoch": 5.172088637435172,
+      "grad_norm": 0.0007108754944056273,
+      "learning_rate": 0.2476946262077503,
+      "loss": 0.2623,
+      "num_input_tokens_seen": 10187232,
+      "step": 10970
+    },
+    {
+      "epoch": 5.174446016030174,
+      "grad_norm": 0.000916516815777868,
+      "learning_rate": 0.24764992034237507,
+      "loss": 0.2863,
+      "num_input_tokens_seen": 10191808,
+      "step": 10975
+    },
+    {
+      "epoch": 5.176803394625177,
+      "grad_norm": 0.0007364319753833115,
+      "learning_rate": 0.24760519941815498,
+      "loss": 0.2454,
+      "num_input_tokens_seen": 10196672,
+      "step": 10980
+    },
+    {
+      "epoch": 5.179160773220179,
+      "grad_norm": 0.0002875084464903921,
+      "learning_rate": 0.2475604634419866,
+      "loss": 0.4884,
+      "num_input_tokens_seen": 10202288,
+      "step": 10985
+    },
+    {
+      "epoch": 5.181518151815181,
+      "grad_norm": 0.0008813281892798841,
+      "learning_rate": 0.24751571242076872,
+      "loss": 0.3322,
+      "num_input_tokens_seen": 10206624,
+      "step": 10990
+    },
+    {
+      "epoch": 5.183875530410184,
+      "grad_norm": 0.0010967777343466878,
+      "learning_rate": 0.2474709463614025,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 10212144,
+      "step": 10995
+    },
+    {
+      "epoch": 5.186232909005186,
+      "grad_norm": 0.000523475231602788,
+      "learning_rate": 0.24742616527079145,
+      "loss": 0.3695,
+      "num_input_tokens_seen": 10216464,
+      "step": 11000
+    },
+    {
+      "epoch": 5.186232909005186,
+      "eval_loss": 0.32843348383903503,
+      "eval_runtime": 33.5312,
+      "eval_samples_per_second": 28.123,
+      "eval_steps_per_second": 14.076,
+      "num_input_tokens_seen": 10216464,
+      "step": 11000
+    },
+    {
+      "epoch": 5.188590287600189,
+      "grad_norm": 0.0007981873932294548,
+      "learning_rate": 0.24738136915584139,
+      "loss": 0.3158,
+      "num_input_tokens_seen": 10220960,
+      "step": 11005
+    },
+    {
+      "epoch": 5.190947666195191,
+      "grad_norm": 0.0018400769913569093,
+      "learning_rate": 0.24733655802346047,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 10225280,
+      "step": 11010
+    },
+    {
+      "epoch": 5.193305044790193,
+      "grad_norm": 0.0006049969233572483,
+      "learning_rate": 0.24729173188055906,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 10230800,
+      "step": 11015
+    },
+    {
+      "epoch": 5.195662423385196,
+      "grad_norm": 0.0004104449471924454,
+      "learning_rate": 0.24724689073404996,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 10235184,
+      "step": 11020
+    },
+    {
+      "epoch": 5.198019801980198,
+      "grad_norm": 0.0011117374524474144,
+      "learning_rate": 0.24720203459084822,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 10240480,
+      "step": 11025
+    },
+    {
+      "epoch": 5.200377180575201,
+      "grad_norm": 0.0007307687192223966,
+      "learning_rate": 0.24715716345787123,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 10245008,
+      "step": 11030
+    },
+    {
+      "epoch": 5.202734559170203,
+      "grad_norm": 0.0006223051459528506,
+      "learning_rate": 0.2471122773420387,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 10250112,
+      "step": 11035
+    },
+    {
+      "epoch": 5.205091937765205,
+      "grad_norm": 0.00039659635513089597,
+      "learning_rate": 0.24706737625027259,
+      "loss": 0.3908,
+      "num_input_tokens_seen": 10255200,
+      "step": 11040
+    },
+    {
+      "epoch": 5.207449316360208,
+      "grad_norm": 0.0005347306141629815,
+      "learning_rate": 0.24702246018949725,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 10260240,
+      "step": 11045
+    },
+    {
+      "epoch": 5.20980669495521,
+      "grad_norm": 0.0007240764098241925,
+      "learning_rate": 0.2469775291666393,
+      "loss": 0.3416,
+      "num_input_tokens_seen": 10265056,
+      "step": 11050
+    },
+    {
+      "epoch": 5.212164073550213,
+      "grad_norm": 0.0010943878442049026,
+      "learning_rate": 0.24693258318862765,
+      "loss": 0.35,
+      "num_input_tokens_seen": 10270336,
+      "step": 11055
+    },
+    {
+      "epoch": 5.214521452145214,
+      "grad_norm": 0.0005721028428524733,
+      "learning_rate": 0.2468876222623935,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 10275264,
+      "step": 11060
+    },
+    {
+      "epoch": 5.2168788307402165,
+      "grad_norm": 0.00043536341399885714,
+      "learning_rate": 0.2468426463948705,
+      "loss": 0.3065,
+      "num_input_tokens_seen": 10280048,
+      "step": 11065
+    },
+    {
+      "epoch": 5.219236209335219,
+      "grad_norm": 0.00043768854811787605,
+      "learning_rate": 0.24679765559299438,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 10285648,
+      "step": 11070
+    },
+    {
+      "epoch": 5.221593587930221,
+      "grad_norm": 0.0004551738384179771,
+      "learning_rate": 0.24675264986370332,
+      "loss": 0.2956,
+      "num_input_tokens_seen": 10289472,
+      "step": 11075
+    },
+    {
+      "epoch": 5.223950966525224,
+      "grad_norm": 0.0014811139553785324,
+      "learning_rate": 0.2467076292139378,
+      "loss": 0.3849,
+      "num_input_tokens_seen": 10293136,
+      "step": 11080
+    },
+    {
+      "epoch": 5.226308345120226,
+      "grad_norm": 0.0003165977250318974,
+      "learning_rate": 0.24666259365064055,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 10297072,
+      "step": 11085
+    },
+    {
+      "epoch": 5.2286657237152285,
+      "grad_norm": 0.00044064305257052183,
+      "learning_rate": 0.24661754318075663,
+      "loss": 0.3566,
+      "num_input_tokens_seen": 10301424,
+      "step": 11090
+    },
+    {
+      "epoch": 5.231023102310231,
+      "grad_norm": 0.0004753790271934122,
+      "learning_rate": 0.2465724778112334,
+      "loss": 0.3814,
+      "num_input_tokens_seen": 10306352,
+      "step": 11095
+    },
+    {
+      "epoch": 5.233380480905233,
+      "grad_norm": 0.0006407942855730653,
+      "learning_rate": 0.24652739754902042,
+      "loss": 0.3483,
+      "num_input_tokens_seen": 10310448,
+      "step": 11100
+    },
+    {
+      "epoch": 5.235737859500236,
+      "grad_norm": 0.0006816030945628881,
+      "learning_rate": 0.24648230240106975,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 10315632,
+      "step": 11105
+    },
+    {
+      "epoch": 5.238095238095238,
+      "grad_norm": 0.0006364447181113064,
+      "learning_rate": 0.2464371923743356,
+      "loss": 0.3535,
+      "num_input_tokens_seen": 10320960,
+      "step": 11110
+    },
+    {
+      "epoch": 5.2404526166902405,
+      "grad_norm": 0.00044909847201779485,
+      "learning_rate": 0.24639206747577444,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 10325952,
+      "step": 11115
+    },
+    {
+      "epoch": 5.242809995285243,
+      "grad_norm": 0.000590323586948216,
+      "learning_rate": 0.24634692771234515,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 10330032,
+      "step": 11120
+    },
+    {
+      "epoch": 5.245167373880245,
+      "grad_norm": 0.0005713711143471301,
+      "learning_rate": 0.2463017730910088,
+      "loss": 0.3088,
+      "num_input_tokens_seen": 10334480,
+      "step": 11125
+    },
+    {
+      "epoch": 5.247524752475248,
+      "grad_norm": 0.0013821994652971625,
+      "learning_rate": 0.2462566036187289,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 10339712,
+      "step": 11130
+    },
+    {
+      "epoch": 5.24988213107025,
+      "grad_norm": 0.0016004351200535893,
+      "learning_rate": 0.24621141930247106,
+      "loss": 0.4144,
+      "num_input_tokens_seen": 10343280,
+      "step": 11135
+    },
+    {
+      "epoch": 5.2522395096652525,
+      "grad_norm": 0.0002898577367886901,
+      "learning_rate": 0.2461662201492033,
+      "loss": 0.29,
+      "num_input_tokens_seen": 10348432,
+      "step": 11140
+    },
+    {
+      "epoch": 5.254596888260255,
+      "grad_norm": 0.0015043336898088455,
+      "learning_rate": 0.24612100616589586,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 10352960,
+      "step": 11145
+    },
+    {
+      "epoch": 5.256954266855257,
+      "grad_norm": 0.0008213009568862617,
+      "learning_rate": 0.24607577735952135,
+      "loss": 0.2331,
+      "num_input_tokens_seen": 10358144,
+      "step": 11150
+    },
+    {
+      "epoch": 5.259311645450259,
+      "grad_norm": 0.0016369845252484083,
+      "learning_rate": 0.24603053373705464,
+      "loss": 0.3441,
+      "num_input_tokens_seen": 10363584,
+      "step": 11155
+    },
+    {
+      "epoch": 5.261669024045261,
+      "grad_norm": 0.001093144528567791,
+      "learning_rate": 0.2459852753054728,
+      "loss": 0.3709,
+      "num_input_tokens_seen": 10367984,
+      "step": 11160
+    },
+    {
+      "epoch": 5.264026402640264,
+      "grad_norm": 0.0008035365608520806,
+      "learning_rate": 0.24594000207175526,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 10372448,
+      "step": 11165
+    },
+    {
+      "epoch": 5.266383781235266,
+      "grad_norm": 0.004796037916094065,
+      "learning_rate": 0.2458947140428838,
+      "loss": 0.3797,
+      "num_input_tokens_seen": 10377776,
+      "step": 11170
+    },
+    {
+      "epoch": 5.2687411598302685,
+      "grad_norm": 0.0008701359620317817,
+      "learning_rate": 0.24584941122584233,
+      "loss": 0.3484,
+      "num_input_tokens_seen": 10381456,
+      "step": 11175
+    },
+    {
+      "epoch": 5.271098538425271,
+      "grad_norm": 0.0009949230588972569,
+      "learning_rate": 0.24580409362761713,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 10386064,
+      "step": 11180
+    },
+    {
+      "epoch": 5.273455917020273,
+      "grad_norm": 0.0003823669394478202,
+      "learning_rate": 0.2457587612551967,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 10390544,
+      "step": 11185
+    },
+    {
+      "epoch": 5.275813295615276,
+      "grad_norm": 0.00034964754013344646,
+      "learning_rate": 0.24571341411557193,
+      "loss": 0.2898,
+      "num_input_tokens_seen": 10394624,
+      "step": 11190
+    },
+    {
+      "epoch": 5.278170674210278,
+      "grad_norm": 0.0004958237404935062,
+      "learning_rate": 0.2456680522157359,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 10398240,
+      "step": 11195
+    },
+    {
+      "epoch": 5.2805280528052805,
+      "grad_norm": 0.0008305487572215497,
+      "learning_rate": 0.245622675562684,
+      "loss": 0.2978,
+      "num_input_tokens_seen": 10402448,
+      "step": 11200
+    },
+    {
+      "epoch": 5.2805280528052805,
+      "eval_loss": 0.32912778854370117,
+      "eval_runtime": 33.5991,
+      "eval_samples_per_second": 28.066,
+      "eval_steps_per_second": 14.048,
+      "num_input_tokens_seen": 10402448,
+      "step": 11200
+    },
+    {
+      "epoch": 5.282885431400283,
+      "grad_norm": 0.0007020797929726541,
+      "learning_rate": 0.24557728416341384,
+      "loss": 0.312,
+      "num_input_tokens_seen": 10406480,
+      "step": 11205
+    },
+    {
+      "epoch": 5.285242809995285,
+      "grad_norm": 0.0009618668118491769,
+      "learning_rate": 0.24553187802492538,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 10411456,
+      "step": 11210
+    },
+    {
+      "epoch": 5.287600188590288,
+      "grad_norm": 0.00027056640828959644,
+      "learning_rate": 0.24548645715422074,
+      "loss": 0.2902,
+      "num_input_tokens_seen": 10416032,
+      "step": 11215
+    },
+    {
+      "epoch": 5.28995756718529,
+      "grad_norm": 0.0010010505793616176,
+      "learning_rate": 0.2454410215583045,
+      "loss": 0.2852,
+      "num_input_tokens_seen": 10421184,
+      "step": 11220
+    },
+    {
+      "epoch": 5.2923149457802925,
+      "grad_norm": 0.0002509520563762635,
+      "learning_rate": 0.24539557124418332,
+      "loss": 0.3635,
+      "num_input_tokens_seen": 10425616,
+      "step": 11225
+    },
+    {
+      "epoch": 5.294672324375295,
+      "grad_norm": 0.0022727043833583593,
+      "learning_rate": 0.24535010621886624,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 10430160,
+      "step": 11230
+    },
+    {
+      "epoch": 5.297029702970297,
+      "grad_norm": 0.0007032140856608748,
+      "learning_rate": 0.2453046264893646,
+      "loss": 0.3975,
+      "num_input_tokens_seen": 10435008,
+      "step": 11235
+    },
+    {
+      "epoch": 5.2993870815653,
+      "grad_norm": 0.00039136226405389607,
+      "learning_rate": 0.24525913206269184,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 10440832,
+      "step": 11240
+    },
+    {
+      "epoch": 5.301744460160302,
+      "grad_norm": 0.0004476082103792578,
+      "learning_rate": 0.2452136229458638,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 10445072,
+      "step": 11245
+    },
+    {
+      "epoch": 5.3041018387553045,
+      "grad_norm": 0.0003812513896264136,
+      "learning_rate": 0.24516809914589857,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 10450432,
+      "step": 11250
+    },
+    {
+      "epoch": 5.306459217350307,
+      "grad_norm": 0.0005816451157443225,
+      "learning_rate": 0.2451225606698165,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 10454944,
+      "step": 11255
+    },
+    {
+      "epoch": 5.308816595945308,
+      "grad_norm": 0.0012195162707939744,
+      "learning_rate": 0.2450770075246402,
+      "loss": 0.3089,
+      "num_input_tokens_seen": 10459104,
+      "step": 11260
+    },
+    {
+      "epoch": 5.311173974540311,
+      "grad_norm": 0.0005487438174895942,
+      "learning_rate": 0.24503143971739455,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 10463664,
+      "step": 11265
+    },
+    {
+      "epoch": 5.313531353135313,
+      "grad_norm": 0.0003319570969324559,
+      "learning_rate": 0.24498585725510663,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 10468096,
+      "step": 11270
+    },
+    {
+      "epoch": 5.315888731730316,
+      "grad_norm": 0.0004686576430685818,
+      "learning_rate": 0.24494026014480583,
+      "loss": 0.313,
+      "num_input_tokens_seen": 10473200,
+      "step": 11275
+    },
+    {
+      "epoch": 5.318246110325318,
+      "grad_norm": 0.00032626237953081727,
+      "learning_rate": 0.24489464839352387,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 10477216,
+      "step": 11280
+    },
+    {
+      "epoch": 5.32060348892032,
+      "grad_norm": 0.00034098795731551945,
+      "learning_rate": 0.2448490220082946,
+      "loss": 0.3684,
+      "num_input_tokens_seen": 10480784,
+      "step": 11285
+    },
+    {
+      "epoch": 5.322960867515323,
+      "grad_norm": 0.0006458506104536355,
+      "learning_rate": 0.24480338099615415,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 10485136,
+      "step": 11290
+    },
+    {
+      "epoch": 5.325318246110325,
+      "grad_norm": 0.00058682297822088,
+      "learning_rate": 0.244757725364141,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 10489920,
+      "step": 11295
+    },
+    {
+      "epoch": 5.327675624705328,
+      "grad_norm": 0.000401198398321867,
+      "learning_rate": 0.24471205511929583,
+      "loss": 0.4505,
+      "num_input_tokens_seen": 10494384,
+      "step": 11300
+    },
+    {
+      "epoch": 5.33003300330033,
+      "grad_norm": 0.0003434871032368392,
+      "learning_rate": 0.24466637026866145,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 10499760,
+      "step": 11305
+    },
+    {
+      "epoch": 5.332390381895332,
+      "grad_norm": 0.0004930989816784859,
+      "learning_rate": 0.2446206708192832,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 10504576,
+      "step": 11310
+    },
+    {
+      "epoch": 5.334747760490335,
+      "grad_norm": 0.0009388260659761727,
+      "learning_rate": 0.2445749567782084,
+      "loss": 0.3232,
+      "num_input_tokens_seen": 10509856,
+      "step": 11315
+    },
+    {
+      "epoch": 5.337105139085337,
+      "grad_norm": 0.0005355638568289578,
+      "learning_rate": 0.2445292281524868,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 10514224,
+      "step": 11320
+    },
+    {
+      "epoch": 5.33946251768034,
+      "grad_norm": 0.0008782597724348307,
+      "learning_rate": 0.24448348494917022,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 10518880,
+      "step": 11325
+    },
+    {
+      "epoch": 5.341819896275342,
+      "grad_norm": 0.0008905423455871642,
+      "learning_rate": 0.24443772717531295,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 10524208,
+      "step": 11330
+    },
+    {
+      "epoch": 5.344177274870344,
+      "grad_norm": 0.0011229010997340083,
+      "learning_rate": 0.24439195483797138,
+      "loss": 0.354,
+      "num_input_tokens_seen": 10529408,
+      "step": 11335
+    },
+    {
+      "epoch": 5.346534653465347,
+      "grad_norm": 0.0004837902379222214,
+      "learning_rate": 0.24434616794420416,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 10533472,
+      "step": 11340
+    },
+    {
+      "epoch": 5.348892032060349,
+      "grad_norm": 0.0008261030889116228,
+      "learning_rate": 0.24430036650107223,
+      "loss": 0.3436,
+      "num_input_tokens_seen": 10537600,
+      "step": 11345
+    },
+    {
+      "epoch": 5.351249410655352,
+      "grad_norm": 0.0005241598701104522,
+      "learning_rate": 0.2442545505156387,
+      "loss": 0.3023,
+      "num_input_tokens_seen": 10541456,
+      "step": 11350
+    },
+    {
+      "epoch": 5.353606789250353,
+      "grad_norm": 0.00041222042636945844,
+      "learning_rate": 0.24420871999496904,
+      "loss": 0.3711,
+      "num_input_tokens_seen": 10546000,
+      "step": 11355
+    },
+    {
+      "epoch": 5.355964167845356,
+      "grad_norm": 0.0013835224090144038,
+      "learning_rate": 0.24416287494613084,
+      "loss": 0.348,
+      "num_input_tokens_seen": 10551648,
+      "step": 11360
+    },
+    {
+      "epoch": 5.358321546440358,
+      "grad_norm": 0.0006141792400740087,
+      "learning_rate": 0.24411701537619399,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 10555696,
+      "step": 11365
+    },
+    {
+      "epoch": 5.36067892503536,
+      "grad_norm": 0.0003957892186008394,
+      "learning_rate": 0.24407114129223062,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 10559168,
+      "step": 11370
+    },
+    {
+      "epoch": 5.363036303630363,
+      "grad_norm": 0.0003602005890570581,
+      "learning_rate": 0.2440252527013151,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 10564496,
+      "step": 11375
+    },
+    {
+      "epoch": 5.365393682225365,
+      "grad_norm": 0.0009202784858644009,
+      "learning_rate": 0.24397934961052403,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 10568496,
+      "step": 11380
+    },
+    {
+      "epoch": 5.367751060820368,
+      "grad_norm": 0.0004199508694000542,
+      "learning_rate": 0.24393343202693618,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 10572912,
+      "step": 11385
+    },
+    {
+      "epoch": 5.37010843941537,
+      "grad_norm": 0.0004030940472148359,
+      "learning_rate": 0.2438874999576327,
+      "loss": 0.2799,
+      "num_input_tokens_seen": 10577792,
+      "step": 11390
+    },
+    {
+      "epoch": 5.372465818010372,
+      "grad_norm": 0.0007337034330703318,
+      "learning_rate": 0.24384155340969688,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 10582384,
+      "step": 11395
+    },
+    {
+      "epoch": 5.374823196605375,
+      "grad_norm": 0.0004706893814727664,
+      "learning_rate": 0.24379559239021423,
+      "loss": 0.2926,
+      "num_input_tokens_seen": 10586976,
+      "step": 11400
+    },
+    {
+      "epoch": 5.374823196605375,
+      "eval_loss": 0.33124813437461853,
+      "eval_runtime": 33.5903,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 10586976,
+      "step": 11400
+    },
+    {
+      "epoch": 5.377180575200377,
+      "grad_norm": 0.0006982135819271207,
+      "learning_rate": 0.2437496169062725,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 10592288,
+      "step": 11405
+    },
+    {
+      "epoch": 5.37953795379538,
+      "grad_norm": 0.001163751119747758,
+      "learning_rate": 0.24370362696496176,
+      "loss": 0.3731,
+      "num_input_tokens_seen": 10596544,
+      "step": 11410
+    },
+    {
+      "epoch": 5.381895332390382,
+      "grad_norm": 0.0007147836149670184,
+      "learning_rate": 0.24365762257337417,
+      "loss": 0.351,
+      "num_input_tokens_seen": 10602128,
+      "step": 11415
+    },
+    {
+      "epoch": 5.384252710985384,
+      "grad_norm": 0.0006231500301510096,
+      "learning_rate": 0.2436116037386042,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 10606128,
+      "step": 11420
+    },
+    {
+      "epoch": 5.386610089580387,
+      "grad_norm": 0.00039655566797591746,
+      "learning_rate": 0.24356557046774852,
+      "loss": 0.3509,
+      "num_input_tokens_seen": 10609744,
+      "step": 11425
+    },
+    {
+      "epoch": 5.388967468175389,
+      "grad_norm": 0.0005398768116720021,
+      "learning_rate": 0.24351952276790606,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 10613936,
+      "step": 11430
+    },
+    {
+      "epoch": 5.391324846770392,
+      "grad_norm": 0.0011166303884238005,
+      "learning_rate": 0.24347346064617797,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 10618320,
+      "step": 11435
+    },
+    {
+      "epoch": 5.393682225365394,
+      "grad_norm": 0.00037214189069345593,
+      "learning_rate": 0.24342738410966758,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 10623344,
+      "step": 11440
+    },
+    {
+      "epoch": 5.396039603960396,
+      "grad_norm": 0.0004014658334199339,
+      "learning_rate": 0.24338129316548046,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 10628464,
+      "step": 11445
+    },
+    {
+      "epoch": 5.398396982555399,
+      "grad_norm": 0.00035185733577236533,
+      "learning_rate": 0.24333518782072444,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 10632000,
+      "step": 11450
+    },
+    {
+      "epoch": 5.400754361150401,
+      "grad_norm": 0.0011172652011737227,
+      "learning_rate": 0.24328906808250952,
+      "loss": 0.3605,
+      "num_input_tokens_seen": 10636032,
+      "step": 11455
+    },
+    {
+      "epoch": 5.403111739745403,
+      "grad_norm": 0.000420644209953025,
+      "learning_rate": 0.243242933957948,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 10640672,
+      "step": 11460
+    },
+    {
+      "epoch": 5.405469118340405,
+      "grad_norm": 0.0006422307342290878,
+      "learning_rate": 0.24319678545415427,
+      "loss": 0.3583,
+      "num_input_tokens_seen": 10644976,
+      "step": 11465
+    },
+    {
+      "epoch": 5.4078264969354075,
+      "grad_norm": 0.0010356593411415815,
+      "learning_rate": 0.24315062257824507,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 10649536,
+      "step": 11470
+    },
+    {
+      "epoch": 5.41018387553041,
+      "grad_norm": 0.00031018309528008103,
+      "learning_rate": 0.24310444533733921,
+      "loss": 0.2954,
+      "num_input_tokens_seen": 10653968,
+      "step": 11475
+    },
+    {
+      "epoch": 5.412541254125412,
+      "grad_norm": 0.001006918610073626,
+      "learning_rate": 0.2430582537385579,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 10658800,
+      "step": 11480
+    },
+    {
+      "epoch": 5.414898632720415,
+      "grad_norm": 0.0009990198304876685,
+      "learning_rate": 0.2430120477890244,
+      "loss": 0.2076,
+      "num_input_tokens_seen": 10663392,
+      "step": 11485
+    },
+    {
+      "epoch": 5.417256011315417,
+      "grad_norm": 0.000580598774831742,
+      "learning_rate": 0.24296582749586426,
+      "loss": 0.326,
+      "num_input_tokens_seen": 10668432,
+      "step": 11490
+    },
+    {
+      "epoch": 5.4196133899104195,
+      "grad_norm": 0.0006501743337139487,
+      "learning_rate": 0.24291959286620526,
+      "loss": 0.2857,
+      "num_input_tokens_seen": 10672528,
+      "step": 11495
+    },
+    {
+      "epoch": 5.421970768505422,
+      "grad_norm": 0.0003926873323507607,
+      "learning_rate": 0.24287334390717738,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 10677088,
+      "step": 11500
+    },
+    {
+      "epoch": 5.424328147100424,
+      "grad_norm": 0.0006408690242096782,
+      "learning_rate": 0.24282708062591268,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 10682192,
+      "step": 11505
+    },
+    {
+      "epoch": 5.426685525695427,
+      "grad_norm": 0.0005585057660937309,
+      "learning_rate": 0.24278080302954563,
+      "loss": 0.3061,
+      "num_input_tokens_seen": 10686624,
+      "step": 11510
+    },
+    {
+      "epoch": 5.429042904290429,
+      "grad_norm": 0.0002067502064164728,
+      "learning_rate": 0.24273451112521283,
+      "loss": 0.279,
+      "num_input_tokens_seen": 10691424,
+      "step": 11515
+    },
+    {
+      "epoch": 5.4314002828854315,
+      "grad_norm": 0.0005178030114620924,
+      "learning_rate": 0.242688204920053,
+      "loss": 0.3986,
+      "num_input_tokens_seen": 10695712,
+      "step": 11520
+    },
+    {
+      "epoch": 5.433757661480434,
+      "grad_norm": 0.00021557483705691993,
+      "learning_rate": 0.24264188442120715,
+      "loss": 0.3467,
+      "num_input_tokens_seen": 10700256,
+      "step": 11525
+    },
+    {
+      "epoch": 5.436115040075436,
+      "grad_norm": 0.0005207160138525069,
+      "learning_rate": 0.24259554963581853,
+      "loss": 0.2764,
+      "num_input_tokens_seen": 10705040,
+      "step": 11530
+    },
+    {
+      "epoch": 5.438472418670439,
+      "grad_norm": 0.0015020329738035798,
+      "learning_rate": 0.24254920057103257,
+      "loss": 0.2898,
+      "num_input_tokens_seen": 10710208,
+      "step": 11535
+    },
+    {
+      "epoch": 5.440829797265441,
+      "grad_norm": 0.000427618739195168,
+      "learning_rate": 0.24250283723399685,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 10715152,
+      "step": 11540
+    },
+    {
+      "epoch": 5.4431871758604435,
+      "grad_norm": 0.0005866954452358186,
+      "learning_rate": 0.24245645963186108,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 10720048,
+      "step": 11545
+    },
+    {
+      "epoch": 5.445544554455446,
+      "grad_norm": 0.0007213000790216029,
+      "learning_rate": 0.2424100677717774,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 10724784,
+      "step": 11550
+    },
+    {
+      "epoch": 5.4479019330504475,
+      "grad_norm": 0.000874344608746469,
+      "learning_rate": 0.24236366166090004,
+      "loss": 0.2721,
+      "num_input_tokens_seen": 10728928,
+      "step": 11555
+    },
+    {
+      "epoch": 5.45025931164545,
+      "grad_norm": 0.0003117637534160167,
+      "learning_rate": 0.24231724130638527,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 10733648,
+      "step": 11560
+    },
+    {
+      "epoch": 5.452616690240452,
+      "grad_norm": 0.00015800053370185196,
+      "learning_rate": 0.2422708067153917,
+      "loss": 0.2053,
+      "num_input_tokens_seen": 10738080,
+      "step": 11565
+    },
+    {
+      "epoch": 5.454974068835455,
+      "grad_norm": 0.0006812688079662621,
+      "learning_rate": 0.24222435789508026,
+      "loss": 0.2387,
+      "num_input_tokens_seen": 10743760,
+      "step": 11570
+    },
+    {
+      "epoch": 5.457331447430457,
+      "grad_norm": 0.0005036458023823798,
+      "learning_rate": 0.24217789485261387,
+      "loss": 0.3991,
+      "num_input_tokens_seen": 10748816,
+      "step": 11575
+    },
+    {
+      "epoch": 5.4596888260254595,
+      "grad_norm": 0.0006211341242305934,
+      "learning_rate": 0.2421314175951577,
+      "loss": 0.2825,
+      "num_input_tokens_seen": 10752912,
+      "step": 11580
+    },
+    {
+      "epoch": 5.462046204620462,
+      "grad_norm": 0.0005839108489453793,
+      "learning_rate": 0.2420849261298791,
+      "loss": 0.4005,
+      "num_input_tokens_seen": 10758272,
+      "step": 11585
+    },
+    {
+      "epoch": 5.464403583215464,
+      "grad_norm": 0.0002155857509933412,
+      "learning_rate": 0.24203842046394775,
+      "loss": 0.3057,
+      "num_input_tokens_seen": 10762128,
+      "step": 11590
+    },
+    {
+      "epoch": 5.466760961810467,
+      "grad_norm": 0.0006794653600081801,
+      "learning_rate": 0.24199190060453535,
+      "loss": 0.3889,
+      "num_input_tokens_seen": 10766496,
+      "step": 11595
+    },
+    {
+      "epoch": 5.469118340405469,
+      "grad_norm": 0.0018187443492934108,
+      "learning_rate": 0.2419453665588158,
+      "loss": 0.3201,
+      "num_input_tokens_seen": 10770896,
+      "step": 11600
+    },
+    {
+      "epoch": 5.469118340405469,
+      "eval_loss": 0.3282706141471863,
+      "eval_runtime": 33.5405,
+      "eval_samples_per_second": 28.115,
+      "eval_steps_per_second": 14.073,
+      "num_input_tokens_seen": 10770896,
+      "step": 11600
+    },
+    {
+      "epoch": 5.4714757190004715,
+      "grad_norm": 0.0003451338270679116,
+      "learning_rate": 0.24189881833396523,
+      "loss": 0.294,
+      "num_input_tokens_seen": 10775792,
+      "step": 11605
+    },
+    {
+      "epoch": 5.473833097595474,
+      "grad_norm": 0.000876386184245348,
+      "learning_rate": 0.24185225593716203,
+      "loss": 0.3779,
+      "num_input_tokens_seen": 10780544,
+      "step": 11610
+    },
+    {
+      "epoch": 5.476190476190476,
+      "grad_norm": 0.0003161393105983734,
+      "learning_rate": 0.2418056793755867,
+      "loss": 0.2966,
+      "num_input_tokens_seen": 10786384,
+      "step": 11615
+    },
+    {
+      "epoch": 5.478547854785479,
+      "grad_norm": 0.001679840381257236,
+      "learning_rate": 0.24175908865642187,
+      "loss": 0.3982,
+      "num_input_tokens_seen": 10790752,
+      "step": 11620
+    },
+    {
+      "epoch": 5.480905233380481,
+      "grad_norm": 0.0011038185330107808,
+      "learning_rate": 0.24171248378685248,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 10794352,
+      "step": 11625
+    },
+    {
+      "epoch": 5.4832626119754835,
+      "grad_norm": 0.0009705452830530703,
+      "learning_rate": 0.24166586477406554,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 10799536,
+      "step": 11630
+    },
+    {
+      "epoch": 5.485619990570486,
+      "grad_norm": 0.0003661380906123668,
+      "learning_rate": 0.24161923162525034,
+      "loss": 0.3006,
+      "num_input_tokens_seen": 10804576,
+      "step": 11635
+    },
+    {
+      "epoch": 5.487977369165488,
+      "grad_norm": 0.0004429496475495398,
+      "learning_rate": 0.2415725843475982,
+      "loss": 0.3566,
+      "num_input_tokens_seen": 10810016,
+      "step": 11640
+    },
+    {
+      "epoch": 5.490334747760491,
+      "grad_norm": 0.00046653312165290117,
+      "learning_rate": 0.24152592294830286,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 10814944,
+      "step": 11645
+    },
+    {
+      "epoch": 5.492692126355493,
+      "grad_norm": 0.0005745384260080755,
+      "learning_rate": 0.24147924743455995,
+      "loss": 0.357,
+      "num_input_tokens_seen": 10819504,
+      "step": 11650
+    },
+    {
+      "epoch": 5.4950495049504955,
+      "grad_norm": 0.0002673736889846623,
+      "learning_rate": 0.24143255781356754,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 10823472,
+      "step": 11655
+    },
+    {
+      "epoch": 5.497406883545497,
+      "grad_norm": 0.0007046427926979959,
+      "learning_rate": 0.24138585409252566,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 10827952,
+      "step": 11660
+    },
+    {
+      "epoch": 5.499764262140499,
+      "grad_norm": 0.0008005790296010673,
+      "learning_rate": 0.24133913627863662,
+      "loss": 0.378,
+      "num_input_tokens_seen": 10833392,
+      "step": 11665
+    },
+    {
+      "epoch": 5.502121640735502,
+      "grad_norm": 0.0003998980682808906,
+      "learning_rate": 0.241292404379105,
+      "loss": 0.3483,
+      "num_input_tokens_seen": 10837632,
+      "step": 11670
+    },
+    {
+      "epoch": 5.504479019330504,
+      "grad_norm": 0.0007835648721083999,
+      "learning_rate": 0.24124565840113735,
+      "loss": 0.3611,
+      "num_input_tokens_seen": 10841440,
+      "step": 11675
+    },
+    {
+      "epoch": 5.506836397925507,
+      "grad_norm": 0.0009279969381168485,
+      "learning_rate": 0.2411988983519425,
+      "loss": 0.346,
+      "num_input_tokens_seen": 10846176,
+      "step": 11680
+    },
+    {
+      "epoch": 5.509193776520509,
+      "grad_norm": 0.0006206284160725772,
+      "learning_rate": 0.24115212423873145,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 10850752,
+      "step": 11685
+    },
+    {
+      "epoch": 5.511551155115511,
+      "grad_norm": 0.0004118840442970395,
+      "learning_rate": 0.24110533606871737,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 10856080,
+      "step": 11690
+    },
+    {
+      "epoch": 5.513908533710514,
+      "grad_norm": 0.0004615992365870625,
+      "learning_rate": 0.24105853384911552,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 10860928,
+      "step": 11695
+    },
+    {
+      "epoch": 5.516265912305516,
+      "grad_norm": 0.00025045228539966047,
+      "learning_rate": 0.24101171758714346,
+      "loss": 0.3676,
+      "num_input_tokens_seen": 10866128,
+      "step": 11700
+    },
+    {
+      "epoch": 5.518623290900519,
+      "grad_norm": 0.000523167778737843,
+      "learning_rate": 0.24096488729002086,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 10871472,
+      "step": 11705
+    },
+    {
+      "epoch": 5.520980669495521,
+      "grad_norm": 0.0007650549523532391,
+      "learning_rate": 0.24091804296496946,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 10875664,
+      "step": 11710
+    },
+    {
+      "epoch": 5.523338048090523,
+      "grad_norm": 0.0006402316503226757,
+      "learning_rate": 0.2408711846192133,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 10880256,
+      "step": 11715
+    },
+    {
+      "epoch": 5.525695426685526,
+      "grad_norm": 0.0010913583682850003,
+      "learning_rate": 0.24082431225997855,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 10884496,
+      "step": 11720
+    },
+    {
+      "epoch": 5.528052805280528,
+      "grad_norm": 0.0003914537082891911,
+      "learning_rate": 0.24077742589449344,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 10888608,
+      "step": 11725
+    },
+    {
+      "epoch": 5.530410183875531,
+      "grad_norm": 0.0003000323486048728,
+      "learning_rate": 0.24073052552998844,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 10893712,
+      "step": 11730
+    },
+    {
+      "epoch": 5.532767562470533,
+      "grad_norm": 0.0006974684074521065,
+      "learning_rate": 0.2406836111736963,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 10898144,
+      "step": 11735
+    },
+    {
+      "epoch": 5.535124941065535,
+      "grad_norm": 0.00041718248394317925,
+      "learning_rate": 0.2406366828328517,
+      "loss": 0.2857,
+      "num_input_tokens_seen": 10902736,
+      "step": 11740
+    },
+    {
+      "epoch": 5.537482319660538,
+      "grad_norm": 0.00048615774721838534,
+      "learning_rate": 0.2405897405146915,
+      "loss": 0.4046,
+      "num_input_tokens_seen": 10908480,
+      "step": 11745
+    },
+    {
+      "epoch": 5.539839698255539,
+      "grad_norm": 0.0006916958373039961,
+      "learning_rate": 0.240542784226455,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 10912480,
+      "step": 11750
+    },
+    {
+      "epoch": 5.542197076850542,
+      "grad_norm": 0.000700014759786427,
+      "learning_rate": 0.24049581397538328,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 10917104,
+      "step": 11755
+    },
+    {
+      "epoch": 5.544554455445544,
+      "grad_norm": 0.0004540992376860231,
+      "learning_rate": 0.24044882976871984,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 10922080,
+      "step": 11760
+    },
+    {
+      "epoch": 5.5469118340405466,
+      "grad_norm": 0.000765232602134347,
+      "learning_rate": 0.2404018316137102,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 10926560,
+      "step": 11765
+    },
+    {
+      "epoch": 5.549269212635549,
+      "grad_norm": 0.0003373957588337362,
+      "learning_rate": 0.24035481951760204,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 10931216,
+      "step": 11770
+    },
+    {
+      "epoch": 5.551626591230551,
+      "grad_norm": 0.0007519947830587626,
+      "learning_rate": 0.2403077934876452,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 10935632,
+      "step": 11775
+    },
+    {
+      "epoch": 5.553983969825554,
+      "grad_norm": 0.0004014830046799034,
+      "learning_rate": 0.2402607535310918,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 10939936,
+      "step": 11780
+    },
+    {
+      "epoch": 5.556341348420556,
+      "grad_norm": 0.00038462510565295815,
+      "learning_rate": 0.2402136996551959,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 10944688,
+      "step": 11785
+    },
+    {
+      "epoch": 5.558698727015559,
+      "grad_norm": 0.0008715805597603321,
+      "learning_rate": 0.24016663186721376,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 10949328,
+      "step": 11790
+    },
+    {
+      "epoch": 5.561056105610561,
+      "grad_norm": 0.0006132167764008045,
+      "learning_rate": 0.24011955017440395,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 10955232,
+      "step": 11795
+    },
+    {
+      "epoch": 5.563413484205563,
+      "grad_norm": 0.0009381256531924009,
+      "learning_rate": 0.24007245458402696,
+      "loss": 0.3963,
+      "num_input_tokens_seen": 10959424,
+      "step": 11800
+    },
+    {
+      "epoch": 5.563413484205563,
+      "eval_loss": 0.3279728889465332,
+      "eval_runtime": 33.5812,
+      "eval_samples_per_second": 28.081,
+      "eval_steps_per_second": 14.055,
+      "num_input_tokens_seen": 10959424,
+      "step": 11800
+    },
+    {
+      "epoch": 5.565770862800566,
+      "grad_norm": 0.0006304112612269819,
+      "learning_rate": 0.2400253451033456,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 10963648,
+      "step": 11805
+    },
+    {
+      "epoch": 5.568128241395568,
+      "grad_norm": 0.0008624579641036689,
+      "learning_rate": 0.23997822173962463,
+      "loss": 0.3737,
+      "num_input_tokens_seen": 10968544,
+      "step": 11810
+    },
+    {
+      "epoch": 5.570485619990571,
+      "grad_norm": 0.000565358845051378,
+      "learning_rate": 0.23993108450013118,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 10972528,
+      "step": 11815
+    },
+    {
+      "epoch": 5.572842998585573,
+      "grad_norm": 0.00153597560711205,
+      "learning_rate": 0.2398839333921343,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 10977440,
+      "step": 11820
+    },
+    {
+      "epoch": 5.575200377180575,
+      "grad_norm": 0.0006483305478468537,
+      "learning_rate": 0.23983676842290536,
+      "loss": 0.3484,
+      "num_input_tokens_seen": 10982400,
+      "step": 11825
+    },
+    {
+      "epoch": 5.577557755775578,
+      "grad_norm": 0.00017258702428080142,
+      "learning_rate": 0.2397895895997178,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 10987424,
+      "step": 11830
+    },
+    {
+      "epoch": 5.57991513437058,
+      "grad_norm": 0.0010881888447329402,
+      "learning_rate": 0.23974239692984714,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 10992048,
+      "step": 11835
+    },
+    {
+      "epoch": 5.582272512965583,
+      "grad_norm": 0.0005627760547213256,
+      "learning_rate": 0.2396951904205711,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 10996368,
+      "step": 11840
+    },
+    {
+      "epoch": 5.584629891560585,
+      "grad_norm": 0.00028218046645633876,
+      "learning_rate": 0.23964797007916952,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 11002448,
+      "step": 11845
+    },
+    {
+      "epoch": 5.586987270155587,
+      "grad_norm": 0.00029652556986548007,
+      "learning_rate": 0.23960073591292436,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 11006880,
+      "step": 11850
+    },
+    {
+      "epoch": 5.58934464875059,
+      "grad_norm": 0.0009592826245352626,
+      "learning_rate": 0.2395534879291197,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 11010928,
+      "step": 11855
+    },
+    {
+      "epoch": 5.591702027345592,
+      "grad_norm": 0.0004985056584700942,
+      "learning_rate": 0.23950622613504186,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 11016928,
+      "step": 11860
+    },
+    {
+      "epoch": 5.594059405940594,
+      "grad_norm": 0.0007788265938870609,
+      "learning_rate": 0.2394589505379791,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 11022224,
+      "step": 11865
+    },
+    {
+      "epoch": 5.596416784535596,
+      "grad_norm": 0.0003288003499619663,
+      "learning_rate": 0.23941166114522197,
+      "loss": 0.297,
+      "num_input_tokens_seen": 11026832,
+      "step": 11870
+    },
+    {
+      "epoch": 5.5987741631305985,
+      "grad_norm": 0.0003468525246717036,
+      "learning_rate": 0.23936435796406308,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 11031968,
+      "step": 11875
+    },
+    {
+      "epoch": 5.601131541725601,
+      "grad_norm": 0.0003583056095521897,
+      "learning_rate": 0.23931704100179715,
+      "loss": 0.3005,
+      "num_input_tokens_seen": 11037504,
+      "step": 11880
+    },
+    {
+      "epoch": 5.603488920320603,
+      "grad_norm": 0.0008462998666800559,
+      "learning_rate": 0.2392697102657211,
+      "loss": 0.332,
+      "num_input_tokens_seen": 11042016,
+      "step": 11885
+    },
+    {
+      "epoch": 5.605846298915606,
+      "grad_norm": 0.00032786946394480765,
+      "learning_rate": 0.23922236576313388,
+      "loss": 0.3826,
+      "num_input_tokens_seen": 11046368,
+      "step": 11890
+    },
+    {
+      "epoch": 5.608203677510608,
+      "grad_norm": 0.0007174808415584266,
+      "learning_rate": 0.2391750075013366,
+      "loss": 0.3024,
+      "num_input_tokens_seen": 11051408,
+      "step": 11895
+    },
+    {
+      "epoch": 5.6105610561056105,
+      "grad_norm": 0.00030615628929808736,
+      "learning_rate": 0.2391276354876326,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 11055984,
+      "step": 11900
+    },
+    {
+      "epoch": 5.612918434700613,
+      "grad_norm": 0.0002977380354423076,
+      "learning_rate": 0.23908024972932707,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 11060816,
+      "step": 11905
+    },
+    {
+      "epoch": 5.615275813295615,
+      "grad_norm": 0.0010657110251486301,
+      "learning_rate": 0.2390328502337276,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 11064848,
+      "step": 11910
+    },
+    {
+      "epoch": 5.617633191890618,
+      "grad_norm": 0.0005016764625906944,
+      "learning_rate": 0.23898543700814376,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 11069216,
+      "step": 11915
+    },
+    {
+      "epoch": 5.61999057048562,
+      "grad_norm": 0.0004119941731914878,
+      "learning_rate": 0.2389380100598873,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 11074064,
+      "step": 11920
+    },
+    {
+      "epoch": 5.6223479490806225,
+      "grad_norm": 0.0016827468061819673,
+      "learning_rate": 0.23889056939627207,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 11079040,
+      "step": 11925
+    },
+    {
+      "epoch": 5.624705327675625,
+      "grad_norm": 0.0008256935398094356,
+      "learning_rate": 0.23884311502461386,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 11083664,
+      "step": 11930
+    },
+    {
+      "epoch": 5.627062706270627,
+      "grad_norm": 0.00039435309008695185,
+      "learning_rate": 0.23879564695223088,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 11088208,
+      "step": 11935
+    },
+    {
+      "epoch": 5.62942008486563,
+      "grad_norm": 0.00037996057653799653,
+      "learning_rate": 0.23874816518644332,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 11092736,
+      "step": 11940
+    },
+    {
+      "epoch": 5.631777463460632,
+      "grad_norm": 0.0003622096555773169,
+      "learning_rate": 0.23870066973457335,
+      "loss": 0.368,
+      "num_input_tokens_seen": 11097568,
+      "step": 11945
+    },
+    {
+      "epoch": 5.634134842055634,
+      "grad_norm": 0.0002923219872172922,
+      "learning_rate": 0.23865316060394545,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 11101616,
+      "step": 11950
+    },
+    {
+      "epoch": 5.636492220650636,
+      "grad_norm": 0.0005785105749964714,
+      "learning_rate": 0.2386056378018861,
+      "loss": 0.319,
+      "num_input_tokens_seen": 11106464,
+      "step": 11955
+    },
+    {
+      "epoch": 5.6388495992456384,
+      "grad_norm": 0.0006415275856852531,
+      "learning_rate": 0.2385581013357239,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 11111040,
+      "step": 11960
+    },
+    {
+      "epoch": 5.641206977840641,
+      "grad_norm": 0.0017363270744681358,
+      "learning_rate": 0.23851055121278958,
+      "loss": 0.3262,
+      "num_input_tokens_seen": 11115792,
+      "step": 11965
+    },
+    {
+      "epoch": 5.643564356435643,
+      "grad_norm": 0.0008524865843355656,
+      "learning_rate": 0.23846298744041594,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 11120768,
+      "step": 11970
+    },
+    {
+      "epoch": 5.645921735030646,
+      "grad_norm": 0.0007022293866612017,
+      "learning_rate": 0.23841541002593802,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 11124656,
+      "step": 11975
+    },
+    {
+      "epoch": 5.648279113625648,
+      "grad_norm": 0.0002997777482960373,
+      "learning_rate": 0.23836781897669276,
+      "loss": 0.309,
+      "num_input_tokens_seen": 11128848,
+      "step": 11980
+    },
+    {
+      "epoch": 5.6506364922206505,
+      "grad_norm": 0.0005054049543105066,
+      "learning_rate": 0.23832021430001926,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 11133568,
+      "step": 11985
+    },
+    {
+      "epoch": 5.652993870815653,
+      "grad_norm": 0.0009531276882626116,
+      "learning_rate": 0.2382725960032588,
+      "loss": 0.4118,
+      "num_input_tokens_seen": 11138496,
+      "step": 11990
+    },
+    {
+      "epoch": 5.655351249410655,
+      "grad_norm": 0.0003592144057620317,
+      "learning_rate": 0.23822496409375482,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 11142720,
+      "step": 11995
+    },
+    {
+      "epoch": 5.657708628005658,
+      "grad_norm": 0.000805690186098218,
+      "learning_rate": 0.2381773185788526,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 11146816,
+      "step": 12000
+    },
+    {
+      "epoch": 5.657708628005658,
+      "eval_loss": 0.33118438720703125,
+      "eval_runtime": 33.6136,
+      "eval_samples_per_second": 28.054,
+      "eval_steps_per_second": 14.042,
+      "num_input_tokens_seen": 11146816,
+      "step": 12000
+    },
+    {
+      "epoch": 5.66006600660066,
+      "grad_norm": 0.0006000652210786939,
+      "learning_rate": 0.2381296594658998,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 11150656,
+      "step": 12005
+    },
+    {
+      "epoch": 5.6624233851956625,
+      "grad_norm": 0.001186701119877398,
+      "learning_rate": 0.238081986762246,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 11155696,
+      "step": 12010
+    },
+    {
+      "epoch": 5.664780763790665,
+      "grad_norm": 0.00026527087902650237,
+      "learning_rate": 0.23803430047524293,
+      "loss": 0.3561,
+      "num_input_tokens_seen": 11159808,
+      "step": 12015
+    },
+    {
+      "epoch": 5.667138142385667,
+      "grad_norm": 0.00039413213380612433,
+      "learning_rate": 0.23798660061224441,
+      "loss": 0.3374,
+      "num_input_tokens_seen": 11164208,
+      "step": 12020
+    },
+    {
+      "epoch": 5.66949552098067,
+      "grad_norm": 0.0003708138538058847,
+      "learning_rate": 0.23793888718060632,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 11168768,
+      "step": 12025
+    },
+    {
+      "epoch": 5.671852899575672,
+      "grad_norm": 0.0005497952224686742,
+      "learning_rate": 0.23789116018768675,
+      "loss": 0.321,
+      "num_input_tokens_seen": 11172864,
+      "step": 12030
+    },
+    {
+      "epoch": 5.6742102781706745,
+      "grad_norm": 0.00039756810292601585,
+      "learning_rate": 0.2378434196408458,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 11177328,
+      "step": 12035
+    },
+    {
+      "epoch": 5.676567656765677,
+      "grad_norm": 0.0004535374464467168,
+      "learning_rate": 0.23779566554744563,
+      "loss": 0.3608,
+      "num_input_tokens_seen": 11181888,
+      "step": 12040
+    },
+    {
+      "epoch": 5.678925035360679,
+      "grad_norm": 0.0003750752657651901,
+      "learning_rate": 0.23774789791485051,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 11186768,
+      "step": 12045
+    },
+    {
+      "epoch": 5.681282413955682,
+      "grad_norm": 0.0008158499258570373,
+      "learning_rate": 0.2377001167504268,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 11190736,
+      "step": 12050
+    },
+    {
+      "epoch": 5.683639792550684,
+      "grad_norm": 0.0005635919515043497,
+      "learning_rate": 0.23765232206154302,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 11195856,
+      "step": 12055
+    },
+    {
+      "epoch": 5.6859971711456865,
+      "grad_norm": 0.0007801069295965135,
+      "learning_rate": 0.23760451385556966,
+      "loss": 0.3089,
+      "num_input_tokens_seen": 11199952,
+      "step": 12060
+    },
+    {
+      "epoch": 5.688354549740688,
+      "grad_norm": 0.00027974165277555585,
+      "learning_rate": 0.23755669213987932,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 11205360,
+      "step": 12065
+    },
+    {
+      "epoch": 5.69071192833569,
+      "grad_norm": 0.0004168848099652678,
+      "learning_rate": 0.23750885692184676,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 11209696,
+      "step": 12070
+    },
+    {
+      "epoch": 5.693069306930693,
+      "grad_norm": 0.0004428903921507299,
+      "learning_rate": 0.23746100820884875,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 11214608,
+      "step": 12075
+    },
+    {
+      "epoch": 5.695426685525695,
+      "grad_norm": 0.000820533256046474,
+      "learning_rate": 0.23741314600826421,
+      "loss": 0.3707,
+      "num_input_tokens_seen": 11219456,
+      "step": 12080
+    },
+    {
+      "epoch": 5.697784064120698,
+      "grad_norm": 0.0004051316645927727,
+      "learning_rate": 0.23736527032747406,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 11224480,
+      "step": 12085
+    },
+    {
+      "epoch": 5.7001414427157,
+      "grad_norm": 0.00035332993138581514,
+      "learning_rate": 0.23731738117386128,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 11228720,
+      "step": 12090
+    },
+    {
+      "epoch": 5.702498821310702,
+      "grad_norm": 0.00044999082456342876,
+      "learning_rate": 0.237269478554811,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 11234160,
+      "step": 12095
+    },
+    {
+      "epoch": 5.704856199905705,
+      "grad_norm": 0.00041938715730793774,
+      "learning_rate": 0.23722156247771053,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 11238976,
+      "step": 12100
+    },
+    {
+      "epoch": 5.707213578500707,
+      "grad_norm": 0.00033402960980311036,
+      "learning_rate": 0.23717363294994895,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 11243104,
+      "step": 12105
+    },
+    {
+      "epoch": 5.70957095709571,
+      "grad_norm": 0.0008006269345059991,
+      "learning_rate": 0.2371256899789177,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 11246784,
+      "step": 12110
+    },
+    {
+      "epoch": 5.711928335690712,
+      "grad_norm": 0.00029950705356895924,
+      "learning_rate": 0.23707773357201017,
+      "loss": 0.3771,
+      "num_input_tokens_seen": 11250832,
+      "step": 12115
+    },
+    {
+      "epoch": 5.714285714285714,
+      "grad_norm": 0.0010095590259879827,
+      "learning_rate": 0.2370297637366218,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 11255456,
+      "step": 12120
+    },
+    {
+      "epoch": 5.716643092880717,
+      "grad_norm": 0.00028695701621472836,
+      "learning_rate": 0.23698178048015026,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 11260016,
+      "step": 12125
+    },
+    {
+      "epoch": 5.719000471475719,
+      "grad_norm": 0.0007881548372097313,
+      "learning_rate": 0.236933783809995,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 11264288,
+      "step": 12130
+    },
+    {
+      "epoch": 5.721357850070722,
+      "grad_norm": 0.00023089698515832424,
+      "learning_rate": 0.23688577373355785,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 11268656,
+      "step": 12135
+    },
+    {
+      "epoch": 5.723715228665724,
+      "grad_norm": 0.0008118433179333806,
+      "learning_rate": 0.23683775025824247,
+      "loss": 0.343,
+      "num_input_tokens_seen": 11273616,
+      "step": 12140
+    },
+    {
+      "epoch": 5.726072607260726,
+      "grad_norm": 0.0006205643294379115,
+      "learning_rate": 0.2367897133914548,
+      "loss": 0.2983,
+      "num_input_tokens_seen": 11277904,
+      "step": 12145
+    },
+    {
+      "epoch": 5.728429985855728,
+      "grad_norm": 0.0007721488946117461,
+      "learning_rate": 0.2367416631406026,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 11282960,
+      "step": 12150
+    },
+    {
+      "epoch": 5.73078736445073,
+      "grad_norm": 0.000815384613815695,
+      "learning_rate": 0.23669359951309588,
+      "loss": 0.3521,
+      "num_input_tokens_seen": 11286832,
+      "step": 12155
+    },
+    {
+      "epoch": 5.733144743045733,
+      "grad_norm": 0.0008035373757593334,
+      "learning_rate": 0.23664552251634666,
+      "loss": 0.3867,
+      "num_input_tokens_seen": 11291328,
+      "step": 12160
+    },
+    {
+      "epoch": 5.735502121640735,
+      "grad_norm": 0.0003956279542762786,
+      "learning_rate": 0.23659743215776907,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 11295216,
+      "step": 12165
+    },
+    {
+      "epoch": 5.7378595002357375,
+      "grad_norm": 0.0007514500757679343,
+      "learning_rate": 0.23654932844477908,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 11299664,
+      "step": 12170
+    },
+    {
+      "epoch": 5.74021687883074,
+      "grad_norm": 0.0006116937147453427,
+      "learning_rate": 0.23650121138479507,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 11304448,
+      "step": 12175
+    },
+    {
+      "epoch": 5.742574257425742,
+      "grad_norm": 0.00023603974841535091,
+      "learning_rate": 0.23645308098523724,
+      "loss": 0.3507,
+      "num_input_tokens_seen": 11308400,
+      "step": 12180
+    },
+    {
+      "epoch": 5.744931636020745,
+      "grad_norm": 0.0006314330967143178,
+      "learning_rate": 0.23640493725352785,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 11313344,
+      "step": 12185
+    },
+    {
+      "epoch": 5.747289014615747,
+      "grad_norm": 0.0005145213799551129,
+      "learning_rate": 0.2363567801970913,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 11318480,
+      "step": 12190
+    },
+    {
+      "epoch": 5.7496463932107496,
+      "grad_norm": 0.00036863391869701445,
+      "learning_rate": 0.236308609823354,
+      "loss": 0.332,
+      "num_input_tokens_seen": 11322960,
+      "step": 12195
+    },
+    {
+      "epoch": 5.752003771805752,
+      "grad_norm": 0.0003278999647591263,
+      "learning_rate": 0.23626042613974452,
+      "loss": 0.3531,
+      "num_input_tokens_seen": 11328528,
+      "step": 12200
+    },
+    {
+      "epoch": 5.752003771805752,
+      "eval_loss": 0.3316330909729004,
+      "eval_runtime": 33.6118,
+      "eval_samples_per_second": 28.056,
+      "eval_steps_per_second": 14.043,
+      "num_input_tokens_seen": 11328528,
+      "step": 12200
+    },
+    {
+      "epoch": 5.754361150400754,
+      "grad_norm": 0.00027707379194907844,
+      "learning_rate": 0.23621222915369325,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 11333232,
+      "step": 12205
+    },
+    {
+      "epoch": 5.756718528995757,
+      "grad_norm": 0.000788323930464685,
+      "learning_rate": 0.23616401887263283,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 11337184,
+      "step": 12210
+    },
+    {
+      "epoch": 5.759075907590759,
+      "grad_norm": 0.0002712134155444801,
+      "learning_rate": 0.23611579530399793,
+      "loss": 0.3633,
+      "num_input_tokens_seen": 11342336,
+      "step": 12215
+    },
+    {
+      "epoch": 5.761433286185762,
+      "grad_norm": 0.0003792668867390603,
+      "learning_rate": 0.23606755845522517,
+      "loss": 0.3759,
+      "num_input_tokens_seen": 11346944,
+      "step": 12220
+    },
+    {
+      "epoch": 5.763790664780764,
+      "grad_norm": 0.0008684445638209581,
+      "learning_rate": 0.23601930833375329,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 11351824,
+      "step": 12225
+    },
+    {
+      "epoch": 5.766148043375766,
+      "grad_norm": 0.00043567208922468126,
+      "learning_rate": 0.23597104494702312,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 11355840,
+      "step": 12230
+    },
+    {
+      "epoch": 5.768505421970769,
+      "grad_norm": 0.0008174075046554208,
+      "learning_rate": 0.23592276830247744,
+      "loss": 0.3726,
+      "num_input_tokens_seen": 11360560,
+      "step": 12235
+    },
+    {
+      "epoch": 5.770862800565771,
+      "grad_norm": 0.0004991217865608633,
+      "learning_rate": 0.2358744784075611,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 11365072,
+      "step": 12240
+    },
+    {
+      "epoch": 5.773220179160774,
+      "grad_norm": 0.0008349796989932656,
+      "learning_rate": 0.235826175269721,
+      "loss": 0.3607,
+      "num_input_tokens_seen": 11371072,
+      "step": 12245
+    },
+    {
+      "epoch": 5.775577557755776,
+      "grad_norm": 0.0002601619635242969,
+      "learning_rate": 0.23577785889640612,
+      "loss": 0.319,
+      "num_input_tokens_seen": 11376096,
+      "step": 12250
+    },
+    {
+      "epoch": 5.777934936350778,
+      "grad_norm": 0.0008639620500616729,
+      "learning_rate": 0.23572952929506744,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 11382016,
+      "step": 12255
+    },
+    {
+      "epoch": 5.780292314945781,
+      "grad_norm": 0.00036812337930314243,
+      "learning_rate": 0.23568118647315803,
+      "loss": 0.3644,
+      "num_input_tokens_seen": 11387136,
+      "step": 12260
+    },
+    {
+      "epoch": 5.782649693540782,
+      "grad_norm": 0.00034377817064523697,
+      "learning_rate": 0.23563283043813296,
+      "loss": 0.3356,
+      "num_input_tokens_seen": 11391472,
+      "step": 12265
+    },
+    {
+      "epoch": 5.785007072135785,
+      "grad_norm": 0.0007223966531455517,
+      "learning_rate": 0.23558446119744922,
+      "loss": 0.2874,
+      "num_input_tokens_seen": 11396544,
+      "step": 12270
+    },
+    {
+      "epoch": 5.787364450730787,
+      "grad_norm": 0.00032125701545737684,
+      "learning_rate": 0.23553607875856608,
+      "loss": 0.3847,
+      "num_input_tokens_seen": 11400832,
+      "step": 12275
+    },
+    {
+      "epoch": 5.7897218293257895,
+      "grad_norm": 0.00028735792147926986,
+      "learning_rate": 0.2354876831289447,
+      "loss": 0.3596,
+      "num_input_tokens_seen": 11404640,
+      "step": 12280
+    },
+    {
+      "epoch": 5.792079207920792,
+      "grad_norm": 0.0015131114050745964,
+      "learning_rate": 0.23543927431604827,
+      "loss": 0.3699,
+      "num_input_tokens_seen": 11408640,
+      "step": 12285
+    },
+    {
+      "epoch": 5.794436586515794,
+      "grad_norm": 0.0009923613397404552,
+      "learning_rate": 0.23539085232734203,
+      "loss": 0.2952,
+      "num_input_tokens_seen": 11412496,
+      "step": 12290
+    },
+    {
+      "epoch": 5.796793965110797,
+      "grad_norm": 0.0009810299379751086,
+      "learning_rate": 0.2353424171702933,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 11417136,
+      "step": 12295
+    },
+    {
+      "epoch": 5.799151343705799,
+      "grad_norm": 0.00025162327801808715,
+      "learning_rate": 0.23529396885237133,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 11421408,
+      "step": 12300
+    },
+    {
+      "epoch": 5.8015087223008015,
+      "grad_norm": 0.0003628003178164363,
+      "learning_rate": 0.2352455073810475,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 11425968,
+      "step": 12305
+    },
+    {
+      "epoch": 5.803866100895804,
+      "grad_norm": 0.00040305990842171013,
+      "learning_rate": 0.23519703276379517,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 11431760,
+      "step": 12310
+    },
+    {
+      "epoch": 5.806223479490806,
+      "grad_norm": 0.0006968580419197679,
+      "learning_rate": 0.2351485450080897,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 11436992,
+      "step": 12315
+    },
+    {
+      "epoch": 5.808580858085809,
+      "grad_norm": 0.0003703347756527364,
+      "learning_rate": 0.2351000441214086,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 11441632,
+      "step": 12320
+    },
+    {
+      "epoch": 5.810938236680811,
+      "grad_norm": 0.000745847006328404,
+      "learning_rate": 0.23505153011123125,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 11445952,
+      "step": 12325
+    },
+    {
+      "epoch": 5.8132956152758135,
+      "grad_norm": 0.0011584451422095299,
+      "learning_rate": 0.23500300298503912,
+      "loss": 0.2805,
+      "num_input_tokens_seen": 11449776,
+      "step": 12330
+    },
+    {
+      "epoch": 5.815652993870816,
+      "grad_norm": 0.00026916354545392096,
+      "learning_rate": 0.23495446275031576,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 11454960,
+      "step": 12335
+    },
+    {
+      "epoch": 5.818010372465818,
+      "grad_norm": 0.0006382710998877883,
+      "learning_rate": 0.2349059094145466,
+      "loss": 0.3459,
+      "num_input_tokens_seen": 11459808,
+      "step": 12340
+    },
+    {
+      "epoch": 5.820367751060821,
+      "grad_norm": 0.0008450562600046396,
+      "learning_rate": 0.2348573429852192,
+      "loss": 0.3785,
+      "num_input_tokens_seen": 11464592,
+      "step": 12345
+    },
+    {
+      "epoch": 5.822725129655822,
+      "grad_norm": 0.00031594757456332445,
+      "learning_rate": 0.23480876346982313,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 11469312,
+      "step": 12350
+    },
+    {
+      "epoch": 5.825082508250825,
+      "grad_norm": 0.0003342021955177188,
+      "learning_rate": 0.23476017087585,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 11474272,
+      "step": 12355
+    },
+    {
+      "epoch": 5.827439886845827,
+      "grad_norm": 0.0003338397073093802,
+      "learning_rate": 0.23471156521079334,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 11479360,
+      "step": 12360
+    },
+    {
+      "epoch": 5.829797265440829,
+      "grad_norm": 0.0008281086338683963,
+      "learning_rate": 0.23466294648214875,
+      "loss": 0.2886,
+      "num_input_tokens_seen": 11484448,
+      "step": 12365
+    },
+    {
+      "epoch": 5.832154644035832,
+      "grad_norm": 0.0008070737821981311,
+      "learning_rate": 0.2346143146974139,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 11488368,
+      "step": 12370
+    },
+    {
+      "epoch": 5.834512022630834,
+      "grad_norm": 0.0007224730215966702,
+      "learning_rate": 0.23456566986408836,
+      "loss": 0.3521,
+      "num_input_tokens_seen": 11492976,
+      "step": 12375
+    },
+    {
+      "epoch": 5.836869401225837,
+      "grad_norm": 0.0003603732620831579,
+      "learning_rate": 0.23451701198967384,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 11497632,
+      "step": 12380
+    },
+    {
+      "epoch": 5.839226779820839,
+      "grad_norm": 0.00041432457510381937,
+      "learning_rate": 0.23446834108167397,
+      "loss": 0.3,
+      "num_input_tokens_seen": 11501712,
+      "step": 12385
+    },
+    {
+      "epoch": 5.841584158415841,
+      "grad_norm": 0.0008445715066045523,
+      "learning_rate": 0.23441965714759438,
+      "loss": 0.379,
+      "num_input_tokens_seen": 11505488,
+      "step": 12390
+    },
+    {
+      "epoch": 5.843941537010844,
+      "grad_norm": 0.0003759465762414038,
+      "learning_rate": 0.23437096019494277,
+      "loss": 0.3783,
+      "num_input_tokens_seen": 11510448,
+      "step": 12395
+    },
+    {
+      "epoch": 5.846298915605846,
+      "grad_norm": 0.0004424431826919317,
+      "learning_rate": 0.23432225023122885,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 11515600,
+      "step": 12400
+    },
+    {
+      "epoch": 5.846298915605846,
+      "eval_loss": 0.3332318961620331,
+      "eval_runtime": 33.5366,
+      "eval_samples_per_second": 28.119,
+      "eval_steps_per_second": 14.074,
+      "num_input_tokens_seen": 11515600,
+      "step": 12400
+    },
+    {
+      "epoch": 5.848656294200849,
+      "grad_norm": 0.0008798568742349744,
+      "learning_rate": 0.23427352726396428,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 11520336,
+      "step": 12405
+    },
+    {
+      "epoch": 5.851013672795851,
+      "grad_norm": 0.00036388260195963085,
+      "learning_rate": 0.2342247913006628,
+      "loss": 0.327,
+      "num_input_tokens_seen": 11525280,
+      "step": 12410
+    },
+    {
+      "epoch": 5.8533710513908535,
+      "grad_norm": 0.0003082600887864828,
+      "learning_rate": 0.23417604234883999,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 11529360,
+      "step": 12415
+    },
+    {
+      "epoch": 5.855728429985856,
+      "grad_norm": 0.001077056978829205,
+      "learning_rate": 0.23412728041601363,
+      "loss": 0.3356,
+      "num_input_tokens_seen": 11533280,
+      "step": 12420
+    },
+    {
+      "epoch": 5.858085808580858,
+      "grad_norm": 0.0002942197897937149,
+      "learning_rate": 0.23407850550970347,
+      "loss": 0.3725,
+      "num_input_tokens_seen": 11538048,
+      "step": 12425
+    },
+    {
+      "epoch": 5.860443187175861,
+      "grad_norm": 0.00037577576586045325,
+      "learning_rate": 0.23402971763743116,
+      "loss": 0.3687,
+      "num_input_tokens_seen": 11542224,
+      "step": 12430
+    },
+    {
+      "epoch": 5.862800565770863,
+      "grad_norm": 0.0003220807993784547,
+      "learning_rate": 0.23398091680672037,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 11546880,
+      "step": 12435
+    },
+    {
+      "epoch": 5.8651579443658655,
+      "grad_norm": 0.0005268629756756127,
+      "learning_rate": 0.23393210302509687,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 11551696,
+      "step": 12440
+    },
+    {
+      "epoch": 5.867515322960868,
+      "grad_norm": 0.0010290275095030665,
+      "learning_rate": 0.23388327630008832,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 11556048,
+      "step": 12445
+    },
+    {
+      "epoch": 5.86987270155587,
+      "grad_norm": 0.0003477814607322216,
+      "learning_rate": 0.23383443663922443,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 11560832,
+      "step": 12450
+    },
+    {
+      "epoch": 5.872230080150873,
+      "grad_norm": 0.001142837223596871,
+      "learning_rate": 0.23378558405003685,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 11565024,
+      "step": 12455
+    },
+    {
+      "epoch": 5.874587458745875,
+      "grad_norm": 0.0011831726878881454,
+      "learning_rate": 0.2337367185400593,
+      "loss": 0.3253,
+      "num_input_tokens_seen": 11569920,
+      "step": 12460
+    },
+    {
+      "epoch": 5.876944837340877,
+      "grad_norm": 0.0006948072696104646,
+      "learning_rate": 0.23368784011682747,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 11575056,
+      "step": 12465
+    },
+    {
+      "epoch": 5.879302215935879,
+      "grad_norm": 0.0008954803925007582,
+      "learning_rate": 0.23363894878787902,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 11579232,
+      "step": 12470
+    },
+    {
+      "epoch": 5.881659594530881,
+      "grad_norm": 0.0003532352566253394,
+      "learning_rate": 0.23359004456075352,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 11583568,
+      "step": 12475
+    },
+    {
+      "epoch": 5.884016973125884,
+      "grad_norm": 0.0005975903477519751,
+      "learning_rate": 0.23354112744299277,
+      "loss": 0.334,
+      "num_input_tokens_seen": 11587840,
+      "step": 12480
+    },
+    {
+      "epoch": 5.886374351720886,
+      "grad_norm": 0.0004616508085746318,
+      "learning_rate": 0.2334921974421403,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 11592048,
+      "step": 12485
+    },
+    {
+      "epoch": 5.888731730315889,
+      "grad_norm": 0.0003172415599692613,
+      "learning_rate": 0.23344325456574178,
+      "loss": 0.2988,
+      "num_input_tokens_seen": 11596464,
+      "step": 12490
+    },
+    {
+      "epoch": 5.891089108910891,
+      "grad_norm": 0.000395371054764837,
+      "learning_rate": 0.23339429882134477,
+      "loss": 0.3027,
+      "num_input_tokens_seen": 11600560,
+      "step": 12495
+    },
+    {
+      "epoch": 5.893446487505893,
+      "grad_norm": 0.0006364300497807562,
+      "learning_rate": 0.23334533021649884,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 11607200,
+      "step": 12500
+    },
+    {
+      "epoch": 5.895803866100896,
+      "grad_norm": 0.0003990654367953539,
+      "learning_rate": 0.23329634875875566,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 11611072,
+      "step": 12505
+    },
+    {
+      "epoch": 5.898161244695898,
+      "grad_norm": 0.0002126889448845759,
+      "learning_rate": 0.23324735445566874,
+      "loss": 0.4232,
+      "num_input_tokens_seen": 11615376,
+      "step": 12510
+    },
+    {
+      "epoch": 5.900518623290901,
+      "grad_norm": 0.000422774552134797,
+      "learning_rate": 0.2331983473147936,
+      "loss": 0.3102,
+      "num_input_tokens_seen": 11619760,
+      "step": 12515
+    },
+    {
+      "epoch": 5.902876001885903,
+      "grad_norm": 0.0007366054342128336,
+      "learning_rate": 0.23314932734368776,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 11624432,
+      "step": 12520
+    },
+    {
+      "epoch": 5.905233380480905,
+      "grad_norm": 0.0004342599131632596,
+      "learning_rate": 0.2331002945499107,
+      "loss": 0.3642,
+      "num_input_tokens_seen": 11629168,
+      "step": 12525
+    },
+    {
+      "epoch": 5.907590759075908,
+      "grad_norm": 0.00025254752836190164,
+      "learning_rate": 0.23305124894102397,
+      "loss": 0.3047,
+      "num_input_tokens_seen": 11633744,
+      "step": 12530
+    },
+    {
+      "epoch": 5.90994813767091,
+      "grad_norm": 0.0011500869877636433,
+      "learning_rate": 0.23300219052459092,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 11638624,
+      "step": 12535
+    },
+    {
+      "epoch": 5.912305516265913,
+      "grad_norm": 0.0005213702097535133,
+      "learning_rate": 0.23295311930817708,
+      "loss": 0.351,
+      "num_input_tokens_seen": 11642864,
+      "step": 12540
+    },
+    {
+      "epoch": 5.914662894860915,
+      "grad_norm": 0.0002858511288650334,
+      "learning_rate": 0.23290403529934972,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 11647216,
+      "step": 12545
+    },
+    {
+      "epoch": 5.9170202734559165,
+      "grad_norm": 0.0006576738087460399,
+      "learning_rate": 0.23285493850567832,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 11652800,
+      "step": 12550
+    },
+    {
+      "epoch": 5.919377652050919,
+      "grad_norm": 0.001094185747206211,
+      "learning_rate": 0.23280582893473414,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 11657616,
+      "step": 12555
+    },
+    {
+      "epoch": 5.921735030645921,
+      "grad_norm": 0.0003864438331220299,
+      "learning_rate": 0.2327567065940906,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 11661616,
+      "step": 12560
+    },
+    {
+      "epoch": 5.924092409240924,
+      "grad_norm": 0.00033832769258879125,
+      "learning_rate": 0.23270757149132285,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 11665920,
+      "step": 12565
+    },
+    {
+      "epoch": 5.926449787835926,
+      "grad_norm": 0.0007588900625705719,
+      "learning_rate": 0.23265842363400827,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 11669744,
+      "step": 12570
+    },
+    {
+      "epoch": 5.9288071664309285,
+      "grad_norm": 0.0002923747815657407,
+      "learning_rate": 0.23260926302972595,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 11674208,
+      "step": 12575
+    },
+    {
+      "epoch": 5.931164545025931,
+      "grad_norm": 0.00035140544059686363,
+      "learning_rate": 0.2325600896860572,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 11678512,
+      "step": 12580
+    },
+    {
+      "epoch": 5.933521923620933,
+      "grad_norm": 0.0004502295923884958,
+      "learning_rate": 0.23251090361058505,
+      "loss": 0.4095,
+      "num_input_tokens_seen": 11683472,
+      "step": 12585
+    },
+    {
+      "epoch": 5.935879302215936,
+      "grad_norm": 0.00029584122239612043,
+      "learning_rate": 0.23246170481089476,
+      "loss": 0.2922,
+      "num_input_tokens_seen": 11688112,
+      "step": 12590
+    },
+    {
+      "epoch": 5.938236680810938,
+      "grad_norm": 0.00029276596615090966,
+      "learning_rate": 0.23241249329457317,
+      "loss": 0.2943,
+      "num_input_tokens_seen": 11692736,
+      "step": 12595
+    },
+    {
+      "epoch": 5.9405940594059405,
+      "grad_norm": 0.00035880287759937346,
+      "learning_rate": 0.23236326906920957,
+      "loss": 0.2751,
+      "num_input_tokens_seen": 11697056,
+      "step": 12600
+    },
+    {
+      "epoch": 5.9405940594059405,
+      "eval_loss": 0.32838842272758484,
+      "eval_runtime": 33.5886,
+      "eval_samples_per_second": 28.075,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 11697056,
+      "step": 12600
+    },
+    {
+      "epoch": 5.942951438000943,
+      "grad_norm": 0.0008653519325889647,
+      "learning_rate": 0.2323140321423948,
+      "loss": 0.4104,
+      "num_input_tokens_seen": 11701536,
+      "step": 12605
+    },
+    {
+      "epoch": 5.945308816595945,
+      "grad_norm": 0.0005393081810325384,
+      "learning_rate": 0.23226478252172184,
+      "loss": 0.3127,
+      "num_input_tokens_seen": 11706208,
+      "step": 12610
+    },
+    {
+      "epoch": 5.947666195190948,
+      "grad_norm": 0.0004228603793308139,
+      "learning_rate": 0.23221552021478561,
+      "loss": 0.2733,
+      "num_input_tokens_seen": 11710848,
+      "step": 12615
+    },
+    {
+      "epoch": 5.95002357378595,
+      "grad_norm": 0.0006480689044110477,
+      "learning_rate": 0.232166245229183,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 11715984,
+      "step": 12620
+    },
+    {
+      "epoch": 5.9523809523809526,
+      "grad_norm": 0.00039733227458782494,
+      "learning_rate": 0.2321169575725128,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 11720416,
+      "step": 12625
+    },
+    {
+      "epoch": 5.954738330975955,
+      "grad_norm": 0.000250736135058105,
+      "learning_rate": 0.23206765725237577,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 11724640,
+      "step": 12630
+    },
+    {
+      "epoch": 5.957095709570957,
+      "grad_norm": 0.0002835557679645717,
+      "learning_rate": 0.2320183442763747,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 11728720,
+      "step": 12635
+    },
+    {
+      "epoch": 5.95945308816596,
+      "grad_norm": 0.0003857557021547109,
+      "learning_rate": 0.23196901865211422,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 11733280,
+      "step": 12640
+    },
+    {
+      "epoch": 5.961810466760962,
+      "grad_norm": 0.0006338931270875037,
+      "learning_rate": 0.231919680387201,
+      "loss": 0.2827,
+      "num_input_tokens_seen": 11738192,
+      "step": 12645
+    },
+    {
+      "epoch": 5.964167845355965,
+      "grad_norm": 0.0006829265621490777,
+      "learning_rate": 0.23187032948924358,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 11742656,
+      "step": 12650
+    },
+    {
+      "epoch": 5.966525223950967,
+      "grad_norm": 0.0002108009357471019,
+      "learning_rate": 0.23182096596585247,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 11747200,
+      "step": 12655
+    },
+    {
+      "epoch": 5.968882602545969,
+      "grad_norm": 0.0003047891950700432,
+      "learning_rate": 0.23177158982464025,
+      "loss": 0.3878,
+      "num_input_tokens_seen": 11752144,
+      "step": 12660
+    },
+    {
+      "epoch": 5.971239981140971,
+      "grad_norm": 0.0006795407389290631,
+      "learning_rate": 0.23172220107322122,
+      "loss": 0.328,
+      "num_input_tokens_seen": 11756560,
+      "step": 12665
+    },
+    {
+      "epoch": 5.973597359735973,
+      "grad_norm": 0.0007038279436528683,
+      "learning_rate": 0.23167279971921184,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 11761616,
+      "step": 12670
+    },
+    {
+      "epoch": 5.975954738330976,
+      "grad_norm": 0.0006900282460264862,
+      "learning_rate": 0.23162338577023034,
+      "loss": 0.3111,
+      "num_input_tokens_seen": 11767120,
+      "step": 12675
+    },
+    {
+      "epoch": 5.978312116925978,
+      "grad_norm": 0.0003043833712581545,
+      "learning_rate": 0.23157395923389704,
+      "loss": 0.2611,
+      "num_input_tokens_seen": 11770800,
+      "step": 12680
+    },
+    {
+      "epoch": 5.9806694955209805,
+      "grad_norm": 0.0007275023963302374,
+      "learning_rate": 0.2315245201178341,
+      "loss": 0.3791,
+      "num_input_tokens_seen": 11774624,
+      "step": 12685
+    },
+    {
+      "epoch": 5.983026874115983,
+      "grad_norm": 0.0009334289934486151,
+      "learning_rate": 0.23147506842966564,
+      "loss": 0.3828,
+      "num_input_tokens_seen": 11779568,
+      "step": 12690
+    },
+    {
+      "epoch": 5.985384252710985,
+      "grad_norm": 0.0003146999515593052,
+      "learning_rate": 0.23142560417701774,
+      "loss": 0.2946,
+      "num_input_tokens_seen": 11784480,
+      "step": 12695
+    },
+    {
+      "epoch": 5.987741631305988,
+      "grad_norm": 0.00037005796912126243,
+      "learning_rate": 0.23137612736751845,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 11788736,
+      "step": 12700
+    },
+    {
+      "epoch": 5.99009900990099,
+      "grad_norm": 0.0006752292974852026,
+      "learning_rate": 0.23132663800879766,
+      "loss": 0.3031,
+      "num_input_tokens_seen": 11794944,
+      "step": 12705
+    },
+    {
+      "epoch": 5.9924563884959925,
+      "grad_norm": 0.0002904026478063315,
+      "learning_rate": 0.2312771361084873,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 11800944,
+      "step": 12710
+    },
+    {
+      "epoch": 5.994813767090995,
+      "grad_norm": 0.0008055461221374571,
+      "learning_rate": 0.23122762167422112,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 11804944,
+      "step": 12715
+    },
+    {
+      "epoch": 5.997171145685997,
+      "grad_norm": 0.0007129177683964372,
+      "learning_rate": 0.23117809471363493,
+      "loss": 0.4036,
+      "num_input_tokens_seen": 11810560,
+      "step": 12720
+    },
+    {
+      "epoch": 5.999528524281,
+      "grad_norm": 0.000401725759729743,
+      "learning_rate": 0.23112855523436637,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 11814496,
+      "step": 12725
+    },
+    {
+      "epoch": 6.001885902876002,
+      "grad_norm": 0.0007988627185113728,
+      "learning_rate": 0.23107900324405511,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 11819136,
+      "step": 12730
+    },
+    {
+      "epoch": 6.0042432814710045,
+      "grad_norm": 0.0004501186776906252,
+      "learning_rate": 0.2310294387503426,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 11824112,
+      "step": 12735
+    },
+    {
+      "epoch": 6.006600660066007,
+      "grad_norm": 0.00045756541658192873,
+      "learning_rate": 0.23097986176087237,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 11828784,
+      "step": 12740
+    },
+    {
+      "epoch": 6.008958038661009,
+      "grad_norm": 0.000330979295540601,
+      "learning_rate": 0.23093027228328986,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 11833504,
+      "step": 12745
+    },
+    {
+      "epoch": 6.011315417256012,
+      "grad_norm": 0.0004945038235746324,
+      "learning_rate": 0.23088067032524226,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 11836976,
+      "step": 12750
+    },
+    {
+      "epoch": 6.013672795851014,
+      "grad_norm": 0.0006755731883458793,
+      "learning_rate": 0.23083105589437888,
+      "loss": 0.2987,
+      "num_input_tokens_seen": 11841968,
+      "step": 12755
+    },
+    {
+      "epoch": 6.016030174446016,
+      "grad_norm": 0.0010575097985565662,
+      "learning_rate": 0.23078142899835094,
+      "loss": 0.3962,
+      "num_input_tokens_seen": 11847008,
+      "step": 12760
+    },
+    {
+      "epoch": 6.018387553041018,
+      "grad_norm": 0.0009038884309120476,
+      "learning_rate": 0.23073178964481147,
+      "loss": 0.371,
+      "num_input_tokens_seen": 11851024,
+      "step": 12765
+    },
+    {
+      "epoch": 6.02074493163602,
+      "grad_norm": 0.0006557502201758325,
+      "learning_rate": 0.2306821378414155,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 11855264,
+      "step": 12770
+    },
+    {
+      "epoch": 6.023102310231023,
+      "grad_norm": 0.0006884561153128743,
+      "learning_rate": 0.2306324735958199,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 11860272,
+      "step": 12775
+    },
+    {
+      "epoch": 6.025459688826025,
+      "grad_norm": 0.0014379476197063923,
+      "learning_rate": 0.23058279691568362,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 11864176,
+      "step": 12780
+    },
+    {
+      "epoch": 6.027817067421028,
+      "grad_norm": 0.00043302192352712154,
+      "learning_rate": 0.23053310780866745,
+      "loss": 0.3612,
+      "num_input_tokens_seen": 11868960,
+      "step": 12785
+    },
+    {
+      "epoch": 6.03017444601603,
+      "grad_norm": 0.0021590562537312508,
+      "learning_rate": 0.23048340628243397,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 11874384,
+      "step": 12790
+    },
+    {
+      "epoch": 6.032531824611032,
+      "grad_norm": 0.0012601775815710425,
+      "learning_rate": 0.23043369234464783,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 11879984,
+      "step": 12795
+    },
+    {
+      "epoch": 6.034889203206035,
+      "grad_norm": 0.0006029438809491694,
+      "learning_rate": 0.2303839660029755,
+      "loss": 0.3721,
+      "num_input_tokens_seen": 11884336,
+      "step": 12800
+    },
+    {
+      "epoch": 6.034889203206035,
+      "eval_loss": 0.3386254608631134,
+      "eval_runtime": 33.6313,
+      "eval_samples_per_second": 28.039,
+      "eval_steps_per_second": 14.035,
+      "num_input_tokens_seen": 11884336,
+      "step": 12800
+    },
+    {
+      "epoch": 6.037246581801037,
+      "grad_norm": 0.0011277747107669711,
+      "learning_rate": 0.23033422726508548,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 11889072,
+      "step": 12805
+    },
+    {
+      "epoch": 6.03960396039604,
+      "grad_norm": 0.0007819014717824757,
+      "learning_rate": 0.23028447613864808,
+      "loss": 0.3682,
+      "num_input_tokens_seen": 11894432,
+      "step": 12810
+    },
+    {
+      "epoch": 6.041961338991042,
+      "grad_norm": 0.0006758029339835048,
+      "learning_rate": 0.2302347126313355,
+      "loss": 0.3076,
+      "num_input_tokens_seen": 11899376,
+      "step": 12815
+    },
+    {
+      "epoch": 6.044318717586044,
+      "grad_norm": 0.0004240196431055665,
+      "learning_rate": 0.23018493675082197,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 11903312,
+      "step": 12820
+    },
+    {
+      "epoch": 6.046676096181047,
+      "grad_norm": 0.00031327299075201154,
+      "learning_rate": 0.2301351485047835,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 11907456,
+      "step": 12825
+    },
+    {
+      "epoch": 6.049033474776049,
+      "grad_norm": 0.0003321623953524977,
+      "learning_rate": 0.23008534790089813,
+      "loss": 0.3547,
+      "num_input_tokens_seen": 11911952,
+      "step": 12830
+    },
+    {
+      "epoch": 6.051390853371052,
+      "grad_norm": 0.0004522240487858653,
+      "learning_rate": 0.2300355349468457,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 11916352,
+      "step": 12835
+    },
+    {
+      "epoch": 6.053748231966054,
+      "grad_norm": 0.00031661015236750245,
+      "learning_rate": 0.22998570965030793,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 11921856,
+      "step": 12840
+    },
+    {
+      "epoch": 6.0561056105610565,
+      "grad_norm": 0.0004520811198744923,
+      "learning_rate": 0.22993587201896862,
+      "loss": 0.2971,
+      "num_input_tokens_seen": 11925936,
+      "step": 12845
+    },
+    {
+      "epoch": 6.058462989156059,
+      "grad_norm": 0.00023979335674084723,
+      "learning_rate": 0.2298860220605133,
+      "loss": 0.3152,
+      "num_input_tokens_seen": 11930384,
+      "step": 12850
+    },
+    {
+      "epoch": 6.060820367751061,
+      "grad_norm": 0.0012164507061243057,
+      "learning_rate": 0.22983615978262942,
+      "loss": 0.3708,
+      "num_input_tokens_seen": 11935312,
+      "step": 12855
+    },
+    {
+      "epoch": 6.063177746346063,
+      "grad_norm": 0.001069470657967031,
+      "learning_rate": 0.22978628519300648,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 11940160,
+      "step": 12860
+    },
+    {
+      "epoch": 6.065535124941065,
+      "grad_norm": 0.0004652465577237308,
+      "learning_rate": 0.22973639829933568,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 11944912,
+      "step": 12865
+    },
+    {
+      "epoch": 6.067892503536068,
+      "grad_norm": 0.0006741814431734383,
+      "learning_rate": 0.22968649910931027,
+      "loss": 0.2998,
+      "num_input_tokens_seen": 11949760,
+      "step": 12870
+    },
+    {
+      "epoch": 6.07024988213107,
+      "grad_norm": 0.0005416795611381531,
+      "learning_rate": 0.22963658763062528,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 11954656,
+      "step": 12875
+    },
+    {
+      "epoch": 6.072607260726072,
+      "grad_norm": 0.0007826045621186495,
+      "learning_rate": 0.22958666387097765,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 11960144,
+      "step": 12880
+    },
+    {
+      "epoch": 6.074964639321075,
+      "grad_norm": 0.0004267397162038833,
+      "learning_rate": 0.22953672783806633,
+      "loss": 0.3511,
+      "num_input_tokens_seen": 11965168,
+      "step": 12885
+    },
+    {
+      "epoch": 6.077322017916077,
+      "grad_norm": 0.0009865659521892667,
+      "learning_rate": 0.22948677953959207,
+      "loss": 0.2976,
+      "num_input_tokens_seen": 11969680,
+      "step": 12890
+    },
+    {
+      "epoch": 6.07967939651108,
+      "grad_norm": 0.00034075349685736,
+      "learning_rate": 0.2294368189832575,
+      "loss": 0.2913,
+      "num_input_tokens_seen": 11973712,
+      "step": 12895
+    },
+    {
+      "epoch": 6.082036775106082,
+      "grad_norm": 0.0006525006610900164,
+      "learning_rate": 0.2293868461767672,
+      "loss": 0.3077,
+      "num_input_tokens_seen": 11978720,
+      "step": 12900
+    },
+    {
+      "epoch": 6.084394153701084,
+      "grad_norm": 0.0008847564458847046,
+      "learning_rate": 0.22933686112782758,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 11982720,
+      "step": 12905
+    },
+    {
+      "epoch": 6.086751532296087,
+      "grad_norm": 0.0009986866498365998,
+      "learning_rate": 0.22928686384414698,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 11987216,
+      "step": 12910
+    },
+    {
+      "epoch": 6.089108910891089,
+      "grad_norm": 0.0010451055131852627,
+      "learning_rate": 0.22923685433343552,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 11991616,
+      "step": 12915
+    },
+    {
+      "epoch": 6.091466289486092,
+      "grad_norm": 0.0006748783052898943,
+      "learning_rate": 0.22918683260340542,
+      "loss": 0.4006,
+      "num_input_tokens_seen": 11996704,
+      "step": 12920
+    },
+    {
+      "epoch": 6.093823668081094,
+      "grad_norm": 0.0004136209608986974,
+      "learning_rate": 0.2291367986617706,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 12001424,
+      "step": 12925
+    },
+    {
+      "epoch": 6.096181046676096,
+      "grad_norm": 0.0025059739127755165,
+      "learning_rate": 0.22908675251624697,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 12006416,
+      "step": 12930
+    },
+    {
+      "epoch": 6.098538425271099,
+      "grad_norm": 0.0006985565414652228,
+      "learning_rate": 0.22903669417455216,
+      "loss": 0.3322,
+      "num_input_tokens_seen": 12011216,
+      "step": 12935
+    },
+    {
+      "epoch": 6.100895803866101,
+      "grad_norm": 0.0008047535666264594,
+      "learning_rate": 0.22898662364440592,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 12015840,
+      "step": 12940
+    },
+    {
+      "epoch": 6.103253182461104,
+      "grad_norm": 0.0017424214165657759,
+      "learning_rate": 0.2289365409335297,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 12020896,
+      "step": 12945
+    },
+    {
+      "epoch": 6.105610561056106,
+      "grad_norm": 0.0008739205659367144,
+      "learning_rate": 0.2288864460496469,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 12025408,
+      "step": 12950
+    },
+    {
+      "epoch": 6.107967939651108,
+      "grad_norm": 0.00040080887265503407,
+      "learning_rate": 0.22883633900048272,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 12029632,
+      "step": 12955
+    },
+    {
+      "epoch": 6.11032531824611,
+      "grad_norm": 0.0004442618228495121,
+      "learning_rate": 0.2287862197937644,
+      "loss": 0.3716,
+      "num_input_tokens_seen": 12034304,
+      "step": 12960
+    },
+    {
+      "epoch": 6.112682696841112,
+      "grad_norm": 0.0006940565072000027,
+      "learning_rate": 0.2287360884372209,
+      "loss": 0.3742,
+      "num_input_tokens_seen": 12040080,
+      "step": 12965
+    },
+    {
+      "epoch": 6.115040075436115,
+      "grad_norm": 0.0002678939199540764,
+      "learning_rate": 0.22868594493858307,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 12043728,
+      "step": 12970
+    },
+    {
+      "epoch": 6.117397454031117,
+      "grad_norm": 0.0007477244944311678,
+      "learning_rate": 0.2286357893055837,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 12048736,
+      "step": 12975
+    },
+    {
+      "epoch": 6.1197548326261195,
+      "grad_norm": 0.001358990091830492,
+      "learning_rate": 0.22858562154595746,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 12053264,
+      "step": 12980
+    },
+    {
+      "epoch": 6.122112211221122,
+      "grad_norm": 0.0005450703320093453,
+      "learning_rate": 0.22853544166744078,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 12059760,
+      "step": 12985
+    },
+    {
+      "epoch": 6.124469589816124,
+      "grad_norm": 0.00042673348798416555,
+      "learning_rate": 0.22848524967777206,
+      "loss": 0.326,
+      "num_input_tokens_seen": 12064960,
+      "step": 12990
+    },
+    {
+      "epoch": 6.126826968411127,
+      "grad_norm": 0.0010491234716027975,
+      "learning_rate": 0.22843504558469152,
+      "loss": 0.3578,
+      "num_input_tokens_seen": 12069312,
+      "step": 12995
+    },
+    {
+      "epoch": 6.129184347006129,
+      "grad_norm": 0.000358597026206553,
+      "learning_rate": 0.2283848293959413,
+      "loss": 0.3374,
+      "num_input_tokens_seen": 12074128,
+      "step": 13000
+    },
+    {
+      "epoch": 6.129184347006129,
+      "eval_loss": 0.32956230640411377,
+      "eval_runtime": 33.5936,
+      "eval_samples_per_second": 28.071,
+      "eval_steps_per_second": 14.05,
+      "num_input_tokens_seen": 12074128,
+      "step": 13000
+    },
+    {
+      "epoch": 6.1315417256011315,
+      "grad_norm": 0.0004678818513639271,
+      "learning_rate": 0.22833460111926532,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 12078960,
+      "step": 13005
+    },
+    {
+      "epoch": 6.133899104196134,
+      "grad_norm": 0.0008707257802598178,
+      "learning_rate": 0.22828436076240946,
+      "loss": 0.3632,
+      "num_input_tokens_seen": 12084992,
+      "step": 13010
+    },
+    {
+      "epoch": 6.136256482791136,
+      "grad_norm": 0.0006770548061467707,
+      "learning_rate": 0.22823410833312135,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 12090144,
+      "step": 13015
+    },
+    {
+      "epoch": 6.138613861386139,
+      "grad_norm": 0.0013377998257055879,
+      "learning_rate": 0.2281838438391506,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 12095376,
+      "step": 13020
+    },
+    {
+      "epoch": 6.140971239981141,
+      "grad_norm": 0.0003438051789999008,
+      "learning_rate": 0.22813356728824863,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 12100144,
+      "step": 13025
+    },
+    {
+      "epoch": 6.1433286185761435,
+      "grad_norm": 0.0002338339836569503,
+      "learning_rate": 0.2280832786881687,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 12104496,
+      "step": 13030
+    },
+    {
+      "epoch": 6.145685997171146,
+      "grad_norm": 0.0004179553943686187,
+      "learning_rate": 0.22803297804666592,
+      "loss": 0.3503,
+      "num_input_tokens_seen": 12109456,
+      "step": 13035
+    },
+    {
+      "epoch": 6.148043375766148,
+      "grad_norm": 0.0008745376253500581,
+      "learning_rate": 0.22798266537149728,
+      "loss": 0.3347,
+      "num_input_tokens_seen": 12113408,
+      "step": 13040
+    },
+    {
+      "epoch": 6.150400754361151,
+      "grad_norm": 0.0003000323777087033,
+      "learning_rate": 0.22793234067042167,
+      "loss": 0.2906,
+      "num_input_tokens_seen": 12118736,
+      "step": 13045
+    },
+    {
+      "epoch": 6.152758132956153,
+      "grad_norm": 0.0011631706729531288,
+      "learning_rate": 0.22788200395119979,
+      "loss": 0.3743,
+      "num_input_tokens_seen": 12123392,
+      "step": 13050
+    },
+    {
+      "epoch": 6.1551155115511555,
+      "grad_norm": 0.0008196887210942805,
+      "learning_rate": 0.2278316552215942,
+      "loss": 0.3914,
+      "num_input_tokens_seen": 12128144,
+      "step": 13055
+    },
+    {
+      "epoch": 6.157472890146157,
+      "grad_norm": 0.00042697114986367524,
+      "learning_rate": 0.22778129448936918,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 12132400,
+      "step": 13060
+    },
+    {
+      "epoch": 6.1598302687411595,
+      "grad_norm": 0.0007223918219096959,
+      "learning_rate": 0.22773092176229118,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 12137520,
+      "step": 13065
+    },
+    {
+      "epoch": 6.162187647336162,
+      "grad_norm": 0.0004315165861044079,
+      "learning_rate": 0.22768053704812816,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 12142160,
+      "step": 13070
+    },
+    {
+      "epoch": 6.164545025931164,
+      "grad_norm": 0.0002761335636023432,
+      "learning_rate": 0.22763014035465018,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 12146992,
+      "step": 13075
+    },
+    {
+      "epoch": 6.166902404526167,
+      "grad_norm": 0.00032077275682240725,
+      "learning_rate": 0.22757973168962892,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 12151072,
+      "step": 13080
+    },
+    {
+      "epoch": 6.169259783121169,
+      "grad_norm": 0.0005994706298224628,
+      "learning_rate": 0.22752931106083818,
+      "loss": 0.389,
+      "num_input_tokens_seen": 12156320,
+      "step": 13085
+    },
+    {
+      "epoch": 6.1716171617161715,
+      "grad_norm": 0.0005828124121762812,
+      "learning_rate": 0.22747887847605341,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 12160160,
+      "step": 13090
+    },
+    {
+      "epoch": 6.173974540311174,
+      "grad_norm": 0.00022132796584628522,
+      "learning_rate": 0.22742843394305184,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 12164272,
+      "step": 13095
+    },
+    {
+      "epoch": 6.176331918906176,
+      "grad_norm": 0.00044583750423043966,
+      "learning_rate": 0.22737797746961272,
+      "loss": 0.325,
+      "num_input_tokens_seen": 12168560,
+      "step": 13100
+    },
+    {
+      "epoch": 6.178689297501179,
+      "grad_norm": 0.0005821296363137662,
+      "learning_rate": 0.22732750906351712,
+      "loss": 0.3626,
+      "num_input_tokens_seen": 12172288,
+      "step": 13105
+    },
+    {
+      "epoch": 6.181046676096181,
+      "grad_norm": 0.0009622678044252098,
+      "learning_rate": 0.22727702873254785,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 12177872,
+      "step": 13110
+    },
+    {
+      "epoch": 6.1834040546911835,
+      "grad_norm": 0.0002521436254028231,
+      "learning_rate": 0.22722653648448968,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 12182432,
+      "step": 13115
+    },
+    {
+      "epoch": 6.185761433286186,
+      "grad_norm": 0.0003723138361237943,
+      "learning_rate": 0.22717603232712902,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 12187744,
+      "step": 13120
+    },
+    {
+      "epoch": 6.188118811881188,
+      "grad_norm": 0.0006252097082324326,
+      "learning_rate": 0.22712551626825436,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 12192784,
+      "step": 13125
+    },
+    {
+      "epoch": 6.190476190476191,
+      "grad_norm": 0.0006866492331027985,
+      "learning_rate": 0.2270749883156559,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 12197952,
+      "step": 13130
+    },
+    {
+      "epoch": 6.192833569071193,
+      "grad_norm": 0.0003703039255924523,
+      "learning_rate": 0.22702444847712563,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 12202512,
+      "step": 13135
+    },
+    {
+      "epoch": 6.1951909476661955,
+      "grad_norm": 0.0003765636356547475,
+      "learning_rate": 0.22697389676045743,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 12206864,
+      "step": 13140
+    },
+    {
+      "epoch": 6.197548326261198,
+      "grad_norm": 0.0002404119004495442,
+      "learning_rate": 0.22692333317344704,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 12211136,
+      "step": 13145
+    },
+    {
+      "epoch": 6.1999057048562,
+      "grad_norm": 0.0007643367280252278,
+      "learning_rate": 0.22687275772389198,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 12215040,
+      "step": 13150
+    },
+    {
+      "epoch": 6.202263083451202,
+      "grad_norm": 0.0006543798954226077,
+      "learning_rate": 0.22682217041959168,
+      "loss": 0.2709,
+      "num_input_tokens_seen": 12218928,
+      "step": 13155
+    },
+    {
+      "epoch": 6.204620462046204,
+      "grad_norm": 0.0004947535926476121,
+      "learning_rate": 0.2267715712683473,
+      "loss": 0.2472,
+      "num_input_tokens_seen": 12223232,
+      "step": 13160
+    },
+    {
+      "epoch": 6.206977840641207,
+      "grad_norm": 0.0005370997241698205,
+      "learning_rate": 0.22672096027796182,
+      "loss": 0.3767,
+      "num_input_tokens_seen": 12228384,
+      "step": 13165
+    },
+    {
+      "epoch": 6.209335219236209,
+      "grad_norm": 0.0008829706348478794,
+      "learning_rate": 0.22667033745624016,
+      "loss": 0.4019,
+      "num_input_tokens_seen": 12232160,
+      "step": 13170
+    },
+    {
+      "epoch": 6.211692597831211,
+      "grad_norm": 0.000331290066242218,
+      "learning_rate": 0.22661970281098895,
+      "loss": 0.3858,
+      "num_input_tokens_seen": 12236304,
+      "step": 13175
+    },
+    {
+      "epoch": 6.214049976426214,
+      "grad_norm": 0.0005465340800583363,
+      "learning_rate": 0.22656905635001667,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 12240720,
+      "step": 13180
+    },
+    {
+      "epoch": 6.216407355021216,
+      "grad_norm": 0.0003775248187594116,
+      "learning_rate": 0.2265183980811337,
+      "loss": 0.2954,
+      "num_input_tokens_seen": 12244992,
+      "step": 13185
+    },
+    {
+      "epoch": 6.218764733616219,
+      "grad_norm": 0.0003884779871441424,
+      "learning_rate": 0.22646772801215218,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 12249200,
+      "step": 13190
+    },
+    {
+      "epoch": 6.221122112211221,
+      "grad_norm": 0.000756473105866462,
+      "learning_rate": 0.22641704615088598,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 12253664,
+      "step": 13195
+    },
+    {
+      "epoch": 6.223479490806223,
+      "grad_norm": 0.000955695693846792,
+      "learning_rate": 0.22636635250515103,
+      "loss": 0.3791,
+      "num_input_tokens_seen": 12258064,
+      "step": 13200
+    },
+    {
+      "epoch": 6.223479490806223,
+      "eval_loss": 0.33211633563041687,
+      "eval_runtime": 33.5426,
+      "eval_samples_per_second": 28.114,
+      "eval_steps_per_second": 14.072,
+      "num_input_tokens_seen": 12258064,
+      "step": 13200
+    },
+    {
+      "epoch": 6.225836869401226,
+      "grad_norm": 0.0009492534445598722,
+      "learning_rate": 0.2263156470827648,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 12262640,
+      "step": 13205
+    },
+    {
+      "epoch": 6.228194247996228,
+      "grad_norm": 0.0007464223890565336,
+      "learning_rate": 0.22626492989154678,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 12266496,
+      "step": 13210
+    },
+    {
+      "epoch": 6.230551626591231,
+      "grad_norm": 0.0006506242789328098,
+      "learning_rate": 0.22621420093931813,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 12271392,
+      "step": 13215
+    },
+    {
+      "epoch": 6.232909005186233,
+      "grad_norm": 0.0004175530339125544,
+      "learning_rate": 0.22616346023390194,
+      "loss": 0.3309,
+      "num_input_tokens_seen": 12275648,
+      "step": 13220
+    },
+    {
+      "epoch": 6.235266383781235,
+      "grad_norm": 0.00039170621312223375,
+      "learning_rate": 0.22611270778312306,
+      "loss": 0.3148,
+      "num_input_tokens_seen": 12280016,
+      "step": 13225
+    },
+    {
+      "epoch": 6.237623762376238,
+      "grad_norm": 0.00041854302980937064,
+      "learning_rate": 0.2260619435948081,
+      "loss": 0.3906,
+      "num_input_tokens_seen": 12284016,
+      "step": 13230
+    },
+    {
+      "epoch": 6.23998114097124,
+      "grad_norm": 0.0006205823156051338,
+      "learning_rate": 0.22601116767678567,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 12289536,
+      "step": 13235
+    },
+    {
+      "epoch": 6.242338519566243,
+      "grad_norm": 0.0002018105733441189,
+      "learning_rate": 0.2259603800368859,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 12294912,
+      "step": 13240
+    },
+    {
+      "epoch": 6.244695898161245,
+      "grad_norm": 0.00030559860169887543,
+      "learning_rate": 0.22590958068294098,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 12299520,
+      "step": 13245
+    },
+    {
+      "epoch": 6.247053276756247,
+      "grad_norm": 0.0002675098949111998,
+      "learning_rate": 0.22585876962278478,
+      "loss": 0.3347,
+      "num_input_tokens_seen": 12304784,
+      "step": 13250
+    },
+    {
+      "epoch": 6.24941065535125,
+      "grad_norm": 0.0004404790233820677,
+      "learning_rate": 0.22580794686425298,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 12310016,
+      "step": 13255
+    },
+    {
+      "epoch": 6.251768033946251,
+      "grad_norm": 0.0003769198665395379,
+      "learning_rate": 0.22575711241518312,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 12314080,
+      "step": 13260
+    },
+    {
+      "epoch": 6.254125412541254,
+      "grad_norm": 0.0001783043408067897,
+      "learning_rate": 0.22570626628341453,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 12318032,
+      "step": 13265
+    },
+    {
+      "epoch": 6.256482791136256,
+      "grad_norm": 0.00026378181064501405,
+      "learning_rate": 0.22565540847678828,
+      "loss": 0.335,
+      "num_input_tokens_seen": 12322784,
+      "step": 13270
+    },
+    {
+      "epoch": 6.258840169731259,
+      "grad_norm": 0.0006564845680259168,
+      "learning_rate": 0.2256045390031473,
+      "loss": 0.3751,
+      "num_input_tokens_seen": 12326880,
+      "step": 13275
+    },
+    {
+      "epoch": 6.261197548326261,
+      "grad_norm": 0.0001716944680083543,
+      "learning_rate": 0.22555365787033627,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 12331424,
+      "step": 13280
+    },
+    {
+      "epoch": 6.263554926921263,
+      "grad_norm": 0.00023273617262020707,
+      "learning_rate": 0.22550276508620173,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 12336336,
+      "step": 13285
+    },
+    {
+      "epoch": 6.265912305516266,
+      "grad_norm": 0.0008379648206755519,
+      "learning_rate": 0.22545186065859202,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 12340416,
+      "step": 13290
+    },
+    {
+      "epoch": 6.268269684111268,
+      "grad_norm": 0.000646856555249542,
+      "learning_rate": 0.2254009445953572,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 12344944,
+      "step": 13295
+    },
+    {
+      "epoch": 6.270627062706271,
+      "grad_norm": 0.00028236405341885984,
+      "learning_rate": 0.22535001690434917,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 12349744,
+      "step": 13300
+    },
+    {
+      "epoch": 6.272984441301273,
+      "grad_norm": 0.0003749734896700829,
+      "learning_rate": 0.22529907759342163,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 12354608,
+      "step": 13305
+    },
+    {
+      "epoch": 6.275341819896275,
+      "grad_norm": 0.0002825175761245191,
+      "learning_rate": 0.22524812667043007,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 12360144,
+      "step": 13310
+    },
+    {
+      "epoch": 6.277699198491278,
+      "grad_norm": 0.0007797224679961801,
+      "learning_rate": 0.22519716414323177,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 12364768,
+      "step": 13315
+    },
+    {
+      "epoch": 6.28005657708628,
+      "grad_norm": 0.0004490665451157838,
+      "learning_rate": 0.22514619001968567,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 12371488,
+      "step": 13320
+    },
+    {
+      "epoch": 6.282413955681283,
+      "grad_norm": 0.00034928557579405606,
+      "learning_rate": 0.2250952043076528,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 12375168,
+      "step": 13325
+    },
+    {
+      "epoch": 6.284771334276285,
+      "grad_norm": 0.00024717324413359165,
+      "learning_rate": 0.2250442070149957,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 12379216,
+      "step": 13330
+    },
+    {
+      "epoch": 6.287128712871287,
+      "grad_norm": 0.00025957805337384343,
+      "learning_rate": 0.22499319814957885,
+      "loss": 0.2947,
+      "num_input_tokens_seen": 12383264,
+      "step": 13335
+    },
+    {
+      "epoch": 6.28948609146629,
+      "grad_norm": 0.000363434839528054,
+      "learning_rate": 0.2249421777192684,
+      "loss": 0.2943,
+      "num_input_tokens_seen": 12387856,
+      "step": 13340
+    },
+    {
+      "epoch": 6.291843470061292,
+      "grad_norm": 0.00024502878659404814,
+      "learning_rate": 0.22489114573193236,
+      "loss": 0.3422,
+      "num_input_tokens_seen": 12392448,
+      "step": 13345
+    },
+    {
+      "epoch": 6.294200848656295,
+      "grad_norm": 0.0002916416269727051,
+      "learning_rate": 0.2248401021954405,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 12397408,
+      "step": 13350
+    },
+    {
+      "epoch": 6.296558227251296,
+      "grad_norm": 0.00040367705514654517,
+      "learning_rate": 0.22478904711766443,
+      "loss": 0.3785,
+      "num_input_tokens_seen": 12401568,
+      "step": 13355
+    },
+    {
+      "epoch": 6.2989156058462985,
+      "grad_norm": 0.0006547972443513572,
+      "learning_rate": 0.22473798050647734,
+      "loss": 0.344,
+      "num_input_tokens_seen": 12406592,
+      "step": 13360
+    },
+    {
+      "epoch": 6.301272984441301,
+      "grad_norm": 0.0007300514844246209,
+      "learning_rate": 0.22468690236975453,
+      "loss": 0.3547,
+      "num_input_tokens_seen": 12410944,
+      "step": 13365
+    },
+    {
+      "epoch": 6.303630363036303,
+      "grad_norm": 0.0003035668341908604,
+      "learning_rate": 0.22463581271537272,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 12415168,
+      "step": 13370
+    },
+    {
+      "epoch": 6.305987741631306,
+      "grad_norm": 0.0009561218321323395,
+      "learning_rate": 0.22458471155121076,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 12419504,
+      "step": 13375
+    },
+    {
+      "epoch": 6.308345120226308,
+      "grad_norm": 0.0004165566642768681,
+      "learning_rate": 0.2245335988851489,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 12423776,
+      "step": 13380
+    },
+    {
+      "epoch": 6.3107024988213105,
+      "grad_norm": 0.0010318881832063198,
+      "learning_rate": 0.2244824747250695,
+      "loss": 0.3635,
+      "num_input_tokens_seen": 12429248,
+      "step": 13385
+    },
+    {
+      "epoch": 6.313059877416313,
+      "grad_norm": 0.00023881479864940047,
+      "learning_rate": 0.22443133907885646,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 12433872,
+      "step": 13390
+    },
+    {
+      "epoch": 6.315417256011315,
+      "grad_norm": 0.00029846333200111985,
+      "learning_rate": 0.22438019195439557,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 12439024,
+      "step": 13395
+    },
+    {
+      "epoch": 6.317774634606318,
+      "grad_norm": 0.0002900346589740366,
+      "learning_rate": 0.22432903335957435,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 12443248,
+      "step": 13400
+    },
+    {
+      "epoch": 6.317774634606318,
+      "eval_loss": 0.32733413577079773,
+      "eval_runtime": 33.5734,
+      "eval_samples_per_second": 28.088,
+      "eval_steps_per_second": 14.059,
+      "num_input_tokens_seen": 12443248,
+      "step": 13400
+    },
+    {
+      "epoch": 6.32013201320132,
+      "grad_norm": 0.0007078826311044395,
+      "learning_rate": 0.22427786330228214,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 12447184,
+      "step": 13405
+    },
+    {
+      "epoch": 6.3224893917963225,
+      "grad_norm": 0.0004483851953409612,
+      "learning_rate": 0.22422668179040997,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 12452240,
+      "step": 13410
+    },
+    {
+      "epoch": 6.324846770391325,
+      "grad_norm": 0.0002730255655478686,
+      "learning_rate": 0.2241754888318507,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 12457328,
+      "step": 13415
+    },
+    {
+      "epoch": 6.327204148986327,
+      "grad_norm": 0.0006964849890209734,
+      "learning_rate": 0.22412428443449886,
+      "loss": 0.3099,
+      "num_input_tokens_seen": 12461760,
+      "step": 13420
+    },
+    {
+      "epoch": 6.32956152758133,
+      "grad_norm": 0.00026851537404581904,
+      "learning_rate": 0.22407306860625087,
+      "loss": 0.2932,
+      "num_input_tokens_seen": 12467088,
+      "step": 13425
+    },
+    {
+      "epoch": 6.331918906176332,
+      "grad_norm": 0.0006429980276152492,
+      "learning_rate": 0.22402184135500483,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 12471808,
+      "step": 13430
+    },
+    {
+      "epoch": 6.3342762847713345,
+      "grad_norm": 0.0003567762905731797,
+      "learning_rate": 0.22397060268866067,
+      "loss": 0.3845,
+      "num_input_tokens_seen": 12476432,
+      "step": 13435
+    },
+    {
+      "epoch": 6.336633663366337,
+      "grad_norm": 0.0006105469074100256,
+      "learning_rate": 0.22391935261511994,
+      "loss": 0.3512,
+      "num_input_tokens_seen": 12480864,
+      "step": 13440
+    },
+    {
+      "epoch": 6.338991041961339,
+      "grad_norm": 0.00020450630108825862,
+      "learning_rate": 0.22386809114228615,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 12485536,
+      "step": 13445
+    },
+    {
+      "epoch": 6.341348420556342,
+      "grad_norm": 0.000274336664006114,
+      "learning_rate": 0.22381681827806446,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 12490512,
+      "step": 13450
+    },
+    {
+      "epoch": 6.343705799151344,
+      "grad_norm": 0.0007158173830248415,
+      "learning_rate": 0.22376553403036173,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 12495696,
+      "step": 13455
+    },
+    {
+      "epoch": 6.346063177746346,
+      "grad_norm": 0.0008089069160632789,
+      "learning_rate": 0.22371423840708662,
+      "loss": 0.3695,
+      "num_input_tokens_seen": 12501232,
+      "step": 13460
+    },
+    {
+      "epoch": 6.348420556341348,
+      "grad_norm": 0.00042770575964823365,
+      "learning_rate": 0.22366293141614962,
+      "loss": 0.3511,
+      "num_input_tokens_seen": 12505440,
+      "step": 13465
+    },
+    {
+      "epoch": 6.3507779349363505,
+      "grad_norm": 0.0007093034218996763,
+      "learning_rate": 0.22361161306546287,
+      "loss": 0.2936,
+      "num_input_tokens_seen": 12509600,
+      "step": 13470
+    },
+    {
+      "epoch": 6.353135313531353,
+      "grad_norm": 0.0002602984313853085,
+      "learning_rate": 0.22356028336294037,
+      "loss": 0.3583,
+      "num_input_tokens_seen": 12514128,
+      "step": 13475
+    },
+    {
+      "epoch": 6.355492692126355,
+      "grad_norm": 0.00037971363053657115,
+      "learning_rate": 0.2235089423164977,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 12518384,
+      "step": 13480
+    },
+    {
+      "epoch": 6.357850070721358,
+      "grad_norm": 0.0007517063640989363,
+      "learning_rate": 0.22345758993405243,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 12524144,
+      "step": 13485
+    },
+    {
+      "epoch": 6.36020744931636,
+      "grad_norm": 0.00048047926975414157,
+      "learning_rate": 0.2234062262235236,
+      "loss": 0.3485,
+      "num_input_tokens_seen": 12527968,
+      "step": 13490
+    },
+    {
+      "epoch": 6.3625648279113625,
+      "grad_norm": 0.0003073951811529696,
+      "learning_rate": 0.22335485119283222,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 12532976,
+      "step": 13495
+    },
+    {
+      "epoch": 6.364922206506365,
+      "grad_norm": 0.0003014168469235301,
+      "learning_rate": 0.22330346484990093,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 12537920,
+      "step": 13500
+    },
+    {
+      "epoch": 6.367279585101367,
+      "grad_norm": 0.0005890038446523249,
+      "learning_rate": 0.22325206720265425,
+      "loss": 0.3591,
+      "num_input_tokens_seen": 12541808,
+      "step": 13505
+    },
+    {
+      "epoch": 6.36963696369637,
+      "grad_norm": 0.00040896987775340676,
+      "learning_rate": 0.2232006582590182,
+      "loss": 0.329,
+      "num_input_tokens_seen": 12545536,
+      "step": 13510
+    },
+    {
+      "epoch": 6.371994342291372,
+      "grad_norm": 0.00038633658550679684,
+      "learning_rate": 0.22314923802692077,
+      "loss": 0.2884,
+      "num_input_tokens_seen": 12551216,
+      "step": 13515
+    },
+    {
+      "epoch": 6.3743517208863745,
+      "grad_norm": 0.00028430024394765496,
+      "learning_rate": 0.22309780651429156,
+      "loss": 0.3025,
+      "num_input_tokens_seen": 12555216,
+      "step": 13520
+    },
+    {
+      "epoch": 6.376709099481377,
+      "grad_norm": 0.00022438031737692654,
+      "learning_rate": 0.22304636372906203,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 12559728,
+      "step": 13525
+    },
+    {
+      "epoch": 6.379066478076379,
+      "grad_norm": 0.000683228368870914,
+      "learning_rate": 0.22299490967916522,
+      "loss": 0.3062,
+      "num_input_tokens_seen": 12564464,
+      "step": 13530
+    },
+    {
+      "epoch": 6.381423856671382,
+      "grad_norm": 0.00023946388682816178,
+      "learning_rate": 0.22294344437253602,
+      "loss": 0.3254,
+      "num_input_tokens_seen": 12567952,
+      "step": 13535
+    },
+    {
+      "epoch": 6.383781235266384,
+      "grad_norm": 0.00014891759201418608,
+      "learning_rate": 0.22289196781711101,
+      "loss": 0.2866,
+      "num_input_tokens_seen": 12572512,
+      "step": 13540
+    },
+    {
+      "epoch": 6.3861386138613865,
+      "grad_norm": 0.0004262168367858976,
+      "learning_rate": 0.2228404800208286,
+      "loss": 0.3952,
+      "num_input_tokens_seen": 12577840,
+      "step": 13545
+    },
+    {
+      "epoch": 6.388495992456389,
+      "grad_norm": 0.00016390508972108364,
+      "learning_rate": 0.22278898099162875,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 12582000,
+      "step": 13550
+    },
+    {
+      "epoch": 6.39085337105139,
+      "grad_norm": 0.00028393001412041485,
+      "learning_rate": 0.22273747073745337,
+      "loss": 0.3031,
+      "num_input_tokens_seen": 12587024,
+      "step": 13555
+    },
+    {
+      "epoch": 6.393210749646393,
+      "grad_norm": 0.00031298998510465026,
+      "learning_rate": 0.22268594926624588,
+      "loss": 0.3587,
+      "num_input_tokens_seen": 12592144,
+      "step": 13560
+    },
+    {
+      "epoch": 6.395568128241395,
+      "grad_norm": 0.0003455729747656733,
+      "learning_rate": 0.22263441658595162,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 12597136,
+      "step": 13565
+    },
+    {
+      "epoch": 6.397925506836398,
+      "grad_norm": 0.0004230231570545584,
+      "learning_rate": 0.2225828727045175,
+      "loss": 0.3102,
+      "num_input_tokens_seen": 12601136,
+      "step": 13570
+    },
+    {
+      "epoch": 6.4002828854314,
+      "grad_norm": 0.00028954274603165686,
+      "learning_rate": 0.22253131762989228,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 12605216,
+      "step": 13575
+    },
+    {
+      "epoch": 6.402640264026402,
+      "grad_norm": 0.0003603222721721977,
+      "learning_rate": 0.2224797513700264,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 12609824,
+      "step": 13580
+    },
+    {
+      "epoch": 6.404997642621405,
+      "grad_norm": 0.0005671333055943251,
+      "learning_rate": 0.22242817393287204,
+      "loss": 0.2854,
+      "num_input_tokens_seen": 12613952,
+      "step": 13585
+    },
+    {
+      "epoch": 6.407355021216407,
+      "grad_norm": 0.0002215041604358703,
+      "learning_rate": 0.22237658532638305,
+      "loss": 0.2943,
+      "num_input_tokens_seen": 12617968,
+      "step": 13590
+    },
+    {
+      "epoch": 6.40971239981141,
+      "grad_norm": 0.00037081577465869486,
+      "learning_rate": 0.22232498555851513,
+      "loss": 0.348,
+      "num_input_tokens_seen": 12622592,
+      "step": 13595
+    },
+    {
+      "epoch": 6.412069778406412,
+      "grad_norm": 0.00043208259739913046,
+      "learning_rate": 0.22227337463722546,
+      "loss": 0.2563,
+      "num_input_tokens_seen": 12626480,
+      "step": 13600
+    },
+    {
+      "epoch": 6.412069778406412,
+      "eval_loss": 0.3304615318775177,
+      "eval_runtime": 33.5899,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 12626480,
+      "step": 13600
+    },
+    {
+      "epoch": 6.414427157001414,
+      "grad_norm": 0.0002886455331463367,
+      "learning_rate": 0.2222217525704732,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 12630944,
+      "step": 13605
+    },
+    {
+      "epoch": 6.416784535596417,
+      "grad_norm": 0.0003893042157869786,
+      "learning_rate": 0.22217011936621908,
+      "loss": 0.2648,
+      "num_input_tokens_seen": 12635328,
+      "step": 13610
+    },
+    {
+      "epoch": 6.419141914191419,
+      "grad_norm": 0.00043791343341581523,
+      "learning_rate": 0.22211847503242566,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 12640144,
+      "step": 13615
+    },
+    {
+      "epoch": 6.421499292786422,
+      "grad_norm": 0.00042917366954497993,
+      "learning_rate": 0.22206681957705704,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 12644528,
+      "step": 13620
+    },
+    {
+      "epoch": 6.423856671381424,
+      "grad_norm": 0.0006206968100741506,
+      "learning_rate": 0.2220151530080792,
+      "loss": 0.3877,
+      "num_input_tokens_seen": 12649088,
+      "step": 13625
+    },
+    {
+      "epoch": 6.426214049976426,
+      "grad_norm": 0.00037721716216765344,
+      "learning_rate": 0.2219634753334598,
+      "loss": 0.3627,
+      "num_input_tokens_seen": 12653664,
+      "step": 13630
+    },
+    {
+      "epoch": 6.428571428571429,
+      "grad_norm": 0.00045377982314676046,
+      "learning_rate": 0.22191178656116817,
+      "loss": 0.3101,
+      "num_input_tokens_seen": 12658032,
+      "step": 13635
+    },
+    {
+      "epoch": 6.430928807166431,
+      "grad_norm": 0.00026821537176147103,
+      "learning_rate": 0.2218600866991753,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 12663024,
+      "step": 13640
+    },
+    {
+      "epoch": 6.433286185761434,
+      "grad_norm": 0.0003727281291503459,
+      "learning_rate": 0.221808375755454,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 12667376,
+      "step": 13645
+    },
+    {
+      "epoch": 6.435643564356436,
+      "grad_norm": 0.0005351382424123585,
+      "learning_rate": 0.22175665373797881,
+      "loss": 0.2649,
+      "num_input_tokens_seen": 12672112,
+      "step": 13650
+    },
+    {
+      "epoch": 6.438000942951438,
+      "grad_norm": 0.0006879759603179991,
+      "learning_rate": 0.22170492065472583,
+      "loss": 0.321,
+      "num_input_tokens_seen": 12676960,
+      "step": 13655
+    },
+    {
+      "epoch": 6.44035832154644,
+      "grad_norm": 0.0005002397228963673,
+      "learning_rate": 0.221653176513673,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 12682112,
+      "step": 13660
+    },
+    {
+      "epoch": 6.442715700141442,
+      "grad_norm": 0.0001723268796922639,
+      "learning_rate": 0.2216014213227999,
+      "loss": 0.2882,
+      "num_input_tokens_seen": 12687040,
+      "step": 13665
+    },
+    {
+      "epoch": 6.445073078736445,
+      "grad_norm": 0.0005546805332414806,
+      "learning_rate": 0.22154965509008784,
+      "loss": 0.2862,
+      "num_input_tokens_seen": 12691696,
+      "step": 13670
+    },
+    {
+      "epoch": 6.447430457331447,
+      "grad_norm": 0.0008183532627299428,
+      "learning_rate": 0.2214978778235198,
+      "loss": 0.4059,
+      "num_input_tokens_seen": 12695600,
+      "step": 13675
+    },
+    {
+      "epoch": 6.4497878359264496,
+      "grad_norm": 0.0002620458835735917,
+      "learning_rate": 0.2214460895310805,
+      "loss": 0.2367,
+      "num_input_tokens_seen": 12700320,
+      "step": 13680
+    },
+    {
+      "epoch": 6.452145214521452,
+      "grad_norm": 0.0008521504350937903,
+      "learning_rate": 0.22139429022075635,
+      "loss": 0.435,
+      "num_input_tokens_seen": 12705648,
+      "step": 13685
+    },
+    {
+      "epoch": 6.454502593116454,
+      "grad_norm": 0.0004168350133113563,
+      "learning_rate": 0.22134247990053546,
+      "loss": 0.2867,
+      "num_input_tokens_seen": 12710208,
+      "step": 13690
+    },
+    {
+      "epoch": 6.456859971711457,
+      "grad_norm": 0.0006307765725068748,
+      "learning_rate": 0.2212906585784076,
+      "loss": 0.3001,
+      "num_input_tokens_seen": 12715408,
+      "step": 13695
+    },
+    {
+      "epoch": 6.459217350306459,
+      "grad_norm": 0.0011924736900255084,
+      "learning_rate": 0.22123882626236432,
+      "loss": 0.3959,
+      "num_input_tokens_seen": 12719872,
+      "step": 13700
+    },
+    {
+      "epoch": 6.461574728901462,
+      "grad_norm": 0.0006186272366903722,
+      "learning_rate": 0.2211869829603988,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 12723680,
+      "step": 13705
+    },
+    {
+      "epoch": 6.463932107496464,
+      "grad_norm": 0.0003322682750876993,
+      "learning_rate": 0.22113512868050592,
+      "loss": 0.3178,
+      "num_input_tokens_seen": 12728208,
+      "step": 13710
+    },
+    {
+      "epoch": 6.466289486091466,
+      "grad_norm": 0.0005713837454095483,
+      "learning_rate": 0.2210832634306822,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 12732480,
+      "step": 13715
+    },
+    {
+      "epoch": 6.468646864686469,
+      "grad_norm": 0.0007940390496514738,
+      "learning_rate": 0.22103138721892598,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 12737456,
+      "step": 13720
+    },
+    {
+      "epoch": 6.471004243281471,
+      "grad_norm": 0.00046193404705263674,
+      "learning_rate": 0.22097950005323724,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 12742688,
+      "step": 13725
+    },
+    {
+      "epoch": 6.473361621876474,
+      "grad_norm": 0.00037216590135358274,
+      "learning_rate": 0.22092760194161762,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 12747840,
+      "step": 13730
+    },
+    {
+      "epoch": 6.475719000471476,
+      "grad_norm": 0.0003754154604393989,
+      "learning_rate": 0.2208756928920704,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 12752928,
+      "step": 13735
+    },
+    {
+      "epoch": 6.478076379066478,
+      "grad_norm": 0.0005545942112803459,
+      "learning_rate": 0.22082377291260072,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 12757184,
+      "step": 13740
+    },
+    {
+      "epoch": 6.480433757661481,
+      "grad_norm": 0.000297720602247864,
+      "learning_rate": 0.2207718420112152,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 12761168,
+      "step": 13745
+    },
+    {
+      "epoch": 6.482791136256483,
+      "grad_norm": 0.00025167575222440064,
+      "learning_rate": 0.22071990019592228,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 12765792,
+      "step": 13750
+    },
+    {
+      "epoch": 6.485148514851485,
+      "grad_norm": 0.0002288164250785485,
+      "learning_rate": 0.22066794747473198,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 12770736,
+      "step": 13755
+    },
+    {
+      "epoch": 6.487505893446487,
+      "grad_norm": 0.000462934811366722,
+      "learning_rate": 0.2206159838556562,
+      "loss": 0.2917,
+      "num_input_tokens_seen": 12775248,
+      "step": 13760
+    },
+    {
+      "epoch": 6.4898632720414895,
+      "grad_norm": 0.00035227526677772403,
+      "learning_rate": 0.2205640093467082,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 12779792,
+      "step": 13765
+    },
+    {
+      "epoch": 6.492220650636492,
+      "grad_norm": 0.0003103716589976102,
+      "learning_rate": 0.22051202395590322,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 12785184,
+      "step": 13770
+    },
+    {
+      "epoch": 6.494578029231494,
+      "grad_norm": 0.0004240995040163398,
+      "learning_rate": 0.22046002769125808,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 12789968,
+      "step": 13775
+    },
+    {
+      "epoch": 6.496935407826497,
+      "grad_norm": 0.0005643957410939038,
+      "learning_rate": 0.2204080205607912,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 12794832,
+      "step": 13780
+    },
+    {
+      "epoch": 6.499292786421499,
+      "grad_norm": 0.0002967377658933401,
+      "learning_rate": 0.22035600257252272,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 12799776,
+      "step": 13785
+    },
+    {
+      "epoch": 6.5016501650165015,
+      "grad_norm": 0.0005725009250454605,
+      "learning_rate": 0.2203039737344745,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 12803824,
+      "step": 13790
+    },
+    {
+      "epoch": 6.504007543611504,
+      "grad_norm": 0.00028594222385436296,
+      "learning_rate": 0.22025193405467003,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 12808496,
+      "step": 13795
+    },
+    {
+      "epoch": 6.506364922206506,
+      "grad_norm": 0.0005518677644431591,
+      "learning_rate": 0.2201998835411345,
+      "loss": 0.2924,
+      "num_input_tokens_seen": 12813808,
+      "step": 13800
+    },
+    {
+      "epoch": 6.506364922206506,
+      "eval_loss": 0.32751214504241943,
+      "eval_runtime": 33.617,
+      "eval_samples_per_second": 28.051,
+      "eval_steps_per_second": 14.041,
+      "num_input_tokens_seen": 12813808,
+      "step": 13800
+    },
+    {
+      "epoch": 6.508722300801509,
+      "grad_norm": 0.0010910211130976677,
+      "learning_rate": 0.22014782220189474,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 12818576,
+      "step": 13805
+    },
+    {
+      "epoch": 6.511079679396511,
+      "grad_norm": 0.0007291442598216236,
+      "learning_rate": 0.2200957500449793,
+      "loss": 0.3584,
+      "num_input_tokens_seen": 12822800,
+      "step": 13810
+    },
+    {
+      "epoch": 6.5134370579915135,
+      "grad_norm": 0.0002774953900370747,
+      "learning_rate": 0.22004366707841827,
+      "loss": 0.3101,
+      "num_input_tokens_seen": 12826912,
+      "step": 13815
+    },
+    {
+      "epoch": 6.515794436586516,
+      "grad_norm": 0.00025200104573741555,
+      "learning_rate": 0.21999157331024358,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 12830960,
+      "step": 13820
+    },
+    {
+      "epoch": 6.518151815181518,
+      "grad_norm": 0.00030787987634539604,
+      "learning_rate": 0.21993946874848871,
+      "loss": 0.3067,
+      "num_input_tokens_seen": 12835392,
+      "step": 13825
+    },
+    {
+      "epoch": 6.520509193776521,
+      "grad_norm": 0.00041129847522825,
+      "learning_rate": 0.2198873534011888,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 12839744,
+      "step": 13830
+    },
+    {
+      "epoch": 6.522866572371523,
+      "grad_norm": 0.000298758182907477,
+      "learning_rate": 0.2198352272763808,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 12844736,
+      "step": 13835
+    },
+    {
+      "epoch": 6.5252239509665255,
+      "grad_norm": 0.0003215717733837664,
+      "learning_rate": 0.2197830903821031,
+      "loss": 0.2673,
+      "num_input_tokens_seen": 12849008,
+      "step": 13840
+    },
+    {
+      "epoch": 6.527581329561528,
+      "grad_norm": 0.0005263911443762481,
+      "learning_rate": 0.21973094272639598,
+      "loss": 0.3024,
+      "num_input_tokens_seen": 12853664,
+      "step": 13845
+    },
+    {
+      "epoch": 6.52993870815653,
+      "grad_norm": 0.0003213614982087165,
+      "learning_rate": 0.21967878431730117,
+      "loss": 0.2692,
+      "num_input_tokens_seen": 12858944,
+      "step": 13850
+    },
+    {
+      "epoch": 6.532296086751533,
+      "grad_norm": 0.0002929504553321749,
+      "learning_rate": 0.21962661516286217,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 12863312,
+      "step": 13855
+    },
+    {
+      "epoch": 6.534653465346535,
+      "grad_norm": 0.00016637775115668774,
+      "learning_rate": 0.21957443527112414,
+      "loss": 0.3752,
+      "num_input_tokens_seen": 12867600,
+      "step": 13860
+    },
+    {
+      "epoch": 6.537010843941537,
+      "grad_norm": 0.0001951574085978791,
+      "learning_rate": 0.21952224465013384,
+      "loss": 0.3841,
+      "num_input_tokens_seen": 12873328,
+      "step": 13865
+    },
+    {
+      "epoch": 6.539368222536539,
+      "grad_norm": 0.00034292059717699885,
+      "learning_rate": 0.21947004330793976,
+      "loss": 0.319,
+      "num_input_tokens_seen": 12877168,
+      "step": 13870
+    },
+    {
+      "epoch": 6.5417256011315414,
+      "grad_norm": 0.0002488042810000479,
+      "learning_rate": 0.21941783125259198,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 12882160,
+      "step": 13875
+    },
+    {
+      "epoch": 6.544082979726544,
+      "grad_norm": 0.0008862855029292405,
+      "learning_rate": 0.21936560849214226,
+      "loss": 0.3101,
+      "num_input_tokens_seen": 12887184,
+      "step": 13880
+    },
+    {
+      "epoch": 6.546440358321546,
+      "grad_norm": 0.0008831215091049671,
+      "learning_rate": 0.21931337503464404,
+      "loss": 0.3351,
+      "num_input_tokens_seen": 12891136,
+      "step": 13885
+    },
+    {
+      "epoch": 6.548797736916549,
+      "grad_norm": 0.000411551067372784,
+      "learning_rate": 0.21926113088815233,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 12895472,
+      "step": 13890
+    },
+    {
+      "epoch": 6.551155115511551,
+      "grad_norm": 0.00044759048614650965,
+      "learning_rate": 0.2192088760607238,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 12899904,
+      "step": 13895
+    },
+    {
+      "epoch": 6.5535124941065535,
+      "grad_norm": 0.0005279082106426358,
+      "learning_rate": 0.2191566105604169,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 12905712,
+      "step": 13900
+    },
+    {
+      "epoch": 6.555869872701556,
+      "grad_norm": 0.0006975981523282826,
+      "learning_rate": 0.21910433439529153,
+      "loss": 0.343,
+      "num_input_tokens_seen": 12909856,
+      "step": 13905
+    },
+    {
+      "epoch": 6.558227251296558,
+      "grad_norm": 0.0002978817792609334,
+      "learning_rate": 0.2190520475734094,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 12914768,
+      "step": 13910
+    },
+    {
+      "epoch": 6.560584629891561,
+      "grad_norm": 0.00044346394133754075,
+      "learning_rate": 0.2189997501028338,
+      "loss": 0.31,
+      "num_input_tokens_seen": 12919104,
+      "step": 13915
+    },
+    {
+      "epoch": 6.562942008486563,
+      "grad_norm": 0.0007619721000082791,
+      "learning_rate": 0.2189474419916296,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 12924720,
+      "step": 13920
+    },
+    {
+      "epoch": 6.5652993870815655,
+      "grad_norm": 0.00038558689993806183,
+      "learning_rate": 0.21889512324786342,
+      "loss": 0.3569,
+      "num_input_tokens_seen": 12929056,
+      "step": 13925
+    },
+    {
+      "epoch": 6.567656765676568,
+      "grad_norm": 0.0014767240500077605,
+      "learning_rate": 0.21884279387960345,
+      "loss": 0.346,
+      "num_input_tokens_seen": 12934048,
+      "step": 13930
+    },
+    {
+      "epoch": 6.57001414427157,
+      "grad_norm": 0.0003805407031904906,
+      "learning_rate": 0.2187904538949195,
+      "loss": 0.2971,
+      "num_input_tokens_seen": 12938528,
+      "step": 13935
+    },
+    {
+      "epoch": 6.572371522866573,
+      "grad_norm": 0.0002880537649616599,
+      "learning_rate": 0.2187381033018831,
+      "loss": 0.3038,
+      "num_input_tokens_seen": 12942736,
+      "step": 13940
+    },
+    {
+      "epoch": 6.574728901461575,
+      "grad_norm": 0.00021178126917220652,
+      "learning_rate": 0.2186857421085673,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 12947856,
+      "step": 13945
+    },
+    {
+      "epoch": 6.5770862800565775,
+      "grad_norm": 0.0006033189711160958,
+      "learning_rate": 0.21863337032304697,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 12953056,
+      "step": 13950
+    },
+    {
+      "epoch": 6.579443658651579,
+      "grad_norm": 0.00023607432376593351,
+      "learning_rate": 0.21858098795339845,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 12957280,
+      "step": 13955
+    },
+    {
+      "epoch": 6.581801037246581,
+      "grad_norm": 0.00041464014793746173,
+      "learning_rate": 0.21852859500769975,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 12961888,
+      "step": 13960
+    },
+    {
+      "epoch": 6.584158415841584,
+      "grad_norm": 0.0006052834796719253,
+      "learning_rate": 0.21847619149403044,
+      "loss": 0.3701,
+      "num_input_tokens_seen": 12966480,
+      "step": 13965
+    },
+    {
+      "epoch": 6.586515794436586,
+      "grad_norm": 0.000366109685273841,
+      "learning_rate": 0.21842377742047195,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 12971536,
+      "step": 13970
+    },
+    {
+      "epoch": 6.588873173031589,
+      "grad_norm": 0.0004185339203104377,
+      "learning_rate": 0.21837135279510705,
+      "loss": 0.349,
+      "num_input_tokens_seen": 12976000,
+      "step": 13975
+    },
+    {
+      "epoch": 6.591230551626591,
+      "grad_norm": 0.0013127026613801718,
+      "learning_rate": 0.21831891762602038,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 12981104,
+      "step": 13980
+    },
+    {
+      "epoch": 6.593587930221593,
+      "grad_norm": 0.0008059319807216525,
+      "learning_rate": 0.21826647192129806,
+      "loss": 0.3708,
+      "num_input_tokens_seen": 12985328,
+      "step": 13985
+    },
+    {
+      "epoch": 6.595945308816596,
+      "grad_norm": 0.0012003586161881685,
+      "learning_rate": 0.21821401568902787,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 12989728,
+      "step": 13990
+    },
+    {
+      "epoch": 6.598302687411598,
+      "grad_norm": 0.0004941043443977833,
+      "learning_rate": 0.21816154893729925,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 12994032,
+      "step": 13995
+    },
+    {
+      "epoch": 6.600660066006601,
+      "grad_norm": 0.0003747625451069325,
+      "learning_rate": 0.2181090716742032,
+      "loss": 0.343,
+      "num_input_tokens_seen": 12998256,
+      "step": 14000
+    },
+    {
+      "epoch": 6.600660066006601,
+      "eval_loss": 0.33420440554618835,
+      "eval_runtime": 33.5409,
+      "eval_samples_per_second": 28.115,
+      "eval_steps_per_second": 14.072,
+      "num_input_tokens_seen": 12998256,
+      "step": 14000
+    },
+    {
+      "epoch": 6.603017444601603,
+      "grad_norm": 0.0013049525441601872,
+      "learning_rate": 0.21805658390783236,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 13002672,
+      "step": 14005
+    },
+    {
+      "epoch": 6.605374823196605,
+      "grad_norm": 0.0004276786930859089,
+      "learning_rate": 0.21800408564628107,
+      "loss": 0.354,
+      "num_input_tokens_seen": 13007744,
+      "step": 14010
+    },
+    {
+      "epoch": 6.607732201791608,
+      "grad_norm": 0.0007034811424091458,
+      "learning_rate": 0.21795157689764516,
+      "loss": 0.2709,
+      "num_input_tokens_seen": 13012496,
+      "step": 14015
+    },
+    {
+      "epoch": 6.61008958038661,
+      "grad_norm": 0.0002554778184276074,
+      "learning_rate": 0.21789905767002216,
+      "loss": 0.3784,
+      "num_input_tokens_seen": 13016560,
+      "step": 14020
+    },
+    {
+      "epoch": 6.612446958981613,
+      "grad_norm": 0.0008298092288896441,
+      "learning_rate": 0.2178465279715112,
+      "loss": 0.2294,
+      "num_input_tokens_seen": 13020064,
+      "step": 14025
+    },
+    {
+      "epoch": 6.614804337576615,
+      "grad_norm": 0.0005537873948924243,
+      "learning_rate": 0.21779398781021303,
+      "loss": 0.3682,
+      "num_input_tokens_seen": 13025552,
+      "step": 14030
+    },
+    {
+      "epoch": 6.617161716171617,
+      "grad_norm": 0.0003937353321816772,
+      "learning_rate": 0.21774143719422998,
+      "loss": 0.4036,
+      "num_input_tokens_seen": 13030656,
+      "step": 14035
+    },
+    {
+      "epoch": 6.61951909476662,
+      "grad_norm": 0.0006557274609804153,
+      "learning_rate": 0.21768887613166601,
+      "loss": 0.304,
+      "num_input_tokens_seen": 13036496,
+      "step": 14040
+    },
+    {
+      "epoch": 6.621876473361622,
+      "grad_norm": 0.0013356322888284922,
+      "learning_rate": 0.2176363046306267,
+      "loss": 0.3697,
+      "num_input_tokens_seen": 13041248,
+      "step": 14045
+    },
+    {
+      "epoch": 6.624233851956625,
+      "grad_norm": 0.0003360650152899325,
+      "learning_rate": 0.21758372269921925,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 13046080,
+      "step": 14050
+    },
+    {
+      "epoch": 6.626591230551627,
+      "grad_norm": 0.0006078695878386497,
+      "learning_rate": 0.21753113034555244,
+      "loss": 0.364,
+      "num_input_tokens_seen": 13049568,
+      "step": 14055
+    },
+    {
+      "epoch": 6.628948609146629,
+      "grad_norm": 0.0006880693254061043,
+      "learning_rate": 0.2174785275777367,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 13054544,
+      "step": 14060
+    },
+    {
+      "epoch": 6.631305987741631,
+      "grad_norm": 0.0005993805825710297,
+      "learning_rate": 0.21742591440388404,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 13059056,
+      "step": 14065
+    },
+    {
+      "epoch": 6.633663366336633,
+      "grad_norm": 0.0007243824074976146,
+      "learning_rate": 0.21737329083210802,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 13062976,
+      "step": 14070
+    },
+    {
+      "epoch": 6.636020744931636,
+      "grad_norm": 0.0003645471588242799,
+      "learning_rate": 0.2173206568705239,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 13067760,
+      "step": 14075
+    },
+    {
+      "epoch": 6.638378123526638,
+      "grad_norm": 0.0006703917752020061,
+      "learning_rate": 0.2172680125272485,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 13072256,
+      "step": 14080
+    },
+    {
+      "epoch": 6.6407355021216405,
+      "grad_norm": 0.000335483142407611,
+      "learning_rate": 0.2172153578104002,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 13076512,
+      "step": 14085
+    },
+    {
+      "epoch": 6.643092880716643,
+      "grad_norm": 0.00028596099582500756,
+      "learning_rate": 0.21716269272809902,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 13080384,
+      "step": 14090
+    },
+    {
+      "epoch": 6.645450259311645,
+      "grad_norm": 0.00042184468475170434,
+      "learning_rate": 0.21711001728846666,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 13085072,
+      "step": 14095
+    },
+    {
+      "epoch": 6.647807637906648,
+      "grad_norm": 0.0007219462422654033,
+      "learning_rate": 0.21705733149962628,
+      "loss": 0.3691,
+      "num_input_tokens_seen": 13089872,
+      "step": 14100
+    },
+    {
+      "epoch": 6.65016501650165,
+      "grad_norm": 0.00026200051070190966,
+      "learning_rate": 0.21700463536970263,
+      "loss": 0.2908,
+      "num_input_tokens_seen": 13094528,
+      "step": 14105
+    },
+    {
+      "epoch": 6.6525223950966526,
+      "grad_norm": 0.00039986122283153236,
+      "learning_rate": 0.21695192890682222,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 13098352,
+      "step": 14110
+    },
+    {
+      "epoch": 6.654879773691655,
+      "grad_norm": 0.0005140990251675248,
+      "learning_rate": 0.21689921211911298,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 13102608,
+      "step": 14115
+    },
+    {
+      "epoch": 6.657237152286657,
+      "grad_norm": 0.0007193965138867497,
+      "learning_rate": 0.21684648501470452,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 13107536,
+      "step": 14120
+    },
+    {
+      "epoch": 6.65959453088166,
+      "grad_norm": 0.00031907291850075126,
+      "learning_rate": 0.216793747601728,
+      "loss": 0.2886,
+      "num_input_tokens_seen": 13112032,
+      "step": 14125
+    },
+    {
+      "epoch": 6.661951909476662,
+      "grad_norm": 0.0006497912108898163,
+      "learning_rate": 0.21674099988831627,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 13117088,
+      "step": 14130
+    },
+    {
+      "epoch": 6.664309288071665,
+      "grad_norm": 0.0003200587525498122,
+      "learning_rate": 0.21668824188260363,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 13122432,
+      "step": 14135
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.0010755883995443583,
+      "learning_rate": 0.21663547359272606,
+      "loss": 0.3703,
+      "num_input_tokens_seen": 13127408,
+      "step": 14140
+    },
+    {
+      "epoch": 6.669024045261669,
+      "grad_norm": 0.00047026926768012345,
+      "learning_rate": 0.216582695026821,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 13131312,
+      "step": 14145
+    },
+    {
+      "epoch": 6.671381423856672,
+      "grad_norm": 0.0002824877738021314,
+      "learning_rate": 0.21652990619302767,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 13135952,
+      "step": 14150
+    },
+    {
+      "epoch": 6.673738802451673,
+      "grad_norm": 0.00021745850972365588,
+      "learning_rate": 0.21647710709948673,
+      "loss": 0.261,
+      "num_input_tokens_seen": 13140656,
+      "step": 14155
+    },
+    {
+      "epoch": 6.676096181046676,
+      "grad_norm": 0.0006767858285456896,
+      "learning_rate": 0.2164242977543405,
+      "loss": 0.3046,
+      "num_input_tokens_seen": 13144624,
+      "step": 14160
+    },
+    {
+      "epoch": 6.678453559641678,
+      "grad_norm": 0.0001754775148583576,
+      "learning_rate": 0.21637147816573277,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 13148656,
+      "step": 14165
+    },
+    {
+      "epoch": 6.6808109382366805,
+      "grad_norm": 0.000856697850394994,
+      "learning_rate": 0.21631864834180908,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 13154064,
+      "step": 14170
+    },
+    {
+      "epoch": 6.683168316831683,
+      "grad_norm": 0.0006391651695594192,
+      "learning_rate": 0.21626580829071637,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 13158512,
+      "step": 14175
+    },
+    {
+      "epoch": 6.685525695426685,
+      "grad_norm": 0.00040469865780323744,
+      "learning_rate": 0.21621295802060328,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 13162720,
+      "step": 14180
+    },
+    {
+      "epoch": 6.687883074021688,
+      "grad_norm": 0.0008553090156055987,
+      "learning_rate": 0.21616009753961996,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 13167152,
+      "step": 14185
+    },
+    {
+      "epoch": 6.69024045261669,
+      "grad_norm": 0.0007822003099136055,
+      "learning_rate": 0.2161072268559182,
+      "loss": 0.3147,
+      "num_input_tokens_seen": 13171840,
+      "step": 14190
+    },
+    {
+      "epoch": 6.6925978312116925,
+      "grad_norm": 0.0006813748041167855,
+      "learning_rate": 0.21605434597765133,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 13176624,
+      "step": 14195
+    },
+    {
+      "epoch": 6.694955209806695,
+      "grad_norm": 0.0006490648374892771,
+      "learning_rate": 0.21600145491297418,
+      "loss": 0.4058,
+      "num_input_tokens_seen": 13180928,
+      "step": 14200
+    },
+    {
+      "epoch": 6.694955209806695,
+      "eval_loss": 0.32722675800323486,
+      "eval_runtime": 33.6327,
+      "eval_samples_per_second": 28.038,
+      "eval_steps_per_second": 14.034,
+      "num_input_tokens_seen": 13180928,
+      "step": 14200
+    },
+    {
+      "epoch": 6.697312588401697,
+      "grad_norm": 0.00019816856365650892,
+      "learning_rate": 0.21594855367004326,
+      "loss": 0.3032,
+      "num_input_tokens_seen": 13185840,
+      "step": 14205
+    },
+    {
+      "epoch": 6.6996699669967,
+      "grad_norm": 0.00027201027842238545,
+      "learning_rate": 0.21589564225701663,
+      "loss": 0.2965,
+      "num_input_tokens_seen": 13189712,
+      "step": 14210
+    },
+    {
+      "epoch": 6.702027345591702,
+      "grad_norm": 0.0004295133694540709,
+      "learning_rate": 0.21584272068205385,
+      "loss": 0.2895,
+      "num_input_tokens_seen": 13193360,
+      "step": 14215
+    },
+    {
+      "epoch": 6.7043847241867045,
+      "grad_norm": 0.0006830579950474203,
+      "learning_rate": 0.2157897889533161,
+      "loss": 0.3681,
+      "num_input_tokens_seen": 13197616,
+      "step": 14220
+    },
+    {
+      "epoch": 6.706742102781707,
+      "grad_norm": 0.0007237549289129674,
+      "learning_rate": 0.21573684707896612,
+      "loss": 0.339,
+      "num_input_tokens_seen": 13202656,
+      "step": 14225
+    },
+    {
+      "epoch": 6.709099481376709,
+      "grad_norm": 0.0003662873350549489,
+      "learning_rate": 0.21568389506716826,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 13207456,
+      "step": 14230
+    },
+    {
+      "epoch": 6.711456859971712,
+      "grad_norm": 0.0006817183457314968,
+      "learning_rate": 0.21563093292608831,
+      "loss": 0.3944,
+      "num_input_tokens_seen": 13211920,
+      "step": 14235
+    },
+    {
+      "epoch": 6.713814238566714,
+      "grad_norm": 0.00028196891071274877,
+      "learning_rate": 0.21557796066389376,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 13216272,
+      "step": 14240
+    },
+    {
+      "epoch": 6.7161716171617165,
+      "grad_norm": 0.0005876949871890247,
+      "learning_rate": 0.21552497828875353,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 13220688,
+      "step": 14245
+    },
+    {
+      "epoch": 6.718528995756719,
+      "grad_norm": 0.0003798031248152256,
+      "learning_rate": 0.21547198580883828,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 13225488,
+      "step": 14250
+    },
+    {
+      "epoch": 6.720886374351721,
+      "grad_norm": 0.0007523638778366148,
+      "learning_rate": 0.21541898323232,
+      "loss": 0.311,
+      "num_input_tokens_seen": 13232080,
+      "step": 14255
+    },
+    {
+      "epoch": 6.723243752946724,
+      "grad_norm": 0.0002874609490390867,
+      "learning_rate": 0.2153659705673724,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 13236896,
+      "step": 14260
+    },
+    {
+      "epoch": 6.725601131541725,
+      "grad_norm": 0.0007067027618177235,
+      "learning_rate": 0.2153129478221707,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 13241264,
+      "step": 14265
+    },
+    {
+      "epoch": 6.727958510136728,
+      "grad_norm": 0.00038891928852535784,
+      "learning_rate": 0.21525991500489164,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 13244944,
+      "step": 14270
+    },
+    {
+      "epoch": 6.73031588873173,
+      "grad_norm": 0.0002839205553755164,
+      "learning_rate": 0.21520687212371362,
+      "loss": 0.35,
+      "num_input_tokens_seen": 13249104,
+      "step": 14275
+    },
+    {
+      "epoch": 6.732673267326732,
+      "grad_norm": 0.0007011666311882436,
+      "learning_rate": 0.21515381918681648,
+      "loss": 0.2781,
+      "num_input_tokens_seen": 13254096,
+      "step": 14280
+    },
+    {
+      "epoch": 6.735030645921735,
+      "grad_norm": 0.0004967047134414315,
+      "learning_rate": 0.21510075620238167,
+      "loss": 0.3744,
+      "num_input_tokens_seen": 13258400,
+      "step": 14285
+    },
+    {
+      "epoch": 6.737388024516737,
+      "grad_norm": 0.000856748956721276,
+      "learning_rate": 0.21504768317859208,
+      "loss": 0.2775,
+      "num_input_tokens_seen": 13262400,
+      "step": 14290
+    },
+    {
+      "epoch": 6.73974540311174,
+      "grad_norm": 0.00070917111588642,
+      "learning_rate": 0.2149946001236323,
+      "loss": 0.4022,
+      "num_input_tokens_seen": 13266832,
+      "step": 14295
+    },
+    {
+      "epoch": 6.742102781706742,
+      "grad_norm": 0.0008361553191207349,
+      "learning_rate": 0.21494150704568848,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 13272624,
+      "step": 14300
+    },
+    {
+      "epoch": 6.7444601603017444,
+      "grad_norm": 0.0006514727137982845,
+      "learning_rate": 0.21488840395294811,
+      "loss": 0.3651,
+      "num_input_tokens_seen": 13276720,
+      "step": 14305
+    },
+    {
+      "epoch": 6.746817538896747,
+      "grad_norm": 0.0014565972378477454,
+      "learning_rate": 0.21483529085360042,
+      "loss": 0.3783,
+      "num_input_tokens_seen": 13281680,
+      "step": 14310
+    },
+    {
+      "epoch": 6.749174917491749,
+      "grad_norm": 0.0005765102105215192,
+      "learning_rate": 0.2147821677558361,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 13286480,
+      "step": 14315
+    },
+    {
+      "epoch": 6.751532296086752,
+      "grad_norm": 0.0004302913148421794,
+      "learning_rate": 0.2147290346678475,
+      "loss": 0.329,
+      "num_input_tokens_seen": 13291280,
+      "step": 14320
+    },
+    {
+      "epoch": 6.753889674681754,
+      "grad_norm": 0.0006918791914358735,
+      "learning_rate": 0.21467589159782827,
+      "loss": 0.329,
+      "num_input_tokens_seen": 13296864,
+      "step": 14325
+    },
+    {
+      "epoch": 6.7562470532767565,
+      "grad_norm": 0.0005532744689844549,
+      "learning_rate": 0.21462273855397374,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 13302416,
+      "step": 14330
+    },
+    {
+      "epoch": 6.758604431871759,
+      "grad_norm": 0.0002723954676184803,
+      "learning_rate": 0.21456957554448083,
+      "loss": 0.3683,
+      "num_input_tokens_seen": 13306416,
+      "step": 14335
+    },
+    {
+      "epoch": 6.760961810466761,
+      "grad_norm": 0.00022753597295377403,
+      "learning_rate": 0.21451640257754795,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 13310976,
+      "step": 14340
+    },
+    {
+      "epoch": 6.763319189061764,
+      "grad_norm": 0.00023308326490223408,
+      "learning_rate": 0.21446321966137508,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 13315472,
+      "step": 14345
+    },
+    {
+      "epoch": 6.765676567656766,
+      "grad_norm": 0.0007273521623574197,
+      "learning_rate": 0.21441002680416354,
+      "loss": 0.3693,
+      "num_input_tokens_seen": 13319824,
+      "step": 14350
+    },
+    {
+      "epoch": 6.768033946251768,
+      "grad_norm": 0.00042310828575864434,
+      "learning_rate": 0.21435682401411654,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 13323520,
+      "step": 14355
+    },
+    {
+      "epoch": 6.77039132484677,
+      "grad_norm": 0.00027803058037534356,
+      "learning_rate": 0.2143036112994385,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 13328272,
+      "step": 14360
+    },
+    {
+      "epoch": 6.772748703441772,
+      "grad_norm": 0.0006647948757745326,
+      "learning_rate": 0.21425038866833548,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 13332320,
+      "step": 14365
+    },
+    {
+      "epoch": 6.775106082036775,
+      "grad_norm": 0.0002683963975869119,
+      "learning_rate": 0.21419715612901508,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 13337328,
+      "step": 14370
+    },
+    {
+      "epoch": 6.777463460631777,
+      "grad_norm": 0.0002939833502750844,
+      "learning_rate": 0.21414391368968652,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 13341376,
+      "step": 14375
+    },
+    {
+      "epoch": 6.77982083922678,
+      "grad_norm": 0.00029308756347745657,
+      "learning_rate": 0.21409066135856034,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 13345616,
+      "step": 14380
+    },
+    {
+      "epoch": 6.782178217821782,
+      "grad_norm": 0.00032922360696829855,
+      "learning_rate": 0.21403739914384878,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 13350288,
+      "step": 14385
+    },
+    {
+      "epoch": 6.784535596416784,
+      "grad_norm": 0.0003242999955546111,
+      "learning_rate": 0.21398412705376554,
+      "loss": 0.336,
+      "num_input_tokens_seen": 13354576,
+      "step": 14390
+    },
+    {
+      "epoch": 6.786892975011787,
+      "grad_norm": 0.0005619427538476884,
+      "learning_rate": 0.2139308450965258,
+      "loss": 0.3745,
+      "num_input_tokens_seen": 13359712,
+      "step": 14395
+    },
+    {
+      "epoch": 6.789250353606789,
+      "grad_norm": 0.000560257351025939,
+      "learning_rate": 0.21387755328034638,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 13364368,
+      "step": 14400
+    },
+    {
+      "epoch": 6.789250353606789,
+      "eval_loss": 0.3324189782142639,
+      "eval_runtime": 33.6266,
+      "eval_samples_per_second": 28.043,
+      "eval_steps_per_second": 14.036,
+      "num_input_tokens_seen": 13364368,
+      "step": 14400
+    },
+    {
+      "epoch": 6.791607732201792,
+      "grad_norm": 0.00036354432813823223,
+      "learning_rate": 0.2138242516134455,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 13369152,
+      "step": 14405
+    },
+    {
+      "epoch": 6.793965110796794,
+      "grad_norm": 0.0005917485104873776,
+      "learning_rate": 0.2137709401040429,
+      "loss": 0.3633,
+      "num_input_tokens_seen": 13374800,
+      "step": 14410
+    },
+    {
+      "epoch": 6.796322489391796,
+      "grad_norm": 0.0003374478255864233,
+      "learning_rate": 0.21371761876036,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 13379552,
+      "step": 14415
+    },
+    {
+      "epoch": 6.798679867986799,
+      "grad_norm": 0.0006359218969009817,
+      "learning_rate": 0.21366428759061956,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 13384560,
+      "step": 14420
+    },
+    {
+      "epoch": 6.801037246581801,
+      "grad_norm": 0.00028011773247271776,
+      "learning_rate": 0.2136109466030459,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 13388592,
+      "step": 14425
+    },
+    {
+      "epoch": 6.803394625176804,
+      "grad_norm": 0.00038756447611376643,
+      "learning_rate": 0.2135575958058649,
+      "loss": 0.337,
+      "num_input_tokens_seen": 13393568,
+      "step": 14430
+    },
+    {
+      "epoch": 6.805752003771806,
+      "grad_norm": 0.00029880707734264433,
+      "learning_rate": 0.2135042352073039,
+      "loss": 0.3805,
+      "num_input_tokens_seen": 13398144,
+      "step": 14435
+    },
+    {
+      "epoch": 6.808109382366808,
+      "grad_norm": 0.0009162102360278368,
+      "learning_rate": 0.2134508648155918,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 13401904,
+      "step": 14440
+    },
+    {
+      "epoch": 6.810466760961811,
+      "grad_norm": 0.0003602454380597919,
+      "learning_rate": 0.213397484638959,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 13407360,
+      "step": 14445
+    },
+    {
+      "epoch": 6.812824139556813,
+      "grad_norm": 0.0003633061714936048,
+      "learning_rate": 0.21334409468563728,
+      "loss": 0.3583,
+      "num_input_tokens_seen": 13411344,
+      "step": 14450
+    },
+    {
+      "epoch": 6.815181518151816,
+      "grad_norm": 0.0006347072776407003,
+      "learning_rate": 0.2132906949638602,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 13416336,
+      "step": 14455
+    },
+    {
+      "epoch": 6.817538896746818,
+      "grad_norm": 0.00019480916671454906,
+      "learning_rate": 0.21323728548186255,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 13420832,
+      "step": 14460
+    },
+    {
+      "epoch": 6.8198962753418195,
+      "grad_norm": 0.0007190406904555857,
+      "learning_rate": 0.21318386624788088,
+      "loss": 0.326,
+      "num_input_tokens_seen": 13424896,
+      "step": 14465
+    },
+    {
+      "epoch": 6.822253653936822,
+      "grad_norm": 0.0009371261694468558,
+      "learning_rate": 0.21313043727015288,
+      "loss": 0.3716,
+      "num_input_tokens_seen": 13429712,
+      "step": 14470
+    },
+    {
+      "epoch": 6.824611032531824,
+      "grad_norm": 0.0003402047441340983,
+      "learning_rate": 0.2130769985569182,
+      "loss": 0.2932,
+      "num_input_tokens_seen": 13435120,
+      "step": 14475
+    },
+    {
+      "epoch": 6.826968411126827,
+      "grad_norm": 0.0006702453247271478,
+      "learning_rate": 0.21302355011641766,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 13439872,
+      "step": 14480
+    },
+    {
+      "epoch": 6.829325789721829,
+      "grad_norm": 0.0003475715348031372,
+      "learning_rate": 0.21297009195689365,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 13445664,
+      "step": 14485
+    },
+    {
+      "epoch": 6.8316831683168315,
+      "grad_norm": 0.00020544009748846292,
+      "learning_rate": 0.21291662408659015,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 13450496,
+      "step": 14490
+    },
+    {
+      "epoch": 6.834040546911834,
+      "grad_norm": 0.0003643927338998765,
+      "learning_rate": 0.21286314651375254,
+      "loss": 0.3833,
+      "num_input_tokens_seen": 13454848,
+      "step": 14495
+    },
+    {
+      "epoch": 6.836397925506836,
+      "grad_norm": 0.0007555923657491803,
+      "learning_rate": 0.2128096592466278,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 13459168,
+      "step": 14500
+    },
+    {
+      "epoch": 6.838755304101839,
+      "grad_norm": 0.0006004330352880061,
+      "learning_rate": 0.21275616229346428,
+      "loss": 0.3883,
+      "num_input_tokens_seen": 13462720,
+      "step": 14505
+    },
+    {
+      "epoch": 6.841112682696841,
+      "grad_norm": 0.0002454846107866615,
+      "learning_rate": 0.21270265566251184,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 13466688,
+      "step": 14510
+    },
+    {
+      "epoch": 6.8434700612918435,
+      "grad_norm": 0.00034411277738399804,
+      "learning_rate": 0.21264913936202193,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 13471536,
+      "step": 14515
+    },
+    {
+      "epoch": 6.845827439886846,
+      "grad_norm": 0.0007833614945411682,
+      "learning_rate": 0.2125956134002475,
+      "loss": 0.3946,
+      "num_input_tokens_seen": 13476352,
+      "step": 14520
+    },
+    {
+      "epoch": 6.848184818481848,
+      "grad_norm": 0.0004808433586731553,
+      "learning_rate": 0.2125420777854428,
+      "loss": 0.337,
+      "num_input_tokens_seen": 13480848,
+      "step": 14525
+    },
+    {
+      "epoch": 6.850542197076851,
+      "grad_norm": 0.00027888925978913903,
+      "learning_rate": 0.21248853252586372,
+      "loss": 0.3416,
+      "num_input_tokens_seen": 13485520,
+      "step": 14530
+    },
+    {
+      "epoch": 6.852899575671853,
+      "grad_norm": 0.0007581081008538604,
+      "learning_rate": 0.21243497762976774,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 13490496,
+      "step": 14535
+    },
+    {
+      "epoch": 6.8552569542668556,
+      "grad_norm": 0.0006813199142925441,
+      "learning_rate": 0.21238141310541356,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 13495520,
+      "step": 14540
+    },
+    {
+      "epoch": 6.857614332861858,
+      "grad_norm": 0.00044202309800311923,
+      "learning_rate": 0.21232783896106153,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 13499872,
+      "step": 14545
+    },
+    {
+      "epoch": 6.85997171145686,
+      "grad_norm": 0.0002616753045003861,
+      "learning_rate": 0.21227425520497345,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 13504096,
+      "step": 14550
+    },
+    {
+      "epoch": 6.862329090051862,
+      "grad_norm": 0.00047603403800167143,
+      "learning_rate": 0.2122206618454127,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 13508448,
+      "step": 14555
+    },
+    {
+      "epoch": 6.864686468646864,
+      "grad_norm": 0.00029617914697155356,
+      "learning_rate": 0.2121670588906439,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 13513296,
+      "step": 14560
+    },
+    {
+      "epoch": 6.867043847241867,
+      "grad_norm": 0.0005235266289673746,
+      "learning_rate": 0.21211344634893345,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 13518192,
+      "step": 14565
+    },
+    {
+      "epoch": 6.869401225836869,
+      "grad_norm": 0.0006631767028011382,
+      "learning_rate": 0.21205982422854897,
+      "loss": 0.274,
+      "num_input_tokens_seen": 13522576,
+      "step": 14570
+    },
+    {
+      "epoch": 6.8717586044318715,
+      "grad_norm": 0.0004922717344015837,
+      "learning_rate": 0.21200619253775974,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 13528096,
+      "step": 14575
+    },
+    {
+      "epoch": 6.874115983026874,
+      "grad_norm": 0.0003008534840773791,
+      "learning_rate": 0.21195255128483637,
+      "loss": 0.2752,
+      "num_input_tokens_seen": 13532848,
+      "step": 14580
+    },
+    {
+      "epoch": 6.876473361621876,
+      "grad_norm": 0.00024642085190862417,
+      "learning_rate": 0.21189890047805102,
+      "loss": 0.2709,
+      "num_input_tokens_seen": 13538176,
+      "step": 14585
+    },
+    {
+      "epoch": 6.878830740216879,
+      "grad_norm": 0.0008269547834061086,
+      "learning_rate": 0.21184524012567735,
+      "loss": 0.3971,
+      "num_input_tokens_seen": 13542800,
+      "step": 14590
+    },
+    {
+      "epoch": 6.881188118811881,
+      "grad_norm": 0.00023750113905407488,
+      "learning_rate": 0.2117915702359905,
+      "loss": 0.3721,
+      "num_input_tokens_seen": 13547472,
+      "step": 14595
+    },
+    {
+      "epoch": 6.8835454974068835,
+      "grad_norm": 0.0002912407217081636,
+      "learning_rate": 0.211737890817267,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 13552272,
+      "step": 14600
+    },
+    {
+      "epoch": 6.8835454974068835,
+      "eval_loss": 0.3278179466724396,
+      "eval_runtime": 33.5904,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 13552272,
+      "step": 14600
+    },
+    {
+      "epoch": 6.885902876001886,
+      "grad_norm": 0.0007401423063129187,
+      "learning_rate": 0.21168420187778483,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 13556112,
+      "step": 14605
+    },
+    {
+      "epoch": 6.888260254596888,
+      "grad_norm": 0.0005760547937825322,
+      "learning_rate": 0.21163050342582362,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 13560944,
+      "step": 14610
+    },
+    {
+      "epoch": 6.890617633191891,
+      "grad_norm": 0.00032762865885160863,
+      "learning_rate": 0.21157679546966426,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 13565472,
+      "step": 14615
+    },
+    {
+      "epoch": 6.892975011786893,
+      "grad_norm": 0.00037422747118398547,
+      "learning_rate": 0.2115230780175892,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 13569984,
+      "step": 14620
+    },
+    {
+      "epoch": 6.8953323903818955,
+      "grad_norm": 0.0005795953329652548,
+      "learning_rate": 0.21146935107788237,
+      "loss": 0.3263,
+      "num_input_tokens_seen": 13574096,
+      "step": 14625
+    },
+    {
+      "epoch": 6.897689768976898,
+      "grad_norm": 0.0003196821780875325,
+      "learning_rate": 0.21141561465882916,
+      "loss": 0.3616,
+      "num_input_tokens_seen": 13579312,
+      "step": 14630
+    },
+    {
+      "epoch": 6.9000471475719,
+      "grad_norm": 0.0007506263791583478,
+      "learning_rate": 0.21136186876871635,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 13583536,
+      "step": 14635
+    },
+    {
+      "epoch": 6.902404526166903,
+      "grad_norm": 0.0004211656632833183,
+      "learning_rate": 0.21130811341583225,
+      "loss": 0.3759,
+      "num_input_tokens_seen": 13588448,
+      "step": 14640
+    },
+    {
+      "epoch": 6.904761904761905,
+      "grad_norm": 0.00046700326493009925,
+      "learning_rate": 0.21125434860846667,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 13593168,
+      "step": 14645
+    },
+    {
+      "epoch": 6.9071192833569075,
+      "grad_norm": 0.0007491528522223234,
+      "learning_rate": 0.2112005743549107,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 13597328,
+      "step": 14650
+    },
+    {
+      "epoch": 6.90947666195191,
+      "grad_norm": 0.0006878235726617277,
+      "learning_rate": 0.21114679066345707,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 13601536,
+      "step": 14655
+    },
+    {
+      "epoch": 6.911834040546912,
+      "grad_norm": 0.0003169280244037509,
+      "learning_rate": 0.21109299754239993,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 13605680,
+      "step": 14660
+    },
+    {
+      "epoch": 6.914191419141914,
+      "grad_norm": 0.0003530918911565095,
+      "learning_rate": 0.21103919500003482,
+      "loss": 0.3567,
+      "num_input_tokens_seen": 13610816,
+      "step": 14665
+    },
+    {
+      "epoch": 6.916548797736916,
+      "grad_norm": 0.0002558138221502304,
+      "learning_rate": 0.21098538304465872,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 13615168,
+      "step": 14670
+    },
+    {
+      "epoch": 6.918906176331919,
+      "grad_norm": 0.0005398553912527859,
+      "learning_rate": 0.2109315616845702,
+      "loss": 0.325,
+      "num_input_tokens_seen": 13619408,
+      "step": 14675
+    },
+    {
+      "epoch": 6.921263554926921,
+      "grad_norm": 0.00021991961693856865,
+      "learning_rate": 0.21087773092806925,
+      "loss": 0.341,
+      "num_input_tokens_seen": 13623760,
+      "step": 14680
+    },
+    {
+      "epoch": 6.923620933521923,
+      "grad_norm": 0.0008906757575459778,
+      "learning_rate": 0.21082389078345704,
+      "loss": 0.3769,
+      "num_input_tokens_seen": 13627584,
+      "step": 14685
+    },
+    {
+      "epoch": 6.925978312116926,
+      "grad_norm": 0.0003103070193901658,
+      "learning_rate": 0.2107700412590365,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 13632432,
+      "step": 14690
+    },
+    {
+      "epoch": 6.928335690711928,
+      "grad_norm": 0.00037347906618379056,
+      "learning_rate": 0.210716182363112,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 13637296,
+      "step": 14695
+    },
+    {
+      "epoch": 6.930693069306931,
+      "grad_norm": 0.00041978841181844473,
+      "learning_rate": 0.2106623141039891,
+      "loss": 0.2972,
+      "num_input_tokens_seen": 13642576,
+      "step": 14700
+    },
+    {
+      "epoch": 6.933050447901933,
+      "grad_norm": 0.0002782137307804078,
+      "learning_rate": 0.21060843648997507,
+      "loss": 0.355,
+      "num_input_tokens_seen": 13647312,
+      "step": 14705
+    },
+    {
+      "epoch": 6.935407826496935,
+      "grad_norm": 0.00029113778145983815,
+      "learning_rate": 0.21055454952937844,
+      "loss": 0.316,
+      "num_input_tokens_seen": 13651184,
+      "step": 14710
+    },
+    {
+      "epoch": 6.937765205091938,
+      "grad_norm": 0.0005656194407492876,
+      "learning_rate": 0.21050065323050937,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 13656080,
+      "step": 14715
+    },
+    {
+      "epoch": 6.94012258368694,
+      "grad_norm": 0.000268565840087831,
+      "learning_rate": 0.21044674760167928,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 13660176,
+      "step": 14720
+    },
+    {
+      "epoch": 6.942479962281943,
+      "grad_norm": 0.00039765224209986627,
+      "learning_rate": 0.210392832651201,
+      "loss": 0.3851,
+      "num_input_tokens_seen": 13665408,
+      "step": 14725
+    },
+    {
+      "epoch": 6.944837340876945,
+      "grad_norm": 0.00024411219055764377,
+      "learning_rate": 0.210338908387389,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 13669760,
+      "step": 14730
+    },
+    {
+      "epoch": 6.947194719471947,
+      "grad_norm": 0.00034328614128753543,
+      "learning_rate": 0.21028497481855912,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 13674432,
+      "step": 14735
+    },
+    {
+      "epoch": 6.94955209806695,
+      "grad_norm": 0.00023750036780256778,
+      "learning_rate": 0.21023103195302847,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 13679184,
+      "step": 14740
+    },
+    {
+      "epoch": 6.951909476661952,
+      "grad_norm": 0.0003751780604943633,
+      "learning_rate": 0.21017707979911582,
+      "loss": 0.3069,
+      "num_input_tokens_seen": 13683712,
+      "step": 14745
+    },
+    {
+      "epoch": 6.954266855256955,
+      "grad_norm": 0.0004835689323954284,
+      "learning_rate": 0.21012311836514122,
+      "loss": 0.2751,
+      "num_input_tokens_seen": 13688336,
+      "step": 14750
+    },
+    {
+      "epoch": 6.956624233851956,
+      "grad_norm": 0.0005006029387004673,
+      "learning_rate": 0.21006914765942622,
+      "loss": 0.2536,
+      "num_input_tokens_seen": 13692960,
+      "step": 14755
+    },
+    {
+      "epoch": 6.958981612446959,
+      "grad_norm": 0.000676413532346487,
+      "learning_rate": 0.2100151676902938,
+      "loss": 0.4185,
+      "num_input_tokens_seen": 13697520,
+      "step": 14760
+    },
+    {
+      "epoch": 6.961338991041961,
+      "grad_norm": 0.00030080159194767475,
+      "learning_rate": 0.2099611784660683,
+      "loss": 0.3964,
+      "num_input_tokens_seen": 13702560,
+      "step": 14765
+    },
+    {
+      "epoch": 6.963696369636963,
+      "grad_norm": 0.00024443460279144347,
+      "learning_rate": 0.20990717999507552,
+      "loss": 0.3018,
+      "num_input_tokens_seen": 13707648,
+      "step": 14770
+    },
+    {
+      "epoch": 6.966053748231966,
+      "grad_norm": 0.0007140650413930416,
+      "learning_rate": 0.20985317228564276,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 13712624,
+      "step": 14775
+    },
+    {
+      "epoch": 6.968411126826968,
+      "grad_norm": 0.0006406812462955713,
+      "learning_rate": 0.20979915534609872,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 13717376,
+      "step": 14780
+    },
+    {
+      "epoch": 6.970768505421971,
+      "grad_norm": 0.00020230421796441078,
+      "learning_rate": 0.20974512918477342,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 13722128,
+      "step": 14785
+    },
+    {
+      "epoch": 6.973125884016973,
+      "grad_norm": 0.00022726891620550305,
+      "learning_rate": 0.2096910938099984,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 13726336,
+      "step": 14790
+    },
+    {
+      "epoch": 6.975483262611975,
+      "grad_norm": 0.0003286318969912827,
+      "learning_rate": 0.2096370492301066,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 13731040,
+      "step": 14795
+    },
+    {
+      "epoch": 6.977840641206978,
+      "grad_norm": 0.0004923255764879286,
+      "learning_rate": 0.2095829954534323,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 13735904,
+      "step": 14800
+    },
+    {
+      "epoch": 6.977840641206978,
+      "eval_loss": 0.33118465542793274,
+      "eval_runtime": 33.5442,
+      "eval_samples_per_second": 28.112,
+      "eval_steps_per_second": 14.071,
+      "num_input_tokens_seen": 13735904,
+      "step": 14800
+    },
+    {
+      "epoch": 6.98019801980198,
+      "grad_norm": 0.00025385612389072776,
+      "learning_rate": 0.2095289324883114,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 13741776,
+      "step": 14805
+    },
+    {
+      "epoch": 6.982555398396983,
+      "grad_norm": 0.0006034998223185539,
+      "learning_rate": 0.20947486034308097,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 13747088,
+      "step": 14810
+    },
+    {
+      "epoch": 6.984912776991985,
+      "grad_norm": 0.000472932675620541,
+      "learning_rate": 0.2094207790260797,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 13751344,
+      "step": 14815
+    },
+    {
+      "epoch": 6.987270155586987,
+      "grad_norm": 0.0003353070351295173,
+      "learning_rate": 0.20936668854564758,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 13755856,
+      "step": 14820
+    },
+    {
+      "epoch": 6.98962753418199,
+      "grad_norm": 0.0002465347934048623,
+      "learning_rate": 0.20931258891012602,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 13760256,
+      "step": 14825
+    },
+    {
+      "epoch": 6.991984912776992,
+      "grad_norm": 0.00048445590073242784,
+      "learning_rate": 0.20925848012785792,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 13765216,
+      "step": 14830
+    },
+    {
+      "epoch": 6.994342291371995,
+      "grad_norm": 0.00037369117490015924,
+      "learning_rate": 0.20920436220718747,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 13770080,
+      "step": 14835
+    },
+    {
+      "epoch": 6.996699669966997,
+      "grad_norm": 0.00036224580253474414,
+      "learning_rate": 0.20915023515646033,
+      "loss": 0.2686,
+      "num_input_tokens_seen": 13775584,
+      "step": 14840
+    },
+    {
+      "epoch": 6.999057048561999,
+      "grad_norm": 0.0005032281624153256,
+      "learning_rate": 0.20909609898402368,
+      "loss": 0.2434,
+      "num_input_tokens_seen": 13779424,
+      "step": 14845
+    },
+    {
+      "epoch": 7.001414427157002,
+      "grad_norm": 0.00019421614706516266,
+      "learning_rate": 0.2090419536982258,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 13783536,
+      "step": 14850
+    },
+    {
+      "epoch": 7.003771805752004,
+      "grad_norm": 0.0001620146940695122,
+      "learning_rate": 0.2089877993074168,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 13788464,
+      "step": 14855
+    },
+    {
+      "epoch": 7.006129184347006,
+      "grad_norm": 0.00022404760238714516,
+      "learning_rate": 0.20893363581994784,
+      "loss": 0.3582,
+      "num_input_tokens_seen": 13793904,
+      "step": 14860
+    },
+    {
+      "epoch": 7.008486562942008,
+      "grad_norm": 0.00019545327813830227,
+      "learning_rate": 0.2088794632441716,
+      "loss": 0.2659,
+      "num_input_tokens_seen": 13798320,
+      "step": 14865
+    },
+    {
+      "epoch": 7.0108439415370105,
+      "grad_norm": 0.0004886052920483053,
+      "learning_rate": 0.20882528158844219,
+      "loss": 0.3326,
+      "num_input_tokens_seen": 13803440,
+      "step": 14870
+    },
+    {
+      "epoch": 7.013201320132013,
+      "grad_norm": 0.0002746198733802885,
+      "learning_rate": 0.20877109086111514,
+      "loss": 0.2578,
+      "num_input_tokens_seen": 13809280,
+      "step": 14875
+    },
+    {
+      "epoch": 7.015558698727015,
+      "grad_norm": 0.00041352194966748357,
+      "learning_rate": 0.2087168910705473,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 13813840,
+      "step": 14880
+    },
+    {
+      "epoch": 7.017916077322018,
+      "grad_norm": 0.00017495053180027753,
+      "learning_rate": 0.208662682225097,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 13819680,
+      "step": 14885
+    },
+    {
+      "epoch": 7.02027345591702,
+      "grad_norm": 0.000225926298298873,
+      "learning_rate": 0.2086084643331239,
+      "loss": 0.3676,
+      "num_input_tokens_seen": 13824384,
+      "step": 14890
+    },
+    {
+      "epoch": 7.0226308345120225,
+      "grad_norm": 0.0005312763387337327,
+      "learning_rate": 0.20855423740298906,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 13828688,
+      "step": 14895
+    },
+    {
+      "epoch": 7.024988213107025,
+      "grad_norm": 0.0006249609868973494,
+      "learning_rate": 0.208500001443055,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 13833696,
+      "step": 14900
+    },
+    {
+      "epoch": 7.027345591702027,
+      "grad_norm": 0.0002609507355373353,
+      "learning_rate": 0.20844575646168553,
+      "loss": 0.313,
+      "num_input_tokens_seen": 13838096,
+      "step": 14905
+    },
+    {
+      "epoch": 7.02970297029703,
+      "grad_norm": 0.0007502382504753768,
+      "learning_rate": 0.20839150246724594,
+      "loss": 0.4106,
+      "num_input_tokens_seen": 13843216,
+      "step": 14910
+    },
+    {
+      "epoch": 7.032060348892032,
+      "grad_norm": 0.00035021992516703904,
+      "learning_rate": 0.20833723946810287,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 13847536,
+      "step": 14915
+    },
+    {
+      "epoch": 7.0344177274870345,
+      "grad_norm": 0.0003849432396236807,
+      "learning_rate": 0.20828296747262437,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 13852752,
+      "step": 14920
+    },
+    {
+      "epoch": 7.036775106082037,
+      "grad_norm": 0.0008116528042592108,
+      "learning_rate": 0.20822868648917986,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 13857280,
+      "step": 14925
+    },
+    {
+      "epoch": 7.039132484677039,
+      "grad_norm": 0.0006468037026934326,
+      "learning_rate": 0.20817439652614017,
+      "loss": 0.329,
+      "num_input_tokens_seen": 13861552,
+      "step": 14930
+    },
+    {
+      "epoch": 7.041489863272042,
+      "grad_norm": 0.0006872526719234884,
+      "learning_rate": 0.20812009759187744,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 13865264,
+      "step": 14935
+    },
+    {
+      "epoch": 7.043847241867044,
+      "grad_norm": 0.0004814505227841437,
+      "learning_rate": 0.2080657896947653,
+      "loss": 0.361,
+      "num_input_tokens_seen": 13869344,
+      "step": 14940
+    },
+    {
+      "epoch": 7.0462046204620465,
+      "grad_norm": 0.00048635058919899166,
+      "learning_rate": 0.2080114728431787,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 13873232,
+      "step": 14945
+    },
+    {
+      "epoch": 7.048561999057049,
+      "grad_norm": 0.0007988310535438359,
+      "learning_rate": 0.20795714704549392,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 13877456,
+      "step": 14950
+    },
+    {
+      "epoch": 7.050919377652051,
+      "grad_norm": 0.00019285450980532914,
+      "learning_rate": 0.20790281231008875,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 13882496,
+      "step": 14955
+    },
+    {
+      "epoch": 7.053276756247053,
+      "grad_norm": 0.00026772409910336137,
+      "learning_rate": 0.20784846864534226,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 13886512,
+      "step": 14960
+    },
+    {
+      "epoch": 7.055634134842055,
+      "grad_norm": 0.000253140926361084,
+      "learning_rate": 0.20779411605963496,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 13891920,
+      "step": 14965
+    },
+    {
+      "epoch": 7.057991513437058,
+      "grad_norm": 0.00036992234527133405,
+      "learning_rate": 0.2077397545613487,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 13896560,
+      "step": 14970
+    },
+    {
+      "epoch": 7.06034889203206,
+      "grad_norm": 0.00017544392903801054,
+      "learning_rate": 0.20768538415886661,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 13900976,
+      "step": 14975
+    },
+    {
+      "epoch": 7.0627062706270625,
+      "grad_norm": 0.00023838528431952,
+      "learning_rate": 0.20763100486057343,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 13906384,
+      "step": 14980
+    },
+    {
+      "epoch": 7.065063649222065,
+      "grad_norm": 0.0002481467672623694,
+      "learning_rate": 0.20757661667485502,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 13910400,
+      "step": 14985
+    },
+    {
+      "epoch": 7.067421027817067,
+      "grad_norm": 0.00031946387025527656,
+      "learning_rate": 0.2075222196100988,
+      "loss": 0.3739,
+      "num_input_tokens_seen": 13915152,
+      "step": 14990
+    },
+    {
+      "epoch": 7.06977840641207,
+      "grad_norm": 0.0004383005725685507,
+      "learning_rate": 0.20746781367469344,
+      "loss": 0.3632,
+      "num_input_tokens_seen": 13920256,
+      "step": 14995
+    },
+    {
+      "epoch": 7.072135785007072,
+      "grad_norm": 0.0005146306357346475,
+      "learning_rate": 0.207413398877029,
+      "loss": 0.3351,
+      "num_input_tokens_seen": 13924000,
+      "step": 15000
+    },
+    {
+      "epoch": 7.072135785007072,
+      "eval_loss": 0.3311784267425537,
+      "eval_runtime": 33.6067,
+      "eval_samples_per_second": 28.06,
+      "eval_steps_per_second": 14.045,
+      "num_input_tokens_seen": 13924000,
+      "step": 15000
+    },
+    {
+      "epoch": 7.0744931636020745,
+      "grad_norm": 0.0003618253394961357,
+      "learning_rate": 0.20735897522549698,
+      "loss": 0.3377,
+      "num_input_tokens_seen": 13928176,
+      "step": 15005
+    },
+    {
+      "epoch": 7.076850542197077,
+      "grad_norm": 0.0007435441948473454,
+      "learning_rate": 0.2073045427284902,
+      "loss": 0.335,
+      "num_input_tokens_seen": 13932896,
+      "step": 15010
+    },
+    {
+      "epoch": 7.079207920792079,
+      "grad_norm": 0.0006245155236683786,
+      "learning_rate": 0.2072501013944027,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 13938128,
+      "step": 15015
+    },
+    {
+      "epoch": 7.081565299387082,
+      "grad_norm": 0.0002536739921197295,
+      "learning_rate": 0.20719565123163017,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 13943392,
+      "step": 15020
+    },
+    {
+      "epoch": 7.083922677982084,
+      "grad_norm": 0.0007122319075278938,
+      "learning_rate": 0.20714119224856944,
+      "loss": 0.3655,
+      "num_input_tokens_seen": 13948240,
+      "step": 15025
+    },
+    {
+      "epoch": 7.0862800565770865,
+      "grad_norm": 0.00019199957023374736,
+      "learning_rate": 0.2070867244536188,
+      "loss": 0.3795,
+      "num_input_tokens_seen": 13953856,
+      "step": 15030
+    },
+    {
+      "epoch": 7.088637435172089,
+      "grad_norm": 0.0006339297397062182,
+      "learning_rate": 0.20703224785517785,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 13958192,
+      "step": 15035
+    },
+    {
+      "epoch": 7.090994813767091,
+      "grad_norm": 0.00026193977100774646,
+      "learning_rate": 0.20697776246164754,
+      "loss": 0.3566,
+      "num_input_tokens_seen": 13963200,
+      "step": 15040
+    },
+    {
+      "epoch": 7.093352192362094,
+      "grad_norm": 0.00020701166067738086,
+      "learning_rate": 0.2069232682814303,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 13967232,
+      "step": 15045
+    },
+    {
+      "epoch": 7.095709570957096,
+      "grad_norm": 0.00035704998299479485,
+      "learning_rate": 0.20686876532292972,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 13971328,
+      "step": 15050
+    },
+    {
+      "epoch": 7.0980669495520985,
+      "grad_norm": 0.00036614149576053023,
+      "learning_rate": 0.20681425359455083,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 13975488,
+      "step": 15055
+    },
+    {
+      "epoch": 7.1004243281471,
+      "grad_norm": 0.00042275150190107524,
+      "learning_rate": 0.20675973310470008,
+      "loss": 0.345,
+      "num_input_tokens_seen": 13980432,
+      "step": 15060
+    },
+    {
+      "epoch": 7.102781706742102,
+      "grad_norm": 0.0002619862207211554,
+      "learning_rate": 0.2067052038617852,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 13984656,
+      "step": 15065
+    },
+    {
+      "epoch": 7.105139085337105,
+      "grad_norm": 0.0004380742320790887,
+      "learning_rate": 0.2066506658742153,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 13989952,
+      "step": 15070
+    },
+    {
+      "epoch": 7.107496463932107,
+      "grad_norm": 0.0004611627373378724,
+      "learning_rate": 0.20659611915040077,
+      "loss": 0.33,
+      "num_input_tokens_seen": 13994304,
+      "step": 15075
+    },
+    {
+      "epoch": 7.10985384252711,
+      "grad_norm": 0.00039916354580782354,
+      "learning_rate": 0.20654156369875348,
+      "loss": 0.356,
+      "num_input_tokens_seen": 13999056,
+      "step": 15080
+    },
+    {
+      "epoch": 7.112211221122112,
+      "grad_norm": 0.0005063938442617655,
+      "learning_rate": 0.20648699952768648,
+      "loss": 0.338,
+      "num_input_tokens_seen": 14003136,
+      "step": 15085
+    },
+    {
+      "epoch": 7.114568599717114,
+      "grad_norm": 0.000721816613804549,
+      "learning_rate": 0.20643242664561437,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 14007888,
+      "step": 15090
+    },
+    {
+      "epoch": 7.116925978312117,
+      "grad_norm": 0.0006134838913567364,
+      "learning_rate": 0.20637784506095277,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 14013232,
+      "step": 15095
+    },
+    {
+      "epoch": 7.119283356907119,
+      "grad_norm": 0.00026949658058583736,
+      "learning_rate": 0.20632325478211908,
+      "loss": 0.332,
+      "num_input_tokens_seen": 14017504,
+      "step": 15100
+    },
+    {
+      "epoch": 7.121640735502122,
+      "grad_norm": 0.00040112977148965,
+      "learning_rate": 0.20626865581753165,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 14022432,
+      "step": 15105
+    },
+    {
+      "epoch": 7.123998114097124,
+      "grad_norm": 0.000684859580360353,
+      "learning_rate": 0.2062140481756104,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 14026992,
+      "step": 15110
+    },
+    {
+      "epoch": 7.126355492692126,
+      "grad_norm": 0.0006019850843586028,
+      "learning_rate": 0.20615943186477648,
+      "loss": 0.34,
+      "num_input_tokens_seen": 14031152,
+      "step": 15115
+    },
+    {
+      "epoch": 7.128712871287129,
+      "grad_norm": 0.0006266004638746381,
+      "learning_rate": 0.20610480689345242,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 14035440,
+      "step": 15120
+    },
+    {
+      "epoch": 7.131070249882131,
+      "grad_norm": 0.0002759158378466964,
+      "learning_rate": 0.2060501732700621,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 14040656,
+      "step": 15125
+    },
+    {
+      "epoch": 7.133427628477134,
+      "grad_norm": 0.0002989285858348012,
+      "learning_rate": 0.20599553100303067,
+      "loss": 0.323,
+      "num_input_tokens_seen": 14046064,
+      "step": 15130
+    },
+    {
+      "epoch": 7.135785007072136,
+      "grad_norm": 0.00043519263272173703,
+      "learning_rate": 0.20594088010078465,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 14050864,
+      "step": 15135
+    },
+    {
+      "epoch": 7.138142385667138,
+      "grad_norm": 0.000485504133393988,
+      "learning_rate": 0.20588622057175196,
+      "loss": 0.296,
+      "num_input_tokens_seen": 14056320,
+      "step": 15140
+    },
+    {
+      "epoch": 7.140499764262141,
+      "grad_norm": 0.000229131052037701,
+      "learning_rate": 0.20583155242436177,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 14060672,
+      "step": 15145
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 0.000785828335210681,
+      "learning_rate": 0.20577687566704453,
+      "loss": 0.3794,
+      "num_input_tokens_seen": 14064864,
+      "step": 15150
+    },
+    {
+      "epoch": 7.145214521452146,
+      "grad_norm": 0.0004016078310087323,
+      "learning_rate": 0.20572219030823213,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 14070912,
+      "step": 15155
+    },
+    {
+      "epoch": 7.147571900047147,
+      "grad_norm": 0.0007919152267277241,
+      "learning_rate": 0.20566749635635775,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 14075248,
+      "step": 15160
+    },
+    {
+      "epoch": 7.1499292786421496,
+      "grad_norm": 0.00020609337661881,
+      "learning_rate": 0.20561279381985587,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 14080256,
+      "step": 15165
+    },
+    {
+      "epoch": 7.152286657237152,
+      "grad_norm": 0.0005599312135018408,
+      "learning_rate": 0.2055580827071623,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 14086608,
+      "step": 15170
+    },
+    {
+      "epoch": 7.154644035832154,
+      "grad_norm": 0.0003325744764879346,
+      "learning_rate": 0.20550336302671418,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 14090448,
+      "step": 15175
+    },
+    {
+      "epoch": 7.157001414427157,
+      "grad_norm": 0.0004607238806784153,
+      "learning_rate": 0.20544863478695,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 14094608,
+      "step": 15180
+    },
+    {
+      "epoch": 7.159358793022159,
+      "grad_norm": 0.0003879064170178026,
+      "learning_rate": 0.20539389799630953,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 14099584,
+      "step": 15185
+    },
+    {
+      "epoch": 7.161716171617162,
+      "grad_norm": 0.0003105875803157687,
+      "learning_rate": 0.20533915266323388,
+      "loss": 0.345,
+      "num_input_tokens_seen": 14104624,
+      "step": 15190
+    },
+    {
+      "epoch": 7.164073550212164,
+      "grad_norm": 0.000872932025231421,
+      "learning_rate": 0.20528439879616542,
+      "loss": 0.3792,
+      "num_input_tokens_seen": 14108752,
+      "step": 15195
+    },
+    {
+      "epoch": 7.166430928807166,
+      "grad_norm": 0.0001961740490514785,
+      "learning_rate": 0.20522963640354794,
+      "loss": 0.343,
+      "num_input_tokens_seen": 14113184,
+      "step": 15200
+    },
+    {
+      "epoch": 7.166430928807166,
+      "eval_loss": 0.33428993821144104,
+      "eval_runtime": 33.6124,
+      "eval_samples_per_second": 28.055,
+      "eval_steps_per_second": 14.042,
+      "num_input_tokens_seen": 14113184,
+      "step": 15200
+    },
+    {
+      "epoch": 7.168788307402169,
+      "grad_norm": 0.000718727009370923,
+      "learning_rate": 0.20517486549382644,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 14118256,
+      "step": 15205
+    },
+    {
+      "epoch": 7.171145685997171,
+      "grad_norm": 0.000591971562243998,
+      "learning_rate": 0.20512008607544735,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 14123072,
+      "step": 15210
+    },
+    {
+      "epoch": 7.173503064592174,
+      "grad_norm": 0.0005610206862911582,
+      "learning_rate": 0.20506529815685826,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 14127616,
+      "step": 15215
+    },
+    {
+      "epoch": 7.175860443187176,
+      "grad_norm": 0.0005572541267611086,
+      "learning_rate": 0.2050105017465082,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 14131520,
+      "step": 15220
+    },
+    {
+      "epoch": 7.178217821782178,
+      "grad_norm": 0.0005406606942415237,
+      "learning_rate": 0.20495569685284754,
+      "loss": 0.3366,
+      "num_input_tokens_seen": 14136144,
+      "step": 15225
+    },
+    {
+      "epoch": 7.180575200377181,
+      "grad_norm": 0.00028381438460201025,
+      "learning_rate": 0.20490088348432778,
+      "loss": 0.3593,
+      "num_input_tokens_seen": 14140304,
+      "step": 15230
+    },
+    {
+      "epoch": 7.182932578972183,
+      "grad_norm": 0.0003725463757291436,
+      "learning_rate": 0.2048460616494018,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 14145728,
+      "step": 15235
+    },
+    {
+      "epoch": 7.185289957567186,
+      "grad_norm": 0.00037407610216178,
+      "learning_rate": 0.2047912313565239,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 14150528,
+      "step": 15240
+    },
+    {
+      "epoch": 7.187647336162188,
+      "grad_norm": 0.00039428702439181507,
+      "learning_rate": 0.20473639261414958,
+      "loss": 0.3117,
+      "num_input_tokens_seen": 14154832,
+      "step": 15245
+    },
+    {
+      "epoch": 7.19000471475719,
+      "grad_norm": 0.0006556971347890794,
+      "learning_rate": 0.2046815454307357,
+      "loss": 0.3618,
+      "num_input_tokens_seen": 14159376,
+      "step": 15250
+    },
+    {
+      "epoch": 7.192362093352193,
+      "grad_norm": 0.00019715078815352172,
+      "learning_rate": 0.20462668981474028,
+      "loss": 0.3666,
+      "num_input_tokens_seen": 14164128,
+      "step": 15255
+    },
+    {
+      "epoch": 7.194719471947194,
+      "grad_norm": 0.00038524711271747947,
+      "learning_rate": 0.20457182577462288,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 14168992,
+      "step": 15260
+    },
+    {
+      "epoch": 7.197076850542197,
+      "grad_norm": 0.0004962504608556628,
+      "learning_rate": 0.2045169533188441,
+      "loss": 0.336,
+      "num_input_tokens_seen": 14173504,
+      "step": 15265
+    },
+    {
+      "epoch": 7.199434229137199,
+      "grad_norm": 0.00018461066065356135,
+      "learning_rate": 0.20446207245586603,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 14177568,
+      "step": 15270
+    },
+    {
+      "epoch": 7.2017916077322015,
+      "grad_norm": 0.0007455819868482649,
+      "learning_rate": 0.20440718319415196,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 14182288,
+      "step": 15275
+    },
+    {
+      "epoch": 7.204148986327204,
+      "grad_norm": 0.0005943930009379983,
+      "learning_rate": 0.20435228554216653,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 14188016,
+      "step": 15280
+    },
+    {
+      "epoch": 7.206506364922206,
+      "grad_norm": 0.0008265661890618503,
+      "learning_rate": 0.20429737950837565,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 14192640,
+      "step": 15285
+    },
+    {
+      "epoch": 7.208863743517209,
+      "grad_norm": 0.0005237951991148293,
+      "learning_rate": 0.20424246510124647,
+      "loss": 0.2784,
+      "num_input_tokens_seen": 14197088,
+      "step": 15290
+    },
+    {
+      "epoch": 7.211221122112211,
+      "grad_norm": 0.0006867690244689584,
+      "learning_rate": 0.20418754232924755,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 14201392,
+      "step": 15295
+    },
+    {
+      "epoch": 7.2135785007072135,
+      "grad_norm": 0.0005917602684348822,
+      "learning_rate": 0.20413261120084863,
+      "loss": 0.3077,
+      "num_input_tokens_seen": 14205808,
+      "step": 15300
+    },
+    {
+      "epoch": 7.215935879302216,
+      "grad_norm": 0.0007745129987597466,
+      "learning_rate": 0.2040776717245208,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 14210032,
+      "step": 15305
+    },
+    {
+      "epoch": 7.218293257897218,
+      "grad_norm": 0.0006260591908358037,
+      "learning_rate": 0.2040227239087364,
+      "loss": 0.3741,
+      "num_input_tokens_seen": 14215072,
+      "step": 15310
+    },
+    {
+      "epoch": 7.220650636492221,
+      "grad_norm": 0.00039370759623125196,
+      "learning_rate": 0.20396776776196904,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 14219744,
+      "step": 15315
+    },
+    {
+      "epoch": 7.223008015087223,
+      "grad_norm": 0.00039602871402166784,
+      "learning_rate": 0.20391280329269373,
+      "loss": 0.2939,
+      "num_input_tokens_seen": 14224176,
+      "step": 15320
+    },
+    {
+      "epoch": 7.2253653936822255,
+      "grad_norm": 0.0004369218950159848,
+      "learning_rate": 0.20385783050938663,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 14228448,
+      "step": 15325
+    },
+    {
+      "epoch": 7.227722772277228,
+      "grad_norm": 0.0007632251945324242,
+      "learning_rate": 0.20380284942052526,
+      "loss": 0.3626,
+      "num_input_tokens_seen": 14232800,
+      "step": 15330
+    },
+    {
+      "epoch": 7.23008015087223,
+      "grad_norm": 0.0006314623169600964,
+      "learning_rate": 0.2037478600345884,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 14237280,
+      "step": 15335
+    },
+    {
+      "epoch": 7.232437529467233,
+      "grad_norm": 0.00035876024048775434,
+      "learning_rate": 0.20369286236005604,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 14242448,
+      "step": 15340
+    },
+    {
+      "epoch": 7.234794908062235,
+      "grad_norm": 0.00033314115717075765,
+      "learning_rate": 0.20363785640540957,
+      "loss": 0.2943,
+      "num_input_tokens_seen": 14246608,
+      "step": 15345
+    },
+    {
+      "epoch": 7.2371522866572375,
+      "grad_norm": 0.0005114696105010808,
+      "learning_rate": 0.2035828421791316,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 14251840,
+      "step": 15350
+    },
+    {
+      "epoch": 7.23950966525224,
+      "grad_norm": 0.001142387744039297,
+      "learning_rate": 0.20352781968970599,
+      "loss": 0.2688,
+      "num_input_tokens_seen": 14255856,
+      "step": 15355
+    },
+    {
+      "epoch": 7.2418670438472414,
+      "grad_norm": 0.001146406284533441,
+      "learning_rate": 0.2034727889456179,
+      "loss": 0.2937,
+      "num_input_tokens_seen": 14261104,
+      "step": 15360
+    },
+    {
+      "epoch": 7.244224422442244,
+      "grad_norm": 0.0003529289970174432,
+      "learning_rate": 0.2034177499553538,
+      "loss": 0.2854,
+      "num_input_tokens_seen": 14265056,
+      "step": 15365
+    },
+    {
+      "epoch": 7.246581801037246,
+      "grad_norm": 0.0006453358801081777,
+      "learning_rate": 0.2033627027274014,
+      "loss": 0.2831,
+      "num_input_tokens_seen": 14269232,
+      "step": 15370
+    },
+    {
+      "epoch": 7.248939179632249,
+      "grad_norm": 0.0005377056659199297,
+      "learning_rate": 0.20330764727024955,
+      "loss": 0.4152,
+      "num_input_tokens_seen": 14273744,
+      "step": 15375
+    },
+    {
+      "epoch": 7.251296558227251,
+      "grad_norm": 0.000216833024751395,
+      "learning_rate": 0.20325258359238868,
+      "loss": 0.4272,
+      "num_input_tokens_seen": 14278384,
+      "step": 15380
+    },
+    {
+      "epoch": 7.2536539368222535,
+      "grad_norm": 0.0004883273504674435,
+      "learning_rate": 0.20319751170231018,
+      "loss": 0.3873,
+      "num_input_tokens_seen": 14282736,
+      "step": 15385
+    },
+    {
+      "epoch": 7.256011315417256,
+      "grad_norm": 0.0007002072525210679,
+      "learning_rate": 0.2031424316085068,
+      "loss": 0.383,
+      "num_input_tokens_seen": 14287472,
+      "step": 15390
+    },
+    {
+      "epoch": 7.258368694012258,
+      "grad_norm": 0.001395396189764142,
+      "learning_rate": 0.20308734331947265,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 14291552,
+      "step": 15395
+    },
+    {
+      "epoch": 7.260726072607261,
+      "grad_norm": 0.0008074608631432056,
+      "learning_rate": 0.20303224684370305,
+      "loss": 0.348,
+      "num_input_tokens_seen": 14295568,
+      "step": 15400
+    },
+    {
+      "epoch": 7.260726072607261,
+      "eval_loss": 0.3387584388256073,
+      "eval_runtime": 33.6299,
+      "eval_samples_per_second": 28.04,
+      "eval_steps_per_second": 14.035,
+      "num_input_tokens_seen": 14295568,
+      "step": 15400
+    },
+    {
+      "epoch": 7.263083451202263,
+      "grad_norm": 0.0004315128899179399,
+      "learning_rate": 0.20297714218969456,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 14300192,
+      "step": 15405
+    },
+    {
+      "epoch": 7.2654408297972655,
+      "grad_norm": 0.0006245113909244537,
+      "learning_rate": 0.20292202936594497,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 14305552,
+      "step": 15410
+    },
+    {
+      "epoch": 7.267798208392268,
+      "grad_norm": 0.000559915613848716,
+      "learning_rate": 0.2028669083809534,
+      "loss": 0.352,
+      "num_input_tokens_seen": 14310240,
+      "step": 15415
+    },
+    {
+      "epoch": 7.27015558698727,
+      "grad_norm": 0.0006115052383393049,
+      "learning_rate": 0.20281177924322016,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 14314720,
+      "step": 15420
+    },
+    {
+      "epoch": 7.272512965582273,
+      "grad_norm": 0.00019238753884565085,
+      "learning_rate": 0.2027566419612469,
+      "loss": 0.413,
+      "num_input_tokens_seen": 14319952,
+      "step": 15425
+    },
+    {
+      "epoch": 7.274870344177275,
+      "grad_norm": 0.0005452899495139718,
+      "learning_rate": 0.20270149654353647,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 14324256,
+      "step": 15430
+    },
+    {
+      "epoch": 7.2772277227722775,
+      "grad_norm": 0.0005592517554759979,
+      "learning_rate": 0.202646342998593,
+      "loss": 0.3203,
+      "num_input_tokens_seen": 14329600,
+      "step": 15435
+    },
+    {
+      "epoch": 7.27958510136728,
+      "grad_norm": 0.0006083203479647636,
+      "learning_rate": 0.20259118133492185,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 14334352,
+      "step": 15440
+    },
+    {
+      "epoch": 7.281942479962282,
+      "grad_norm": 0.0003413631930015981,
+      "learning_rate": 0.20253601156102966,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 14339968,
+      "step": 15445
+    },
+    {
+      "epoch": 7.284299858557285,
+      "grad_norm": 0.00042140192817896605,
+      "learning_rate": 0.20248083368542422,
+      "loss": 0.324,
+      "num_input_tokens_seen": 14343456,
+      "step": 15450
+    },
+    {
+      "epoch": 7.286657237152287,
+      "grad_norm": 0.0001957940257852897,
+      "learning_rate": 0.2024256477166147,
+      "loss": 0.3638,
+      "num_input_tokens_seen": 14347424,
+      "step": 15455
+    },
+    {
+      "epoch": 7.2890146157472895,
+      "grad_norm": 0.00025987959816120565,
+      "learning_rate": 0.2023704536631115,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 14352688,
+      "step": 15460
+    },
+    {
+      "epoch": 7.291371994342291,
+      "grad_norm": 0.0003228841524105519,
+      "learning_rate": 0.20231525153342625,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 14357120,
+      "step": 15465
+    },
+    {
+      "epoch": 7.293729372937293,
+      "grad_norm": 0.00023489999875891954,
+      "learning_rate": 0.20226004133607173,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 14361456,
+      "step": 15470
+    },
+    {
+      "epoch": 7.296086751532296,
+      "grad_norm": 0.000248453114181757,
+      "learning_rate": 0.20220482307956214,
+      "loss": 0.356,
+      "num_input_tokens_seen": 14365984,
+      "step": 15475
+    },
+    {
+      "epoch": 7.298444130127298,
+      "grad_norm": 0.0002424463164061308,
+      "learning_rate": 0.20214959677241276,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 14370112,
+      "step": 15480
+    },
+    {
+      "epoch": 7.300801508722301,
+      "grad_norm": 0.0006845794268883765,
+      "learning_rate": 0.20209436242314022,
+      "loss": 0.352,
+      "num_input_tokens_seen": 14374720,
+      "step": 15485
+    },
+    {
+      "epoch": 7.303158887317303,
+      "grad_norm": 0.0003149385447613895,
+      "learning_rate": 0.2020391200402623,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 14380064,
+      "step": 15490
+    },
+    {
+      "epoch": 7.305516265912305,
+      "grad_norm": 0.0006738199153915048,
+      "learning_rate": 0.2019838696322981,
+      "loss": 0.334,
+      "num_input_tokens_seen": 14384752,
+      "step": 15495
+    },
+    {
+      "epoch": 7.307873644507308,
+      "grad_norm": 0.0004771221138071269,
+      "learning_rate": 0.20192861120776798,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 14388880,
+      "step": 15500
+    },
+    {
+      "epoch": 7.31023102310231,
+      "grad_norm": 0.00023258563305716962,
+      "learning_rate": 0.20187334477519345,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 14393312,
+      "step": 15505
+    },
+    {
+      "epoch": 7.312588401697313,
+      "grad_norm": 0.0002566577459219843,
+      "learning_rate": 0.20181807034309726,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 14398400,
+      "step": 15510
+    },
+    {
+      "epoch": 7.314945780292315,
+      "grad_norm": 0.0007068269769661129,
+      "learning_rate": 0.2017627879200034,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 14402864,
+      "step": 15515
+    },
+    {
+      "epoch": 7.317303158887317,
+      "grad_norm": 0.0002630776143632829,
+      "learning_rate": 0.2017074975144372,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 14407200,
+      "step": 15520
+    },
+    {
+      "epoch": 7.31966053748232,
+      "grad_norm": 0.00028646361897699535,
+      "learning_rate": 0.20165219913492508,
+      "loss": 0.3775,
+      "num_input_tokens_seen": 14411712,
+      "step": 15525
+    },
+    {
+      "epoch": 7.322017916077322,
+      "grad_norm": 0.00022251269547268748,
+      "learning_rate": 0.20159689278999468,
+      "loss": 0.4058,
+      "num_input_tokens_seen": 14416240,
+      "step": 15530
+    },
+    {
+      "epoch": 7.324375294672325,
+      "grad_norm": 0.0002758808259386569,
+      "learning_rate": 0.20154157848817508,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 14421200,
+      "step": 15535
+    },
+    {
+      "epoch": 7.326732673267327,
+      "grad_norm": 0.00033914807136170566,
+      "learning_rate": 0.20148625623799632,
+      "loss": 0.349,
+      "num_input_tokens_seen": 14424992,
+      "step": 15540
+    },
+    {
+      "epoch": 7.329090051862329,
+      "grad_norm": 0.00041395911830477417,
+      "learning_rate": 0.20143092604798984,
+      "loss": 0.3124,
+      "num_input_tokens_seen": 14430144,
+      "step": 15545
+    },
+    {
+      "epoch": 7.331447430457332,
+      "grad_norm": 0.0003764939319808036,
+      "learning_rate": 0.2013755879266883,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 14434576,
+      "step": 15550
+    },
+    {
+      "epoch": 7.333804809052333,
+      "grad_norm": 0.0002163537428714335,
+      "learning_rate": 0.20132024188262543,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 14439216,
+      "step": 15555
+    },
+    {
+      "epoch": 7.336162187647336,
+      "grad_norm": 0.00024346633290406317,
+      "learning_rate": 0.2012648879243363,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 14444880,
+      "step": 15560
+    },
+    {
+      "epoch": 7.338519566242338,
+      "grad_norm": 0.00022995771723799407,
+      "learning_rate": 0.20120952606035725,
+      "loss": 0.3158,
+      "num_input_tokens_seen": 14449168,
+      "step": 15565
+    },
+    {
+      "epoch": 7.3408769448373405,
+      "grad_norm": 0.00028947758255526423,
+      "learning_rate": 0.20115415629922576,
+      "loss": 0.3004,
+      "num_input_tokens_seen": 14454432,
+      "step": 15570
+    },
+    {
+      "epoch": 7.343234323432343,
+      "grad_norm": 0.00023462297394871712,
+      "learning_rate": 0.20109877864948048,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 14458288,
+      "step": 15575
+    },
+    {
+      "epoch": 7.345591702027345,
+      "grad_norm": 0.0002842825779225677,
+      "learning_rate": 0.20104339311966138,
+      "loss": 0.4001,
+      "num_input_tokens_seen": 14462624,
+      "step": 15580
+    },
+    {
+      "epoch": 7.347949080622348,
+      "grad_norm": 0.0001693027443252504,
+      "learning_rate": 0.2009879997183097,
+      "loss": 0.293,
+      "num_input_tokens_seen": 14466816,
+      "step": 15585
+    },
+    {
+      "epoch": 7.35030645921735,
+      "grad_norm": 0.0008099090773612261,
+      "learning_rate": 0.20093259845396763,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 14471664,
+      "step": 15590
+    },
+    {
+      "epoch": 7.3526638378123526,
+      "grad_norm": 0.0005488325259648263,
+      "learning_rate": 0.20087718933517884,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 14476240,
+      "step": 15595
+    },
+    {
+      "epoch": 7.355021216407355,
+      "grad_norm": 0.0009273517644032836,
+      "learning_rate": 0.20082177237048807,
+      "loss": 0.3783,
+      "num_input_tokens_seen": 14480560,
+      "step": 15600
+    },
+    {
+      "epoch": 7.355021216407355,
+      "eval_loss": 0.32728642225265503,
+      "eval_runtime": 33.5058,
+      "eval_samples_per_second": 28.144,
+      "eval_steps_per_second": 14.087,
+      "num_input_tokens_seen": 14480560,
+      "step": 15600
+    },
+    {
+      "epoch": 7.357378595002357,
+      "grad_norm": 0.0002347298723179847,
+      "learning_rate": 0.20076634756844133,
+      "loss": 0.3036,
+      "num_input_tokens_seen": 14485280,
+      "step": 15605
+    },
+    {
+      "epoch": 7.35973597359736,
+      "grad_norm": 0.0004577543295454234,
+      "learning_rate": 0.20071091493758586,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 14489280,
+      "step": 15610
+    },
+    {
+      "epoch": 7.362093352192362,
+      "grad_norm": 0.00032999098766595125,
+      "learning_rate": 0.20065547448647003,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 14494192,
+      "step": 15615
+    },
+    {
+      "epoch": 7.364450730787365,
+      "grad_norm": 0.00023448053980246186,
+      "learning_rate": 0.20060002622364348,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 14499120,
+      "step": 15620
+    },
+    {
+      "epoch": 7.366808109382367,
+      "grad_norm": 0.00021903161541558802,
+      "learning_rate": 0.20054457015765695,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 14504192,
+      "step": 15625
+    },
+    {
+      "epoch": 7.369165487977369,
+      "grad_norm": 0.0001894514134619385,
+      "learning_rate": 0.20048910629706254,
+      "loss": 0.3465,
+      "num_input_tokens_seen": 14508480,
+      "step": 15630
+    },
+    {
+      "epoch": 7.371522866572372,
+      "grad_norm": 0.00047236887621693313,
+      "learning_rate": 0.20043363465041347,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 14512960,
+      "step": 15635
+    },
+    {
+      "epoch": 7.373880245167374,
+      "grad_norm": 0.0004546222626231611,
+      "learning_rate": 0.2003781552262641,
+      "loss": 0.3935,
+      "num_input_tokens_seen": 14517472,
+      "step": 15640
+    },
+    {
+      "epoch": 7.376237623762377,
+      "grad_norm": 0.00023941441031638533,
+      "learning_rate": 0.20032266803317014,
+      "loss": 0.3049,
+      "num_input_tokens_seen": 14522032,
+      "step": 15645
+    },
+    {
+      "epoch": 7.378595002357379,
+      "grad_norm": 0.0002670677495189011,
+      "learning_rate": 0.2002671730796884,
+      "loss": 0.3658,
+      "num_input_tokens_seen": 14527248,
+      "step": 15650
+    },
+    {
+      "epoch": 7.380952380952381,
+      "grad_norm": 0.0004113286850042641,
+      "learning_rate": 0.20021167037437684,
+      "loss": 0.3541,
+      "num_input_tokens_seen": 14531680,
+      "step": 15655
+    },
+    {
+      "epoch": 7.383309759547384,
+      "grad_norm": 0.0002692035341169685,
+      "learning_rate": 0.20015615992579472,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 14535776,
+      "step": 15660
+    },
+    {
+      "epoch": 7.385667138142385,
+      "grad_norm": 0.0002759507915470749,
+      "learning_rate": 0.20010064174250244,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 14540896,
+      "step": 15665
+    },
+    {
+      "epoch": 7.388024516737388,
+      "grad_norm": 0.0003369325422681868,
+      "learning_rate": 0.2000451158330616,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 14545600,
+      "step": 15670
+    },
+    {
+      "epoch": 7.39038189533239,
+      "grad_norm": 0.0001925909600686282,
+      "learning_rate": 0.199989582206035,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 14549440,
+      "step": 15675
+    },
+    {
+      "epoch": 7.3927392739273925,
+      "grad_norm": 0.0004743356257677078,
+      "learning_rate": 0.1999340408699866,
+      "loss": 0.3016,
+      "num_input_tokens_seen": 14553744,
+      "step": 15680
+    },
+    {
+      "epoch": 7.395096652522395,
+      "grad_norm": 0.00022719638946000487,
+      "learning_rate": 0.19987849183348155,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 14558880,
+      "step": 15685
+    },
+    {
+      "epoch": 7.397454031117397,
+      "grad_norm": 0.0005063567659817636,
+      "learning_rate": 0.19982293510508628,
+      "loss": 0.3768,
+      "num_input_tokens_seen": 14562896,
+      "step": 15690
+    },
+    {
+      "epoch": 7.3998114097124,
+      "grad_norm": 0.00030089268693700433,
+      "learning_rate": 0.19976737069336833,
+      "loss": 0.2964,
+      "num_input_tokens_seen": 14567984,
+      "step": 15695
+    },
+    {
+      "epoch": 7.402168788307402,
+      "grad_norm": 0.00024045907775871456,
+      "learning_rate": 0.1997117986068964,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 14572768,
+      "step": 15700
+    },
+    {
+      "epoch": 7.4045261669024045,
+      "grad_norm": 0.0002602704626042396,
+      "learning_rate": 0.19965621885424037,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 14577584,
+      "step": 15705
+    },
+    {
+      "epoch": 7.406883545497407,
+      "grad_norm": 0.00019138706556987017,
+      "learning_rate": 0.19960063144397142,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 14581936,
+      "step": 15710
+    },
+    {
+      "epoch": 7.409240924092409,
+      "grad_norm": 0.0002465583092998713,
+      "learning_rate": 0.19954503638466176,
+      "loss": 0.3708,
+      "num_input_tokens_seen": 14586464,
+      "step": 15715
+    },
+    {
+      "epoch": 7.411598302687412,
+      "grad_norm": 0.0003121074114460498,
+      "learning_rate": 0.1994894336848848,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 14590944,
+      "step": 15720
+    },
+    {
+      "epoch": 7.413955681282414,
+      "grad_norm": 0.0001665167510509491,
+      "learning_rate": 0.1994338233532153,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 14594976,
+      "step": 15725
+    },
+    {
+      "epoch": 7.4163130598774165,
+      "grad_norm": 0.00026841394719667733,
+      "learning_rate": 0.19937820539822904,
+      "loss": 0.3774,
+      "num_input_tokens_seen": 14600144,
+      "step": 15730
+    },
+    {
+      "epoch": 7.418670438472419,
+      "grad_norm": 0.0002060447004623711,
+      "learning_rate": 0.199322579828503,
+      "loss": 0.3784,
+      "num_input_tokens_seen": 14604528,
+      "step": 15735
+    },
+    {
+      "epoch": 7.421027817067421,
+      "grad_norm": 0.0008454286144115031,
+      "learning_rate": 0.19926694665261527,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 14609520,
+      "step": 15740
+    },
+    {
+      "epoch": 7.423385195662424,
+      "grad_norm": 0.00017412473971489817,
+      "learning_rate": 0.19921130587914526,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 14614032,
+      "step": 15745
+    },
+    {
+      "epoch": 7.425742574257426,
+      "grad_norm": 0.00030690658604726195,
+      "learning_rate": 0.19915565751667344,
+      "loss": 0.3146,
+      "num_input_tokens_seen": 14618384,
+      "step": 15750
+    },
+    {
+      "epoch": 7.428099952852428,
+      "grad_norm": 0.0005595504771918058,
+      "learning_rate": 0.19910000157378152,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 14622880,
+      "step": 15755
+    },
+    {
+      "epoch": 7.43045733144743,
+      "grad_norm": 0.00035704512265510857,
+      "learning_rate": 0.1990443380590523,
+      "loss": 0.2984,
+      "num_input_tokens_seen": 14627408,
+      "step": 15760
+    },
+    {
+      "epoch": 7.432814710042432,
+      "grad_norm": 0.0002430424647172913,
+      "learning_rate": 0.19898866698106984,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 14632016,
+      "step": 15765
+    },
+    {
+      "epoch": 7.435172088637435,
+      "grad_norm": 0.0005024610436521471,
+      "learning_rate": 0.19893298834841933,
+      "loss": 0.2681,
+      "num_input_tokens_seen": 14636192,
+      "step": 15770
+    },
+    {
+      "epoch": 7.437529467232437,
+      "grad_norm": 0.00024211735581047833,
+      "learning_rate": 0.19887730216968705,
+      "loss": 0.3831,
+      "num_input_tokens_seen": 14641008,
+      "step": 15775
+    },
+    {
+      "epoch": 7.43988684582744,
+      "grad_norm": 0.0002948772453237325,
+      "learning_rate": 0.19882160845346053,
+      "loss": 0.2856,
+      "num_input_tokens_seen": 14645936,
+      "step": 15780
+    },
+    {
+      "epoch": 7.442244224422442,
+      "grad_norm": 0.0003042786556761712,
+      "learning_rate": 0.1987659072083285,
+      "loss": 0.2654,
+      "num_input_tokens_seen": 14651616,
+      "step": 15785
+    },
+    {
+      "epoch": 7.4446016030174444,
+      "grad_norm": 0.0003610823187045753,
+      "learning_rate": 0.1987101984428807,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 14655824,
+      "step": 15790
+    },
+    {
+      "epoch": 7.446958981612447,
+      "grad_norm": 0.00012065120245097205,
+      "learning_rate": 0.19865448216570822,
+      "loss": 0.2801,
+      "num_input_tokens_seen": 14660736,
+      "step": 15795
+    },
+    {
+      "epoch": 7.449316360207449,
+      "grad_norm": 0.001049307524226606,
+      "learning_rate": 0.19859875838540317,
+      "loss": 0.4022,
+      "num_input_tokens_seen": 14664736,
+      "step": 15800
+    },
+    {
+      "epoch": 7.449316360207449,
+      "eval_loss": 0.33307331800460815,
+      "eval_runtime": 33.6072,
+      "eval_samples_per_second": 28.059,
+      "eval_steps_per_second": 14.045,
+      "num_input_tokens_seen": 14664736,
+      "step": 15800
+    },
+    {
+      "epoch": 7.451673738802452,
+      "grad_norm": 0.0005981787107884884,
+      "learning_rate": 0.1985430271105588,
+      "loss": 0.4109,
+      "num_input_tokens_seen": 14670080,
+      "step": 15805
+    },
+    {
+      "epoch": 7.454031117397454,
+      "grad_norm": 0.0002549233613535762,
+      "learning_rate": 0.19848728834976961,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 14674096,
+      "step": 15810
+    },
+    {
+      "epoch": 7.4563884959924565,
+      "grad_norm": 0.00029069691663607955,
+      "learning_rate": 0.19843154211163128,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 14679120,
+      "step": 15815
+    },
+    {
+      "epoch": 7.458745874587459,
+      "grad_norm": 0.00035911615123040974,
+      "learning_rate": 0.1983757884047405,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 14683552,
+      "step": 15820
+    },
+    {
+      "epoch": 7.461103253182461,
+      "grad_norm": 0.0002791574224829674,
+      "learning_rate": 0.1983200272376952,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 14688144,
+      "step": 15825
+    },
+    {
+      "epoch": 7.463460631777464,
+      "grad_norm": 0.0004944108659401536,
+      "learning_rate": 0.1982642586190945,
+      "loss": 0.2975,
+      "num_input_tokens_seen": 14692656,
+      "step": 15830
+    },
+    {
+      "epoch": 7.465818010372466,
+      "grad_norm": 0.0004710045759566128,
+      "learning_rate": 0.1982084825575386,
+      "loss": 0.284,
+      "num_input_tokens_seen": 14697632,
+      "step": 15835
+    },
+    {
+      "epoch": 7.4681753889674685,
+      "grad_norm": 0.00031046592630445957,
+      "learning_rate": 0.19815269906162883,
+      "loss": 0.2943,
+      "num_input_tokens_seen": 14701312,
+      "step": 15840
+    },
+    {
+      "epoch": 7.470532767562471,
+      "grad_norm": 0.0001768439105944708,
+      "learning_rate": 0.19809690813996775,
+      "loss": 0.34,
+      "num_input_tokens_seen": 14706128,
+      "step": 15845
+    },
+    {
+      "epoch": 7.472890146157473,
+      "grad_norm": 0.0007435815641656518,
+      "learning_rate": 0.19804110980115905,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 14709840,
+      "step": 15850
+    },
+    {
+      "epoch": 7.475247524752476,
+      "grad_norm": 0.0006050326628610492,
+      "learning_rate": 0.19798530405380746,
+      "loss": 0.3839,
+      "num_input_tokens_seen": 14713936,
+      "step": 15855
+    },
+    {
+      "epoch": 7.477604903347478,
+      "grad_norm": 0.000162009775522165,
+      "learning_rate": 0.19792949090651893,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 14719040,
+      "step": 15860
+    },
+    {
+      "epoch": 7.47996228194248,
+      "grad_norm": 0.0003167189424857497,
+      "learning_rate": 0.19787367036790066,
+      "loss": 0.3566,
+      "num_input_tokens_seen": 14723376,
+      "step": 15865
+    },
+    {
+      "epoch": 7.482319660537482,
+      "grad_norm": 0.0002337870973860845,
+      "learning_rate": 0.19781784244656075,
+      "loss": 0.2917,
+      "num_input_tokens_seen": 14727424,
+      "step": 15870
+    },
+    {
+      "epoch": 7.484677039132484,
+      "grad_norm": 0.0003872237866744399,
+      "learning_rate": 0.19776200715110864,
+      "loss": 0.3752,
+      "num_input_tokens_seen": 14732400,
+      "step": 15875
+    },
+    {
+      "epoch": 7.487034417727487,
+      "grad_norm": 0.0005212863907217979,
+      "learning_rate": 0.1977061644901548,
+      "loss": 0.2997,
+      "num_input_tokens_seen": 14737888,
+      "step": 15880
+    },
+    {
+      "epoch": 7.489391796322489,
+      "grad_norm": 0.0002514320658519864,
+      "learning_rate": 0.1976503144723109,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 14742896,
+      "step": 15885
+    },
+    {
+      "epoch": 7.491749174917492,
+      "grad_norm": 0.00021904184541199356,
+      "learning_rate": 0.19759445710618967,
+      "loss": 0.3161,
+      "num_input_tokens_seen": 14747904,
+      "step": 15890
+    },
+    {
+      "epoch": 7.494106553512494,
+      "grad_norm": 0.0002889814495574683,
+      "learning_rate": 0.19753859240040508,
+      "loss": 0.3148,
+      "num_input_tokens_seen": 14753040,
+      "step": 15895
+    },
+    {
+      "epoch": 7.496463932107496,
+      "grad_norm": 0.00046123252832330763,
+      "learning_rate": 0.1974827203635721,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 14758560,
+      "step": 15900
+    },
+    {
+      "epoch": 7.498821310702499,
+      "grad_norm": 0.00024149485398083925,
+      "learning_rate": 0.19742684100430694,
+      "loss": 0.3756,
+      "num_input_tokens_seen": 14763600,
+      "step": 15905
+    },
+    {
+      "epoch": 7.501178689297501,
+      "grad_norm": 0.00023516012879554182,
+      "learning_rate": 0.19737095433122692,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 14767984,
+      "step": 15910
+    },
+    {
+      "epoch": 7.503536067892504,
+      "grad_norm": 0.0002419753436697647,
+      "learning_rate": 0.19731506035295046,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 14772832,
+      "step": 15915
+    },
+    {
+      "epoch": 7.505893446487506,
+      "grad_norm": 0.00034311137278564274,
+      "learning_rate": 0.19725915907809702,
+      "loss": 0.2816,
+      "num_input_tokens_seen": 14777392,
+      "step": 15920
+    },
+    {
+      "epoch": 7.508250825082508,
+      "grad_norm": 0.0003287485451437533,
+      "learning_rate": 0.1972032505152874,
+      "loss": 0.3756,
+      "num_input_tokens_seen": 14782384,
+      "step": 15925
+    },
+    {
+      "epoch": 7.510608203677511,
+      "grad_norm": 0.00024835485965013504,
+      "learning_rate": 0.19714733467314338,
+      "loss": 0.2997,
+      "num_input_tokens_seen": 14786064,
+      "step": 15930
+    },
+    {
+      "epoch": 7.512965582272513,
+      "grad_norm": 0.00026790681295096874,
+      "learning_rate": 0.19709141156028784,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 14791920,
+      "step": 15935
+    },
+    {
+      "epoch": 7.515322960867516,
+      "grad_norm": 0.000418156327214092,
+      "learning_rate": 0.1970354811853448,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 14796224,
+      "step": 15940
+    },
+    {
+      "epoch": 7.517680339462518,
+      "grad_norm": 0.00024354568449780345,
+      "learning_rate": 0.19697954355693953,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 14801472,
+      "step": 15945
+    },
+    {
+      "epoch": 7.52003771805752,
+      "grad_norm": 0.00023492929176427424,
+      "learning_rate": 0.19692359868369827,
+      "loss": 0.3415,
+      "num_input_tokens_seen": 14805536,
+      "step": 15950
+    },
+    {
+      "epoch": 7.522395096652522,
+      "grad_norm": 0.00033234211150556803,
+      "learning_rate": 0.1968676465742484,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 14810144,
+      "step": 15955
+    },
+    {
+      "epoch": 7.524752475247524,
+      "grad_norm": 0.00028752582147717476,
+      "learning_rate": 0.19681168723721845,
+      "loss": 0.332,
+      "num_input_tokens_seen": 14814640,
+      "step": 15960
+    },
+    {
+      "epoch": 7.527109853842527,
+      "grad_norm": 0.0004780937742907554,
+      "learning_rate": 0.19675572068123803,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 14818688,
+      "step": 15965
+    },
+    {
+      "epoch": 7.529467232437529,
+      "grad_norm": 0.00035603062133304775,
+      "learning_rate": 0.19669974691493794,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 14823920,
+      "step": 15970
+    },
+    {
+      "epoch": 7.5318246110325315,
+      "grad_norm": 0.0002175736881326884,
+      "learning_rate": 0.19664376594695002,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 14828624,
+      "step": 15975
+    },
+    {
+      "epoch": 7.534181989627534,
+      "grad_norm": 0.00040830427315086126,
+      "learning_rate": 0.19658777778590722,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 14832832,
+      "step": 15980
+    },
+    {
+      "epoch": 7.536539368222536,
+      "grad_norm": 0.00034019924351014197,
+      "learning_rate": 0.19653178244044364,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 14837696,
+      "step": 15985
+    },
+    {
+      "epoch": 7.538896746817539,
+      "grad_norm": 0.0005401458474807441,
+      "learning_rate": 0.19647577991919443,
+      "loss": 0.2787,
+      "num_input_tokens_seen": 14841808,
+      "step": 15990
+    },
+    {
+      "epoch": 7.541254125412541,
+      "grad_norm": 0.0002996890398208052,
+      "learning_rate": 0.1964197702307959,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 14846800,
+      "step": 15995
+    },
+    {
+      "epoch": 7.5436115040075435,
+      "grad_norm": 0.00022431951947510242,
+      "learning_rate": 0.19636375338388545,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 14852128,
+      "step": 16000
+    },
+    {
+      "epoch": 7.5436115040075435,
+      "eval_loss": 0.3276905119419098,
+      "eval_runtime": 33.6271,
+      "eval_samples_per_second": 28.043,
+      "eval_steps_per_second": 14.036,
+      "num_input_tokens_seen": 14852128,
+      "step": 16000
+    },
+    {
+      "epoch": 7.545968882602546,
+      "grad_norm": 0.0006953283445909619,
+      "learning_rate": 0.1963077293871016,
+      "loss": 0.3524,
+      "num_input_tokens_seen": 14856432,
+      "step": 16005
+    },
+    {
+      "epoch": 7.548326261197548,
+      "grad_norm": 0.00037644829717464745,
+      "learning_rate": 0.19625169824908395,
+      "loss": 0.346,
+      "num_input_tokens_seen": 14860720,
+      "step": 16010
+    },
+    {
+      "epoch": 7.550683639792551,
+      "grad_norm": 0.00018713508325163275,
+      "learning_rate": 0.19619565997847319,
+      "loss": 0.2858,
+      "num_input_tokens_seen": 14865712,
+      "step": 16015
+    },
+    {
+      "epoch": 7.553041018387553,
+      "grad_norm": 0.0004239687987137586,
+      "learning_rate": 0.19613961458391113,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 14870928,
+      "step": 16020
+    },
+    {
+      "epoch": 7.5553983969825556,
+      "grad_norm": 0.00017229119839612395,
+      "learning_rate": 0.19608356207404065,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 14875776,
+      "step": 16025
+    },
+    {
+      "epoch": 7.557755775577558,
+      "grad_norm": 0.0006078988080844283,
+      "learning_rate": 0.1960275024575058,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 14880112,
+      "step": 16030
+    },
+    {
+      "epoch": 7.56011315417256,
+      "grad_norm": 0.0002948410692624748,
+      "learning_rate": 0.19597143574295164,
+      "loss": 0.3267,
+      "num_input_tokens_seen": 14885408,
+      "step": 16035
+    },
+    {
+      "epoch": 7.562470532767563,
+      "grad_norm": 0.0005594576941803098,
+      "learning_rate": 0.1959153619390244,
+      "loss": 0.3173,
+      "num_input_tokens_seen": 14890032,
+      "step": 16040
+    },
+    {
+      "epoch": 7.564827911362565,
+      "grad_norm": 0.00024067718186415732,
+      "learning_rate": 0.1958592810543713,
+      "loss": 0.4219,
+      "num_input_tokens_seen": 14894432,
+      "step": 16045
+    },
+    {
+      "epoch": 7.567185289957568,
+      "grad_norm": 0.0004111276939511299,
+      "learning_rate": 0.19580319309764077,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 14898512,
+      "step": 16050
+    },
+    {
+      "epoch": 7.56954266855257,
+      "grad_norm": 0.0002766320249065757,
+      "learning_rate": 0.1957470980774823,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 14903152,
+      "step": 16055
+    },
+    {
+      "epoch": 7.571900047147572,
+      "grad_norm": 0.00021681627549696714,
+      "learning_rate": 0.19569099600254639,
+      "loss": 0.3587,
+      "num_input_tokens_seen": 14907856,
+      "step": 16060
+    },
+    {
+      "epoch": 7.574257425742574,
+      "grad_norm": 0.00036922431900165975,
+      "learning_rate": 0.1956348868814847,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 14912160,
+      "step": 16065
+    },
+    {
+      "epoch": 7.576614804337576,
+      "grad_norm": 0.00043062950135208666,
+      "learning_rate": 0.19557877072295,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 14916800,
+      "step": 16070
+    },
+    {
+      "epoch": 7.578972182932579,
+      "grad_norm": 0.0005274226423352957,
+      "learning_rate": 0.19552264753559603,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 14922032,
+      "step": 16075
+    },
+    {
+      "epoch": 7.581329561527581,
+      "grad_norm": 0.0002579204156063497,
+      "learning_rate": 0.19546651732807774,
+      "loss": 0.3616,
+      "num_input_tokens_seen": 14926528,
+      "step": 16080
+    },
+    {
+      "epoch": 7.5836869401225835,
+      "grad_norm": 0.0002622306055855006,
+      "learning_rate": 0.19541038010905112,
+      "loss": 0.2871,
+      "num_input_tokens_seen": 14930672,
+      "step": 16085
+    },
+    {
+      "epoch": 7.586044318717586,
+      "grad_norm": 0.00035420156200416386,
+      "learning_rate": 0.19535423588717324,
+      "loss": 0.2935,
+      "num_input_tokens_seen": 14935056,
+      "step": 16090
+    },
+    {
+      "epoch": 7.588401697312588,
+      "grad_norm": 0.00023062351101543754,
+      "learning_rate": 0.19529808467110224,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 14940512,
+      "step": 16095
+    },
+    {
+      "epoch": 7.590759075907591,
+      "grad_norm": 0.000269621261395514,
+      "learning_rate": 0.19524192646949734,
+      "loss": 0.3937,
+      "num_input_tokens_seen": 14944880,
+      "step": 16100
+    },
+    {
+      "epoch": 7.593116454502593,
+      "grad_norm": 0.0006014934624545276,
+      "learning_rate": 0.19518576129101878,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 14950000,
+      "step": 16105
+    },
+    {
+      "epoch": 7.5954738330975955,
+      "grad_norm": 0.0004520384536590427,
+      "learning_rate": 0.19512958914432804,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 14954944,
+      "step": 16110
+    },
+    {
+      "epoch": 7.597831211692598,
+      "grad_norm": 0.0003542737103998661,
+      "learning_rate": 0.1950734100380875,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 14959424,
+      "step": 16115
+    },
+    {
+      "epoch": 7.6001885902876,
+      "grad_norm": 0.0002547077019698918,
+      "learning_rate": 0.19501722398096066,
+      "loss": 0.3754,
+      "num_input_tokens_seen": 14963616,
+      "step": 16120
+    },
+    {
+      "epoch": 7.602545968882603,
+      "grad_norm": 0.0005151049117557704,
+      "learning_rate": 0.1949610309816122,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 14968512,
+      "step": 16125
+    },
+    {
+      "epoch": 7.604903347477605,
+      "grad_norm": 0.00029573257779702544,
+      "learning_rate": 0.1949048310487078,
+      "loss": 0.3467,
+      "num_input_tokens_seen": 14973248,
+      "step": 16130
+    },
+    {
+      "epoch": 7.6072607260726075,
+      "grad_norm": 0.0007970421575009823,
+      "learning_rate": 0.19484862419091406,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 14977968,
+      "step": 16135
+    },
+    {
+      "epoch": 7.60961810466761,
+      "grad_norm": 0.00040333709330298007,
+      "learning_rate": 0.19479241041689893,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 14981904,
+      "step": 16140
+    },
+    {
+      "epoch": 7.611975483262612,
+      "grad_norm": 0.00045595961273647845,
+      "learning_rate": 0.19473618973533116,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 14986704,
+      "step": 16145
+    },
+    {
+      "epoch": 7.614332861857615,
+      "grad_norm": 0.0002820586960297078,
+      "learning_rate": 0.19467996215488076,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 14990640,
+      "step": 16150
+    },
+    {
+      "epoch": 7.616690240452616,
+      "grad_norm": 0.00022339059796649963,
+      "learning_rate": 0.1946237276842187,
+      "loss": 0.3724,
+      "num_input_tokens_seen": 14995472,
+      "step": 16155
+    },
+    {
+      "epoch": 7.619047619047619,
+      "grad_norm": 0.00026542009436525404,
+      "learning_rate": 0.19456748633201712,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 15000080,
+      "step": 16160
+    },
+    {
+      "epoch": 7.621404997642621,
+      "grad_norm": 0.0004956176853738725,
+      "learning_rate": 0.194511238106949,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 15003632,
+      "step": 16165
+    },
+    {
+      "epoch": 7.623762376237623,
+      "grad_norm": 0.0003186517278663814,
+      "learning_rate": 0.19445498301768863,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 15007328,
+      "step": 16170
+    },
+    {
+      "epoch": 7.626119754832626,
+      "grad_norm": 0.00018751126481220126,
+      "learning_rate": 0.19439872107291126,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 15011664,
+      "step": 16175
+    },
+    {
+      "epoch": 7.628477133427628,
+      "grad_norm": 0.000533316342625767,
+      "learning_rate": 0.1943424522812931,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 15016064,
+      "step": 16180
+    },
+    {
+      "epoch": 7.630834512022631,
+      "grad_norm": 0.0008926335722208023,
+      "learning_rate": 0.19428617665151157,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 15020544,
+      "step": 16185
+    },
+    {
+      "epoch": 7.633191890617633,
+      "grad_norm": 0.0002936505479738116,
+      "learning_rate": 0.19422989419224507,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 15025232,
+      "step": 16190
+    },
+    {
+      "epoch": 7.635549269212635,
+      "grad_norm": 0.00025040790205821395,
+      "learning_rate": 0.19417360491217303,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 15029872,
+      "step": 16195
+    },
+    {
+      "epoch": 7.637906647807638,
+      "grad_norm": 0.000519613444339484,
+      "learning_rate": 0.19411730881997605,
+      "loss": 0.338,
+      "num_input_tokens_seen": 15033840,
+      "step": 16200
+    },
+    {
+      "epoch": 7.637906647807638,
+      "eval_loss": 0.32752013206481934,
+      "eval_runtime": 33.6256,
+      "eval_samples_per_second": 28.044,
+      "eval_steps_per_second": 14.037,
+      "num_input_tokens_seen": 15033840,
+      "step": 16200
+    },
+    {
+      "epoch": 7.64026402640264,
+      "grad_norm": 0.0003165419038850814,
+      "learning_rate": 0.1940610059243356,
+      "loss": 0.3678,
+      "num_input_tokens_seen": 15038896,
+      "step": 16205
+    },
+    {
+      "epoch": 7.642621404997643,
+      "grad_norm": 0.00037878876901231706,
+      "learning_rate": 0.19400469623393435,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 15043712,
+      "step": 16210
+    },
+    {
+      "epoch": 7.644978783592645,
+      "grad_norm": 0.0006801456329412758,
+      "learning_rate": 0.1939483797574559,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 15047936,
+      "step": 16215
+    },
+    {
+      "epoch": 7.6473361621876474,
+      "grad_norm": 0.0002094604860758409,
+      "learning_rate": 0.19389205650358504,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 15052336,
+      "step": 16220
+    },
+    {
+      "epoch": 7.64969354078265,
+      "grad_norm": 0.0003298007359262556,
+      "learning_rate": 0.19383572648100747,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 15057376,
+      "step": 16225
+    },
+    {
+      "epoch": 7.652050919377652,
+      "grad_norm": 0.000226881486014463,
+      "learning_rate": 0.19377938969841,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 15062400,
+      "step": 16230
+    },
+    {
+      "epoch": 7.654408297972655,
+      "grad_norm": 0.00020985951414331794,
+      "learning_rate": 0.1937230461644805,
+      "loss": 0.3947,
+      "num_input_tokens_seen": 15065984,
+      "step": 16235
+    },
+    {
+      "epoch": 7.656765676567657,
+      "grad_norm": 0.0004639927064999938,
+      "learning_rate": 0.19366669588790777,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 15070464,
+      "step": 16240
+    },
+    {
+      "epoch": 7.6591230551626595,
+      "grad_norm": 0.00035939336521551013,
+      "learning_rate": 0.19361033887738185,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 15075376,
+      "step": 16245
+    },
+    {
+      "epoch": 7.661480433757662,
+      "grad_norm": 0.0005087993922643363,
+      "learning_rate": 0.19355397514159361,
+      "loss": 0.2876,
+      "num_input_tokens_seen": 15079792,
+      "step": 16250
+    },
+    {
+      "epoch": 7.663837812352664,
+      "grad_norm": 0.00036642103805206716,
+      "learning_rate": 0.19349760468923508,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 15084288,
+      "step": 16255
+    },
+    {
+      "epoch": 7.666195190947667,
+      "grad_norm": 0.0005628531216643751,
+      "learning_rate": 0.19344122752899925,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 15090096,
+      "step": 16260
+    },
+    {
+      "epoch": 7.668552569542668,
+      "grad_norm": 0.00044769965461455286,
+      "learning_rate": 0.1933848436695802,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 15094224,
+      "step": 16265
+    },
+    {
+      "epoch": 7.670909948137671,
+      "grad_norm": 0.0003829962224699557,
+      "learning_rate": 0.1933284531196731,
+      "loss": 0.3658,
+      "num_input_tokens_seen": 15098944,
+      "step": 16270
+    },
+    {
+      "epoch": 7.673267326732673,
+      "grad_norm": 0.0003271383175160736,
+      "learning_rate": 0.19327205588797403,
+      "loss": 0.3262,
+      "num_input_tokens_seen": 15103904,
+      "step": 16275
+    },
+    {
+      "epoch": 7.675624705327675,
+      "grad_norm": 0.00031761545687913895,
+      "learning_rate": 0.19321565198318014,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 15108720,
+      "step": 16280
+    },
+    {
+      "epoch": 7.677982083922678,
+      "grad_norm": 0.0005356838810257614,
+      "learning_rate": 0.1931592414139896,
+      "loss": 0.2907,
+      "num_input_tokens_seen": 15113328,
+      "step": 16285
+    },
+    {
+      "epoch": 7.68033946251768,
+      "grad_norm": 0.0002816854976117611,
+      "learning_rate": 0.19310282418910169,
+      "loss": 0.2966,
+      "num_input_tokens_seen": 15117936,
+      "step": 16290
+    },
+    {
+      "epoch": 7.682696841112683,
+      "grad_norm": 0.0002088050969177857,
+      "learning_rate": 0.1930464003172166,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 15123168,
+      "step": 16295
+    },
+    {
+      "epoch": 7.685054219707685,
+      "grad_norm": 0.00032208027550950646,
+      "learning_rate": 0.19298996980703567,
+      "loss": 0.2898,
+      "num_input_tokens_seen": 15128368,
+      "step": 16300
+    },
+    {
+      "epoch": 7.687411598302687,
+      "grad_norm": 0.00035417056642472744,
+      "learning_rate": 0.19293353266726113,
+      "loss": 0.3811,
+      "num_input_tokens_seen": 15133024,
+      "step": 16305
+    },
+    {
+      "epoch": 7.68976897689769,
+      "grad_norm": 0.0003060708404518664,
+      "learning_rate": 0.19287708890659633,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 15137824,
+      "step": 16310
+    },
+    {
+      "epoch": 7.692126355492692,
+      "grad_norm": 0.0004116443742532283,
+      "learning_rate": 0.19282063853374556,
+      "loss": 0.2823,
+      "num_input_tokens_seen": 15142144,
+      "step": 16315
+    },
+    {
+      "epoch": 7.694483734087695,
+      "grad_norm": 0.00043656950583681464,
+      "learning_rate": 0.19276418155741423,
+      "loss": 0.2928,
+      "num_input_tokens_seen": 15146864,
+      "step": 16320
+    },
+    {
+      "epoch": 7.696841112682697,
+      "grad_norm": 0.0004274619568604976,
+      "learning_rate": 0.19270771798630867,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 15151552,
+      "step": 16325
+    },
+    {
+      "epoch": 7.699198491277699,
+      "grad_norm": 0.0002485316654201597,
+      "learning_rate": 0.1926512478291363,
+      "loss": 0.3658,
+      "num_input_tokens_seen": 15156400,
+      "step": 16330
+    },
+    {
+      "epoch": 7.701555869872702,
+      "grad_norm": 0.00047240935964509845,
+      "learning_rate": 0.19259477109460557,
+      "loss": 0.3998,
+      "num_input_tokens_seen": 15161264,
+      "step": 16335
+    },
+    {
+      "epoch": 7.703913248467704,
+      "grad_norm": 0.00027540692826732993,
+      "learning_rate": 0.19253828779142584,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 15166496,
+      "step": 16340
+    },
+    {
+      "epoch": 7.706270627062707,
+      "grad_norm": 0.00032611150527372956,
+      "learning_rate": 0.19248179792830755,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 15170896,
+      "step": 16345
+    },
+    {
+      "epoch": 7.708628005657709,
+      "grad_norm": 0.0003331095795147121,
+      "learning_rate": 0.19242530151396217,
+      "loss": 0.3551,
+      "num_input_tokens_seen": 15175584,
+      "step": 16350
+    },
+    {
+      "epoch": 7.7109853842527105,
+      "grad_norm": 0.00031479960307478905,
+      "learning_rate": 0.19236879855710215,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 15180192,
+      "step": 16355
+    },
+    {
+      "epoch": 7.713342762847713,
+      "grad_norm": 0.0005635237321257591,
+      "learning_rate": 0.19231228906644096,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 15184656,
+      "step": 16360
+    },
+    {
+      "epoch": 7.715700141442715,
+      "grad_norm": 0.0005012023029848933,
+      "learning_rate": 0.19225577305069302,
+      "loss": 0.3232,
+      "num_input_tokens_seen": 15188880,
+      "step": 16365
+    },
+    {
+      "epoch": 7.718057520037718,
+      "grad_norm": 0.0003892040404025465,
+      "learning_rate": 0.1921992505185739,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 15192720,
+      "step": 16370
+    },
+    {
+      "epoch": 7.72041489863272,
+      "grad_norm": 0.0004906702088192105,
+      "learning_rate": 0.19214272147880004,
+      "loss": 0.3774,
+      "num_input_tokens_seen": 15196768,
+      "step": 16375
+    },
+    {
+      "epoch": 7.7227722772277225,
+      "grad_norm": 0.0005375563050620258,
+      "learning_rate": 0.19208618594008892,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 15201504,
+      "step": 16380
+    },
+    {
+      "epoch": 7.725129655822725,
+      "grad_norm": 0.0005317223840393126,
+      "learning_rate": 0.19202964391115904,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 15205920,
+      "step": 16385
+    },
+    {
+      "epoch": 7.727487034417727,
+      "grad_norm": 0.00027374341152608395,
+      "learning_rate": 0.1919730954007299,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 15210832,
+      "step": 16390
+    },
+    {
+      "epoch": 7.72984441301273,
+      "grad_norm": 0.0005119968554936349,
+      "learning_rate": 0.19191654041752199,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 15215392,
+      "step": 16395
+    },
+    {
+      "epoch": 7.732201791607732,
+      "grad_norm": 0.0005002982215955853,
+      "learning_rate": 0.19185997897025678,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 15219136,
+      "step": 16400
+    },
+    {
+      "epoch": 7.732201791607732,
+      "eval_loss": 0.3273659348487854,
+      "eval_runtime": 33.5258,
+      "eval_samples_per_second": 28.128,
+      "eval_steps_per_second": 14.079,
+      "num_input_tokens_seen": 15219136,
+      "step": 16400
+    },
+    {
+      "epoch": 7.7345591702027345,
+      "grad_norm": 0.0004904968081973493,
+      "learning_rate": 0.19180341106765672,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 15223664,
+      "step": 16405
+    },
+    {
+      "epoch": 7.736916548797737,
+      "grad_norm": 0.00019663247803691775,
+      "learning_rate": 0.19174683671844536,
+      "loss": 0.2671,
+      "num_input_tokens_seen": 15228464,
+      "step": 16410
+    },
+    {
+      "epoch": 7.739273927392739,
+      "grad_norm": 0.00036225502844899893,
+      "learning_rate": 0.19169025593134717,
+      "loss": 0.362,
+      "num_input_tokens_seen": 15233632,
+      "step": 16415
+    },
+    {
+      "epoch": 7.741631305987742,
+      "grad_norm": 0.0004427047970239073,
+      "learning_rate": 0.19163366871508764,
+      "loss": 0.3074,
+      "num_input_tokens_seen": 15238560,
+      "step": 16420
+    },
+    {
+      "epoch": 7.743988684582744,
+      "grad_norm": 0.0001828311214921996,
+      "learning_rate": 0.19157707507839317,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 15243104,
+      "step": 16425
+    },
+    {
+      "epoch": 7.7463460631777465,
+      "grad_norm": 0.0002857406507246196,
+      "learning_rate": 0.19152047502999123,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 15248496,
+      "step": 16430
+    },
+    {
+      "epoch": 7.748703441772749,
+      "grad_norm": 0.0002353835734538734,
+      "learning_rate": 0.19146386857861025,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 15252800,
+      "step": 16435
+    },
+    {
+      "epoch": 7.751060820367751,
+      "grad_norm": 0.0008597969426773489,
+      "learning_rate": 0.19140725573297968,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 15257552,
+      "step": 16440
+    },
+    {
+      "epoch": 7.753418198962754,
+      "grad_norm": 0.0002781695802696049,
+      "learning_rate": 0.19135063650182987,
+      "loss": 0.355,
+      "num_input_tokens_seen": 15262288,
+      "step": 16445
+    },
+    {
+      "epoch": 7.755775577557756,
+      "grad_norm": 0.0002917679084930569,
+      "learning_rate": 0.19129401089389234,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 15266192,
+      "step": 16450
+    },
+    {
+      "epoch": 7.7581329561527586,
+      "grad_norm": 0.0005190492374822497,
+      "learning_rate": 0.19123737891789938,
+      "loss": 0.3349,
+      "num_input_tokens_seen": 15269968,
+      "step": 16455
+    },
+    {
+      "epoch": 7.760490334747761,
+      "grad_norm": 0.00022944665397517383,
+      "learning_rate": 0.19118074058258439,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 15274144,
+      "step": 16460
+    },
+    {
+      "epoch": 7.7628477133427625,
+      "grad_norm": 0.00037379190325737,
+      "learning_rate": 0.1911240958966816,
+      "loss": 0.307,
+      "num_input_tokens_seen": 15278416,
+      "step": 16465
+    },
+    {
+      "epoch": 7.765205091937765,
+      "grad_norm": 0.00028971608844585717,
+      "learning_rate": 0.19106744486892652,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 15283200,
+      "step": 16470
+    },
+    {
+      "epoch": 7.767562470532767,
+      "grad_norm": 0.0005401733797043562,
+      "learning_rate": 0.1910107875080553,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 15287568,
+      "step": 16475
+    },
+    {
+      "epoch": 7.76991984912777,
+      "grad_norm": 0.0005539186531677842,
+      "learning_rate": 0.19095412382280533,
+      "loss": 0.4012,
+      "num_input_tokens_seen": 15291552,
+      "step": 16480
+    },
+    {
+      "epoch": 7.772277227722772,
+      "grad_norm": 0.00023904480622150004,
+      "learning_rate": 0.19089745382191473,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 15296480,
+      "step": 16485
+    },
+    {
+      "epoch": 7.7746346063177745,
+      "grad_norm": 0.00037369344499893486,
+      "learning_rate": 0.19084077751412284,
+      "loss": 0.348,
+      "num_input_tokens_seen": 15301232,
+      "step": 16490
+    },
+    {
+      "epoch": 7.776991984912777,
+      "grad_norm": 0.00033571288804523647,
+      "learning_rate": 0.19078409490816986,
+      "loss": 0.3338,
+      "num_input_tokens_seen": 15305712,
+      "step": 16495
+    },
+    {
+      "epoch": 7.779349363507779,
+      "grad_norm": 0.00031806668266654015,
+      "learning_rate": 0.19072740601279686,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 15309872,
+      "step": 16500
+    },
+    {
+      "epoch": 7.781706742102782,
+      "grad_norm": 0.0003469826770015061,
+      "learning_rate": 0.19067071083674605,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 15314144,
+      "step": 16505
+    },
+    {
+      "epoch": 7.784064120697784,
+      "grad_norm": 0.00021368858870118856,
+      "learning_rate": 0.19061400938876052,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 15318304,
+      "step": 16510
+    },
+    {
+      "epoch": 7.7864214992927865,
+      "grad_norm": 0.00028889247914776206,
+      "learning_rate": 0.1905573016775844,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 15322912,
+      "step": 16515
+    },
+    {
+      "epoch": 7.788778877887789,
+      "grad_norm": 0.0005376843037083745,
+      "learning_rate": 0.19050058771196263,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 15328112,
+      "step": 16520
+    },
+    {
+      "epoch": 7.791136256482791,
+      "grad_norm": 0.00024778468650765717,
+      "learning_rate": 0.19044386750064132,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 15334032,
+      "step": 16525
+    },
+    {
+      "epoch": 7.793493635077794,
+      "grad_norm": 0.0004144488484598696,
+      "learning_rate": 0.19038714105236737,
+      "loss": 0.396,
+      "num_input_tokens_seen": 15339776,
+      "step": 16530
+    },
+    {
+      "epoch": 7.795851013672796,
+      "grad_norm": 0.00021837676467839628,
+      "learning_rate": 0.19033040837588874,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 15344336,
+      "step": 16535
+    },
+    {
+      "epoch": 7.7982083922677985,
+      "grad_norm": 0.0003524569619912654,
+      "learning_rate": 0.1902736694799543,
+      "loss": 0.3445,
+      "num_input_tokens_seen": 15349008,
+      "step": 16540
+    },
+    {
+      "epoch": 7.800565770862801,
+      "grad_norm": 0.00029534532222896814,
+      "learning_rate": 0.19021692437331392,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 15353680,
+      "step": 16545
+    },
+    {
+      "epoch": 7.802923149457803,
+      "grad_norm": 0.00026694568805396557,
+      "learning_rate": 0.1901601730647184,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 15358496,
+      "step": 16550
+    },
+    {
+      "epoch": 7.805280528052805,
+      "grad_norm": 0.00022042846831027418,
+      "learning_rate": 0.19010341556291954,
+      "loss": 0.3076,
+      "num_input_tokens_seen": 15362640,
+      "step": 16555
+    },
+    {
+      "epoch": 7.807637906647807,
+      "grad_norm": 0.00021794720669277012,
+      "learning_rate": 0.19004665187667,
+      "loss": 0.334,
+      "num_input_tokens_seen": 15367344,
+      "step": 16560
+    },
+    {
+      "epoch": 7.80999528524281,
+      "grad_norm": 0.00021811449551023543,
+      "learning_rate": 0.1899898820147235,
+      "loss": 0.3668,
+      "num_input_tokens_seen": 15372384,
+      "step": 16565
+    },
+    {
+      "epoch": 7.812352663837812,
+      "grad_norm": 0.0005198938306421041,
+      "learning_rate": 0.18993310598583465,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 15377584,
+      "step": 16570
+    },
+    {
+      "epoch": 7.814710042432814,
+      "grad_norm": 0.000318191887345165,
+      "learning_rate": 0.18987632379875904,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 15381248,
+      "step": 16575
+    },
+    {
+      "epoch": 7.817067421027817,
+      "grad_norm": 0.0006638370687142015,
+      "learning_rate": 0.18981953546225314,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 15385792,
+      "step": 16580
+    },
+    {
+      "epoch": 7.819424799622819,
+      "grad_norm": 0.000429462525062263,
+      "learning_rate": 0.18976274098507445,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 15390224,
+      "step": 16585
+    },
+    {
+      "epoch": 7.821782178217822,
+      "grad_norm": 0.00031039590248838067,
+      "learning_rate": 0.18970594037598146,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 15394752,
+      "step": 16590
+    },
+    {
+      "epoch": 7.824139556812824,
+      "grad_norm": 0.0002194958069594577,
+      "learning_rate": 0.1896491336437335,
+      "loss": 0.337,
+      "num_input_tokens_seen": 15399472,
+      "step": 16595
+    },
+    {
+      "epoch": 7.826496935407826,
+      "grad_norm": 0.00036761799128726125,
+      "learning_rate": 0.18959232079709085,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 15404160,
+      "step": 16600
+    },
+    {
+      "epoch": 7.826496935407826,
+      "eval_loss": 0.3260554373264313,
+      "eval_runtime": 33.6059,
+      "eval_samples_per_second": 28.061,
+      "eval_steps_per_second": 14.045,
+      "num_input_tokens_seen": 15404160,
+      "step": 16600
+    },
+    {
+      "epoch": 7.828854314002829,
+      "grad_norm": 0.00034929002868011594,
+      "learning_rate": 0.18953550184481477,
+      "loss": 0.325,
+      "num_input_tokens_seen": 15409280,
+      "step": 16605
+    },
+    {
+      "epoch": 7.831211692597831,
+      "grad_norm": 0.0006658703787252307,
+      "learning_rate": 0.18947867679566752,
+      "loss": 0.3605,
+      "num_input_tokens_seen": 15413680,
+      "step": 16610
+    },
+    {
+      "epoch": 7.833569071192834,
+      "grad_norm": 0.00039634620770812035,
+      "learning_rate": 0.18942184565841216,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 15417680,
+      "step": 16615
+    },
+    {
+      "epoch": 7.835926449787836,
+      "grad_norm": 0.00041488022543489933,
+      "learning_rate": 0.18936500844181278,
+      "loss": 0.3587,
+      "num_input_tokens_seen": 15423104,
+      "step": 16620
+    },
+    {
+      "epoch": 7.838283828382838,
+      "grad_norm": 0.00037923204945400357,
+      "learning_rate": 0.18930816515463436,
+      "loss": 0.2962,
+      "num_input_tokens_seen": 15428368,
+      "step": 16625
+    },
+    {
+      "epoch": 7.840641206977841,
+      "grad_norm": 0.00040036748396232724,
+      "learning_rate": 0.18925131580564297,
+      "loss": 0.335,
+      "num_input_tokens_seen": 15433552,
+      "step": 16630
+    },
+    {
+      "epoch": 7.842998585572843,
+      "grad_norm": 0.00036619341699406505,
+      "learning_rate": 0.1891944604036054,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 15438416,
+      "step": 16635
+    },
+    {
+      "epoch": 7.845355964167846,
+      "grad_norm": 0.0006569855031557381,
+      "learning_rate": 0.1891375989572895,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 15443824,
+      "step": 16640
+    },
+    {
+      "epoch": 7.847713342762848,
+      "grad_norm": 0.0006838279659859836,
+      "learning_rate": 0.18908073147546398,
+      "loss": 0.318,
+      "num_input_tokens_seen": 15448848,
+      "step": 16645
+    },
+    {
+      "epoch": 7.8500707213578504,
+      "grad_norm": 0.00026240694569423795,
+      "learning_rate": 0.18902385796689858,
+      "loss": 0.3928,
+      "num_input_tokens_seen": 15453968,
+      "step": 16650
+    },
+    {
+      "epoch": 7.852428099952853,
+      "grad_norm": 0.0002273023419547826,
+      "learning_rate": 0.18896697844036384,
+      "loss": 0.3558,
+      "num_input_tokens_seen": 15458416,
+      "step": 16655
+    },
+    {
+      "epoch": 7.854785478547855,
+      "grad_norm": 0.0005160541040822864,
+      "learning_rate": 0.18891009290463137,
+      "loss": 0.3029,
+      "num_input_tokens_seen": 15463456,
+      "step": 16660
+    },
+    {
+      "epoch": 7.857142857142857,
+      "grad_norm": 0.000307461858028546,
+      "learning_rate": 0.18885320136847353,
+      "loss": 0.3685,
+      "num_input_tokens_seen": 15467440,
+      "step": 16665
+    },
+    {
+      "epoch": 7.859500235737859,
+      "grad_norm": 0.0002598549472168088,
+      "learning_rate": 0.1887963038406639,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 15472912,
+      "step": 16670
+    },
+    {
+      "epoch": 7.861857614332862,
+      "grad_norm": 0.0004997841897420585,
+      "learning_rate": 0.18873940032997658,
+      "loss": 0.337,
+      "num_input_tokens_seen": 15477184,
+      "step": 16675
+    },
+    {
+      "epoch": 7.864214992927864,
+      "grad_norm": 0.00038459678762592375,
+      "learning_rate": 0.18868249084518693,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 15481792,
+      "step": 16680
+    },
+    {
+      "epoch": 7.866572371522866,
+      "grad_norm": 0.00021416356321424246,
+      "learning_rate": 0.18862557539507102,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 15485936,
+      "step": 16685
+    },
+    {
+      "epoch": 7.868929750117869,
+      "grad_norm": 0.0005273995921015739,
+      "learning_rate": 0.18856865398840605,
+      "loss": 0.2833,
+      "num_input_tokens_seen": 15491040,
+      "step": 16690
+    },
+    {
+      "epoch": 7.871287128712871,
+      "grad_norm": 0.0004897058242931962,
+      "learning_rate": 0.18851172663396995,
+      "loss": 0.3188,
+      "num_input_tokens_seen": 15495120,
+      "step": 16695
+    },
+    {
+      "epoch": 7.873644507307874,
+      "grad_norm": 0.00022410275414586067,
+      "learning_rate": 0.1884547933405416,
+      "loss": 0.3124,
+      "num_input_tokens_seen": 15500336,
+      "step": 16700
+    },
+    {
+      "epoch": 7.876001885902876,
+      "grad_norm": 0.00045178973232395947,
+      "learning_rate": 0.1883978541169009,
+      "loss": 0.2647,
+      "num_input_tokens_seen": 15504848,
+      "step": 16705
+    },
+    {
+      "epoch": 7.878359264497878,
+      "grad_norm": 0.00022542728402186185,
+      "learning_rate": 0.18834090897182854,
+      "loss": 0.2912,
+      "num_input_tokens_seen": 15508608,
+      "step": 16710
+    },
+    {
+      "epoch": 7.880716643092881,
+      "grad_norm": 0.0007271292852237821,
+      "learning_rate": 0.1882839579141062,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 15512928,
+      "step": 16715
+    },
+    {
+      "epoch": 7.883074021687883,
+      "grad_norm": 0.0003770659677684307,
+      "learning_rate": 0.18822700095251646,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 15517264,
+      "step": 16720
+    },
+    {
+      "epoch": 7.885431400282886,
+      "grad_norm": 0.0004924650420434773,
+      "learning_rate": 0.18817003809584273,
+      "loss": 0.3605,
+      "num_input_tokens_seen": 15521200,
+      "step": 16725
+    },
+    {
+      "epoch": 7.887788778877888,
+      "grad_norm": 0.000538489839527756,
+      "learning_rate": 0.1881130693528695,
+      "loss": 0.3651,
+      "num_input_tokens_seen": 15525680,
+      "step": 16730
+    },
+    {
+      "epoch": 7.89014615747289,
+      "grad_norm": 0.00038299846346490085,
+      "learning_rate": 0.18805609473238197,
+      "loss": 0.3267,
+      "num_input_tokens_seen": 15530848,
+      "step": 16735
+    },
+    {
+      "epoch": 7.892503536067893,
+      "grad_norm": 0.00027041195426136255,
+      "learning_rate": 0.18799911424316643,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 15536048,
+      "step": 16740
+    },
+    {
+      "epoch": 7.894860914662895,
+      "grad_norm": 0.00031644542468711734,
+      "learning_rate": 0.18794212789400994,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 15540480,
+      "step": 16745
+    },
+    {
+      "epoch": 7.897218293257898,
+      "grad_norm": 0.00015878345584496856,
+      "learning_rate": 0.18788513569370052,
+      "loss": 0.2786,
+      "num_input_tokens_seen": 15544976,
+      "step": 16750
+    },
+    {
+      "epoch": 7.899575671852899,
+      "grad_norm": 0.000619702332187444,
+      "learning_rate": 0.1878281376510271,
+      "loss": 0.3916,
+      "num_input_tokens_seen": 15549600,
+      "step": 16755
+    },
+    {
+      "epoch": 7.9019330504479015,
+      "grad_norm": 0.0005837402422912419,
+      "learning_rate": 0.18777113377477941,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 15553888,
+      "step": 16760
+    },
+    {
+      "epoch": 7.904290429042904,
+      "grad_norm": 0.00018715861369855702,
+      "learning_rate": 0.1877141240737483,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 15557360,
+      "step": 16765
+    },
+    {
+      "epoch": 7.906647807637906,
+      "grad_norm": 0.00030243382207117975,
+      "learning_rate": 0.18765710855672527,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 15561968,
+      "step": 16770
+    },
+    {
+      "epoch": 7.909005186232909,
+      "grad_norm": 0.00034778440021909773,
+      "learning_rate": 0.18760008723250288,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 15566240,
+      "step": 16775
+    },
+    {
+      "epoch": 7.911362564827911,
+      "grad_norm": 0.00022542933584190905,
+      "learning_rate": 0.18754306010987457,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 15570736,
+      "step": 16780
+    },
+    {
+      "epoch": 7.9137199434229135,
+      "grad_norm": 0.0004673406365327537,
+      "learning_rate": 0.18748602719763457,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 15575920,
+      "step": 16785
+    },
+    {
+      "epoch": 7.916077322017916,
+      "grad_norm": 0.0002886454458348453,
+      "learning_rate": 0.18742898850457804,
+      "loss": 0.3347,
+      "num_input_tokens_seen": 15580080,
+      "step": 16790
+    },
+    {
+      "epoch": 7.918434700612918,
+      "grad_norm": 0.0005968176410533488,
+      "learning_rate": 0.1873719440395012,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 15585280,
+      "step": 16795
+    },
+    {
+      "epoch": 7.920792079207921,
+      "grad_norm": 0.00022501104103866965,
+      "learning_rate": 0.1873148938112009,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 15589632,
+      "step": 16800
+    },
+    {
+      "epoch": 7.920792079207921,
+      "eval_loss": 0.3269668221473694,
+      "eval_runtime": 33.611,
+      "eval_samples_per_second": 28.056,
+      "eval_steps_per_second": 14.043,
+      "num_input_tokens_seen": 15589632,
+      "step": 16800
+    },
+    {
+      "epoch": 7.923149457802923,
+      "grad_norm": 0.0002895141369663179,
+      "learning_rate": 0.18725783782847508,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 15593968,
+      "step": 16805
+    },
+    {
+      "epoch": 7.9255068363979255,
+      "grad_norm": 0.00019771986990235746,
+      "learning_rate": 0.1872007761001224,
+      "loss": 0.3051,
+      "num_input_tokens_seen": 15598544,
+      "step": 16810
+    },
+    {
+      "epoch": 7.927864214992928,
+      "grad_norm": 0.0002995284157805145,
+      "learning_rate": 0.1871437086349426,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 15602544,
+      "step": 16815
+    },
+    {
+      "epoch": 7.93022159358793,
+      "grad_norm": 0.0002324941015103832,
+      "learning_rate": 0.18708663544173615,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 15606864,
+      "step": 16820
+    },
+    {
+      "epoch": 7.932578972182933,
+      "grad_norm": 0.00038752544787712395,
+      "learning_rate": 0.18702955652930442,
+      "loss": 0.2873,
+      "num_input_tokens_seen": 15611600,
+      "step": 16825
+    },
+    {
+      "epoch": 7.934936350777935,
+      "grad_norm": 0.00021469297644216567,
+      "learning_rate": 0.18697247190644972,
+      "loss": 0.2105,
+      "num_input_tokens_seen": 15615936,
+      "step": 16830
+    },
+    {
+      "epoch": 7.9372937293729375,
+      "grad_norm": 0.0001412671263096854,
+      "learning_rate": 0.18691538158197527,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 15621520,
+      "step": 16835
+    },
+    {
+      "epoch": 7.93965110796794,
+      "grad_norm": 0.00044941939995624125,
+      "learning_rate": 0.1868582855646851,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 15626656,
+      "step": 16840
+    },
+    {
+      "epoch": 7.942008486562942,
+      "grad_norm": 0.0006781144766137004,
+      "learning_rate": 0.18680118386338404,
+      "loss": 0.2995,
+      "num_input_tokens_seen": 15630944,
+      "step": 16845
+    },
+    {
+      "epoch": 7.944365865157945,
+      "grad_norm": 0.0003952785045839846,
+      "learning_rate": 0.18674407648687794,
+      "loss": 0.3553,
+      "num_input_tokens_seen": 15635632,
+      "step": 16850
+    },
+    {
+      "epoch": 7.946723243752947,
+      "grad_norm": 0.0003063715703319758,
+      "learning_rate": 0.1866869634439736,
+      "loss": 0.3016,
+      "num_input_tokens_seen": 15640672,
+      "step": 16855
+    },
+    {
+      "epoch": 7.9490806223479495,
+      "grad_norm": 0.0003406623436603695,
+      "learning_rate": 0.18662984474347838,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 15646064,
+      "step": 16860
+    },
+    {
+      "epoch": 7.951438000942951,
+      "grad_norm": 0.000697734416462481,
+      "learning_rate": 0.1865727203942008,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 15650896,
+      "step": 16865
+    },
+    {
+      "epoch": 7.9537953795379535,
+      "grad_norm": 0.00041309764492325485,
+      "learning_rate": 0.1865155904049501,
+      "loss": 0.3704,
+      "num_input_tokens_seen": 15655344,
+      "step": 16870
+    },
+    {
+      "epoch": 7.956152758132956,
+      "grad_norm": 0.0009216254693455994,
+      "learning_rate": 0.1864584547845365,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 15660208,
+      "step": 16875
+    },
+    {
+      "epoch": 7.958510136727958,
+      "grad_norm": 0.0009020057041198015,
+      "learning_rate": 0.186401313541771,
+      "loss": 0.3629,
+      "num_input_tokens_seen": 15664752,
+      "step": 16880
+    },
+    {
+      "epoch": 7.960867515322961,
+      "grad_norm": 0.0009619747288525105,
+      "learning_rate": 0.18634416668546552,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 15669184,
+      "step": 16885
+    },
+    {
+      "epoch": 7.963224893917963,
+      "grad_norm": 0.0006307697622105479,
+      "learning_rate": 0.1862870142244328,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 15673520,
+      "step": 16890
+    },
+    {
+      "epoch": 7.9655822725129655,
+      "grad_norm": 0.0003838291158899665,
+      "learning_rate": 0.1862298561674865,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 15678352,
+      "step": 16895
+    },
+    {
+      "epoch": 7.967939651107968,
+      "grad_norm": 0.0005330453859642148,
+      "learning_rate": 0.18617269252344104,
+      "loss": 0.3627,
+      "num_input_tokens_seen": 15682896,
+      "step": 16900
+    },
+    {
+      "epoch": 7.97029702970297,
+      "grad_norm": 0.0004989198059774935,
+      "learning_rate": 0.18611552330111186,
+      "loss": 0.3812,
+      "num_input_tokens_seen": 15688000,
+      "step": 16905
+    },
+    {
+      "epoch": 7.972654408297973,
+      "grad_norm": 0.0004586662398651242,
+      "learning_rate": 0.18605834850931507,
+      "loss": 0.3617,
+      "num_input_tokens_seen": 15692448,
+      "step": 16910
+    },
+    {
+      "epoch": 7.975011786892975,
+      "grad_norm": 0.00039745314279571176,
+      "learning_rate": 0.18600116815686787,
+      "loss": 0.319,
+      "num_input_tokens_seen": 15698336,
+      "step": 16915
+    },
+    {
+      "epoch": 7.9773691654879775,
+      "grad_norm": 0.000259682274190709,
+      "learning_rate": 0.1859439822525881,
+      "loss": 0.2887,
+      "num_input_tokens_seen": 15703872,
+      "step": 16920
+    },
+    {
+      "epoch": 7.97972654408298,
+      "grad_norm": 0.0003800241684075445,
+      "learning_rate": 0.18588679080529455,
+      "loss": 0.3673,
+      "num_input_tokens_seen": 15708944,
+      "step": 16925
+    },
+    {
+      "epoch": 7.982083922677982,
+      "grad_norm": 0.0003813332295976579,
+      "learning_rate": 0.1858295938238069,
+      "loss": 0.2964,
+      "num_input_tokens_seen": 15714016,
+      "step": 16930
+    },
+    {
+      "epoch": 7.984441301272985,
+      "grad_norm": 0.0003936190332751721,
+      "learning_rate": 0.18577239131694562,
+      "loss": 0.342,
+      "num_input_tokens_seen": 15719728,
+      "step": 16935
+    },
+    {
+      "epoch": 7.986798679867987,
+      "grad_norm": 0.0004804225463885814,
+      "learning_rate": 0.18571518329353204,
+      "loss": 0.2886,
+      "num_input_tokens_seen": 15724560,
+      "step": 16940
+    },
+    {
+      "epoch": 7.9891560584629895,
+      "grad_norm": 0.00024070459767244756,
+      "learning_rate": 0.18565796976238838,
+      "loss": 0.2948,
+      "num_input_tokens_seen": 15729584,
+      "step": 16945
+    },
+    {
+      "epoch": 7.991513437057992,
+      "grad_norm": 0.0002541581925470382,
+      "learning_rate": 0.18560075073233764,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 15733760,
+      "step": 16950
+    },
+    {
+      "epoch": 7.993870815652993,
+      "grad_norm": 0.0005358168855309486,
+      "learning_rate": 0.18554352621220377,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 15739456,
+      "step": 16955
+    },
+    {
+      "epoch": 7.996228194247996,
+      "grad_norm": 0.0005348525010049343,
+      "learning_rate": 0.18548629621081153,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 15744096,
+      "step": 16960
+    },
+    {
+      "epoch": 7.998585572842998,
+      "grad_norm": 0.0003517756995279342,
+      "learning_rate": 0.18542906073698645,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 15748416,
+      "step": 16965
+    },
+    {
+      "epoch": 8.000942951438,
+      "grad_norm": 0.00023416058684233576,
+      "learning_rate": 0.18537181979955494,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 15753504,
+      "step": 16970
+    },
+    {
+      "epoch": 8.003300330033003,
+      "grad_norm": 0.0005445053684525192,
+      "learning_rate": 0.18531457340734434,
+      "loss": 0.2545,
+      "num_input_tokens_seen": 15757872,
+      "step": 16975
+    },
+    {
+      "epoch": 8.005657708628005,
+      "grad_norm": 0.000295286881737411,
+      "learning_rate": 0.1852573215691827,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 15762736,
+      "step": 16980
+    },
+    {
+      "epoch": 8.008015087223008,
+      "grad_norm": 0.0002746206009760499,
+      "learning_rate": 0.18520006429389904,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 15767536,
+      "step": 16985
+    },
+    {
+      "epoch": 8.01037246581801,
+      "grad_norm": 0.000753149448428303,
+      "learning_rate": 0.1851428015903231,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 15772144,
+      "step": 16990
+    },
+    {
+      "epoch": 8.012729844413013,
+      "grad_norm": 0.0006977831362746656,
+      "learning_rate": 0.1850855334672855,
+      "loss": 0.3711,
+      "num_input_tokens_seen": 15776800,
+      "step": 16995
+    },
+    {
+      "epoch": 8.015087223008015,
+      "grad_norm": 0.0005811756709590554,
+      "learning_rate": 0.1850282599336178,
+      "loss": 0.2996,
+      "num_input_tokens_seen": 15781760,
+      "step": 17000
+    },
+    {
+      "epoch": 8.015087223008015,
+      "eval_loss": 0.3276032507419586,
+      "eval_runtime": 33.594,
+      "eval_samples_per_second": 28.07,
+      "eval_steps_per_second": 14.05,
+      "num_input_tokens_seen": 15781760,
+      "step": 17000
+    },
+    {
+      "epoch": 8.017444601603017,
+      "grad_norm": 0.000225729716476053,
+      "learning_rate": 0.18497098099815215,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 15786000,
+      "step": 17005
+    },
+    {
+      "epoch": 8.01980198019802,
+      "grad_norm": 0.0005325123784132302,
+      "learning_rate": 0.18491369666972174,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 15790560,
+      "step": 17010
+    },
+    {
+      "epoch": 8.022159358793022,
+      "grad_norm": 0.00025341034051962197,
+      "learning_rate": 0.1848564069571606,
+      "loss": 0.3485,
+      "num_input_tokens_seen": 15794992,
+      "step": 17015
+    },
+    {
+      "epoch": 8.024516737388025,
+      "grad_norm": 0.000251166959060356,
+      "learning_rate": 0.18479911186930348,
+      "loss": 0.3868,
+      "num_input_tokens_seen": 15799696,
+      "step": 17020
+    },
+    {
+      "epoch": 8.026874115983027,
+      "grad_norm": 0.0003051766543649137,
+      "learning_rate": 0.18474181141498597,
+      "loss": 0.326,
+      "num_input_tokens_seen": 15804384,
+      "step": 17025
+    },
+    {
+      "epoch": 8.02923149457803,
+      "grad_norm": 0.00046633536112494767,
+      "learning_rate": 0.18468450560304453,
+      "loss": 0.37,
+      "num_input_tokens_seen": 15809248,
+      "step": 17030
+    },
+    {
+      "epoch": 8.031588873173032,
+      "grad_norm": 0.000686612562276423,
+      "learning_rate": 0.1846271944423165,
+      "loss": 0.3595,
+      "num_input_tokens_seen": 15813680,
+      "step": 17035
+    },
+    {
+      "epoch": 8.033946251768034,
+      "grad_norm": 0.00028769506025128067,
+      "learning_rate": 0.18456987794163993,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 15818816,
+      "step": 17040
+    },
+    {
+      "epoch": 8.036303630363037,
+      "grad_norm": 0.0008562598377466202,
+      "learning_rate": 0.18451255610985373,
+      "loss": 0.3583,
+      "num_input_tokens_seen": 15823760,
+      "step": 17045
+    },
+    {
+      "epoch": 8.038661008958039,
+      "grad_norm": 0.00044938779319636524,
+      "learning_rate": 0.18445522895579766,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 15828800,
+      "step": 17050
+    },
+    {
+      "epoch": 8.041018387553041,
+      "grad_norm": 0.00030482953297905624,
+      "learning_rate": 0.1843978964883123,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 15832880,
+      "step": 17055
+    },
+    {
+      "epoch": 8.043375766148044,
+      "grad_norm": 0.000305117602692917,
+      "learning_rate": 0.18434055871623906,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 15837584,
+      "step": 17060
+    },
+    {
+      "epoch": 8.045733144743046,
+      "grad_norm": 0.0003334605135023594,
+      "learning_rate": 0.18428321564842007,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 15841856,
+      "step": 17065
+    },
+    {
+      "epoch": 8.048090523338049,
+      "grad_norm": 0.0005306003149598837,
+      "learning_rate": 0.18422586729369841,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 15846528,
+      "step": 17070
+    },
+    {
+      "epoch": 8.050447901933051,
+      "grad_norm": 0.0011826605768874288,
+      "learning_rate": 0.1841685136609179,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 15851568,
+      "step": 17075
+    },
+    {
+      "epoch": 8.052805280528053,
+      "grad_norm": 0.0003988984681200236,
+      "learning_rate": 0.18411115475892326,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 15856416,
+      "step": 17080
+    },
+    {
+      "epoch": 8.055162659123056,
+      "grad_norm": 0.00040826015174388885,
+      "learning_rate": 0.18405379059655982,
+      "loss": 0.3555,
+      "num_input_tokens_seen": 15861856,
+      "step": 17085
+    },
+    {
+      "epoch": 8.057520037718058,
+      "grad_norm": 0.0003672083548735827,
+      "learning_rate": 0.1839964211826739,
+      "loss": 0.3005,
+      "num_input_tokens_seen": 15866432,
+      "step": 17090
+    },
+    {
+      "epoch": 8.05987741631306,
+      "grad_norm": 0.0006478044670075178,
+      "learning_rate": 0.18393904652611265,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 15870944,
+      "step": 17095
+    },
+    {
+      "epoch": 8.062234794908063,
+      "grad_norm": 0.00021779544476885349,
+      "learning_rate": 0.18388166663572392,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 15875984,
+      "step": 17100
+    },
+    {
+      "epoch": 8.064592173503065,
+      "grad_norm": 0.0012966010253876448,
+      "learning_rate": 0.18382428152035643,
+      "loss": 0.3801,
+      "num_input_tokens_seen": 15881728,
+      "step": 17105
+    },
+    {
+      "epoch": 8.066949552098066,
+      "grad_norm": 0.00041270809015259147,
+      "learning_rate": 0.1837668911888596,
+      "loss": 0.333,
+      "num_input_tokens_seen": 15886144,
+      "step": 17110
+    },
+    {
+      "epoch": 8.069306930693068,
+      "grad_norm": 0.0006507821963168681,
+      "learning_rate": 0.18370949565008388,
+      "loss": 0.315,
+      "num_input_tokens_seen": 15890896,
+      "step": 17115
+    },
+    {
+      "epoch": 8.07166430928807,
+      "grad_norm": 0.0002900815161410719,
+      "learning_rate": 0.1836520949128803,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 15895184,
+      "step": 17120
+    },
+    {
+      "epoch": 8.074021687883073,
+      "grad_norm": 0.0002052258641924709,
+      "learning_rate": 0.18359468898610076,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 15900752,
+      "step": 17125
+    },
+    {
+      "epoch": 8.076379066478076,
+      "grad_norm": 0.0008052071207202971,
+      "learning_rate": 0.18353727787859797,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 15904928,
+      "step": 17130
+    },
+    {
+      "epoch": 8.078736445073078,
+      "grad_norm": 0.0002632287214510143,
+      "learning_rate": 0.18347986159922552,
+      "loss": 0.2956,
+      "num_input_tokens_seen": 15909360,
+      "step": 17135
+    },
+    {
+      "epoch": 8.08109382366808,
+      "grad_norm": 0.00023552932543680072,
+      "learning_rate": 0.1834224401568377,
+      "loss": 0.3754,
+      "num_input_tokens_seen": 15914336,
+      "step": 17140
+    },
+    {
+      "epoch": 8.083451202263083,
+      "grad_norm": 0.0007396420114673674,
+      "learning_rate": 0.1833650135602896,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 15917712,
+      "step": 17145
+    },
+    {
+      "epoch": 8.085808580858085,
+      "grad_norm": 0.00048298208275809884,
+      "learning_rate": 0.18330758181843707,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 15922144,
+      "step": 17150
+    },
+    {
+      "epoch": 8.088165959453088,
+      "grad_norm": 0.00041282863821834326,
+      "learning_rate": 0.18325014494013686,
+      "loss": 0.33,
+      "num_input_tokens_seen": 15925792,
+      "step": 17155
+    },
+    {
+      "epoch": 8.09052333804809,
+      "grad_norm": 0.00031351676443591714,
+      "learning_rate": 0.18319270293424647,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 15930784,
+      "step": 17160
+    },
+    {
+      "epoch": 8.092880716643092,
+      "grad_norm": 0.0007431934936903417,
+      "learning_rate": 0.18313525580962417,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 15935056,
+      "step": 17165
+    },
+    {
+      "epoch": 8.095238095238095,
+      "grad_norm": 0.0005927301826886833,
+      "learning_rate": 0.18307780357512896,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 15939648,
+      "step": 17170
+    },
+    {
+      "epoch": 8.097595473833097,
+      "grad_norm": 0.000503462681081146,
+      "learning_rate": 0.1830203462396208,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 15944384,
+      "step": 17175
+    },
+    {
+      "epoch": 8.0999528524281,
+      "grad_norm": 0.0002910495677497238,
+      "learning_rate": 0.18296288381196033,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 15949664,
+      "step": 17180
+    },
+    {
+      "epoch": 8.102310231023102,
+      "grad_norm": 0.0006931686075404286,
+      "learning_rate": 0.1829054163010089,
+      "loss": 0.3069,
+      "num_input_tokens_seen": 15953920,
+      "step": 17185
+    },
+    {
+      "epoch": 8.104667609618105,
+      "grad_norm": 0.00031972574652172625,
+      "learning_rate": 0.18284794371562874,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 15958848,
+      "step": 17190
+    },
+    {
+      "epoch": 8.107024988213107,
+      "grad_norm": 0.00030897505348548293,
+      "learning_rate": 0.18279046606468288,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 15963168,
+      "step": 17195
+    },
+    {
+      "epoch": 8.10938236680811,
+      "grad_norm": 0.0003154225996695459,
+      "learning_rate": 0.1827329833570351,
+      "loss": 0.3615,
+      "num_input_tokens_seen": 15967648,
+      "step": 17200
+    },
+    {
+      "epoch": 8.10938236680811,
+      "eval_loss": 0.3266132175922394,
+      "eval_runtime": 33.559,
+      "eval_samples_per_second": 28.1,
+      "eval_steps_per_second": 14.065,
+      "num_input_tokens_seen": 15967648,
+      "step": 17200
+    },
+    {
+      "epoch": 8.111739745403112,
+      "grad_norm": 0.00035441125510260463,
+      "learning_rate": 0.18267549560154991,
+      "loss": 0.3636,
+      "num_input_tokens_seen": 15971920,
+      "step": 17205
+    },
+    {
+      "epoch": 8.114097123998114,
+      "grad_norm": 0.0004869486147072166,
+      "learning_rate": 0.18261800280709267,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 15976656,
+      "step": 17210
+    },
+    {
+      "epoch": 8.116454502593117,
+      "grad_norm": 0.0004579440865200013,
+      "learning_rate": 0.18256050498252957,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 15982144,
+      "step": 17215
+    },
+    {
+      "epoch": 8.118811881188119,
+      "grad_norm": 0.0004885134985670447,
+      "learning_rate": 0.18250300213672735,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 15986208,
+      "step": 17220
+    },
+    {
+      "epoch": 8.121169259783121,
+      "grad_norm": 0.0004185684665571898,
+      "learning_rate": 0.18244549427855378,
+      "loss": 0.3772,
+      "num_input_tokens_seen": 15990896,
+      "step": 17225
+    },
+    {
+      "epoch": 8.123526638378124,
+      "grad_norm": 0.0006653285818174481,
+      "learning_rate": 0.1823879814168772,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 15995312,
+      "step": 17230
+    },
+    {
+      "epoch": 8.125884016973126,
+      "grad_norm": 0.00024280061188619584,
+      "learning_rate": 0.18233046356056692,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 15999904,
+      "step": 17235
+    },
+    {
+      "epoch": 8.128241395568129,
+      "grad_norm": 0.0004984895931556821,
+      "learning_rate": 0.18227294071849284,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 16005424,
+      "step": 17240
+    },
+    {
+      "epoch": 8.130598774163131,
+      "grad_norm": 0.0005346802645362914,
+      "learning_rate": 0.18221541289952578,
+      "loss": 0.3145,
+      "num_input_tokens_seen": 16009600,
+      "step": 17245
+    },
+    {
+      "epoch": 8.132956152758133,
+      "grad_norm": 0.00031788204796612263,
+      "learning_rate": 0.18215788011253717,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 16015248,
+      "step": 17250
+    },
+    {
+      "epoch": 8.135313531353136,
+      "grad_norm": 0.00040718348463997245,
+      "learning_rate": 0.18210034236639935,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 16020816,
+      "step": 17255
+    },
+    {
+      "epoch": 8.137670909948138,
+      "grad_norm": 0.00040172459557652473,
+      "learning_rate": 0.1820427996699853,
+      "loss": 0.2701,
+      "num_input_tokens_seen": 16025200,
+      "step": 17260
+    },
+    {
+      "epoch": 8.14002828854314,
+      "grad_norm": 0.00018395001825410873,
+      "learning_rate": 0.1819852520321689,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 16029792,
+      "step": 17265
+    },
+    {
+      "epoch": 8.142385667138143,
+      "grad_norm": 0.00038328045047819614,
+      "learning_rate": 0.18192769946182466,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 16034080,
+      "step": 17270
+    },
+    {
+      "epoch": 8.144743045733145,
+      "grad_norm": 0.00035317279980517924,
+      "learning_rate": 0.18187014196782794,
+      "loss": 0.2695,
+      "num_input_tokens_seen": 16039440,
+      "step": 17275
+    },
+    {
+      "epoch": 8.147100424328148,
+      "grad_norm": 0.00028849212685599923,
+      "learning_rate": 0.18181257955905486,
+      "loss": 0.2643,
+      "num_input_tokens_seen": 16044800,
+      "step": 17280
+    },
+    {
+      "epoch": 8.14945780292315,
+      "grad_norm": 0.0005132571095600724,
+      "learning_rate": 0.18175501224438217,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 16049392,
+      "step": 17285
+    },
+    {
+      "epoch": 8.151815181518153,
+      "grad_norm": 0.0005847631255164742,
+      "learning_rate": 0.18169744003268756,
+      "loss": 0.4095,
+      "num_input_tokens_seen": 16054336,
+      "step": 17290
+    },
+    {
+      "epoch": 8.154172560113155,
+      "grad_norm": 0.0001598433154867962,
+      "learning_rate": 0.18163986293284937,
+      "loss": 0.4059,
+      "num_input_tokens_seen": 16059264,
+      "step": 17295
+    },
+    {
+      "epoch": 8.156529938708157,
+      "grad_norm": 0.0005239294259808958,
+      "learning_rate": 0.18158228095374673,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 16063968,
+      "step": 17300
+    },
+    {
+      "epoch": 8.15888731730316,
+      "grad_norm": 0.00027282274095341563,
+      "learning_rate": 0.18152469410425945,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 16068704,
+      "step": 17305
+    },
+    {
+      "epoch": 8.16124469589816,
+      "grad_norm": 0.0005093517247587442,
+      "learning_rate": 0.18146710239326813,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 16074432,
+      "step": 17310
+    },
+    {
+      "epoch": 8.163602074493163,
+      "grad_norm": 0.00021159173047635704,
+      "learning_rate": 0.18140950582965423,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 16079312,
+      "step": 17315
+    },
+    {
+      "epoch": 8.165959453088165,
+      "grad_norm": 0.0007319399155676365,
+      "learning_rate": 0.1813519044222998,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 16083888,
+      "step": 17320
+    },
+    {
+      "epoch": 8.168316831683168,
+      "grad_norm": 0.0005143336020410061,
+      "learning_rate": 0.18129429818008772,
+      "loss": 0.341,
+      "num_input_tokens_seen": 16088352,
+      "step": 17325
+    },
+    {
+      "epoch": 8.17067421027817,
+      "grad_norm": 0.00044297604472376406,
+      "learning_rate": 0.18123668711190163,
+      "loss": 0.3188,
+      "num_input_tokens_seen": 16092736,
+      "step": 17330
+    },
+    {
+      "epoch": 8.173031588873172,
+      "grad_norm": 0.00025249889586120844,
+      "learning_rate": 0.18117907122662583,
+      "loss": 0.325,
+      "num_input_tokens_seen": 16097568,
+      "step": 17335
+    },
+    {
+      "epoch": 8.175388967468175,
+      "grad_norm": 0.0005351376021280885,
+      "learning_rate": 0.1811214505331454,
+      "loss": 0.2891,
+      "num_input_tokens_seen": 16101808,
+      "step": 17340
+    },
+    {
+      "epoch": 8.177746346063177,
+      "grad_norm": 0.00037075774162076414,
+      "learning_rate": 0.1810638250403462,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 16105824,
+      "step": 17345
+    },
+    {
+      "epoch": 8.18010372465818,
+      "grad_norm": 0.00019074499141424894,
+      "learning_rate": 0.1810061947571148,
+      "loss": 0.328,
+      "num_input_tokens_seen": 16109552,
+      "step": 17350
+    },
+    {
+      "epoch": 8.182461103253182,
+      "grad_norm": 0.00024427540483884513,
+      "learning_rate": 0.1809485596923385,
+      "loss": 0.2756,
+      "num_input_tokens_seen": 16113648,
+      "step": 17355
+    },
+    {
+      "epoch": 8.184818481848184,
+      "grad_norm": 0.00017441211093682796,
+      "learning_rate": 0.18089091985490546,
+      "loss": 0.3555,
+      "num_input_tokens_seen": 16117920,
+      "step": 17360
+    },
+    {
+      "epoch": 8.187175860443187,
+      "grad_norm": 0.0004783869662787765,
+      "learning_rate": 0.18083327525370432,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 16121760,
+      "step": 17365
+    },
+    {
+      "epoch": 8.18953323903819,
+      "grad_norm": 0.00159170338883996,
+      "learning_rate": 0.18077562589762464,
+      "loss": 0.37,
+      "num_input_tokens_seen": 16125840,
+      "step": 17370
+    },
+    {
+      "epoch": 8.191890617633192,
+      "grad_norm": 0.0002283254434587434,
+      "learning_rate": 0.1807179717955567,
+      "loss": 0.368,
+      "num_input_tokens_seen": 16130256,
+      "step": 17375
+    },
+    {
+      "epoch": 8.194247996228194,
+      "grad_norm": 0.0006015698309056461,
+      "learning_rate": 0.1806603129563915,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 16134320,
+      "step": 17380
+    },
+    {
+      "epoch": 8.196605374823196,
+      "grad_norm": 0.0004827545490115881,
+      "learning_rate": 0.1806026493890208,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 16139504,
+      "step": 17385
+    },
+    {
+      "epoch": 8.198962753418199,
+      "grad_norm": 0.0003193916636519134,
+      "learning_rate": 0.18054498110233688,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 16145120,
+      "step": 17390
+    },
+    {
+      "epoch": 8.201320132013201,
+      "grad_norm": 0.00040037097642198205,
+      "learning_rate": 0.1804873081052331,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 16150512,
+      "step": 17395
+    },
+    {
+      "epoch": 8.203677510608204,
+      "grad_norm": 0.0004879729531239718,
+      "learning_rate": 0.18042963040660326,
+      "loss": 0.264,
+      "num_input_tokens_seen": 16155248,
+      "step": 17400
+    },
+    {
+      "epoch": 8.203677510608204,
+      "eval_loss": 0.32720980048179626,
+      "eval_runtime": 33.5896,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 16155248,
+      "step": 17400
+    },
+    {
+      "epoch": 8.206034889203206,
+      "grad_norm": 0.00031486322404816747,
+      "learning_rate": 0.180371948015342,
+      "loss": 0.292,
+      "num_input_tokens_seen": 16159808,
+      "step": 17405
+    },
+    {
+      "epoch": 8.208392267798208,
+      "grad_norm": 0.00016074492305051535,
+      "learning_rate": 0.18031426094034472,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 16165360,
+      "step": 17410
+    },
+    {
+      "epoch": 8.21074964639321,
+      "grad_norm": 0.00040153515874408185,
+      "learning_rate": 0.18025656919050737,
+      "loss": 0.2632,
+      "num_input_tokens_seen": 16169392,
+      "step": 17415
+    },
+    {
+      "epoch": 8.213107024988213,
+      "grad_norm": 0.00035954368649981916,
+      "learning_rate": 0.18019887277472688,
+      "loss": 0.2995,
+      "num_input_tokens_seen": 16173440,
+      "step": 17420
+    },
+    {
+      "epoch": 8.215464403583216,
+      "grad_norm": 0.0006675088661722839,
+      "learning_rate": 0.18014117170190067,
+      "loss": 0.3969,
+      "num_input_tokens_seen": 16177840,
+      "step": 17425
+    },
+    {
+      "epoch": 8.217821782178218,
+      "grad_norm": 0.0004360547463875264,
+      "learning_rate": 0.18008346598092703,
+      "loss": 0.3747,
+      "num_input_tokens_seen": 16182448,
+      "step": 17430
+    },
+    {
+      "epoch": 8.22017916077322,
+      "grad_norm": 0.00026428658748045564,
+      "learning_rate": 0.18002575562070489,
+      "loss": 0.3557,
+      "num_input_tokens_seen": 16186928,
+      "step": 17435
+    },
+    {
+      "epoch": 8.222536539368223,
+      "grad_norm": 0.0005883892299607396,
+      "learning_rate": 0.1799680406301339,
+      "loss": 0.282,
+      "num_input_tokens_seen": 16191280,
+      "step": 17440
+    },
+    {
+      "epoch": 8.224893917963225,
+      "grad_norm": 0.000517302833031863,
+      "learning_rate": 0.17991032101811447,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 16195648,
+      "step": 17445
+    },
+    {
+      "epoch": 8.227251296558228,
+      "grad_norm": 0.0002960430283565074,
+      "learning_rate": 0.1798525967935476,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 16199328,
+      "step": 17450
+    },
+    {
+      "epoch": 8.22960867515323,
+      "grad_norm": 0.00018069699581246823,
+      "learning_rate": 0.17979486796533517,
+      "loss": 0.3557,
+      "num_input_tokens_seen": 16204144,
+      "step": 17455
+    },
+    {
+      "epoch": 8.231966053748232,
+      "grad_norm": 0.00022007772349752486,
+      "learning_rate": 0.1797371345423797,
+      "loss": 0.3046,
+      "num_input_tokens_seen": 16209296,
+      "step": 17460
+    },
+    {
+      "epoch": 8.234323432343235,
+      "grad_norm": 0.0005171293159946799,
+      "learning_rate": 0.17967939653358436,
+      "loss": 0.3781,
+      "num_input_tokens_seen": 16214192,
+      "step": 17465
+    },
+    {
+      "epoch": 8.236680810938237,
+      "grad_norm": 0.00026039639487862587,
+      "learning_rate": 0.17962165394785315,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 16218848,
+      "step": 17470
+    },
+    {
+      "epoch": 8.23903818953324,
+      "grad_norm": 0.00023461654200218618,
+      "learning_rate": 0.17956390679409057,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 16224000,
+      "step": 17475
+    },
+    {
+      "epoch": 8.241395568128242,
+      "grad_norm": 0.00032407575054094195,
+      "learning_rate": 0.1795061550812021,
+      "loss": 0.34,
+      "num_input_tokens_seen": 16228512,
+      "step": 17480
+    },
+    {
+      "epoch": 8.243752946723244,
+      "grad_norm": 0.0002584989124443382,
+      "learning_rate": 0.1794483988180937,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 16233008,
+      "step": 17485
+    },
+    {
+      "epoch": 8.246110325318247,
+      "grad_norm": 0.00024408724857494235,
+      "learning_rate": 0.17939063801367214,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 16238240,
+      "step": 17490
+    },
+    {
+      "epoch": 8.24846770391325,
+      "grad_norm": 0.0004219076072331518,
+      "learning_rate": 0.17933287267684483,
+      "loss": 0.3686,
+      "num_input_tokens_seen": 16242288,
+      "step": 17495
+    },
+    {
+      "epoch": 8.250825082508252,
+      "grad_norm": 0.0005013042828068137,
+      "learning_rate": 0.17927510281651995,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 16246016,
+      "step": 17500
+    },
+    {
+      "epoch": 8.253182461103254,
+      "grad_norm": 0.0007201025146059692,
+      "learning_rate": 0.17921732844160634,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 16250368,
+      "step": 17505
+    },
+    {
+      "epoch": 8.255539839698255,
+      "grad_norm": 0.00015265624097082764,
+      "learning_rate": 0.17915954956101351,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 16254528,
+      "step": 17510
+    },
+    {
+      "epoch": 8.257897218293257,
+      "grad_norm": 0.0003103270137216896,
+      "learning_rate": 0.17910176618365165,
+      "loss": 0.3507,
+      "num_input_tokens_seen": 16261568,
+      "step": 17515
+    },
+    {
+      "epoch": 8.26025459688826,
+      "grad_norm": 0.0003080293536186218,
+      "learning_rate": 0.17904397831843177,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 16266352,
+      "step": 17520
+    },
+    {
+      "epoch": 8.262611975483262,
+      "grad_norm": 0.00031000046874396503,
+      "learning_rate": 0.17898618597426547,
+      "loss": 0.3145,
+      "num_input_tokens_seen": 16270560,
+      "step": 17525
+    },
+    {
+      "epoch": 8.264969354078264,
+      "grad_norm": 0.0004498746420722455,
+      "learning_rate": 0.17892838916006495,
+      "loss": 0.283,
+      "num_input_tokens_seen": 16276464,
+      "step": 17530
+    },
+    {
+      "epoch": 8.267326732673267,
+      "grad_norm": 0.0005242048064246774,
+      "learning_rate": 0.17887058788474333,
+      "loss": 0.2655,
+      "num_input_tokens_seen": 16281232,
+      "step": 17535
+    },
+    {
+      "epoch": 8.269684111268269,
+      "grad_norm": 0.00036958910641260445,
+      "learning_rate": 0.17881278215721427,
+      "loss": 0.2855,
+      "num_input_tokens_seen": 16286240,
+      "step": 17540
+    },
+    {
+      "epoch": 8.272041489863271,
+      "grad_norm": 0.00028744718292728066,
+      "learning_rate": 0.1787549719863921,
+      "loss": 0.4054,
+      "num_input_tokens_seen": 16291040,
+      "step": 17545
+    },
+    {
+      "epoch": 8.274398868458274,
+      "grad_norm": 0.00012846702884417027,
+      "learning_rate": 0.17869715738119188,
+      "loss": 0.4039,
+      "num_input_tokens_seen": 16295392,
+      "step": 17550
+    },
+    {
+      "epoch": 8.276756247053276,
+      "grad_norm": 0.0003230931470170617,
+      "learning_rate": 0.17863933835052936,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 16300544,
+      "step": 17555
+    },
+    {
+      "epoch": 8.279113625648279,
+      "grad_norm": 0.0008025194983929396,
+      "learning_rate": 0.17858151490332097,
+      "loss": 0.357,
+      "num_input_tokens_seen": 16304576,
+      "step": 17560
+    },
+    {
+      "epoch": 8.281471004243281,
+      "grad_norm": 0.00047437509056180716,
+      "learning_rate": 0.17852368704848381,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 16308592,
+      "step": 17565
+    },
+    {
+      "epoch": 8.283828382838283,
+      "grad_norm": 0.00026102567790076137,
+      "learning_rate": 0.17846585479493565,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 16313296,
+      "step": 17570
+    },
+    {
+      "epoch": 8.286185761433286,
+      "grad_norm": 0.00023070385213941336,
+      "learning_rate": 0.178408018151595,
+      "loss": 0.314,
+      "num_input_tokens_seen": 16318400,
+      "step": 17575
+    },
+    {
+      "epoch": 8.288543140028288,
+      "grad_norm": 0.00027632652199827135,
+      "learning_rate": 0.17835017712738085,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 16324496,
+      "step": 17580
+    },
+    {
+      "epoch": 8.29090051862329,
+      "grad_norm": 0.0003912379324901849,
+      "learning_rate": 0.17829233173121323,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 16329744,
+      "step": 17585
+    },
+    {
+      "epoch": 8.293257897218293,
+      "grad_norm": 0.0005650826497003436,
+      "learning_rate": 0.17823448197201244,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 16334352,
+      "step": 17590
+    },
+    {
+      "epoch": 8.295615275813295,
+      "grad_norm": 0.0003124678914900869,
+      "learning_rate": 0.1781766278586997,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 16338672,
+      "step": 17595
+    },
+    {
+      "epoch": 8.297972654408298,
+      "grad_norm": 0.000696327246259898,
+      "learning_rate": 0.1781187694001969,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 16343648,
+      "step": 17600
+    },
+    {
+      "epoch": 8.297972654408298,
+      "eval_loss": 0.3268844783306122,
+      "eval_runtime": 33.5956,
+      "eval_samples_per_second": 28.069,
+      "eval_steps_per_second": 14.049,
+      "num_input_tokens_seen": 16343648,
+      "step": 17600
+    },
+    {
+      "epoch": 8.3003300330033,
+      "grad_norm": 0.0004929974675178528,
+      "learning_rate": 0.1780609066054265,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 16347648,
+      "step": 17605
+    },
+    {
+      "epoch": 8.302687411598303,
+      "grad_norm": 0.0002471339248586446,
+      "learning_rate": 0.17800303948331164,
+      "loss": 0.3551,
+      "num_input_tokens_seen": 16351440,
+      "step": 17610
+    },
+    {
+      "epoch": 8.305044790193305,
+      "grad_norm": 0.0004606471920851618,
+      "learning_rate": 0.1779451680427762,
+      "loss": 0.3703,
+      "num_input_tokens_seen": 16356144,
+      "step": 17615
+    },
+    {
+      "epoch": 8.307402168788308,
+      "grad_norm": 0.00022450328106060624,
+      "learning_rate": 0.17788729229274464,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 16360112,
+      "step": 17620
+    },
+    {
+      "epoch": 8.30975954738331,
+      "grad_norm": 0.0002670462417881936,
+      "learning_rate": 0.17782941224214222,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 16365216,
+      "step": 17625
+    },
+    {
+      "epoch": 8.312116925978312,
+      "grad_norm": 0.00043486052891239524,
+      "learning_rate": 0.17777152789989464,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 16369136,
+      "step": 17630
+    },
+    {
+      "epoch": 8.314474304573315,
+      "grad_norm": 0.0005045923753641546,
+      "learning_rate": 0.17771363927492845,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 16373328,
+      "step": 17635
+    },
+    {
+      "epoch": 8.316831683168317,
+      "grad_norm": 0.00027445907471701503,
+      "learning_rate": 0.17765574637617085,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 16377824,
+      "step": 17640
+    },
+    {
+      "epoch": 8.31918906176332,
+      "grad_norm": 0.0002739002520684153,
+      "learning_rate": 0.17759784921254962,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 16381584,
+      "step": 17645
+    },
+    {
+      "epoch": 8.321546440358322,
+      "grad_norm": 0.00047795590944588184,
+      "learning_rate": 0.1775399477929932,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 16387216,
+      "step": 17650
+    },
+    {
+      "epoch": 8.323903818953324,
+      "grad_norm": 0.0005194394616410136,
+      "learning_rate": 0.17748204212643076,
+      "loss": 0.3046,
+      "num_input_tokens_seen": 16391440,
+      "step": 17655
+    },
+    {
+      "epoch": 8.326261197548327,
+      "grad_norm": 0.0002706462692003697,
+      "learning_rate": 0.17742413222179204,
+      "loss": 0.2732,
+      "num_input_tokens_seen": 16396352,
+      "step": 17660
+    },
+    {
+      "epoch": 8.32861857614333,
+      "grad_norm": 0.00014219475269783288,
+      "learning_rate": 0.17736621808800754,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 16400544,
+      "step": 17665
+    },
+    {
+      "epoch": 8.330975954738332,
+      "grad_norm": 0.00022757210535928607,
+      "learning_rate": 0.17730829973400827,
+      "loss": 0.3845,
+      "num_input_tokens_seen": 16404848,
+      "step": 17670
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.00044904774404130876,
+      "learning_rate": 0.17725037716872602,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 16410272,
+      "step": 17675
+    },
+    {
+      "epoch": 8.335690711928336,
+      "grad_norm": 0.00040539581095799804,
+      "learning_rate": 0.17719245040109313,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 16414176,
+      "step": 17680
+    },
+    {
+      "epoch": 8.338048090523339,
+      "grad_norm": 0.0001928264828165993,
+      "learning_rate": 0.17713451944004271,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 16418544,
+      "step": 17685
+    },
+    {
+      "epoch": 8.340405469118341,
+      "grad_norm": 0.0004705993924289942,
+      "learning_rate": 0.17707658429450843,
+      "loss": 0.301,
+      "num_input_tokens_seen": 16423968,
+      "step": 17690
+    },
+    {
+      "epoch": 8.342762847713344,
+      "grad_norm": 0.00033738353522494435,
+      "learning_rate": 0.1770186449734245,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 16428464,
+      "step": 17695
+    },
+    {
+      "epoch": 8.345120226308346,
+      "grad_norm": 0.000658202450722456,
+      "learning_rate": 0.17696070148572599,
+      "loss": 0.2726,
+      "num_input_tokens_seen": 16433120,
+      "step": 17700
+    },
+    {
+      "epoch": 8.347477604903348,
+      "grad_norm": 0.0005019245436415076,
+      "learning_rate": 0.17690275384034856,
+      "loss": 0.326,
+      "num_input_tokens_seen": 16437120,
+      "step": 17705
+    },
+    {
+      "epoch": 8.34983498349835,
+      "grad_norm": 0.0010863404022529721,
+      "learning_rate": 0.17684480204622835,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 16441776,
+      "step": 17710
+    },
+    {
+      "epoch": 8.352192362093351,
+      "grad_norm": 0.00036559358704835176,
+      "learning_rate": 0.1767868461123023,
+      "loss": 0.3662,
+      "num_input_tokens_seen": 16446032,
+      "step": 17715
+    },
+    {
+      "epoch": 8.354549740688354,
+      "grad_norm": 0.00019661220721900463,
+      "learning_rate": 0.176728886047508,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 16449760,
+      "step": 17720
+    },
+    {
+      "epoch": 8.356907119283356,
+      "grad_norm": 0.0001943078386830166,
+      "learning_rate": 0.17667092186078362,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 16454192,
+      "step": 17725
+    },
+    {
+      "epoch": 8.359264497878359,
+      "grad_norm": 0.0003444980247877538,
+      "learning_rate": 0.17661295356106785,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 16458720,
+      "step": 17730
+    },
+    {
+      "epoch": 8.361621876473361,
+      "grad_norm": 0.0006403803708963096,
+      "learning_rate": 0.1765549811573002,
+      "loss": 0.3589,
+      "num_input_tokens_seen": 16463008,
+      "step": 17735
+    },
+    {
+      "epoch": 8.363979255068363,
+      "grad_norm": 0.00023417103511746973,
+      "learning_rate": 0.17649700465842078,
+      "loss": 0.346,
+      "num_input_tokens_seen": 16467104,
+      "step": 17740
+    },
+    {
+      "epoch": 8.366336633663366,
+      "grad_norm": 0.00034623988904058933,
+      "learning_rate": 0.17643902407337023,
+      "loss": 0.339,
+      "num_input_tokens_seen": 16472464,
+      "step": 17745
+    },
+    {
+      "epoch": 8.368694012258368,
+      "grad_norm": 0.00020386620599310845,
+      "learning_rate": 0.17638103941108993,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 16476960,
+      "step": 17750
+    },
+    {
+      "epoch": 8.37105139085337,
+      "grad_norm": 0.0001807829539757222,
+      "learning_rate": 0.1763230506805218,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 16482416,
+      "step": 17755
+    },
+    {
+      "epoch": 8.373408769448373,
+      "grad_norm": 0.00023830824648030102,
+      "learning_rate": 0.1762650578906085,
+      "loss": 0.3653,
+      "num_input_tokens_seen": 16486480,
+      "step": 17760
+    },
+    {
+      "epoch": 8.375766148043375,
+      "grad_norm": 0.00016772343951743096,
+      "learning_rate": 0.1762070610502932,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 16491760,
+      "step": 17765
+    },
+    {
+      "epoch": 8.378123526638378,
+      "grad_norm": 0.00016850901010911912,
+      "learning_rate": 0.17614906016851975,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 16496224,
+      "step": 17770
+    },
+    {
+      "epoch": 8.38048090523338,
+      "grad_norm": 0.00020889111328870058,
+      "learning_rate": 0.17609105525423258,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 16500288,
+      "step": 17775
+    },
+    {
+      "epoch": 8.382838283828383,
+      "grad_norm": 0.0003844626189675182,
+      "learning_rate": 0.1760330463163768,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 16505280,
+      "step": 17780
+    },
+    {
+      "epoch": 8.385195662423385,
+      "grad_norm": 0.0004209390899632126,
+      "learning_rate": 0.17597503336389816,
+      "loss": 0.339,
+      "num_input_tokens_seen": 16509840,
+      "step": 17785
+    },
+    {
+      "epoch": 8.387553041018387,
+      "grad_norm": 0.0002445140271447599,
+      "learning_rate": 0.17591701640574298,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 16514816,
+      "step": 17790
+    },
+    {
+      "epoch": 8.38991041961339,
+      "grad_norm": 0.0004741996235679835,
+      "learning_rate": 0.17585899545085815,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 16519056,
+      "step": 17795
+    },
+    {
+      "epoch": 8.392267798208392,
+      "grad_norm": 0.0004211407795082778,
+      "learning_rate": 0.17580097050819124,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 16523360,
+      "step": 17800
+    },
+    {
+      "epoch": 8.392267798208392,
+      "eval_loss": 0.32926198840141296,
+      "eval_runtime": 33.5619,
+      "eval_samples_per_second": 28.097,
+      "eval_steps_per_second": 14.064,
+      "num_input_tokens_seen": 16523360,
+      "step": 17800
+    },
+    {
+      "epoch": 8.394625176803395,
+      "grad_norm": 0.00022886786609888077,
+      "learning_rate": 0.17574294158669046,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 16527968,
+      "step": 17805
+    },
+    {
+      "epoch": 8.396982555398397,
+      "grad_norm": 0.0003879574069287628,
+      "learning_rate": 0.17568490869530456,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 16532432,
+      "step": 17810
+    },
+    {
+      "epoch": 8.3993399339934,
+      "grad_norm": 0.0002273905702168122,
+      "learning_rate": 0.17562687184298295,
+      "loss": 0.2982,
+      "num_input_tokens_seen": 16536832,
+      "step": 17815
+    },
+    {
+      "epoch": 8.401697312588402,
+      "grad_norm": 0.0004732688539661467,
+      "learning_rate": 0.1755688310386757,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 16541296,
+      "step": 17820
+    },
+    {
+      "epoch": 8.404054691183404,
+      "grad_norm": 0.0005205662455409765,
+      "learning_rate": 0.17551078629133335,
+      "loss": 0.332,
+      "num_input_tokens_seen": 16546208,
+      "step": 17825
+    },
+    {
+      "epoch": 8.406412069778407,
+      "grad_norm": 0.00025050085969269276,
+      "learning_rate": 0.17545273760990718,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 16551680,
+      "step": 17830
+    },
+    {
+      "epoch": 8.408769448373409,
+      "grad_norm": 0.0005167443305253983,
+      "learning_rate": 0.17539468500334904,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 16556192,
+      "step": 17835
+    },
+    {
+      "epoch": 8.411126826968411,
+      "grad_norm": 0.0003281477838754654,
+      "learning_rate": 0.17533662848061132,
+      "loss": 0.3626,
+      "num_input_tokens_seen": 16561104,
+      "step": 17840
+    },
+    {
+      "epoch": 8.413484205563414,
+      "grad_norm": 0.0002272997808177024,
+      "learning_rate": 0.1752785680506471,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 16565408,
+      "step": 17845
+    },
+    {
+      "epoch": 8.415841584158416,
+      "grad_norm": 0.0002532305952627212,
+      "learning_rate": 0.17522050372241,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 16569920,
+      "step": 17850
+    },
+    {
+      "epoch": 8.418198962753419,
+      "grad_norm": 0.0005432271864265203,
+      "learning_rate": 0.17516243550485425,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 16574880,
+      "step": 17855
+    },
+    {
+      "epoch": 8.420556341348421,
+      "grad_norm": 0.00031315829255618155,
+      "learning_rate": 0.17510436340693478,
+      "loss": 0.3947,
+      "num_input_tokens_seen": 16579984,
+      "step": 17860
+    },
+    {
+      "epoch": 8.422913719943423,
+      "grad_norm": 0.00028152120648883283,
+      "learning_rate": 0.175046287437607,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 16584160,
+      "step": 17865
+    },
+    {
+      "epoch": 8.425271098538426,
+      "grad_norm": 0.00031584943644702435,
+      "learning_rate": 0.17498820760582695,
+      "loss": 0.3551,
+      "num_input_tokens_seen": 16589600,
+      "step": 17870
+    },
+    {
+      "epoch": 8.427628477133428,
+      "grad_norm": 0.00047163141425698996,
+      "learning_rate": 0.1749301239205512,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 16593632,
+      "step": 17875
+    },
+    {
+      "epoch": 8.42998585572843,
+      "grad_norm": 0.00041960697853937745,
+      "learning_rate": 0.1748720363907371,
+      "loss": 0.3516,
+      "num_input_tokens_seen": 16598432,
+      "step": 17880
+    },
+    {
+      "epoch": 8.432343234323433,
+      "grad_norm": 0.0006876853294670582,
+      "learning_rate": 0.17481394502534242,
+      "loss": 0.3422,
+      "num_input_tokens_seen": 16603568,
+      "step": 17885
+    },
+    {
+      "epoch": 8.434700612918435,
+      "grad_norm": 0.00033406680449843407,
+      "learning_rate": 0.17475584983332562,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 16609040,
+      "step": 17890
+    },
+    {
+      "epoch": 8.437057991513438,
+      "grad_norm": 0.00022897250892128795,
+      "learning_rate": 0.17469775082364558,
+      "loss": 0.3631,
+      "num_input_tokens_seen": 16613008,
+      "step": 17895
+    },
+    {
+      "epoch": 8.43941537010844,
+      "grad_norm": 0.0002579981810413301,
+      "learning_rate": 0.17463964800526205,
+      "loss": 0.343,
+      "num_input_tokens_seen": 16617824,
+      "step": 17900
+    },
+    {
+      "epoch": 8.441772748703443,
+      "grad_norm": 0.00041572359623387456,
+      "learning_rate": 0.17458154138713522,
+      "loss": 0.3092,
+      "num_input_tokens_seen": 16622368,
+      "step": 17905
+    },
+    {
+      "epoch": 8.444130127298443,
+      "grad_norm": 0.00037549069384112954,
+      "learning_rate": 0.17452343097822576,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 16627488,
+      "step": 17910
+    },
+    {
+      "epoch": 8.446487505893446,
+      "grad_norm": 0.00039805364212952554,
+      "learning_rate": 0.17446531678749497,
+      "loss": 0.3061,
+      "num_input_tokens_seen": 16631104,
+      "step": 17915
+    },
+    {
+      "epoch": 8.448844884488448,
+      "grad_norm": 0.00032161938725039363,
+      "learning_rate": 0.17440719882390496,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 16635472,
+      "step": 17920
+    },
+    {
+      "epoch": 8.45120226308345,
+      "grad_norm": 0.000423205376137048,
+      "learning_rate": 0.17434907709641814,
+      "loss": 0.2424,
+      "num_input_tokens_seen": 16639856,
+      "step": 17925
+    },
+    {
+      "epoch": 8.453559641678453,
+      "grad_norm": 0.000634305237326771,
+      "learning_rate": 0.17429095161399769,
+      "loss": 0.3767,
+      "num_input_tokens_seen": 16644656,
+      "step": 17930
+    },
+    {
+      "epoch": 8.455917020273455,
+      "grad_norm": 0.00016552730812691152,
+      "learning_rate": 0.1742328223856072,
+      "loss": 0.2692,
+      "num_input_tokens_seen": 16650064,
+      "step": 17935
+    },
+    {
+      "epoch": 8.458274398868458,
+      "grad_norm": 0.00024697533808648586,
+      "learning_rate": 0.174174689420211,
+      "loss": 0.3821,
+      "num_input_tokens_seen": 16653888,
+      "step": 17940
+    },
+    {
+      "epoch": 8.46063177746346,
+      "grad_norm": 0.0002474896318744868,
+      "learning_rate": 0.1741165527267739,
+      "loss": 0.2707,
+      "num_input_tokens_seen": 16658640,
+      "step": 17945
+    },
+    {
+      "epoch": 8.462989156058462,
+      "grad_norm": 0.0003300097887404263,
+      "learning_rate": 0.17405841231426125,
+      "loss": 0.2661,
+      "num_input_tokens_seen": 16664400,
+      "step": 17950
+    },
+    {
+      "epoch": 8.465346534653465,
+      "grad_norm": 0.00029157919925637543,
+      "learning_rate": 0.1740002681916391,
+      "loss": 0.3679,
+      "num_input_tokens_seen": 16668320,
+      "step": 17955
+    },
+    {
+      "epoch": 8.467703913248467,
+      "grad_norm": 0.0002557329135015607,
+      "learning_rate": 0.17394212036787401,
+      "loss": 0.386,
+      "num_input_tokens_seen": 16673504,
+      "step": 17960
+    },
+    {
+      "epoch": 8.47006129184347,
+      "grad_norm": 0.0003849151253234595,
+      "learning_rate": 0.1738839688519331,
+      "loss": 0.287,
+      "num_input_tokens_seen": 16677680,
+      "step": 17965
+    },
+    {
+      "epoch": 8.472418670438472,
+      "grad_norm": 0.0002889696042984724,
+      "learning_rate": 0.17382581365278402,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 16683520,
+      "step": 17970
+    },
+    {
+      "epoch": 8.474776049033474,
+      "grad_norm": 0.0019044385990127921,
+      "learning_rate": 0.17376765477939507,
+      "loss": 0.3735,
+      "num_input_tokens_seen": 16688016,
+      "step": 17975
+    },
+    {
+      "epoch": 8.477133427628477,
+      "grad_norm": 0.0016052662394940853,
+      "learning_rate": 0.1737094922407351,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 16691504,
+      "step": 17980
+    },
+    {
+      "epoch": 8.47949080622348,
+      "grad_norm": 0.001000179909169674,
+      "learning_rate": 0.1736513260457734,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 16695888,
+      "step": 17985
+    },
+    {
+      "epoch": 8.481848184818482,
+      "grad_norm": 0.0006709737936034799,
+      "learning_rate": 0.17359315620348006,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 16700432,
+      "step": 17990
+    },
+    {
+      "epoch": 8.484205563413484,
+      "grad_norm": 0.0008160971920005977,
+      "learning_rate": 0.17353498272282547,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 16704256,
+      "step": 17995
+    },
+    {
+      "epoch": 8.486562942008486,
+      "grad_norm": 0.0007703339215368032,
+      "learning_rate": 0.17347680561278087,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 16709008,
+      "step": 18000
+    },
+    {
+      "epoch": 8.486562942008486,
+      "eval_loss": 0.3384087383747101,
+      "eval_runtime": 33.5058,
+      "eval_samples_per_second": 28.144,
+      "eval_steps_per_second": 14.087,
+      "num_input_tokens_seen": 16709008,
+      "step": 18000
+    },
+    {
+      "epoch": 8.488920320603489,
+      "grad_norm": 0.0006498420261777937,
+      "learning_rate": 0.1734186248823178,
+      "loss": 0.362,
+      "num_input_tokens_seen": 16713536,
+      "step": 18005
+    },
+    {
+      "epoch": 8.491277699198491,
+      "grad_norm": 0.0006841386202722788,
+      "learning_rate": 0.17336044054040844,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 16718464,
+      "step": 18010
+    },
+    {
+      "epoch": 8.493635077793494,
+      "grad_norm": 0.0003733358171302825,
+      "learning_rate": 0.1733022525960256,
+      "loss": 0.3203,
+      "num_input_tokens_seen": 16723280,
+      "step": 18015
+    },
+    {
+      "epoch": 8.495992456388496,
+      "grad_norm": 0.0005636721616610885,
+      "learning_rate": 0.1732440610581426,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 16727920,
+      "step": 18020
+    },
+    {
+      "epoch": 8.498349834983498,
+      "grad_norm": 0.0004949169233441353,
+      "learning_rate": 0.17318586593573326,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 16731664,
+      "step": 18025
+    },
+    {
+      "epoch": 8.500707213578501,
+      "grad_norm": 0.00024324460537172854,
+      "learning_rate": 0.17312766723777204,
+      "loss": 0.2635,
+      "num_input_tokens_seen": 16735776,
+      "step": 18030
+    },
+    {
+      "epoch": 8.503064592173503,
+      "grad_norm": 0.0006233148160390556,
+      "learning_rate": 0.1730694649732339,
+      "loss": 0.4023,
+      "num_input_tokens_seen": 16739904,
+      "step": 18035
+    },
+    {
+      "epoch": 8.505421970768506,
+      "grad_norm": 0.0005936193629167974,
+      "learning_rate": 0.17301125915109428,
+      "loss": 0.2618,
+      "num_input_tokens_seen": 16744640,
+      "step": 18040
+    },
+    {
+      "epoch": 8.507779349363508,
+      "grad_norm": 0.0007957287016324699,
+      "learning_rate": 0.17295304978032938,
+      "loss": 0.3867,
+      "num_input_tokens_seen": 16749984,
+      "step": 18045
+    },
+    {
+      "epoch": 8.51013672795851,
+      "grad_norm": 0.00034622306702658534,
+      "learning_rate": 0.17289483686991577,
+      "loss": 0.3706,
+      "num_input_tokens_seen": 16754352,
+      "step": 18050
+    },
+    {
+      "epoch": 8.512494106553513,
+      "grad_norm": 0.0004051152791362256,
+      "learning_rate": 0.1728366204288306,
+      "loss": 0.3263,
+      "num_input_tokens_seen": 16758656,
+      "step": 18055
+    },
+    {
+      "epoch": 8.514851485148515,
+      "grad_norm": 0.0008411546587012708,
+      "learning_rate": 0.17277840046605153,
+      "loss": 0.3465,
+      "num_input_tokens_seen": 16764096,
+      "step": 18060
+    },
+    {
+      "epoch": 8.517208863743518,
+      "grad_norm": 0.0006214522290974855,
+      "learning_rate": 0.17272017699055686,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 16768496,
+      "step": 18065
+    },
+    {
+      "epoch": 8.51956624233852,
+      "grad_norm": 0.00030601161415688694,
+      "learning_rate": 0.17266195001132542,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 16772592,
+      "step": 18070
+    },
+    {
+      "epoch": 8.521923620933523,
+      "grad_norm": 0.00033028374309651554,
+      "learning_rate": 0.17260371953733647,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 16777488,
+      "step": 18075
+    },
+    {
+      "epoch": 8.524280999528525,
+      "grad_norm": 0.0002690412802621722,
+      "learning_rate": 0.1725454855775699,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 16781792,
+      "step": 18080
+    },
+    {
+      "epoch": 8.526638378123527,
+      "grad_norm": 0.00026564591098576784,
+      "learning_rate": 0.17248724814100616,
+      "loss": 0.2903,
+      "num_input_tokens_seen": 16786672,
+      "step": 18085
+    },
+    {
+      "epoch": 8.52899575671853,
+      "grad_norm": 0.00043914912384934723,
+      "learning_rate": 0.17242900723662619,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 16790848,
+      "step": 18090
+    },
+    {
+      "epoch": 8.531353135313532,
+      "grad_norm": 0.00023056451755110174,
+      "learning_rate": 0.1723707628734114,
+      "loss": 0.335,
+      "num_input_tokens_seen": 16794608,
+      "step": 18095
+    },
+    {
+      "epoch": 8.533710513908535,
+      "grad_norm": 0.00031438490259461105,
+      "learning_rate": 0.1723125150603438,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 16799840,
+      "step": 18100
+    },
+    {
+      "epoch": 8.536067892503535,
+      "grad_norm": 0.00025029617245309055,
+      "learning_rate": 0.1722542638064061,
+      "loss": 0.3593,
+      "num_input_tokens_seen": 16804496,
+      "step": 18105
+    },
+    {
+      "epoch": 8.53842527109854,
+      "grad_norm": 0.0006060630548745394,
+      "learning_rate": 0.17219600912058117,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 16809168,
+      "step": 18110
+    },
+    {
+      "epoch": 8.54078264969354,
+      "grad_norm": 0.0002783282252494246,
+      "learning_rate": 0.17213775101185272,
+      "loss": 0.318,
+      "num_input_tokens_seen": 16813376,
+      "step": 18115
+    },
+    {
+      "epoch": 8.543140028288542,
+      "grad_norm": 0.0006428889464586973,
+      "learning_rate": 0.17207948948920485,
+      "loss": 0.2884,
+      "num_input_tokens_seen": 16817552,
+      "step": 18120
+    },
+    {
+      "epoch": 8.545497406883545,
+      "grad_norm": 0.0001929989521158859,
+      "learning_rate": 0.17202122456162228,
+      "loss": 0.289,
+      "num_input_tokens_seen": 16823344,
+      "step": 18125
+    },
+    {
+      "epoch": 8.547854785478547,
+      "grad_norm": 0.00034416146809235215,
+      "learning_rate": 0.17196295623809013,
+      "loss": 0.4006,
+      "num_input_tokens_seen": 16828480,
+      "step": 18130
+    },
+    {
+      "epoch": 8.55021216407355,
+      "grad_norm": 0.0005377967609092593,
+      "learning_rate": 0.1719046845275941,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 16832784,
+      "step": 18135
+    },
+    {
+      "epoch": 8.552569542668552,
+      "grad_norm": 0.0003553850401658565,
+      "learning_rate": 0.17184640943912044,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 16837888,
+      "step": 18140
+    },
+    {
+      "epoch": 8.554926921263554,
+      "grad_norm": 0.00025663673295639455,
+      "learning_rate": 0.1717881309816559,
+      "loss": 0.3714,
+      "num_input_tokens_seen": 16842656,
+      "step": 18145
+    },
+    {
+      "epoch": 8.557284299858557,
+      "grad_norm": 0.0002717782626859844,
+      "learning_rate": 0.1717298491641878,
+      "loss": 0.3558,
+      "num_input_tokens_seen": 16846368,
+      "step": 18150
+    },
+    {
+      "epoch": 8.55964167845356,
+      "grad_norm": 0.0005905363941565156,
+      "learning_rate": 0.17167156399570385,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 16850560,
+      "step": 18155
+    },
+    {
+      "epoch": 8.561999057048562,
+      "grad_norm": 0.0005647584912367165,
+      "learning_rate": 0.17161327548519242,
+      "loss": 0.2824,
+      "num_input_tokens_seen": 16856064,
+      "step": 18160
+    },
+    {
+      "epoch": 8.564356435643564,
+      "grad_norm": 0.00054876075591892,
+      "learning_rate": 0.1715549836416423,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 16860736,
+      "step": 18165
+    },
+    {
+      "epoch": 8.566713814238566,
+      "grad_norm": 0.0002764662494882941,
+      "learning_rate": 0.17149668847404279,
+      "loss": 0.3846,
+      "num_input_tokens_seen": 16865280,
+      "step": 18170
+    },
+    {
+      "epoch": 8.569071192833569,
+      "grad_norm": 0.00031666431459598243,
+      "learning_rate": 0.1714383899913838,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 16870128,
+      "step": 18175
+    },
+    {
+      "epoch": 8.571428571428571,
+      "grad_norm": 0.00023370006238110363,
+      "learning_rate": 0.17138008820265563,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 16874480,
+      "step": 18180
+    },
+    {
+      "epoch": 8.573785950023574,
+      "grad_norm": 0.00017681909957900643,
+      "learning_rate": 0.17132178311684917,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 16879152,
+      "step": 18185
+    },
+    {
+      "epoch": 8.576143328618576,
+      "grad_norm": 0.00019051978597417474,
+      "learning_rate": 0.1712634747429559,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 16884096,
+      "step": 18190
+    },
+    {
+      "epoch": 8.578500707213578,
+      "grad_norm": 0.0002379443176323548,
+      "learning_rate": 0.17120516308996753,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 16888352,
+      "step": 18195
+    },
+    {
+      "epoch": 8.58085808580858,
+      "grad_norm": 0.0001986596907954663,
+      "learning_rate": 0.17114684816687653,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 16893648,
+      "step": 18200
+    },
+    {
+      "epoch": 8.58085808580858,
+      "eval_loss": 0.32867708802223206,
+      "eval_runtime": 33.5946,
+      "eval_samples_per_second": 28.07,
+      "eval_steps_per_second": 14.05,
+      "num_input_tokens_seen": 16893648,
+      "step": 18200
+    },
+    {
+      "epoch": 8.583215464403583,
+      "grad_norm": 0.0001553154579596594,
+      "learning_rate": 0.17108852998267585,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 16897552,
+      "step": 18205
+    },
+    {
+      "epoch": 8.585572842998586,
+      "grad_norm": 0.00020567956380546093,
+      "learning_rate": 0.17103020854635878,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 16901024,
+      "step": 18210
+    },
+    {
+      "epoch": 8.587930221593588,
+      "grad_norm": 0.0004696541582234204,
+      "learning_rate": 0.1709718838669193,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 16906752,
+      "step": 18215
+    },
+    {
+      "epoch": 8.59028760018859,
+      "grad_norm": 0.00029359967447817326,
+      "learning_rate": 0.17091355595335173,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 16911680,
+      "step": 18220
+    },
+    {
+      "epoch": 8.592644978783593,
+      "grad_norm": 0.00028079532785341144,
+      "learning_rate": 0.17085522481465107,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 16916064,
+      "step": 18225
+    },
+    {
+      "epoch": 8.595002357378595,
+      "grad_norm": 0.00021667956025339663,
+      "learning_rate": 0.17079689045981264,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 16921088,
+      "step": 18230
+    },
+    {
+      "epoch": 8.597359735973598,
+      "grad_norm": 0.0002661515318322927,
+      "learning_rate": 0.17073855289783238,
+      "loss": 0.3684,
+      "num_input_tokens_seen": 16925760,
+      "step": 18235
+    },
+    {
+      "epoch": 8.5997171145686,
+      "grad_norm": 0.0001796485303202644,
+      "learning_rate": 0.1706802121377066,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 16930176,
+      "step": 18240
+    },
+    {
+      "epoch": 8.602074493163602,
+      "grad_norm": 0.0005491869524121284,
+      "learning_rate": 0.17062186818843225,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 16934784,
+      "step": 18245
+    },
+    {
+      "epoch": 8.604431871758605,
+      "grad_norm": 0.0005668870289810002,
+      "learning_rate": 0.17056352105900668,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 16940032,
+      "step": 18250
+    },
+    {
+      "epoch": 8.606789250353607,
+      "grad_norm": 0.00015367957530543208,
+      "learning_rate": 0.17050517075842772,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 16944640,
+      "step": 18255
+    },
+    {
+      "epoch": 8.60914662894861,
+      "grad_norm": 0.0002034579374594614,
+      "learning_rate": 0.17044681729569375,
+      "loss": 0.3642,
+      "num_input_tokens_seen": 16948736,
+      "step": 18260
+    },
+    {
+      "epoch": 8.611504007543612,
+      "grad_norm": 0.00020862981909886003,
+      "learning_rate": 0.17038846067980365,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 16952672,
+      "step": 18265
+    },
+    {
+      "epoch": 8.613861386138614,
+      "grad_norm": 0.00029305688804015517,
+      "learning_rate": 0.17033010091975664,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 16958352,
+      "step": 18270
+    },
+    {
+      "epoch": 8.616218764733617,
+      "grad_norm": 0.0005822323146276176,
+      "learning_rate": 0.17027173802455262,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 16962816,
+      "step": 18275
+    },
+    {
+      "epoch": 8.61857614332862,
+      "grad_norm": 0.00025230934261344373,
+      "learning_rate": 0.1702133720031918,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 16967984,
+      "step": 18280
+    },
+    {
+      "epoch": 8.620933521923622,
+      "grad_norm": 0.0002371034206589684,
+      "learning_rate": 0.17015500286467503,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 16972544,
+      "step": 18285
+    },
+    {
+      "epoch": 8.623290900518624,
+      "grad_norm": 0.00025400036247447133,
+      "learning_rate": 0.17009663061800354,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 16977280,
+      "step": 18290
+    },
+    {
+      "epoch": 8.625648279113626,
+      "grad_norm": 0.00028427736833691597,
+      "learning_rate": 0.17003825527217903,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 16981744,
+      "step": 18295
+    },
+    {
+      "epoch": 8.628005657708629,
+      "grad_norm": 0.00030255792080424726,
+      "learning_rate": 0.16997987683620377,
+      "loss": 0.4016,
+      "num_input_tokens_seen": 16986480,
+      "step": 18300
+    },
+    {
+      "epoch": 8.630363036303631,
+      "grad_norm": 0.00023485331621486694,
+      "learning_rate": 0.16992149531908043,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 16991424,
+      "step": 18305
+    },
+    {
+      "epoch": 8.632720414898632,
+      "grad_norm": 0.00026254772092215717,
+      "learning_rate": 0.16986311072981214,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 16995344,
+      "step": 18310
+    },
+    {
+      "epoch": 8.635077793493634,
+      "grad_norm": 0.0001611588231753558,
+      "learning_rate": 0.16980472307740255,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 17000896,
+      "step": 18315
+    },
+    {
+      "epoch": 8.637435172088637,
+      "grad_norm": 0.00016922122449614108,
+      "learning_rate": 0.1697463323708558,
+      "loss": 0.3676,
+      "num_input_tokens_seen": 17005264,
+      "step": 18320
+    },
+    {
+      "epoch": 8.639792550683639,
+      "grad_norm": 0.00016506692918483168,
+      "learning_rate": 0.16968793861917641,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 17009776,
+      "step": 18325
+    },
+    {
+      "epoch": 8.642149929278641,
+      "grad_norm": 0.00027047598268836737,
+      "learning_rate": 0.16962954183136952,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 17014320,
+      "step": 18330
+    },
+    {
+      "epoch": 8.644507307873644,
+      "grad_norm": 0.0005256342701613903,
+      "learning_rate": 0.16957114201644058,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 17018640,
+      "step": 18335
+    },
+    {
+      "epoch": 8.646864686468646,
+      "grad_norm": 0.0005251665133982897,
+      "learning_rate": 0.16951273918339563,
+      "loss": 0.3191,
+      "num_input_tokens_seen": 17023536,
+      "step": 18340
+    },
+    {
+      "epoch": 8.649222065063649,
+      "grad_norm": 0.00017063337145373225,
+      "learning_rate": 0.16945433334124105,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 17027776,
+      "step": 18345
+    },
+    {
+      "epoch": 8.651579443658651,
+      "grad_norm": 0.0005043520941399038,
+      "learning_rate": 0.1693959244989838,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 17032496,
+      "step": 18350
+    },
+    {
+      "epoch": 8.653936822253653,
+      "grad_norm": 0.00022826777421869338,
+      "learning_rate": 0.16933751266563127,
+      "loss": 0.3,
+      "num_input_tokens_seen": 17036640,
+      "step": 18355
+    },
+    {
+      "epoch": 8.656294200848656,
+      "grad_norm": 0.00023283605696633458,
+      "learning_rate": 0.16927909785019118,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 17041408,
+      "step": 18360
+    },
+    {
+      "epoch": 8.658651579443658,
+      "grad_norm": 0.00018689392891246825,
+      "learning_rate": 0.169220680061672,
+      "loss": 0.2907,
+      "num_input_tokens_seen": 17045744,
+      "step": 18365
+    },
+    {
+      "epoch": 8.66100895803866,
+      "grad_norm": 0.0006348767783492804,
+      "learning_rate": 0.16916225930908244,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 17050384,
+      "step": 18370
+    },
+    {
+      "epoch": 8.663366336633663,
+      "grad_norm": 0.001591173349879682,
+      "learning_rate": 0.16910383560143163,
+      "loss": 0.2628,
+      "num_input_tokens_seen": 17056544,
+      "step": 18375
+    },
+    {
+      "epoch": 8.665723715228665,
+      "grad_norm": 0.00040193984750658274,
+      "learning_rate": 0.16904540894772935,
+      "loss": 0.6051,
+      "num_input_tokens_seen": 17061776,
+      "step": 18380
+    },
+    {
+      "epoch": 8.668081093823668,
+      "grad_norm": 0.0007598794181831181,
+      "learning_rate": 0.16898697935698562,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 17066496,
+      "step": 18385
+    },
+    {
+      "epoch": 8.67043847241867,
+      "grad_norm": 0.0005564987659454346,
+      "learning_rate": 0.1689285468382111,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 17070736,
+      "step": 18390
+    },
+    {
+      "epoch": 8.672795851013673,
+      "grad_norm": 0.0008744975202716887,
+      "learning_rate": 0.16887011140041677,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 17075424,
+      "step": 18395
+    },
+    {
+      "epoch": 8.675153229608675,
+      "grad_norm": 0.0002854962949641049,
+      "learning_rate": 0.1688116730526141,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 17079824,
+      "step": 18400
+    },
+    {
+      "epoch": 8.675153229608675,
+      "eval_loss": 0.3281850516796112,
+      "eval_runtime": 33.5805,
+      "eval_samples_per_second": 28.082,
+      "eval_steps_per_second": 14.056,
+      "num_input_tokens_seen": 17079824,
+      "step": 18400
+    },
+    {
+      "epoch": 8.677510608203677,
+      "grad_norm": 0.0006958601297810674,
+      "learning_rate": 0.1687532318038151,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 17083440,
+      "step": 18405
+    },
+    {
+      "epoch": 8.67986798679868,
+      "grad_norm": 0.0007524597458541393,
+      "learning_rate": 0.16869478766303206,
+      "loss": 0.3638,
+      "num_input_tokens_seen": 17087360,
+      "step": 18410
+    },
+    {
+      "epoch": 8.682225365393682,
+      "grad_norm": 0.000683643389493227,
+      "learning_rate": 0.16863634063927788,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 17091520,
+      "step": 18415
+    },
+    {
+      "epoch": 8.684582743988685,
+      "grad_norm": 0.00022398997680284083,
+      "learning_rate": 0.16857789074156568,
+      "loss": 0.2748,
+      "num_input_tokens_seen": 17096864,
+      "step": 18420
+    },
+    {
+      "epoch": 8.686940122583687,
+      "grad_norm": 0.000317933241603896,
+      "learning_rate": 0.16851943797890928,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 17101664,
+      "step": 18425
+    },
+    {
+      "epoch": 8.68929750117869,
+      "grad_norm": 0.0013239358086138964,
+      "learning_rate": 0.16846098236032284,
+      "loss": 0.383,
+      "num_input_tokens_seen": 17107168,
+      "step": 18430
+    },
+    {
+      "epoch": 8.691654879773692,
+      "grad_norm": 0.00028061505872756243,
+      "learning_rate": 0.16840252389482097,
+      "loss": 0.2962,
+      "num_input_tokens_seen": 17111776,
+      "step": 18435
+    },
+    {
+      "epoch": 8.694012258368694,
+      "grad_norm": 0.00023572062491439283,
+      "learning_rate": 0.16834406259141857,
+      "loss": 0.3338,
+      "num_input_tokens_seen": 17116848,
+      "step": 18440
+    },
+    {
+      "epoch": 8.696369636963697,
+      "grad_norm": 0.00027306590345688164,
+      "learning_rate": 0.16828559845913124,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 17120672,
+      "step": 18445
+    },
+    {
+      "epoch": 8.698727015558699,
+      "grad_norm": 0.0003705348935909569,
+      "learning_rate": 0.16822713150697488,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 17125984,
+      "step": 18450
+    },
+    {
+      "epoch": 8.701084394153701,
+      "grad_norm": 0.00036439800169318914,
+      "learning_rate": 0.16816866174396575,
+      "loss": 0.2994,
+      "num_input_tokens_seen": 17130064,
+      "step": 18455
+    },
+    {
+      "epoch": 8.703441772748704,
+      "grad_norm": 0.00023946900910232216,
+      "learning_rate": 0.16811018917912057,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 17133968,
+      "step": 18460
+    },
+    {
+      "epoch": 8.705799151343706,
+      "grad_norm": 0.00021922177984379232,
+      "learning_rate": 0.16805171382145673,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 17138400,
+      "step": 18465
+    },
+    {
+      "epoch": 8.708156529938709,
+      "grad_norm": 0.00021332092001102865,
+      "learning_rate": 0.16799323567999175,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 17143424,
+      "step": 18470
+    },
+    {
+      "epoch": 8.710513908533711,
+      "grad_norm": 0.0006663099629804492,
+      "learning_rate": 0.16793475476374367,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 17148400,
+      "step": 18475
+    },
+    {
+      "epoch": 8.712871287128714,
+      "grad_norm": 0.00022236336371861398,
+      "learning_rate": 0.1678762710817311,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 17153424,
+      "step": 18480
+    },
+    {
+      "epoch": 8.715228665723716,
+      "grad_norm": 0.0002380555379204452,
+      "learning_rate": 0.1678177846429728,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 17158768,
+      "step": 18485
+    },
+    {
+      "epoch": 8.717586044318718,
+      "grad_norm": 0.0003210018330719322,
+      "learning_rate": 0.16775929545648827,
+      "loss": 0.2471,
+      "num_input_tokens_seen": 17163024,
+      "step": 18490
+    },
+    {
+      "epoch": 8.71994342291372,
+      "grad_norm": 0.0003290569584351033,
+      "learning_rate": 0.16770080353129715,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 17167376,
+      "step": 18495
+    },
+    {
+      "epoch": 8.722300801508723,
+      "grad_norm": 0.0003826692409347743,
+      "learning_rate": 0.16764230887641968,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 17171904,
+      "step": 18500
+    },
+    {
+      "epoch": 8.724658180103724,
+      "grad_norm": 0.0006813971558585763,
+      "learning_rate": 0.1675838115008765,
+      "loss": 0.321,
+      "num_input_tokens_seen": 17176480,
+      "step": 18505
+    },
+    {
+      "epoch": 8.727015558698728,
+      "grad_norm": 0.0003401397552806884,
+      "learning_rate": 0.1675253114136886,
+      "loss": 0.2814,
+      "num_input_tokens_seen": 17181392,
+      "step": 18510
+    },
+    {
+      "epoch": 8.729372937293729,
+      "grad_norm": 0.0005120254354551435,
+      "learning_rate": 0.16746680862387747,
+      "loss": 0.283,
+      "num_input_tokens_seen": 17186976,
+      "step": 18515
+    },
+    {
+      "epoch": 8.731730315888731,
+      "grad_norm": 0.00019252236234024167,
+      "learning_rate": 0.16740830314046493,
+      "loss": 0.2985,
+      "num_input_tokens_seen": 17191072,
+      "step": 18520
+    },
+    {
+      "epoch": 8.734087694483733,
+      "grad_norm": 0.0002084881707560271,
+      "learning_rate": 0.1673497949724733,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 17195152,
+      "step": 18525
+    },
+    {
+      "epoch": 8.736445073078736,
+      "grad_norm": 0.0003195701283402741,
+      "learning_rate": 0.16729128412892522,
+      "loss": 0.3621,
+      "num_input_tokens_seen": 17199392,
+      "step": 18530
+    },
+    {
+      "epoch": 8.738802451673738,
+      "grad_norm": 0.0005778394406661391,
+      "learning_rate": 0.16723277061884384,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 17204112,
+      "step": 18535
+    },
+    {
+      "epoch": 8.74115983026874,
+      "grad_norm": 0.00026623153826221824,
+      "learning_rate": 0.16717425445125267,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 17208736,
+      "step": 18540
+    },
+    {
+      "epoch": 8.743517208863743,
+      "grad_norm": 0.00031970441341400146,
+      "learning_rate": 0.16711573563517565,
+      "loss": 0.3807,
+      "num_input_tokens_seen": 17214000,
+      "step": 18545
+    },
+    {
+      "epoch": 8.745874587458745,
+      "grad_norm": 0.000542485504411161,
+      "learning_rate": 0.1670572141796371,
+      "loss": 0.2846,
+      "num_input_tokens_seen": 17218992,
+      "step": 18550
+    },
+    {
+      "epoch": 8.748231966053748,
+      "grad_norm": 0.00023754667199682444,
+      "learning_rate": 0.16699869009366175,
+      "loss": 0.3038,
+      "num_input_tokens_seen": 17224352,
+      "step": 18555
+    },
+    {
+      "epoch": 8.75058934464875,
+      "grad_norm": 0.0002689691027626395,
+      "learning_rate": 0.1669401633862748,
+      "loss": 0.342,
+      "num_input_tokens_seen": 17228416,
+      "step": 18560
+    },
+    {
+      "epoch": 8.752946723243753,
+      "grad_norm": 0.00031762223807163537,
+      "learning_rate": 0.16688163406650178,
+      "loss": 0.3701,
+      "num_input_tokens_seen": 17232960,
+      "step": 18565
+    },
+    {
+      "epoch": 8.755304101838755,
+      "grad_norm": 0.0003142464265692979,
+      "learning_rate": 0.1668231021433686,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 17238416,
+      "step": 18570
+    },
+    {
+      "epoch": 8.757661480433757,
+      "grad_norm": 0.0002805260301101953,
+      "learning_rate": 0.1667645676259017,
+      "loss": 0.3585,
+      "num_input_tokens_seen": 17242800,
+      "step": 18575
+    },
+    {
+      "epoch": 8.76001885902876,
+      "grad_norm": 0.00020618557755369693,
+      "learning_rate": 0.1667060305231277,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 17248144,
+      "step": 18580
+    },
+    {
+      "epoch": 8.762376237623762,
+      "grad_norm": 0.0002639144076965749,
+      "learning_rate": 0.16664749084407396,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 17252912,
+      "step": 18585
+    },
+    {
+      "epoch": 8.764733616218765,
+      "grad_norm": 0.00023337313905358315,
+      "learning_rate": 0.16658894859776788,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 17257008,
+      "step": 18590
+    },
+    {
+      "epoch": 8.767090994813767,
+      "grad_norm": 0.000803612929303199,
+      "learning_rate": 0.16653040379323752,
+      "loss": 0.325,
+      "num_input_tokens_seen": 17260752,
+      "step": 18595
+    },
+    {
+      "epoch": 8.76944837340877,
+      "grad_norm": 0.0002792476734612137,
+      "learning_rate": 0.16647185643951107,
+      "loss": 0.3141,
+      "num_input_tokens_seen": 17265072,
+      "step": 18600
+    },
+    {
+      "epoch": 8.76944837340877,
+      "eval_loss": 0.32943475246429443,
+      "eval_runtime": 33.539,
+      "eval_samples_per_second": 28.117,
+      "eval_steps_per_second": 14.073,
+      "num_input_tokens_seen": 17265072,
+      "step": 18600
+    },
+    {
+      "epoch": 8.771805752003772,
+      "grad_norm": 0.00029818303300999105,
+      "learning_rate": 0.1664133065456174,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 17269152,
+      "step": 18605
+    },
+    {
+      "epoch": 8.774163130598774,
+      "grad_norm": 0.00023256558051798493,
+      "learning_rate": 0.1663547541205856,
+      "loss": 0.329,
+      "num_input_tokens_seen": 17274032,
+      "step": 18610
+    },
+    {
+      "epoch": 8.776520509193777,
+      "grad_norm": 0.00031405454501509666,
+      "learning_rate": 0.16629619917344518,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 17278256,
+      "step": 18615
+    },
+    {
+      "epoch": 8.778877887788779,
+      "grad_norm": 0.00043474772246554494,
+      "learning_rate": 0.16623764171322605,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 17282432,
+      "step": 18620
+    },
+    {
+      "epoch": 8.781235266383781,
+      "grad_norm": 0.0006570421392098069,
+      "learning_rate": 0.1661790817489585,
+      "loss": 0.3793,
+      "num_input_tokens_seen": 17288256,
+      "step": 18625
+    },
+    {
+      "epoch": 8.783592644978784,
+      "grad_norm": 0.0002664362546056509,
+      "learning_rate": 0.16612051928967328,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 17292384,
+      "step": 18630
+    },
+    {
+      "epoch": 8.785950023573786,
+      "grad_norm": 0.0002369302965234965,
+      "learning_rate": 0.16606195434440138,
+      "loss": 0.3052,
+      "num_input_tokens_seen": 17296224,
+      "step": 18635
+    },
+    {
+      "epoch": 8.788307402168789,
+      "grad_norm": 0.00030767812859266996,
+      "learning_rate": 0.16600338692217426,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 17300032,
+      "step": 18640
+    },
+    {
+      "epoch": 8.790664780763791,
+      "grad_norm": 0.0003609497507568449,
+      "learning_rate": 0.16594481703202374,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 17304272,
+      "step": 18645
+    },
+    {
+      "epoch": 8.793022159358793,
+      "grad_norm": 0.00026586715830489993,
+      "learning_rate": 0.1658862446829821,
+      "loss": 0.308,
+      "num_input_tokens_seen": 17309392,
+      "step": 18650
+    },
+    {
+      "epoch": 8.795379537953796,
+      "grad_norm": 0.00026722459006123245,
+      "learning_rate": 0.16582766988408187,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 17313856,
+      "step": 18655
+    },
+    {
+      "epoch": 8.797736916548798,
+      "grad_norm": 0.00025647354777902365,
+      "learning_rate": 0.16576909264435608,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 17318096,
+      "step": 18660
+    },
+    {
+      "epoch": 8.8000942951438,
+      "grad_norm": 0.0005851966561749578,
+      "learning_rate": 0.16571051297283798,
+      "loss": 0.2965,
+      "num_input_tokens_seen": 17323136,
+      "step": 18665
+    },
+    {
+      "epoch": 8.802451673738803,
+      "grad_norm": 0.00024004033184610307,
+      "learning_rate": 0.16565193087856137,
+      "loss": 0.313,
+      "num_input_tokens_seen": 17327056,
+      "step": 18670
+    },
+    {
+      "epoch": 8.804809052333805,
+      "grad_norm": 0.0005661838804371655,
+      "learning_rate": 0.16559334637056033,
+      "loss": 0.3148,
+      "num_input_tokens_seen": 17332000,
+      "step": 18675
+    },
+    {
+      "epoch": 8.807166430928808,
+      "grad_norm": 0.0003256778290960938,
+      "learning_rate": 0.16553475945786933,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 17336624,
+      "step": 18680
+    },
+    {
+      "epoch": 8.80952380952381,
+      "grad_norm": 0.0007900368073023856,
+      "learning_rate": 0.16547617014952318,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 17341456,
+      "step": 18685
+    },
+    {
+      "epoch": 8.811881188118813,
+      "grad_norm": 0.0002688098174985498,
+      "learning_rate": 0.1654175784545571,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 17346464,
+      "step": 18690
+    },
+    {
+      "epoch": 8.814238566713815,
+      "grad_norm": 0.0006481875316239893,
+      "learning_rate": 0.1653589843820067,
+      "loss": 0.3596,
+      "num_input_tokens_seen": 17351808,
+      "step": 18695
+    },
+    {
+      "epoch": 8.816595945308817,
+      "grad_norm": 0.00028800114523619413,
+      "learning_rate": 0.1653003879409079,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 17356096,
+      "step": 18700
+    },
+    {
+      "epoch": 8.81895332390382,
+      "grad_norm": 0.0005955158267170191,
+      "learning_rate": 0.165241789140297,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 17359488,
+      "step": 18705
+    },
+    {
+      "epoch": 8.82131070249882,
+      "grad_norm": 0.00027676665922626853,
+      "learning_rate": 0.16518318798921064,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 17363760,
+      "step": 18710
+    },
+    {
+      "epoch": 8.823668081093825,
+      "grad_norm": 0.0006308397278189659,
+      "learning_rate": 0.16512458449668593,
+      "loss": 0.3021,
+      "num_input_tokens_seen": 17368832,
+      "step": 18715
+    },
+    {
+      "epoch": 8.826025459688825,
+      "grad_norm": 0.00026212516240775585,
+      "learning_rate": 0.1650659786717602,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 17373408,
+      "step": 18720
+    },
+    {
+      "epoch": 8.828382838283828,
+      "grad_norm": 0.0010513822780922055,
+      "learning_rate": 0.1650073705234712,
+      "loss": 0.373,
+      "num_input_tokens_seen": 17378096,
+      "step": 18725
+    },
+    {
+      "epoch": 8.83074021687883,
+      "grad_norm": 0.0002267458476126194,
+      "learning_rate": 0.16494876006085712,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 17382288,
+      "step": 18730
+    },
+    {
+      "epoch": 8.833097595473832,
+      "grad_norm": 0.00024007141473703086,
+      "learning_rate": 0.16489014729295634,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 17386704,
+      "step": 18735
+    },
+    {
+      "epoch": 8.835454974068835,
+      "grad_norm": 0.00048513952060602605,
+      "learning_rate": 0.16483153222880775,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 17391088,
+      "step": 18740
+    },
+    {
+      "epoch": 8.837812352663837,
+      "grad_norm": 0.0002941848651971668,
+      "learning_rate": 0.16477291487745052,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 17395936,
+      "step": 18745
+    },
+    {
+      "epoch": 8.84016973125884,
+      "grad_norm": 0.0005477317608892918,
+      "learning_rate": 0.16471429524792416,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 17400448,
+      "step": 18750
+    },
+    {
+      "epoch": 8.842527109853842,
+      "grad_norm": 0.0003845908213406801,
+      "learning_rate": 0.16465567334926856,
+      "loss": 0.2817,
+      "num_input_tokens_seen": 17404784,
+      "step": 18755
+    },
+    {
+      "epoch": 8.844884488448844,
+      "grad_norm": 0.0006519609596580267,
+      "learning_rate": 0.16459704919052395,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 17409632,
+      "step": 18760
+    },
+    {
+      "epoch": 8.847241867043847,
+      "grad_norm": 0.0006821052520535886,
+      "learning_rate": 0.16453842278073086,
+      "loss": 0.3629,
+      "num_input_tokens_seen": 17414400,
+      "step": 18765
+    },
+    {
+      "epoch": 8.84959924563885,
+      "grad_norm": 0.0005143776652403176,
+      "learning_rate": 0.16447979412893038,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 17418448,
+      "step": 18770
+    },
+    {
+      "epoch": 8.851956624233852,
+      "grad_norm": 0.0003422068839427084,
+      "learning_rate": 0.16442116324416367,
+      "loss": 0.361,
+      "num_input_tokens_seen": 17422944,
+      "step": 18775
+    },
+    {
+      "epoch": 8.854314002828854,
+      "grad_norm": 0.00041423397487960756,
+      "learning_rate": 0.1643625301354723,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 17427968,
+      "step": 18780
+    },
+    {
+      "epoch": 8.856671381423856,
+      "grad_norm": 0.0008352480945177376,
+      "learning_rate": 0.16430389481189828,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 17432192,
+      "step": 18785
+    },
+    {
+      "epoch": 8.859028760018859,
+      "grad_norm": 0.00021746718266513199,
+      "learning_rate": 0.164245257282484,
+      "loss": 0.305,
+      "num_input_tokens_seen": 17436576,
+      "step": 18790
+    },
+    {
+      "epoch": 8.861386138613861,
+      "grad_norm": 0.00026373271248303354,
+      "learning_rate": 0.16418661755627195,
+      "loss": 0.3146,
+      "num_input_tokens_seen": 17440896,
+      "step": 18795
+    },
+    {
+      "epoch": 8.863743517208864,
+      "grad_norm": 0.0004843666101805866,
+      "learning_rate": 0.16412797564230527,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 17445904,
+      "step": 18800
+    },
+    {
+      "epoch": 8.863743517208864,
+      "eval_loss": 0.32759225368499756,
+      "eval_runtime": 33.5157,
+      "eval_samples_per_second": 28.136,
+      "eval_steps_per_second": 14.083,
+      "num_input_tokens_seen": 17445904,
+      "step": 18800
+    },
+    {
+      "epoch": 8.866100895803866,
+      "grad_norm": 0.00022418131993617862,
+      "learning_rate": 0.16406933154962713,
+      "loss": 0.372,
+      "num_input_tokens_seen": 17450672,
+      "step": 18805
+    },
+    {
+      "epoch": 8.868458274398868,
+      "grad_norm": 0.0005764259840361774,
+      "learning_rate": 0.16401068528728133,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 17455232,
+      "step": 18810
+    },
+    {
+      "epoch": 8.87081565299387,
+      "grad_norm": 0.0005430832970887423,
+      "learning_rate": 0.16395203686431173,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 17460032,
+      "step": 18815
+    },
+    {
+      "epoch": 8.873173031588873,
+      "grad_norm": 0.00027286270051263273,
+      "learning_rate": 0.16389338628976277,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 17465152,
+      "step": 18820
+    },
+    {
+      "epoch": 8.875530410183876,
+      "grad_norm": 0.0005992849473841488,
+      "learning_rate": 0.163834733572679,
+      "loss": 0.3135,
+      "num_input_tokens_seen": 17470592,
+      "step": 18825
+    },
+    {
+      "epoch": 8.877887788778878,
+      "grad_norm": 0.0005518378457054496,
+      "learning_rate": 0.16377607872210545,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 17476112,
+      "step": 18830
+    },
+    {
+      "epoch": 8.88024516737388,
+      "grad_norm": 0.0006140660843811929,
+      "learning_rate": 0.16371742174708748,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 17480560,
+      "step": 18835
+    },
+    {
+      "epoch": 8.882602545968883,
+      "grad_norm": 0.00038624118315055966,
+      "learning_rate": 0.16365876265667065,
+      "loss": 0.295,
+      "num_input_tokens_seen": 17485248,
+      "step": 18840
+    },
+    {
+      "epoch": 8.884959924563885,
+      "grad_norm": 0.000538304157089442,
+      "learning_rate": 0.163600101459901,
+      "loss": 0.2693,
+      "num_input_tokens_seen": 17489760,
+      "step": 18845
+    },
+    {
+      "epoch": 8.887317303158888,
+      "grad_norm": 0.00029150123009458184,
+      "learning_rate": 0.16354143816582484,
+      "loss": 0.2816,
+      "num_input_tokens_seen": 17493536,
+      "step": 18850
+    },
+    {
+      "epoch": 8.88967468175389,
+      "grad_norm": 0.000270515913143754,
+      "learning_rate": 0.1634827727834887,
+      "loss": 0.3774,
+      "num_input_tokens_seen": 17497936,
+      "step": 18855
+    },
+    {
+      "epoch": 8.892032060348892,
+      "grad_norm": 0.00032706905039958656,
+      "learning_rate": 0.16342410532193954,
+      "loss": 0.3944,
+      "num_input_tokens_seen": 17502208,
+      "step": 18860
+    },
+    {
+      "epoch": 8.894389438943895,
+      "grad_norm": 0.0002820689987856895,
+      "learning_rate": 0.16336543579022464,
+      "loss": 0.3702,
+      "num_input_tokens_seen": 17506928,
+      "step": 18865
+    },
+    {
+      "epoch": 8.896746817538897,
+      "grad_norm": 0.000309882452711463,
+      "learning_rate": 0.16330676419739157,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 17512304,
+      "step": 18870
+    },
+    {
+      "epoch": 8.8991041961339,
+      "grad_norm": 0.0007811816176399589,
+      "learning_rate": 0.1632480905524883,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 17516400,
+      "step": 18875
+    },
+    {
+      "epoch": 8.901461574728902,
+      "grad_norm": 0.00023292911646422,
+      "learning_rate": 0.16318941486456293,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 17520576,
+      "step": 18880
+    },
+    {
+      "epoch": 8.903818953323904,
+      "grad_norm": 0.00035186985041946173,
+      "learning_rate": 0.16313073714266405,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 17526032,
+      "step": 18885
+    },
+    {
+      "epoch": 8.906176331918907,
+      "grad_norm": 0.0006221283110789955,
+      "learning_rate": 0.16307205739584052,
+      "loss": 0.3638,
+      "num_input_tokens_seen": 17530752,
+      "step": 18890
+    },
+    {
+      "epoch": 8.90853371051391,
+      "grad_norm": 0.0005394392646849155,
+      "learning_rate": 0.16301337563314144,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 17534960,
+      "step": 18895
+    },
+    {
+      "epoch": 8.910891089108912,
+      "grad_norm": 0.000638650031760335,
+      "learning_rate": 0.1629546918636163,
+      "loss": 0.2598,
+      "num_input_tokens_seen": 17539136,
+      "step": 18900
+    },
+    {
+      "epoch": 8.913248467703912,
+      "grad_norm": 0.0004349291848484427,
+      "learning_rate": 0.16289600609631485,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 17543984,
+      "step": 18905
+    },
+    {
+      "epoch": 8.915605846298917,
+      "grad_norm": 0.00027025723829865456,
+      "learning_rate": 0.16283731834028722,
+      "loss": 0.2915,
+      "num_input_tokens_seen": 17549360,
+      "step": 18910
+    },
+    {
+      "epoch": 8.917963224893917,
+      "grad_norm": 0.0004675227974075824,
+      "learning_rate": 0.16277862860458378,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 17553808,
+      "step": 18915
+    },
+    {
+      "epoch": 8.92032060348892,
+      "grad_norm": 0.0004927919944748282,
+      "learning_rate": 0.16271993689825526,
+      "loss": 0.307,
+      "num_input_tokens_seen": 17558336,
+      "step": 18920
+    },
+    {
+      "epoch": 8.922677982083922,
+      "grad_norm": 0.0008341146167367697,
+      "learning_rate": 0.1626612432303526,
+      "loss": 0.3735,
+      "num_input_tokens_seen": 17562880,
+      "step": 18925
+    },
+    {
+      "epoch": 8.925035360678924,
+      "grad_norm": 0.0003675576008390635,
+      "learning_rate": 0.1626025476099271,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 17567584,
+      "step": 18930
+    },
+    {
+      "epoch": 8.927392739273927,
+      "grad_norm": 0.00026084031560458243,
+      "learning_rate": 0.1625438500460304,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 17572064,
+      "step": 18935
+    },
+    {
+      "epoch": 8.92975011786893,
+      "grad_norm": 0.0005687650409527123,
+      "learning_rate": 0.16248515054771442,
+      "loss": 0.3331,
+      "num_input_tokens_seen": 17576448,
+      "step": 18940
+    },
+    {
+      "epoch": 8.932107496463932,
+      "grad_norm": 0.0005454415222629905,
+      "learning_rate": 0.16242644912403123,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 17581008,
+      "step": 18945
+    },
+    {
+      "epoch": 8.934464875058934,
+      "grad_norm": 0.00032073710463009775,
+      "learning_rate": 0.1623677457840335,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 17585904,
+      "step": 18950
+    },
+    {
+      "epoch": 8.936822253653936,
+      "grad_norm": 0.00027611455880105495,
+      "learning_rate": 0.16230904053677397,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 17590288,
+      "step": 18955
+    },
+    {
+      "epoch": 8.939179632248939,
+      "grad_norm": 0.0009288862929679453,
+      "learning_rate": 0.16225033339130568,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 17594592,
+      "step": 18960
+    },
+    {
+      "epoch": 8.941537010843941,
+      "grad_norm": 0.0002707663516048342,
+      "learning_rate": 0.16219162435668197,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 17598960,
+      "step": 18965
+    },
+    {
+      "epoch": 8.943894389438944,
+      "grad_norm": 0.00019940662605222315,
+      "learning_rate": 0.16213291344195666,
+      "loss": 0.2729,
+      "num_input_tokens_seen": 17602736,
+      "step": 18970
+    },
+    {
+      "epoch": 8.946251768033946,
+      "grad_norm": 0.0005747780087403953,
+      "learning_rate": 0.16207420065618358,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 17607328,
+      "step": 18975
+    },
+    {
+      "epoch": 8.948609146628948,
+      "grad_norm": 0.0012447459157556295,
+      "learning_rate": 0.16201548600841706,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 17611488,
+      "step": 18980
+    },
+    {
+      "epoch": 8.95096652522395,
+      "grad_norm": 0.0005108154146000743,
+      "learning_rate": 0.16195676950771154,
+      "loss": 0.2905,
+      "num_input_tokens_seen": 17615472,
+      "step": 18985
+    },
+    {
+      "epoch": 8.953323903818953,
+      "grad_norm": 0.0014138059923425317,
+      "learning_rate": 0.16189805116312198,
+      "loss": 0.4118,
+      "num_input_tokens_seen": 17619952,
+      "step": 18990
+    },
+    {
+      "epoch": 8.955681282413956,
+      "grad_norm": 0.0002564803580753505,
+      "learning_rate": 0.16183933098370337,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 17626752,
+      "step": 18995
+    },
+    {
+      "epoch": 8.958038661008958,
+      "grad_norm": 0.0007689870544709265,
+      "learning_rate": 0.16178060897851115,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 17631504,
+      "step": 19000
+    },
+    {
+      "epoch": 8.958038661008958,
+      "eval_loss": 0.3268897533416748,
+      "eval_runtime": 33.5888,
+      "eval_samples_per_second": 28.075,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 17631504,
+      "step": 19000
+    },
+    {
+      "epoch": 8.96039603960396,
+      "grad_norm": 0.0005451042670756578,
+      "learning_rate": 0.16172188515660096,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 17635584,
+      "step": 19005
+    },
+    {
+      "epoch": 8.962753418198963,
+      "grad_norm": 0.0005104538868181407,
+      "learning_rate": 0.16166315952702878,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 17640960,
+      "step": 19010
+    },
+    {
+      "epoch": 8.965110796793965,
+      "grad_norm": 0.00022846649517305195,
+      "learning_rate": 0.16160443209885084,
+      "loss": 0.3046,
+      "num_input_tokens_seen": 17645840,
+      "step": 19015
+    },
+    {
+      "epoch": 8.967468175388968,
+      "grad_norm": 0.00020530467736534774,
+      "learning_rate": 0.16154570288112363,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 17650304,
+      "step": 19020
+    },
+    {
+      "epoch": 8.96982555398397,
+      "grad_norm": 0.00019886881636921316,
+      "learning_rate": 0.16148697188290395,
+      "loss": 0.3584,
+      "num_input_tokens_seen": 17654784,
+      "step": 19025
+    },
+    {
+      "epoch": 8.972182932578972,
+      "grad_norm": 0.00026946092839352787,
+      "learning_rate": 0.16142823911324888,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 17659328,
+      "step": 19030
+    },
+    {
+      "epoch": 8.974540311173975,
+      "grad_norm": 0.0005551318172365427,
+      "learning_rate": 0.16136950458121568,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 17664528,
+      "step": 19035
+    },
+    {
+      "epoch": 8.976897689768977,
+      "grad_norm": 0.00028211844619363546,
+      "learning_rate": 0.16131076829586205,
+      "loss": 0.3657,
+      "num_input_tokens_seen": 17669136,
+      "step": 19040
+    },
+    {
+      "epoch": 8.97925506836398,
+      "grad_norm": 0.0009501822059974074,
+      "learning_rate": 0.1612520302662457,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 17673264,
+      "step": 19045
+    },
+    {
+      "epoch": 8.981612446958982,
+      "grad_norm": 0.00026580962003208697,
+      "learning_rate": 0.16119329050142497,
+      "loss": 0.3444,
+      "num_input_tokens_seen": 17678096,
+      "step": 19050
+    },
+    {
+      "epoch": 8.983969825553984,
+      "grad_norm": 0.0003864310565404594,
+      "learning_rate": 0.16113454901045818,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 17682768,
+      "step": 19055
+    },
+    {
+      "epoch": 8.986327204148987,
+      "grad_norm": 0.0002235061547253281,
+      "learning_rate": 0.16107580580240397,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 17687552,
+      "step": 19060
+    },
+    {
+      "epoch": 8.98868458274399,
+      "grad_norm": 0.00020401169604156166,
+      "learning_rate": 0.16101706088632134,
+      "loss": 0.3516,
+      "num_input_tokens_seen": 17692240,
+      "step": 19065
+    },
+    {
+      "epoch": 8.991041961338992,
+      "grad_norm": 0.00028761496650986373,
+      "learning_rate": 0.16095831427126947,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 17696320,
+      "step": 19070
+    },
+    {
+      "epoch": 8.993399339933994,
+      "grad_norm": 0.0002471242914907634,
+      "learning_rate": 0.16089956596630783,
+      "loss": 0.3743,
+      "num_input_tokens_seen": 17701120,
+      "step": 19075
+    },
+    {
+      "epoch": 8.995756718528996,
+      "grad_norm": 0.0002175107365474105,
+      "learning_rate": 0.16084081598049618,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 17705712,
+      "step": 19080
+    },
+    {
+      "epoch": 8.998114097123999,
+      "grad_norm": 0.00020408217096701264,
+      "learning_rate": 0.1607820643228944,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 17710256,
+      "step": 19085
+    },
+    {
+      "epoch": 9.000471475719001,
+      "grad_norm": 0.0004902491928078234,
+      "learning_rate": 0.16072331100256285,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 17715056,
+      "step": 19090
+    },
+    {
+      "epoch": 9.002828854314004,
+      "grad_norm": 0.00023191006039269269,
+      "learning_rate": 0.16066455602856197,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 17721472,
+      "step": 19095
+    },
+    {
+      "epoch": 9.005186232909006,
+      "grad_norm": 0.00036980948061682284,
+      "learning_rate": 0.16060579940995257,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 17725888,
+      "step": 19100
+    },
+    {
+      "epoch": 9.007543611504008,
+      "grad_norm": 0.00033476363751105964,
+      "learning_rate": 0.16054704115579557,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 17730784,
+      "step": 19105
+    },
+    {
+      "epoch": 9.009900990099009,
+      "grad_norm": 0.0008299093460664153,
+      "learning_rate": 0.1604882812751523,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 17734912,
+      "step": 19110
+    },
+    {
+      "epoch": 9.012258368694011,
+      "grad_norm": 0.00043334875954315066,
+      "learning_rate": 0.16042951977708425,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 17739680,
+      "step": 19115
+    },
+    {
+      "epoch": 9.014615747289014,
+      "grad_norm": 0.0002574111276771873,
+      "learning_rate": 0.16037075667065318,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 17744480,
+      "step": 19120
+    },
+    {
+      "epoch": 9.016973125884016,
+      "grad_norm": 0.0002649707312230021,
+      "learning_rate": 0.1603119919649211,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 17748736,
+      "step": 19125
+    },
+    {
+      "epoch": 9.019330504479019,
+      "grad_norm": 0.00024284359824378043,
+      "learning_rate": 0.16025322566895028,
+      "loss": 0.341,
+      "num_input_tokens_seen": 17753312,
+      "step": 19130
+    },
+    {
+      "epoch": 9.021687883074021,
+      "grad_norm": 0.0004088107089046389,
+      "learning_rate": 0.16019445779180322,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 17757840,
+      "step": 19135
+    },
+    {
+      "epoch": 9.024045261669023,
+      "grad_norm": 0.0004838320310227573,
+      "learning_rate": 0.16013568834254271,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 17762144,
+      "step": 19140
+    },
+    {
+      "epoch": 9.026402640264026,
+      "grad_norm": 0.0003403393493499607,
+      "learning_rate": 0.1600769173302316,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 17766640,
+      "step": 19145
+    },
+    {
+      "epoch": 9.028760018859028,
+      "grad_norm": 0.00024237582692876458,
+      "learning_rate": 0.16001814476393322,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 17771296,
+      "step": 19150
+    },
+    {
+      "epoch": 9.03111739745403,
+      "grad_norm": 0.0009049459476955235,
+      "learning_rate": 0.15995937065271104,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 17774960,
+      "step": 19155
+    },
+    {
+      "epoch": 9.033474776049033,
+      "grad_norm": 0.0006932261749170721,
+      "learning_rate": 0.15990059500562873,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 17779392,
+      "step": 19160
+    },
+    {
+      "epoch": 9.035832154644035,
+      "grad_norm": 0.00018235082097817212,
+      "learning_rate": 0.15984181783175025,
+      "loss": 0.3671,
+      "num_input_tokens_seen": 17784240,
+      "step": 19165
+    },
+    {
+      "epoch": 9.038189533239038,
+      "grad_norm": 0.00026649117353372276,
+      "learning_rate": 0.1597830391401398,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 17789104,
+      "step": 19170
+    },
+    {
+      "epoch": 9.04054691183404,
+      "grad_norm": 0.000573913159314543,
+      "learning_rate": 0.15972425893986178,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 17793856,
+      "step": 19175
+    },
+    {
+      "epoch": 9.042904290429043,
+      "grad_norm": 0.00027014751685783267,
+      "learning_rate": 0.15966547723998084,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 17798112,
+      "step": 19180
+    },
+    {
+      "epoch": 9.045261669024045,
+      "grad_norm": 0.0004447909304872155,
+      "learning_rate": 0.15960669404956176,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 17802928,
+      "step": 19185
+    },
+    {
+      "epoch": 9.047619047619047,
+      "grad_norm": 0.0005581504083238542,
+      "learning_rate": 0.1595479093776698,
+      "loss": 0.284,
+      "num_input_tokens_seen": 17808176,
+      "step": 19190
+    },
+    {
+      "epoch": 9.04997642621405,
+      "grad_norm": 0.0005104118026793003,
+      "learning_rate": 0.15948912323337022,
+      "loss": 0.3254,
+      "num_input_tokens_seen": 17814400,
+      "step": 19195
+    },
+    {
+      "epoch": 9.052333804809052,
+      "grad_norm": 0.0005008674925193191,
+      "learning_rate": 0.1594303356257286,
+      "loss": 0.3541,
+      "num_input_tokens_seen": 17818512,
+      "step": 19200
+    },
+    {
+      "epoch": 9.052333804809052,
+      "eval_loss": 0.3275611400604248,
+      "eval_runtime": 33.5758,
+      "eval_samples_per_second": 28.086,
+      "eval_steps_per_second": 14.058,
+      "num_input_tokens_seen": 17818512,
+      "step": 19200
+    },
+    {
+      "epoch": 9.054691183404055,
+      "grad_norm": 0.0007439543842338026,
+      "learning_rate": 0.15937154656381072,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 17822192,
+      "step": 19205
+    },
+    {
+      "epoch": 9.057048561999057,
+      "grad_norm": 0.00025976612232625484,
+      "learning_rate": 0.15931275605668258,
+      "loss": 0.3088,
+      "num_input_tokens_seen": 17827088,
+      "step": 19210
+    },
+    {
+      "epoch": 9.05940594059406,
+      "grad_norm": 0.0004804992931894958,
+      "learning_rate": 0.1592539641134104,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 17832112,
+      "step": 19215
+    },
+    {
+      "epoch": 9.061763319189062,
+      "grad_norm": 0.001007791724987328,
+      "learning_rate": 0.1591951707430607,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 17836512,
+      "step": 19220
+    },
+    {
+      "epoch": 9.064120697784064,
+      "grad_norm": 0.0005101208807900548,
+      "learning_rate": 0.15913637595470007,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 17841136,
+      "step": 19225
+    },
+    {
+      "epoch": 9.066478076379067,
+      "grad_norm": 0.0005288512329570949,
+      "learning_rate": 0.15907757975739548,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 17845424,
+      "step": 19230
+    },
+    {
+      "epoch": 9.068835454974069,
+      "grad_norm": 0.0002533469523768872,
+      "learning_rate": 0.159018782160214,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 17850352,
+      "step": 19235
+    },
+    {
+      "epoch": 9.071192833569071,
+      "grad_norm": 0.00021729161380790174,
+      "learning_rate": 0.158959983172223,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 17854624,
+      "step": 19240
+    },
+    {
+      "epoch": 9.073550212164074,
+      "grad_norm": 0.00037189616705290973,
+      "learning_rate": 0.15890118280249,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 17859504,
+      "step": 19245
+    },
+    {
+      "epoch": 9.075907590759076,
+      "grad_norm": 0.00023720327590126544,
+      "learning_rate": 0.15884238106008275,
+      "loss": 0.3375,
+      "num_input_tokens_seen": 17864448,
+      "step": 19250
+    },
+    {
+      "epoch": 9.078264969354079,
+      "grad_norm": 0.00025048520183190703,
+      "learning_rate": 0.15878357795406922,
+      "loss": 0.3548,
+      "num_input_tokens_seen": 17869792,
+      "step": 19255
+    },
+    {
+      "epoch": 9.080622347949081,
+      "grad_norm": 0.0005327775725163519,
+      "learning_rate": 0.15872477349351757,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 17873632,
+      "step": 19260
+    },
+    {
+      "epoch": 9.082979726544083,
+      "grad_norm": 0.0004888260737061501,
+      "learning_rate": 0.15866596768749622,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 17878512,
+      "step": 19265
+    },
+    {
+      "epoch": 9.085337105139086,
+      "grad_norm": 0.00018409223412163556,
+      "learning_rate": 0.15860716054507373,
+      "loss": 0.3665,
+      "num_input_tokens_seen": 17883216,
+      "step": 19270
+    },
+    {
+      "epoch": 9.087694483734088,
+      "grad_norm": 0.0005115984240546823,
+      "learning_rate": 0.1585483520753189,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 17887504,
+      "step": 19275
+    },
+    {
+      "epoch": 9.09005186232909,
+      "grad_norm": 0.00041458720806986094,
+      "learning_rate": 0.1584895422873008,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 17892288,
+      "step": 19280
+    },
+    {
+      "epoch": 9.092409240924093,
+      "grad_norm": 0.0002787454577628523,
+      "learning_rate": 0.1584307311900886,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 17897216,
+      "step": 19285
+    },
+    {
+      "epoch": 9.094766619519095,
+      "grad_norm": 0.0005672007682733238,
+      "learning_rate": 0.1583719187927517,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 17901728,
+      "step": 19290
+    },
+    {
+      "epoch": 9.097123998114098,
+      "grad_norm": 0.00034705689176917076,
+      "learning_rate": 0.15831310510435967,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 17905856,
+      "step": 19295
+    },
+    {
+      "epoch": 9.0994813767091,
+      "grad_norm": 0.00022164583788253367,
+      "learning_rate": 0.15825429013398243,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 17910432,
+      "step": 19300
+    },
+    {
+      "epoch": 9.101838755304103,
+      "grad_norm": 0.0002481662668287754,
+      "learning_rate": 0.15819547389068986,
+      "loss": 0.3201,
+      "num_input_tokens_seen": 17914560,
+      "step": 19305
+    },
+    {
+      "epoch": 9.104196133899103,
+      "grad_norm": 0.00017971069610211998,
+      "learning_rate": 0.1581366563835522,
+      "loss": 0.306,
+      "num_input_tokens_seen": 17918800,
+      "step": 19310
+    },
+    {
+      "epoch": 9.106553512494106,
+      "grad_norm": 0.0002126563631463796,
+      "learning_rate": 0.15807783762163993,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 17923568,
+      "step": 19315
+    },
+    {
+      "epoch": 9.108910891089108,
+      "grad_norm": 0.0005658336449414492,
+      "learning_rate": 0.15801901761402365,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 17927728,
+      "step": 19320
+    },
+    {
+      "epoch": 9.11126826968411,
+      "grad_norm": 0.0004650827613659203,
+      "learning_rate": 0.157960196369774,
+      "loss": 0.2704,
+      "num_input_tokens_seen": 17933056,
+      "step": 19325
+    },
+    {
+      "epoch": 9.113625648279113,
+      "grad_norm": 0.0002448541054036468,
+      "learning_rate": 0.157901373897962,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 17937040,
+      "step": 19330
+    },
+    {
+      "epoch": 9.115983026874115,
+      "grad_norm": 0.0003029343206435442,
+      "learning_rate": 0.15784255020765892,
+      "loss": 0.3731,
+      "num_input_tokens_seen": 17942688,
+      "step": 19335
+    },
+    {
+      "epoch": 9.118340405469118,
+      "grad_norm": 0.0005348128615878522,
+      "learning_rate": 0.157783725307936,
+      "loss": 0.3117,
+      "num_input_tokens_seen": 17947104,
+      "step": 19340
+    },
+    {
+      "epoch": 9.12069778406412,
+      "grad_norm": 0.0004046169051434845,
+      "learning_rate": 0.15772489920786484,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 17952336,
+      "step": 19345
+    },
+    {
+      "epoch": 9.123055162659123,
+      "grad_norm": 0.0005066440207883716,
+      "learning_rate": 0.15766607191651713,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 17956320,
+      "step": 19350
+    },
+    {
+      "epoch": 9.125412541254125,
+      "grad_norm": 0.00048499685362912714,
+      "learning_rate": 0.1576072434429648,
+      "loss": 0.2891,
+      "num_input_tokens_seen": 17961136,
+      "step": 19355
+    },
+    {
+      "epoch": 9.127769919849127,
+      "grad_norm": 0.0003158603794872761,
+      "learning_rate": 0.15754841379627998,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 17965984,
+      "step": 19360
+    },
+    {
+      "epoch": 9.13012729844413,
+      "grad_norm": 0.00023818221234250814,
+      "learning_rate": 0.15748958298553484,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 17971248,
+      "step": 19365
+    },
+    {
+      "epoch": 9.132484677039132,
+      "grad_norm": 0.00019247242016717792,
+      "learning_rate": 0.1574307510198019,
+      "loss": 0.2834,
+      "num_input_tokens_seen": 17975696,
+      "step": 19370
+    },
+    {
+      "epoch": 9.134842055634135,
+      "grad_norm": 0.00023548481112811714,
+      "learning_rate": 0.15737191790815375,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 17980960,
+      "step": 19375
+    },
+    {
+      "epoch": 9.137199434229137,
+      "grad_norm": 0.00030379387317225337,
+      "learning_rate": 0.15731308365966323,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 17986464,
+      "step": 19380
+    },
+    {
+      "epoch": 9.13955681282414,
+      "grad_norm": 0.00022861731122247875,
+      "learning_rate": 0.15725424828340331,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 17990672,
+      "step": 19385
+    },
+    {
+      "epoch": 9.141914191419142,
+      "grad_norm": 0.0003185221867170185,
+      "learning_rate": 0.15719541178844715,
+      "loss": 0.342,
+      "num_input_tokens_seen": 17994928,
+      "step": 19390
+    },
+    {
+      "epoch": 9.144271570014144,
+      "grad_norm": 0.0002596113190520555,
+      "learning_rate": 0.15713657418386806,
+      "loss": 0.3535,
+      "num_input_tokens_seen": 18000272,
+      "step": 19395
+    },
+    {
+      "epoch": 9.146628948609147,
+      "grad_norm": 0.00026495891506783664,
+      "learning_rate": 0.15707773547873957,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 18005200,
+      "step": 19400
+    },
+    {
+      "epoch": 9.146628948609147,
+      "eval_loss": 0.3277372717857361,
+      "eval_runtime": 33.5408,
+      "eval_samples_per_second": 28.115,
+      "eval_steps_per_second": 14.072,
+      "num_input_tokens_seen": 18005200,
+      "step": 19400
+    },
+    {
+      "epoch": 9.148986327204149,
+      "grad_norm": 0.00021458094124682248,
+      "learning_rate": 0.1570188956821353,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 18010768,
+      "step": 19405
+    },
+    {
+      "epoch": 9.151343705799151,
+      "grad_norm": 0.00021137652220204473,
+      "learning_rate": 0.1569600548031291,
+      "loss": 0.2917,
+      "num_input_tokens_seen": 18014352,
+      "step": 19410
+    },
+    {
+      "epoch": 9.153701084394154,
+      "grad_norm": 0.0007339115836657584,
+      "learning_rate": 0.156901212850795,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 18018480,
+      "step": 19415
+    },
+    {
+      "epoch": 9.156058462989156,
+      "grad_norm": 0.0004929116694256663,
+      "learning_rate": 0.15684236983420716,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 18023008,
+      "step": 19420
+    },
+    {
+      "epoch": 9.158415841584159,
+      "grad_norm": 0.00045123574091121554,
+      "learning_rate": 0.1567835257624399,
+      "loss": 0.339,
+      "num_input_tokens_seen": 18026944,
+      "step": 19425
+    },
+    {
+      "epoch": 9.160773220179161,
+      "grad_norm": 0.00027057365514338017,
+      "learning_rate": 0.1567246806445677,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 18031760,
+      "step": 19430
+    },
+    {
+      "epoch": 9.163130598774163,
+      "grad_norm": 0.00031366595067083836,
+      "learning_rate": 0.15666583448966526,
+      "loss": 0.2921,
+      "num_input_tokens_seen": 18036720,
+      "step": 19435
+    },
+    {
+      "epoch": 9.165487977369166,
+      "grad_norm": 0.00020375648455228657,
+      "learning_rate": 0.1566069873068074,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 18041152,
+      "step": 19440
+    },
+    {
+      "epoch": 9.167845355964168,
+      "grad_norm": 0.000581662985496223,
+      "learning_rate": 0.156548139105069,
+      "loss": 0.354,
+      "num_input_tokens_seen": 18045952,
+      "step": 19445
+    },
+    {
+      "epoch": 9.17020273455917,
+      "grad_norm": 0.00023564168077427894,
+      "learning_rate": 0.15648928989352529,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 18050400,
+      "step": 19450
+    },
+    {
+      "epoch": 9.172560113154173,
+      "grad_norm": 0.00017562862194608897,
+      "learning_rate": 0.15643043968125156,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 18054352,
+      "step": 19455
+    },
+    {
+      "epoch": 9.174917491749175,
+      "grad_norm": 0.00029268438811413944,
+      "learning_rate": 0.15637158847732316,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 18059184,
+      "step": 19460
+    },
+    {
+      "epoch": 9.177274870344178,
+      "grad_norm": 0.00028100755298510194,
+      "learning_rate": 0.15631273629081582,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 18063712,
+      "step": 19465
+    },
+    {
+      "epoch": 9.17963224893918,
+      "grad_norm": 0.00030611874535679817,
+      "learning_rate": 0.15625388313080518,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 18067968,
+      "step": 19470
+    },
+    {
+      "epoch": 9.181989627534183,
+      "grad_norm": 0.0007961535011418164,
+      "learning_rate": 0.15619502900636714,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 18073216,
+      "step": 19475
+    },
+    {
+      "epoch": 9.184347006129185,
+      "grad_norm": 0.00024992256658151746,
+      "learning_rate": 0.15613617392657783,
+      "loss": 0.3773,
+      "num_input_tokens_seen": 18078432,
+      "step": 19480
+    },
+    {
+      "epoch": 9.186704384724187,
+      "grad_norm": 0.0004273944068700075,
+      "learning_rate": 0.15607731790051335,
+      "loss": 0.324,
+      "num_input_tokens_seen": 18083312,
+      "step": 19485
+    },
+    {
+      "epoch": 9.18906176331919,
+      "grad_norm": 0.0006798124522902071,
+      "learning_rate": 0.15601846093725008,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 18088672,
+      "step": 19490
+    },
+    {
+      "epoch": 9.191419141914192,
+      "grad_norm": 0.0005719382897950709,
+      "learning_rate": 0.1559596030458645,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 18092880,
+      "step": 19495
+    },
+    {
+      "epoch": 9.193776520509195,
+      "grad_norm": 0.0007024147780612111,
+      "learning_rate": 0.1559007442354333,
+      "loss": 0.3076,
+      "num_input_tokens_seen": 18096832,
+      "step": 19500
+    },
+    {
+      "epoch": 9.196133899104197,
+      "grad_norm": 0.0005715689621865749,
+      "learning_rate": 0.15584188451503314,
+      "loss": 0.328,
+      "num_input_tokens_seen": 18101856,
+      "step": 19505
+    },
+    {
+      "epoch": 9.198491277699198,
+      "grad_norm": 0.0005788245471194386,
+      "learning_rate": 0.15578302389374094,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 18107024,
+      "step": 19510
+    },
+    {
+      "epoch": 9.2008486562942,
+      "grad_norm": 0.0002798242785502225,
+      "learning_rate": 0.1557241623806338,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 18111152,
+      "step": 19515
+    },
+    {
+      "epoch": 9.203206034889202,
+      "grad_norm": 0.0004608046147041023,
+      "learning_rate": 0.15566529998478887,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 18116272,
+      "step": 19520
+    },
+    {
+      "epoch": 9.205563413484205,
+      "grad_norm": 0.00016807159408926964,
+      "learning_rate": 0.15560643671528354,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 18120864,
+      "step": 19525
+    },
+    {
+      "epoch": 9.207920792079207,
+      "grad_norm": 0.0002950875787064433,
+      "learning_rate": 0.15554757258119514,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 18125408,
+      "step": 19530
+    },
+    {
+      "epoch": 9.21027817067421,
+      "grad_norm": 0.00016923666407819837,
+      "learning_rate": 0.1554887075916014,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 18129632,
+      "step": 19535
+    },
+    {
+      "epoch": 9.212635549269212,
+      "grad_norm": 0.0002732802531681955,
+      "learning_rate": 0.15542984175558,
+      "loss": 0.3751,
+      "num_input_tokens_seen": 18134608,
+      "step": 19540
+    },
+    {
+      "epoch": 9.214992927864214,
+      "grad_norm": 0.00017515204672235996,
+      "learning_rate": 0.1553709750822087,
+      "loss": 0.314,
+      "num_input_tokens_seen": 18139472,
+      "step": 19545
+    },
+    {
+      "epoch": 9.217350306459217,
+      "grad_norm": 0.0002154120011255145,
+      "learning_rate": 0.15531210758056554,
+      "loss": 0.3611,
+      "num_input_tokens_seen": 18144032,
+      "step": 19550
+    },
+    {
+      "epoch": 9.21970768505422,
+      "grad_norm": 0.0005229620146565139,
+      "learning_rate": 0.15525323925972867,
+      "loss": 0.409,
+      "num_input_tokens_seen": 18149392,
+      "step": 19555
+    },
+    {
+      "epoch": 9.222065063649222,
+      "grad_norm": 0.00021160893084015697,
+      "learning_rate": 0.15519437012877627,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 18153808,
+      "step": 19560
+    },
+    {
+      "epoch": 9.224422442244224,
+      "grad_norm": 0.0005850710440427065,
+      "learning_rate": 0.15513550019678676,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 18157744,
+      "step": 19565
+    },
+    {
+      "epoch": 9.226779820839226,
+      "grad_norm": 0.0006394606898538768,
+      "learning_rate": 0.15507662947283854,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 18162368,
+      "step": 19570
+    },
+    {
+      "epoch": 9.229137199434229,
+      "grad_norm": 0.00024747595307417214,
+      "learning_rate": 0.15501775796601028,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 18165808,
+      "step": 19575
+    },
+    {
+      "epoch": 9.231494578029231,
+      "grad_norm": 0.0003188427654094994,
+      "learning_rate": 0.15495888568538066,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 18171376,
+      "step": 19580
+    },
+    {
+      "epoch": 9.233851956624234,
+      "grad_norm": 0.0002651400864124298,
+      "learning_rate": 0.1549000126400286,
+      "loss": 0.311,
+      "num_input_tokens_seen": 18176384,
+      "step": 19585
+    },
+    {
+      "epoch": 9.236209335219236,
+      "grad_norm": 0.0007040796335786581,
+      "learning_rate": 0.15484113883903294,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 18181984,
+      "step": 19590
+    },
+    {
+      "epoch": 9.238566713814238,
+      "grad_norm": 0.0005115264211781323,
+      "learning_rate": 0.15478226429147288,
+      "loss": 0.3611,
+      "num_input_tokens_seen": 18185408,
+      "step": 19595
+    },
+    {
+      "epoch": 9.24092409240924,
+      "grad_norm": 0.0005640615127049387,
+      "learning_rate": 0.15472338900642757,
+      "loss": 0.3733,
+      "num_input_tokens_seen": 18190416,
+      "step": 19600
+    },
+    {
+      "epoch": 9.24092409240924,
+      "eval_loss": 0.32659822702407837,
+      "eval_runtime": 33.5422,
+      "eval_samples_per_second": 28.114,
+      "eval_steps_per_second": 14.072,
+      "num_input_tokens_seen": 18190416,
+      "step": 19600
+    },
+    {
+      "epoch": 9.243281471004243,
+      "grad_norm": 0.0005249274545349181,
+      "learning_rate": 0.15466451299297632,
+      "loss": 0.347,
+      "num_input_tokens_seen": 18194960,
+      "step": 19605
+    },
+    {
+      "epoch": 9.245638849599246,
+      "grad_norm": 0.00018111028475686908,
+      "learning_rate": 0.15460563626019852,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 18199328,
+      "step": 19610
+    },
+    {
+      "epoch": 9.247996228194248,
+      "grad_norm": 0.0005297395982779562,
+      "learning_rate": 0.15454675881717375,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 18203744,
+      "step": 19615
+    },
+    {
+      "epoch": 9.25035360678925,
+      "grad_norm": 0.0005039250245317817,
+      "learning_rate": 0.1544878806729816,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 18208048,
+      "step": 19620
+    },
+    {
+      "epoch": 9.252710985384253,
+      "grad_norm": 0.0006324559799395502,
+      "learning_rate": 0.1544290018367019,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 18212064,
+      "step": 19625
+    },
+    {
+      "epoch": 9.255068363979255,
+      "grad_norm": 0.0002734442241489887,
+      "learning_rate": 0.15437012231741445,
+      "loss": 0.3709,
+      "num_input_tokens_seen": 18216256,
+      "step": 19630
+    },
+    {
+      "epoch": 9.257425742574258,
+      "grad_norm": 0.0002388590801274404,
+      "learning_rate": 0.1543112421241992,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 18220304,
+      "step": 19635
+    },
+    {
+      "epoch": 9.25978312116926,
+      "grad_norm": 0.0004525685217231512,
+      "learning_rate": 0.15425236126613626,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 18224592,
+      "step": 19640
+    },
+    {
+      "epoch": 9.262140499764262,
+      "grad_norm": 0.00023768836399540305,
+      "learning_rate": 0.15419347975230577,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 18228736,
+      "step": 19645
+    },
+    {
+      "epoch": 9.264497878359265,
+      "grad_norm": 0.0002419559605186805,
+      "learning_rate": 0.154134597591788,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 18233856,
+      "step": 19650
+    },
+    {
+      "epoch": 9.266855256954267,
+      "grad_norm": 0.0002470795880071819,
+      "learning_rate": 0.1540757147936633,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 18238256,
+      "step": 19655
+    },
+    {
+      "epoch": 9.26921263554927,
+      "grad_norm": 0.0002613880205899477,
+      "learning_rate": 0.1540168313670122,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 18242672,
+      "step": 19660
+    },
+    {
+      "epoch": 9.271570014144272,
+      "grad_norm": 0.0004683298757299781,
+      "learning_rate": 0.1539579473209152,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 18246992,
+      "step": 19665
+    },
+    {
+      "epoch": 9.273927392739274,
+      "grad_norm": 0.00018895810353569686,
+      "learning_rate": 0.15389906266445294,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 18251904,
+      "step": 19670
+    },
+    {
+      "epoch": 9.276284771334277,
+      "grad_norm": 0.0005030030151829123,
+      "learning_rate": 0.15384017740670627,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 18255792,
+      "step": 19675
+    },
+    {
+      "epoch": 9.27864214992928,
+      "grad_norm": 0.0002774049062281847,
+      "learning_rate": 0.15378129155675602,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 18260048,
+      "step": 19680
+    },
+    {
+      "epoch": 9.280999528524282,
+      "grad_norm": 0.00021792402549181134,
+      "learning_rate": 0.15372240512368307,
+      "loss": 0.2677,
+      "num_input_tokens_seen": 18264592,
+      "step": 19685
+    },
+    {
+      "epoch": 9.283356907119284,
+      "grad_norm": 0.00046570159611292183,
+      "learning_rate": 0.1536635181165684,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 18269504,
+      "step": 19690
+    },
+    {
+      "epoch": 9.285714285714286,
+      "grad_norm": 0.0002296911843586713,
+      "learning_rate": 0.15360463054449328,
+      "loss": 0.3068,
+      "num_input_tokens_seen": 18273888,
+      "step": 19695
+    },
+    {
+      "epoch": 9.288071664309289,
+      "grad_norm": 0.00015793541388120502,
+      "learning_rate": 0.1535457424165388,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 18279088,
+      "step": 19700
+    },
+    {
+      "epoch": 9.290429042904291,
+      "grad_norm": 0.0004295976832509041,
+      "learning_rate": 0.15348685374178628,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 18284464,
+      "step": 19705
+    },
+    {
+      "epoch": 9.292786421499294,
+      "grad_norm": 0.00023877399507910013,
+      "learning_rate": 0.1534279645293171,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 18288768,
+      "step": 19710
+    },
+    {
+      "epoch": 9.295143800094294,
+      "grad_norm": 0.00016315412358380854,
+      "learning_rate": 0.1533690747882127,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 18293344,
+      "step": 19715
+    },
+    {
+      "epoch": 9.297501178689297,
+      "grad_norm": 0.0002407797146588564,
+      "learning_rate": 0.15331018452755465,
+      "loss": 0.3714,
+      "num_input_tokens_seen": 18297568,
+      "step": 19720
+    },
+    {
+      "epoch": 9.299858557284299,
+      "grad_norm": 0.00019961992802564055,
+      "learning_rate": 0.15325129375642457,
+      "loss": 0.4163,
+      "num_input_tokens_seen": 18302384,
+      "step": 19725
+    },
+    {
+      "epoch": 9.302215935879302,
+      "grad_norm": 0.0005431256722658873,
+      "learning_rate": 0.15319240248390406,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 18307952,
+      "step": 19730
+    },
+    {
+      "epoch": 9.304573314474304,
+      "grad_norm": 0.0004999044467695057,
+      "learning_rate": 0.153133510719075,
+      "loss": 0.3094,
+      "num_input_tokens_seen": 18312480,
+      "step": 19735
+    },
+    {
+      "epoch": 9.306930693069306,
+      "grad_norm": 0.0003001257427968085,
+      "learning_rate": 0.15307461847101922,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 18317376,
+      "step": 19740
+    },
+    {
+      "epoch": 9.309288071664309,
+      "grad_norm": 0.00020134844817221165,
+      "learning_rate": 0.15301572574881864,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 18322816,
+      "step": 19745
+    },
+    {
+      "epoch": 9.311645450259311,
+      "grad_norm": 0.0001819581084419042,
+      "learning_rate": 0.15295683256155523,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 18326560,
+      "step": 19750
+    },
+    {
+      "epoch": 9.314002828854314,
+      "grad_norm": 0.00045568300993181765,
+      "learning_rate": 0.15289793891831113,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 18331312,
+      "step": 19755
+    },
+    {
+      "epoch": 9.316360207449316,
+      "grad_norm": 0.00022228668967727572,
+      "learning_rate": 0.15283904482816837,
+      "loss": 0.3503,
+      "num_input_tokens_seen": 18335552,
+      "step": 19760
+    },
+    {
+      "epoch": 9.318717586044318,
+      "grad_norm": 0.0002994998940266669,
+      "learning_rate": 0.15278015030020928,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 18340544,
+      "step": 19765
+    },
+    {
+      "epoch": 9.32107496463932,
+      "grad_norm": 0.00021721230586990714,
+      "learning_rate": 0.152721255343516,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 18345264,
+      "step": 19770
+    },
+    {
+      "epoch": 9.323432343234323,
+      "grad_norm": 0.0004856205196119845,
+      "learning_rate": 0.15266235996717098,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 18349888,
+      "step": 19775
+    },
+    {
+      "epoch": 9.325789721829326,
+      "grad_norm": 0.00019478598551359028,
+      "learning_rate": 0.15260346418025664,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 18353744,
+      "step": 19780
+    },
+    {
+      "epoch": 9.328147100424328,
+      "grad_norm": 0.00023376963508781046,
+      "learning_rate": 0.15254456799185537,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 18358000,
+      "step": 19785
+    },
+    {
+      "epoch": 9.33050447901933,
+      "grad_norm": 0.00023776786110829562,
+      "learning_rate": 0.15248567141104974,
+      "loss": 0.3032,
+      "num_input_tokens_seen": 18362736,
+      "step": 19790
+    },
+    {
+      "epoch": 9.332861857614333,
+      "grad_norm": 0.00022332780645228922,
+      "learning_rate": 0.15242677444692232,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 18367968,
+      "step": 19795
+    },
+    {
+      "epoch": 9.335219236209335,
+      "grad_norm": 0.0004739617579616606,
+      "learning_rate": 0.15236787710855584,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 18373200,
+      "step": 19800
+    },
+    {
+      "epoch": 9.335219236209335,
+      "eval_loss": 0.3273645043373108,
+      "eval_runtime": 33.5852,
+      "eval_samples_per_second": 28.078,
+      "eval_steps_per_second": 14.054,
+      "num_input_tokens_seen": 18373200,
+      "step": 19800
+    },
+    {
+      "epoch": 9.337576614804338,
+      "grad_norm": 0.0002167796337744221,
+      "learning_rate": 0.1523089794050329,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 18377600,
+      "step": 19805
+    },
+    {
+      "epoch": 9.33993399339934,
+      "grad_norm": 0.00017441585077904165,
+      "learning_rate": 0.15225008134543633,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 18381408,
+      "step": 19810
+    },
+    {
+      "epoch": 9.342291371994342,
+      "grad_norm": 0.0001524511753814295,
+      "learning_rate": 0.15219118293884895,
+      "loss": 0.312,
+      "num_input_tokens_seen": 18385952,
+      "step": 19815
+    },
+    {
+      "epoch": 9.344648750589345,
+      "grad_norm": 0.00017192403902299702,
+      "learning_rate": 0.15213228419435362,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 18390464,
+      "step": 19820
+    },
+    {
+      "epoch": 9.347006129184347,
+      "grad_norm": 0.00023868080461397767,
+      "learning_rate": 0.15207338512103327,
+      "loss": 0.2858,
+      "num_input_tokens_seen": 18394672,
+      "step": 19825
+    },
+    {
+      "epoch": 9.34936350777935,
+      "grad_norm": 0.0004939463688060641,
+      "learning_rate": 0.1520144857279709,
+      "loss": 0.3764,
+      "num_input_tokens_seen": 18399680,
+      "step": 19830
+    },
+    {
+      "epoch": 9.351720886374352,
+      "grad_norm": 0.00021336114150471985,
+      "learning_rate": 0.1519555860242495,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 18403952,
+      "step": 19835
+    },
+    {
+      "epoch": 9.354078264969354,
+      "grad_norm": 0.000179116555955261,
+      "learning_rate": 0.15189668601895218,
+      "loss": 0.363,
+      "num_input_tokens_seen": 18408272,
+      "step": 19840
+    },
+    {
+      "epoch": 9.356435643564357,
+      "grad_norm": 0.0003878224524669349,
+      "learning_rate": 0.151837785721162,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 18412336,
+      "step": 19845
+    },
+    {
+      "epoch": 9.35879302215936,
+      "grad_norm": 0.00020145119924563915,
+      "learning_rate": 0.15177888513996218,
+      "loss": 0.4002,
+      "num_input_tokens_seen": 18417104,
+      "step": 19850
+    },
+    {
+      "epoch": 9.361150400754362,
+      "grad_norm": 0.00020232738461345434,
+      "learning_rate": 0.15171998428443592,
+      "loss": 0.3706,
+      "num_input_tokens_seen": 18421680,
+      "step": 19855
+    },
+    {
+      "epoch": 9.363507779349364,
+      "grad_norm": 0.00019353760580997914,
+      "learning_rate": 0.1516610831636665,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 18425600,
+      "step": 19860
+    },
+    {
+      "epoch": 9.365865157944366,
+      "grad_norm": 0.000536170438863337,
+      "learning_rate": 0.15160218178673715,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 18430688,
+      "step": 19865
+    },
+    {
+      "epoch": 9.368222536539369,
+      "grad_norm": 0.00018780304526444525,
+      "learning_rate": 0.15154328016273122,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 18435824,
+      "step": 19870
+    },
+    {
+      "epoch": 9.370579915134371,
+      "grad_norm": 0.00024867645697668195,
+      "learning_rate": 0.1514843783007321,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 18440160,
+      "step": 19875
+    },
+    {
+      "epoch": 9.372937293729374,
+      "grad_norm": 0.0002744712110143155,
+      "learning_rate": 0.15142547620982322,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 18444112,
+      "step": 19880
+    },
+    {
+      "epoch": 9.375294672324376,
+      "grad_norm": 0.0004322607128415257,
+      "learning_rate": 0.15136657389908797,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 18448688,
+      "step": 19885
+    },
+    {
+      "epoch": 9.377652050919378,
+      "grad_norm": 0.00053832633420825,
+      "learning_rate": 0.15130767137760986,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 18452688,
+      "step": 19890
+    },
+    {
+      "epoch": 9.38000942951438,
+      "grad_norm": 0.0004152304318267852,
+      "learning_rate": 0.15124876865447243,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 18457136,
+      "step": 19895
+    },
+    {
+      "epoch": 9.382366808109383,
+      "grad_norm": 0.00027273883461020887,
+      "learning_rate": 0.15118986573875912,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 18462656,
+      "step": 19900
+    },
+    {
+      "epoch": 9.384724186704386,
+      "grad_norm": 0.0003007783379871398,
+      "learning_rate": 0.15113096263955358,
+      "loss": 0.3711,
+      "num_input_tokens_seen": 18466848,
+      "step": 19905
+    },
+    {
+      "epoch": 9.387081565299386,
+      "grad_norm": 0.0001573872723383829,
+      "learning_rate": 0.1510720593659394,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 18471888,
+      "step": 19910
+    },
+    {
+      "epoch": 9.389438943894389,
+      "grad_norm": 0.0002516168460715562,
+      "learning_rate": 0.15101315592700015,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 18475984,
+      "step": 19915
+    },
+    {
+      "epoch": 9.391796322489391,
+      "grad_norm": 0.00043548110988922417,
+      "learning_rate": 0.15095425233181956,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 18480368,
+      "step": 19920
+    },
+    {
+      "epoch": 9.394153701084393,
+      "grad_norm": 0.00017234332335647196,
+      "learning_rate": 0.15089534858948128,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 18485776,
+      "step": 19925
+    },
+    {
+      "epoch": 9.396511079679396,
+      "grad_norm": 0.00018836080562323332,
+      "learning_rate": 0.15083644470906898,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 18491184,
+      "step": 19930
+    },
+    {
+      "epoch": 9.398868458274398,
+      "grad_norm": 0.0005402510869316757,
+      "learning_rate": 0.1507775406996664,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 18495392,
+      "step": 19935
+    },
+    {
+      "epoch": 9.4012258368694,
+      "grad_norm": 0.00013722885341849178,
+      "learning_rate": 0.15071863657035725,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 18500592,
+      "step": 19940
+    },
+    {
+      "epoch": 9.403583215464403,
+      "grad_norm": 0.0003866181359626353,
+      "learning_rate": 0.15065973233022534,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 18505424,
+      "step": 19945
+    },
+    {
+      "epoch": 9.405940594059405,
+      "grad_norm": 0.0005133806262165308,
+      "learning_rate": 0.15060082798835442,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 18510928,
+      "step": 19950
+    },
+    {
+      "epoch": 9.408297972654408,
+      "grad_norm": 0.0001988910516956821,
+      "learning_rate": 0.15054192355382823,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 18515344,
+      "step": 19955
+    },
+    {
+      "epoch": 9.41065535124941,
+      "grad_norm": 0.00043311165063641965,
+      "learning_rate": 0.15048301903573066,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 18519408,
+      "step": 19960
+    },
+    {
+      "epoch": 9.413012729844413,
+      "grad_norm": 0.0001642906863708049,
+      "learning_rate": 0.15042411444314546,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 18524000,
+      "step": 19965
+    },
+    {
+      "epoch": 9.415370108439415,
+      "grad_norm": 0.0005206273635849357,
+      "learning_rate": 0.1503652097851565,
+      "loss": 0.2726,
+      "num_input_tokens_seen": 18528368,
+      "step": 19970
+    },
+    {
+      "epoch": 9.417727487034417,
+      "grad_norm": 0.00014850881416350603,
+      "learning_rate": 0.15030630507084758,
+      "loss": 0.2946,
+      "num_input_tokens_seen": 18533520,
+      "step": 19975
+    },
+    {
+      "epoch": 9.42008486562942,
+      "grad_norm": 0.00021397843374870718,
+      "learning_rate": 0.1502474003093026,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 18537328,
+      "step": 19980
+    },
+    {
+      "epoch": 9.422442244224422,
+      "grad_norm": 0.0004591524484567344,
+      "learning_rate": 0.15018849550960536,
+      "loss": 0.293,
+      "num_input_tokens_seen": 18541824,
+      "step": 19985
+    },
+    {
+      "epoch": 9.424799622819425,
+      "grad_norm": 0.0002341819927096367,
+      "learning_rate": 0.15012959068083975,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 18547376,
+      "step": 19990
+    },
+    {
+      "epoch": 9.427157001414427,
+      "grad_norm": 0.00012577848974615335,
+      "learning_rate": 0.1500706858320896,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 18551296,
+      "step": 19995
+    },
+    {
+      "epoch": 9.42951438000943,
+      "grad_norm": 0.00019792676903307438,
+      "learning_rate": 0.15001178097243886,
+      "loss": 0.3801,
+      "num_input_tokens_seen": 18556672,
+      "step": 20000
+    },
+    {
+      "epoch": 9.42951438000943,
+      "eval_loss": 0.3273548185825348,
+      "eval_runtime": 33.6136,
+      "eval_samples_per_second": 28.054,
+      "eval_steps_per_second": 14.042,
+      "num_input_tokens_seen": 18556672,
+      "step": 20000
+    },
+    {
+      "epoch": 9.431871758604432,
+      "grad_norm": 0.0005542922881431878,
+      "learning_rate": 0.1499528761109713,
+      "loss": 0.3104,
+      "num_input_tokens_seen": 18560736,
+      "step": 20005
+    },
+    {
+      "epoch": 9.434229137199434,
+      "grad_norm": 0.00039300715434364974,
+      "learning_rate": 0.14989397125677087,
+      "loss": 0.2697,
+      "num_input_tokens_seen": 18564944,
+      "step": 20010
+    },
+    {
+      "epoch": 9.436586515794437,
+      "grad_norm": 0.0001480244391132146,
+      "learning_rate": 0.14983506641892141,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 18569744,
+      "step": 20015
+    },
+    {
+      "epoch": 9.438943894389439,
+      "grad_norm": 0.00031963828951120377,
+      "learning_rate": 0.14977616160650672,
+      "loss": 0.347,
+      "num_input_tokens_seen": 18574560,
+      "step": 20020
+    },
+    {
+      "epoch": 9.441301272984441,
+      "grad_norm": 0.00014544735313393176,
+      "learning_rate": 0.14971725682861076,
+      "loss": 0.2864,
+      "num_input_tokens_seen": 18578624,
+      "step": 20025
+    },
+    {
+      "epoch": 9.443658651579444,
+      "grad_norm": 0.0004100268706679344,
+      "learning_rate": 0.14965835209431738,
+      "loss": 0.3366,
+      "num_input_tokens_seen": 18583504,
+      "step": 20030
+    },
+    {
+      "epoch": 9.446016030174446,
+      "grad_norm": 0.00026598552358336747,
+      "learning_rate": 0.14959944741271036,
+      "loss": 0.2927,
+      "num_input_tokens_seen": 18588368,
+      "step": 20035
+    },
+    {
+      "epoch": 9.448373408769449,
+      "grad_norm": 0.0004186422738712281,
+      "learning_rate": 0.14954054279287363,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 18592416,
+      "step": 20040
+    },
+    {
+      "epoch": 9.450730787364451,
+      "grad_norm": 0.0001788310328265652,
+      "learning_rate": 0.14948163824389094,
+      "loss": 0.2895,
+      "num_input_tokens_seen": 18597072,
+      "step": 20045
+    },
+    {
+      "epoch": 9.453088165959453,
+      "grad_norm": 0.00016260988195426762,
+      "learning_rate": 0.14942273377484613,
+      "loss": 0.2987,
+      "num_input_tokens_seen": 18602352,
+      "step": 20050
+    },
+    {
+      "epoch": 9.455445544554456,
+      "grad_norm": 9.216721809934825e-05,
+      "learning_rate": 0.1493638293948231,
+      "loss": 0.2858,
+      "num_input_tokens_seen": 18607296,
+      "step": 20055
+    },
+    {
+      "epoch": 9.457802923149458,
+      "grad_norm": 0.00038485537515953183,
+      "learning_rate": 0.14930492511290547,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 18612256,
+      "step": 20060
+    },
+    {
+      "epoch": 9.46016030174446,
+      "grad_norm": 0.0003929882077500224,
+      "learning_rate": 0.14924602093817715,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 18617216,
+      "step": 20065
+    },
+    {
+      "epoch": 9.462517680339463,
+      "grad_norm": 0.00038136454531922936,
+      "learning_rate": 0.14918711687972194,
+      "loss": 0.2463,
+      "num_input_tokens_seen": 18622080,
+      "step": 20070
+    },
+    {
+      "epoch": 9.464875058934465,
+      "grad_norm": 0.00012467136548366398,
+      "learning_rate": 0.14912821294662346,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 18626560,
+      "step": 20075
+    },
+    {
+      "epoch": 9.467232437529468,
+      "grad_norm": 0.00040066722431220114,
+      "learning_rate": 0.14906930914796554,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 18630976,
+      "step": 20080
+    },
+    {
+      "epoch": 9.46958981612447,
+      "grad_norm": 0.0003772313066292554,
+      "learning_rate": 0.14901040549283182,
+      "loss": 0.2464,
+      "num_input_tokens_seen": 18635120,
+      "step": 20085
+    },
+    {
+      "epoch": 9.471947194719473,
+      "grad_norm": 0.00018025968165602535,
+      "learning_rate": 0.148951501990306,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 18639008,
+      "step": 20090
+    },
+    {
+      "epoch": 9.474304573314475,
+      "grad_norm": 0.0001761239836923778,
+      "learning_rate": 0.14889259864947177,
+      "loss": 0.3792,
+      "num_input_tokens_seen": 18643488,
+      "step": 20095
+    },
+    {
+      "epoch": 9.476661951909477,
+      "grad_norm": 0.00039270080742426217,
+      "learning_rate": 0.14883369547941272,
+      "loss": 0.3775,
+      "num_input_tokens_seen": 18647888,
+      "step": 20100
+    },
+    {
+      "epoch": 9.47901933050448,
+      "grad_norm": 0.00018041594012174755,
+      "learning_rate": 0.14877479248921247,
+      "loss": 0.2771,
+      "num_input_tokens_seen": 18652800,
+      "step": 20105
+    },
+    {
+      "epoch": 9.481376709099482,
+      "grad_norm": 0.00014016154455021024,
+      "learning_rate": 0.14871588968795468,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 18657504,
+      "step": 20110
+    },
+    {
+      "epoch": 9.483734087694483,
+      "grad_norm": 0.0007890646229498088,
+      "learning_rate": 0.1486569870847228,
+      "loss": 0.3823,
+      "num_input_tokens_seen": 18662720,
+      "step": 20115
+    },
+    {
+      "epoch": 9.486091466289485,
+      "grad_norm": 0.00019712273206096143,
+      "learning_rate": 0.1485980846886004,
+      "loss": 0.2865,
+      "num_input_tokens_seen": 18667424,
+      "step": 20120
+    },
+    {
+      "epoch": 9.488448844884488,
+      "grad_norm": 0.0001708013442112133,
+      "learning_rate": 0.14853918250867096,
+      "loss": 0.2784,
+      "num_input_tokens_seen": 18672256,
+      "step": 20125
+    },
+    {
+      "epoch": 9.49080622347949,
+      "grad_norm": 0.00021525047486647964,
+      "learning_rate": 0.1484802805540179,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 18677376,
+      "step": 20130
+    },
+    {
+      "epoch": 9.493163602074493,
+      "grad_norm": 0.00048020423855632544,
+      "learning_rate": 0.14842137883372472,
+      "loss": 0.4275,
+      "num_input_tokens_seen": 18682176,
+      "step": 20135
+    },
+    {
+      "epoch": 9.495520980669495,
+      "grad_norm": 0.00019357228302396834,
+      "learning_rate": 0.14836247735687474,
+      "loss": 0.3732,
+      "num_input_tokens_seen": 18687808,
+      "step": 20140
+    },
+    {
+      "epoch": 9.497878359264497,
+      "grad_norm": 0.0001885809178929776,
+      "learning_rate": 0.14830357613255132,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 18692448,
+      "step": 20145
+    },
+    {
+      "epoch": 9.5002357378595,
+      "grad_norm": 0.0002758160699158907,
+      "learning_rate": 0.1482446751698378,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 18697488,
+      "step": 20150
+    },
+    {
+      "epoch": 9.502593116454502,
+      "grad_norm": 0.00016926418174989522,
+      "learning_rate": 0.14818577447781744,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 18701616,
+      "step": 20155
+    },
+    {
+      "epoch": 9.504950495049505,
+      "grad_norm": 0.0004769888473674655,
+      "learning_rate": 0.14812687406557346,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 18705616,
+      "step": 20160
+    },
+    {
+      "epoch": 9.507307873644507,
+      "grad_norm": 0.0005313993315212429,
+      "learning_rate": 0.14806797394218899,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 18709632,
+      "step": 20165
+    },
+    {
+      "epoch": 9.50966525223951,
+      "grad_norm": 0.00020884553669020534,
+      "learning_rate": 0.1480090741167472,
+      "loss": 0.3609,
+      "num_input_tokens_seen": 18713920,
+      "step": 20170
+    },
+    {
+      "epoch": 9.512022630834512,
+      "grad_norm": 0.0001739831641316414,
+      "learning_rate": 0.1479501745983313,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 18718256,
+      "step": 20175
+    },
+    {
+      "epoch": 9.514380009429514,
+      "grad_norm": 0.0002161738957511261,
+      "learning_rate": 0.14789127539602415,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 18722640,
+      "step": 20180
+    },
+    {
+      "epoch": 9.516737388024517,
+      "grad_norm": 0.0004055823665112257,
+      "learning_rate": 0.14783237651890885,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 18728304,
+      "step": 20185
+    },
+    {
+      "epoch": 9.519094766619519,
+      "grad_norm": 0.00019410041568335146,
+      "learning_rate": 0.14777347797606838,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 18732944,
+      "step": 20190
+    },
+    {
+      "epoch": 9.521452145214521,
+      "grad_norm": 0.00021861089044250548,
+      "learning_rate": 0.14771457977658553,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 18738240,
+      "step": 20195
+    },
+    {
+      "epoch": 9.523809523809524,
+      "grad_norm": 0.0007380680763162673,
+      "learning_rate": 0.14765568192954326,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 18742816,
+      "step": 20200
+    },
+    {
+      "epoch": 9.523809523809524,
+      "eval_loss": 0.328951358795166,
+      "eval_runtime": 33.5151,
+      "eval_samples_per_second": 28.137,
+      "eval_steps_per_second": 14.083,
+      "num_input_tokens_seen": 18742816,
+      "step": 20200
+    },
+    {
+      "epoch": 9.526166902404526,
+      "grad_norm": 0.00022451482072938234,
+      "learning_rate": 0.14759678444402421,
+      "loss": 0.3415,
+      "num_input_tokens_seen": 18747504,
+      "step": 20205
+    },
+    {
+      "epoch": 9.528524280999529,
+      "grad_norm": 0.0007537776255048811,
+      "learning_rate": 0.14753788732911122,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 18752320,
+      "step": 20210
+    },
+    {
+      "epoch": 9.530881659594531,
+      "grad_norm": 0.0001720917789498344,
+      "learning_rate": 0.147478990593887,
+      "loss": 0.3624,
+      "num_input_tokens_seen": 18756832,
+      "step": 20215
+    },
+    {
+      "epoch": 9.533239038189533,
+      "grad_norm": 0.00029185158200562,
+      "learning_rate": 0.14742009424743405,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 18760912,
+      "step": 20220
+    },
+    {
+      "epoch": 9.535596416784536,
+      "grad_norm": 0.0005413575563579798,
+      "learning_rate": 0.14736119829883504,
+      "loss": 0.2916,
+      "num_input_tokens_seen": 18766144,
+      "step": 20225
+    },
+    {
+      "epoch": 9.537953795379538,
+      "grad_norm": 0.0004538462089840323,
+      "learning_rate": 0.14730230275717243,
+      "loss": 0.328,
+      "num_input_tokens_seen": 18770416,
+      "step": 20230
+    },
+    {
+      "epoch": 9.54031117397454,
+      "grad_norm": 0.0001737146667437628,
+      "learning_rate": 0.14724340763152854,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 18774848,
+      "step": 20235
+    },
+    {
+      "epoch": 9.542668552569543,
+      "grad_norm": 0.00048630472156219184,
+      "learning_rate": 0.14718451293098594,
+      "loss": 0.3837,
+      "num_input_tokens_seen": 18779952,
+      "step": 20240
+    },
+    {
+      "epoch": 9.545025931164545,
+      "grad_norm": 0.000182992298505269,
+      "learning_rate": 0.14712561866462676,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 18784304,
+      "step": 20245
+    },
+    {
+      "epoch": 9.547383309759548,
+      "grad_norm": 0.00046506713260896504,
+      "learning_rate": 0.1470667248415333,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 18789104,
+      "step": 20250
+    },
+    {
+      "epoch": 9.54974068835455,
+      "grad_norm": 0.00019040697952732444,
+      "learning_rate": 0.1470078314707878,
+      "loss": 0.2995,
+      "num_input_tokens_seen": 18793664,
+      "step": 20255
+    },
+    {
+      "epoch": 9.552098066949553,
+      "grad_norm": 0.0004900143831036985,
+      "learning_rate": 0.14694893856147223,
+      "loss": 0.3174,
+      "num_input_tokens_seen": 18798928,
+      "step": 20260
+    },
+    {
+      "epoch": 9.554455445544555,
+      "grad_norm": 0.00019875532598234713,
+      "learning_rate": 0.14689004612266868,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 18802960,
+      "step": 20265
+    },
+    {
+      "epoch": 9.556812824139557,
+      "grad_norm": 0.00026573092327453196,
+      "learning_rate": 0.14683115416345913,
+      "loss": 0.326,
+      "num_input_tokens_seen": 18806832,
+      "step": 20270
+    },
+    {
+      "epoch": 9.55917020273456,
+      "grad_norm": 0.00015868223272264004,
+      "learning_rate": 0.1467722626929254,
+      "loss": 0.2923,
+      "num_input_tokens_seen": 18811456,
+      "step": 20275
+    },
+    {
+      "epoch": 9.561527581329562,
+      "grad_norm": 0.0001748174399835989,
+      "learning_rate": 0.14671337172014937,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 18815824,
+      "step": 20280
+    },
+    {
+      "epoch": 9.563884959924565,
+      "grad_norm": 0.00013179067173041403,
+      "learning_rate": 0.14665448125421265,
+      "loss": 0.333,
+      "num_input_tokens_seen": 18820400,
+      "step": 20285
+    },
+    {
+      "epoch": 9.566242338519567,
+      "grad_norm": 0.0003935774730052799,
+      "learning_rate": 0.146595591304197,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 18824896,
+      "step": 20290
+    },
+    {
+      "epoch": 9.56859971711457,
+      "grad_norm": 0.0004145465209148824,
+      "learning_rate": 0.14653670187918397,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 18829328,
+      "step": 20295
+    },
+    {
+      "epoch": 9.570957095709572,
+      "grad_norm": 0.000399757525883615,
+      "learning_rate": 0.14647781298825502,
+      "loss": 0.3188,
+      "num_input_tokens_seen": 18834128,
+      "step": 20300
+    },
+    {
+      "epoch": 9.573314474304574,
+      "grad_norm": 0.00024516950361430645,
+      "learning_rate": 0.14641892464049153,
+      "loss": 0.3487,
+      "num_input_tokens_seen": 18838592,
+      "step": 20305
+    },
+    {
+      "epoch": 9.575671852899575,
+      "grad_norm": 0.0002064661675831303,
+      "learning_rate": 0.14636003684497495,
+      "loss": 0.3931,
+      "num_input_tokens_seen": 18843168,
+      "step": 20310
+    },
+    {
+      "epoch": 9.578029231494579,
+      "grad_norm": 0.00019312830409035087,
+      "learning_rate": 0.14630114961078636,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 18847504,
+      "step": 20315
+    },
+    {
+      "epoch": 9.58038661008958,
+      "grad_norm": 0.00045594622497446835,
+      "learning_rate": 0.14624226294700704,
+      "loss": 0.3117,
+      "num_input_tokens_seen": 18853056,
+      "step": 20320
+    },
+    {
+      "epoch": 9.582743988684582,
+      "grad_norm": 0.0004514790780376643,
+      "learning_rate": 0.14618337686271793,
+      "loss": 0.2718,
+      "num_input_tokens_seen": 18857424,
+      "step": 20325
+    },
+    {
+      "epoch": 9.585101367279584,
+      "grad_norm": 0.0005000782548449934,
+      "learning_rate": 0.1461244913670001,
+      "loss": 0.3982,
+      "num_input_tokens_seen": 18862448,
+      "step": 20330
+    },
+    {
+      "epoch": 9.587458745874587,
+      "grad_norm": 0.0006818649708293378,
+      "learning_rate": 0.1460656064689344,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 18867072,
+      "step": 20335
+    },
+    {
+      "epoch": 9.58981612446959,
+      "grad_norm": 0.0002355792821617797,
+      "learning_rate": 0.14600672217760163,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 18872752,
+      "step": 20340
+    },
+    {
+      "epoch": 9.592173503064592,
+      "grad_norm": 0.00022070347040425986,
+      "learning_rate": 0.14594783850208248,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 18877472,
+      "step": 20345
+    },
+    {
+      "epoch": 9.594530881659594,
+      "grad_norm": 0.00048374809557572007,
+      "learning_rate": 0.14588895545145758,
+      "loss": 0.3326,
+      "num_input_tokens_seen": 18882368,
+      "step": 20350
+    },
+    {
+      "epoch": 9.596888260254596,
+      "grad_norm": 0.00020737868908327073,
+      "learning_rate": 0.14583007303480738,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 18887456,
+      "step": 20355
+    },
+    {
+      "epoch": 9.599245638849599,
+      "grad_norm": 0.00020961494010407478,
+      "learning_rate": 0.14577119126121235,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 18892176,
+      "step": 20360
+    },
+    {
+      "epoch": 9.601603017444601,
+      "grad_norm": 0.0001880214986158535,
+      "learning_rate": 0.14571231013975272,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 18896512,
+      "step": 20365
+    },
+    {
+      "epoch": 9.603960396039604,
+      "grad_norm": 0.0002445728168822825,
+      "learning_rate": 0.1456534296795088,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 18901200,
+      "step": 20370
+    },
+    {
+      "epoch": 9.606317774634606,
+      "grad_norm": 0.00032587075838819146,
+      "learning_rate": 0.14559454988956066,
+      "loss": 0.2949,
+      "num_input_tokens_seen": 18906304,
+      "step": 20375
+    },
+    {
+      "epoch": 9.608675153229608,
+      "grad_norm": 0.00047494290629401803,
+      "learning_rate": 0.1455356707789882,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 18912048,
+      "step": 20380
+    },
+    {
+      "epoch": 9.61103253182461,
+      "grad_norm": 0.00018204154912382364,
+      "learning_rate": 0.14547679235687147,
+      "loss": 0.2981,
+      "num_input_tokens_seen": 18916832,
+      "step": 20385
+    },
+    {
+      "epoch": 9.613389910419613,
+      "grad_norm": 0.000453304237453267,
+      "learning_rate": 0.14541791463229023,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 18920752,
+      "step": 20390
+    },
+    {
+      "epoch": 9.615747289014616,
+      "grad_norm": 0.00046077562728896737,
+      "learning_rate": 0.14535903761432406,
+      "loss": 0.2964,
+      "num_input_tokens_seen": 18924976,
+      "step": 20395
+    },
+    {
+      "epoch": 9.618104667609618,
+      "grad_norm": 0.00024152833793777972,
+      "learning_rate": 0.1453001613120527,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 18930224,
+      "step": 20400
+    },
+    {
+      "epoch": 9.618104667609618,
+      "eval_loss": 0.3276175856590271,
+      "eval_runtime": 33.557,
+      "eval_samples_per_second": 28.101,
+      "eval_steps_per_second": 14.066,
+      "num_input_tokens_seen": 18930224,
+      "step": 20400
+    },
+    {
+      "epoch": 9.62046204620462,
+      "grad_norm": 0.0005058204988017678,
+      "learning_rate": 0.14524128573455547,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 18934928,
+      "step": 20405
+    },
+    {
+      "epoch": 9.622819424799623,
+      "grad_norm": 0.00020791799761354923,
+      "learning_rate": 0.14518241089091177,
+      "loss": 0.382,
+      "num_input_tokens_seen": 18940240,
+      "step": 20410
+    },
+    {
+      "epoch": 9.625176803394625,
+      "grad_norm": 0.00018377386732026935,
+      "learning_rate": 0.1451235367902009,
+      "loss": 0.3581,
+      "num_input_tokens_seen": 18945008,
+      "step": 20415
+    },
+    {
+      "epoch": 9.627534181989628,
+      "grad_norm": 0.0002371295413468033,
+      "learning_rate": 0.1450646634415019,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 18949408,
+      "step": 20420
+    },
+    {
+      "epoch": 9.62989156058463,
+      "grad_norm": 0.00019868109666276723,
+      "learning_rate": 0.1450057908538938,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 18954304,
+      "step": 20425
+    },
+    {
+      "epoch": 9.632248939179632,
+      "grad_norm": 0.00022447429364547133,
+      "learning_rate": 0.14494691903645557,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 18958208,
+      "step": 20430
+    },
+    {
+      "epoch": 9.634606317774635,
+      "grad_norm": 0.00019773667736444622,
+      "learning_rate": 0.14488804799826588,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 18962512,
+      "step": 20435
+    },
+    {
+      "epoch": 9.636963696369637,
+      "grad_norm": 0.00020299499738030136,
+      "learning_rate": 0.14482917774840348,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 18967216,
+      "step": 20440
+    },
+    {
+      "epoch": 9.63932107496464,
+      "grad_norm": 0.000541017740033567,
+      "learning_rate": 0.14477030829594684,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 18971072,
+      "step": 20445
+    },
+    {
+      "epoch": 9.641678453559642,
+      "grad_norm": 0.00023996669915504754,
+      "learning_rate": 0.14471143964997432,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 18975936,
+      "step": 20450
+    },
+    {
+      "epoch": 9.644035832154644,
+      "grad_norm": 0.00018927949713543057,
+      "learning_rate": 0.14465257181956434,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 18980208,
+      "step": 20455
+    },
+    {
+      "epoch": 9.646393210749647,
+      "grad_norm": 0.00046851576189510524,
+      "learning_rate": 0.1445937048137949,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 18984752,
+      "step": 20460
+    },
+    {
+      "epoch": 9.64875058934465,
+      "grad_norm": 0.0007537495694123209,
+      "learning_rate": 0.14453483864174416,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 18988112,
+      "step": 20465
+    },
+    {
+      "epoch": 9.651107967939652,
+      "grad_norm": 0.00023640893050469458,
+      "learning_rate": 0.14447597331249,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 18992880,
+      "step": 20470
+    },
+    {
+      "epoch": 9.653465346534654,
+      "grad_norm": 0.0002030126197496429,
+      "learning_rate": 0.1444171088351102,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 18996960,
+      "step": 20475
+    },
+    {
+      "epoch": 9.655822725129656,
+      "grad_norm": 0.0002302852808497846,
+      "learning_rate": 0.14435824521868235,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 19002128,
+      "step": 20480
+    },
+    {
+      "epoch": 9.658180103724659,
+      "grad_norm": 0.0004672443901654333,
+      "learning_rate": 0.14429938247228397,
+      "loss": 0.2702,
+      "num_input_tokens_seen": 19007472,
+      "step": 20485
+    },
+    {
+      "epoch": 9.660537482319661,
+      "grad_norm": 0.00022377210552804172,
+      "learning_rate": 0.14424052060499243,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 19012912,
+      "step": 20490
+    },
+    {
+      "epoch": 9.662894860914664,
+      "grad_norm": 0.00047501653898507357,
+      "learning_rate": 0.14418165962588506,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 19017840,
+      "step": 20495
+    },
+    {
+      "epoch": 9.665252239509666,
+      "grad_norm": 0.0004792118852492422,
+      "learning_rate": 0.1441227995440388,
+      "loss": 0.2857,
+      "num_input_tokens_seen": 19022336,
+      "step": 20500
+    },
+    {
+      "epoch": 9.667609618104667,
+      "grad_norm": 0.0002012215554714203,
+      "learning_rate": 0.14406394036853082,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 19026640,
+      "step": 20505
+    },
+    {
+      "epoch": 9.66996699669967,
+      "grad_norm": 0.00025363030727021396,
+      "learning_rate": 0.14400508210843774,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 19031824,
+      "step": 20510
+    },
+    {
+      "epoch": 9.672324375294671,
+      "grad_norm": 0.0002183122414862737,
+      "learning_rate": 0.1439462247728364,
+      "loss": 0.3712,
+      "num_input_tokens_seen": 19036064,
+      "step": 20515
+    },
+    {
+      "epoch": 9.674681753889674,
+      "grad_norm": 0.0001785289350664243,
+      "learning_rate": 0.14388736837080326,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 19041568,
+      "step": 20520
+    },
+    {
+      "epoch": 9.677039132484676,
+      "grad_norm": 0.0004627821035683155,
+      "learning_rate": 0.14382851291141469,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 19045728,
+      "step": 20525
+    },
+    {
+      "epoch": 9.679396511079679,
+      "grad_norm": 0.00019475219596643,
+      "learning_rate": 0.14376965840374697,
+      "loss": 0.2889,
+      "num_input_tokens_seen": 19050432,
+      "step": 20530
+    },
+    {
+      "epoch": 9.681753889674681,
+      "grad_norm": 0.0005125609459355474,
+      "learning_rate": 0.14371080485687632,
+      "loss": 0.352,
+      "num_input_tokens_seen": 19054896,
+      "step": 20535
+    },
+    {
+      "epoch": 9.684111268269683,
+      "grad_norm": 0.00024575312272645533,
+      "learning_rate": 0.1436519522798785,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 19059184,
+      "step": 20540
+    },
+    {
+      "epoch": 9.686468646864686,
+      "grad_norm": 0.00022791311494074762,
+      "learning_rate": 0.14359310068182948,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 19064048,
+      "step": 20545
+    },
+    {
+      "epoch": 9.688826025459688,
+      "grad_norm": 0.0004739592841360718,
+      "learning_rate": 0.14353425007180484,
+      "loss": 0.2677,
+      "num_input_tokens_seen": 19068528,
+      "step": 20550
+    },
+    {
+      "epoch": 9.69118340405469,
+      "grad_norm": 0.00019549277203623205,
+      "learning_rate": 0.14347540045888005,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 19072976,
+      "step": 20555
+    },
+    {
+      "epoch": 9.693540782649693,
+      "grad_norm": 0.00016937180771492422,
+      "learning_rate": 0.14341655185213056,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 19078496,
+      "step": 20560
+    },
+    {
+      "epoch": 9.695898161244696,
+      "grad_norm": 0.0005332953296601772,
+      "learning_rate": 0.14335770426063144,
+      "loss": 0.3694,
+      "num_input_tokens_seen": 19083200,
+      "step": 20565
+    },
+    {
+      "epoch": 9.698255539839698,
+      "grad_norm": 0.0002936815144494176,
+      "learning_rate": 0.1432988576934578,
+      "loss": 0.2756,
+      "num_input_tokens_seen": 19087952,
+      "step": 20570
+    },
+    {
+      "epoch": 9.7006129184347,
+      "grad_norm": 0.0002849897718988359,
+      "learning_rate": 0.14324001215968457,
+      "loss": 0.2737,
+      "num_input_tokens_seen": 19092544,
+      "step": 20575
+    },
+    {
+      "epoch": 9.702970297029703,
+      "grad_norm": 0.0001670641067903489,
+      "learning_rate": 0.14318116766838637,
+      "loss": 0.3057,
+      "num_input_tokens_seen": 19096736,
+      "step": 20580
+    },
+    {
+      "epoch": 9.705327675624705,
+      "grad_norm": 0.0009350298205390573,
+      "learning_rate": 0.14312232422863788,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 19101296,
+      "step": 20585
+    },
+    {
+      "epoch": 9.707685054219708,
+      "grad_norm": 0.00015924149192869663,
+      "learning_rate": 0.14306348184951334,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 19106256,
+      "step": 20590
+    },
+    {
+      "epoch": 9.71004243281471,
+      "grad_norm": 0.00024626567028462887,
+      "learning_rate": 0.1430046405400871,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 19110240,
+      "step": 20595
+    },
+    {
+      "epoch": 9.712399811409712,
+      "grad_norm": 0.00047379208263009787,
+      "learning_rate": 0.14294580030943324,
+      "loss": 0.3135,
+      "num_input_tokens_seen": 19115456,
+      "step": 20600
+    },
+    {
+      "epoch": 9.712399811409712,
+      "eval_loss": 0.3279764950275421,
+      "eval_runtime": 33.5917,
+      "eval_samples_per_second": 28.072,
+      "eval_steps_per_second": 14.051,
+      "num_input_tokens_seen": 19115456,
+      "step": 20600
+    },
+    {
+      "epoch": 9.714757190004715,
+      "grad_norm": 0.000244295340962708,
+      "learning_rate": 0.14288696116662553,
+      "loss": 0.3859,
+      "num_input_tokens_seen": 19120768,
+      "step": 20605
+    },
+    {
+      "epoch": 9.717114568599717,
+      "grad_norm": 0.0005052966298535466,
+      "learning_rate": 0.1428281231207378,
+      "loss": 0.329,
+      "num_input_tokens_seen": 19125600,
+      "step": 20610
+    },
+    {
+      "epoch": 9.71947194719472,
+      "grad_norm": 0.0002414246555417776,
+      "learning_rate": 0.1427692861808437,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 19130032,
+      "step": 20615
+    },
+    {
+      "epoch": 9.721829325789722,
+      "grad_norm": 0.0005383676616474986,
+      "learning_rate": 0.1427104503560165,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 19134912,
+      "step": 20620
+    },
+    {
+      "epoch": 9.724186704384724,
+      "grad_norm": 0.000246914365561679,
+      "learning_rate": 0.14265161565532947,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 19139008,
+      "step": 20625
+    },
+    {
+      "epoch": 9.726544082979727,
+      "grad_norm": 0.0005151435034349561,
+      "learning_rate": 0.14259278208785564,
+      "loss": 0.341,
+      "num_input_tokens_seen": 19143792,
+      "step": 20630
+    },
+    {
+      "epoch": 9.72890146157473,
+      "grad_norm": 0.00022814508702140301,
+      "learning_rate": 0.14253394966266789,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 19148528,
+      "step": 20635
+    },
+    {
+      "epoch": 9.731258840169732,
+      "grad_norm": 0.000514842220582068,
+      "learning_rate": 0.14247511838883894,
+      "loss": 0.2955,
+      "num_input_tokens_seen": 19153408,
+      "step": 20640
+    },
+    {
+      "epoch": 9.733616218764734,
+      "grad_norm": 0.0001941973896464333,
+      "learning_rate": 0.14241628827544126,
+      "loss": 0.3465,
+      "num_input_tokens_seen": 19157024,
+      "step": 20645
+    },
+    {
+      "epoch": 9.735973597359736,
+      "grad_norm": 0.00022298669500742108,
+      "learning_rate": 0.14235745933154723,
+      "loss": 0.299,
+      "num_input_tokens_seen": 19160864,
+      "step": 20650
+    },
+    {
+      "epoch": 9.738330975954739,
+      "grad_norm": 0.000854135665576905,
+      "learning_rate": 0.14229863156622907,
+      "loss": 0.3843,
+      "num_input_tokens_seen": 19165664,
+      "step": 20655
+    },
+    {
+      "epoch": 9.740688354549741,
+      "grad_norm": 0.00025332107907161117,
+      "learning_rate": 0.14223980498855868,
+      "loss": 0.3898,
+      "num_input_tokens_seen": 19169952,
+      "step": 20660
+    },
+    {
+      "epoch": 9.743045733144744,
+      "grad_norm": 0.00032808224204927683,
+      "learning_rate": 0.14218097960760792,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 19173952,
+      "step": 20665
+    },
+    {
+      "epoch": 9.745403111739746,
+      "grad_norm": 0.00032636086689308286,
+      "learning_rate": 0.1421221554324483,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 19178096,
+      "step": 20670
+    },
+    {
+      "epoch": 9.747760490334748,
+      "grad_norm": 0.00036628160160034895,
+      "learning_rate": 0.1420633324721513,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 19182352,
+      "step": 20675
+    },
+    {
+      "epoch": 9.75011786892975,
+      "grad_norm": 0.0003482702886685729,
+      "learning_rate": 0.14200451073578824,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 19187296,
+      "step": 20680
+    },
+    {
+      "epoch": 9.752475247524753,
+      "grad_norm": 0.0003021560551133007,
+      "learning_rate": 0.14194569023243003,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 19192304,
+      "step": 20685
+    },
+    {
+      "epoch": 9.754832626119756,
+      "grad_norm": 0.0008249367820098996,
+      "learning_rate": 0.14188687097114766,
+      "loss": 0.3467,
+      "num_input_tokens_seen": 19196240,
+      "step": 20690
+    },
+    {
+      "epoch": 9.757190004714758,
+      "grad_norm": 0.00041710975347086787,
+      "learning_rate": 0.14182805296101172,
+      "loss": 0.3509,
+      "num_input_tokens_seen": 19200240,
+      "step": 20695
+    },
+    {
+      "epoch": 9.75954738330976,
+      "grad_norm": 0.0004929911810904741,
+      "learning_rate": 0.14176923621109272,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 19205744,
+      "step": 20700
+    },
+    {
+      "epoch": 9.761904761904763,
+      "grad_norm": 0.00024089834187179804,
+      "learning_rate": 0.14171042073046097,
+      "loss": 0.348,
+      "num_input_tokens_seen": 19210240,
+      "step": 20705
+    },
+    {
+      "epoch": 9.764262140499763,
+      "grad_norm": 0.000837471045088023,
+      "learning_rate": 0.14165160652818642,
+      "loss": 0.351,
+      "num_input_tokens_seen": 19214416,
+      "step": 20710
+    },
+    {
+      "epoch": 9.766619519094768,
+      "grad_norm": 0.0006929726805537939,
+      "learning_rate": 0.14159279361333907,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 19219216,
+      "step": 20715
+    },
+    {
+      "epoch": 9.768976897689768,
+      "grad_norm": 0.00027803852572105825,
+      "learning_rate": 0.14153398199498868,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 19223360,
+      "step": 20720
+    },
+    {
+      "epoch": 9.77133427628477,
+      "grad_norm": 0.00037674655322916806,
+      "learning_rate": 0.14147517168220458,
+      "loss": 0.333,
+      "num_input_tokens_seen": 19227760,
+      "step": 20725
+    },
+    {
+      "epoch": 9.773691654879773,
+      "grad_norm": 0.00034948578104376793,
+      "learning_rate": 0.14141636268405616,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 19231920,
+      "step": 20730
+    },
+    {
+      "epoch": 9.776049033474775,
+      "grad_norm": 0.0004286618495825678,
+      "learning_rate": 0.14135755500961253,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 19236560,
+      "step": 20735
+    },
+    {
+      "epoch": 9.778406412069778,
+      "grad_norm": 0.0005589701468124986,
+      "learning_rate": 0.14129874866794245,
+      "loss": 0.3465,
+      "num_input_tokens_seen": 19241392,
+      "step": 20740
+    },
+    {
+      "epoch": 9.78076379066478,
+      "grad_norm": 0.00044431761489249766,
+      "learning_rate": 0.14123994366811476,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 19245856,
+      "step": 20745
+    },
+    {
+      "epoch": 9.783121169259783,
+      "grad_norm": 0.0005433108890429139,
+      "learning_rate": 0.14118114001919774,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 19250336,
+      "step": 20750
+    },
+    {
+      "epoch": 9.785478547854785,
+      "grad_norm": 0.0005110562779009342,
+      "learning_rate": 0.14112233773025978,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 19255200,
+      "step": 20755
+    },
+    {
+      "epoch": 9.787835926449787,
+      "grad_norm": 0.00022929157421458513,
+      "learning_rate": 0.14106353681036896,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 19259408,
+      "step": 20760
+    },
+    {
+      "epoch": 9.79019330504479,
+      "grad_norm": 0.00025593655300326645,
+      "learning_rate": 0.14100473726859303,
+      "loss": 0.331,
+      "num_input_tokens_seen": 19263328,
+      "step": 20765
+    },
+    {
+      "epoch": 9.792550683639792,
+      "grad_norm": 0.0008578517590649426,
+      "learning_rate": 0.14094593911399964,
+      "loss": 0.3548,
+      "num_input_tokens_seen": 19268304,
+      "step": 20770
+    },
+    {
+      "epoch": 9.794908062234795,
+      "grad_norm": 0.0004818668821826577,
+      "learning_rate": 0.14088714235565625,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 19272544,
+      "step": 20775
+    },
+    {
+      "epoch": 9.797265440829797,
+      "grad_norm": 0.0005135073442943394,
+      "learning_rate": 0.14082834700263,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 19277408,
+      "step": 20780
+    },
+    {
+      "epoch": 9.7996228194248,
+      "grad_norm": 0.0002461857220623642,
+      "learning_rate": 0.14076955306398795,
+      "loss": 0.3677,
+      "num_input_tokens_seen": 19281872,
+      "step": 20785
+    },
+    {
+      "epoch": 9.801980198019802,
+      "grad_norm": 0.0006256322958506644,
+      "learning_rate": 0.14071076054879675,
+      "loss": 0.3829,
+      "num_input_tokens_seen": 19286704,
+      "step": 20790
+    },
+    {
+      "epoch": 9.804337576614804,
+      "grad_norm": 0.0004549767472781241,
+      "learning_rate": 0.14065196946612302,
+      "loss": 0.3772,
+      "num_input_tokens_seen": 19291280,
+      "step": 20795
+    },
+    {
+      "epoch": 9.806694955209807,
+      "grad_norm": 0.00025708507746458054,
+      "learning_rate": 0.1405931798250331,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 19296016,
+      "step": 20800
+    },
+    {
+      "epoch": 9.806694955209807,
+      "eval_loss": 0.3300948739051819,
+      "eval_runtime": 33.6084,
+      "eval_samples_per_second": 28.058,
+      "eval_steps_per_second": 14.044,
+      "num_input_tokens_seen": 19296016,
+      "step": 20800
+    },
+    {
+      "epoch": 9.809052333804809,
+      "grad_norm": 0.0002655794087331742,
+      "learning_rate": 0.14053439163459308,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 19299760,
+      "step": 20805
+    },
+    {
+      "epoch": 9.811409712399811,
+      "grad_norm": 0.0006333107012324035,
+      "learning_rate": 0.14047560490386876,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 19303776,
+      "step": 20810
+    },
+    {
+      "epoch": 9.813767090994814,
+      "grad_norm": 0.0005856687785126269,
+      "learning_rate": 0.14041681964192593,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 19308016,
+      "step": 20815
+    },
+    {
+      "epoch": 9.816124469589816,
+      "grad_norm": 0.00020771163690369576,
+      "learning_rate": 0.14035803585782988,
+      "loss": 0.3547,
+      "num_input_tokens_seen": 19312032,
+      "step": 20820
+    },
+    {
+      "epoch": 9.818481848184819,
+      "grad_norm": 0.00020912768377456814,
+      "learning_rate": 0.14029925356064593,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 19316576,
+      "step": 20825
+    },
+    {
+      "epoch": 9.820839226779821,
+      "grad_norm": 0.0005427135620266199,
+      "learning_rate": 0.1402404727594389,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 19321536,
+      "step": 20830
+    },
+    {
+      "epoch": 9.823196605374823,
+      "grad_norm": 0.00021924804605077952,
+      "learning_rate": 0.1401816934632737,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 19326720,
+      "step": 20835
+    },
+    {
+      "epoch": 9.825553983969826,
+      "grad_norm": 0.00035031919833272696,
+      "learning_rate": 0.1401229156812147,
+      "loss": 0.3547,
+      "num_input_tokens_seen": 19331520,
+      "step": 20840
+    },
+    {
+      "epoch": 9.827911362564828,
+      "grad_norm": 0.00018521133461035788,
+      "learning_rate": 0.14006413942232626,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 19335904,
+      "step": 20845
+    },
+    {
+      "epoch": 9.83026874115983,
+      "grad_norm": 0.000585489789955318,
+      "learning_rate": 0.14000536469567235,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 19341184,
+      "step": 20850
+    },
+    {
+      "epoch": 9.832626119754833,
+      "grad_norm": 0.0005438295775093138,
+      "learning_rate": 0.13994659151031685,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 19346496,
+      "step": 20855
+    },
+    {
+      "epoch": 9.834983498349835,
+      "grad_norm": 0.0003802393330261111,
+      "learning_rate": 0.13988781987532323,
+      "loss": 0.3,
+      "num_input_tokens_seen": 19351472,
+      "step": 20860
+    },
+    {
+      "epoch": 9.837340876944838,
+      "grad_norm": 0.0001936336630024016,
+      "learning_rate": 0.1398290497997549,
+      "loss": 0.3459,
+      "num_input_tokens_seen": 19355904,
+      "step": 20865
+    },
+    {
+      "epoch": 9.83969825553984,
+      "grad_norm": 0.0002688298700377345,
+      "learning_rate": 0.13977028129267488,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 19360544,
+      "step": 20870
+    },
+    {
+      "epoch": 9.842055634134843,
+      "grad_norm": 0.00019972812151536345,
+      "learning_rate": 0.13971151436314605,
+      "loss": 0.34,
+      "num_input_tokens_seen": 19365440,
+      "step": 20875
+    },
+    {
+      "epoch": 9.844413012729845,
+      "grad_norm": 0.0005588741623796523,
+      "learning_rate": 0.13965274902023103,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 19371088,
+      "step": 20880
+    },
+    {
+      "epoch": 9.846770391324847,
+      "grad_norm": 0.00025410321541130543,
+      "learning_rate": 0.13959398527299208,
+      "loss": 0.3356,
+      "num_input_tokens_seen": 19375200,
+      "step": 20885
+    },
+    {
+      "epoch": 9.84912776991985,
+      "grad_norm": 0.0004987869178876281,
+      "learning_rate": 0.13953522313049138,
+      "loss": 0.3684,
+      "num_input_tokens_seen": 19379872,
+      "step": 20890
+    },
+    {
+      "epoch": 9.851485148514852,
+      "grad_norm": 0.00017667081556282938,
+      "learning_rate": 0.13947646260179083,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 19383408,
+      "step": 20895
+    },
+    {
+      "epoch": 9.853842527109855,
+      "grad_norm": 0.0005303784273564816,
+      "learning_rate": 0.13941770369595194,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 19388768,
+      "step": 20900
+    },
+    {
+      "epoch": 9.856199905704855,
+      "grad_norm": 0.0002147005870938301,
+      "learning_rate": 0.1393589464220362,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 19393264,
+      "step": 20905
+    },
+    {
+      "epoch": 9.85855728429986,
+      "grad_norm": 0.00040090095717459917,
+      "learning_rate": 0.13930019078910455,
+      "loss": 0.3644,
+      "num_input_tokens_seen": 19398144,
+      "step": 20910
+    },
+    {
+      "epoch": 9.86091466289486,
+      "grad_norm": 0.0004996207426302135,
+      "learning_rate": 0.139241436806218,
+      "loss": 0.2963,
+      "num_input_tokens_seen": 19402704,
+      "step": 20915
+    },
+    {
+      "epoch": 9.863272041489862,
+      "grad_norm": 0.00042683951323851943,
+      "learning_rate": 0.13918268448243712,
+      "loss": 0.2764,
+      "num_input_tokens_seen": 19407456,
+      "step": 20920
+    },
+    {
+      "epoch": 9.865629420084865,
+      "grad_norm": 0.0002148112835129723,
+      "learning_rate": 0.13912393382682217,
+      "loss": 0.3188,
+      "num_input_tokens_seen": 19412288,
+      "step": 20925
+    },
+    {
+      "epoch": 9.867986798679867,
+      "grad_norm": 0.0004172043118160218,
+      "learning_rate": 0.1390651848484333,
+      "loss": 0.3377,
+      "num_input_tokens_seen": 19417440,
+      "step": 20930
+    },
+    {
+      "epoch": 9.87034417727487,
+      "grad_norm": 0.0001546095300000161,
+      "learning_rate": 0.1390064375563304,
+      "loss": 0.3525,
+      "num_input_tokens_seen": 19422768,
+      "step": 20935
+    },
+    {
+      "epoch": 9.872701555869872,
+      "grad_norm": 0.0004316763661336154,
+      "learning_rate": 0.13894769195957293,
+      "loss": 0.2926,
+      "num_input_tokens_seen": 19427728,
+      "step": 20940
+    },
+    {
+      "epoch": 9.875058934464874,
+      "grad_norm": 0.000166309138876386,
+      "learning_rate": 0.13888894806722032,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 19431888,
+      "step": 20945
+    },
+    {
+      "epoch": 9.877416313059877,
+      "grad_norm": 0.0001584504934726283,
+      "learning_rate": 0.1388302058883315,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 19437008,
+      "step": 20950
+    },
+    {
+      "epoch": 9.87977369165488,
+      "grad_norm": 0.00014793031732551754,
+      "learning_rate": 0.13877146543196528,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 19441232,
+      "step": 20955
+    },
+    {
+      "epoch": 9.882131070249882,
+      "grad_norm": 0.00013959741045255214,
+      "learning_rate": 0.13871272670718027,
+      "loss": 0.2903,
+      "num_input_tokens_seen": 19445728,
+      "step": 20960
+    },
+    {
+      "epoch": 9.884488448844884,
+      "grad_norm": 0.0002067716559395194,
+      "learning_rate": 0.13865398972303455,
+      "loss": 0.3682,
+      "num_input_tokens_seen": 19449984,
+      "step": 20965
+    },
+    {
+      "epoch": 9.886845827439886,
+      "grad_norm": 0.00021854644000995904,
+      "learning_rate": 0.13859525448858623,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 19454352,
+      "step": 20970
+    },
+    {
+      "epoch": 9.889203206034889,
+      "grad_norm": 0.00019170470477547497,
+      "learning_rate": 0.13853652101289304,
+      "loss": 0.2877,
+      "num_input_tokens_seen": 19458480,
+      "step": 20975
+    },
+    {
+      "epoch": 9.891560584629891,
+      "grad_norm": 0.0005071176565252244,
+      "learning_rate": 0.13847778930501234,
+      "loss": 0.249,
+      "num_input_tokens_seen": 19463552,
+      "step": 20980
+    },
+    {
+      "epoch": 9.893917963224894,
+      "grad_norm": 0.00017069715249817818,
+      "learning_rate": 0.1384190593740013,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 19468256,
+      "step": 20985
+    },
+    {
+      "epoch": 9.896275341819896,
+      "grad_norm": 0.0002827803837135434,
+      "learning_rate": 0.13836033122891686,
+      "loss": 0.3596,
+      "num_input_tokens_seen": 19472704,
+      "step": 20990
+    },
+    {
+      "epoch": 9.898632720414899,
+      "grad_norm": 0.0008034288766793907,
+      "learning_rate": 0.1383016048788156,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 19477600,
+      "step": 20995
+    },
+    {
+      "epoch": 9.900990099009901,
+      "grad_norm": 0.00025428287335671484,
+      "learning_rate": 0.13824288033275392,
+      "loss": 0.3095,
+      "num_input_tokens_seen": 19482416,
+      "step": 21000
+    },
+    {
+      "epoch": 9.900990099009901,
+      "eval_loss": 0.32812902331352234,
+      "eval_runtime": 33.5397,
+      "eval_samples_per_second": 28.116,
+      "eval_steps_per_second": 14.073,
+      "num_input_tokens_seen": 19482416,
+      "step": 21000
+    },
+    {
+      "epoch": 9.903347477604903,
+      "grad_norm": 0.0003964564821217209,
+      "learning_rate": 0.1381841575997878,
+      "loss": 0.2292,
+      "num_input_tokens_seen": 19485920,
+      "step": 21005
+    },
+    {
+      "epoch": 9.905704856199906,
+      "grad_norm": 0.0003065102209802717,
+      "learning_rate": 0.13812543668897306,
+      "loss": 0.3483,
+      "num_input_tokens_seen": 19491696,
+      "step": 21010
+    },
+    {
+      "epoch": 9.908062234794908,
+      "grad_norm": 0.00017787264368962497,
+      "learning_rate": 0.13806671760936526,
+      "loss": 0.3191,
+      "num_input_tokens_seen": 19496416,
+      "step": 21015
+    },
+    {
+      "epoch": 9.91041961338991,
+      "grad_norm": 9.93976354948245e-05,
+      "learning_rate": 0.13800800037001956,
+      "loss": 0.258,
+      "num_input_tokens_seen": 19501840,
+      "step": 21020
+    },
+    {
+      "epoch": 9.912776991984913,
+      "grad_norm": 0.0002921503037214279,
+      "learning_rate": 0.13794928497999087,
+      "loss": 0.3265,
+      "num_input_tokens_seen": 19507056,
+      "step": 21025
+    },
+    {
+      "epoch": 9.915134370579915,
+      "grad_norm": 0.00014651230594608933,
+      "learning_rate": 0.1378905714483339,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 19511776,
+      "step": 21030
+    },
+    {
+      "epoch": 9.917491749174918,
+      "grad_norm": 0.00013684527948498726,
+      "learning_rate": 0.13783185978410295,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 19515680,
+      "step": 21035
+    },
+    {
+      "epoch": 9.91984912776992,
+      "grad_norm": 0.0001447622780688107,
+      "learning_rate": 0.13777314999635218,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 19520256,
+      "step": 21040
+    },
+    {
+      "epoch": 9.922206506364923,
+      "grad_norm": 0.00016403422341682017,
+      "learning_rate": 0.1377144420941353,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 19525088,
+      "step": 21045
+    },
+    {
+      "epoch": 9.924563884959925,
+      "grad_norm": 0.00016330176731571555,
+      "learning_rate": 0.13765573608650586,
+      "loss": 0.3178,
+      "num_input_tokens_seen": 19529120,
+      "step": 21050
+    },
+    {
+      "epoch": 9.926921263554927,
+      "grad_norm": 0.00018621016351971775,
+      "learning_rate": 0.13759703198251702,
+      "loss": 0.4004,
+      "num_input_tokens_seen": 19533712,
+      "step": 21055
+    },
+    {
+      "epoch": 9.92927864214993,
+      "grad_norm": 0.00020460723317228258,
+      "learning_rate": 0.13753832979122174,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 19538304,
+      "step": 21060
+    },
+    {
+      "epoch": 9.931636020744932,
+      "grad_norm": 0.0001874824083643034,
+      "learning_rate": 0.13747962952167264,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 19542464,
+      "step": 21065
+    },
+    {
+      "epoch": 9.933993399339935,
+      "grad_norm": 0.0002526667376514524,
+      "learning_rate": 0.13742093118292192,
+      "loss": 0.3657,
+      "num_input_tokens_seen": 19547424,
+      "step": 21070
+    },
+    {
+      "epoch": 9.936350777934937,
+      "grad_norm": 0.00017833479796536267,
+      "learning_rate": 0.13736223478402174,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 19551136,
+      "step": 21075
+    },
+    {
+      "epoch": 9.93870815652994,
+      "grad_norm": 0.0002697406162042171,
+      "learning_rate": 0.1373035403340238,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 19556736,
+      "step": 21080
+    },
+    {
+      "epoch": 9.941065535124942,
+      "grad_norm": 0.00019541448273230344,
+      "learning_rate": 0.13724484784197943,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 19561216,
+      "step": 21085
+    },
+    {
+      "epoch": 9.943422913719944,
+      "grad_norm": 0.00024058643612079322,
+      "learning_rate": 0.13718615731693987,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 19566896,
+      "step": 21090
+    },
+    {
+      "epoch": 9.945780292314947,
+      "grad_norm": 0.00027601575129665434,
+      "learning_rate": 0.13712746876795587,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 19570880,
+      "step": 21095
+    },
+    {
+      "epoch": 9.948137670909949,
+      "grad_norm": 0.00020934878557454795,
+      "learning_rate": 0.13706878220407792,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 19575392,
+      "step": 21100
+    },
+    {
+      "epoch": 9.950495049504951,
+      "grad_norm": 0.00023647749912925065,
+      "learning_rate": 0.13701009763435631,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 19579728,
+      "step": 21105
+    },
+    {
+      "epoch": 9.952852428099952,
+      "grad_norm": 0.0004996338975615799,
+      "learning_rate": 0.13695141506784084,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 19585040,
+      "step": 21110
+    },
+    {
+      "epoch": 9.955209806694956,
+      "grad_norm": 0.00019934635201934725,
+      "learning_rate": 0.13689273451358114,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 19588736,
+      "step": 21115
+    },
+    {
+      "epoch": 9.957567185289957,
+      "grad_norm": 0.000498195004183799,
+      "learning_rate": 0.13683405598062653,
+      "loss": 0.3629,
+      "num_input_tokens_seen": 19594448,
+      "step": 21120
+    },
+    {
+      "epoch": 9.95992456388496,
+      "grad_norm": 0.0004976668860763311,
+      "learning_rate": 0.1367753794780259,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 19599296,
+      "step": 21125
+    },
+    {
+      "epoch": 9.962281942479962,
+      "grad_norm": 0.0006285406998358667,
+      "learning_rate": 0.13671670501482802,
+      "loss": 0.315,
+      "num_input_tokens_seen": 19603536,
+      "step": 21130
+    },
+    {
+      "epoch": 9.964639321074964,
+      "grad_norm": 0.00026930178864859045,
+      "learning_rate": 0.1366580326000811,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 19607552,
+      "step": 21135
+    },
+    {
+      "epoch": 9.966996699669966,
+      "grad_norm": 0.0004942564992234111,
+      "learning_rate": 0.1365993622428332,
+      "loss": 0.2997,
+      "num_input_tokens_seen": 19612080,
+      "step": 21140
+    },
+    {
+      "epoch": 9.969354078264969,
+      "grad_norm": 0.0002658129087649286,
+      "learning_rate": 0.13654069395213211,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 19617072,
+      "step": 21145
+    },
+    {
+      "epoch": 9.971711456859971,
+      "grad_norm": 0.0002343043015571311,
+      "learning_rate": 0.13648202773702509,
+      "loss": 0.3614,
+      "num_input_tokens_seen": 19621488,
+      "step": 21150
+    },
+    {
+      "epoch": 9.974068835454974,
+      "grad_norm": 0.000507911725435406,
+      "learning_rate": 0.13642336360655927,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 19626976,
+      "step": 21155
+    },
+    {
+      "epoch": 9.976426214049976,
+      "grad_norm": 0.00017143327568192035,
+      "learning_rate": 0.13636470156978145,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 19631744,
+      "step": 21160
+    },
+    {
+      "epoch": 9.978783592644978,
+      "grad_norm": 0.00017118197865784168,
+      "learning_rate": 0.13630604163573798,
+      "loss": 0.2781,
+      "num_input_tokens_seen": 19636784,
+      "step": 21165
+    },
+    {
+      "epoch": 9.98114097123998,
+      "grad_norm": 0.0004151706234551966,
+      "learning_rate": 0.13624738381347495,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 19641616,
+      "step": 21170
+    },
+    {
+      "epoch": 9.983498349834983,
+      "grad_norm": 0.00026181639987044036,
+      "learning_rate": 0.1361887281120382,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 19645872,
+      "step": 21175
+    },
+    {
+      "epoch": 9.985855728429986,
+      "grad_norm": 0.0005768068367615342,
+      "learning_rate": 0.13613007454047307,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 19650784,
+      "step": 21180
+    },
+    {
+      "epoch": 9.988213107024988,
+      "grad_norm": 0.00016758205310907215,
+      "learning_rate": 0.13607142310782486,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 19655824,
+      "step": 21185
+    },
+    {
+      "epoch": 9.99057048561999,
+      "grad_norm": 0.00018700755026657134,
+      "learning_rate": 0.13601277382313814,
+      "loss": 0.31,
+      "num_input_tokens_seen": 19660048,
+      "step": 21190
+    },
+    {
+      "epoch": 9.992927864214993,
+      "grad_norm": 0.00030734026222489774,
+      "learning_rate": 0.1359541266954575,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 19664688,
+      "step": 21195
+    },
+    {
+      "epoch": 9.995285242809995,
+      "grad_norm": 0.00018179183825850487,
+      "learning_rate": 0.13589548173382707,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 19668640,
+      "step": 21200
+    },
+    {
+      "epoch": 9.995285242809995,
+      "eval_loss": 0.32785722613334656,
+      "eval_runtime": 33.5679,
+      "eval_samples_per_second": 28.092,
+      "eval_steps_per_second": 14.061,
+      "num_input_tokens_seen": 19668640,
+      "step": 21200
+    },
+    {
+      "epoch": 9.997642621404998,
+      "grad_norm": 0.00018025316239800304,
+      "learning_rate": 0.1358368389472906,
+      "loss": 0.3785,
+      "num_input_tokens_seen": 19672912,
+      "step": 21205
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.00022545833780895919,
+      "learning_rate": 0.13577819834489155,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 19677056,
+      "step": 21210
+    },
+    {
+      "epoch": 10.002357378595002,
+      "grad_norm": 0.0005735026788897812,
+      "learning_rate": 0.135719559935673,
+      "loss": 0.2713,
+      "num_input_tokens_seen": 19682240,
+      "step": 21215
+    },
+    {
+      "epoch": 10.004714757190005,
+      "grad_norm": 0.0002948282053694129,
+      "learning_rate": 0.13566092372867775,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 19687728,
+      "step": 21220
+    },
+    {
+      "epoch": 10.007072135785007,
+      "grad_norm": 0.0002254251594422385,
+      "learning_rate": 0.13560228973294833,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 19693296,
+      "step": 21225
+    },
+    {
+      "epoch": 10.00942951438001,
+      "grad_norm": 0.0005243614432401955,
+      "learning_rate": 0.13554365795752668,
+      "loss": 0.325,
+      "num_input_tokens_seen": 19698304,
+      "step": 21230
+    },
+    {
+      "epoch": 10.011786892975012,
+      "grad_norm": 0.0006132592097856104,
+      "learning_rate": 0.1354850284114547,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 19702464,
+      "step": 21235
+    },
+    {
+      "epoch": 10.014144271570014,
+      "grad_norm": 0.0005801902734674513,
+      "learning_rate": 0.13542640110377374,
+      "loss": 0.3802,
+      "num_input_tokens_seen": 19707760,
+      "step": 21240
+    },
+    {
+      "epoch": 10.016501650165017,
+      "grad_norm": 0.0013342015445232391,
+      "learning_rate": 0.13536777604352487,
+      "loss": 0.3029,
+      "num_input_tokens_seen": 19712000,
+      "step": 21245
+    },
+    {
+      "epoch": 10.01885902876002,
+      "grad_norm": 0.0008719653123989701,
+      "learning_rate": 0.13530915323974887,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 19716144,
+      "step": 21250
+    },
+    {
+      "epoch": 10.021216407355022,
+      "grad_norm": 0.014964240603148937,
+      "learning_rate": 0.13525053270148596,
+      "loss": 0.559,
+      "num_input_tokens_seen": 19720896,
+      "step": 21255
+    },
+    {
+      "epoch": 10.023573785950024,
+      "grad_norm": 0.0020662150345742702,
+      "learning_rate": 0.13519191443777628,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 19725200,
+      "step": 21260
+    },
+    {
+      "epoch": 10.025931164545026,
+      "grad_norm": 0.00035069731529802084,
+      "learning_rate": 0.13513329845765953,
+      "loss": 0.3288,
+      "num_input_tokens_seen": 19729904,
+      "step": 21265
+    },
+    {
+      "epoch": 10.028288543140029,
+      "grad_norm": 0.00040303930290974677,
+      "learning_rate": 0.13507468477017495,
+      "loss": 0.3377,
+      "num_input_tokens_seen": 19735008,
+      "step": 21270
+    },
+    {
+      "epoch": 10.030645921735031,
+      "grad_norm": 0.0010452230926603079,
+      "learning_rate": 0.13501607338436153,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 19741376,
+      "step": 21275
+    },
+    {
+      "epoch": 10.033003300330034,
+      "grad_norm": 0.0006346449954435229,
+      "learning_rate": 0.13495746430925798,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 19745824,
+      "step": 21280
+    },
+    {
+      "epoch": 10.035360678925036,
+      "grad_norm": 0.0015799481188878417,
+      "learning_rate": 0.13489885755390238,
+      "loss": 0.3548,
+      "num_input_tokens_seen": 19750544,
+      "step": 21285
+    },
+    {
+      "epoch": 10.037718057520038,
+      "grad_norm": 0.0002551689394749701,
+      "learning_rate": 0.13484025312733275,
+      "loss": 0.4001,
+      "num_input_tokens_seen": 19755408,
+      "step": 21290
+    },
+    {
+      "epoch": 10.04007543611504,
+      "grad_norm": 0.0005856193602085114,
+      "learning_rate": 0.13478165103858658,
+      "loss": 0.2786,
+      "num_input_tokens_seen": 19760080,
+      "step": 21295
+    },
+    {
+      "epoch": 10.042432814710043,
+      "grad_norm": 0.0006617398466914892,
+      "learning_rate": 0.13472305129670106,
+      "loss": 0.2857,
+      "num_input_tokens_seen": 19764736,
+      "step": 21300
+    },
+    {
+      "epoch": 10.044790193305046,
+      "grad_norm": 0.0009530726238153875,
+      "learning_rate": 0.13466445391071305,
+      "loss": 0.3544,
+      "num_input_tokens_seen": 19769536,
+      "step": 21305
+    },
+    {
+      "epoch": 10.047147571900048,
+      "grad_norm": 0.000720711424946785,
+      "learning_rate": 0.13460585888965895,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 19773872,
+      "step": 21310
+    },
+    {
+      "epoch": 10.049504950495049,
+      "grad_norm": 0.0007549019064754248,
+      "learning_rate": 0.13454726624257482,
+      "loss": 0.3785,
+      "num_input_tokens_seen": 19778672,
+      "step": 21315
+    },
+    {
+      "epoch": 10.051862329090051,
+      "grad_norm": 0.0010422976920381188,
+      "learning_rate": 0.1344886759784965,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 19783344,
+      "step": 21320
+    },
+    {
+      "epoch": 10.054219707685053,
+      "grad_norm": 0.0006688429275527596,
+      "learning_rate": 0.13443008810645923,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 19788144,
+      "step": 21325
+    },
+    {
+      "epoch": 10.056577086280056,
+      "grad_norm": 0.0003348552854731679,
+      "learning_rate": 0.13437150263549807,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 19792912,
+      "step": 21330
+    },
+    {
+      "epoch": 10.058934464875058,
+      "grad_norm": 0.0005105366581119597,
+      "learning_rate": 0.13431291957464755,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 19797648,
+      "step": 21335
+    },
+    {
+      "epoch": 10.06129184347006,
+      "grad_norm": 0.00031560129718855023,
+      "learning_rate": 0.13425433893294197,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 19802704,
+      "step": 21340
+    },
+    {
+      "epoch": 10.063649222065063,
+      "grad_norm": 0.0007355795823968947,
+      "learning_rate": 0.13419576071941525,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 19807856,
+      "step": 21345
+    },
+    {
+      "epoch": 10.066006600660065,
+      "grad_norm": 0.00042954806121997535,
+      "learning_rate": 0.1341371849431008,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 19812688,
+      "step": 21350
+    },
+    {
+      "epoch": 10.068363979255068,
+      "grad_norm": 0.00032662678859196603,
+      "learning_rate": 0.13407861161303178,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 19817008,
+      "step": 21355
+    },
+    {
+      "epoch": 10.07072135785007,
+      "grad_norm": 0.00048692282871343195,
+      "learning_rate": 0.13402004073824098,
+      "loss": 0.3551,
+      "num_input_tokens_seen": 19821408,
+      "step": 21360
+    },
+    {
+      "epoch": 10.073078736445073,
+      "grad_norm": 0.0006199581548571587,
+      "learning_rate": 0.13396147232776062,
+      "loss": 0.3338,
+      "num_input_tokens_seen": 19826464,
+      "step": 21365
+    },
+    {
+      "epoch": 10.075436115040075,
+      "grad_norm": 0.00037262478144839406,
+      "learning_rate": 0.13390290639062288,
+      "loss": 0.299,
+      "num_input_tokens_seen": 19831600,
+      "step": 21370
+    },
+    {
+      "epoch": 10.077793493635077,
+      "grad_norm": 0.00043163125519640744,
+      "learning_rate": 0.13384434293585917,
+      "loss": 0.2989,
+      "num_input_tokens_seen": 19836336,
+      "step": 21375
+    },
+    {
+      "epoch": 10.08015087223008,
+      "grad_norm": 0.0005743771907873452,
+      "learning_rate": 0.13378578197250088,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 19840992,
+      "step": 21380
+    },
+    {
+      "epoch": 10.082508250825082,
+      "grad_norm": 0.00040385391912423074,
+      "learning_rate": 0.13372722350957872,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 19847136,
+      "step": 21385
+    },
+    {
+      "epoch": 10.084865629420085,
+      "grad_norm": 0.00032060741796158254,
+      "learning_rate": 0.13366866755612322,
+      "loss": 0.3796,
+      "num_input_tokens_seen": 19851264,
+      "step": 21390
+    },
+    {
+      "epoch": 10.087223008015087,
+      "grad_norm": 0.0005558498669415712,
+      "learning_rate": 0.13361011412116436,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 19856640,
+      "step": 21395
+    },
+    {
+      "epoch": 10.08958038661009,
+      "grad_norm": 0.00027873090584762394,
+      "learning_rate": 0.13355156321373196,
+      "loss": 0.324,
+      "num_input_tokens_seen": 19860880,
+      "step": 21400
+    },
+    {
+      "epoch": 10.08958038661009,
+      "eval_loss": 0.326662540435791,
+      "eval_runtime": 33.6386,
+      "eval_samples_per_second": 28.033,
+      "eval_steps_per_second": 14.032,
+      "num_input_tokens_seen": 19860880,
+      "step": 21400
+    },
+    {
+      "epoch": 10.091937765205092,
+      "grad_norm": 0.00047071470180526376,
+      "learning_rate": 0.13349301484285514,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 19866544,
+      "step": 21405
+    },
+    {
+      "epoch": 10.094295143800094,
+      "grad_norm": 0.0003491814131848514,
+      "learning_rate": 0.13343446901756295,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 19871328,
+      "step": 21410
+    },
+    {
+      "epoch": 10.096652522395097,
+      "grad_norm": 0.0004021643253508955,
+      "learning_rate": 0.13337592574688376,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 19876208,
+      "step": 21415
+    },
+    {
+      "epoch": 10.099009900990099,
+      "grad_norm": 0.0006029870710335672,
+      "learning_rate": 0.13331738503984572,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 19880512,
+      "step": 21420
+    },
+    {
+      "epoch": 10.101367279585101,
+      "grad_norm": 0.0003568396205082536,
+      "learning_rate": 0.1332588469054766,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 19885920,
+      "step": 21425
+    },
+    {
+      "epoch": 10.103724658180104,
+      "grad_norm": 0.0003200399805791676,
+      "learning_rate": 0.1332003113528036,
+      "loss": 0.3145,
+      "num_input_tokens_seen": 19890784,
+      "step": 21430
+    },
+    {
+      "epoch": 10.106082036775106,
+      "grad_norm": 0.000467163510620594,
+      "learning_rate": 0.13314177839085373,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 19895680,
+      "step": 21435
+    },
+    {
+      "epoch": 10.108439415370109,
+      "grad_norm": 0.0002932569768745452,
+      "learning_rate": 0.13308324802865354,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 19900016,
+      "step": 21440
+    },
+    {
+      "epoch": 10.110796793965111,
+      "grad_norm": 0.0004026366223115474,
+      "learning_rate": 0.13302472027522905,
+      "loss": 0.3485,
+      "num_input_tokens_seen": 19904400,
+      "step": 21445
+    },
+    {
+      "epoch": 10.113154172560114,
+      "grad_norm": 0.0003719131927937269,
+      "learning_rate": 0.13296619513960606,
+      "loss": 0.3715,
+      "num_input_tokens_seen": 19909168,
+      "step": 21450
+    },
+    {
+      "epoch": 10.115511551155116,
+      "grad_norm": 0.0003373950894456357,
+      "learning_rate": 0.1329076726308098,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 19913760,
+      "step": 21455
+    },
+    {
+      "epoch": 10.117868929750118,
+      "grad_norm": 0.0003046811616513878,
+      "learning_rate": 0.13284915275786519,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 19917360,
+      "step": 21460
+    },
+    {
+      "epoch": 10.12022630834512,
+      "grad_norm": 0.00025385539629496634,
+      "learning_rate": 0.1327906355297968,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 19922688,
+      "step": 21465
+    },
+    {
+      "epoch": 10.122583686940123,
+      "grad_norm": 0.0003600963391363621,
+      "learning_rate": 0.13273212095562867,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 19927856,
+      "step": 21470
+    },
+    {
+      "epoch": 10.124941065535126,
+      "grad_norm": 0.0005091020721010864,
+      "learning_rate": 0.13267360904438444,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 19933488,
+      "step": 21475
+    },
+    {
+      "epoch": 10.127298444130128,
+      "grad_norm": 0.00033031139173544943,
+      "learning_rate": 0.1326150998050875,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 19938640,
+      "step": 21480
+    },
+    {
+      "epoch": 10.12965582272513,
+      "grad_norm": 0.00016271391359623522,
+      "learning_rate": 0.1325565932467606,
+      "loss": 0.2911,
+      "num_input_tokens_seen": 19942944,
+      "step": 21485
+    },
+    {
+      "epoch": 10.132013201320133,
+      "grad_norm": 0.0003256801574025303,
+      "learning_rate": 0.13249808937842628,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 19947616,
+      "step": 21490
+    },
+    {
+      "epoch": 10.134370579915135,
+      "grad_norm": 0.00023407101980410516,
+      "learning_rate": 0.1324395882091065,
+      "loss": 0.366,
+      "num_input_tokens_seen": 19951856,
+      "step": 21495
+    },
+    {
+      "epoch": 10.136727958510138,
+      "grad_norm": 0.00047703503514640033,
+      "learning_rate": 0.13238108974782284,
+      "loss": 0.308,
+      "num_input_tokens_seen": 19956464,
+      "step": 21500
+    },
+    {
+      "epoch": 10.13908533710514,
+      "grad_norm": 0.0003800627600867301,
+      "learning_rate": 0.13232259400359664,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 19960464,
+      "step": 21505
+    },
+    {
+      "epoch": 10.14144271570014,
+      "grad_norm": 0.00023690404486842453,
+      "learning_rate": 0.13226410098544852,
+      "loss": 0.2897,
+      "num_input_tokens_seen": 19965632,
+      "step": 21510
+    },
+    {
+      "epoch": 10.143800094295143,
+      "grad_norm": 0.0003475834964774549,
+      "learning_rate": 0.13220561070239892,
+      "loss": 0.3703,
+      "num_input_tokens_seen": 19970368,
+      "step": 21515
+    },
+    {
+      "epoch": 10.146157472890145,
+      "grad_norm": 0.0003897086135111749,
+      "learning_rate": 0.13214712316346783,
+      "loss": 0.2789,
+      "num_input_tokens_seen": 19975776,
+      "step": 21520
+    },
+    {
+      "epoch": 10.148514851485148,
+      "grad_norm": 0.0002156263799406588,
+      "learning_rate": 0.13208863837767465,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 19979968,
+      "step": 21525
+    },
+    {
+      "epoch": 10.15087223008015,
+      "grad_norm": 0.0004956820630468428,
+      "learning_rate": 0.13203015635403856,
+      "loss": 0.3039,
+      "num_input_tokens_seen": 19985104,
+      "step": 21530
+    },
+    {
+      "epoch": 10.153229608675153,
+      "grad_norm": 0.0005555637180805206,
+      "learning_rate": 0.13197167710157817,
+      "loss": 0.2761,
+      "num_input_tokens_seen": 19990016,
+      "step": 21535
+    },
+    {
+      "epoch": 10.155586987270155,
+      "grad_norm": 0.00045063605648465455,
+      "learning_rate": 0.13191320062931167,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 19994832,
+      "step": 21540
+    },
+    {
+      "epoch": 10.157944365865157,
+      "grad_norm": 0.0002653885749168694,
+      "learning_rate": 0.13185472694625702,
+      "loss": 0.2557,
+      "num_input_tokens_seen": 19999248,
+      "step": 21545
+    },
+    {
+      "epoch": 10.16030174446016,
+      "grad_norm": 0.0005117940017953515,
+      "learning_rate": 0.13179625606143142,
+      "loss": 0.331,
+      "num_input_tokens_seen": 20003680,
+      "step": 21550
+    },
+    {
+      "epoch": 10.162659123055162,
+      "grad_norm": 0.0005817363853566349,
+      "learning_rate": 0.13173778798385188,
+      "loss": 0.4278,
+      "num_input_tokens_seen": 20010192,
+      "step": 21555
+    },
+    {
+      "epoch": 10.165016501650165,
+      "grad_norm": 0.00017367670079693198,
+      "learning_rate": 0.13167932272253505,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 20014608,
+      "step": 21560
+    },
+    {
+      "epoch": 10.167373880245167,
+      "grad_norm": 0.0006002841982990503,
+      "learning_rate": 0.1316208602864968,
+      "loss": 0.3626,
+      "num_input_tokens_seen": 20019072,
+      "step": 21565
+    },
+    {
+      "epoch": 10.16973125884017,
+      "grad_norm": 0.000863925029989332,
+      "learning_rate": 0.13156240068475292,
+      "loss": 0.3595,
+      "num_input_tokens_seen": 20024512,
+      "step": 21570
+    },
+    {
+      "epoch": 10.172088637435172,
+      "grad_norm": 0.0002622583124320954,
+      "learning_rate": 0.1315039439263185,
+      "loss": 0.2533,
+      "num_input_tokens_seen": 20030160,
+      "step": 21575
+    },
+    {
+      "epoch": 10.174446016030174,
+      "grad_norm": 0.0005160214495845139,
+      "learning_rate": 0.13144549002020833,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 20034752,
+      "step": 21580
+    },
+    {
+      "epoch": 10.176803394625177,
+      "grad_norm": 0.0005540588172152638,
+      "learning_rate": 0.13138703897543688,
+      "loss": 0.3848,
+      "num_input_tokens_seen": 20039184,
+      "step": 21585
+    },
+    {
+      "epoch": 10.179160773220179,
+      "grad_norm": 0.00031301353010348976,
+      "learning_rate": 0.1313285908010178,
+      "loss": 0.2707,
+      "num_input_tokens_seen": 20043712,
+      "step": 21590
+    },
+    {
+      "epoch": 10.181518151815181,
+      "grad_norm": 0.00017856041085906327,
+      "learning_rate": 0.13127014550596475,
+      "loss": 0.2699,
+      "num_input_tokens_seen": 20048544,
+      "step": 21595
+    },
+    {
+      "epoch": 10.183875530410184,
+      "grad_norm": 0.00022141990484669805,
+      "learning_rate": 0.1312117030992906,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 20052672,
+      "step": 21600
+    },
+    {
+      "epoch": 10.183875530410184,
+      "eval_loss": 0.3266209065914154,
+      "eval_runtime": 33.6566,
+      "eval_samples_per_second": 28.018,
+      "eval_steps_per_second": 14.024,
+      "num_input_tokens_seen": 20052672,
+      "step": 21600
+    },
+    {
+      "epoch": 10.186232909005186,
+      "grad_norm": 0.00045270242844708264,
+      "learning_rate": 0.13115326359000795,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 20058064,
+      "step": 21605
+    },
+    {
+      "epoch": 10.188590287600189,
+      "grad_norm": 0.0002974230737891048,
+      "learning_rate": 0.13109482698712896,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 20062640,
+      "step": 21610
+    },
+    {
+      "epoch": 10.190947666195191,
+      "grad_norm": 0.0002087033644784242,
+      "learning_rate": 0.1310363932996651,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 20066800,
+      "step": 21615
+    },
+    {
+      "epoch": 10.193305044790193,
+      "grad_norm": 0.00036285712849348783,
+      "learning_rate": 0.13097796253662775,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 20071456,
+      "step": 21620
+    },
+    {
+      "epoch": 10.195662423385196,
+      "grad_norm": 0.00044465731480158865,
+      "learning_rate": 0.1309195347070277,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 20076192,
+      "step": 21625
+    },
+    {
+      "epoch": 10.198019801980198,
+      "grad_norm": 0.0002915556251537055,
+      "learning_rate": 0.13086110981987506,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 20081568,
+      "step": 21630
+    },
+    {
+      "epoch": 10.2003771805752,
+      "grad_norm": 0.0002688919776119292,
+      "learning_rate": 0.13080268788417987,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 20085776,
+      "step": 21635
+    },
+    {
+      "epoch": 10.202734559170203,
+      "grad_norm": 0.00022029867977835238,
+      "learning_rate": 0.1307442689089515,
+      "loss": 0.3665,
+      "num_input_tokens_seen": 20089296,
+      "step": 21640
+    },
+    {
+      "epoch": 10.205091937765205,
+      "grad_norm": 0.0009095919667743146,
+      "learning_rate": 0.13068585290319873,
+      "loss": 0.2903,
+      "num_input_tokens_seen": 20093648,
+      "step": 21645
+    },
+    {
+      "epoch": 10.207449316360208,
+      "grad_norm": 0.0003635133907664567,
+      "learning_rate": 0.13062743987593026,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 20097744,
+      "step": 21650
+    },
+    {
+      "epoch": 10.20980669495521,
+      "grad_norm": 0.00044120909296907485,
+      "learning_rate": 0.13056902983615395,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 20102256,
+      "step": 21655
+    },
+    {
+      "epoch": 10.212164073550213,
+      "grad_norm": 0.000503772811498493,
+      "learning_rate": 0.13051062279287742,
+      "loss": 0.3524,
+      "num_input_tokens_seen": 20107088,
+      "step": 21660
+    },
+    {
+      "epoch": 10.214521452145215,
+      "grad_norm": 0.0007493654265999794,
+      "learning_rate": 0.13045221875510782,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 20111440,
+      "step": 21665
+    },
+    {
+      "epoch": 10.216878830740217,
+      "grad_norm": 0.0007394854910671711,
+      "learning_rate": 0.13039381773185174,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 20115776,
+      "step": 21670
+    },
+    {
+      "epoch": 10.21923620933522,
+      "grad_norm": 0.0005437936051748693,
+      "learning_rate": 0.1303354197321153,
+      "loss": 0.325,
+      "num_input_tokens_seen": 20120624,
+      "step": 21675
+    },
+    {
+      "epoch": 10.221593587930222,
+      "grad_norm": 0.0008994879317469895,
+      "learning_rate": 0.13027702476490433,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 20124704,
+      "step": 21680
+    },
+    {
+      "epoch": 10.223950966525225,
+      "grad_norm": 0.0016998440260067582,
+      "learning_rate": 0.1302186328392239,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 20129776,
+      "step": 21685
+    },
+    {
+      "epoch": 10.226308345120227,
+      "grad_norm": 0.00052512192633003,
+      "learning_rate": 0.130160243964079,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 20134352,
+      "step": 21690
+    },
+    {
+      "epoch": 10.22866572371523,
+      "grad_norm": 0.0016563128447160125,
+      "learning_rate": 0.13010185814847372,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 20138688,
+      "step": 21695
+    },
+    {
+      "epoch": 10.231023102310232,
+      "grad_norm": 0.0008909815223887563,
+      "learning_rate": 0.13004347540141192,
+      "loss": 0.2874,
+      "num_input_tokens_seen": 20143984,
+      "step": 21700
+    },
+    {
+      "epoch": 10.233380480905234,
+      "grad_norm": 0.00023667243658564985,
+      "learning_rate": 0.12998509573189712,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 20148688,
+      "step": 21705
+    },
+    {
+      "epoch": 10.235737859500237,
+      "grad_norm": 0.00023429159773513675,
+      "learning_rate": 0.12992671914893203,
+      "loss": 0.316,
+      "num_input_tokens_seen": 20154528,
+      "step": 21710
+    },
+    {
+      "epoch": 10.238095238095237,
+      "grad_norm": 0.0006362402928061783,
+      "learning_rate": 0.12986834566151909,
+      "loss": 0.3806,
+      "num_input_tokens_seen": 20159072,
+      "step": 21715
+    },
+    {
+      "epoch": 10.24045261669024,
+      "grad_norm": 0.00024170393589884043,
+      "learning_rate": 0.12980997527866028,
+      "loss": 0.3029,
+      "num_input_tokens_seen": 20164208,
+      "step": 21720
+    },
+    {
+      "epoch": 10.242809995285242,
+      "grad_norm": 0.00024050298088695854,
+      "learning_rate": 0.12975160800935692,
+      "loss": 0.3683,
+      "num_input_tokens_seen": 20169152,
+      "step": 21725
+    },
+    {
+      "epoch": 10.245167373880244,
+      "grad_norm": 0.00021312080207280815,
+      "learning_rate": 0.12969324386261016,
+      "loss": 0.2815,
+      "num_input_tokens_seen": 20173856,
+      "step": 21730
+    },
+    {
+      "epoch": 10.247524752475247,
+      "grad_norm": 0.0002488105383235961,
+      "learning_rate": 0.12963488284742034,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 20178432,
+      "step": 21735
+    },
+    {
+      "epoch": 10.24988213107025,
+      "grad_norm": 0.0006744684651494026,
+      "learning_rate": 0.12957652497278752,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 20182544,
+      "step": 21740
+    },
+    {
+      "epoch": 10.252239509665252,
+      "grad_norm": 0.0003603984951041639,
+      "learning_rate": 0.12951817024771117,
+      "loss": 0.2837,
+      "num_input_tokens_seen": 20187392,
+      "step": 21745
+    },
+    {
+      "epoch": 10.254596888260254,
+      "grad_norm": 0.0006515380810014904,
+      "learning_rate": 0.12945981868119041,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 20191728,
+      "step": 21750
+    },
+    {
+      "epoch": 10.256954266855256,
+      "grad_norm": 0.0003320193209219724,
+      "learning_rate": 0.12940147028222376,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 20196112,
+      "step": 21755
+    },
+    {
+      "epoch": 10.259311645450259,
+      "grad_norm": 0.0005706629599444568,
+      "learning_rate": 0.12934312505980916,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 20200432,
+      "step": 21760
+    },
+    {
+      "epoch": 10.261669024045261,
+      "grad_norm": 0.0002140147116733715,
+      "learning_rate": 0.1292847830229443,
+      "loss": 0.2947,
+      "num_input_tokens_seen": 20204992,
+      "step": 21765
+    },
+    {
+      "epoch": 10.264026402640264,
+      "grad_norm": 0.00023206968035083264,
+      "learning_rate": 0.12922644418062626,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 20209072,
+      "step": 21770
+    },
+    {
+      "epoch": 10.266383781235266,
+      "grad_norm": 0.0007838721503503621,
+      "learning_rate": 0.1291681085418515,
+      "loss": 0.3441,
+      "num_input_tokens_seen": 20213248,
+      "step": 21775
+    },
+    {
+      "epoch": 10.268741159830268,
+      "grad_norm": 0.001237295800819993,
+      "learning_rate": 0.12910977611561628,
+      "loss": 0.3822,
+      "num_input_tokens_seen": 20218272,
+      "step": 21780
+    },
+    {
+      "epoch": 10.27109853842527,
+      "grad_norm": 0.0003168810799252242,
+      "learning_rate": 0.1290514469109161,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 20223152,
+      "step": 21785
+    },
+    {
+      "epoch": 10.273455917020273,
+      "grad_norm": 0.0004405510553624481,
+      "learning_rate": 0.128993120936746,
+      "loss": 0.2913,
+      "num_input_tokens_seen": 20227680,
+      "step": 21790
+    },
+    {
+      "epoch": 10.275813295615276,
+      "grad_norm": 0.0005129169439896941,
+      "learning_rate": 0.12893479820210071,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 20231520,
+      "step": 21795
+    },
+    {
+      "epoch": 10.278170674210278,
+      "grad_norm": 0.0005347387050278485,
+      "learning_rate": 0.1288764787159742,
+      "loss": 0.335,
+      "num_input_tokens_seen": 20236224,
+      "step": 21800
+    },
+    {
+      "epoch": 10.278170674210278,
+      "eval_loss": 0.32749682664871216,
+      "eval_runtime": 33.5676,
+      "eval_samples_per_second": 28.093,
+      "eval_steps_per_second": 14.061,
+      "num_input_tokens_seen": 20236224,
+      "step": 21800
+    },
+    {
+      "epoch": 10.28052805280528,
+      "grad_norm": 0.0003271040040999651,
+      "learning_rate": 0.1288181624873601,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 20241152,
+      "step": 21805
+    },
+    {
+      "epoch": 10.282885431400283,
+      "grad_norm": 0.00022330274805426598,
+      "learning_rate": 0.12875984952525163,
+      "loss": 0.2922,
+      "num_input_tokens_seen": 20246688,
+      "step": 21810
+    },
+    {
+      "epoch": 10.285242809995285,
+      "grad_norm": 0.0005256006843410432,
+      "learning_rate": 0.12870153983864122,
+      "loss": 0.302,
+      "num_input_tokens_seen": 20251440,
+      "step": 21815
+    },
+    {
+      "epoch": 10.287600188590288,
+      "grad_norm": 0.000339162303134799,
+      "learning_rate": 0.12864323343652104,
+      "loss": 0.2958,
+      "num_input_tokens_seen": 20256096,
+      "step": 21820
+    },
+    {
+      "epoch": 10.28995756718529,
+      "grad_norm": 0.0003298511146567762,
+      "learning_rate": 0.12858493032788268,
+      "loss": 0.3899,
+      "num_input_tokens_seen": 20261280,
+      "step": 21825
+    },
+    {
+      "epoch": 10.292314945780292,
+      "grad_norm": 0.0004887924296781421,
+      "learning_rate": 0.12852663052171714,
+      "loss": 0.2963,
+      "num_input_tokens_seen": 20265840,
+      "step": 21830
+    },
+    {
+      "epoch": 10.294672324375295,
+      "grad_norm": 0.0007735456456430256,
+      "learning_rate": 0.12846833402701507,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 20270384,
+      "step": 21835
+    },
+    {
+      "epoch": 10.297029702970297,
+      "grad_norm": 0.000337786041200161,
+      "learning_rate": 0.12841004085276642,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 20274624,
+      "step": 21840
+    },
+    {
+      "epoch": 10.2993870815653,
+      "grad_norm": 0.0005040511023253202,
+      "learning_rate": 0.12835175100796076,
+      "loss": 0.3781,
+      "num_input_tokens_seen": 20280064,
+      "step": 21845
+    },
+    {
+      "epoch": 10.301744460160302,
+      "grad_norm": 0.0004882988287135959,
+      "learning_rate": 0.12829346450158724,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 20285104,
+      "step": 21850
+    },
+    {
+      "epoch": 10.304101838755304,
+      "grad_norm": 0.0006952317780815065,
+      "learning_rate": 0.12823518134263423,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 20289584,
+      "step": 21855
+    },
+    {
+      "epoch": 10.306459217350307,
+      "grad_norm": 0.001987326657399535,
+      "learning_rate": 0.12817690154008973,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 20294288,
+      "step": 21860
+    },
+    {
+      "epoch": 10.30881659594531,
+      "grad_norm": 0.0004723917809315026,
+      "learning_rate": 0.12811862510294134,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 20298560,
+      "step": 21865
+    },
+    {
+      "epoch": 10.311173974540312,
+      "grad_norm": 0.0005963409203104675,
+      "learning_rate": 0.12806035204017585,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 20302960,
+      "step": 21870
+    },
+    {
+      "epoch": 10.313531353135314,
+      "grad_norm": 0.0006474296096712351,
+      "learning_rate": 0.12800208236077987,
+      "loss": 0.4069,
+      "num_input_tokens_seen": 20308464,
+      "step": 21875
+    },
+    {
+      "epoch": 10.315888731730317,
+      "grad_norm": 0.0003174856537953019,
+      "learning_rate": 0.12794381607373917,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 20312624,
+      "step": 21880
+    },
+    {
+      "epoch": 10.318246110325319,
+      "grad_norm": 0.00029365168302319944,
+      "learning_rate": 0.12788555318803924,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 20317392,
+      "step": 21885
+    },
+    {
+      "epoch": 10.320603488920321,
+      "grad_norm": 0.0005732022109441459,
+      "learning_rate": 0.1278272937126649,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 20321808,
+      "step": 21890
+    },
+    {
+      "epoch": 10.322960867515324,
+      "grad_norm": 0.000534434977453202,
+      "learning_rate": 0.1277690376566005,
+      "loss": 0.3836,
+      "num_input_tokens_seen": 20327120,
+      "step": 21895
+    },
+    {
+      "epoch": 10.325318246110326,
+      "grad_norm": 0.0006899546715430915,
+      "learning_rate": 0.12771078502882985,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 20330976,
+      "step": 21900
+    },
+    {
+      "epoch": 10.327675624705329,
+      "grad_norm": 0.000327753514284268,
+      "learning_rate": 0.12765253583833633,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 20334864,
+      "step": 21905
+    },
+    {
+      "epoch": 10.33003300330033,
+      "grad_norm": 0.0003384822339285165,
+      "learning_rate": 0.12759429009410256,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 20339168,
+      "step": 21910
+    },
+    {
+      "epoch": 10.332390381895332,
+      "grad_norm": 0.0002563666785135865,
+      "learning_rate": 0.12753604780511085,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 20343696,
+      "step": 21915
+    },
+    {
+      "epoch": 10.334747760490334,
+      "grad_norm": 0.000403754529543221,
+      "learning_rate": 0.12747780898034283,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 20347872,
+      "step": 21920
+    },
+    {
+      "epoch": 10.337105139085336,
+      "grad_norm": 0.0002730624401010573,
+      "learning_rate": 0.12741957362877973,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 20353504,
+      "step": 21925
+    },
+    {
+      "epoch": 10.339462517680339,
+      "grad_norm": 0.00022851339599583298,
+      "learning_rate": 0.12736134175940214,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 20357856,
+      "step": 21930
+    },
+    {
+      "epoch": 10.341819896275341,
+      "grad_norm": 0.0005106625612825155,
+      "learning_rate": 0.12730311338119016,
+      "loss": 0.4142,
+      "num_input_tokens_seen": 20362976,
+      "step": 21935
+    },
+    {
+      "epoch": 10.344177274870344,
+      "grad_norm": 0.0003400065179448575,
+      "learning_rate": 0.12724488850312327,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 20366944,
+      "step": 21940
+    },
+    {
+      "epoch": 10.346534653465346,
+      "grad_norm": 0.00030691231950186193,
+      "learning_rate": 0.1271866671341806,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 20371616,
+      "step": 21945
+    },
+    {
+      "epoch": 10.348892032060348,
+      "grad_norm": 0.00021460810967255384,
+      "learning_rate": 0.12712844928334047,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 20375744,
+      "step": 21950
+    },
+    {
+      "epoch": 10.35124941065535,
+      "grad_norm": 0.0007700019050389528,
+      "learning_rate": 0.12707023495958095,
+      "loss": 0.3512,
+      "num_input_tokens_seen": 20380320,
+      "step": 21955
+    },
+    {
+      "epoch": 10.353606789250353,
+      "grad_norm": 0.0005225058412179351,
+      "learning_rate": 0.12701202417187932,
+      "loss": 0.3148,
+      "num_input_tokens_seen": 20383936,
+      "step": 21960
+    },
+    {
+      "epoch": 10.355964167845356,
+      "grad_norm": 0.0005559667479246855,
+      "learning_rate": 0.12695381692921243,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 20388816,
+      "step": 21965
+    },
+    {
+      "epoch": 10.358321546440358,
+      "grad_norm": 0.0002971394278574735,
+      "learning_rate": 0.12689561324055665,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 20394320,
+      "step": 21970
+    },
+    {
+      "epoch": 10.36067892503536,
+      "grad_norm": 0.0004413858987390995,
+      "learning_rate": 0.12683741311488758,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 20399280,
+      "step": 21975
+    },
+    {
+      "epoch": 10.363036303630363,
+      "grad_norm": 0.00027839114773087204,
+      "learning_rate": 0.1267792165611805,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 20403728,
+      "step": 21980
+    },
+    {
+      "epoch": 10.365393682225365,
+      "grad_norm": 0.0006095585413277149,
+      "learning_rate": 0.1267210235884101,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 20408016,
+      "step": 21985
+    },
+    {
+      "epoch": 10.367751060820368,
+      "grad_norm": 0.0003357972018420696,
+      "learning_rate": 0.12666283420555033,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 20412688,
+      "step": 21990
+    },
+    {
+      "epoch": 10.37010843941537,
+      "grad_norm": 0.00023882935056462884,
+      "learning_rate": 0.12660464842157487,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 20417872,
+      "step": 21995
+    },
+    {
+      "epoch": 10.372465818010372,
+      "grad_norm": 0.00029437209013849497,
+      "learning_rate": 0.1265464662454566,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 20421632,
+      "step": 22000
+    },
+    {
+      "epoch": 10.372465818010372,
+      "eval_loss": 0.3287336528301239,
+      "eval_runtime": 33.6073,
+      "eval_samples_per_second": 28.059,
+      "eval_steps_per_second": 14.045,
+      "num_input_tokens_seen": 20421632,
+      "step": 22000
+    },
+    {
+      "epoch": 10.374823196605375,
+      "grad_norm": 0.0003456748672761023,
+      "learning_rate": 0.12648828768616793,
+      "loss": 0.2886,
+      "num_input_tokens_seen": 20425952,
+      "step": 22005
+    },
+    {
+      "epoch": 10.377180575200377,
+      "grad_norm": 0.000428879662649706,
+      "learning_rate": 0.12643011275268085,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 20430256,
+      "step": 22010
+    },
+    {
+      "epoch": 10.37953795379538,
+      "grad_norm": 0.00042265394586138427,
+      "learning_rate": 0.1263719414539665,
+      "loss": 0.2851,
+      "num_input_tokens_seen": 20434528,
+      "step": 22015
+    },
+    {
+      "epoch": 10.381895332390382,
+      "grad_norm": 0.0002838803338818252,
+      "learning_rate": 0.1263137737989957,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 20438400,
+      "step": 22020
+    },
+    {
+      "epoch": 10.384252710985384,
+      "grad_norm": 0.0005452838959172368,
+      "learning_rate": 0.1262556097967387,
+      "loss": 0.3614,
+      "num_input_tokens_seen": 20443664,
+      "step": 22025
+    },
+    {
+      "epoch": 10.386610089580387,
+      "grad_norm": 0.00037004100158810616,
+      "learning_rate": 0.126197449456165,
+      "loss": 0.318,
+      "num_input_tokens_seen": 20448752,
+      "step": 22030
+    },
+    {
+      "epoch": 10.38896746817539,
+      "grad_norm": 0.0006482686731033027,
+      "learning_rate": 0.12613929278624378,
+      "loss": 0.3616,
+      "num_input_tokens_seen": 20453888,
+      "step": 22035
+    },
+    {
+      "epoch": 10.391324846770392,
+      "grad_norm": 0.0001922630035551265,
+      "learning_rate": 0.12608113979594343,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 20459360,
+      "step": 22040
+    },
+    {
+      "epoch": 10.393682225365394,
+      "grad_norm": 0.00038079495425336063,
+      "learning_rate": 0.1260229904942319,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 20463712,
+      "step": 22045
+    },
+    {
+      "epoch": 10.396039603960396,
+      "grad_norm": 0.00026088941376656294,
+      "learning_rate": 0.12596484489007662,
+      "loss": 0.3006,
+      "num_input_tokens_seen": 20468784,
+      "step": 22050
+    },
+    {
+      "epoch": 10.398396982555399,
+      "grad_norm": 0.0002898560487665236,
+      "learning_rate": 0.1259067029924442,
+      "loss": 0.3029,
+      "num_input_tokens_seen": 20473184,
+      "step": 22055
+    },
+    {
+      "epoch": 10.400754361150401,
+      "grad_norm": 0.0002336490579182282,
+      "learning_rate": 0.12584856481030096,
+      "loss": 0.2958,
+      "num_input_tokens_seen": 20477744,
+      "step": 22060
+    },
+    {
+      "epoch": 10.403111739745404,
+      "grad_norm": 0.0002550782810430974,
+      "learning_rate": 0.12579043035261261,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 20481664,
+      "step": 22065
+    },
+    {
+      "epoch": 10.405469118340406,
+      "grad_norm": 0.00040943262865766883,
+      "learning_rate": 0.1257322996283441,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 20486992,
+      "step": 22070
+    },
+    {
+      "epoch": 10.407826496935408,
+      "grad_norm": 0.000300951098324731,
+      "learning_rate": 0.12567417264645994,
+      "loss": 0.3005,
+      "num_input_tokens_seen": 20491088,
+      "step": 22075
+    },
+    {
+      "epoch": 10.41018387553041,
+      "grad_norm": 0.0002935974334832281,
+      "learning_rate": 0.12561604941592408,
+      "loss": 0.3767,
+      "num_input_tokens_seen": 20495904,
+      "step": 22080
+    },
+    {
+      "epoch": 10.412541254125413,
+      "grad_norm": 0.00039376853965222836,
+      "learning_rate": 0.12555792994569978,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 20500528,
+      "step": 22085
+    },
+    {
+      "epoch": 10.414898632720416,
+      "grad_norm": 0.00022498227190226316,
+      "learning_rate": 0.1254998142447499,
+      "loss": 0.3701,
+      "num_input_tokens_seen": 20505312,
+      "step": 22090
+    },
+    {
+      "epoch": 10.417256011315418,
+      "grad_norm": 0.00019947155669797212,
+      "learning_rate": 0.1254417023220365,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 20510352,
+      "step": 22095
+    },
+    {
+      "epoch": 10.41961338991042,
+      "grad_norm": 0.0004043800290673971,
+      "learning_rate": 0.12538359418652126,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 20516864,
+      "step": 22100
+    },
+    {
+      "epoch": 10.421970768505423,
+      "grad_norm": 0.00036359461955726147,
+      "learning_rate": 0.12532548984716513,
+      "loss": 0.3158,
+      "num_input_tokens_seen": 20521600,
+      "step": 22105
+    },
+    {
+      "epoch": 10.424328147100425,
+      "grad_norm": 0.000504600175190717,
+      "learning_rate": 0.12526738931292855,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 20526016,
+      "step": 22110
+    },
+    {
+      "epoch": 10.426685525695426,
+      "grad_norm": 0.0004976783529855311,
+      "learning_rate": 0.1252092925927714,
+      "loss": 0.4068,
+      "num_input_tokens_seen": 20530176,
+      "step": 22115
+    },
+    {
+      "epoch": 10.429042904290428,
+      "grad_norm": 0.0006978310993872583,
+      "learning_rate": 0.12515119969565278,
+      "loss": 0.3769,
+      "num_input_tokens_seen": 20534688,
+      "step": 22120
+    },
+    {
+      "epoch": 10.43140028288543,
+      "grad_norm": 0.0002344524982618168,
+      "learning_rate": 0.12509311063053144,
+      "loss": 0.3655,
+      "num_input_tokens_seen": 20538784,
+      "step": 22125
+    },
+    {
+      "epoch": 10.433757661480433,
+      "grad_norm": 0.00030164714553393424,
+      "learning_rate": 0.1250350254063655,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 20542832,
+      "step": 22130
+    },
+    {
+      "epoch": 10.436115040075435,
+      "grad_norm": 0.0003101231704931706,
+      "learning_rate": 0.1249769440321123,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 20547552,
+      "step": 22135
+    },
+    {
+      "epoch": 10.438472418670438,
+      "grad_norm": 0.0005830335430800915,
+      "learning_rate": 0.12491886651672884,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 20552000,
+      "step": 22140
+    },
+    {
+      "epoch": 10.44082979726544,
+      "grad_norm": 0.0003989783290307969,
+      "learning_rate": 0.12486079286917139,
+      "loss": 0.3804,
+      "num_input_tokens_seen": 20557040,
+      "step": 22145
+    },
+    {
+      "epoch": 10.443187175860443,
+      "grad_norm": 0.00031890039099380374,
+      "learning_rate": 0.12480272309839553,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 20561664,
+      "step": 22150
+    },
+    {
+      "epoch": 10.445544554455445,
+      "grad_norm": 0.00022509355039801449,
+      "learning_rate": 0.12474465721335648,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 20566080,
+      "step": 22155
+    },
+    {
+      "epoch": 10.447901933050447,
+      "grad_norm": 0.0003141505876556039,
+      "learning_rate": 0.12468659522300861,
+      "loss": 0.3688,
+      "num_input_tokens_seen": 20570720,
+      "step": 22160
+    },
+    {
+      "epoch": 10.45025931164545,
+      "grad_norm": 0.0002631835814099759,
+      "learning_rate": 0.12462853713630584,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 20575056,
+      "step": 22165
+    },
+    {
+      "epoch": 10.452616690240452,
+      "grad_norm": 0.0003997941967099905,
+      "learning_rate": 0.12457048296220156,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 20579600,
+      "step": 22170
+    },
+    {
+      "epoch": 10.454974068835455,
+      "grad_norm": 0.000779474270530045,
+      "learning_rate": 0.12451243270964832,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 20584192,
+      "step": 22175
+    },
+    {
+      "epoch": 10.457331447430457,
+      "grad_norm": 0.0002588582574389875,
+      "learning_rate": 0.12445438638759827,
+      "loss": 0.3616,
+      "num_input_tokens_seen": 20589152,
+      "step": 22180
+    },
+    {
+      "epoch": 10.45968882602546,
+      "grad_norm": 0.00022302038269117475,
+      "learning_rate": 0.1243963440050029,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 20594208,
+      "step": 22185
+    },
+    {
+      "epoch": 10.462046204620462,
+      "grad_norm": 0.00048072534264065325,
+      "learning_rate": 0.12433830557081298,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 20598656,
+      "step": 22190
+    },
+    {
+      "epoch": 10.464403583215464,
+      "grad_norm": 0.000227668002480641,
+      "learning_rate": 0.12428027109397889,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 20602864,
+      "step": 22195
+    },
+    {
+      "epoch": 10.466760961810467,
+      "grad_norm": 0.00021946757624391466,
+      "learning_rate": 0.12422224058345015,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 20608320,
+      "step": 22200
+    },
+    {
+      "epoch": 10.466760961810467,
+      "eval_loss": 0.3282213807106018,
+      "eval_runtime": 33.5993,
+      "eval_samples_per_second": 28.066,
+      "eval_steps_per_second": 14.048,
+      "num_input_tokens_seen": 20608320,
+      "step": 22200
+    },
+    {
+      "epoch": 10.469118340405469,
+      "grad_norm": 0.00020163778390269727,
+      "learning_rate": 0.12416421404817583,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 20612224,
+      "step": 22205
+    },
+    {
+      "epoch": 10.471475719000471,
+      "grad_norm": 0.0005641618627123535,
+      "learning_rate": 0.12410619149710447,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 20616704,
+      "step": 22210
+    },
+    {
+      "epoch": 10.473833097595474,
+      "grad_norm": 0.0002363797539146617,
+      "learning_rate": 0.12404817293918374,
+      "loss": 0.382,
+      "num_input_tokens_seen": 20620688,
+      "step": 22215
+    },
+    {
+      "epoch": 10.476190476190476,
+      "grad_norm": 0.00029295412241481245,
+      "learning_rate": 0.12399015838336086,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 20624784,
+      "step": 22220
+    },
+    {
+      "epoch": 10.478547854785479,
+      "grad_norm": 0.0005882316036149859,
+      "learning_rate": 0.12393214783858246,
+      "loss": 0.3019,
+      "num_input_tokens_seen": 20629792,
+      "step": 22225
+    },
+    {
+      "epoch": 10.480905233380481,
+      "grad_norm": 0.00041774180135689676,
+      "learning_rate": 0.1238741413137944,
+      "loss": 0.3762,
+      "num_input_tokens_seen": 20634272,
+      "step": 22230
+    },
+    {
+      "epoch": 10.483262611975483,
+      "grad_norm": 0.0001983655383810401,
+      "learning_rate": 0.12381613881794212,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 20638496,
+      "step": 22235
+    },
+    {
+      "epoch": 10.485619990570486,
+      "grad_norm": 0.00023409188725054264,
+      "learning_rate": 0.12375814035997022,
+      "loss": 0.2815,
+      "num_input_tokens_seen": 20643440,
+      "step": 22240
+    },
+    {
+      "epoch": 10.487977369165488,
+      "grad_norm": 0.00042943848529830575,
+      "learning_rate": 0.12370014594882285,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 20648432,
+      "step": 22245
+    },
+    {
+      "epoch": 10.49033474776049,
+      "grad_norm": 0.0002523224684409797,
+      "learning_rate": 0.12364215559344356,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 20652880,
+      "step": 22250
+    },
+    {
+      "epoch": 10.492692126355493,
+      "grad_norm": 0.0004227451572660357,
+      "learning_rate": 0.12358416930277506,
+      "loss": 0.3422,
+      "num_input_tokens_seen": 20657840,
+      "step": 22255
+    },
+    {
+      "epoch": 10.495049504950495,
+      "grad_norm": 0.0005588291096501052,
+      "learning_rate": 0.1235261870857596,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 20663280,
+      "step": 22260
+    },
+    {
+      "epoch": 10.497406883545498,
+      "grad_norm": 0.0003316580841783434,
+      "learning_rate": 0.12346820895133884,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 20667312,
+      "step": 22265
+    },
+    {
+      "epoch": 10.4997642621405,
+      "grad_norm": 0.00025330742937512696,
+      "learning_rate": 0.12341023490845361,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 20671840,
+      "step": 22270
+    },
+    {
+      "epoch": 10.502121640735503,
+      "grad_norm": 0.0003412136575207114,
+      "learning_rate": 0.12335226496604437,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 20676640,
+      "step": 22275
+    },
+    {
+      "epoch": 10.504479019330505,
+      "grad_norm": 0.00020512969058472663,
+      "learning_rate": 0.12329429913305069,
+      "loss": 0.3826,
+      "num_input_tokens_seen": 20680384,
+      "step": 22280
+    },
+    {
+      "epoch": 10.506836397925507,
+      "grad_norm": 0.0004707430489361286,
+      "learning_rate": 0.12323633741841171,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 20685520,
+      "step": 22285
+    },
+    {
+      "epoch": 10.50919377652051,
+      "grad_norm": 0.0004600058891810477,
+      "learning_rate": 0.12317837983106583,
+      "loss": 0.3005,
+      "num_input_tokens_seen": 20690096,
+      "step": 22290
+    },
+    {
+      "epoch": 10.511551155115512,
+      "grad_norm": 0.0003227174165658653,
+      "learning_rate": 0.12312042637995087,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 20694304,
+      "step": 22295
+    },
+    {
+      "epoch": 10.513908533710515,
+      "grad_norm": 0.00037038917071186006,
+      "learning_rate": 0.12306247707400389,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 20698704,
+      "step": 22300
+    },
+    {
+      "epoch": 10.516265912305517,
+      "grad_norm": 0.0002779648930300027,
+      "learning_rate": 0.12300453192216154,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 20702896,
+      "step": 22305
+    },
+    {
+      "epoch": 10.518623290900518,
+      "grad_norm": 0.0003523591149132699,
+      "learning_rate": 0.12294659093335956,
+      "loss": 0.3444,
+      "num_input_tokens_seen": 20708064,
+      "step": 22310
+    },
+    {
+      "epoch": 10.520980669495522,
+      "grad_norm": 0.00044369895476847887,
+      "learning_rate": 0.12288865411653327,
+      "loss": 0.343,
+      "num_input_tokens_seen": 20711968,
+      "step": 22315
+    },
+    {
+      "epoch": 10.523338048090523,
+      "grad_norm": 0.00026312857517041266,
+      "learning_rate": 0.12283072148061717,
+      "loss": 0.3711,
+      "num_input_tokens_seen": 20716912,
+      "step": 22320
+    },
+    {
+      "epoch": 10.525695426685525,
+      "grad_norm": 0.00029559654649347067,
+      "learning_rate": 0.12277279303454529,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 20720752,
+      "step": 22325
+    },
+    {
+      "epoch": 10.528052805280527,
+      "grad_norm": 0.00024759973166510463,
+      "learning_rate": 0.12271486878725091,
+      "loss": 0.349,
+      "num_input_tokens_seen": 20724944,
+      "step": 22330
+    },
+    {
+      "epoch": 10.53041018387553,
+      "grad_norm": 0.00028546032262966037,
+      "learning_rate": 0.12265694874766658,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 20729248,
+      "step": 22335
+    },
+    {
+      "epoch": 10.532767562470532,
+      "grad_norm": 0.0002596615522634238,
+      "learning_rate": 0.12259903292472435,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 20732624,
+      "step": 22340
+    },
+    {
+      "epoch": 10.535124941065535,
+      "grad_norm": 0.00022844922204967588,
+      "learning_rate": 0.12254112132735567,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 20737584,
+      "step": 22345
+    },
+    {
+      "epoch": 10.537482319660537,
+      "grad_norm": 0.0006109303212724626,
+      "learning_rate": 0.12248321396449108,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 20741792,
+      "step": 22350
+    },
+    {
+      "epoch": 10.53983969825554,
+      "grad_norm": 0.000410485896281898,
+      "learning_rate": 0.12242531084506075,
+      "loss": 0.3607,
+      "num_input_tokens_seen": 20746432,
+      "step": 22355
+    },
+    {
+      "epoch": 10.542197076850542,
+      "grad_norm": 0.0005565781029872596,
+      "learning_rate": 0.122367411977994,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 20751360,
+      "step": 22360
+    },
+    {
+      "epoch": 10.544554455445544,
+      "grad_norm": 0.0003235766780562699,
+      "learning_rate": 0.12230951737221954,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 20755408,
+      "step": 22365
+    },
+    {
+      "epoch": 10.546911834040547,
+      "grad_norm": 0.0001979330845642835,
+      "learning_rate": 0.12225162703666555,
+      "loss": 0.334,
+      "num_input_tokens_seen": 20759984,
+      "step": 22370
+    },
+    {
+      "epoch": 10.549269212635549,
+      "grad_norm": 0.00025342756998725235,
+      "learning_rate": 0.1221937409802593,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 20765392,
+      "step": 22375
+    },
+    {
+      "epoch": 10.551626591230551,
+      "grad_norm": 0.0003203690575901419,
+      "learning_rate": 0.12213585921192768,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 20770720,
+      "step": 22380
+    },
+    {
+      "epoch": 10.553983969825554,
+      "grad_norm": 0.00036987909697927535,
+      "learning_rate": 0.1220779817405967,
+      "loss": 0.3622,
+      "num_input_tokens_seen": 20775776,
+      "step": 22385
+    },
+    {
+      "epoch": 10.556341348420556,
+      "grad_norm": 0.0007516179466620088,
+      "learning_rate": 0.12202010857519181,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 20780272,
+      "step": 22390
+    },
+    {
+      "epoch": 10.558698727015559,
+      "grad_norm": 0.00029158106190152466,
+      "learning_rate": 0.12196223972463785,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 20784224,
+      "step": 22395
+    },
+    {
+      "epoch": 10.561056105610561,
+      "grad_norm": 0.0005208527436479926,
+      "learning_rate": 0.12190437519785885,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 20788112,
+      "step": 22400
+    },
+    {
+      "epoch": 10.561056105610561,
+      "eval_loss": 0.3301067352294922,
+      "eval_runtime": 33.5973,
+      "eval_samples_per_second": 28.068,
+      "eval_steps_per_second": 14.049,
+      "num_input_tokens_seen": 20788112,
+      "step": 22400
+    },
+    {
+      "epoch": 10.563413484205563,
+      "grad_norm": 0.00032862837542779744,
+      "learning_rate": 0.12184651500377823,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 20791696,
+      "step": 22405
+    },
+    {
+      "epoch": 10.565770862800566,
+      "grad_norm": 0.0003797562385443598,
+      "learning_rate": 0.12178865915131885,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 20795920,
+      "step": 22410
+    },
+    {
+      "epoch": 10.568128241395568,
+      "grad_norm": 0.0004354139673523605,
+      "learning_rate": 0.1217308076494027,
+      "loss": 0.3262,
+      "num_input_tokens_seen": 20800464,
+      "step": 22415
+    },
+    {
+      "epoch": 10.57048561999057,
+      "grad_norm": 0.00031461447360925376,
+      "learning_rate": 0.12167296050695134,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 20805280,
+      "step": 22420
+    },
+    {
+      "epoch": 10.572842998585573,
+      "grad_norm": 0.00023782934295013547,
+      "learning_rate": 0.12161511773288536,
+      "loss": 0.3707,
+      "num_input_tokens_seen": 20809824,
+      "step": 22425
+    },
+    {
+      "epoch": 10.575200377180575,
+      "grad_norm": 0.000348260800819844,
+      "learning_rate": 0.121557279336125,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 20814528,
+      "step": 22430
+    },
+    {
+      "epoch": 10.577557755775578,
+      "grad_norm": 0.00037893635453656316,
+      "learning_rate": 0.12149944532558957,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 20819024,
+      "step": 22435
+    },
+    {
+      "epoch": 10.57991513437058,
+      "grad_norm": 0.0006146779633127153,
+      "learning_rate": 0.12144161571019785,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 20824512,
+      "step": 22440
+    },
+    {
+      "epoch": 10.582272512965583,
+      "grad_norm": 0.00031735721859149635,
+      "learning_rate": 0.12138379049886781,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 20829472,
+      "step": 22445
+    },
+    {
+      "epoch": 10.584629891560585,
+      "grad_norm": 0.00025298629770986736,
+      "learning_rate": 0.12132596970051697,
+      "loss": 0.3521,
+      "num_input_tokens_seen": 20834016,
+      "step": 22450
+    },
+    {
+      "epoch": 10.586987270155587,
+      "grad_norm": 0.0005543978186324239,
+      "learning_rate": 0.12126815332406189,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 20839008,
+      "step": 22455
+    },
+    {
+      "epoch": 10.58934464875059,
+      "grad_norm": 0.0003711935132741928,
+      "learning_rate": 0.12121034137841868,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 20843936,
+      "step": 22460
+    },
+    {
+      "epoch": 10.591702027345592,
+      "grad_norm": 0.0004729173379018903,
+      "learning_rate": 0.12115253387250258,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 20848864,
+      "step": 22465
+    },
+    {
+      "epoch": 10.594059405940595,
+      "grad_norm": 0.0002732589782681316,
+      "learning_rate": 0.12109473081522831,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 20853472,
+      "step": 22470
+    },
+    {
+      "epoch": 10.596416784535597,
+      "grad_norm": 0.00037089516990818083,
+      "learning_rate": 0.12103693221550982,
+      "loss": 0.2901,
+      "num_input_tokens_seen": 20857952,
+      "step": 22475
+    },
+    {
+      "epoch": 10.5987741631306,
+      "grad_norm": 0.0007801251485943794,
+      "learning_rate": 0.12097913808226027,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 20862368,
+      "step": 22480
+    },
+    {
+      "epoch": 10.601131541725602,
+      "grad_norm": 0.00019037559104617685,
+      "learning_rate": 0.12092134842439234,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 20866848,
+      "step": 22485
+    },
+    {
+      "epoch": 10.603488920320604,
+      "grad_norm": 0.0002557536354288459,
+      "learning_rate": 0.12086356325081798,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 20871296,
+      "step": 22490
+    },
+    {
+      "epoch": 10.605846298915607,
+      "grad_norm": 0.00033348219585604966,
+      "learning_rate": 0.12080578257044824,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 20875568,
+      "step": 22495
+    },
+    {
+      "epoch": 10.608203677510609,
+      "grad_norm": 0.0002495097287464887,
+      "learning_rate": 0.12074800639219378,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 20879904,
+      "step": 22500
+    },
+    {
+      "epoch": 10.61056105610561,
+      "grad_norm": 0.0003991354606114328,
+      "learning_rate": 0.12069023472496428,
+      "loss": 0.315,
+      "num_input_tokens_seen": 20883648,
+      "step": 22505
+    },
+    {
+      "epoch": 10.612918434700614,
+      "grad_norm": 0.0002841163950506598,
+      "learning_rate": 0.12063246757766893,
+      "loss": 0.369,
+      "num_input_tokens_seen": 20887520,
+      "step": 22510
+    },
+    {
+      "epoch": 10.615275813295614,
+      "grad_norm": 0.0002578892163001001,
+      "learning_rate": 0.12057470495921618,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 20892720,
+      "step": 22515
+    },
+    {
+      "epoch": 10.617633191890617,
+      "grad_norm": 0.0008098862017504871,
+      "learning_rate": 0.12051694687851364,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 20897600,
+      "step": 22520
+    },
+    {
+      "epoch": 10.61999057048562,
+      "grad_norm": 0.00034912722185254097,
+      "learning_rate": 0.12045919334446839,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 20902112,
+      "step": 22525
+    },
+    {
+      "epoch": 10.622347949080622,
+      "grad_norm": 0.00037541083293035626,
+      "learning_rate": 0.12040144436598683,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 20907120,
+      "step": 22530
+    },
+    {
+      "epoch": 10.624705327675624,
+      "grad_norm": 0.000473073247121647,
+      "learning_rate": 0.12034369995197444,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 20911392,
+      "step": 22535
+    },
+    {
+      "epoch": 10.627062706270626,
+      "grad_norm": 0.0002665048523340374,
+      "learning_rate": 0.12028596011133627,
+      "loss": 0.3716,
+      "num_input_tokens_seen": 20915744,
+      "step": 22540
+    },
+    {
+      "epoch": 10.629420084865629,
+      "grad_norm": 0.00017172464868053794,
+      "learning_rate": 0.12022822485297643,
+      "loss": 0.339,
+      "num_input_tokens_seen": 20920528,
+      "step": 22545
+    },
+    {
+      "epoch": 10.631777463460631,
+      "grad_norm": 0.0007088605780154467,
+      "learning_rate": 0.12017049418579843,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 20925008,
+      "step": 22550
+    },
+    {
+      "epoch": 10.634134842055634,
+      "grad_norm": 0.0007849931134842336,
+      "learning_rate": 0.12011276811870514,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 20930144,
+      "step": 22555
+    },
+    {
+      "epoch": 10.636492220650636,
+      "grad_norm": 0.00031108807888813317,
+      "learning_rate": 0.12005504666059852,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 20934688,
+      "step": 22560
+    },
+    {
+      "epoch": 10.638849599245638,
+      "grad_norm": 0.0005739728803746402,
+      "learning_rate": 0.11999732982038003,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 20938784,
+      "step": 22565
+    },
+    {
+      "epoch": 10.64120697784064,
+      "grad_norm": 0.00023501056421082467,
+      "learning_rate": 0.11993961760695038,
+      "loss": 0.3588,
+      "num_input_tokens_seen": 20943104,
+      "step": 22570
+    },
+    {
+      "epoch": 10.643564356435643,
+      "grad_norm": 0.00024132987891789526,
+      "learning_rate": 0.11988191002920942,
+      "loss": 0.362,
+      "num_input_tokens_seen": 20947888,
+      "step": 22575
+    },
+    {
+      "epoch": 10.645921735030646,
+      "grad_norm": 0.0005565991159528494,
+      "learning_rate": 0.11982420709605641,
+      "loss": 0.3753,
+      "num_input_tokens_seen": 20952720,
+      "step": 22580
+    },
+    {
+      "epoch": 10.648279113625648,
+      "grad_norm": 0.0004616831138264388,
+      "learning_rate": 0.11976650881638991,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 20957152,
+      "step": 22585
+    },
+    {
+      "epoch": 10.65063649222065,
+      "grad_norm": 0.0003484697954263538,
+      "learning_rate": 0.11970881519910764,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 20961088,
+      "step": 22590
+    },
+    {
+      "epoch": 10.652993870815653,
+      "grad_norm": 0.00048309480189345777,
+      "learning_rate": 0.1196511262531068,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 20964976,
+      "step": 22595
+    },
+    {
+      "epoch": 10.655351249410655,
+      "grad_norm": 0.00022370847000274807,
+      "learning_rate": 0.11959344198728361,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 20969744,
+      "step": 22600
+    },
+    {
+      "epoch": 10.655351249410655,
+      "eval_loss": 0.32901468873023987,
+      "eval_runtime": 33.5785,
+      "eval_samples_per_second": 28.083,
+      "eval_steps_per_second": 14.057,
+      "num_input_tokens_seen": 20969744,
+      "step": 22600
+    },
+    {
+      "epoch": 10.657708628005658,
+      "grad_norm": 0.00030355295166373253,
+      "learning_rate": 0.11953576241053378,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 20973664,
+      "step": 22605
+    },
+    {
+      "epoch": 10.66006600660066,
+      "grad_norm": 0.00047990502207539976,
+      "learning_rate": 0.11947808753175228,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 20977440,
+      "step": 22610
+    },
+    {
+      "epoch": 10.662423385195662,
+      "grad_norm": 0.000349154433934018,
+      "learning_rate": 0.1194204173598332,
+      "loss": 0.308,
+      "num_input_tokens_seen": 20981280,
+      "step": 22615
+    },
+    {
+      "epoch": 10.664780763790665,
+      "grad_norm": 0.0008416998898610473,
+      "learning_rate": 0.11936275190367007,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 20986208,
+      "step": 22620
+    },
+    {
+      "epoch": 10.667138142385667,
+      "grad_norm": 0.00020206095359753817,
+      "learning_rate": 0.11930509117215563,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 20990352,
+      "step": 22625
+    },
+    {
+      "epoch": 10.66949552098067,
+      "grad_norm": 0.0003342652053106576,
+      "learning_rate": 0.11924743517418179,
+      "loss": 0.2882,
+      "num_input_tokens_seen": 20995136,
+      "step": 22630
+    },
+    {
+      "epoch": 10.671852899575672,
+      "grad_norm": 0.0002983577433042228,
+      "learning_rate": 0.11918978391864,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 20999616,
+      "step": 22635
+    },
+    {
+      "epoch": 10.674210278170674,
+      "grad_norm": 0.0002914870565291494,
+      "learning_rate": 0.11913213741442065,
+      "loss": 0.3377,
+      "num_input_tokens_seen": 21004032,
+      "step": 22640
+    },
+    {
+      "epoch": 10.676567656765677,
+      "grad_norm": 0.00019551713194232434,
+      "learning_rate": 0.11907449567041364,
+      "loss": 0.4169,
+      "num_input_tokens_seen": 21008880,
+      "step": 22645
+    },
+    {
+      "epoch": 10.67892503536068,
+      "grad_norm": 0.00044530373997986317,
+      "learning_rate": 0.11901685869550803,
+      "loss": 0.3356,
+      "num_input_tokens_seen": 21014304,
+      "step": 22650
+    },
+    {
+      "epoch": 10.681282413955682,
+      "grad_norm": 0.00021305076370481402,
+      "learning_rate": 0.1189592264985922,
+      "loss": 0.329,
+      "num_input_tokens_seen": 21018752,
+      "step": 22655
+    },
+    {
+      "epoch": 10.683639792550684,
+      "grad_norm": 0.0006365689914673567,
+      "learning_rate": 0.11890159908855373,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 21022656,
+      "step": 22660
+    },
+    {
+      "epoch": 10.685997171145686,
+      "grad_norm": 0.0002136038092430681,
+      "learning_rate": 0.11884397647427941,
+      "loss": 0.2925,
+      "num_input_tokens_seen": 21027712,
+      "step": 22665
+    },
+    {
+      "epoch": 10.688354549740689,
+      "grad_norm": 0.00023046116984914988,
+      "learning_rate": 0.11878635866465546,
+      "loss": 0.2901,
+      "num_input_tokens_seen": 21031488,
+      "step": 22670
+    },
+    {
+      "epoch": 10.690711928335691,
+      "grad_norm": 0.0002753752050921321,
+      "learning_rate": 0.11872874566856734,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 21036272,
+      "step": 22675
+    },
+    {
+      "epoch": 10.693069306930694,
+      "grad_norm": 0.00026458397042006254,
+      "learning_rate": 0.11867113749489955,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 21041248,
+      "step": 22680
+    },
+    {
+      "epoch": 10.695426685525696,
+      "grad_norm": 0.0005027663428336382,
+      "learning_rate": 0.11861353415253607,
+      "loss": 0.361,
+      "num_input_tokens_seen": 21045552,
+      "step": 22685
+    },
+    {
+      "epoch": 10.697784064120698,
+      "grad_norm": 0.00023394834715873003,
+      "learning_rate": 0.11855593565036011,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 21049904,
+      "step": 22690
+    },
+    {
+      "epoch": 10.700141442715701,
+      "grad_norm": 0.0004443077777978033,
+      "learning_rate": 0.11849834199725394,
+      "loss": 0.3712,
+      "num_input_tokens_seen": 21054176,
+      "step": 22695
+    },
+    {
+      "epoch": 10.702498821310703,
+      "grad_norm": 0.0005218702717684209,
+      "learning_rate": 0.1184407532020994,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 21059008,
+      "step": 22700
+    },
+    {
+      "epoch": 10.704856199905706,
+      "grad_norm": 0.0002442694967612624,
+      "learning_rate": 0.11838316927377723,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 21063792,
+      "step": 22705
+    },
+    {
+      "epoch": 10.707213578500706,
+      "grad_norm": 0.00018073221144732088,
+      "learning_rate": 0.11832559022116766,
+      "loss": 0.3069,
+      "num_input_tokens_seen": 21068272,
+      "step": 22710
+    },
+    {
+      "epoch": 10.70957095709571,
+      "grad_norm": 0.0002435040078125894,
+      "learning_rate": 0.11826801605315022,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 21073152,
+      "step": 22715
+    },
+    {
+      "epoch": 10.711928335690711,
+      "grad_norm": 0.00020072735787834972,
+      "learning_rate": 0.1182104467786034,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 21078128,
+      "step": 22720
+    },
+    {
+      "epoch": 10.714285714285714,
+      "grad_norm": 0.00047979498049244285,
+      "learning_rate": 0.1181528824064052,
+      "loss": 0.3147,
+      "num_input_tokens_seen": 21083264,
+      "step": 22725
+    },
+    {
+      "epoch": 10.716643092880716,
+      "grad_norm": 0.0003285547427367419,
+      "learning_rate": 0.11809532294543279,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 21087040,
+      "step": 22730
+    },
+    {
+      "epoch": 10.719000471475718,
+      "grad_norm": 0.00043308650492690504,
+      "learning_rate": 0.11803776840456245,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 21092800,
+      "step": 22735
+    },
+    {
+      "epoch": 10.72135785007072,
+      "grad_norm": 0.00019422215700615197,
+      "learning_rate": 0.11798021879266997,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 21096944,
+      "step": 22740
+    },
+    {
+      "epoch": 10.723715228665723,
+      "grad_norm": 0.0004932279116474092,
+      "learning_rate": 0.11792267411863006,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 21101312,
+      "step": 22745
+    },
+    {
+      "epoch": 10.726072607260726,
+      "grad_norm": 0.000957579119130969,
+      "learning_rate": 0.1178651343913169,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 21106368,
+      "step": 22750
+    },
+    {
+      "epoch": 10.728429985855728,
+      "grad_norm": 0.0004566428833641112,
+      "learning_rate": 0.11780759961960392,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 21110864,
+      "step": 22755
+    },
+    {
+      "epoch": 10.73078736445073,
+      "grad_norm": 0.0004997086361981928,
+      "learning_rate": 0.1177500698123636,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 21115280,
+      "step": 22760
+    },
+    {
+      "epoch": 10.733144743045733,
+      "grad_norm": 0.00032375764567404985,
+      "learning_rate": 0.11769254497846778,
+      "loss": 0.3818,
+      "num_input_tokens_seen": 21120032,
+      "step": 22765
+    },
+    {
+      "epoch": 10.735502121640735,
+      "grad_norm": 0.0002642756444402039,
+      "learning_rate": 0.11763502512678758,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 21123984,
+      "step": 22770
+    },
+    {
+      "epoch": 10.737859500235738,
+      "grad_norm": 0.00037008433719165623,
+      "learning_rate": 0.11757751026619315,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 21128032,
+      "step": 22775
+    },
+    {
+      "epoch": 10.74021687883074,
+      "grad_norm": 0.0008292989805340767,
+      "learning_rate": 0.11752000040555416,
+      "loss": 0.358,
+      "num_input_tokens_seen": 21133072,
+      "step": 22780
+    },
+    {
+      "epoch": 10.742574257425742,
+      "grad_norm": 0.000826061877887696,
+      "learning_rate": 0.11746249555373921,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 21138208,
+      "step": 22785
+    },
+    {
+      "epoch": 10.744931636020745,
+      "grad_norm": 0.000507204735185951,
+      "learning_rate": 0.11740499571961638,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 21142240,
+      "step": 22790
+    },
+    {
+      "epoch": 10.747289014615747,
+      "grad_norm": 0.0009190146229229867,
+      "learning_rate": 0.11734750091205279,
+      "loss": 0.338,
+      "num_input_tokens_seen": 21147440,
+      "step": 22795
+    },
+    {
+      "epoch": 10.74964639321075,
+      "grad_norm": 0.000781613343860954,
+      "learning_rate": 0.11729001113991493,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 21151648,
+      "step": 22800
+    },
+    {
+      "epoch": 10.74964639321075,
+      "eval_loss": 0.32681530714035034,
+      "eval_runtime": 33.6094,
+      "eval_samples_per_second": 28.058,
+      "eval_steps_per_second": 14.044,
+      "num_input_tokens_seen": 21151648,
+      "step": 22800
+    },
+    {
+      "epoch": 10.752003771805752,
+      "grad_norm": 0.00025602549430914223,
+      "learning_rate": 0.11723252641206837,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 21156352,
+      "step": 22805
+    },
+    {
+      "epoch": 10.754361150400754,
+      "grad_norm": 0.00027906839386560023,
+      "learning_rate": 0.11717504673737808,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 21160656,
+      "step": 22810
+    },
+    {
+      "epoch": 10.756718528995757,
+      "grad_norm": 0.001548982341773808,
+      "learning_rate": 0.11711757212470802,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 21164784,
+      "step": 22815
+    },
+    {
+      "epoch": 10.75907590759076,
+      "grad_norm": 0.0003029629588127136,
+      "learning_rate": 0.11706010258292165,
+      "loss": 0.3198,
+      "num_input_tokens_seen": 21169504,
+      "step": 22820
+    },
+    {
+      "epoch": 10.761433286185762,
+      "grad_norm": 0.0003037933201994747,
+      "learning_rate": 0.11700263812088131,
+      "loss": 0.3067,
+      "num_input_tokens_seen": 21173200,
+      "step": 22825
+    },
+    {
+      "epoch": 10.763790664780764,
+      "grad_norm": 0.000800616922788322,
+      "learning_rate": 0.11694517874744892,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 21177504,
+      "step": 22830
+    },
+    {
+      "epoch": 10.766148043375766,
+      "grad_norm": 0.0006633769953623414,
+      "learning_rate": 0.11688772447148532,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 21182576,
+      "step": 22835
+    },
+    {
+      "epoch": 10.768505421970769,
+      "grad_norm": 0.0008949418552219868,
+      "learning_rate": 0.11683027530185074,
+      "loss": 0.293,
+      "num_input_tokens_seen": 21186800,
+      "step": 22840
+    },
+    {
+      "epoch": 10.770862800565771,
+      "grad_norm": 0.0014357605250552297,
+      "learning_rate": 0.11677283124740451,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 21191728,
+      "step": 22845
+    },
+    {
+      "epoch": 10.773220179160774,
+      "grad_norm": 0.0007767216884531081,
+      "learning_rate": 0.11671539231700531,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 21195536,
+      "step": 22850
+    },
+    {
+      "epoch": 10.775577557755776,
+      "grad_norm": 0.00022164701658766717,
+      "learning_rate": 0.11665795851951084,
+      "loss": 0.292,
+      "num_input_tokens_seen": 21200496,
+      "step": 22855
+    },
+    {
+      "epoch": 10.777934936350778,
+      "grad_norm": 0.0004420377663336694,
+      "learning_rate": 0.11660052986377825,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 21205008,
+      "step": 22860
+    },
+    {
+      "epoch": 10.78029231494578,
+      "grad_norm": 0.00017944732098840177,
+      "learning_rate": 0.1165431063586636,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 21209408,
+      "step": 22865
+    },
+    {
+      "epoch": 10.782649693540783,
+      "grad_norm": 0.0004923004889860749,
+      "learning_rate": 0.11648568801302245,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 21214160,
+      "step": 22870
+    },
+    {
+      "epoch": 10.785007072135786,
+      "grad_norm": 0.0004955750773660839,
+      "learning_rate": 0.11642827483570937,
+      "loss": 0.2848,
+      "num_input_tokens_seen": 21218448,
+      "step": 22875
+    },
+    {
+      "epoch": 10.787364450730788,
+      "grad_norm": 0.00023863320529926568,
+      "learning_rate": 0.11637086683557815,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 21223504,
+      "step": 22880
+    },
+    {
+      "epoch": 10.78972182932579,
+      "grad_norm": 0.0003816616372205317,
+      "learning_rate": 0.11631346402148188,
+      "loss": 0.3648,
+      "num_input_tokens_seen": 21228080,
+      "step": 22885
+    },
+    {
+      "epoch": 10.792079207920793,
+      "grad_norm": 0.0004768140788655728,
+      "learning_rate": 0.11625606640227285,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 21232384,
+      "step": 22890
+    },
+    {
+      "epoch": 10.794436586515795,
+      "grad_norm": 0.0006411910871975124,
+      "learning_rate": 0.11619867398680238,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 21237200,
+      "step": 22895
+    },
+    {
+      "epoch": 10.796793965110798,
+      "grad_norm": 0.00031542847864329815,
+      "learning_rate": 0.11614128678392119,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 21241744,
+      "step": 22900
+    },
+    {
+      "epoch": 10.799151343705798,
+      "grad_norm": 0.00030825339490547776,
+      "learning_rate": 0.11608390480247906,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 21246240,
+      "step": 22905
+    },
+    {
+      "epoch": 10.801508722300802,
+      "grad_norm": 0.0002117982949130237,
+      "learning_rate": 0.11602652805132499,
+      "loss": 0.34,
+      "num_input_tokens_seen": 21250496,
+      "step": 22910
+    },
+    {
+      "epoch": 10.803866100895803,
+      "grad_norm": 0.00041191058699041605,
+      "learning_rate": 0.11596915653930731,
+      "loss": 0.333,
+      "num_input_tokens_seen": 21255088,
+      "step": 22915
+    },
+    {
+      "epoch": 10.806223479490805,
+      "grad_norm": 0.00021862874564249068,
+      "learning_rate": 0.11591179027527328,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 21259872,
+      "step": 22920
+    },
+    {
+      "epoch": 10.808580858085808,
+      "grad_norm": 0.00022569243446923792,
+      "learning_rate": 0.11585442926806956,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 21265280,
+      "step": 22925
+    },
+    {
+      "epoch": 10.81093823668081,
+      "grad_norm": 0.0009057732531800866,
+      "learning_rate": 0.11579707352654202,
+      "loss": 0.3416,
+      "num_input_tokens_seen": 21272336,
+      "step": 22930
+    },
+    {
+      "epoch": 10.813295615275813,
+      "grad_norm": 0.00038240867434069514,
+      "learning_rate": 0.11573972305953548,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 21276080,
+      "step": 22935
+    },
+    {
+      "epoch": 10.815652993870815,
+      "grad_norm": 0.0005837275530211627,
+      "learning_rate": 0.11568237787589426,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 21281200,
+      "step": 22940
+    },
+    {
+      "epoch": 10.818010372465817,
+      "grad_norm": 0.0004847233649343252,
+      "learning_rate": 0.11562503798446161,
+      "loss": 0.3797,
+      "num_input_tokens_seen": 21286096,
+      "step": 22945
+    },
+    {
+      "epoch": 10.82036775106082,
+      "grad_norm": 0.0008708573295734823,
+      "learning_rate": 0.11556770339408005,
+      "loss": 0.292,
+      "num_input_tokens_seen": 21290752,
+      "step": 22950
+    },
+    {
+      "epoch": 10.822725129655822,
+      "grad_norm": 0.000603966589551419,
+      "learning_rate": 0.1155103741135914,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 21294560,
+      "step": 22955
+    },
+    {
+      "epoch": 10.825082508250825,
+      "grad_norm": 0.0007836691220290959,
+      "learning_rate": 0.1154530501518364,
+      "loss": 0.3656,
+      "num_input_tokens_seen": 21298608,
+      "step": 22960
+    },
+    {
+      "epoch": 10.827439886845827,
+      "grad_norm": 0.0008670144597999752,
+      "learning_rate": 0.11539573151765523,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 21303120,
+      "step": 22965
+    },
+    {
+      "epoch": 10.82979726544083,
+      "grad_norm": 0.0010446934029459953,
+      "learning_rate": 0.11533841821988719,
+      "loss": 0.299,
+      "num_input_tokens_seen": 21306976,
+      "step": 22970
+    },
+    {
+      "epoch": 10.832154644035832,
+      "grad_norm": 0.0009030736400745809,
+      "learning_rate": 0.11528111026737059,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 21311440,
+      "step": 22975
+    },
+    {
+      "epoch": 10.834512022630834,
+      "grad_norm": 0.0016502648359164596,
+      "learning_rate": 0.11522380766894312,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 21316048,
+      "step": 22980
+    },
+    {
+      "epoch": 10.836869401225837,
+      "grad_norm": 0.001105144969187677,
+      "learning_rate": 0.11516651043344152,
+      "loss": 0.3164,
+      "num_input_tokens_seen": 21320752,
+      "step": 22985
+    },
+    {
+      "epoch": 10.839226779820839,
+      "grad_norm": 0.00021002802532166243,
+      "learning_rate": 0.11510921856970172,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 21325584,
+      "step": 22990
+    },
+    {
+      "epoch": 10.841584158415841,
+      "grad_norm": 0.0004297703562770039,
+      "learning_rate": 0.11505193208655895,
+      "loss": 0.3165,
+      "num_input_tokens_seen": 21330928,
+      "step": 22995
+    },
+    {
+      "epoch": 10.843941537010844,
+      "grad_norm": 0.0006734732887707651,
+      "learning_rate": 0.11499465099284738,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 21335600,
+      "step": 23000
+    },
+    {
+      "epoch": 10.843941537010844,
+      "eval_loss": 0.3269374668598175,
+      "eval_runtime": 33.6294,
+      "eval_samples_per_second": 28.041,
+      "eval_steps_per_second": 14.035,
+      "num_input_tokens_seen": 21335600,
+      "step": 23000
+    },
+    {
+      "epoch": 10.846298915605846,
+      "grad_norm": 0.00046911585377529263,
+      "learning_rate": 0.1149373752974006,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 21339952,
+      "step": 23005
+    },
+    {
+      "epoch": 10.848656294200849,
+      "grad_norm": 0.0006267541320994496,
+      "learning_rate": 0.11488010500905109,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 21345232,
+      "step": 23010
+    },
+    {
+      "epoch": 10.851013672795851,
+      "grad_norm": 0.00024681611103005707,
+      "learning_rate": 0.11482284013663077,
+      "loss": 0.3584,
+      "num_input_tokens_seen": 21349936,
+      "step": 23015
+    },
+    {
+      "epoch": 10.853371051390853,
+      "grad_norm": 0.0003120381443295628,
+      "learning_rate": 0.11476558068897061,
+      "loss": 0.3638,
+      "num_input_tokens_seen": 21354784,
+      "step": 23020
+    },
+    {
+      "epoch": 10.855728429985856,
+      "grad_norm": 0.0002811809245031327,
+      "learning_rate": 0.11470832667490061,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 21358944,
+      "step": 23025
+    },
+    {
+      "epoch": 10.858085808580858,
+      "grad_norm": 0.00045519208651967347,
+      "learning_rate": 0.11465107810325013,
+      "loss": 0.3922,
+      "num_input_tokens_seen": 21363696,
+      "step": 23030
+    },
+    {
+      "epoch": 10.86044318717586,
+      "grad_norm": 0.000807907257694751,
+      "learning_rate": 0.11459383498284771,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 21368224,
+      "step": 23035
+    },
+    {
+      "epoch": 10.862800565770863,
+      "grad_norm": 0.00030826960573904216,
+      "learning_rate": 0.11453659732252082,
+      "loss": 0.339,
+      "num_input_tokens_seen": 21372400,
+      "step": 23040
+    },
+    {
+      "epoch": 10.865157944365865,
+      "grad_norm": 0.0007585408166050911,
+      "learning_rate": 0.11447936513109633,
+      "loss": 0.317,
+      "num_input_tokens_seen": 21377520,
+      "step": 23045
+    },
+    {
+      "epoch": 10.867515322960868,
+      "grad_norm": 0.00053151830798015,
+      "learning_rate": 0.11442213841740011,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 21381776,
+      "step": 23050
+    },
+    {
+      "epoch": 10.86987270155587,
+      "grad_norm": 0.0004313295357860625,
+      "learning_rate": 0.1143649171902572,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 21386048,
+      "step": 23055
+    },
+    {
+      "epoch": 10.872230080150873,
+      "grad_norm": 0.00031851843232288957,
+      "learning_rate": 0.11430770145849194,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 21390528,
+      "step": 23060
+    },
+    {
+      "epoch": 10.874587458745875,
+      "grad_norm": 0.00034178514033555984,
+      "learning_rate": 0.11425049123092756,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 21395776,
+      "step": 23065
+    },
+    {
+      "epoch": 10.876944837340877,
+      "grad_norm": 0.0002334976161364466,
+      "learning_rate": 0.11419328651638674,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 21401136,
+      "step": 23070
+    },
+    {
+      "epoch": 10.87930221593588,
+      "grad_norm": 0.0005781151703558862,
+      "learning_rate": 0.11413608732369115,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 21406176,
+      "step": 23075
+    },
+    {
+      "epoch": 10.881659594530882,
+      "grad_norm": 0.0002403662947472185,
+      "learning_rate": 0.11407889366166153,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 21411344,
+      "step": 23080
+    },
+    {
+      "epoch": 10.884016973125885,
+      "grad_norm": 0.0007420627516694367,
+      "learning_rate": 0.11402170553911797,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 21415696,
+      "step": 23085
+    },
+    {
+      "epoch": 10.886374351720887,
+      "grad_norm": 0.00020896978094242513,
+      "learning_rate": 0.11396452296487955,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 21420288,
+      "step": 23090
+    },
+    {
+      "epoch": 10.88873173031589,
+      "grad_norm": 0.0007293483358807862,
+      "learning_rate": 0.11390734594776449,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 21424608,
+      "step": 23095
+    },
+    {
+      "epoch": 10.891089108910892,
+      "grad_norm": 0.00042683511856012046,
+      "learning_rate": 0.11385017449659031,
+      "loss": 0.3133,
+      "num_input_tokens_seen": 21428480,
+      "step": 23100
+    },
+    {
+      "epoch": 10.893446487505894,
+      "grad_norm": 0.000276614329777658,
+      "learning_rate": 0.11379300862017344,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 21433600,
+      "step": 23105
+    },
+    {
+      "epoch": 10.895803866100895,
+      "grad_norm": 0.0002105256571667269,
+      "learning_rate": 0.11373584832732966,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 21438464,
+      "step": 23110
+    },
+    {
+      "epoch": 10.898161244695899,
+      "grad_norm": 0.0003069443046115339,
+      "learning_rate": 0.11367869362687386,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 21442336,
+      "step": 23115
+    },
+    {
+      "epoch": 10.9005186232909,
+      "grad_norm": 0.0006437849951907992,
+      "learning_rate": 0.11362154452761988,
+      "loss": 0.2777,
+      "num_input_tokens_seen": 21446864,
+      "step": 23120
+    },
+    {
+      "epoch": 10.902876001885902,
+      "grad_norm": 0.0007454275619238615,
+      "learning_rate": 0.11356440103838095,
+      "loss": 0.325,
+      "num_input_tokens_seen": 21451568,
+      "step": 23125
+    },
+    {
+      "epoch": 10.905233380480905,
+      "grad_norm": 0.0005085932207293808,
+      "learning_rate": 0.11350726316796922,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 21456064,
+      "step": 23130
+    },
+    {
+      "epoch": 10.907590759075907,
+      "grad_norm": 0.00041702837916091084,
+      "learning_rate": 0.11345013092519607,
+      "loss": 0.2879,
+      "num_input_tokens_seen": 21460768,
+      "step": 23135
+    },
+    {
+      "epoch": 10.90994813767091,
+      "grad_norm": 0.0004452786815818399,
+      "learning_rate": 0.11339300431887213,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 21465744,
+      "step": 23140
+    },
+    {
+      "epoch": 10.912305516265912,
+      "grad_norm": 0.000284658424789086,
+      "learning_rate": 0.11333588335780687,
+      "loss": 0.3622,
+      "num_input_tokens_seen": 21472432,
+      "step": 23145
+    },
+    {
+      "epoch": 10.914662894860914,
+      "grad_norm": 0.0005224459455348551,
+      "learning_rate": 0.11327876805080916,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 21476800,
+      "step": 23150
+    },
+    {
+      "epoch": 10.917020273455917,
+      "grad_norm": 0.0006906077032908797,
+      "learning_rate": 0.11322165840668696,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 21481456,
+      "step": 23155
+    },
+    {
+      "epoch": 10.919377652050919,
+      "grad_norm": 0.00019323057495057583,
+      "learning_rate": 0.11316455443424717,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 21485600,
+      "step": 23160
+    },
+    {
+      "epoch": 10.921735030645921,
+      "grad_norm": 0.0005363483214750886,
+      "learning_rate": 0.11310745614229603,
+      "loss": 0.3897,
+      "num_input_tokens_seen": 21490480,
+      "step": 23165
+    },
+    {
+      "epoch": 10.924092409240924,
+      "grad_norm": 0.0003831910726148635,
+      "learning_rate": 0.1130503635396387,
+      "loss": 0.3714,
+      "num_input_tokens_seen": 21494800,
+      "step": 23170
+    },
+    {
+      "epoch": 10.926449787835926,
+      "grad_norm": 0.0007313520764000714,
+      "learning_rate": 0.11299327663507966,
+      "loss": 0.2742,
+      "num_input_tokens_seen": 21499200,
+      "step": 23175
+    },
+    {
+      "epoch": 10.928807166430929,
+      "grad_norm": 0.000586296955589205,
+      "learning_rate": 0.11293619543742246,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 21503488,
+      "step": 23180
+    },
+    {
+      "epoch": 10.931164545025931,
+      "grad_norm": 0.00016662539565004408,
+      "learning_rate": 0.11287911995546965,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 21507872,
+      "step": 23185
+    },
+    {
+      "epoch": 10.933521923620933,
+      "grad_norm": 0.000622073479462415,
+      "learning_rate": 0.11282205019802308,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 21513296,
+      "step": 23190
+    },
+    {
+      "epoch": 10.935879302215936,
+      "grad_norm": 0.00022980385983828455,
+      "learning_rate": 0.11276498617388354,
+      "loss": 0.2926,
+      "num_input_tokens_seen": 21517728,
+      "step": 23195
+    },
+    {
+      "epoch": 10.938236680810938,
+      "grad_norm": 0.000653088151011616,
+      "learning_rate": 0.11270792789185109,
+      "loss": 0.353,
+      "num_input_tokens_seen": 21522352,
+      "step": 23200
+    },
+    {
+      "epoch": 10.938236680810938,
+      "eval_loss": 0.3270900547504425,
+      "eval_runtime": 33.6065,
+      "eval_samples_per_second": 28.06,
+      "eval_steps_per_second": 14.045,
+      "num_input_tokens_seen": 21522352,
+      "step": 23200
+    },
+    {
+      "epoch": 10.94059405940594,
+      "grad_norm": 0.00029677950078621507,
+      "learning_rate": 0.11265087536072482,
+      "loss": 0.2884,
+      "num_input_tokens_seen": 21527488,
+      "step": 23205
+    },
+    {
+      "epoch": 10.942951438000943,
+      "grad_norm": 0.0011508552124723792,
+      "learning_rate": 0.11259382858930288,
+      "loss": 0.322,
+      "num_input_tokens_seen": 21532448,
+      "step": 23210
+    },
+    {
+      "epoch": 10.945308816595945,
+      "grad_norm": 0.0003607538528740406,
+      "learning_rate": 0.11253678758638262,
+      "loss": 0.334,
+      "num_input_tokens_seen": 21537296,
+      "step": 23215
+    },
+    {
+      "epoch": 10.947666195190948,
+      "grad_norm": 0.0004153844201937318,
+      "learning_rate": 0.11247975236076059,
+      "loss": 0.2877,
+      "num_input_tokens_seen": 21542320,
+      "step": 23220
+    },
+    {
+      "epoch": 10.95002357378595,
+      "grad_norm": 0.00038007149123586714,
+      "learning_rate": 0.11242272292123218,
+      "loss": 0.3881,
+      "num_input_tokens_seen": 21546448,
+      "step": 23225
+    },
+    {
+      "epoch": 10.952380952380953,
+      "grad_norm": 0.00042589311487972736,
+      "learning_rate": 0.11236569927659217,
+      "loss": 0.348,
+      "num_input_tokens_seen": 21551536,
+      "step": 23230
+    },
+    {
+      "epoch": 10.954738330975955,
+      "grad_norm": 0.0007768294308334589,
+      "learning_rate": 0.11230868143563429,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 21556112,
+      "step": 23235
+    },
+    {
+      "epoch": 10.957095709570957,
+      "grad_norm": 0.00047128714504651725,
+      "learning_rate": 0.11225166940715131,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 21559744,
+      "step": 23240
+    },
+    {
+      "epoch": 10.95945308816596,
+      "grad_norm": 0.0004440801276359707,
+      "learning_rate": 0.11219466319993537,
+      "loss": 0.32,
+      "num_input_tokens_seen": 21564320,
+      "step": 23245
+    },
+    {
+      "epoch": 10.961810466760962,
+      "grad_norm": 0.00037474476266652346,
+      "learning_rate": 0.11213766282277739,
+      "loss": 0.3714,
+      "num_input_tokens_seen": 21568976,
+      "step": 23250
+    },
+    {
+      "epoch": 10.964167845355965,
+      "grad_norm": 0.00017916930664796382,
+      "learning_rate": 0.11208066828446761,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 21574112,
+      "step": 23255
+    },
+    {
+      "epoch": 10.966525223950967,
+      "grad_norm": 0.0008629374788142741,
+      "learning_rate": 0.11202367959379537,
+      "loss": 0.3509,
+      "num_input_tokens_seen": 21578320,
+      "step": 23260
+    },
+    {
+      "epoch": 10.96888260254597,
+      "grad_norm": 0.0002452951157465577,
+      "learning_rate": 0.11196669675954894,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 21583152,
+      "step": 23265
+    },
+    {
+      "epoch": 10.971239981140972,
+      "grad_norm": 0.0002719956682994962,
+      "learning_rate": 0.1119097197905158,
+      "loss": 0.2741,
+      "num_input_tokens_seen": 21587472,
+      "step": 23270
+    },
+    {
+      "epoch": 10.973597359735974,
+      "grad_norm": 0.0003013134410139173,
+      "learning_rate": 0.11185274869548259,
+      "loss": 0.34,
+      "num_input_tokens_seen": 21591312,
+      "step": 23275
+    },
+    {
+      "epoch": 10.975954738330977,
+      "grad_norm": 0.0001822449266910553,
+      "learning_rate": 0.11179578348323486,
+      "loss": 0.2921,
+      "num_input_tokens_seen": 21595696,
+      "step": 23280
+    },
+    {
+      "epoch": 10.978312116925979,
+      "grad_norm": 0.0003290121676400304,
+      "learning_rate": 0.1117388241625575,
+      "loss": 0.3148,
+      "num_input_tokens_seen": 21600000,
+      "step": 23285
+    },
+    {
+      "epoch": 10.980669495520981,
+      "grad_norm": 0.0006592884892597795,
+      "learning_rate": 0.11168187074223421,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 21605168,
+      "step": 23290
+    },
+    {
+      "epoch": 10.983026874115984,
+      "grad_norm": 0.0007290711509995162,
+      "learning_rate": 0.11162492323104796,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 21610240,
+      "step": 23295
+    },
+    {
+      "epoch": 10.985384252710986,
+      "grad_norm": 0.0010073004523292184,
+      "learning_rate": 0.11156798163778091,
+      "loss": 0.3787,
+      "num_input_tokens_seen": 21614592,
+      "step": 23300
+    },
+    {
+      "epoch": 10.987741631305987,
+      "grad_norm": 0.0005211042007431388,
+      "learning_rate": 0.11151104597121399,
+      "loss": 0.2894,
+      "num_input_tokens_seen": 21619824,
+      "step": 23305
+    },
+    {
+      "epoch": 10.990099009900991,
+      "grad_norm": 0.0005260066827759147,
+      "learning_rate": 0.11145411624012742,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 21623936,
+      "step": 23310
+    },
+    {
+      "epoch": 10.992456388495992,
+      "grad_norm": 0.00041114259511232376,
+      "learning_rate": 0.11139719245330063,
+      "loss": 0.2863,
+      "num_input_tokens_seen": 21629696,
+      "step": 23315
+    },
+    {
+      "epoch": 10.994813767090994,
+      "grad_norm": 0.0006187364342622459,
+      "learning_rate": 0.11134027461951179,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 21634224,
+      "step": 23320
+    },
+    {
+      "epoch": 10.997171145685996,
+      "grad_norm": 0.0002393437025602907,
+      "learning_rate": 0.11128336274753849,
+      "loss": 0.308,
+      "num_input_tokens_seen": 21639104,
+      "step": 23325
+    },
+    {
+      "epoch": 10.999528524280999,
+      "grad_norm": 0.0007853709394112229,
+      "learning_rate": 0.11122645684615715,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 21643488,
+      "step": 23330
+    },
+    {
+      "epoch": 11.001885902876001,
+      "grad_norm": 0.00043194156023673713,
+      "learning_rate": 0.11116955692414345,
+      "loss": 0.3027,
+      "num_input_tokens_seen": 21647696,
+      "step": 23335
+    },
+    {
+      "epoch": 11.004243281471004,
+      "grad_norm": 0.0003512892872095108,
+      "learning_rate": 0.11111266299027203,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 21652976,
+      "step": 23340
+    },
+    {
+      "epoch": 11.006600660066006,
+      "grad_norm": 0.0002482856798451394,
+      "learning_rate": 0.11105577505331668,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 21657872,
+      "step": 23345
+    },
+    {
+      "epoch": 11.008958038661008,
+      "grad_norm": 0.0003674325707834214,
+      "learning_rate": 0.11099889312205018,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 21661856,
+      "step": 23350
+    },
+    {
+      "epoch": 11.01131541725601,
+      "grad_norm": 0.000501192465890199,
+      "learning_rate": 0.11094201720524455,
+      "loss": 0.3827,
+      "num_input_tokens_seen": 21666896,
+      "step": 23355
+    },
+    {
+      "epoch": 11.013672795851013,
+      "grad_norm": 0.0005698961322195828,
+      "learning_rate": 0.11088514731167064,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 21672544,
+      "step": 23360
+    },
+    {
+      "epoch": 11.016030174446016,
+      "grad_norm": 0.0003382459981366992,
+      "learning_rate": 0.11082828345009862,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 21676320,
+      "step": 23365
+    },
+    {
+      "epoch": 11.018387553041018,
+      "grad_norm": 0.000340337777743116,
+      "learning_rate": 0.11077142562929748,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 21680864,
+      "step": 23370
+    },
+    {
+      "epoch": 11.02074493163602,
+      "grad_norm": 0.000561154040042311,
+      "learning_rate": 0.11071457385803554,
+      "loss": 0.3322,
+      "num_input_tokens_seen": 21685408,
+      "step": 23375
+    },
+    {
+      "epoch": 11.023102310231023,
+      "grad_norm": 0.00036412017652764916,
+      "learning_rate": 0.11065772814508001,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 21690080,
+      "step": 23380
+    },
+    {
+      "epoch": 11.025459688826025,
+      "grad_norm": 0.00026251739473082125,
+      "learning_rate": 0.11060088849919715,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 21694720,
+      "step": 23385
+    },
+    {
+      "epoch": 11.027817067421028,
+      "grad_norm": 0.000361796235665679,
+      "learning_rate": 0.11054405492915244,
+      "loss": 0.2963,
+      "num_input_tokens_seen": 21699920,
+      "step": 23390
+    },
+    {
+      "epoch": 11.03017444601603,
+      "grad_norm": 0.0006628578412346542,
+      "learning_rate": 0.11048722744371031,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 21703936,
+      "step": 23395
+    },
+    {
+      "epoch": 11.032531824611032,
+      "grad_norm": 0.000822587579023093,
+      "learning_rate": 0.1104304060516342,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 21709568,
+      "step": 23400
+    },
+    {
+      "epoch": 11.032531824611032,
+      "eval_loss": 0.32751578092575073,
+      "eval_runtime": 33.5404,
+      "eval_samples_per_second": 28.115,
+      "eval_steps_per_second": 14.073,
+      "num_input_tokens_seen": 21709568,
+      "step": 23400
+    },
+    {
+      "epoch": 11.034889203206035,
+      "grad_norm": 0.0002495891530998051,
+      "learning_rate": 0.11037359076168682,
+      "loss": 0.3843,
+      "num_input_tokens_seen": 21713616,
+      "step": 23405
+    },
+    {
+      "epoch": 11.037246581801037,
+      "grad_norm": 0.00021674249728675932,
+      "learning_rate": 0.11031678158262966,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 21718288,
+      "step": 23410
+    },
+    {
+      "epoch": 11.03960396039604,
+      "grad_norm": 0.00037447692011483014,
+      "learning_rate": 0.11025997852322349,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 21722272,
+      "step": 23415
+    },
+    {
+      "epoch": 11.041961338991042,
+      "grad_norm": 0.00024485416361130774,
+      "learning_rate": 0.11020318159222807,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 21726864,
+      "step": 23420
+    },
+    {
+      "epoch": 11.044318717586044,
+      "grad_norm": 0.0003557216841727495,
+      "learning_rate": 0.1101463907984021,
+      "loss": 0.2957,
+      "num_input_tokens_seen": 21731680,
+      "step": 23425
+    },
+    {
+      "epoch": 11.046676096181047,
+      "grad_norm": 0.00024290711735375226,
+      "learning_rate": 0.11008960615050352,
+      "loss": 0.3525,
+      "num_input_tokens_seen": 21736000,
+      "step": 23430
+    },
+    {
+      "epoch": 11.04903347477605,
+      "grad_norm": 0.00033408778836019337,
+      "learning_rate": 0.11003282765728925,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 21740368,
+      "step": 23435
+    },
+    {
+      "epoch": 11.051390853371052,
+      "grad_norm": 0.0002146523620467633,
+      "learning_rate": 0.10997605532751518,
+      "loss": 0.2784,
+      "num_input_tokens_seen": 21745072,
+      "step": 23440
+    },
+    {
+      "epoch": 11.053748231966054,
+      "grad_norm": 0.0003442812885623425,
+      "learning_rate": 0.1099192891699364,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 21749328,
+      "step": 23445
+    },
+    {
+      "epoch": 11.056105610561056,
+      "grad_norm": 0.0008002383983694017,
+      "learning_rate": 0.10986252919330687,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 21753904,
+      "step": 23450
+    },
+    {
+      "epoch": 11.058462989156059,
+      "grad_norm": 0.0007344749174080789,
+      "learning_rate": 0.10980577540637973,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 21758496,
+      "step": 23455
+    },
+    {
+      "epoch": 11.060820367751061,
+      "grad_norm": 0.00023628318740520626,
+      "learning_rate": 0.10974902781790719,
+      "loss": 0.3936,
+      "num_input_tokens_seen": 21764256,
+      "step": 23460
+    },
+    {
+      "epoch": 11.063177746346064,
+      "grad_norm": 0.0007414199062623084,
+      "learning_rate": 0.10969228643664032,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 21768240,
+      "step": 23465
+    },
+    {
+      "epoch": 11.065535124941066,
+      "grad_norm": 0.0009078974253498018,
+      "learning_rate": 0.10963555127132942,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 21772608,
+      "step": 23470
+    },
+    {
+      "epoch": 11.067892503536068,
+      "grad_norm": 0.0008113111834973097,
+      "learning_rate": 0.10957882233072382,
+      "loss": 0.3422,
+      "num_input_tokens_seen": 21777712,
+      "step": 23475
+    },
+    {
+      "epoch": 11.07024988213107,
+      "grad_norm": 0.00041626737220212817,
+      "learning_rate": 0.10952209962357176,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 21782624,
+      "step": 23480
+    },
+    {
+      "epoch": 11.072607260726073,
+      "grad_norm": 0.000872589647769928,
+      "learning_rate": 0.10946538315862062,
+      "loss": 0.3484,
+      "num_input_tokens_seen": 21787152,
+      "step": 23485
+    },
+    {
+      "epoch": 11.074964639321076,
+      "grad_norm": 0.0002652721886988729,
+      "learning_rate": 0.10940867294461679,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 21791408,
+      "step": 23490
+    },
+    {
+      "epoch": 11.077322017916078,
+      "grad_norm": 0.000991890556178987,
+      "learning_rate": 0.10935196899030565,
+      "loss": 0.347,
+      "num_input_tokens_seen": 21795696,
+      "step": 23495
+    },
+    {
+      "epoch": 11.07967939651108,
+      "grad_norm": 0.0004866236122325063,
+      "learning_rate": 0.10929527130443177,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 21800768,
+      "step": 23500
+    },
+    {
+      "epoch": 11.082036775106083,
+      "grad_norm": 0.0002931943745352328,
+      "learning_rate": 0.1092385798957385,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 21804912,
+      "step": 23505
+    },
+    {
+      "epoch": 11.084394153701085,
+      "grad_norm": 0.0004531329032033682,
+      "learning_rate": 0.10918189477296848,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 21809312,
+      "step": 23510
+    },
+    {
+      "epoch": 11.086751532296086,
+      "grad_norm": 0.0005491398624144495,
+      "learning_rate": 0.1091252159448633,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 21814176,
+      "step": 23515
+    },
+    {
+      "epoch": 11.089108910891088,
+      "grad_norm": 0.000712089182343334,
+      "learning_rate": 0.10906854342016345,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 21819056,
+      "step": 23520
+    },
+    {
+      "epoch": 11.09146628948609,
+      "grad_norm": 0.0005022280965931714,
+      "learning_rate": 0.10901187720760858,
+      "loss": 0.352,
+      "num_input_tokens_seen": 21823168,
+      "step": 23525
+    },
+    {
+      "epoch": 11.093823668081093,
+      "grad_norm": 0.0007647427264600992,
+      "learning_rate": 0.10895521731593734,
+      "loss": 0.3242,
+      "num_input_tokens_seen": 21827920,
+      "step": 23530
+    },
+    {
+      "epoch": 11.096181046676096,
+      "grad_norm": 0.0008043039124459028,
+      "learning_rate": 0.10889856375388733,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 21832704,
+      "step": 23535
+    },
+    {
+      "epoch": 11.098538425271098,
+      "grad_norm": 0.0007503227097913623,
+      "learning_rate": 0.1088419165301954,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 21837040,
+      "step": 23540
+    },
+    {
+      "epoch": 11.1008958038661,
+      "grad_norm": 0.00036659694160334766,
+      "learning_rate": 0.1087852756535971,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 21842160,
+      "step": 23545
+    },
+    {
+      "epoch": 11.103253182461103,
+      "grad_norm": 0.00021600854233838618,
+      "learning_rate": 0.10872864113282725,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 21846768,
+      "step": 23550
+    },
+    {
+      "epoch": 11.105610561056105,
+      "grad_norm": 0.0002546993491705507,
+      "learning_rate": 0.10867201297661958,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 21852512,
+      "step": 23555
+    },
+    {
+      "epoch": 11.107967939651108,
+      "grad_norm": 0.0003710894088726491,
+      "learning_rate": 0.10861539119370689,
+      "loss": 0.3723,
+      "num_input_tokens_seen": 21858192,
+      "step": 23560
+    },
+    {
+      "epoch": 11.11032531824611,
+      "grad_norm": 0.0006362179992720485,
+      "learning_rate": 0.10855877579282096,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 21862912,
+      "step": 23565
+    },
+    {
+      "epoch": 11.112682696841112,
+      "grad_norm": 0.001175709767267108,
+      "learning_rate": 0.10850216678269252,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 21867760,
+      "step": 23570
+    },
+    {
+      "epoch": 11.115040075436115,
+      "grad_norm": 0.0003298923256807029,
+      "learning_rate": 0.10844556417205146,
+      "loss": 0.2944,
+      "num_input_tokens_seen": 21871952,
+      "step": 23575
+    },
+    {
+      "epoch": 11.117397454031117,
+      "grad_norm": 0.00029088303563185036,
+      "learning_rate": 0.10838896796962669,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 21876752,
+      "step": 23580
+    },
+    {
+      "epoch": 11.11975483262612,
+      "grad_norm": 0.0006199999479576945,
+      "learning_rate": 0.1083323781841459,
+      "loss": 0.336,
+      "num_input_tokens_seen": 21880576,
+      "step": 23585
+    },
+    {
+      "epoch": 11.122112211221122,
+      "grad_norm": 0.00043699779780581594,
+      "learning_rate": 0.10827579482433607,
+      "loss": 0.3746,
+      "num_input_tokens_seen": 21884944,
+      "step": 23590
+    },
+    {
+      "epoch": 11.124469589816124,
+      "grad_norm": 0.0008693858981132507,
+      "learning_rate": 0.10821921789892304,
+      "loss": 0.293,
+      "num_input_tokens_seen": 21889392,
+      "step": 23595
+    },
+    {
+      "epoch": 11.126826968411127,
+      "grad_norm": 0.0003667220298666507,
+      "learning_rate": 0.10816264741663158,
+      "loss": 0.325,
+      "num_input_tokens_seen": 21894592,
+      "step": 23600
+    },
+    {
+      "epoch": 11.126826968411127,
+      "eval_loss": 0.32699790596961975,
+      "eval_runtime": 33.6038,
+      "eval_samples_per_second": 28.062,
+      "eval_steps_per_second": 14.046,
+      "num_input_tokens_seen": 21894592,
+      "step": 23600
+    },
+    {
+      "epoch": 11.12918434700613,
+      "grad_norm": 0.00034773393417708576,
+      "learning_rate": 0.10810608338618573,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 21899520,
+      "step": 23605
+    },
+    {
+      "epoch": 11.131541725601132,
+      "grad_norm": 0.0005587266641668975,
+      "learning_rate": 0.10804952581630821,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 21904192,
+      "step": 23610
+    },
+    {
+      "epoch": 11.133899104196134,
+      "grad_norm": 0.0003675998596008867,
+      "learning_rate": 0.10799297471572102,
+      "loss": 0.2889,
+      "num_input_tokens_seen": 21908480,
+      "step": 23615
+    },
+    {
+      "epoch": 11.136256482791136,
+      "grad_norm": 0.00020758123719133437,
+      "learning_rate": 0.10793643009314507,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 21913184,
+      "step": 23620
+    },
+    {
+      "epoch": 11.138613861386139,
+      "grad_norm": 0.0003240859368816018,
+      "learning_rate": 0.10787989195730015,
+      "loss": 0.322,
+      "num_input_tokens_seen": 21917664,
+      "step": 23625
+    },
+    {
+      "epoch": 11.140971239981141,
+      "grad_norm": 0.00021821084374096245,
+      "learning_rate": 0.10782336031690525,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 21922416,
+      "step": 23630
+    },
+    {
+      "epoch": 11.143328618576144,
+      "grad_norm": 0.0006961858016438782,
+      "learning_rate": 0.10776683518067821,
+      "loss": 0.3818,
+      "num_input_tokens_seen": 21926608,
+      "step": 23635
+    },
+    {
+      "epoch": 11.145685997171146,
+      "grad_norm": 0.00034265988506376743,
+      "learning_rate": 0.10771031655733587,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 21932544,
+      "step": 23640
+    },
+    {
+      "epoch": 11.148043375766148,
+      "grad_norm": 0.00029265350895002484,
+      "learning_rate": 0.10765380445559422,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 21936784,
+      "step": 23645
+    },
+    {
+      "epoch": 11.15040075436115,
+      "grad_norm": 0.0003219782665837556,
+      "learning_rate": 0.10759729888416801,
+      "loss": 0.3864,
+      "num_input_tokens_seen": 21940976,
+      "step": 23650
+    },
+    {
+      "epoch": 11.152758132956153,
+      "grad_norm": 0.000867877562996,
+      "learning_rate": 0.10754079985177119,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 21945776,
+      "step": 23655
+    },
+    {
+      "epoch": 11.155115511551156,
+      "grad_norm": 0.0007469597039744258,
+      "learning_rate": 0.10748430736711667,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 21950624,
+      "step": 23660
+    },
+    {
+      "epoch": 11.157472890146158,
+      "grad_norm": 0.00032998251845128834,
+      "learning_rate": 0.10742782143891623,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 21954624,
+      "step": 23665
+    },
+    {
+      "epoch": 11.15983026874116,
+      "grad_norm": 0.0003061429597437382,
+      "learning_rate": 0.10737134207588069,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 21958960,
+      "step": 23670
+    },
+    {
+      "epoch": 11.162187647336163,
+      "grad_norm": 0.00030108296778053045,
+      "learning_rate": 0.10731486928671992,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 21962928,
+      "step": 23675
+    },
+    {
+      "epoch": 11.164545025931165,
+      "grad_norm": 0.0008385048131458461,
+      "learning_rate": 0.10725840308014269,
+      "loss": 0.2989,
+      "num_input_tokens_seen": 21967520,
+      "step": 23680
+    },
+    {
+      "epoch": 11.166902404526168,
+      "grad_norm": 0.0007799259619787335,
+      "learning_rate": 0.10720194346485688,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 21971824,
+      "step": 23685
+    },
+    {
+      "epoch": 11.16925978312117,
+      "grad_norm": 0.00030278877238743007,
+      "learning_rate": 0.10714549044956918,
+      "loss": 0.304,
+      "num_input_tokens_seen": 21976640,
+      "step": 23690
+    },
+    {
+      "epoch": 11.171617161716172,
+      "grad_norm": 0.00032314268173649907,
+      "learning_rate": 0.10708904404298542,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 21981280,
+      "step": 23695
+    },
+    {
+      "epoch": 11.173974540311175,
+      "grad_norm": 0.0002396700729150325,
+      "learning_rate": 0.1070326042538103,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 21985840,
+      "step": 23700
+    },
+    {
+      "epoch": 11.176331918906177,
+      "grad_norm": 0.0004732573579531163,
+      "learning_rate": 0.10697617109074758,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 21990304,
+      "step": 23705
+    },
+    {
+      "epoch": 11.17868929750118,
+      "grad_norm": 0.00046408636262640357,
+      "learning_rate": 0.10691974456249999,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 21994288,
+      "step": 23710
+    },
+    {
+      "epoch": 11.18104667609618,
+      "grad_norm": 0.0005082811694592237,
+      "learning_rate": 0.10686332467776909,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 21999008,
+      "step": 23715
+    },
+    {
+      "epoch": 11.183404054691183,
+      "grad_norm": 0.0005855803028680384,
+      "learning_rate": 0.10680691144525563,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 22005136,
+      "step": 23720
+    },
+    {
+      "epoch": 11.185761433286185,
+      "grad_norm": 0.00026958511443808675,
+      "learning_rate": 0.10675050487365928,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 22008912,
+      "step": 23725
+    },
+    {
+      "epoch": 11.188118811881187,
+      "grad_norm": 0.0005403747200034559,
+      "learning_rate": 0.10669410497167851,
+      "loss": 0.2384,
+      "num_input_tokens_seen": 22013328,
+      "step": 23730
+    },
+    {
+      "epoch": 11.19047619047619,
+      "grad_norm": 0.0001461469946661964,
+      "learning_rate": 0.10663771174801102,
+      "loss": 0.2708,
+      "num_input_tokens_seen": 22017120,
+      "step": 23735
+    },
+    {
+      "epoch": 11.192833569071192,
+      "grad_norm": 0.0004743998288176954,
+      "learning_rate": 0.10658132521135329,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 22021760,
+      "step": 23740
+    },
+    {
+      "epoch": 11.195190947666195,
+      "grad_norm": 0.000188468475244008,
+      "learning_rate": 0.10652494537040084,
+      "loss": 0.2484,
+      "num_input_tokens_seen": 22027216,
+      "step": 23745
+    },
+    {
+      "epoch": 11.197548326261197,
+      "grad_norm": 0.0006001690053381026,
+      "learning_rate": 0.1064685722338482,
+      "loss": 0.2879,
+      "num_input_tokens_seen": 22031328,
+      "step": 23750
+    },
+    {
+      "epoch": 11.1999057048562,
+      "grad_norm": 0.000374667695723474,
+      "learning_rate": 0.10641220581038871,
+      "loss": 0.3847,
+      "num_input_tokens_seen": 22036240,
+      "step": 23755
+    },
+    {
+      "epoch": 11.202263083451202,
+      "grad_norm": 0.0009654187597334385,
+      "learning_rate": 0.10635584610871483,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 22042240,
+      "step": 23760
+    },
+    {
+      "epoch": 11.204620462046204,
+      "grad_norm": 0.00037068146048113704,
+      "learning_rate": 0.10629949313751803,
+      "loss": 0.4074,
+      "num_input_tokens_seen": 22046320,
+      "step": 23765
+    },
+    {
+      "epoch": 11.206977840641207,
+      "grad_norm": 0.000504577939864248,
+      "learning_rate": 0.10624314690548849,
+      "loss": 0.3017,
+      "num_input_tokens_seen": 22051184,
+      "step": 23770
+    },
+    {
+      "epoch": 11.209335219236209,
+      "grad_norm": 0.0002119764540111646,
+      "learning_rate": 0.1061868074213156,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 22055216,
+      "step": 23775
+    },
+    {
+      "epoch": 11.211692597831211,
+      "grad_norm": 0.0005448166048154235,
+      "learning_rate": 0.10613047469368765,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 22060192,
+      "step": 23780
+    },
+    {
+      "epoch": 11.214049976426214,
+      "grad_norm": 0.0004132364992983639,
+      "learning_rate": 0.10607414873129171,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 22065248,
+      "step": 23785
+    },
+    {
+      "epoch": 11.216407355021216,
+      "grad_norm": 0.0002063406864181161,
+      "learning_rate": 0.10601782954281413,
+      "loss": 0.4087,
+      "num_input_tokens_seen": 22071104,
+      "step": 23790
+    },
+    {
+      "epoch": 11.218764733616219,
+      "grad_norm": 0.0002909360046032816,
+      "learning_rate": 0.1059615171369399,
+      "loss": 0.2529,
+      "num_input_tokens_seen": 22075472,
+      "step": 23795
+    },
+    {
+      "epoch": 11.221122112211221,
+      "grad_norm": 0.00034871220123022795,
+      "learning_rate": 0.10590521152235312,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 22079344,
+      "step": 23800
+    },
+    {
+      "epoch": 11.221122112211221,
+      "eval_loss": 0.3273259103298187,
+      "eval_runtime": 33.6167,
+      "eval_samples_per_second": 28.052,
+      "eval_steps_per_second": 14.041,
+      "num_input_tokens_seen": 22079344,
+      "step": 23800
+    },
+    {
+      "epoch": 11.223479490806223,
+      "grad_norm": 0.0002585058973636478,
+      "learning_rate": 0.1058489127077369,
+      "loss": 0.278,
+      "num_input_tokens_seen": 22083456,
+      "step": 23805
+    },
+    {
+      "epoch": 11.225836869401226,
+      "grad_norm": 0.0002831140882335603,
+      "learning_rate": 0.1057926207017732,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 22088560,
+      "step": 23810
+    },
+    {
+      "epoch": 11.228194247996228,
+      "grad_norm": 0.00023241383314598352,
+      "learning_rate": 0.10573633551314285,
+      "loss": 0.4005,
+      "num_input_tokens_seen": 22092784,
+      "step": 23815
+    },
+    {
+      "epoch": 11.23055162659123,
+      "grad_norm": 0.0003337845264468342,
+      "learning_rate": 0.1056800571505259,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 22098080,
+      "step": 23820
+    },
+    {
+      "epoch": 11.232909005186233,
+      "grad_norm": 0.0004916680045425892,
+      "learning_rate": 0.10562378562260105,
+      "loss": 0.3716,
+      "num_input_tokens_seen": 22103152,
+      "step": 23825
+    },
+    {
+      "epoch": 11.235266383781235,
+      "grad_norm": 0.0011064553400501609,
+      "learning_rate": 0.10556752093804615,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 22107760,
+      "step": 23830
+    },
+    {
+      "epoch": 11.237623762376238,
+      "grad_norm": 0.000588323746342212,
+      "learning_rate": 0.10551126310553786,
+      "loss": 0.3741,
+      "num_input_tokens_seen": 22112624,
+      "step": 23835
+    },
+    {
+      "epoch": 11.23998114097124,
+      "grad_norm": 0.0004840165202040225,
+      "learning_rate": 0.10545501213375187,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 22117472,
+      "step": 23840
+    },
+    {
+      "epoch": 11.242338519566243,
+      "grad_norm": 0.0010823578340932727,
+      "learning_rate": 0.10539876803136287,
+      "loss": 0.328,
+      "num_input_tokens_seen": 22122352,
+      "step": 23845
+    },
+    {
+      "epoch": 11.244695898161245,
+      "grad_norm": 0.0002626599743962288,
+      "learning_rate": 0.10534253080704428,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 22127104,
+      "step": 23850
+    },
+    {
+      "epoch": 11.247053276756247,
+      "grad_norm": 0.0002729067055042833,
+      "learning_rate": 0.10528630046946862,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 22132160,
+      "step": 23855
+    },
+    {
+      "epoch": 11.24941065535125,
+      "grad_norm": 0.0007459769840352237,
+      "learning_rate": 0.1052300770273074,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 22136832,
+      "step": 23860
+    },
+    {
+      "epoch": 11.251768033946252,
+      "grad_norm": 0.0003788408066611737,
+      "learning_rate": 0.10517386048923086,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 22140928,
+      "step": 23865
+    },
+    {
+      "epoch": 11.254125412541255,
+      "grad_norm": 0.0008907293668016791,
+      "learning_rate": 0.10511765086390841,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 22145728,
+      "step": 23870
+    },
+    {
+      "epoch": 11.256482791136257,
+      "grad_norm": 0.0010614116908982396,
+      "learning_rate": 0.10506144816000816,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 22150064,
+      "step": 23875
+    },
+    {
+      "epoch": 11.25884016973126,
+      "grad_norm": 0.0005170928197912872,
+      "learning_rate": 0.10500525238619736,
+      "loss": 0.3152,
+      "num_input_tokens_seen": 22154352,
+      "step": 23880
+    },
+    {
+      "epoch": 11.261197548326262,
+      "grad_norm": 0.000438788061728701,
+      "learning_rate": 0.10494906355114209,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 22160896,
+      "step": 23885
+    },
+    {
+      "epoch": 11.263554926921264,
+      "grad_norm": 0.00029531956533901393,
+      "learning_rate": 0.10489288166350737,
+      "loss": 0.3829,
+      "num_input_tokens_seen": 22167040,
+      "step": 23890
+    },
+    {
+      "epoch": 11.265912305516267,
+      "grad_norm": 0.00024861516430974007,
+      "learning_rate": 0.10483670673195711,
+      "loss": 0.2998,
+      "num_input_tokens_seen": 22172352,
+      "step": 23895
+    },
+    {
+      "epoch": 11.268269684111269,
+      "grad_norm": 0.0006545570213347673,
+      "learning_rate": 0.10478053876515431,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 22176720,
+      "step": 23900
+    },
+    {
+      "epoch": 11.270627062706271,
+      "grad_norm": 0.0006434139795601368,
+      "learning_rate": 0.10472437777176061,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 22180880,
+      "step": 23905
+    },
+    {
+      "epoch": 11.272984441301272,
+      "grad_norm": 0.0001517965574748814,
+      "learning_rate": 0.1046682237604369,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 22185776,
+      "step": 23910
+    },
+    {
+      "epoch": 11.275341819896274,
+      "grad_norm": 0.0004778874572366476,
+      "learning_rate": 0.1046120767398427,
+      "loss": 0.286,
+      "num_input_tokens_seen": 22191024,
+      "step": 23915
+    },
+    {
+      "epoch": 11.277699198491277,
+      "grad_norm": 0.00022092912695370615,
+      "learning_rate": 0.10455593671863667,
+      "loss": 0.304,
+      "num_input_tokens_seen": 22196000,
+      "step": 23920
+    },
+    {
+      "epoch": 11.28005657708628,
+      "grad_norm": 0.00023788584803696722,
+      "learning_rate": 0.1044998037054763,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 22199968,
+      "step": 23925
+    },
+    {
+      "epoch": 11.282413955681282,
+      "grad_norm": 0.00024363577540498227,
+      "learning_rate": 0.10444367770901794,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 22205120,
+      "step": 23930
+    },
+    {
+      "epoch": 11.284771334276284,
+      "grad_norm": 0.0005997284315526485,
+      "learning_rate": 0.10438755873791698,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 22209248,
+      "step": 23935
+    },
+    {
+      "epoch": 11.287128712871286,
+      "grad_norm": 0.0003260348457843065,
+      "learning_rate": 0.10433144680082775,
+      "loss": 0.3267,
+      "num_input_tokens_seen": 22214160,
+      "step": 23940
+    },
+    {
+      "epoch": 11.289486091466289,
+      "grad_norm": 0.0002481089031789452,
+      "learning_rate": 0.10427534190640322,
+      "loss": 0.3638,
+      "num_input_tokens_seen": 22218672,
+      "step": 23945
+    },
+    {
+      "epoch": 11.291843470061291,
+      "grad_norm": 0.0003961207112297416,
+      "learning_rate": 0.10421924406329568,
+      "loss": 0.355,
+      "num_input_tokens_seen": 22223120,
+      "step": 23950
+    },
+    {
+      "epoch": 11.294200848656294,
+      "grad_norm": 0.00037669006269425154,
+      "learning_rate": 0.10416315328015598,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 22228176,
+      "step": 23955
+    },
+    {
+      "epoch": 11.296558227251296,
+      "grad_norm": 0.00028062696219421923,
+      "learning_rate": 0.10410706956563402,
+      "loss": 0.3445,
+      "num_input_tokens_seen": 22232880,
+      "step": 23960
+    },
+    {
+      "epoch": 11.298915605846299,
+      "grad_norm": 0.00023383545340038836,
+      "learning_rate": 0.10405099292837874,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 22237584,
+      "step": 23965
+    },
+    {
+      "epoch": 11.301272984441301,
+      "grad_norm": 0.00031885571661405265,
+      "learning_rate": 0.10399492337703771,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 22242336,
+      "step": 23970
+    },
+    {
+      "epoch": 11.303630363036303,
+      "grad_norm": 0.00048505491577088833,
+      "learning_rate": 0.10393886092025764,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 22246400,
+      "step": 23975
+    },
+    {
+      "epoch": 11.305987741631306,
+      "grad_norm": 0.0009370830375701189,
+      "learning_rate": 0.10388280556668412,
+      "loss": 0.3581,
+      "num_input_tokens_seen": 22250128,
+      "step": 23980
+    },
+    {
+      "epoch": 11.308345120226308,
+      "grad_norm": 0.00016487104585394263,
+      "learning_rate": 0.10382675732496145,
+      "loss": 0.345,
+      "num_input_tokens_seen": 22255584,
+      "step": 23985
+    },
+    {
+      "epoch": 11.31070249882131,
+      "grad_norm": 0.00024030794156715274,
+      "learning_rate": 0.10377071620373311,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 22260064,
+      "step": 23990
+    },
+    {
+      "epoch": 11.313059877416313,
+      "grad_norm": 0.0008527315803803504,
+      "learning_rate": 0.10371468221164128,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 22264880,
+      "step": 23995
+    },
+    {
+      "epoch": 11.315417256011315,
+      "grad_norm": 0.001103373826481402,
+      "learning_rate": 0.10365865535732706,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 22269152,
+      "step": 24000
+    },
+    {
+      "epoch": 11.315417256011315,
+      "eval_loss": 0.3277986943721771,
+      "eval_runtime": 33.6253,
+      "eval_samples_per_second": 28.044,
+      "eval_steps_per_second": 14.037,
+      "num_input_tokens_seen": 22269152,
+      "step": 24000
+    },
+    {
+      "epoch": 11.317774634606318,
+      "grad_norm": 0.0005113022634759545,
+      "learning_rate": 0.10360263564943062,
+      "loss": 0.2902,
+      "num_input_tokens_seen": 22273248,
+      "step": 24005
+    },
+    {
+      "epoch": 11.32013201320132,
+      "grad_norm": 0.0003864451718982309,
+      "learning_rate": 0.10354662309659075,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 22277888,
+      "step": 24010
+    },
+    {
+      "epoch": 11.322489391796323,
+      "grad_norm": 0.00026149486075155437,
+      "learning_rate": 0.10349061770744537,
+      "loss": 0.3687,
+      "num_input_tokens_seen": 22282048,
+      "step": 24015
+    },
+    {
+      "epoch": 11.324846770391325,
+      "grad_norm": 0.00022470943804364651,
+      "learning_rate": 0.10343461949063128,
+      "loss": 0.3719,
+      "num_input_tokens_seen": 22287024,
+      "step": 24020
+    },
+    {
+      "epoch": 11.327204148986327,
+      "grad_norm": 0.0002551408251747489,
+      "learning_rate": 0.103378628454784,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 22290928,
+      "step": 24025
+    },
+    {
+      "epoch": 11.32956152758133,
+      "grad_norm": 0.0003411611542105675,
+      "learning_rate": 0.10332264460853811,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 22295776,
+      "step": 24030
+    },
+    {
+      "epoch": 11.331918906176332,
+      "grad_norm": 0.00023435252660419792,
+      "learning_rate": 0.10326666796052701,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 22300416,
+      "step": 24035
+    },
+    {
+      "epoch": 11.334276284771335,
+      "grad_norm": 0.00047872684081085026,
+      "learning_rate": 0.10321069851938296,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 22304848,
+      "step": 24040
+    },
+    {
+      "epoch": 11.336633663366337,
+      "grad_norm": 0.00040602884837426245,
+      "learning_rate": 0.10315473629373724,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 22308736,
+      "step": 24045
+    },
+    {
+      "epoch": 11.33899104196134,
+      "grad_norm": 0.0004153707704972476,
+      "learning_rate": 0.10309878129221982,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 22314944,
+      "step": 24050
+    },
+    {
+      "epoch": 11.341348420556342,
+      "grad_norm": 0.00042527905316092074,
+      "learning_rate": 0.10304283352345973,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 22318544,
+      "step": 24055
+    },
+    {
+      "epoch": 11.343705799151344,
+      "grad_norm": 0.0005883683334104717,
+      "learning_rate": 0.10298689299608486,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 22322784,
+      "step": 24060
+    },
+    {
+      "epoch": 11.346063177746347,
+      "grad_norm": 0.00037716483348049223,
+      "learning_rate": 0.10293095971872188,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 22328480,
+      "step": 24065
+    },
+    {
+      "epoch": 11.348420556341349,
+      "grad_norm": 0.0003828468616120517,
+      "learning_rate": 0.10287503369999645,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 22332672,
+      "step": 24070
+    },
+    {
+      "epoch": 11.350777934936351,
+      "grad_norm": 0.0005479988176375628,
+      "learning_rate": 0.10281911494853295,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 22337104,
+      "step": 24075
+    },
+    {
+      "epoch": 11.353135313531354,
+      "grad_norm": 0.0004476563772186637,
+      "learning_rate": 0.10276320347295485,
+      "loss": 0.3014,
+      "num_input_tokens_seen": 22341920,
+      "step": 24080
+    },
+    {
+      "epoch": 11.355492692126356,
+      "grad_norm": 0.0005815752665512264,
+      "learning_rate": 0.10270729928188446,
+      "loss": 0.4202,
+      "num_input_tokens_seen": 22346896,
+      "step": 24085
+    },
+    {
+      "epoch": 11.357850070721359,
+      "grad_norm": 0.0003308783925604075,
+      "learning_rate": 0.10265140238394276,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 22352128,
+      "step": 24090
+    },
+    {
+      "epoch": 11.360207449316361,
+      "grad_norm": 0.00044726053602062166,
+      "learning_rate": 0.10259551278774988,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 22357968,
+      "step": 24095
+    },
+    {
+      "epoch": 11.362564827911363,
+      "grad_norm": 0.00024105019110720605,
+      "learning_rate": 0.10253963050192462,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 22362976,
+      "step": 24100
+    },
+    {
+      "epoch": 11.364922206506366,
+      "grad_norm": 0.0003134921134915203,
+      "learning_rate": 0.10248375553508478,
+      "loss": 0.3009,
+      "num_input_tokens_seen": 22367008,
+      "step": 24105
+    },
+    {
+      "epoch": 11.367279585101368,
+      "grad_norm": 0.0007250872440636158,
+      "learning_rate": 0.102427887895847,
+      "loss": 0.314,
+      "num_input_tokens_seen": 22371456,
+      "step": 24110
+    },
+    {
+      "epoch": 11.369636963696369,
+      "grad_norm": 0.0005662095500156283,
+      "learning_rate": 0.10237202759282668,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 22376800,
+      "step": 24115
+    },
+    {
+      "epoch": 11.371994342291371,
+      "grad_norm": 0.0005914725479669869,
+      "learning_rate": 0.10231617463463821,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 22381504,
+      "step": 24120
+    },
+    {
+      "epoch": 11.374351720886374,
+      "grad_norm": 0.00026517739752307534,
+      "learning_rate": 0.10226032902989492,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 22385760,
+      "step": 24125
+    },
+    {
+      "epoch": 11.376709099481376,
+      "grad_norm": 0.00021774311608169228,
+      "learning_rate": 0.10220449078720877,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 22390320,
+      "step": 24130
+    },
+    {
+      "epoch": 11.379066478076378,
+      "grad_norm": 0.00025955200544558465,
+      "learning_rate": 0.1021486599151908,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 22393952,
+      "step": 24135
+    },
+    {
+      "epoch": 11.38142385667138,
+      "grad_norm": 0.00036928310873918235,
+      "learning_rate": 0.10209283642245084,
+      "loss": 0.3509,
+      "num_input_tokens_seen": 22397760,
+      "step": 24140
+    },
+    {
+      "epoch": 11.383781235266383,
+      "grad_norm": 0.00021621488849632442,
+      "learning_rate": 0.10203702031759748,
+      "loss": 0.3015,
+      "num_input_tokens_seen": 22402624,
+      "step": 24145
+    },
+    {
+      "epoch": 11.386138613861386,
+      "grad_norm": 0.00021709689463023096,
+      "learning_rate": 0.1019812116092384,
+      "loss": 0.2716,
+      "num_input_tokens_seen": 22407184,
+      "step": 24150
+    },
+    {
+      "epoch": 11.388495992456388,
+      "grad_norm": 0.0003306225989945233,
+      "learning_rate": 0.10192541030597986,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 22411360,
+      "step": 24155
+    },
+    {
+      "epoch": 11.39085337105139,
+      "grad_norm": 0.00027947884518653154,
+      "learning_rate": 0.1018696164164272,
+      "loss": 0.314,
+      "num_input_tokens_seen": 22416544,
+      "step": 24160
+    },
+    {
+      "epoch": 11.393210749646393,
+      "grad_norm": 0.00020056201901752502,
+      "learning_rate": 0.10181382994918459,
+      "loss": 0.3609,
+      "num_input_tokens_seen": 22420560,
+      "step": 24165
+    },
+    {
+      "epoch": 11.395568128241395,
+      "grad_norm": 0.00029997635283507407,
+      "learning_rate": 0.10175805091285492,
+      "loss": 0.2988,
+      "num_input_tokens_seen": 22425008,
+      "step": 24170
+    },
+    {
+      "epoch": 11.397925506836398,
+      "grad_norm": 0.0003559257893357426,
+      "learning_rate": 0.10170227931603999,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 22428896,
+      "step": 24175
+    },
+    {
+      "epoch": 11.4002828854314,
+      "grad_norm": 0.0006496778805740178,
+      "learning_rate": 0.10164651516734062,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 22432992,
+      "step": 24180
+    },
+    {
+      "epoch": 11.402640264026402,
+      "grad_norm": 0.00023216540284920484,
+      "learning_rate": 0.1015907584753562,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 22437264,
+      "step": 24185
+    },
+    {
+      "epoch": 11.404997642621405,
+      "grad_norm": 0.0007113043684512377,
+      "learning_rate": 0.10153500924868523,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 22441760,
+      "step": 24190
+    },
+    {
+      "epoch": 11.407355021216407,
+      "grad_norm": 0.0002484412398189306,
+      "learning_rate": 0.10147926749592483,
+      "loss": 0.2744,
+      "num_input_tokens_seen": 22446560,
+      "step": 24195
+    },
+    {
+      "epoch": 11.40971239981141,
+      "grad_norm": 0.0004151595931034535,
+      "learning_rate": 0.10142353322567112,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 22451760,
+      "step": 24200
+    },
+    {
+      "epoch": 11.40971239981141,
+      "eval_loss": 0.3266035318374634,
+      "eval_runtime": 33.5308,
+      "eval_samples_per_second": 28.123,
+      "eval_steps_per_second": 14.077,
+      "num_input_tokens_seen": 22451760,
+      "step": 24200
+    },
+    {
+      "epoch": 11.412069778406412,
+      "grad_norm": 0.00021444543381221592,
+      "learning_rate": 0.1013678064465191,
+      "loss": 0.2881,
+      "num_input_tokens_seen": 22456448,
+      "step": 24205
+    },
+    {
+      "epoch": 11.414427157001414,
+      "grad_norm": 0.0004661607672460377,
+      "learning_rate": 0.10131208716706244,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 22460992,
+      "step": 24210
+    },
+    {
+      "epoch": 11.416784535596417,
+      "grad_norm": 0.0006516546709463,
+      "learning_rate": 0.10125637539589379,
+      "loss": 0.3746,
+      "num_input_tokens_seen": 22465744,
+      "step": 24215
+    },
+    {
+      "epoch": 11.41914191419142,
+      "grad_norm": 0.0005718646571040154,
+      "learning_rate": 0.10120067114160464,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 22470400,
+      "step": 24220
+    },
+    {
+      "epoch": 11.421499292786422,
+      "grad_norm": 0.0005659692105837166,
+      "learning_rate": 0.10114497441278517,
+      "loss": 0.2927,
+      "num_input_tokens_seen": 22474336,
+      "step": 24225
+    },
+    {
+      "epoch": 11.423856671381424,
+      "grad_norm": 0.0004010073025710881,
+      "learning_rate": 0.10108928521802468,
+      "loss": 0.3667,
+      "num_input_tokens_seen": 22478720,
+      "step": 24230
+    },
+    {
+      "epoch": 11.426214049976426,
+      "grad_norm": 0.0008139809942804277,
+      "learning_rate": 0.101033603565911,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 22484384,
+      "step": 24235
+    },
+    {
+      "epoch": 11.428571428571429,
+      "grad_norm": 0.0003332076594233513,
+      "learning_rate": 0.10097792946503102,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 22490736,
+      "step": 24240
+    },
+    {
+      "epoch": 11.430928807166431,
+      "grad_norm": 0.00038218419649638236,
+      "learning_rate": 0.10092226292397039,
+      "loss": 0.3021,
+      "num_input_tokens_seen": 22496128,
+      "step": 24245
+    },
+    {
+      "epoch": 11.433286185761434,
+      "grad_norm": 0.00022441391774918884,
+      "learning_rate": 0.10086660395131354,
+      "loss": 0.3131,
+      "num_input_tokens_seen": 22500608,
+      "step": 24250
+    },
+    {
+      "epoch": 11.435643564356436,
+      "grad_norm": 0.00042218496673740447,
+      "learning_rate": 0.10081095255564385,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 22504736,
+      "step": 24255
+    },
+    {
+      "epoch": 11.438000942951438,
+      "grad_norm": 0.00034093038993887603,
+      "learning_rate": 0.10075530874554335,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 22508880,
+      "step": 24260
+    },
+    {
+      "epoch": 11.44035832154644,
+      "grad_norm": 0.0004987854044884443,
+      "learning_rate": 0.10069967252959311,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 22513632,
+      "step": 24265
+    },
+    {
+      "epoch": 11.442715700141443,
+      "grad_norm": 0.0003449399955570698,
+      "learning_rate": 0.10064404391637297,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 22518032,
+      "step": 24270
+    },
+    {
+      "epoch": 11.445073078736446,
+      "grad_norm": 0.0003409422643017024,
+      "learning_rate": 0.10058842291446145,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 22522640,
+      "step": 24275
+    },
+    {
+      "epoch": 11.447430457331448,
+      "grad_norm": 0.00021915171237196773,
+      "learning_rate": 0.10053280953243608,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 22527648,
+      "step": 24280
+    },
+    {
+      "epoch": 11.44978783592645,
+      "grad_norm": 0.0004933718009851873,
+      "learning_rate": 0.10047720377887315,
+      "loss": 0.4003,
+      "num_input_tokens_seen": 22532976,
+      "step": 24285
+    },
+    {
+      "epoch": 11.452145214521453,
+      "grad_norm": 0.0004755235859192908,
+      "learning_rate": 0.10042160566234767,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 22536640,
+      "step": 24290
+    },
+    {
+      "epoch": 11.454502593116455,
+      "grad_norm": 0.0005586832412518561,
+      "learning_rate": 0.10036601519143372,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 22540864,
+      "step": 24295
+    },
+    {
+      "epoch": 11.456859971711458,
+      "grad_norm": 0.0002480389375705272,
+      "learning_rate": 0.1003104323747039,
+      "loss": 0.3288,
+      "num_input_tokens_seen": 22544576,
+      "step": 24300
+    },
+    {
+      "epoch": 11.45921735030646,
+      "grad_norm": 0.00035802190541289747,
+      "learning_rate": 0.10025485722072984,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 22549168,
+      "step": 24305
+    },
+    {
+      "epoch": 11.46157472890146,
+      "grad_norm": 0.0001925686519825831,
+      "learning_rate": 0.10019928973808201,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 22554720,
+      "step": 24310
+    },
+    {
+      "epoch": 11.463932107496463,
+      "grad_norm": 0.00026326533406972885,
+      "learning_rate": 0.10014372993532945,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 22559360,
+      "step": 24315
+    },
+    {
+      "epoch": 11.466289486091465,
+      "grad_norm": 0.0004498049966059625,
+      "learning_rate": 0.1000881778210403,
+      "loss": 0.3903,
+      "num_input_tokens_seen": 22564288,
+      "step": 24320
+    },
+    {
+      "epoch": 11.468646864686468,
+      "grad_norm": 0.00039574061520397663,
+      "learning_rate": 0.10003263340378142,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 22568912,
+      "step": 24325
+    },
+    {
+      "epoch": 11.47100424328147,
+      "grad_norm": 0.0002430749882478267,
+      "learning_rate": 0.09997709669211834,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 22574080,
+      "step": 24330
+    },
+    {
+      "epoch": 11.473361621876473,
+      "grad_norm": 0.0005179829895496368,
+      "learning_rate": 0.0999215676946156,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 22578304,
+      "step": 24335
+    },
+    {
+      "epoch": 11.475719000471475,
+      "grad_norm": 0.0003137186577077955,
+      "learning_rate": 0.0998660464198364,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 22582672,
+      "step": 24340
+    },
+    {
+      "epoch": 11.478076379066477,
+      "grad_norm": 0.0005346799734979868,
+      "learning_rate": 0.09981053287634288,
+      "loss": 0.2976,
+      "num_input_tokens_seen": 22587872,
+      "step": 24345
+    },
+    {
+      "epoch": 11.48043375766148,
+      "grad_norm": 0.000528760370798409,
+      "learning_rate": 0.09975502707269596,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 22592288,
+      "step": 24350
+    },
+    {
+      "epoch": 11.482791136256482,
+      "grad_norm": 0.0002004151901928708,
+      "learning_rate": 0.09969952901745524,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 22596224,
+      "step": 24355
+    },
+    {
+      "epoch": 11.485148514851485,
+      "grad_norm": 0.000532567675691098,
+      "learning_rate": 0.09964403871917925,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 22600592,
+      "step": 24360
+    },
+    {
+      "epoch": 11.487505893446487,
+      "grad_norm": 0.0005281645571812987,
+      "learning_rate": 0.09958855618642536,
+      "loss": 0.346,
+      "num_input_tokens_seen": 22606352,
+      "step": 24365
+    },
+    {
+      "epoch": 11.48986327204149,
+      "grad_norm": 0.0002469404716975987,
+      "learning_rate": 0.09953308142774955,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 22610752,
+      "step": 24370
+    },
+    {
+      "epoch": 11.492220650636492,
+      "grad_norm": 0.0003440286382101476,
+      "learning_rate": 0.09947761445170686,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 22616096,
+      "step": 24375
+    },
+    {
+      "epoch": 11.494578029231494,
+      "grad_norm": 0.00042140070581808686,
+      "learning_rate": 0.09942215526685086,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 22620336,
+      "step": 24380
+    },
+    {
+      "epoch": 11.496935407826497,
+      "grad_norm": 0.0006158342002891004,
+      "learning_rate": 0.09936670388173414,
+      "loss": 0.3512,
+      "num_input_tokens_seen": 22625232,
+      "step": 24385
+    },
+    {
+      "epoch": 11.499292786421499,
+      "grad_norm": 0.0005583286983892322,
+      "learning_rate": 0.09931126030490799,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 22629376,
+      "step": 24390
+    },
+    {
+      "epoch": 11.501650165016502,
+      "grad_norm": 0.0004356768331490457,
+      "learning_rate": 0.0992558245449225,
+      "loss": 0.2956,
+      "num_input_tokens_seen": 22634624,
+      "step": 24395
+    },
+    {
+      "epoch": 11.504007543611504,
+      "grad_norm": 0.000535409664735198,
+      "learning_rate": 0.09920039661032651,
+      "loss": 0.3876,
+      "num_input_tokens_seen": 22639312,
+      "step": 24400
+    },
+    {
+      "epoch": 11.504007543611504,
+      "eval_loss": 0.3275822699069977,
+      "eval_runtime": 33.5929,
+      "eval_samples_per_second": 28.071,
+      "eval_steps_per_second": 14.051,
+      "num_input_tokens_seen": 22639312,
+      "step": 24400
+    },
+    {
+      "epoch": 11.506364922206506,
+      "grad_norm": 0.00039520414429716766,
+      "learning_rate": 0.09914497650966782,
+      "loss": 0.3326,
+      "num_input_tokens_seen": 22643824,
+      "step": 24405
+    },
+    {
+      "epoch": 11.508722300801509,
+      "grad_norm": 0.0004051105643156916,
+      "learning_rate": 0.09908956425149276,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 22647488,
+      "step": 24410
+    },
+    {
+      "epoch": 11.511079679396511,
+      "grad_norm": 0.0002406531129963696,
+      "learning_rate": 0.09903415984434677,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 22652848,
+      "step": 24415
+    },
+    {
+      "epoch": 11.513437057991514,
+      "grad_norm": 0.0002979541604872793,
+      "learning_rate": 0.09897876329677373,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 22657056,
+      "step": 24420
+    },
+    {
+      "epoch": 11.515794436586516,
+      "grad_norm": 0.0004254818195477128,
+      "learning_rate": 0.09892337461731658,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 22661552,
+      "step": 24425
+    },
+    {
+      "epoch": 11.518151815181518,
+      "grad_norm": 0.00028919344185851514,
+      "learning_rate": 0.09886799381451693,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 22666640,
+      "step": 24430
+    },
+    {
+      "epoch": 11.52050919377652,
+      "grad_norm": 0.00023290494573302567,
+      "learning_rate": 0.09881262089691521,
+      "loss": 0.3676,
+      "num_input_tokens_seen": 22670896,
+      "step": 24435
+    },
+    {
+      "epoch": 11.522866572371523,
+      "grad_norm": 0.0002687414817046374,
+      "learning_rate": 0.09875725587305059,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 22675328,
+      "step": 24440
+    },
+    {
+      "epoch": 11.525223950966526,
+      "grad_norm": 0.00036061624996364117,
+      "learning_rate": 0.09870189875146111,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 22680688,
+      "step": 24445
+    },
+    {
+      "epoch": 11.527581329561528,
+      "grad_norm": 0.00047321117017418146,
+      "learning_rate": 0.09864654954068346,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 22684720,
+      "step": 24450
+    },
+    {
+      "epoch": 11.52993870815653,
+      "grad_norm": 0.0005468802992254496,
+      "learning_rate": 0.09859120824925326,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 22689488,
+      "step": 24455
+    },
+    {
+      "epoch": 11.532296086751533,
+      "grad_norm": 0.0006867770571261644,
+      "learning_rate": 0.09853587488570474,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 22693824,
+      "step": 24460
+    },
+    {
+      "epoch": 11.534653465346535,
+      "grad_norm": 0.000976761570200324,
+      "learning_rate": 0.09848054945857107,
+      "loss": 0.3771,
+      "num_input_tokens_seen": 22698608,
+      "step": 24465
+    },
+    {
+      "epoch": 11.537010843941538,
+      "grad_norm": 0.00044151744805276394,
+      "learning_rate": 0.09842523197638416,
+      "loss": 0.2799,
+      "num_input_tokens_seen": 22703136,
+      "step": 24470
+    },
+    {
+      "epoch": 11.53936822253654,
+      "grad_norm": 0.0002575217804405838,
+      "learning_rate": 0.09836992244767452,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 22708288,
+      "step": 24475
+    },
+    {
+      "epoch": 11.541725601131542,
+      "grad_norm": 0.0005212469841353595,
+      "learning_rate": 0.09831462088097168,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 22712288,
+      "step": 24480
+    },
+    {
+      "epoch": 11.544082979726545,
+      "grad_norm": 0.00044147545122541487,
+      "learning_rate": 0.09825932728480385,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 22716656,
+      "step": 24485
+    },
+    {
+      "epoch": 11.546440358321547,
+      "grad_norm": 0.0005543137085624039,
+      "learning_rate": 0.09820404166769794,
+      "loss": 0.3935,
+      "num_input_tokens_seen": 22721632,
+      "step": 24490
+    },
+    {
+      "epoch": 11.54879773691655,
+      "grad_norm": 0.0005243106279522181,
+      "learning_rate": 0.09814876403817978,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 22725552,
+      "step": 24495
+    },
+    {
+      "epoch": 11.551155115511552,
+      "grad_norm": 0.00019290261843707412,
+      "learning_rate": 0.09809349440477376,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 22730192,
+      "step": 24500
+    },
+    {
+      "epoch": 11.553512494106554,
+      "grad_norm": 0.0006048440118320286,
+      "learning_rate": 0.09803823277600317,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 22735056,
+      "step": 24505
+    },
+    {
+      "epoch": 11.555869872701557,
+      "grad_norm": 0.00035417996696196496,
+      "learning_rate": 0.09798297916039014,
+      "loss": 0.3532,
+      "num_input_tokens_seen": 22739152,
+      "step": 24510
+    },
+    {
+      "epoch": 11.558227251296557,
+      "grad_norm": 0.0003170485724695027,
+      "learning_rate": 0.09792773356645534,
+      "loss": 0.362,
+      "num_input_tokens_seen": 22743456,
+      "step": 24515
+    },
+    {
+      "epoch": 11.56058462989156,
+      "grad_norm": 0.0011701055336743593,
+      "learning_rate": 0.09787249600271843,
+      "loss": 0.347,
+      "num_input_tokens_seen": 22748336,
+      "step": 24520
+    },
+    {
+      "epoch": 11.562942008486562,
+      "grad_norm": 0.0004961691447533667,
+      "learning_rate": 0.09781726647769776,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 22752944,
+      "step": 24525
+    },
+    {
+      "epoch": 11.565299387081565,
+      "grad_norm": 0.0005528401816263795,
+      "learning_rate": 0.0977620449999103,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 22757072,
+      "step": 24530
+    },
+    {
+      "epoch": 11.567656765676567,
+      "grad_norm": 0.001047729980200529,
+      "learning_rate": 0.09770683157787204,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 22760832,
+      "step": 24535
+    },
+    {
+      "epoch": 11.57001414427157,
+      "grad_norm": 0.0008395847980864346,
+      "learning_rate": 0.09765162622009745,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 22766512,
+      "step": 24540
+    },
+    {
+      "epoch": 11.572371522866572,
+      "grad_norm": 0.0007807271322235465,
+      "learning_rate": 0.09759642893509995,
+      "loss": 0.357,
+      "num_input_tokens_seen": 22771632,
+      "step": 24545
+    },
+    {
+      "epoch": 11.574728901461574,
+      "grad_norm": 0.00024037070397753268,
+      "learning_rate": 0.09754123973139169,
+      "loss": 0.3254,
+      "num_input_tokens_seen": 22776016,
+      "step": 24550
+    },
+    {
+      "epoch": 11.577086280056577,
+      "grad_norm": 0.000462111464003101,
+      "learning_rate": 0.09748605861748345,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 22781248,
+      "step": 24555
+    },
+    {
+      "epoch": 11.579443658651579,
+      "grad_norm": 0.00044297720887698233,
+      "learning_rate": 0.0974308856018849,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 22785152,
+      "step": 24560
+    },
+    {
+      "epoch": 11.581801037246581,
+      "grad_norm": 0.0003214412136003375,
+      "learning_rate": 0.09737572069310449,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 22789520,
+      "step": 24565
+    },
+    {
+      "epoch": 11.584158415841584,
+      "grad_norm": 0.0009768089512363076,
+      "learning_rate": 0.09732056389964922,
+      "loss": 0.3644,
+      "num_input_tokens_seen": 22794496,
+      "step": 24570
+    },
+    {
+      "epoch": 11.586515794436586,
+      "grad_norm": 0.0003757704980671406,
+      "learning_rate": 0.097265415230025,
+      "loss": 0.3377,
+      "num_input_tokens_seen": 22799136,
+      "step": 24575
+    },
+    {
+      "epoch": 11.588873173031589,
+      "grad_norm": 0.0003137866733595729,
+      "learning_rate": 0.09721027469273648,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 22803760,
+      "step": 24580
+    },
+    {
+      "epoch": 11.591230551626591,
+      "grad_norm": 0.0002969765628222376,
+      "learning_rate": 0.09715514229628695,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 22807792,
+      "step": 24585
+    },
+    {
+      "epoch": 11.593587930221593,
+      "grad_norm": 0.0004070790018886328,
+      "learning_rate": 0.09710001804917864,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 22812864,
+      "step": 24590
+    },
+    {
+      "epoch": 11.595945308816596,
+      "grad_norm": 0.0007460379274562001,
+      "learning_rate": 0.09704490195991226,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 22817472,
+      "step": 24595
+    },
+    {
+      "epoch": 11.598302687411598,
+      "grad_norm": 0.0005466388538479805,
+      "learning_rate": 0.09698979403698753,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 22821728,
+      "step": 24600
+    },
+    {
+      "epoch": 11.598302687411598,
+      "eval_loss": 0.3286554515361786,
+      "eval_runtime": 33.5943,
+      "eval_samples_per_second": 28.07,
+      "eval_steps_per_second": 14.05,
+      "num_input_tokens_seen": 22821728,
+      "step": 24600
+    },
+    {
+      "epoch": 11.6006600660066,
+      "grad_norm": 0.00025570078287273645,
+      "learning_rate": 0.0969346942889027,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 22826400,
+      "step": 24605
+    },
+    {
+      "epoch": 11.603017444601603,
+      "grad_norm": 0.00025021974579431117,
+      "learning_rate": 0.09687960272415487,
+      "loss": 0.3133,
+      "num_input_tokens_seen": 22830608,
+      "step": 24610
+    },
+    {
+      "epoch": 11.605374823196605,
+      "grad_norm": 0.0004969537258148193,
+      "learning_rate": 0.0968245193512399,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 22835008,
+      "step": 24615
+    },
+    {
+      "epoch": 11.607732201791608,
+      "grad_norm": 0.0004003907088190317,
+      "learning_rate": 0.09676944417865221,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 22839360,
+      "step": 24620
+    },
+    {
+      "epoch": 11.61008958038661,
+      "grad_norm": 0.0004919799393974245,
+      "learning_rate": 0.09671437721488517,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 22844080,
+      "step": 24625
+    },
+    {
+      "epoch": 11.612446958981613,
+      "grad_norm": 0.0002871329488698393,
+      "learning_rate": 0.09665931846843086,
+      "loss": 0.2969,
+      "num_input_tokens_seen": 22848768,
+      "step": 24630
+    },
+    {
+      "epoch": 11.614804337576615,
+      "grad_norm": 0.00042112270602956414,
+      "learning_rate": 0.0966042679477799,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 22854000,
+      "step": 24635
+    },
+    {
+      "epoch": 11.617161716171617,
+      "grad_norm": 0.0001763677573762834,
+      "learning_rate": 0.09654922566142186,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 22858224,
+      "step": 24640
+    },
+    {
+      "epoch": 11.61951909476662,
+      "grad_norm": 0.00043916082358919084,
+      "learning_rate": 0.09649419161784498,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 22863168,
+      "step": 24645
+    },
+    {
+      "epoch": 11.621876473361622,
+      "grad_norm": 0.0003243070386815816,
+      "learning_rate": 0.09643916582553606,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 22867136,
+      "step": 24650
+    },
+    {
+      "epoch": 11.624233851956625,
+      "grad_norm": 0.000474045576993376,
+      "learning_rate": 0.09638414829298093,
+      "loss": 0.2665,
+      "num_input_tokens_seen": 22872224,
+      "step": 24655
+    },
+    {
+      "epoch": 11.626591230551627,
+      "grad_norm": 0.00042365831905044615,
+      "learning_rate": 0.09632913902866386,
+      "loss": 0.3845,
+      "num_input_tokens_seen": 22877136,
+      "step": 24660
+    },
+    {
+      "epoch": 11.62894860914663,
+      "grad_norm": 0.0001940650399774313,
+      "learning_rate": 0.096274138041068,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 22881920,
+      "step": 24665
+    },
+    {
+      "epoch": 11.631305987741632,
+      "grad_norm": 0.000452397478511557,
+      "learning_rate": 0.09621914533867527,
+      "loss": 0.319,
+      "num_input_tokens_seen": 22885520,
+      "step": 24670
+    },
+    {
+      "epoch": 11.633663366336634,
+      "grad_norm": 0.000681213685311377,
+      "learning_rate": 0.09616416092996616,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 22890080,
+      "step": 24675
+    },
+    {
+      "epoch": 11.636020744931637,
+      "grad_norm": 0.0002457236987538636,
+      "learning_rate": 0.09610918482342,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 22895040,
+      "step": 24680
+    },
+    {
+      "epoch": 11.638378123526639,
+      "grad_norm": 0.0004405370564199984,
+      "learning_rate": 0.09605421702751478,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 22899264,
+      "step": 24685
+    },
+    {
+      "epoch": 11.640735502121641,
+      "grad_norm": 0.00026732622063718736,
+      "learning_rate": 0.09599925755072718,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 22903776,
+      "step": 24690
+    },
+    {
+      "epoch": 11.643092880716644,
+      "grad_norm": 0.0003237082564737648,
+      "learning_rate": 0.09594430640153273,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 22907968,
+      "step": 24695
+    },
+    {
+      "epoch": 11.645450259311646,
+      "grad_norm": 0.0005477318773046136,
+      "learning_rate": 0.09588936358840547,
+      "loss": 0.3688,
+      "num_input_tokens_seen": 22911728,
+      "step": 24700
+    },
+    {
+      "epoch": 11.647807637906649,
+      "grad_norm": 0.0005574875976890326,
+      "learning_rate": 0.09583442911981836,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 22916080,
+      "step": 24705
+    },
+    {
+      "epoch": 11.65016501650165,
+      "grad_norm": 0.0005423418479040265,
+      "learning_rate": 0.09577950300424302,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 22921456,
+      "step": 24710
+    },
+    {
+      "epoch": 11.652522395096653,
+      "grad_norm": 0.0005106567987240851,
+      "learning_rate": 0.09572458525014967,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 22926112,
+      "step": 24715
+    },
+    {
+      "epoch": 11.654879773691654,
+      "grad_norm": 0.00023024817346595228,
+      "learning_rate": 0.0956696758660073,
+      "loss": 0.2903,
+      "num_input_tokens_seen": 22931360,
+      "step": 24720
+    },
+    {
+      "epoch": 11.657237152286656,
+      "grad_norm": 0.00022484709916170686,
+      "learning_rate": 0.09561477486028373,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 22936928,
+      "step": 24725
+    },
+    {
+      "epoch": 11.659594530881659,
+      "grad_norm": 0.0002572951780166477,
+      "learning_rate": 0.09555988224144528,
+      "loss": 0.2905,
+      "num_input_tokens_seen": 22941584,
+      "step": 24730
+    },
+    {
+      "epoch": 11.661951909476661,
+      "grad_norm": 0.00037414717371575534,
+      "learning_rate": 0.09550499801795717,
+      "loss": 0.3741,
+      "num_input_tokens_seen": 22946144,
+      "step": 24735
+    },
+    {
+      "epoch": 11.664309288071664,
+      "grad_norm": 0.00020769258844666183,
+      "learning_rate": 0.09545012219828314,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 22951328,
+      "step": 24740
+    },
+    {
+      "epoch": 11.666666666666666,
+      "grad_norm": 0.0004470340791158378,
+      "learning_rate": 0.09539525479088577,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 22956432,
+      "step": 24745
+    },
+    {
+      "epoch": 11.669024045261668,
+      "grad_norm": 0.00019383615290280432,
+      "learning_rate": 0.0953403958042264,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 22961200,
+      "step": 24750
+    },
+    {
+      "epoch": 11.67138142385667,
+      "grad_norm": 0.00021851350902579725,
+      "learning_rate": 0.09528554524676484,
+      "loss": 0.288,
+      "num_input_tokens_seen": 22965760,
+      "step": 24755
+    },
+    {
+      "epoch": 11.673738802451673,
+      "grad_norm": 0.0002812118618749082,
+      "learning_rate": 0.09523070312695978,
+      "loss": 0.3509,
+      "num_input_tokens_seen": 22969376,
+      "step": 24760
+    },
+    {
+      "epoch": 11.676096181046676,
+      "grad_norm": 0.00022226900910027325,
+      "learning_rate": 0.09517586945326863,
+      "loss": 0.3802,
+      "num_input_tokens_seen": 22973360,
+      "step": 24765
+    },
+    {
+      "epoch": 11.678453559641678,
+      "grad_norm": 0.00023544393479824066,
+      "learning_rate": 0.0951210442341473,
+      "loss": 0.2578,
+      "num_input_tokens_seen": 22977696,
+      "step": 24770
+    },
+    {
+      "epoch": 11.68081093823668,
+      "grad_norm": 0.00025622310931794345,
+      "learning_rate": 0.09506622747805066,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 22982016,
+      "step": 24775
+    },
+    {
+      "epoch": 11.683168316831683,
+      "grad_norm": 0.0004627734888345003,
+      "learning_rate": 0.09501141919343203,
+      "loss": 0.3989,
+      "num_input_tokens_seen": 22987040,
+      "step": 24780
+    },
+    {
+      "epoch": 11.685525695426685,
+      "grad_norm": 0.0005810625734739006,
+      "learning_rate": 0.09495661938874361,
+      "loss": 0.2912,
+      "num_input_tokens_seen": 22991712,
+      "step": 24785
+    },
+    {
+      "epoch": 11.687883074021688,
+      "grad_norm": 0.0003524064377415925,
+      "learning_rate": 0.0949018280724362,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 22996128,
+      "step": 24790
+    },
+    {
+      "epoch": 11.69024045261669,
+      "grad_norm": 0.0004767634382005781,
+      "learning_rate": 0.09484704525295934,
+      "loss": 0.328,
+      "num_input_tokens_seen": 23001584,
+      "step": 24795
+    },
+    {
+      "epoch": 11.692597831211692,
+      "grad_norm": 0.0002035405341302976,
+      "learning_rate": 0.09479227093876112,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 23005696,
+      "step": 24800
+    },
+    {
+      "epoch": 11.692597831211692,
+      "eval_loss": 0.32750260829925537,
+      "eval_runtime": 33.6448,
+      "eval_samples_per_second": 28.028,
+      "eval_steps_per_second": 14.029,
+      "num_input_tokens_seen": 23005696,
+      "step": 24800
+    },
+    {
+      "epoch": 11.694955209806695,
+      "grad_norm": 0.0007223578286357224,
+      "learning_rate": 0.0947375051382886,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 23011136,
+      "step": 24805
+    },
+    {
+      "epoch": 11.697312588401697,
+      "grad_norm": 0.00019007005903404206,
+      "learning_rate": 0.09468274785998718,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 23015856,
+      "step": 24810
+    },
+    {
+      "epoch": 11.6996699669967,
+      "grad_norm": 0.001073985593393445,
+      "learning_rate": 0.09462799911230127,
+      "loss": 0.3824,
+      "num_input_tokens_seen": 23020416,
+      "step": 24815
+    },
+    {
+      "epoch": 11.702027345591702,
+      "grad_norm": 0.00031602976378053427,
+      "learning_rate": 0.0945732589036737,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 23024480,
+      "step": 24820
+    },
+    {
+      "epoch": 11.704384724186705,
+      "grad_norm": 0.0006394603988155723,
+      "learning_rate": 0.09451852724254614,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 23029248,
+      "step": 24825
+    },
+    {
+      "epoch": 11.706742102781707,
+      "grad_norm": 0.00037765182787552476,
+      "learning_rate": 0.09446380413735894,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 23033440,
+      "step": 24830
+    },
+    {
+      "epoch": 11.70909948137671,
+      "grad_norm": 0.0005393201136030257,
+      "learning_rate": 0.09440908959655099,
+      "loss": 0.3547,
+      "num_input_tokens_seen": 23038944,
+      "step": 24835
+    },
+    {
+      "epoch": 11.711456859971712,
+      "grad_norm": 0.00025650751194916666,
+      "learning_rate": 0.09435438362856004,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 23044240,
+      "step": 24840
+    },
+    {
+      "epoch": 11.713814238566714,
+      "grad_norm": 0.0007845918880775571,
+      "learning_rate": 0.0942996862418225,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 23049200,
+      "step": 24845
+    },
+    {
+      "epoch": 11.716171617161717,
+      "grad_norm": 0.0007059758645482361,
+      "learning_rate": 0.09424499744477322,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 23053328,
+      "step": 24850
+    },
+    {
+      "epoch": 11.718528995756719,
+      "grad_norm": 0.00019361056911293417,
+      "learning_rate": 0.09419031724584608,
+      "loss": 0.2707,
+      "num_input_tokens_seen": 23058048,
+      "step": 24855
+    },
+    {
+      "epoch": 11.720886374351721,
+      "grad_norm": 0.0002221408940386027,
+      "learning_rate": 0.09413564565347331,
+      "loss": 0.2797,
+      "num_input_tokens_seen": 23062736,
+      "step": 24860
+    },
+    {
+      "epoch": 11.723243752946724,
+      "grad_norm": 0.0005696064326912165,
+      "learning_rate": 0.094080982676086,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 23067632,
+      "step": 24865
+    },
+    {
+      "epoch": 11.725601131541726,
+      "grad_norm": 0.0003970164980273694,
+      "learning_rate": 0.09402632832211395,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 23071584,
+      "step": 24870
+    },
+    {
+      "epoch": 11.727958510136729,
+      "grad_norm": 0.0005247208173386753,
+      "learning_rate": 0.09397168259998541,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 23076336,
+      "step": 24875
+    },
+    {
+      "epoch": 11.730315888731731,
+      "grad_norm": 0.00032633254886604846,
+      "learning_rate": 0.09391704551812759,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 23080896,
+      "step": 24880
+    },
+    {
+      "epoch": 11.732673267326733,
+      "grad_norm": 0.00022528089175466448,
+      "learning_rate": 0.09386241708496605,
+      "loss": 0.3734,
+      "num_input_tokens_seen": 23084944,
+      "step": 24885
+    },
+    {
+      "epoch": 11.735030645921736,
+      "grad_norm": 0.0006200555944815278,
+      "learning_rate": 0.09380779730892527,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 23090544,
+      "step": 24890
+    },
+    {
+      "epoch": 11.737388024516738,
+      "grad_norm": 0.0001637651730561629,
+      "learning_rate": 0.09375318619842836,
+      "loss": 0.289,
+      "num_input_tokens_seen": 23094880,
+      "step": 24895
+    },
+    {
+      "epoch": 11.73974540311174,
+      "grad_norm": 0.0004894857993349433,
+      "learning_rate": 0.09369858376189696,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 23099680,
+      "step": 24900
+    },
+    {
+      "epoch": 11.742102781706743,
+      "grad_norm": 0.0004085547407157719,
+      "learning_rate": 0.09364399000775143,
+      "loss": 0.2987,
+      "num_input_tokens_seen": 23103776,
+      "step": 24905
+    },
+    {
+      "epoch": 11.744460160301745,
+      "grad_norm": 0.00027057703118771315,
+      "learning_rate": 0.09358940494441093,
+      "loss": 0.2893,
+      "num_input_tokens_seen": 23108384,
+      "step": 24910
+    },
+    {
+      "epoch": 11.746817538896746,
+      "grad_norm": 0.0002587097987998277,
+      "learning_rate": 0.09353482858029301,
+      "loss": 0.3331,
+      "num_input_tokens_seen": 23113360,
+      "step": 24915
+    },
+    {
+      "epoch": 11.749174917491748,
+      "grad_norm": 0.0003118181193713099,
+      "learning_rate": 0.09348026092381419,
+      "loss": 0.3557,
+      "num_input_tokens_seen": 23117584,
+      "step": 24920
+    },
+    {
+      "epoch": 11.75153229608675,
+      "grad_norm": 0.0005885744467377663,
+      "learning_rate": 0.09342570198338931,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 23122480,
+      "step": 24925
+    },
+    {
+      "epoch": 11.753889674681753,
+      "grad_norm": 0.0002687140950001776,
+      "learning_rate": 0.0933711517674322,
+      "loss": 0.2809,
+      "num_input_tokens_seen": 23127136,
+      "step": 24930
+    },
+    {
+      "epoch": 11.756247053276756,
+      "grad_norm": 0.0004678129917010665,
+      "learning_rate": 0.09331661028435513,
+      "loss": 0.2937,
+      "num_input_tokens_seen": 23132288,
+      "step": 24935
+    },
+    {
+      "epoch": 11.758604431871758,
+      "grad_norm": 0.0002860959793906659,
+      "learning_rate": 0.09326207754256909,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 23137344,
+      "step": 24940
+    },
+    {
+      "epoch": 11.76096181046676,
+      "grad_norm": 0.0001513692259322852,
+      "learning_rate": 0.09320755355048366,
+      "loss": 0.3586,
+      "num_input_tokens_seen": 23141952,
+      "step": 24945
+    },
+    {
+      "epoch": 11.763319189061763,
+      "grad_norm": 0.00021299724176060408,
+      "learning_rate": 0.09315303831650722,
+      "loss": 0.4265,
+      "num_input_tokens_seen": 23146720,
+      "step": 24950
+    },
+    {
+      "epoch": 11.765676567656765,
+      "grad_norm": 0.0006305932765826583,
+      "learning_rate": 0.09309853184904661,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 23151280,
+      "step": 24955
+    },
+    {
+      "epoch": 11.768033946251768,
+      "grad_norm": 0.00023448403226211667,
+      "learning_rate": 0.09304403415650753,
+      "loss": 0.3145,
+      "num_input_tokens_seen": 23155600,
+      "step": 24960
+    },
+    {
+      "epoch": 11.77039132484677,
+      "grad_norm": 0.0009074413101188838,
+      "learning_rate": 0.09298954524729405,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 23159392,
+      "step": 24965
+    },
+    {
+      "epoch": 11.772748703441772,
+      "grad_norm": 0.00033857746166177094,
+      "learning_rate": 0.09293506512980916,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 23164384,
+      "step": 24970
+    },
+    {
+      "epoch": 11.775106082036775,
+      "grad_norm": 0.0002497537643648684,
+      "learning_rate": 0.0928805938124544,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 23168672,
+      "step": 24975
+    },
+    {
+      "epoch": 11.777463460631777,
+      "grad_norm": 0.00026446912670508027,
+      "learning_rate": 0.09282613130362982,
+      "loss": 0.2676,
+      "num_input_tokens_seen": 23173280,
+      "step": 24980
+    },
+    {
+      "epoch": 11.77982083922678,
+      "grad_norm": 0.00021819186804350466,
+      "learning_rate": 0.09277167761173427,
+      "loss": 0.363,
+      "num_input_tokens_seen": 23177936,
+      "step": 24985
+    },
+    {
+      "epoch": 11.782178217821782,
+      "grad_norm": 0.0006312475306913257,
+      "learning_rate": 0.0927172327451653,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 23182144,
+      "step": 24990
+    },
+    {
+      "epoch": 11.784535596416784,
+      "grad_norm": 0.00020179332932457328,
+      "learning_rate": 0.09266279671231882,
+      "loss": 0.2571,
+      "num_input_tokens_seen": 23186736,
+      "step": 24995
+    },
+    {
+      "epoch": 11.786892975011787,
+      "grad_norm": 0.0005009484011679888,
+      "learning_rate": 0.09260836952158967,
+      "loss": 0.296,
+      "num_input_tokens_seen": 23192112,
+      "step": 25000
+    },
+    {
+      "epoch": 11.786892975011787,
+      "eval_loss": 0.3259987235069275,
+      "eval_runtime": 33.5551,
+      "eval_samples_per_second": 28.103,
+      "eval_steps_per_second": 14.066,
+      "num_input_tokens_seen": 23192112,
+      "step": 25000
+    },
+    {
+      "epoch": 11.78925035360679,
+      "grad_norm": 0.0007165277493186295,
+      "learning_rate": 0.09255395118137114,
+      "loss": 0.3725,
+      "num_input_tokens_seen": 23196080,
+      "step": 25005
+    },
+    {
+      "epoch": 11.791607732201792,
+      "grad_norm": 0.0007396425935439765,
+      "learning_rate": 0.09249954170005527,
+      "loss": 0.3164,
+      "num_input_tokens_seen": 23200976,
+      "step": 25010
+    },
+    {
+      "epoch": 11.793965110796794,
+      "grad_norm": 0.0004929900169372559,
+      "learning_rate": 0.0924451410860327,
+      "loss": 0.2696,
+      "num_input_tokens_seen": 23205328,
+      "step": 25015
+    },
+    {
+      "epoch": 11.796322489391796,
+      "grad_norm": 0.00018755218479782343,
+      "learning_rate": 0.09239074934769258,
+      "loss": 0.338,
+      "num_input_tokens_seen": 23209536,
+      "step": 25020
+    },
+    {
+      "epoch": 11.798679867986799,
+      "grad_norm": 0.00037919642636552453,
+      "learning_rate": 0.09233636649342288,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 23214448,
+      "step": 25025
+    },
+    {
+      "epoch": 11.801037246581801,
+      "grad_norm": 0.0005696666776202619,
+      "learning_rate": 0.09228199253161017,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 23219184,
+      "step": 25030
+    },
+    {
+      "epoch": 11.803394625176804,
+      "grad_norm": 0.0002820479276124388,
+      "learning_rate": 0.09222762747063949,
+      "loss": 0.3948,
+      "num_input_tokens_seen": 23223328,
+      "step": 25035
+    },
+    {
+      "epoch": 11.805752003771806,
+      "grad_norm": 0.0002795850159600377,
+      "learning_rate": 0.09217327131889473,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 23227632,
+      "step": 25040
+    },
+    {
+      "epoch": 11.808109382366808,
+      "grad_norm": 0.0004158426891081035,
+      "learning_rate": 0.09211892408475818,
+      "loss": 0.32,
+      "num_input_tokens_seen": 23232256,
+      "step": 25045
+    },
+    {
+      "epoch": 11.81046676096181,
+      "grad_norm": 0.0003705502604134381,
+      "learning_rate": 0.09206458577661089,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 23236704,
+      "step": 25050
+    },
+    {
+      "epoch": 11.812824139556813,
+      "grad_norm": 0.0003707340802066028,
+      "learning_rate": 0.09201025640283263,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 23241152,
+      "step": 25055
+    },
+    {
+      "epoch": 11.815181518151816,
+      "grad_norm": 0.0003254258481319994,
+      "learning_rate": 0.09195593597180148,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 23245312,
+      "step": 25060
+    },
+    {
+      "epoch": 11.817538896746818,
+      "grad_norm": 0.000327233545249328,
+      "learning_rate": 0.09190162449189444,
+      "loss": 0.3893,
+      "num_input_tokens_seen": 23249472,
+      "step": 25065
+    },
+    {
+      "epoch": 11.81989627534182,
+      "grad_norm": 0.0007439456530846655,
+      "learning_rate": 0.09184732197148705,
+      "loss": 0.3068,
+      "num_input_tokens_seen": 23254864,
+      "step": 25070
+    },
+    {
+      "epoch": 11.822253653936823,
+      "grad_norm": 0.0003630339924711734,
+      "learning_rate": 0.09179302841895343,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 23259424,
+      "step": 25075
+    },
+    {
+      "epoch": 11.824611032531825,
+      "grad_norm": 0.0005749320262111723,
+      "learning_rate": 0.09173874384266625,
+      "loss": 0.2787,
+      "num_input_tokens_seen": 23264720,
+      "step": 25080
+    },
+    {
+      "epoch": 11.826968411126828,
+      "grad_norm": 0.0005539932753890753,
+      "learning_rate": 0.09168446825099695,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 23269040,
+      "step": 25085
+    },
+    {
+      "epoch": 11.82932578972183,
+      "grad_norm": 0.00043899178854189813,
+      "learning_rate": 0.09163020165231545,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 23273552,
+      "step": 25090
+    },
+    {
+      "epoch": 11.831683168316832,
+      "grad_norm": 0.0003104877832811326,
+      "learning_rate": 0.09157594405499044,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 23278192,
+      "step": 25095
+    },
+    {
+      "epoch": 11.834040546911835,
+      "grad_norm": 0.00037812654045410454,
+      "learning_rate": 0.09152169546738899,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 23282816,
+      "step": 25100
+    },
+    {
+      "epoch": 11.836397925506837,
+      "grad_norm": 0.0003514551790431142,
+      "learning_rate": 0.09146745589787698,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 23287168,
+      "step": 25105
+    },
+    {
+      "epoch": 11.838755304101838,
+      "grad_norm": 0.0007296538096852601,
+      "learning_rate": 0.09141322535481891,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 23291904,
+      "step": 25110
+    },
+    {
+      "epoch": 11.841112682696842,
+      "grad_norm": 0.0006191571592353284,
+      "learning_rate": 0.0913590038465777,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 23296976,
+      "step": 25115
+    },
+    {
+      "epoch": 11.843470061291843,
+      "grad_norm": 0.0005656919674947858,
+      "learning_rate": 0.09130479138151505,
+      "loss": 0.2721,
+      "num_input_tokens_seen": 23301376,
+      "step": 25120
+    },
+    {
+      "epoch": 11.845827439886845,
+      "grad_norm": 0.00023109483299776912,
+      "learning_rate": 0.09125058796799114,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 23306368,
+      "step": 25125
+    },
+    {
+      "epoch": 11.848184818481847,
+      "grad_norm": 0.0003357685054652393,
+      "learning_rate": 0.09119639361436485,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 23310512,
+      "step": 25130
+    },
+    {
+      "epoch": 11.85054219707685,
+      "grad_norm": 0.0006169508560560644,
+      "learning_rate": 0.09114220832899368,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 23315456,
+      "step": 25135
+    },
+    {
+      "epoch": 11.852899575671852,
+      "grad_norm": 0.0018639399204403162,
+      "learning_rate": 0.0910880321202336,
+      "loss": 0.3793,
+      "num_input_tokens_seen": 23320640,
+      "step": 25140
+    },
+    {
+      "epoch": 11.855256954266855,
+      "grad_norm": 0.00036470688064582646,
+      "learning_rate": 0.09103386499643933,
+      "loss": 0.3613,
+      "num_input_tokens_seen": 23324768,
+      "step": 25145
+    },
+    {
+      "epoch": 11.857614332861857,
+      "grad_norm": 0.000989451422356069,
+      "learning_rate": 0.09097970696596407,
+      "loss": 0.3232,
+      "num_input_tokens_seen": 23329280,
+      "step": 25150
+    },
+    {
+      "epoch": 11.85997171145686,
+      "grad_norm": 0.0004783881886396557,
+      "learning_rate": 0.09092555803715971,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 23333488,
+      "step": 25155
+    },
+    {
+      "epoch": 11.862329090051862,
+      "grad_norm": 0.0006018067360855639,
+      "learning_rate": 0.0908714182183767,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 23337520,
+      "step": 25160
+    },
+    {
+      "epoch": 11.864686468646864,
+      "grad_norm": 0.0002835870545823127,
+      "learning_rate": 0.090817287517964,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 23341696,
+      "step": 25165
+    },
+    {
+      "epoch": 11.867043847241867,
+      "grad_norm": 0.0006385606830008328,
+      "learning_rate": 0.09076316594426931,
+      "loss": 0.33,
+      "num_input_tokens_seen": 23346672,
+      "step": 25170
+    },
+    {
+      "epoch": 11.869401225836869,
+      "grad_norm": 0.00030336028430610895,
+      "learning_rate": 0.09070905350563888,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 23351232,
+      "step": 25175
+    },
+    {
+      "epoch": 11.871758604431871,
+      "grad_norm": 0.0006567868404090405,
+      "learning_rate": 0.09065495021041745,
+      "loss": 0.2907,
+      "num_input_tokens_seen": 23356000,
+      "step": 25180
+    },
+    {
+      "epoch": 11.874115983026874,
+      "grad_norm": 0.0010971806477755308,
+      "learning_rate": 0.09060085606694851,
+      "loss": 0.3127,
+      "num_input_tokens_seen": 23359936,
+      "step": 25185
+    },
+    {
+      "epoch": 11.876473361621876,
+      "grad_norm": 0.00034912402043119073,
+      "learning_rate": 0.09054677108357405,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 23364864,
+      "step": 25190
+    },
+    {
+      "epoch": 11.878830740216879,
+      "grad_norm": 0.0008518710965290666,
+      "learning_rate": 0.09049269526863457,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 23368960,
+      "step": 25195
+    },
+    {
+      "epoch": 11.881188118811881,
+      "grad_norm": 0.0006735942442901433,
+      "learning_rate": 0.09043862863046935,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 23373840,
+      "step": 25200
+    },
+    {
+      "epoch": 11.881188118811881,
+      "eval_loss": 0.32624489068984985,
+      "eval_runtime": 33.6067,
+      "eval_samples_per_second": 28.06,
+      "eval_steps_per_second": 14.045,
+      "num_input_tokens_seen": 23373840,
+      "step": 25200
+    },
+    {
+      "epoch": 11.883545497406883,
+      "grad_norm": 0.0005591331282630563,
+      "learning_rate": 0.09038457117741602,
+      "loss": 0.347,
+      "num_input_tokens_seen": 23378416,
+      "step": 25205
+    },
+    {
+      "epoch": 11.885902876001886,
+      "grad_norm": 0.0006093556294217706,
+      "learning_rate": 0.09033052291781099,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 23382736,
+      "step": 25210
+    },
+    {
+      "epoch": 11.888260254596888,
+      "grad_norm": 0.0005590502987615764,
+      "learning_rate": 0.09027648385998926,
+      "loss": 0.2966,
+      "num_input_tokens_seen": 23386976,
+      "step": 25215
+    },
+    {
+      "epoch": 11.89061763319189,
+      "grad_norm": 0.0005728938267566264,
+      "learning_rate": 0.09022245401228417,
+      "loss": 0.3067,
+      "num_input_tokens_seen": 23391504,
+      "step": 25220
+    },
+    {
+      "epoch": 11.892975011786893,
+      "grad_norm": 0.0003671474405564368,
+      "learning_rate": 0.09016843338302792,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 23396528,
+      "step": 25225
+    },
+    {
+      "epoch": 11.895332390381895,
+      "grad_norm": 0.00037888524821028113,
+      "learning_rate": 0.09011442198055115,
+      "loss": 0.3027,
+      "num_input_tokens_seen": 23401376,
+      "step": 25230
+    },
+    {
+      "epoch": 11.897689768976898,
+      "grad_norm": 0.0002972743532154709,
+      "learning_rate": 0.09006041981318305,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 23406720,
+      "step": 25235
+    },
+    {
+      "epoch": 11.9000471475719,
+      "grad_norm": 0.00021284881222527474,
+      "learning_rate": 0.09000642688925149,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 23411040,
+      "step": 25240
+    },
+    {
+      "epoch": 11.902404526166903,
+      "grad_norm": 0.0010267386678606272,
+      "learning_rate": 0.0899524432170828,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 23416064,
+      "step": 25245
+    },
+    {
+      "epoch": 11.904761904761905,
+      "grad_norm": 0.000505126838106662,
+      "learning_rate": 0.08989846880500196,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 23420896,
+      "step": 25250
+    },
+    {
+      "epoch": 11.907119283356908,
+      "grad_norm": 0.0003207749978173524,
+      "learning_rate": 0.08984450366133256,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 23425392,
+      "step": 25255
+    },
+    {
+      "epoch": 11.90947666195191,
+      "grad_norm": 0.00039372369064949453,
+      "learning_rate": 0.08979054779439664,
+      "loss": 0.3801,
+      "num_input_tokens_seen": 23429792,
+      "step": 25260
+    },
+    {
+      "epoch": 11.911834040546912,
+      "grad_norm": 0.0013810023665428162,
+      "learning_rate": 0.08973660121251485,
+      "loss": 0.355,
+      "num_input_tokens_seen": 23434384,
+      "step": 25265
+    },
+    {
+      "epoch": 11.914191419141915,
+      "grad_norm": 0.00026892777532339096,
+      "learning_rate": 0.08968266392400655,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 23438560,
+      "step": 25270
+    },
+    {
+      "epoch": 11.916548797736917,
+      "grad_norm": 0.00026761635672301054,
+      "learning_rate": 0.0896287359371894,
+      "loss": 0.3099,
+      "num_input_tokens_seen": 23442352,
+      "step": 25275
+    },
+    {
+      "epoch": 11.91890617633192,
+      "grad_norm": 0.00036398760857991874,
+      "learning_rate": 0.08957481726037989,
+      "loss": 0.2915,
+      "num_input_tokens_seen": 23447360,
+      "step": 25280
+    },
+    {
+      "epoch": 11.921263554926922,
+      "grad_norm": 0.000667450949549675,
+      "learning_rate": 0.08952090790189286,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 23452256,
+      "step": 25285
+    },
+    {
+      "epoch": 11.923620933521924,
+      "grad_norm": 0.0003055485140066594,
+      "learning_rate": 0.08946700787004187,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 23456592,
+      "step": 25290
+    },
+    {
+      "epoch": 11.925978312116927,
+      "grad_norm": 0.0002301438944414258,
+      "learning_rate": 0.08941311717313899,
+      "loss": 0.2872,
+      "num_input_tokens_seen": 23460416,
+      "step": 25295
+    },
+    {
+      "epoch": 11.92833569071193,
+      "grad_norm": 0.00030279820202849805,
+      "learning_rate": 0.08935923581949483,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 23464656,
+      "step": 25300
+    },
+    {
+      "epoch": 11.930693069306932,
+      "grad_norm": 0.00033896591048687696,
+      "learning_rate": 0.0893053638174185,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 23469200,
+      "step": 25305
+    },
+    {
+      "epoch": 11.933050447901934,
+      "grad_norm": 0.00045902066631242633,
+      "learning_rate": 0.0892515011752179,
+      "loss": 0.361,
+      "num_input_tokens_seen": 23474576,
+      "step": 25310
+    },
+    {
+      "epoch": 11.935407826496935,
+      "grad_norm": 0.0007249775226227939,
+      "learning_rate": 0.08919764790119918,
+      "loss": 0.344,
+      "num_input_tokens_seen": 23478832,
+      "step": 25315
+    },
+    {
+      "epoch": 11.937765205091937,
+      "grad_norm": 0.0002450923784635961,
+      "learning_rate": 0.08914380400366727,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 23483824,
+      "step": 25320
+    },
+    {
+      "epoch": 11.94012258368694,
+      "grad_norm": 0.0013534111203625798,
+      "learning_rate": 0.08908996949092551,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 23490240,
+      "step": 25325
+    },
+    {
+      "epoch": 11.942479962281942,
+      "grad_norm": 0.0002848617441486567,
+      "learning_rate": 0.08903614437127592,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 23494992,
+      "step": 25330
+    },
+    {
+      "epoch": 11.944837340876944,
+      "grad_norm": 0.0005099168047308922,
+      "learning_rate": 0.088982328653019,
+      "loss": 0.3664,
+      "num_input_tokens_seen": 23499680,
+      "step": 25335
+    },
+    {
+      "epoch": 11.947194719471947,
+      "grad_norm": 0.00039183985791169107,
+      "learning_rate": 0.0889285223444538,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 23503568,
+      "step": 25340
+    },
+    {
+      "epoch": 11.949552098066949,
+      "grad_norm": 0.00029854514286853373,
+      "learning_rate": 0.08887472545387787,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 23507616,
+      "step": 25345
+    },
+    {
+      "epoch": 11.951909476661951,
+      "grad_norm": 0.0005309765692800283,
+      "learning_rate": 0.08882093798958751,
+      "loss": 0.3293,
+      "num_input_tokens_seen": 23512128,
+      "step": 25350
+    },
+    {
+      "epoch": 11.954266855256954,
+      "grad_norm": 0.0002835858322214335,
+      "learning_rate": 0.08876715995987726,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 23517488,
+      "step": 25355
+    },
+    {
+      "epoch": 11.956624233851956,
+      "grad_norm": 0.00046439821016974747,
+      "learning_rate": 0.08871339137304052,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 23521536,
+      "step": 25360
+    },
+    {
+      "epoch": 11.958981612446959,
+      "grad_norm": 0.00033289234852418303,
+      "learning_rate": 0.0886596322373689,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 23527088,
+      "step": 25365
+    },
+    {
+      "epoch": 11.961338991041961,
+      "grad_norm": 0.0004411080153658986,
+      "learning_rate": 0.08860588256115293,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 23531552,
+      "step": 25370
+    },
+    {
+      "epoch": 11.963696369636963,
+      "grad_norm": 0.000654912437312305,
+      "learning_rate": 0.0885521423526814,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 23536288,
+      "step": 25375
+    },
+    {
+      "epoch": 11.966053748231966,
+      "grad_norm": 0.0003779998223762959,
+      "learning_rate": 0.08849841162024165,
+      "loss": 0.3009,
+      "num_input_tokens_seen": 23541552,
+      "step": 25380
+    },
+    {
+      "epoch": 11.968411126826968,
+      "grad_norm": 0.0004708580090664327,
+      "learning_rate": 0.08844469037211973,
+      "loss": 0.376,
+      "num_input_tokens_seen": 23546496,
+      "step": 25385
+    },
+    {
+      "epoch": 11.97076850542197,
+      "grad_norm": 0.00020678630971815437,
+      "learning_rate": 0.08839097861660014,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 23552096,
+      "step": 25390
+    },
+    {
+      "epoch": 11.973125884016973,
+      "grad_norm": 0.0004754637193400413,
+      "learning_rate": 0.08833727636196585,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 23555744,
+      "step": 25395
+    },
+    {
+      "epoch": 11.975483262611975,
+      "grad_norm": 0.0006875020335428417,
+      "learning_rate": 0.08828358361649848,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 23559968,
+      "step": 25400
+    },
+    {
+      "epoch": 11.975483262611975,
+      "eval_loss": 0.32809603214263916,
+      "eval_runtime": 33.6172,
+      "eval_samples_per_second": 28.051,
+      "eval_steps_per_second": 14.04,
+      "num_input_tokens_seen": 23559968,
+      "step": 25400
+    },
+    {
+      "epoch": 11.977840641206978,
+      "grad_norm": 0.00028413848485797644,
+      "learning_rate": 0.08822990038847807,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 23564816,
+      "step": 25405
+    },
+    {
+      "epoch": 11.98019801980198,
+      "grad_norm": 0.0007922236691229045,
+      "learning_rate": 0.08817622668618325,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 23568992,
+      "step": 25410
+    },
+    {
+      "epoch": 11.982555398396983,
+      "grad_norm": 0.0003905164485331625,
+      "learning_rate": 0.08812256251789125,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 23574112,
+      "step": 25415
+    },
+    {
+      "epoch": 11.984912776991985,
+      "grad_norm": 0.00029271916719153523,
+      "learning_rate": 0.08806890789187766,
+      "loss": 0.3591,
+      "num_input_tokens_seen": 23578384,
+      "step": 25420
+    },
+    {
+      "epoch": 11.987270155586987,
+      "grad_norm": 0.0006128951208665967,
+      "learning_rate": 0.08801526281641672,
+      "loss": 0.4035,
+      "num_input_tokens_seen": 23582368,
+      "step": 25425
+    },
+    {
+      "epoch": 11.98962753418199,
+      "grad_norm": 0.0004141548997722566,
+      "learning_rate": 0.0879616272997813,
+      "loss": 0.3422,
+      "num_input_tokens_seen": 23586560,
+      "step": 25430
+    },
+    {
+      "epoch": 11.991984912776992,
+      "grad_norm": 0.00029031001031398773,
+      "learning_rate": 0.08790800135024247,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 23590976,
+      "step": 25435
+    },
+    {
+      "epoch": 11.994342291371995,
+      "grad_norm": 0.0006855164538137615,
+      "learning_rate": 0.08785438497607023,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 23596192,
+      "step": 25440
+    },
+    {
+      "epoch": 11.996699669966997,
+      "grad_norm": 0.000688950065523386,
+      "learning_rate": 0.08780077818553277,
+      "loss": 0.2742,
+      "num_input_tokens_seen": 23600624,
+      "step": 25445
+    },
+    {
+      "epoch": 11.999057048562,
+      "grad_norm": 0.0003462849126663059,
+      "learning_rate": 0.0877471809868969,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 23604640,
+      "step": 25450
+    },
+    {
+      "epoch": 12.001414427157002,
+      "grad_norm": 0.0003291376924607903,
+      "learning_rate": 0.08769359338842811,
+      "loss": 0.3894,
+      "num_input_tokens_seen": 23609408,
+      "step": 25455
+    },
+    {
+      "epoch": 12.003771805752004,
+      "grad_norm": 0.0005021170363761485,
+      "learning_rate": 0.08764001539839016,
+      "loss": 0.295,
+      "num_input_tokens_seen": 23613568,
+      "step": 25460
+    },
+    {
+      "epoch": 12.006129184347007,
+      "grad_norm": 0.00020413281163200736,
+      "learning_rate": 0.08758644702504548,
+      "loss": 0.2984,
+      "num_input_tokens_seen": 23618720,
+      "step": 25465
+    },
+    {
+      "epoch": 12.008486562942009,
+      "grad_norm": 0.000383976410375908,
+      "learning_rate": 0.0875328882766551,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 23623104,
+      "step": 25470
+    },
+    {
+      "epoch": 12.010843941537011,
+      "grad_norm": 0.0003071047831326723,
+      "learning_rate": 0.08747933916147828,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 23627280,
+      "step": 25475
+    },
+    {
+      "epoch": 12.013201320132014,
+      "grad_norm": 0.00017726740043144673,
+      "learning_rate": 0.0874257996877731,
+      "loss": 0.2714,
+      "num_input_tokens_seen": 23631856,
+      "step": 25480
+    },
+    {
+      "epoch": 12.015558698727016,
+      "grad_norm": 0.00020452099852263927,
+      "learning_rate": 0.08737226986379593,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 23637280,
+      "step": 25485
+    },
+    {
+      "epoch": 12.017916077322019,
+      "grad_norm": 0.00020019427756778896,
+      "learning_rate": 0.08731874969780173,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 23641200,
+      "step": 25490
+    },
+    {
+      "epoch": 12.020273455917021,
+      "grad_norm": 0.0004143771075177938,
+      "learning_rate": 0.08726523919804412,
+      "loss": 0.4106,
+      "num_input_tokens_seen": 23645520,
+      "step": 25495
+    },
+    {
+      "epoch": 12.022630834512023,
+      "grad_norm": 0.0005494941142387688,
+      "learning_rate": 0.08721173837277492,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 23650256,
+      "step": 25500
+    },
+    {
+      "epoch": 12.024988213107026,
+      "grad_norm": 0.0005081029376015067,
+      "learning_rate": 0.08715824723024479,
+      "loss": 0.3175,
+      "num_input_tokens_seen": 23654688,
+      "step": 25505
+    },
+    {
+      "epoch": 12.027345591702028,
+      "grad_norm": 0.00028966032550670207,
+      "learning_rate": 0.08710476577870258,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 23658608,
+      "step": 25510
+    },
+    {
+      "epoch": 12.029702970297029,
+      "grad_norm": 0.00021966245549265295,
+      "learning_rate": 0.08705129402639587,
+      "loss": 0.3388,
+      "num_input_tokens_seen": 23663200,
+      "step": 25515
+    },
+    {
+      "epoch": 12.032060348892031,
+      "grad_norm": 0.0005007226718589664,
+      "learning_rate": 0.08699783198157078,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 23668592,
+      "step": 25520
+    },
+    {
+      "epoch": 12.034417727487034,
+      "grad_norm": 0.00024415075313299894,
+      "learning_rate": 0.08694437965247163,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 23672896,
+      "step": 25525
+    },
+    {
+      "epoch": 12.036775106082036,
+      "grad_norm": 0.0002867183357011527,
+      "learning_rate": 0.08689093704734165,
+      "loss": 0.3635,
+      "num_input_tokens_seen": 23677984,
+      "step": 25530
+    },
+    {
+      "epoch": 12.039132484677038,
+      "grad_norm": 0.0003637697664089501,
+      "learning_rate": 0.08683750417442222,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 23681840,
+      "step": 25535
+    },
+    {
+      "epoch": 12.04148986327204,
+      "grad_norm": 0.000325189670547843,
+      "learning_rate": 0.08678408104195334,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 23686880,
+      "step": 25540
+    },
+    {
+      "epoch": 12.043847241867043,
+      "grad_norm": 0.00044889748096466064,
+      "learning_rate": 0.08673066765817365,
+      "loss": 0.337,
+      "num_input_tokens_seen": 23691696,
+      "step": 25545
+    },
+    {
+      "epoch": 12.046204620462046,
+      "grad_norm": 0.00030615186551585793,
+      "learning_rate": 0.08667726403132005,
+      "loss": 0.3152,
+      "num_input_tokens_seen": 23695440,
+      "step": 25550
+    },
+    {
+      "epoch": 12.048561999057048,
+      "grad_norm": 0.00035999069223180413,
+      "learning_rate": 0.0866238701696281,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 23699248,
+      "step": 25555
+    },
+    {
+      "epoch": 12.05091937765205,
+      "grad_norm": 0.0002524088486097753,
+      "learning_rate": 0.08657048608133185,
+      "loss": 0.3521,
+      "num_input_tokens_seen": 23704640,
+      "step": 25560
+    },
+    {
+      "epoch": 12.053276756247053,
+      "grad_norm": 0.0005004997365176678,
+      "learning_rate": 0.08651711177466369,
+      "loss": 0.3039,
+      "num_input_tokens_seen": 23709360,
+      "step": 25565
+    },
+    {
+      "epoch": 12.055634134842055,
+      "grad_norm": 0.0002535658422857523,
+      "learning_rate": 0.08646374725785466,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 23714752,
+      "step": 25570
+    },
+    {
+      "epoch": 12.057991513437058,
+      "grad_norm": 0.00034079173929058015,
+      "learning_rate": 0.08641039253913434,
+      "loss": 0.3771,
+      "num_input_tokens_seen": 23718832,
+      "step": 25575
+    },
+    {
+      "epoch": 12.06034889203206,
+      "grad_norm": 0.0010778360301628709,
+      "learning_rate": 0.08635704762673052,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 23723200,
+      "step": 25580
+    },
+    {
+      "epoch": 12.062706270627062,
+      "grad_norm": 0.00040956924203783274,
+      "learning_rate": 0.08630371252886981,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 23728416,
+      "step": 25585
+    },
+    {
+      "epoch": 12.065063649222065,
+      "grad_norm": 0.00046851145452819765,
+      "learning_rate": 0.08625038725377704,
+      "loss": 0.344,
+      "num_input_tokens_seen": 23734880,
+      "step": 25590
+    },
+    {
+      "epoch": 12.067421027817067,
+      "grad_norm": 0.000629682035651058,
+      "learning_rate": 0.08619707180967566,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 23738800,
+      "step": 25595
+    },
+    {
+      "epoch": 12.06977840641207,
+      "grad_norm": 0.0003725344722624868,
+      "learning_rate": 0.08614376620478768,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 23743680,
+      "step": 25600
+    },
+    {
+      "epoch": 12.06977840641207,
+      "eval_loss": 0.33338475227355957,
+      "eval_runtime": 33.5898,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 23743680,
+      "step": 25600
+    },
+    {
+      "epoch": 12.072135785007072,
+      "grad_norm": 0.0003904739860445261,
+      "learning_rate": 0.08609047044733344,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 23747824,
+      "step": 25605
+    },
+    {
+      "epoch": 12.074493163602074,
+      "grad_norm": 0.0004977887729182839,
+      "learning_rate": 0.08603718454553168,
+      "loss": 0.3267,
+      "num_input_tokens_seen": 23752208,
+      "step": 25610
+    },
+    {
+      "epoch": 12.076850542197077,
+      "grad_norm": 0.00034530163975432515,
+      "learning_rate": 0.08598390850759997,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 23756944,
+      "step": 25615
+    },
+    {
+      "epoch": 12.07920792079208,
+      "grad_norm": 0.0007592470501549542,
+      "learning_rate": 0.08593064234175397,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 23761824,
+      "step": 25620
+    },
+    {
+      "epoch": 12.081565299387082,
+      "grad_norm": 0.0007075589965097606,
+      "learning_rate": 0.08587738605620815,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 23766480,
+      "step": 25625
+    },
+    {
+      "epoch": 12.083922677982084,
+      "grad_norm": 0.0002288512041559443,
+      "learning_rate": 0.08582413965917512,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 23771520,
+      "step": 25630
+    },
+    {
+      "epoch": 12.086280056577086,
+      "grad_norm": 0.0003380265843588859,
+      "learning_rate": 0.08577090315886628,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 23776368,
+      "step": 25635
+    },
+    {
+      "epoch": 12.088637435172089,
+      "grad_norm": 0.00018323358381167054,
+      "learning_rate": 0.08571767656349136,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 23780304,
+      "step": 25640
+    },
+    {
+      "epoch": 12.090994813767091,
+      "grad_norm": 0.0008803679957054555,
+      "learning_rate": 0.08566445988125847,
+      "loss": 0.3039,
+      "num_input_tokens_seen": 23785024,
+      "step": 25645
+    },
+    {
+      "epoch": 12.093352192362094,
+      "grad_norm": 0.0003103936032857746,
+      "learning_rate": 0.08561125312037436,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 23790096,
+      "step": 25650
+    },
+    {
+      "epoch": 12.095709570957096,
+      "grad_norm": 0.00046897458378225565,
+      "learning_rate": 0.08555805628904424,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 23794736,
+      "step": 25655
+    },
+    {
+      "epoch": 12.098066949552098,
+      "grad_norm": 0.0005686543881893158,
+      "learning_rate": 0.08550486939547161,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 23799472,
+      "step": 25660
+    },
+    {
+      "epoch": 12.100424328147101,
+      "grad_norm": 0.0002982688893098384,
+      "learning_rate": 0.08545169244785869,
+      "loss": 0.3273,
+      "num_input_tokens_seen": 23805120,
+      "step": 25665
+    },
+    {
+      "epoch": 12.102781706742103,
+      "grad_norm": 0.00029262335738167167,
+      "learning_rate": 0.08539852545440589,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 23810096,
+      "step": 25670
+    },
+    {
+      "epoch": 12.105139085337106,
+      "grad_norm": 0.00033408295712433755,
+      "learning_rate": 0.08534536842331235,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 23814304,
+      "step": 25675
+    },
+    {
+      "epoch": 12.107496463932108,
+      "grad_norm": 0.0002649369416758418,
+      "learning_rate": 0.08529222136277545,
+      "loss": 0.3849,
+      "num_input_tokens_seen": 23819600,
+      "step": 25680
+    },
+    {
+      "epoch": 12.10985384252711,
+      "grad_norm": 0.0002641764294821769,
+      "learning_rate": 0.08523908428099125,
+      "loss": 0.364,
+      "num_input_tokens_seen": 23824160,
+      "step": 25685
+    },
+    {
+      "epoch": 12.112211221122113,
+      "grad_norm": 0.0006470149965025485,
+      "learning_rate": 0.08518595718615402,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 23828176,
+      "step": 25690
+    },
+    {
+      "epoch": 12.114568599717115,
+      "grad_norm": 0.00067592115374282,
+      "learning_rate": 0.08513284008645675,
+      "loss": 0.3121,
+      "num_input_tokens_seen": 23832944,
+      "step": 25695
+    },
+    {
+      "epoch": 12.116925978312118,
+      "grad_norm": 0.00040487517253495753,
+      "learning_rate": 0.08507973299009065,
+      "loss": 0.3578,
+      "num_input_tokens_seen": 23836672,
+      "step": 25700
+    },
+    {
+      "epoch": 12.11928335690712,
+      "grad_norm": 0.0007048594998195767,
+      "learning_rate": 0.08502663590524563,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 23841440,
+      "step": 25705
+    },
+    {
+      "epoch": 12.121640735502123,
+      "grad_norm": 0.00022054070723243058,
+      "learning_rate": 0.08497354884010981,
+      "loss": 0.3002,
+      "num_input_tokens_seen": 23846896,
+      "step": 25710
+    },
+    {
+      "epoch": 12.123998114097123,
+      "grad_norm": 0.0006308541633188725,
+      "learning_rate": 0.0849204718028699,
+      "loss": 0.3133,
+      "num_input_tokens_seen": 23851840,
+      "step": 25715
+    },
+    {
+      "epoch": 12.126355492692126,
+      "grad_norm": 0.0002872350160032511,
+      "learning_rate": 0.08486740480171118,
+      "loss": 0.3068,
+      "num_input_tokens_seen": 23856512,
+      "step": 25720
+    },
+    {
+      "epoch": 12.128712871287128,
+      "grad_norm": 0.0004823031777050346,
+      "learning_rate": 0.08481434784481706,
+      "loss": 0.3809,
+      "num_input_tokens_seen": 23860832,
+      "step": 25725
+    },
+    {
+      "epoch": 12.13107024988213,
+      "grad_norm": 0.00030290588620118797,
+      "learning_rate": 0.08476130094036968,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 23865936,
+      "step": 25730
+    },
+    {
+      "epoch": 12.133427628477133,
+      "grad_norm": 0.0008640820742584765,
+      "learning_rate": 0.08470826409654961,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 23871120,
+      "step": 25735
+    },
+    {
+      "epoch": 12.135785007072135,
+      "grad_norm": 0.00033456343226134777,
+      "learning_rate": 0.08465523732153564,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 23875376,
+      "step": 25740
+    },
+    {
+      "epoch": 12.138142385667138,
+      "grad_norm": 0.0005662787007167935,
+      "learning_rate": 0.08460222062350532,
+      "loss": 0.2855,
+      "num_input_tokens_seen": 23879296,
+      "step": 25745
+    },
+    {
+      "epoch": 12.14049976426214,
+      "grad_norm": 0.0004507428966462612,
+      "learning_rate": 0.08454921401063442,
+      "loss": 0.3937,
+      "num_input_tokens_seen": 23883888,
+      "step": 25750
+    },
+    {
+      "epoch": 12.142857142857142,
+      "grad_norm": 0.0004229951882734895,
+      "learning_rate": 0.08449621749109716,
+      "loss": 0.3549,
+      "num_input_tokens_seen": 23888736,
+      "step": 25755
+    },
+    {
+      "epoch": 12.145214521452145,
+      "grad_norm": 0.0005597811541520059,
+      "learning_rate": 0.08444323107306641,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 23893296,
+      "step": 25760
+    },
+    {
+      "epoch": 12.147571900047147,
+      "grad_norm": 0.0010036913445219398,
+      "learning_rate": 0.0843902547647132,
+      "loss": 0.3198,
+      "num_input_tokens_seen": 23898016,
+      "step": 25765
+    },
+    {
+      "epoch": 12.14992927864215,
+      "grad_norm": 0.0010204702848568559,
+      "learning_rate": 0.0843372885742072,
+      "loss": 0.3602,
+      "num_input_tokens_seen": 23902672,
+      "step": 25770
+    },
+    {
+      "epoch": 12.152286657237152,
+      "grad_norm": 0.0004809122474398464,
+      "learning_rate": 0.08428433250971652,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 23907264,
+      "step": 25775
+    },
+    {
+      "epoch": 12.154644035832154,
+      "grad_norm": 0.0003221008519176394,
+      "learning_rate": 0.08423138657940757,
+      "loss": 0.3374,
+      "num_input_tokens_seen": 23912368,
+      "step": 25780
+    },
+    {
+      "epoch": 12.157001414427157,
+      "grad_norm": 0.0006822989671491086,
+      "learning_rate": 0.08417845079144536,
+      "loss": 0.2901,
+      "num_input_tokens_seen": 23917552,
+      "step": 25785
+    },
+    {
+      "epoch": 12.15935879302216,
+      "grad_norm": 0.00070236372994259,
+      "learning_rate": 0.08412552515399314,
+      "loss": 0.33,
+      "num_input_tokens_seen": 23921808,
+      "step": 25790
+    },
+    {
+      "epoch": 12.161716171617162,
+      "grad_norm": 0.00033482006983831525,
+      "learning_rate": 0.08407260967521278,
+      "loss": 0.3941,
+      "num_input_tokens_seen": 23926144,
+      "step": 25795
+    },
+    {
+      "epoch": 12.164073550212164,
+      "grad_norm": 0.0003339544637128711,
+      "learning_rate": 0.08401970436326454,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 23931472,
+      "step": 25800
+    },
+    {
+      "epoch": 12.164073550212164,
+      "eval_loss": 0.3279121518135071,
+      "eval_runtime": 33.5259,
+      "eval_samples_per_second": 28.128,
+      "eval_steps_per_second": 14.079,
+      "num_input_tokens_seen": 23931472,
+      "step": 25800
+    },
+    {
+      "epoch": 12.166430928807166,
+      "grad_norm": 0.0002752876316662878,
+      "learning_rate": 0.08396680922630702,
+      "loss": 0.342,
+      "num_input_tokens_seen": 23936224,
+      "step": 25805
+    },
+    {
+      "epoch": 12.168788307402169,
+      "grad_norm": 0.00037305697333067656,
+      "learning_rate": 0.08391392427249732,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 23941264,
+      "step": 25810
+    },
+    {
+      "epoch": 12.171145685997171,
+      "grad_norm": 0.0004161954566370696,
+      "learning_rate": 0.08386104950999107,
+      "loss": 0.2641,
+      "num_input_tokens_seen": 23945536,
+      "step": 25815
+    },
+    {
+      "epoch": 12.173503064592174,
+      "grad_norm": 0.0004406941880006343,
+      "learning_rate": 0.0838081849469421,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 23950176,
+      "step": 25820
+    },
+    {
+      "epoch": 12.175860443187176,
+      "grad_norm": 0.0003168944676872343,
+      "learning_rate": 0.08375533059150281,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 23955008,
+      "step": 25825
+    },
+    {
+      "epoch": 12.178217821782178,
+      "grad_norm": 0.00033530424116179347,
+      "learning_rate": 0.08370248645182406,
+      "loss": 0.2764,
+      "num_input_tokens_seen": 23959168,
+      "step": 25830
+    },
+    {
+      "epoch": 12.18057520037718,
+      "grad_norm": 0.0006226921686902642,
+      "learning_rate": 0.083649652536055,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 23964624,
+      "step": 25835
+    },
+    {
+      "epoch": 12.182932578972183,
+      "grad_norm": 0.00027843296993523836,
+      "learning_rate": 0.08359682885234339,
+      "loss": 0.3854,
+      "num_input_tokens_seen": 23970176,
+      "step": 25840
+    },
+    {
+      "epoch": 12.185289957567186,
+      "grad_norm": 0.0006969415117055178,
+      "learning_rate": 0.08354401540883516,
+      "loss": 0.2754,
+      "num_input_tokens_seen": 23974464,
+      "step": 25845
+    },
+    {
+      "epoch": 12.187647336162188,
+      "grad_norm": 0.0002688789099920541,
+      "learning_rate": 0.0834912122136749,
+      "loss": 0.2673,
+      "num_input_tokens_seen": 23980048,
+      "step": 25850
+    },
+    {
+      "epoch": 12.19000471475719,
+      "grad_norm": 0.00029106889269314706,
+      "learning_rate": 0.0834384192750056,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 23984256,
+      "step": 25855
+    },
+    {
+      "epoch": 12.192362093352193,
+      "grad_norm": 0.000399017590098083,
+      "learning_rate": 0.08338563660096844,
+      "loss": 0.2807,
+      "num_input_tokens_seen": 23988976,
+      "step": 25860
+    },
+    {
+      "epoch": 12.194719471947195,
+      "grad_norm": 0.000558530620764941,
+      "learning_rate": 0.08333286419970329,
+      "loss": 0.3973,
+      "num_input_tokens_seen": 23993888,
+      "step": 25865
+    },
+    {
+      "epoch": 12.197076850542198,
+      "grad_norm": 0.0007615178474225104,
+      "learning_rate": 0.08328010207934824,
+      "loss": 0.3141,
+      "num_input_tokens_seen": 23999536,
+      "step": 25870
+    },
+    {
+      "epoch": 12.1994342291372,
+      "grad_norm": 0.00032371090492233634,
+      "learning_rate": 0.08322735024803989,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 24003296,
+      "step": 25875
+    },
+    {
+      "epoch": 12.201791607732202,
+      "grad_norm": 0.00019496117602102458,
+      "learning_rate": 0.08317460871391331,
+      "loss": 0.3074,
+      "num_input_tokens_seen": 24007856,
+      "step": 25880
+    },
+    {
+      "epoch": 12.204148986327205,
+      "grad_norm": 0.0004413048445712775,
+      "learning_rate": 0.08312187748510179,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 24013824,
+      "step": 25885
+    },
+    {
+      "epoch": 12.206506364922207,
+      "grad_norm": 0.0007047271938063204,
+      "learning_rate": 0.08306915656973726,
+      "loss": 0.3742,
+      "num_input_tokens_seen": 24019040,
+      "step": 25890
+    },
+    {
+      "epoch": 12.20886374351721,
+      "grad_norm": 0.00037642515962943435,
+      "learning_rate": 0.08301644597594988,
+      "loss": 0.2734,
+      "num_input_tokens_seen": 24024464,
+      "step": 25895
+    },
+    {
+      "epoch": 12.211221122112212,
+      "grad_norm": 0.0008425177074968815,
+      "learning_rate": 0.08296374571186826,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 24028544,
+      "step": 25900
+    },
+    {
+      "epoch": 12.213578500707214,
+      "grad_norm": 0.0006948501104488969,
+      "learning_rate": 0.08291105578561955,
+      "loss": 0.3201,
+      "num_input_tokens_seen": 24033072,
+      "step": 25905
+    },
+    {
+      "epoch": 12.215935879302217,
+      "grad_norm": 0.00036161093157716095,
+      "learning_rate": 0.08285837620532904,
+      "loss": 0.302,
+      "num_input_tokens_seen": 24037600,
+      "step": 25910
+    },
+    {
+      "epoch": 12.218293257897217,
+      "grad_norm": 0.00044494032044894993,
+      "learning_rate": 0.0828057069791207,
+      "loss": 0.3309,
+      "num_input_tokens_seen": 24041776,
+      "step": 25915
+    },
+    {
+      "epoch": 12.22065063649222,
+      "grad_norm": 0.0003327679878566414,
+      "learning_rate": 0.0827530481151168,
+      "loss": 0.3683,
+      "num_input_tokens_seen": 24045936,
+      "step": 25920
+    },
+    {
+      "epoch": 12.223008015087222,
+      "grad_norm": 0.00029137375531718135,
+      "learning_rate": 0.08270039962143792,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 24051104,
+      "step": 25925
+    },
+    {
+      "epoch": 12.225365393682225,
+      "grad_norm": 0.0005438521038740873,
+      "learning_rate": 0.08264776150620314,
+      "loss": 0.3723,
+      "num_input_tokens_seen": 24055200,
+      "step": 25930
+    },
+    {
+      "epoch": 12.227722772277227,
+      "grad_norm": 0.0005542199942283332,
+      "learning_rate": 0.08259513377753,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 24058768,
+      "step": 25935
+    },
+    {
+      "epoch": 12.23008015087223,
+      "grad_norm": 0.0003053678956348449,
+      "learning_rate": 0.08254251644353423,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 24062624,
+      "step": 25940
+    },
+    {
+      "epoch": 12.232437529467232,
+      "grad_norm": 0.00043928661034442484,
+      "learning_rate": 0.08248990951233022,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 24067456,
+      "step": 25945
+    },
+    {
+      "epoch": 12.234794908062234,
+      "grad_norm": 0.0005768443807028234,
+      "learning_rate": 0.08243731299203048,
+      "loss": 0.3534,
+      "num_input_tokens_seen": 24072464,
+      "step": 25950
+    },
+    {
+      "epoch": 12.237152286657237,
+      "grad_norm": 0.0008081916021183133,
+      "learning_rate": 0.08238472689074612,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 24077536,
+      "step": 25955
+    },
+    {
+      "epoch": 12.239509665252239,
+      "grad_norm": 0.0008115469827316701,
+      "learning_rate": 0.08233215121658666,
+      "loss": 0.371,
+      "num_input_tokens_seen": 24082320,
+      "step": 25960
+    },
+    {
+      "epoch": 12.241867043847241,
+      "grad_norm": 0.0012530597159639,
+      "learning_rate": 0.08227958597765982,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 24086416,
+      "step": 25965
+    },
+    {
+      "epoch": 12.244224422442244,
+      "grad_norm": 0.0005308337858878076,
+      "learning_rate": 0.08222703118207181,
+      "loss": 0.3351,
+      "num_input_tokens_seen": 24091056,
+      "step": 25970
+    },
+    {
+      "epoch": 12.246581801037246,
+      "grad_norm": 0.000799057015683502,
+      "learning_rate": 0.08217448683792734,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 24095792,
+      "step": 25975
+    },
+    {
+      "epoch": 12.248939179632249,
+      "grad_norm": 0.00027948536444455385,
+      "learning_rate": 0.08212195295332926,
+      "loss": 0.3614,
+      "num_input_tokens_seen": 24099760,
+      "step": 25980
+    },
+    {
+      "epoch": 12.251296558227251,
+      "grad_norm": 0.00044782852637581527,
+      "learning_rate": 0.08206942953637915,
+      "loss": 0.3373,
+      "num_input_tokens_seen": 24105776,
+      "step": 25985
+    },
+    {
+      "epoch": 12.253653936822253,
+      "grad_norm": 0.0012581474147737026,
+      "learning_rate": 0.08201691659517658,
+      "loss": 0.4045,
+      "num_input_tokens_seen": 24110320,
+      "step": 25990
+    },
+    {
+      "epoch": 12.256011315417256,
+      "grad_norm": 0.00038937441422604024,
+      "learning_rate": 0.08196441413781981,
+      "loss": 0.3635,
+      "num_input_tokens_seen": 24114960,
+      "step": 25995
+    },
+    {
+      "epoch": 12.258368694012258,
+      "grad_norm": 0.0006475341506302357,
+      "learning_rate": 0.08191192217240544,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 24118800,
+      "step": 26000
+    },
+    {
+      "epoch": 12.258368694012258,
+      "eval_loss": 0.3308323323726654,
+      "eval_runtime": 33.5854,
+      "eval_samples_per_second": 28.078,
+      "eval_steps_per_second": 14.054,
+      "num_input_tokens_seen": 24118800,
+      "step": 26000
+    },
+    {
+      "epoch": 12.26072607260726,
+      "grad_norm": 0.00034954858710989356,
+      "learning_rate": 0.08185944070702823,
+      "loss": 0.2999,
+      "num_input_tokens_seen": 24122992,
+      "step": 26005
+    },
+    {
+      "epoch": 12.263083451202263,
+      "grad_norm": 0.0004276564286556095,
+      "learning_rate": 0.08180696974978159,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 24128432,
+      "step": 26010
+    },
+    {
+      "epoch": 12.265440829797265,
+      "grad_norm": 0.00024015242524910718,
+      "learning_rate": 0.08175450930875724,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 24133424,
+      "step": 26015
+    },
+    {
+      "epoch": 12.267798208392268,
+      "grad_norm": 0.0005138582200743258,
+      "learning_rate": 0.08170205939204513,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 24137472,
+      "step": 26020
+    },
+    {
+      "epoch": 12.27015558698727,
+      "grad_norm": 0.0007570696761831641,
+      "learning_rate": 0.08164962000773379,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 24142560,
+      "step": 26025
+    },
+    {
+      "epoch": 12.272512965582273,
+      "grad_norm": 0.0004046568355988711,
+      "learning_rate": 0.08159719116390995,
+      "loss": 0.2713,
+      "num_input_tokens_seen": 24147792,
+      "step": 26030
+    },
+    {
+      "epoch": 12.274870344177275,
+      "grad_norm": 0.0003391552600078285,
+      "learning_rate": 0.08154477286865887,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 24152416,
+      "step": 26035
+    },
+    {
+      "epoch": 12.277227722772277,
+      "grad_norm": 0.0002496388915460557,
+      "learning_rate": 0.08149236513006404,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 24156976,
+      "step": 26040
+    },
+    {
+      "epoch": 12.27958510136728,
+      "grad_norm": 0.0005529567715711892,
+      "learning_rate": 0.08143996795620746,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 24162112,
+      "step": 26045
+    },
+    {
+      "epoch": 12.281942479962282,
+      "grad_norm": 0.0006698276265524328,
+      "learning_rate": 0.08138758135516938,
+      "loss": 0.281,
+      "num_input_tokens_seen": 24165904,
+      "step": 26050
+    },
+    {
+      "epoch": 12.284299858557285,
+      "grad_norm": 0.0002541172143537551,
+      "learning_rate": 0.08133520533502851,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 24170768,
+      "step": 26055
+    },
+    {
+      "epoch": 12.286657237152287,
+      "grad_norm": 0.0006861069705337286,
+      "learning_rate": 0.08128283990386184,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 24177184,
+      "step": 26060
+    },
+    {
+      "epoch": 12.28901461574729,
+      "grad_norm": 0.00031348495394922793,
+      "learning_rate": 0.08123048506974488,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 24181984,
+      "step": 26065
+    },
+    {
+      "epoch": 12.291371994342292,
+      "grad_norm": 0.0002772605512291193,
+      "learning_rate": 0.08117814084075124,
+      "loss": 0.2872,
+      "num_input_tokens_seen": 24186512,
+      "step": 26070
+    },
+    {
+      "epoch": 12.293729372937294,
+      "grad_norm": 0.0008260418544523418,
+      "learning_rate": 0.08112580722495318,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 24190768,
+      "step": 26075
+    },
+    {
+      "epoch": 12.296086751532297,
+      "grad_norm": 0.00030038118711672723,
+      "learning_rate": 0.08107348423042122,
+      "loss": 0.2517,
+      "num_input_tokens_seen": 24195904,
+      "step": 26080
+    },
+    {
+      "epoch": 12.298444130127299,
+      "grad_norm": 0.0008592205122113228,
+      "learning_rate": 0.08102117186522413,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 24200992,
+      "step": 26085
+    },
+    {
+      "epoch": 12.300801508722301,
+      "grad_norm": 0.0005326112732291222,
+      "learning_rate": 0.08096887013742916,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 24205888,
+      "step": 26090
+    },
+    {
+      "epoch": 12.303158887317304,
+      "grad_norm": 0.0003191886644344777,
+      "learning_rate": 0.08091657905510198,
+      "loss": 0.4009,
+      "num_input_tokens_seen": 24210032,
+      "step": 26095
+    },
+    {
+      "epoch": 12.305516265912306,
+      "grad_norm": 0.0004119850345887244,
+      "learning_rate": 0.08086429862630642,
+      "loss": 0.3391,
+      "num_input_tokens_seen": 24214896,
+      "step": 26100
+    },
+    {
+      "epoch": 12.307873644507309,
+      "grad_norm": 0.0004904413362964988,
+      "learning_rate": 0.08081202885910488,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 24219536,
+      "step": 26105
+    },
+    {
+      "epoch": 12.310231023102311,
+      "grad_norm": 0.000694789516273886,
+      "learning_rate": 0.08075976976155795,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 24224944,
+      "step": 26110
+    },
+    {
+      "epoch": 12.312588401697312,
+      "grad_norm": 0.0006647280533798039,
+      "learning_rate": 0.08070752134172461,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 24229392,
+      "step": 26115
+    },
+    {
+      "epoch": 12.314945780292314,
+      "grad_norm": 0.00024211527488660067,
+      "learning_rate": 0.08065528360766229,
+      "loss": 0.3874,
+      "num_input_tokens_seen": 24234304,
+      "step": 26120
+    },
+    {
+      "epoch": 12.317303158887317,
+      "grad_norm": 0.0007399257738143206,
+      "learning_rate": 0.08060305656742664,
+      "loss": 0.331,
+      "num_input_tokens_seen": 24239440,
+      "step": 26125
+    },
+    {
+      "epoch": 12.319660537482319,
+      "grad_norm": 0.0008656154968775809,
+      "learning_rate": 0.08055084022907182,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 24243872,
+      "step": 26130
+    },
+    {
+      "epoch": 12.322017916077321,
+      "grad_norm": 0.0007554074400104582,
+      "learning_rate": 0.08049863460065014,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 24248656,
+      "step": 26135
+    },
+    {
+      "epoch": 12.324375294672324,
+      "grad_norm": 0.0002604078617878258,
+      "learning_rate": 0.0804464396902124,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 24253472,
+      "step": 26140
+    },
+    {
+      "epoch": 12.326732673267326,
+      "grad_norm": 0.0004259934357833117,
+      "learning_rate": 0.08039425550580777,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 24259008,
+      "step": 26145
+    },
+    {
+      "epoch": 12.329090051862329,
+      "grad_norm": 0.00022147715208120644,
+      "learning_rate": 0.08034208205548363,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 24263440,
+      "step": 26150
+    },
+    {
+      "epoch": 12.331447430457331,
+      "grad_norm": 0.00047297769924625754,
+      "learning_rate": 0.08028991934728581,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 24267888,
+      "step": 26155
+    },
+    {
+      "epoch": 12.333804809052333,
+      "grad_norm": 0.0006112104747444391,
+      "learning_rate": 0.0802377673892585,
+      "loss": 0.319,
+      "num_input_tokens_seen": 24272016,
+      "step": 26160
+    },
+    {
+      "epoch": 12.336162187647336,
+      "grad_norm": 0.000392630958231166,
+      "learning_rate": 0.0801856261894441,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 24276384,
+      "step": 26165
+    },
+    {
+      "epoch": 12.338519566242338,
+      "grad_norm": 0.0003255378396715969,
+      "learning_rate": 0.08013349575588354,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 24280304,
+      "step": 26170
+    },
+    {
+      "epoch": 12.34087694483734,
+      "grad_norm": 0.00038106064312160015,
+      "learning_rate": 0.08008137609661586,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 24284752,
+      "step": 26175
+    },
+    {
+      "epoch": 12.343234323432343,
+      "grad_norm": 0.0003653404419310391,
+      "learning_rate": 0.08002926721967872,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 24289600,
+      "step": 26180
+    },
+    {
+      "epoch": 12.345591702027345,
+      "grad_norm": 0.0005320749478414655,
+      "learning_rate": 0.07997716913310782,
+      "loss": 0.3165,
+      "num_input_tokens_seen": 24294128,
+      "step": 26185
+    },
+    {
+      "epoch": 12.347949080622348,
+      "grad_norm": 0.00080522132338956,
+      "learning_rate": 0.07992508184493745,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 24299120,
+      "step": 26190
+    },
+    {
+      "epoch": 12.35030645921735,
+      "grad_norm": 0.000635262462310493,
+      "learning_rate": 0.07987300536320001,
+      "loss": 0.277,
+      "num_input_tokens_seen": 24304016,
+      "step": 26195
+    },
+    {
+      "epoch": 12.352663837812353,
+      "grad_norm": 0.00034282708656974137,
+      "learning_rate": 0.07982093969592649,
+      "loss": 0.3198,
+      "num_input_tokens_seen": 24308976,
+      "step": 26200
+    },
+    {
+      "epoch": 12.352663837812353,
+      "eval_loss": 0.3269749581813812,
+      "eval_runtime": 33.6208,
+      "eval_samples_per_second": 28.048,
+      "eval_steps_per_second": 14.039,
+      "num_input_tokens_seen": 24308976,
+      "step": 26200
+    },
+    {
+      "epoch": 12.355021216407355,
+      "grad_norm": 0.00046701388782821596,
+      "learning_rate": 0.07976888485114592,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 24314176,
+      "step": 26205
+    },
+    {
+      "epoch": 12.357378595002357,
+      "grad_norm": 0.00025069978437386453,
+      "learning_rate": 0.07971684083688595,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 24318528,
+      "step": 26210
+    },
+    {
+      "epoch": 12.35973597359736,
+      "grad_norm": 0.0005520280683413148,
+      "learning_rate": 0.0796648076611723,
+      "loss": 0.29,
+      "num_input_tokens_seen": 24322448,
+      "step": 26215
+    },
+    {
+      "epoch": 12.362093352192362,
+      "grad_norm": 0.0005321026546880603,
+      "learning_rate": 0.07961278533202922,
+      "loss": 0.2711,
+      "num_input_tokens_seen": 24327344,
+      "step": 26220
+    },
+    {
+      "epoch": 12.364450730787365,
+      "grad_norm": 0.00043805516907013953,
+      "learning_rate": 0.07956077385747919,
+      "loss": 0.2887,
+      "num_input_tokens_seen": 24331872,
+      "step": 26225
+    },
+    {
+      "epoch": 12.366808109382367,
+      "grad_norm": 0.0005629405495710671,
+      "learning_rate": 0.079508773245543,
+      "loss": 0.2037,
+      "num_input_tokens_seen": 24336400,
+      "step": 26230
+    },
+    {
+      "epoch": 12.36916548797737,
+      "grad_norm": 0.00040520919719710946,
+      "learning_rate": 0.07945678350423982,
+      "loss": 0.3718,
+      "num_input_tokens_seen": 24340480,
+      "step": 26235
+    },
+    {
+      "epoch": 12.371522866572372,
+      "grad_norm": 0.0005973342340439558,
+      "learning_rate": 0.07940480464158717,
+      "loss": 0.3701,
+      "num_input_tokens_seen": 24345936,
+      "step": 26240
+    },
+    {
+      "epoch": 12.373880245167374,
+      "grad_norm": 0.0007579748635180295,
+      "learning_rate": 0.07935283666560076,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 24350480,
+      "step": 26245
+    },
+    {
+      "epoch": 12.376237623762377,
+      "grad_norm": 0.0010833791457116604,
+      "learning_rate": 0.07930087958429478,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 24355024,
+      "step": 26250
+    },
+    {
+      "epoch": 12.378595002357379,
+      "grad_norm": 0.00021892077347729355,
+      "learning_rate": 0.07924893340568159,
+      "loss": 0.3723,
+      "num_input_tokens_seen": 24360176,
+      "step": 26255
+    },
+    {
+      "epoch": 12.380952380952381,
+      "grad_norm": 0.00039769840077497065,
+      "learning_rate": 0.07919699813777205,
+      "loss": 0.324,
+      "num_input_tokens_seen": 24364800,
+      "step": 26260
+    },
+    {
+      "epoch": 12.383309759547384,
+      "grad_norm": 0.0003161898348480463,
+      "learning_rate": 0.07914507378857515,
+      "loss": 0.3445,
+      "num_input_tokens_seen": 24369520,
+      "step": 26265
+    },
+    {
+      "epoch": 12.385667138142386,
+      "grad_norm": 0.0003443551540840417,
+      "learning_rate": 0.07909316036609822,
+      "loss": 0.3586,
+      "num_input_tokens_seen": 24374240,
+      "step": 26270
+    },
+    {
+      "epoch": 12.388024516737389,
+      "grad_norm": 0.0008708164095878601,
+      "learning_rate": 0.07904125787834704,
+      "loss": 0.3265,
+      "num_input_tokens_seen": 24378224,
+      "step": 26275
+    },
+    {
+      "epoch": 12.390381895332391,
+      "grad_norm": 0.0004116116324439645,
+      "learning_rate": 0.07898936633332569,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 24381808,
+      "step": 26280
+    },
+    {
+      "epoch": 12.392739273927393,
+      "grad_norm": 0.0003087134682573378,
+      "learning_rate": 0.07893748573903635,
+      "loss": 0.327,
+      "num_input_tokens_seen": 24387232,
+      "step": 26285
+    },
+    {
+      "epoch": 12.395096652522396,
+      "grad_norm": 0.00024945815675891936,
+      "learning_rate": 0.0788856161034798,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 24391680,
+      "step": 26290
+    },
+    {
+      "epoch": 12.397454031117398,
+      "grad_norm": 0.00034497794695198536,
+      "learning_rate": 0.07883375743465487,
+      "loss": 0.317,
+      "num_input_tokens_seen": 24396256,
+      "step": 26295
+    },
+    {
+      "epoch": 12.3998114097124,
+      "grad_norm": 0.00033968716161325574,
+      "learning_rate": 0.07878190974055888,
+      "loss": 0.351,
+      "num_input_tokens_seen": 24400880,
+      "step": 26300
+    },
+    {
+      "epoch": 12.402168788307403,
+      "grad_norm": 0.0004104113613720983,
+      "learning_rate": 0.07873007302918746,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 24405872,
+      "step": 26305
+    },
+    {
+      "epoch": 12.404526166902404,
+      "grad_norm": 0.0005916377995163202,
+      "learning_rate": 0.07867824730853433,
+      "loss": 0.3023,
+      "num_input_tokens_seen": 24410640,
+      "step": 26310
+    },
+    {
+      "epoch": 12.406883545497408,
+      "grad_norm": 0.0005659941234625876,
+      "learning_rate": 0.07862643258659176,
+      "loss": 0.3127,
+      "num_input_tokens_seen": 24414976,
+      "step": 26315
+    },
+    {
+      "epoch": 12.409240924092408,
+      "grad_norm": 0.0003596001479309052,
+      "learning_rate": 0.07857462887135026,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 24419904,
+      "step": 26320
+    },
+    {
+      "epoch": 12.41159830268741,
+      "grad_norm": 0.00035101943649351597,
+      "learning_rate": 0.0785228361707986,
+      "loss": 0.2922,
+      "num_input_tokens_seen": 24424752,
+      "step": 26325
+    },
+    {
+      "epoch": 12.413955681282413,
+      "grad_norm": 0.0003016162372659892,
+      "learning_rate": 0.07847105449292378,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 24429056,
+      "step": 26330
+    },
+    {
+      "epoch": 12.416313059877416,
+      "grad_norm": 0.0003524154599290341,
+      "learning_rate": 0.0784192838457113,
+      "loss": 0.2798,
+      "num_input_tokens_seen": 24434352,
+      "step": 26335
+    },
+    {
+      "epoch": 12.418670438472418,
+      "grad_norm": 0.00030895243980921805,
+      "learning_rate": 0.07836752423714473,
+      "loss": 0.2729,
+      "num_input_tokens_seen": 24438880,
+      "step": 26340
+    },
+    {
+      "epoch": 12.42102781706742,
+      "grad_norm": 0.0002987442130688578,
+      "learning_rate": 0.07831577567520616,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 24443408,
+      "step": 26345
+    },
+    {
+      "epoch": 12.423385195662423,
+      "grad_norm": 0.0004986271378584206,
+      "learning_rate": 0.07826403816787579,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 24447536,
+      "step": 26350
+    },
+    {
+      "epoch": 12.425742574257425,
+      "grad_norm": 0.0006741348188370466,
+      "learning_rate": 0.0782123117231322,
+      "loss": 0.3974,
+      "num_input_tokens_seen": 24452848,
+      "step": 26355
+    },
+    {
+      "epoch": 12.428099952852428,
+      "grad_norm": 0.0002326307148905471,
+      "learning_rate": 0.07816059634895237,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 24456608,
+      "step": 26360
+    },
+    {
+      "epoch": 12.43045733144743,
+      "grad_norm": 0.0005121016874909401,
+      "learning_rate": 0.0781088920533113,
+      "loss": 0.3226,
+      "num_input_tokens_seen": 24461344,
+      "step": 26365
+    },
+    {
+      "epoch": 12.432814710042432,
+      "grad_norm": 0.0007400190806947649,
+      "learning_rate": 0.07805719884418257,
+      "loss": 0.3707,
+      "num_input_tokens_seen": 24466336,
+      "step": 26370
+    },
+    {
+      "epoch": 12.435172088637435,
+      "grad_norm": 0.0005833855830132961,
+      "learning_rate": 0.07800551672953779,
+      "loss": 0.352,
+      "num_input_tokens_seen": 24470672,
+      "step": 26375
+    },
+    {
+      "epoch": 12.437529467232437,
+      "grad_norm": 0.0004684206214733422,
+      "learning_rate": 0.07795384571734709,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 24475376,
+      "step": 26380
+    },
+    {
+      "epoch": 12.43988684582744,
+      "grad_norm": 0.0005333401495590806,
+      "learning_rate": 0.07790218581557883,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 24480080,
+      "step": 26385
+    },
+    {
+      "epoch": 12.442244224422442,
+      "grad_norm": 0.0004557813226711005,
+      "learning_rate": 0.07785053703219949,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 24484832,
+      "step": 26390
+    },
+    {
+      "epoch": 12.444601603017444,
+      "grad_norm": 0.000279234373010695,
+      "learning_rate": 0.07779889937517409,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 24489344,
+      "step": 26395
+    },
+    {
+      "epoch": 12.446958981612447,
+      "grad_norm": 0.00023936836805660278,
+      "learning_rate": 0.0777472728524657,
+      "loss": 0.2884,
+      "num_input_tokens_seen": 24493584,
+      "step": 26400
+    },
+    {
+      "epoch": 12.446958981612447,
+      "eval_loss": 0.3279377520084381,
+      "eval_runtime": 33.5839,
+      "eval_samples_per_second": 28.079,
+      "eval_steps_per_second": 14.054,
+      "num_input_tokens_seen": 24493584,
+      "step": 26400
+    },
+    {
+      "epoch": 12.44931636020745,
+      "grad_norm": 0.0005680156173184514,
+      "learning_rate": 0.07769565747203584,
+      "loss": 0.2929,
+      "num_input_tokens_seen": 24498608,
+      "step": 26405
+    },
+    {
+      "epoch": 12.451673738802452,
+      "grad_norm": 0.0010016892338171601,
+      "learning_rate": 0.07764405324184427,
+      "loss": 0.3047,
+      "num_input_tokens_seen": 24503056,
+      "step": 26410
+    },
+    {
+      "epoch": 12.454031117397454,
+      "grad_norm": 0.0006605098606087267,
+      "learning_rate": 0.07759246016984889,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 24507072,
+      "step": 26415
+    },
+    {
+      "epoch": 12.456388495992456,
+      "grad_norm": 0.0002743294171523303,
+      "learning_rate": 0.07754087826400609,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 24511824,
+      "step": 26420
+    },
+    {
+      "epoch": 12.458745874587459,
+      "grad_norm": 0.0004059549537487328,
+      "learning_rate": 0.0774893075322705,
+      "loss": 0.2988,
+      "num_input_tokens_seen": 24516400,
+      "step": 26425
+    },
+    {
+      "epoch": 12.461103253182461,
+      "grad_norm": 0.000635775038972497,
+      "learning_rate": 0.07743774798259484,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 24521424,
+      "step": 26430
+    },
+    {
+      "epoch": 12.463460631777464,
+      "grad_norm": 0.00031167789711616933,
+      "learning_rate": 0.07738619962293032,
+      "loss": 0.2791,
+      "num_input_tokens_seen": 24526336,
+      "step": 26435
+    },
+    {
+      "epoch": 12.465818010372466,
+      "grad_norm": 0.0002220717433374375,
+      "learning_rate": 0.0773346624612264,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 24531616,
+      "step": 26440
+    },
+    {
+      "epoch": 12.468175388967468,
+      "grad_norm": 0.0004064712848048657,
+      "learning_rate": 0.07728313650543066,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 24536448,
+      "step": 26445
+    },
+    {
+      "epoch": 12.47053276756247,
+      "grad_norm": 0.0003917393332812935,
+      "learning_rate": 0.07723162176348913,
+      "loss": 0.2917,
+      "num_input_tokens_seen": 24542160,
+      "step": 26450
+    },
+    {
+      "epoch": 12.472890146157473,
+      "grad_norm": 0.0004856720333918929,
+      "learning_rate": 0.07718011824334593,
+      "loss": 0.313,
+      "num_input_tokens_seen": 24546560,
+      "step": 26455
+    },
+    {
+      "epoch": 12.475247524752476,
+      "grad_norm": 0.00031735526863485575,
+      "learning_rate": 0.07712862595294363,
+      "loss": 0.3919,
+      "num_input_tokens_seen": 24551264,
+      "step": 26460
+    },
+    {
+      "epoch": 12.477604903347478,
+      "grad_norm": 0.0003263109247200191,
+      "learning_rate": 0.07707714490022301,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 24555728,
+      "step": 26465
+    },
+    {
+      "epoch": 12.47996228194248,
+      "grad_norm": 0.000489203492179513,
+      "learning_rate": 0.07702567509312298,
+      "loss": 0.3077,
+      "num_input_tokens_seen": 24560944,
+      "step": 26470
+    },
+    {
+      "epoch": 12.482319660537483,
+      "grad_norm": 0.0004558384825941175,
+      "learning_rate": 0.07697421653958098,
+      "loss": 0.2863,
+      "num_input_tokens_seen": 24565616,
+      "step": 26475
+    },
+    {
+      "epoch": 12.484677039132485,
+      "grad_norm": 0.00029728966183029115,
+      "learning_rate": 0.07692276924753247,
+      "loss": 0.4098,
+      "num_input_tokens_seen": 24569712,
+      "step": 26480
+    },
+    {
+      "epoch": 12.487034417727488,
+      "grad_norm": 0.00026775235892273486,
+      "learning_rate": 0.07687133322491124,
+      "loss": 0.2996,
+      "num_input_tokens_seen": 24573952,
+      "step": 26485
+    },
+    {
+      "epoch": 12.48939179632249,
+      "grad_norm": 0.00029064848786219954,
+      "learning_rate": 0.07681990847964948,
+      "loss": 0.325,
+      "num_input_tokens_seen": 24578736,
+      "step": 26490
+    },
+    {
+      "epoch": 12.491749174917492,
+      "grad_norm": 0.00040845529292710125,
+      "learning_rate": 0.0767684950196774,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 24584496,
+      "step": 26495
+    },
+    {
+      "epoch": 12.494106553512495,
+      "grad_norm": 0.0002677409793250263,
+      "learning_rate": 0.0767170928529237,
+      "loss": 0.3645,
+      "num_input_tokens_seen": 24589248,
+      "step": 26500
+    },
+    {
+      "epoch": 12.496463932107497,
+      "grad_norm": 0.0003064811753574759,
+      "learning_rate": 0.07666570198731526,
+      "loss": 0.3135,
+      "num_input_tokens_seen": 24594176,
+      "step": 26505
+    },
+    {
+      "epoch": 12.4988213107025,
+      "grad_norm": 0.0006586685194633901,
+      "learning_rate": 0.07661432243077708,
+      "loss": 0.3016,
+      "num_input_tokens_seen": 24598128,
+      "step": 26510
+    },
+    {
+      "epoch": 12.5011786892975,
+      "grad_norm": 0.00021978832955937833,
+      "learning_rate": 0.0765629541912326,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 24602912,
+      "step": 26515
+    },
+    {
+      "epoch": 12.503536067892503,
+      "grad_norm": 0.00025099239428527653,
+      "learning_rate": 0.07651159727660352,
+      "loss": 0.2999,
+      "num_input_tokens_seen": 24607104,
+      "step": 26520
+    },
+    {
+      "epoch": 12.505893446487505,
+      "grad_norm": 0.0003598589973989874,
+      "learning_rate": 0.07646025169480959,
+      "loss": 0.354,
+      "num_input_tokens_seen": 24611968,
+      "step": 26525
+    },
+    {
+      "epoch": 12.508250825082508,
+      "grad_norm": 0.00017345834930893034,
+      "learning_rate": 0.07640891745376908,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 24616576,
+      "step": 26530
+    },
+    {
+      "epoch": 12.51060820367751,
+      "grad_norm": 0.000257834792137146,
+      "learning_rate": 0.07635759456139822,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 24620768,
+      "step": 26535
+    },
+    {
+      "epoch": 12.512965582272512,
+      "grad_norm": 0.00022787672060076147,
+      "learning_rate": 0.0763062830256118,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 24625216,
+      "step": 26540
+    },
+    {
+      "epoch": 12.515322960867515,
+      "grad_norm": 0.00018711945449467748,
+      "learning_rate": 0.07625498285432258,
+      "loss": 0.2867,
+      "num_input_tokens_seen": 24629552,
+      "step": 26545
+    },
+    {
+      "epoch": 12.517680339462517,
+      "grad_norm": 0.0005749955307692289,
+      "learning_rate": 0.07620369405544176,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 24634416,
+      "step": 26550
+    },
+    {
+      "epoch": 12.52003771805752,
+      "grad_norm": 0.00016561264055781066,
+      "learning_rate": 0.07615241663687868,
+      "loss": 0.3813,
+      "num_input_tokens_seen": 24638848,
+      "step": 26555
+    },
+    {
+      "epoch": 12.522395096652522,
+      "grad_norm": 0.0002644163032528013,
+      "learning_rate": 0.07610115060654106,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 24643392,
+      "step": 26560
+    },
+    {
+      "epoch": 12.524752475247524,
+      "grad_norm": 0.00037797997356392443,
+      "learning_rate": 0.07604989597233458,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 24647808,
+      "step": 26565
+    },
+    {
+      "epoch": 12.527109853842527,
+      "grad_norm": 0.0002940521517302841,
+      "learning_rate": 0.07599865274216352,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 24652848,
+      "step": 26570
+    },
+    {
+      "epoch": 12.52946723243753,
+      "grad_norm": 0.00047804348287172616,
+      "learning_rate": 0.07594742092393013,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 24657072,
+      "step": 26575
+    },
+    {
+      "epoch": 12.531824611032532,
+      "grad_norm": 0.000390736386179924,
+      "learning_rate": 0.07589620052553503,
+      "loss": 0.2782,
+      "num_input_tokens_seen": 24661264,
+      "step": 26580
+    },
+    {
+      "epoch": 12.534181989627534,
+      "grad_norm": 0.0002462574339006096,
+      "learning_rate": 0.0758449915548771,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 24666176,
+      "step": 26585
+    },
+    {
+      "epoch": 12.536539368222536,
+      "grad_norm": 0.0005274628638289869,
+      "learning_rate": 0.07579379401985332,
+      "loss": 0.2568,
+      "num_input_tokens_seen": 24670544,
+      "step": 26590
+    },
+    {
+      "epoch": 12.538896746817539,
+      "grad_norm": 0.0002556423714850098,
+      "learning_rate": 0.07574260792835905,
+      "loss": 0.3422,
+      "num_input_tokens_seen": 24674400,
+      "step": 26595
+    },
+    {
+      "epoch": 12.541254125412541,
+      "grad_norm": 0.0005648741498589516,
+      "learning_rate": 0.07569143328828784,
+      "loss": 0.3503,
+      "num_input_tokens_seen": 24679264,
+      "step": 26600
+    },
+    {
+      "epoch": 12.541254125412541,
+      "eval_loss": 0.32726234197616577,
+      "eval_runtime": 33.5737,
+      "eval_samples_per_second": 28.087,
+      "eval_steps_per_second": 14.059,
+      "num_input_tokens_seen": 24679264,
+      "step": 26600
+    },
+    {
+      "epoch": 12.543611504007544,
+      "grad_norm": 0.00023188597697298974,
+      "learning_rate": 0.0756402701075314,
+      "loss": 0.3017,
+      "num_input_tokens_seen": 24683952,
+      "step": 26605
+    },
+    {
+      "epoch": 12.545968882602546,
+      "grad_norm": 0.00035319747985340655,
+      "learning_rate": 0.07558911839397982,
+      "loss": 0.3578,
+      "num_input_tokens_seen": 24689232,
+      "step": 26610
+    },
+    {
+      "epoch": 12.548326261197548,
+      "grad_norm": 0.0003979901666752994,
+      "learning_rate": 0.07553797815552123,
+      "loss": 0.292,
+      "num_input_tokens_seen": 24693888,
+      "step": 26615
+    },
+    {
+      "epoch": 12.55068363979255,
+      "grad_norm": 0.00047964032273739576,
+      "learning_rate": 0.07548684940004222,
+      "loss": 0.2704,
+      "num_input_tokens_seen": 24698624,
+      "step": 26620
+    },
+    {
+      "epoch": 12.553041018387553,
+      "grad_norm": 0.0003886040358338505,
+      "learning_rate": 0.07543573213542744,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 24703808,
+      "step": 26625
+    },
+    {
+      "epoch": 12.555398396982556,
+      "grad_norm": 0.000382021302357316,
+      "learning_rate": 0.0753846263695597,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 24707968,
+      "step": 26630
+    },
+    {
+      "epoch": 12.557755775577558,
+      "grad_norm": 0.0006540619651786983,
+      "learning_rate": 0.07533353211032029,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 24712368,
+      "step": 26635
+    },
+    {
+      "epoch": 12.56011315417256,
+      "grad_norm": 0.00024183654750231653,
+      "learning_rate": 0.07528244936558857,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 24716224,
+      "step": 26640
+    },
+    {
+      "epoch": 12.562470532767563,
+      "grad_norm": 0.00036652572453022003,
+      "learning_rate": 0.07523137814324206,
+      "loss": 0.2762,
+      "num_input_tokens_seen": 24720432,
+      "step": 26645
+    },
+    {
+      "epoch": 12.564827911362565,
+      "grad_norm": 0.0002418982476228848,
+      "learning_rate": 0.07518031845115672,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 24725184,
+      "step": 26650
+    },
+    {
+      "epoch": 12.567185289957568,
+      "grad_norm": 0.0005087152239866555,
+      "learning_rate": 0.07512927029720647,
+      "loss": 0.2983,
+      "num_input_tokens_seen": 24729504,
+      "step": 26655
+    },
+    {
+      "epoch": 12.56954266855257,
+      "grad_norm": 0.00030519822030328214,
+      "learning_rate": 0.0750782336892636,
+      "loss": 0.3784,
+      "num_input_tokens_seen": 24734224,
+      "step": 26660
+    },
+    {
+      "epoch": 12.571900047147572,
+      "grad_norm": 0.0005920676048845053,
+      "learning_rate": 0.0750272086351987,
+      "loss": 0.3633,
+      "num_input_tokens_seen": 24738736,
+      "step": 26665
+    },
+    {
+      "epoch": 12.574257425742575,
+      "grad_norm": 0.00031438106088899076,
+      "learning_rate": 0.07497619514288031,
+      "loss": 0.2952,
+      "num_input_tokens_seen": 24742832,
+      "step": 26670
+    },
+    {
+      "epoch": 12.576614804337577,
+      "grad_norm": 0.0005861737299710512,
+      "learning_rate": 0.07492519322017545,
+      "loss": 0.3982,
+      "num_input_tokens_seen": 24747584,
+      "step": 26675
+    },
+    {
+      "epoch": 12.57897218293258,
+      "grad_norm": 0.0005813444149680436,
+      "learning_rate": 0.0748742028749493,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 24751888,
+      "step": 26680
+    },
+    {
+      "epoch": 12.581329561527582,
+      "grad_norm": 0.00024330161977559328,
+      "learning_rate": 0.0748232241150651,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 24756720,
+      "step": 26685
+    },
+    {
+      "epoch": 12.583686940122584,
+      "grad_norm": 0.0002626337227411568,
+      "learning_rate": 0.07477225694838453,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 24761632,
+      "step": 26690
+    },
+    {
+      "epoch": 12.586044318717587,
+      "grad_norm": 0.0006239296635612845,
+      "learning_rate": 0.07472130138276731,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 24766160,
+      "step": 26695
+    },
+    {
+      "epoch": 12.58840169731259,
+      "grad_norm": 0.0004638723039533943,
+      "learning_rate": 0.07467035742607138,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 24771216,
+      "step": 26700
+    },
+    {
+      "epoch": 12.590759075907592,
+      "grad_norm": 0.0002533218648750335,
+      "learning_rate": 0.07461942508615303,
+      "loss": 0.3121,
+      "num_input_tokens_seen": 24777232,
+      "step": 26705
+    },
+    {
+      "epoch": 12.593116454502592,
+      "grad_norm": 0.0006632041186094284,
+      "learning_rate": 0.07456850437086657,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 24781472,
+      "step": 26710
+    },
+    {
+      "epoch": 12.595473833097596,
+      "grad_norm": 0.00043834347161464393,
+      "learning_rate": 0.07451759528806468,
+      "loss": 0.3131,
+      "num_input_tokens_seen": 24785360,
+      "step": 26715
+    },
+    {
+      "epoch": 12.597831211692597,
+      "grad_norm": 0.0002777304907795042,
+      "learning_rate": 0.0744666978455982,
+      "loss": 0.3117,
+      "num_input_tokens_seen": 24790736,
+      "step": 26720
+    },
+    {
+      "epoch": 12.6001885902876,
+      "grad_norm": 0.00026601774152368307,
+      "learning_rate": 0.07441581205131609,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 24795568,
+      "step": 26725
+    },
+    {
+      "epoch": 12.602545968882602,
+      "grad_norm": 0.0002686941879801452,
+      "learning_rate": 0.07436493791306566,
+      "loss": 0.34,
+      "num_input_tokens_seen": 24800144,
+      "step": 26730
+    },
+    {
+      "epoch": 12.604903347477604,
+      "grad_norm": 0.0007323529571294785,
+      "learning_rate": 0.07431407543869223,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 24804832,
+      "step": 26735
+    },
+    {
+      "epoch": 12.607260726072607,
+      "grad_norm": 0.00023870998120401055,
+      "learning_rate": 0.0742632246360395,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 24809760,
+      "step": 26740
+    },
+    {
+      "epoch": 12.609618104667609,
+      "grad_norm": 0.0004834186111111194,
+      "learning_rate": 0.07421238551294934,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 24814112,
+      "step": 26745
+    },
+    {
+      "epoch": 12.611975483262611,
+      "grad_norm": 0.00019464171782601625,
+      "learning_rate": 0.07416155807726171,
+      "loss": 0.2836,
+      "num_input_tokens_seen": 24818384,
+      "step": 26750
+    },
+    {
+      "epoch": 12.614332861857614,
+      "grad_norm": 0.0004343364271335304,
+      "learning_rate": 0.07411074233681492,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 24823296,
+      "step": 26755
+    },
+    {
+      "epoch": 12.616690240452616,
+      "grad_norm": 0.0006405315361917019,
+      "learning_rate": 0.07405993829944528,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 24828272,
+      "step": 26760
+    },
+    {
+      "epoch": 12.619047619047619,
+      "grad_norm": 0.00025979033671319485,
+      "learning_rate": 0.07400914597298755,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 24833072,
+      "step": 26765
+    },
+    {
+      "epoch": 12.621404997642621,
+      "grad_norm": 0.0005254031275399029,
+      "learning_rate": 0.07395836536527445,
+      "loss": 0.3715,
+      "num_input_tokens_seen": 24837440,
+      "step": 26770
+    },
+    {
+      "epoch": 12.623762376237623,
+      "grad_norm": 0.0004771664971485734,
+      "learning_rate": 0.07390759648413696,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 24840896,
+      "step": 26775
+    },
+    {
+      "epoch": 12.626119754832626,
+      "grad_norm": 0.0005842481041327119,
+      "learning_rate": 0.07385683933740435,
+      "loss": 0.2983,
+      "num_input_tokens_seen": 24845552,
+      "step": 26780
+    },
+    {
+      "epoch": 12.628477133427628,
+      "grad_norm": 0.0010313084349036217,
+      "learning_rate": 0.07380609393290402,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 24849392,
+      "step": 26785
+    },
+    {
+      "epoch": 12.63083451202263,
+      "grad_norm": 0.0004781229072250426,
+      "learning_rate": 0.07375536027846147,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 24853584,
+      "step": 26790
+    },
+    {
+      "epoch": 12.633191890617633,
+      "grad_norm": 0.00030710676219314337,
+      "learning_rate": 0.07370463838190057,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 24857168,
+      "step": 26795
+    },
+    {
+      "epoch": 12.635549269212635,
+      "grad_norm": 0.0003587166138458997,
+      "learning_rate": 0.07365392825104317,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 24861136,
+      "step": 26800
+    },
+    {
+      "epoch": 12.635549269212635,
+      "eval_loss": 0.32801857590675354,
+      "eval_runtime": 33.5951,
+      "eval_samples_per_second": 28.07,
+      "eval_steps_per_second": 14.05,
+      "num_input_tokens_seen": 24861136,
+      "step": 26800
+    },
+    {
+      "epoch": 12.637906647807638,
+      "grad_norm": 0.00043134239967912436,
+      "learning_rate": 0.07360322989370945,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 24865968,
+      "step": 26805
+    },
+    {
+      "epoch": 12.64026402640264,
+      "grad_norm": 0.0007054942543618381,
+      "learning_rate": 0.07355254331771781,
+      "loss": 0.367,
+      "num_input_tokens_seen": 24871520,
+      "step": 26810
+    },
+    {
+      "epoch": 12.642621404997643,
+      "grad_norm": 0.0002556830004323274,
+      "learning_rate": 0.07350186853088461,
+      "loss": 0.3693,
+      "num_input_tokens_seen": 24875664,
+      "step": 26815
+    },
+    {
+      "epoch": 12.644978783592645,
+      "grad_norm": 0.000548600684851408,
+      "learning_rate": 0.07345120554102462,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 24879760,
+      "step": 26820
+    },
+    {
+      "epoch": 12.647336162187647,
+      "grad_norm": 0.0004917539190500975,
+      "learning_rate": 0.07340055435595079,
+      "loss": 0.317,
+      "num_input_tokens_seen": 24885040,
+      "step": 26825
+    },
+    {
+      "epoch": 12.64969354078265,
+      "grad_norm": 0.00022219191305339336,
+      "learning_rate": 0.07334991498347401,
+      "loss": 0.316,
+      "num_input_tokens_seen": 24890416,
+      "step": 26830
+    },
+    {
+      "epoch": 12.652050919377652,
+      "grad_norm": 0.0005849364679306746,
+      "learning_rate": 0.07329928743140365,
+      "loss": 0.2876,
+      "num_input_tokens_seen": 24895680,
+      "step": 26835
+    },
+    {
+      "epoch": 12.654408297972655,
+      "grad_norm": 0.000592266907915473,
+      "learning_rate": 0.07324867170754705,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 24900864,
+      "step": 26840
+    },
+    {
+      "epoch": 12.656765676567657,
+      "grad_norm": 0.00033568358048796654,
+      "learning_rate": 0.07319806781970974,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 24905840,
+      "step": 26845
+    },
+    {
+      "epoch": 12.65912305516266,
+      "grad_norm": 0.0004033869772683829,
+      "learning_rate": 0.07314747577569555,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 24910384,
+      "step": 26850
+    },
+    {
+      "epoch": 12.661480433757662,
+      "grad_norm": 0.0003297364164609462,
+      "learning_rate": 0.07309689558330636,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 24915136,
+      "step": 26855
+    },
+    {
+      "epoch": 12.663837812352664,
+      "grad_norm": 0.00037756265373900533,
+      "learning_rate": 0.0730463272503423,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 24920880,
+      "step": 26860
+    },
+    {
+      "epoch": 12.666195190947667,
+      "grad_norm": 0.0007563230465166271,
+      "learning_rate": 0.07299577078460168,
+      "loss": 0.3268,
+      "num_input_tokens_seen": 24925296,
+      "step": 26865
+    },
+    {
+      "epoch": 12.668552569542669,
+      "grad_norm": 0.0008027868461795151,
+      "learning_rate": 0.07294522619388083,
+      "loss": 0.3642,
+      "num_input_tokens_seen": 24930192,
+      "step": 26870
+    },
+    {
+      "epoch": 12.670909948137671,
+      "grad_norm": 0.0007552916067652404,
+      "learning_rate": 0.07289469348597452,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 24935152,
+      "step": 26875
+    },
+    {
+      "epoch": 12.673267326732674,
+      "grad_norm": 0.0003636504407040775,
+      "learning_rate": 0.07284417266867535,
+      "loss": 0.3416,
+      "num_input_tokens_seen": 24940256,
+      "step": 26880
+    },
+    {
+      "epoch": 12.675624705327676,
+      "grad_norm": 0.0004301958833821118,
+      "learning_rate": 0.07279366374977439,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 24944880,
+      "step": 26885
+    },
+    {
+      "epoch": 12.677982083922679,
+      "grad_norm": 0.000608034199103713,
+      "learning_rate": 0.07274316673706074,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 24949920,
+      "step": 26890
+    },
+    {
+      "epoch": 12.680339462517681,
+      "grad_norm": 0.0005747932009398937,
+      "learning_rate": 0.07269268163832161,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 24954736,
+      "step": 26895
+    },
+    {
+      "epoch": 12.682696841112683,
+      "grad_norm": 0.0003997823514509946,
+      "learning_rate": 0.07264220846134248,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 24958736,
+      "step": 26900
+    },
+    {
+      "epoch": 12.685054219707686,
+      "grad_norm": 0.0003652576415333897,
+      "learning_rate": 0.07259174721390699,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 24962704,
+      "step": 26905
+    },
+    {
+      "epoch": 12.687411598302688,
+      "grad_norm": 0.00028827041387557983,
+      "learning_rate": 0.07254129790379686,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 24966944,
+      "step": 26910
+    },
+    {
+      "epoch": 12.689768976897689,
+      "grad_norm": 0.0002386830747127533,
+      "learning_rate": 0.072490860538792,
+      "loss": 0.3349,
+      "num_input_tokens_seen": 24971536,
+      "step": 26915
+    },
+    {
+      "epoch": 12.692126355492691,
+      "grad_norm": 0.0004869506519753486,
+      "learning_rate": 0.07244043512667042,
+      "loss": 0.352,
+      "num_input_tokens_seen": 24975808,
+      "step": 26920
+    },
+    {
+      "epoch": 12.694483734087694,
+      "grad_norm": 0.00045344268437474966,
+      "learning_rate": 0.07239002167520843,
+      "loss": 0.3582,
+      "num_input_tokens_seen": 24980912,
+      "step": 26925
+    },
+    {
+      "epoch": 12.696841112682696,
+      "grad_norm": 0.00024435980594716966,
+      "learning_rate": 0.07233962019218045,
+      "loss": 0.341,
+      "num_input_tokens_seen": 24985760,
+      "step": 26930
+    },
+    {
+      "epoch": 12.699198491277699,
+      "grad_norm": 0.0002587329945527017,
+      "learning_rate": 0.07228923068535892,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 24990016,
+      "step": 26935
+    },
+    {
+      "epoch": 12.701555869872701,
+      "grad_norm": 0.0005368049023672938,
+      "learning_rate": 0.0722388531625146,
+      "loss": 0.2767,
+      "num_input_tokens_seen": 24995376,
+      "step": 26940
+    },
+    {
+      "epoch": 12.703913248467703,
+      "grad_norm": 0.000330597220454365,
+      "learning_rate": 0.07218848763141639,
+      "loss": 0.321,
+      "num_input_tokens_seen": 24999296,
+      "step": 26945
+    },
+    {
+      "epoch": 12.706270627062706,
+      "grad_norm": 0.0005125239840708673,
+      "learning_rate": 0.07213813409983118,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 25003216,
+      "step": 26950
+    },
+    {
+      "epoch": 12.708628005657708,
+      "grad_norm": 0.0004765289486385882,
+      "learning_rate": 0.0720877925755242,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 25007424,
+      "step": 26955
+    },
+    {
+      "epoch": 12.71098538425271,
+      "grad_norm": 0.0004034567973576486,
+      "learning_rate": 0.07203746306625866,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 25011808,
+      "step": 26960
+    },
+    {
+      "epoch": 12.713342762847713,
+      "grad_norm": 0.0006515842978842556,
+      "learning_rate": 0.07198714557979606,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 25016128,
+      "step": 26965
+    },
+    {
+      "epoch": 12.715700141442715,
+      "grad_norm": 0.00036736196489073336,
+      "learning_rate": 0.07193684012389602,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 25020096,
+      "step": 26970
+    },
+    {
+      "epoch": 12.718057520037718,
+      "grad_norm": 0.00023537878587376326,
+      "learning_rate": 0.07188654670631621,
+      "loss": 0.3089,
+      "num_input_tokens_seen": 25024448,
+      "step": 26975
+    },
+    {
+      "epoch": 12.72041489863272,
+      "grad_norm": 0.0002503102004993707,
+      "learning_rate": 0.07183626533481258,
+      "loss": 0.3799,
+      "num_input_tokens_seen": 25028832,
+      "step": 26980
+    },
+    {
+      "epoch": 12.722772277227723,
+      "grad_norm": 0.00025061811902560294,
+      "learning_rate": 0.07178599601713909,
+      "loss": 0.2959,
+      "num_input_tokens_seen": 25033168,
+      "step": 26985
+    },
+    {
+      "epoch": 12.725129655822725,
+      "grad_norm": 0.0002649019006639719,
+      "learning_rate": 0.07173573876104786,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 25037488,
+      "step": 26990
+    },
+    {
+      "epoch": 12.727487034417727,
+      "grad_norm": 0.0003554726717993617,
+      "learning_rate": 0.0716854935742893,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 25041920,
+      "step": 26995
+    },
+    {
+      "epoch": 12.72984441301273,
+      "grad_norm": 0.0002623863983899355,
+      "learning_rate": 0.07163526046461174,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 25046496,
+      "step": 27000
+    },
+    {
+      "epoch": 12.72984441301273,
+      "eval_loss": 0.32669514417648315,
+      "eval_runtime": 33.6418,
+      "eval_samples_per_second": 28.031,
+      "eval_steps_per_second": 14.03,
+      "num_input_tokens_seen": 25046496,
+      "step": 27000
+    },
+    {
+      "epoch": 12.732201791607732,
+      "grad_norm": 0.0004857828898821026,
+      "learning_rate": 0.07158503943976181,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 25050576,
+      "step": 27005
+    },
+    {
+      "epoch": 12.734559170202735,
+      "grad_norm": 0.00028291670605540276,
+      "learning_rate": 0.07153483050748427,
+      "loss": 0.3548,
+      "num_input_tokens_seen": 25054784,
+      "step": 27010
+    },
+    {
+      "epoch": 12.736916548797737,
+      "grad_norm": 0.0006884754984639585,
+      "learning_rate": 0.07148463367552188,
+      "loss": 0.3735,
+      "num_input_tokens_seen": 25059104,
+      "step": 27015
+    },
+    {
+      "epoch": 12.73927392739274,
+      "grad_norm": 0.00021554857084993273,
+      "learning_rate": 0.07143444895161565,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 25063536,
+      "step": 27020
+    },
+    {
+      "epoch": 12.741631305987742,
+      "grad_norm": 0.0003103074268437922,
+      "learning_rate": 0.07138427634350476,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 25068384,
+      "step": 27025
+    },
+    {
+      "epoch": 12.743988684582744,
+      "grad_norm": 0.0004066299006808549,
+      "learning_rate": 0.07133411585892636,
+      "loss": 0.3797,
+      "num_input_tokens_seen": 25073504,
+      "step": 27030
+    },
+    {
+      "epoch": 12.746346063177747,
+      "grad_norm": 0.0003625115496106446,
+      "learning_rate": 0.07128396750561593,
+      "loss": 0.3267,
+      "num_input_tokens_seen": 25078048,
+      "step": 27035
+    },
+    {
+      "epoch": 12.748703441772749,
+      "grad_norm": 0.00028708003810606897,
+      "learning_rate": 0.07123383129130685,
+      "loss": 0.2813,
+      "num_input_tokens_seen": 25082512,
+      "step": 27040
+    },
+    {
+      "epoch": 12.751060820367751,
+      "grad_norm": 0.0002653943665791303,
+      "learning_rate": 0.07118370722373084,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 25087360,
+      "step": 27045
+    },
+    {
+      "epoch": 12.753418198962754,
+      "grad_norm": 0.00023262895410880446,
+      "learning_rate": 0.07113359531061769,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 25091600,
+      "step": 27050
+    },
+    {
+      "epoch": 12.755775577557756,
+      "grad_norm": 0.00026980621623806655,
+      "learning_rate": 0.07108349555969525,
+      "loss": 0.3444,
+      "num_input_tokens_seen": 25096256,
+      "step": 27055
+    },
+    {
+      "epoch": 12.758132956152759,
+      "grad_norm": 0.0006293314509093761,
+      "learning_rate": 0.07103340797868944,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 25100976,
+      "step": 27060
+    },
+    {
+      "epoch": 12.760490334747761,
+      "grad_norm": 0.00029432770679704845,
+      "learning_rate": 0.07098333257532453,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 25105840,
+      "step": 27065
+    },
+    {
+      "epoch": 12.762847713342763,
+      "grad_norm": 0.0005764111992903054,
+      "learning_rate": 0.07093326935732269,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 25110528,
+      "step": 27070
+    },
+    {
+      "epoch": 12.765205091937766,
+      "grad_norm": 0.0003115557483397424,
+      "learning_rate": 0.0708832183324044,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 25115328,
+      "step": 27075
+    },
+    {
+      "epoch": 12.767562470532768,
+      "grad_norm": 0.0001727156195556745,
+      "learning_rate": 0.07083317950828799,
+      "loss": 0.335,
+      "num_input_tokens_seen": 25119856,
+      "step": 27080
+    },
+    {
+      "epoch": 12.76991984912777,
+      "grad_norm": 0.00040233059553429484,
+      "learning_rate": 0.0707831528926902,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 25125520,
+      "step": 27085
+    },
+    {
+      "epoch": 12.772277227722773,
+      "grad_norm": 0.00033248026738874614,
+      "learning_rate": 0.07073313849332578,
+      "loss": 0.325,
+      "num_input_tokens_seen": 25131136,
+      "step": 27090
+    },
+    {
+      "epoch": 12.774634606317775,
+      "grad_norm": 0.0003102481714449823,
+      "learning_rate": 0.07068313631790749,
+      "loss": 0.4145,
+      "num_input_tokens_seen": 25136128,
+      "step": 27095
+    },
+    {
+      "epoch": 12.776991984912778,
+      "grad_norm": 0.0003164673107676208,
+      "learning_rate": 0.07063314637414632,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 25141568,
+      "step": 27100
+    },
+    {
+      "epoch": 12.77934936350778,
+      "grad_norm": 0.0005157013074494898,
+      "learning_rate": 0.07058316866975144,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 25145984,
+      "step": 27105
+    },
+    {
+      "epoch": 12.78170674210278,
+      "grad_norm": 0.0002280039043398574,
+      "learning_rate": 0.0705332032124299,
+      "loss": 0.3602,
+      "num_input_tokens_seen": 25150752,
+      "step": 27110
+    },
+    {
+      "epoch": 12.784064120697785,
+      "grad_norm": 0.0003328457532916218,
+      "learning_rate": 0.0704832500098871,
+      "loss": 0.367,
+      "num_input_tokens_seen": 25156112,
+      "step": 27115
+    },
+    {
+      "epoch": 12.786421499292786,
+      "grad_norm": 0.00032560405088588595,
+      "learning_rate": 0.07043330906982641,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 25159904,
+      "step": 27120
+    },
+    {
+      "epoch": 12.788778877887788,
+      "grad_norm": 0.0003714230260811746,
+      "learning_rate": 0.07038338039994936,
+      "loss": 0.329,
+      "num_input_tokens_seen": 25163856,
+      "step": 27125
+    },
+    {
+      "epoch": 12.79113625648279,
+      "grad_norm": 0.0002926867746282369,
+      "learning_rate": 0.07033346400795562,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 25168752,
+      "step": 27130
+    },
+    {
+      "epoch": 12.793493635077793,
+      "grad_norm": 0.00026821441133506596,
+      "learning_rate": 0.07028355990154282,
+      "loss": 0.3608,
+      "num_input_tokens_seen": 25172304,
+      "step": 27135
+    },
+    {
+      "epoch": 12.795851013672795,
+      "grad_norm": 0.0002280186745338142,
+      "learning_rate": 0.07023366808840685,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 25176944,
+      "step": 27140
+    },
+    {
+      "epoch": 12.798208392267798,
+      "grad_norm": 0.00048313854495063424,
+      "learning_rate": 0.07018378857624172,
+      "loss": 0.368,
+      "num_input_tokens_seen": 25181632,
+      "step": 27145
+    },
+    {
+      "epoch": 12.8005657708628,
+      "grad_norm": 0.0003370647318661213,
+      "learning_rate": 0.0701339213727394,
+      "loss": 0.3338,
+      "num_input_tokens_seen": 25186416,
+      "step": 27150
+    },
+    {
+      "epoch": 12.802923149457802,
+      "grad_norm": 0.0003359166148584336,
+      "learning_rate": 0.07008406648559008,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 25190800,
+      "step": 27155
+    },
+    {
+      "epoch": 12.805280528052805,
+      "grad_norm": 0.0006547574885189533,
+      "learning_rate": 0.07003422392248196,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 25195760,
+      "step": 27160
+    },
+    {
+      "epoch": 12.807637906647807,
+      "grad_norm": 0.0007851719856262207,
+      "learning_rate": 0.06998439369110142,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 25200048,
+      "step": 27165
+    },
+    {
+      "epoch": 12.80999528524281,
+      "grad_norm": 0.0006617247709073126,
+      "learning_rate": 0.06993457579913295,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 25204976,
+      "step": 27170
+    },
+    {
+      "epoch": 12.812352663837812,
+      "grad_norm": 0.0002822264505084604,
+      "learning_rate": 0.06988477025425903,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 25209264,
+      "step": 27175
+    },
+    {
+      "epoch": 12.814710042432814,
+      "grad_norm": 0.0006614230806007981,
+      "learning_rate": 0.06983497706416032,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 25213952,
+      "step": 27180
+    },
+    {
+      "epoch": 12.817067421027817,
+      "grad_norm": 0.00023036528727971017,
+      "learning_rate": 0.0697851962365156,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 25218512,
+      "step": 27185
+    },
+    {
+      "epoch": 12.81942479962282,
+      "grad_norm": 0.000331592105794698,
+      "learning_rate": 0.06973542777900163,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 25222656,
+      "step": 27190
+    },
+    {
+      "epoch": 12.821782178217822,
+      "grad_norm": 0.0002314594603376463,
+      "learning_rate": 0.06968567169929342,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 25226560,
+      "step": 27195
+    },
+    {
+      "epoch": 12.824139556812824,
+      "grad_norm": 0.00027875747764483094,
+      "learning_rate": 0.06963592800506392,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 25230592,
+      "step": 27200
+    },
+    {
+      "epoch": 12.824139556812824,
+      "eval_loss": 0.3271976411342621,
+      "eval_runtime": 33.5583,
+      "eval_samples_per_second": 28.1,
+      "eval_steps_per_second": 14.065,
+      "num_input_tokens_seen": 25230592,
+      "step": 27200
+    },
+    {
+      "epoch": 12.826496935407826,
+      "grad_norm": 0.000566201051697135,
+      "learning_rate": 0.06958619670398417,
+      "loss": 0.2863,
+      "num_input_tokens_seen": 25234560,
+      "step": 27205
+    },
+    {
+      "epoch": 12.828854314002829,
+      "grad_norm": 0.0003397780819796026,
+      "learning_rate": 0.0695364778037235,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 25239600,
+      "step": 27210
+    },
+    {
+      "epoch": 12.831211692597831,
+      "grad_norm": 0.0005335613968782127,
+      "learning_rate": 0.06948677131194907,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 25244464,
+      "step": 27215
+    },
+    {
+      "epoch": 12.833569071192834,
+      "grad_norm": 0.00033589365193620324,
+      "learning_rate": 0.06943707723632629,
+      "loss": 0.3924,
+      "num_input_tokens_seen": 25249312,
+      "step": 27220
+    },
+    {
+      "epoch": 12.835926449787836,
+      "grad_norm": 0.0005592897068709135,
+      "learning_rate": 0.06938739558451867,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 25253584,
+      "step": 27225
+    },
+    {
+      "epoch": 12.838283828382838,
+      "grad_norm": 0.000263041554717347,
+      "learning_rate": 0.06933772636418763,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 25257920,
+      "step": 27230
+    },
+    {
+      "epoch": 12.84064120697784,
+      "grad_norm": 0.0003790983173530549,
+      "learning_rate": 0.06928806958299293,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 25262448,
+      "step": 27235
+    },
+    {
+      "epoch": 12.842998585572843,
+      "grad_norm": 0.0005743906367570162,
+      "learning_rate": 0.06923842524859211,
+      "loss": 0.2691,
+      "num_input_tokens_seen": 25266848,
+      "step": 27240
+    },
+    {
+      "epoch": 12.845355964167846,
+      "grad_norm": 0.00040964054642245173,
+      "learning_rate": 0.06918879336864105,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 25271472,
+      "step": 27245
+    },
+    {
+      "epoch": 12.847713342762848,
+      "grad_norm": 0.0004955698968842626,
+      "learning_rate": 0.06913917395079362,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 25275648,
+      "step": 27250
+    },
+    {
+      "epoch": 12.85007072135785,
+      "grad_norm": 0.0005589632201008499,
+      "learning_rate": 0.0690895670027017,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 25279536,
+      "step": 27255
+    },
+    {
+      "epoch": 12.852428099952853,
+      "grad_norm": 0.0003247251152060926,
+      "learning_rate": 0.06903997253201531,
+      "loss": 0.372,
+      "num_input_tokens_seen": 25284128,
+      "step": 27260
+    },
+    {
+      "epoch": 12.854785478547855,
+      "grad_norm": 0.00022496386372949928,
+      "learning_rate": 0.06899039054638263,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 25288096,
+      "step": 27265
+    },
+    {
+      "epoch": 12.857142857142858,
+      "grad_norm": 0.0005135115352459252,
+      "learning_rate": 0.06894082105344976,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 25293392,
+      "step": 27270
+    },
+    {
+      "epoch": 12.85950023573786,
+      "grad_norm": 0.000283689092611894,
+      "learning_rate": 0.06889126406086087,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 25298336,
+      "step": 27275
+    },
+    {
+      "epoch": 12.861857614332862,
+      "grad_norm": 0.0005763627705164254,
+      "learning_rate": 0.0688417195762584,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 25303152,
+      "step": 27280
+    },
+    {
+      "epoch": 12.864214992927865,
+      "grad_norm": 0.0005365728284232318,
+      "learning_rate": 0.06879218760728262,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 25307792,
+      "step": 27285
+    },
+    {
+      "epoch": 12.866572371522867,
+      "grad_norm": 0.000491075508762151,
+      "learning_rate": 0.06874266816157207,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 25311680,
+      "step": 27290
+    },
+    {
+      "epoch": 12.86892975011787,
+      "grad_norm": 0.00026377884205430746,
+      "learning_rate": 0.06869316124676321,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 25316208,
+      "step": 27295
+    },
+    {
+      "epoch": 12.871287128712872,
+      "grad_norm": 0.0004807862569577992,
+      "learning_rate": 0.06864366687049062,
+      "loss": 0.335,
+      "num_input_tokens_seen": 25320368,
+      "step": 27300
+    },
+    {
+      "epoch": 12.873644507307874,
+      "grad_norm": 0.0002968689368572086,
+      "learning_rate": 0.06859418504038704,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 25324512,
+      "step": 27305
+    },
+    {
+      "epoch": 12.876001885902877,
+      "grad_norm": 0.000359479570761323,
+      "learning_rate": 0.06854471576408311,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 25329200,
+      "step": 27310
+    },
+    {
+      "epoch": 12.878359264497877,
+      "grad_norm": 0.0007593145710416138,
+      "learning_rate": 0.06849525904920767,
+      "loss": 0.313,
+      "num_input_tokens_seen": 25333632,
+      "step": 27315
+    },
+    {
+      "epoch": 12.88071664309288,
+      "grad_norm": 0.00032497014035470784,
+      "learning_rate": 0.06844581490338748,
+      "loss": 0.3666,
+      "num_input_tokens_seen": 25338096,
+      "step": 27320
+    },
+    {
+      "epoch": 12.883074021687882,
+      "grad_norm": 0.00017424122779630125,
+      "learning_rate": 0.06839638333424752,
+      "loss": 0.3177,
+      "num_input_tokens_seen": 25342704,
+      "step": 27325
+    },
+    {
+      "epoch": 12.885431400282885,
+      "grad_norm": 0.0005682221380993724,
+      "learning_rate": 0.06834696434941082,
+      "loss": 0.3845,
+      "num_input_tokens_seen": 25347280,
+      "step": 27330
+    },
+    {
+      "epoch": 12.887788778877887,
+      "grad_norm": 0.0005337915499694645,
+      "learning_rate": 0.06829755795649824,
+      "loss": 0.3049,
+      "num_input_tokens_seen": 25351552,
+      "step": 27335
+    },
+    {
+      "epoch": 12.89014615747289,
+      "grad_norm": 0.0002690485562197864,
+      "learning_rate": 0.06824816416312904,
+      "loss": 0.3566,
+      "num_input_tokens_seen": 25356480,
+      "step": 27340
+    },
+    {
+      "epoch": 12.892503536067892,
+      "grad_norm": 0.0003754821082111448,
+      "learning_rate": 0.06819878297692027,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 25360736,
+      "step": 27345
+    },
+    {
+      "epoch": 12.894860914662894,
+      "grad_norm": 0.0008634236874058843,
+      "learning_rate": 0.0681494144054871,
+      "loss": 0.3668,
+      "num_input_tokens_seen": 25366160,
+      "step": 27350
+    },
+    {
+      "epoch": 12.897218293257897,
+      "grad_norm": 0.00029359760810621083,
+      "learning_rate": 0.06810005845644286,
+      "loss": 0.3322,
+      "num_input_tokens_seen": 25370160,
+      "step": 27355
+    },
+    {
+      "epoch": 12.899575671852899,
+      "grad_norm": 0.0005895893555134535,
+      "learning_rate": 0.06805071513739878,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 25374160,
+      "step": 27360
+    },
+    {
+      "epoch": 12.901933050447902,
+      "grad_norm": 0.00030859169783070683,
+      "learning_rate": 0.06800138445596428,
+      "loss": 0.2891,
+      "num_input_tokens_seen": 25378640,
+      "step": 27365
+    },
+    {
+      "epoch": 12.904290429042904,
+      "grad_norm": 0.0002534536470193416,
+      "learning_rate": 0.06795206641974678,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 25383360,
+      "step": 27370
+    },
+    {
+      "epoch": 12.906647807637906,
+      "grad_norm": 0.00044506852282211185,
+      "learning_rate": 0.06790276103635169,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 25388592,
+      "step": 27375
+    },
+    {
+      "epoch": 12.909005186232909,
+      "grad_norm": 0.0005504694418050349,
+      "learning_rate": 0.0678534683133826,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 25393472,
+      "step": 27380
+    },
+    {
+      "epoch": 12.911362564827911,
+      "grad_norm": 0.0002692325506359339,
+      "learning_rate": 0.06780418825844095,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 25397600,
+      "step": 27385
+    },
+    {
+      "epoch": 12.913719943422914,
+      "grad_norm": 0.000255411519901827,
+      "learning_rate": 0.0677549208791264,
+      "loss": 0.3305,
+      "num_input_tokens_seen": 25402256,
+      "step": 27390
+    },
+    {
+      "epoch": 12.916077322017916,
+      "grad_norm": 0.0003308618033770472,
+      "learning_rate": 0.06770566618303668,
+      "loss": 0.3026,
+      "num_input_tokens_seen": 25407200,
+      "step": 27395
+    },
+    {
+      "epoch": 12.918434700612918,
+      "grad_norm": 0.00031146471155807376,
+      "learning_rate": 0.06765642417776736,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 25411904,
+      "step": 27400
+    },
+    {
+      "epoch": 12.918434700612918,
+      "eval_loss": 0.32676875591278076,
+      "eval_runtime": 33.5818,
+      "eval_samples_per_second": 28.081,
+      "eval_steps_per_second": 14.055,
+      "num_input_tokens_seen": 25411904,
+      "step": 27400
+    },
+    {
+      "epoch": 12.92079207920792,
+      "grad_norm": 0.0004979753284715116,
+      "learning_rate": 0.0676071948709122,
+      "loss": 0.2783,
+      "num_input_tokens_seen": 25417056,
+      "step": 27405
+    },
+    {
+      "epoch": 12.923149457802923,
+      "grad_norm": 0.0004026956739835441,
+      "learning_rate": 0.06755797827006307,
+      "loss": 0.33,
+      "num_input_tokens_seen": 25423184,
+      "step": 27410
+    },
+    {
+      "epoch": 12.925506836397926,
+      "grad_norm": 0.0004747721541207284,
+      "learning_rate": 0.06750877438280974,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 25427936,
+      "step": 27415
+    },
+    {
+      "epoch": 12.927864214992928,
+      "grad_norm": 0.00023039287771098316,
+      "learning_rate": 0.06745958321673998,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 25432560,
+      "step": 27420
+    },
+    {
+      "epoch": 12.93022159358793,
+      "grad_norm": 0.00036271082353778183,
+      "learning_rate": 0.0674104047794398,
+      "loss": 0.26,
+      "num_input_tokens_seen": 25437584,
+      "step": 27425
+    },
+    {
+      "epoch": 12.932578972182933,
+      "grad_norm": 0.0003294309717603028,
+      "learning_rate": 0.06736123907849303,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 25442464,
+      "step": 27430
+    },
+    {
+      "epoch": 12.934936350777935,
+      "grad_norm": 0.0005444050766527653,
+      "learning_rate": 0.06731208612148178,
+      "loss": 0.3757,
+      "num_input_tokens_seen": 25447152,
+      "step": 27435
+    },
+    {
+      "epoch": 12.937293729372938,
+      "grad_norm": 0.0001534190378151834,
+      "learning_rate": 0.0672629459159859,
+      "loss": 0.289,
+      "num_input_tokens_seen": 25451408,
+      "step": 27440
+    },
+    {
+      "epoch": 12.93965110796794,
+      "grad_norm": 0.0003130909171886742,
+      "learning_rate": 0.0672138184695835,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 25455904,
+      "step": 27445
+    },
+    {
+      "epoch": 12.942008486562942,
+      "grad_norm": 0.0004271100624464452,
+      "learning_rate": 0.0671647037898507,
+      "loss": 0.2953,
+      "num_input_tokens_seen": 25460672,
+      "step": 27450
+    },
+    {
+      "epoch": 12.944365865157945,
+      "grad_norm": 0.0006329576135613024,
+      "learning_rate": 0.0671156018843615,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 25465344,
+      "step": 27455
+    },
+    {
+      "epoch": 12.946723243752947,
+      "grad_norm": 0.000236534106079489,
+      "learning_rate": 0.06706651276068812,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 25468816,
+      "step": 27460
+    },
+    {
+      "epoch": 12.94908062234795,
+      "grad_norm": 0.0006472649401985109,
+      "learning_rate": 0.06701743642640064,
+      "loss": 0.3682,
+      "num_input_tokens_seen": 25473616,
+      "step": 27465
+    },
+    {
+      "epoch": 12.951438000942952,
+      "grad_norm": 0.00041528360452502966,
+      "learning_rate": 0.06696837288906729,
+      "loss": 0.35,
+      "num_input_tokens_seen": 25477952,
+      "step": 27470
+    },
+    {
+      "epoch": 12.953795379537954,
+      "grad_norm": 0.0005068432656116784,
+      "learning_rate": 0.06691932215625432,
+      "loss": 0.3916,
+      "num_input_tokens_seen": 25482672,
+      "step": 27475
+    },
+    {
+      "epoch": 12.956152758132957,
+      "grad_norm": 0.0008502874406985939,
+      "learning_rate": 0.06687028423552589,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 25487264,
+      "step": 27480
+    },
+    {
+      "epoch": 12.95851013672796,
+      "grad_norm": 0.0002666498185135424,
+      "learning_rate": 0.06682125913444435,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 25492240,
+      "step": 27485
+    },
+    {
+      "epoch": 12.960867515322962,
+      "grad_norm": 0.000984391663223505,
+      "learning_rate": 0.0667722468605699,
+      "loss": 0.3708,
+      "num_input_tokens_seen": 25496384,
+      "step": 27490
+    },
+    {
+      "epoch": 12.963224893917964,
+      "grad_norm": 0.00034882890759035945,
+      "learning_rate": 0.06672324742146094,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 25500720,
+      "step": 27495
+    },
+    {
+      "epoch": 12.965582272512966,
+      "grad_norm": 0.0002618970174808055,
+      "learning_rate": 0.06667426082467373,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 25505376,
+      "step": 27500
+    },
+    {
+      "epoch": 12.967939651107969,
+      "grad_norm": 0.000573266705032438,
+      "learning_rate": 0.0666252870777626,
+      "loss": 0.3607,
+      "num_input_tokens_seen": 25509344,
+      "step": 27505
+    },
+    {
+      "epoch": 12.97029702970297,
+      "grad_norm": 0.0005037797964178026,
+      "learning_rate": 0.06657632618827995,
+      "loss": 0.3487,
+      "num_input_tokens_seen": 25513456,
+      "step": 27510
+    },
+    {
+      "epoch": 12.972654408297974,
+      "grad_norm": 0.000512219441588968,
+      "learning_rate": 0.06652737816377623,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 25518544,
+      "step": 27515
+    },
+    {
+      "epoch": 12.975011786892974,
+      "grad_norm": 0.0003157324390485883,
+      "learning_rate": 0.06647844301179971,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 25523536,
+      "step": 27520
+    },
+    {
+      "epoch": 12.977369165487977,
+      "grad_norm": 0.00038810563273727894,
+      "learning_rate": 0.06642952073989689,
+      "loss": 0.325,
+      "num_input_tokens_seen": 25528512,
+      "step": 27525
+    },
+    {
+      "epoch": 12.979726544082979,
+      "grad_norm": 0.0006776456139050424,
+      "learning_rate": 0.06638061135561223,
+      "loss": 0.3678,
+      "num_input_tokens_seen": 25533184,
+      "step": 27530
+    },
+    {
+      "epoch": 12.982083922677981,
+      "grad_norm": 0.0002784397511277348,
+      "learning_rate": 0.06633171486648808,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 25537232,
+      "step": 27535
+    },
+    {
+      "epoch": 12.984441301272984,
+      "grad_norm": 0.00037146752583794296,
+      "learning_rate": 0.06628283128006499,
+      "loss": 0.342,
+      "num_input_tokens_seen": 25541600,
+      "step": 27540
+    },
+    {
+      "epoch": 12.986798679867986,
+      "grad_norm": 0.000967194966506213,
+      "learning_rate": 0.0662339606038813,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 25546160,
+      "step": 27545
+    },
+    {
+      "epoch": 12.989156058462989,
+      "grad_norm": 0.0003322869015391916,
+      "learning_rate": 0.06618510284547358,
+      "loss": 0.343,
+      "num_input_tokens_seen": 25550656,
+      "step": 27550
+    },
+    {
+      "epoch": 12.991513437057991,
+      "grad_norm": 0.00037060046452097595,
+      "learning_rate": 0.06613625801237633,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 25554688,
+      "step": 27555
+    },
+    {
+      "epoch": 12.993870815652993,
+      "grad_norm": 0.0005898483796045184,
+      "learning_rate": 0.066087426112122,
+      "loss": 0.2972,
+      "num_input_tokens_seen": 25559968,
+      "step": 27560
+    },
+    {
+      "epoch": 12.996228194247996,
+      "grad_norm": 0.00023785715166013688,
+      "learning_rate": 0.06603860715224101,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 25564384,
+      "step": 27565
+    },
+    {
+      "epoch": 12.998585572842998,
+      "grad_norm": 0.00032360749901272357,
+      "learning_rate": 0.06598980114026198,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 25568432,
+      "step": 27570
+    },
+    {
+      "epoch": 13.000942951438,
+      "grad_norm": 0.0002612338284961879,
+      "learning_rate": 0.06594100808371128,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 25573504,
+      "step": 27575
+    },
+    {
+      "epoch": 13.003300330033003,
+      "grad_norm": 0.00028298026882112026,
+      "learning_rate": 0.06589222799011357,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 25578608,
+      "step": 27580
+    },
+    {
+      "epoch": 13.005657708628005,
+      "grad_norm": 0.00025760941207408905,
+      "learning_rate": 0.0658434608669912,
+      "loss": 0.3966,
+      "num_input_tokens_seen": 25582800,
+      "step": 27585
+    },
+    {
+      "epoch": 13.008015087223008,
+      "grad_norm": 0.00022580700169783086,
+      "learning_rate": 0.06579470672186473,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 25586944,
+      "step": 27590
+    },
+    {
+      "epoch": 13.01037246581801,
+      "grad_norm": 0.00028743009897880256,
+      "learning_rate": 0.06574596556225275,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 25591344,
+      "step": 27595
+    },
+    {
+      "epoch": 13.012729844413013,
+      "grad_norm": 0.0003260729426983744,
+      "learning_rate": 0.06569723739567161,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 25595280,
+      "step": 27600
+    },
+    {
+      "epoch": 13.012729844413013,
+      "eval_loss": 0.32835593819618225,
+      "eval_runtime": 33.6181,
+      "eval_samples_per_second": 28.05,
+      "eval_steps_per_second": 14.04,
+      "num_input_tokens_seen": 25595280,
+      "step": 27600
+    },
+    {
+      "epoch": 13.015087223008015,
+      "grad_norm": 0.0006973771378397942,
+      "learning_rate": 0.06564852222963588,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 25600304,
+      "step": 27605
+    },
+    {
+      "epoch": 13.017444601603017,
+      "grad_norm": 0.0003033370594494045,
+      "learning_rate": 0.06559982007165813,
+      "loss": 0.2819,
+      "num_input_tokens_seen": 25604544,
+      "step": 27610
+    },
+    {
+      "epoch": 13.01980198019802,
+      "grad_norm": 0.0002299950720043853,
+      "learning_rate": 0.06555113092924868,
+      "loss": 0.2858,
+      "num_input_tokens_seen": 25609072,
+      "step": 27615
+    },
+    {
+      "epoch": 13.022159358793022,
+      "grad_norm": 0.00026226721820421517,
+      "learning_rate": 0.06550245480991615,
+      "loss": 0.3706,
+      "num_input_tokens_seen": 25612688,
+      "step": 27620
+    },
+    {
+      "epoch": 13.024516737388025,
+      "grad_norm": 0.0003032540262211114,
+      "learning_rate": 0.0654537917211669,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 25616368,
+      "step": 27625
+    },
+    {
+      "epoch": 13.026874115983027,
+      "grad_norm": 0.0008036828367039561,
+      "learning_rate": 0.0654051416705055,
+      "loss": 0.3558,
+      "num_input_tokens_seen": 25620352,
+      "step": 27630
+    },
+    {
+      "epoch": 13.02923149457803,
+      "grad_norm": 0.00025894015561789274,
+      "learning_rate": 0.06535650466543427,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 25625360,
+      "step": 27635
+    },
+    {
+      "epoch": 13.031588873173032,
+      "grad_norm": 0.0003473614633549005,
+      "learning_rate": 0.0653078807134538,
+      "loss": 0.2975,
+      "num_input_tokens_seen": 25630432,
+      "step": 27640
+    },
+    {
+      "epoch": 13.033946251768034,
+      "grad_norm": 0.0005020677926950157,
+      "learning_rate": 0.06525926982206236,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 25635632,
+      "step": 27645
+    },
+    {
+      "epoch": 13.036303630363037,
+      "grad_norm": 0.0005098796682432294,
+      "learning_rate": 0.06521067199875648,
+      "loss": 0.329,
+      "num_input_tokens_seen": 25640176,
+      "step": 27650
+    },
+    {
+      "epoch": 13.038661008958039,
+      "grad_norm": 0.0002888882299885154,
+      "learning_rate": 0.06516208725103047,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 25645184,
+      "step": 27655
+    },
+    {
+      "epoch": 13.041018387553041,
+      "grad_norm": 0.00026226622867397964,
+      "learning_rate": 0.06511351558637678,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 25648992,
+      "step": 27660
+    },
+    {
+      "epoch": 13.043375766148044,
+      "grad_norm": 0.0002525768068153411,
+      "learning_rate": 0.06506495701228569,
+      "loss": 0.3678,
+      "num_input_tokens_seen": 25653936,
+      "step": 27665
+    },
+    {
+      "epoch": 13.045733144743046,
+      "grad_norm": 0.0002514136431273073,
+      "learning_rate": 0.06501641153624559,
+      "loss": 0.327,
+      "num_input_tokens_seen": 25658832,
+      "step": 27670
+    },
+    {
+      "epoch": 13.048090523338049,
+      "grad_norm": 0.0005622057942673564,
+      "learning_rate": 0.06496787916574286,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 25663232,
+      "step": 27675
+    },
+    {
+      "epoch": 13.050447901933051,
+      "grad_norm": 0.0002376166667090729,
+      "learning_rate": 0.06491935990826168,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 25668448,
+      "step": 27680
+    },
+    {
+      "epoch": 13.052805280528053,
+      "grad_norm": 0.0005882810801267624,
+      "learning_rate": 0.0648708537712844,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 25672816,
+      "step": 27685
+    },
+    {
+      "epoch": 13.055162659123056,
+      "grad_norm": 0.0005573833477683365,
+      "learning_rate": 0.06482236076229132,
+      "loss": 0.3016,
+      "num_input_tokens_seen": 25677008,
+      "step": 27690
+    },
+    {
+      "epoch": 13.057520037718058,
+      "grad_norm": 0.0002462215779814869,
+      "learning_rate": 0.06477388088876056,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 25681568,
+      "step": 27695
+    },
+    {
+      "epoch": 13.05987741631306,
+      "grad_norm": 0.0002900865802075714,
+      "learning_rate": 0.06472541415816846,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 25686896,
+      "step": 27700
+    },
+    {
+      "epoch": 13.062234794908063,
+      "grad_norm": 0.0002468894817866385,
+      "learning_rate": 0.06467696057798909,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 25692128,
+      "step": 27705
+    },
+    {
+      "epoch": 13.064592173503065,
+      "grad_norm": 0.0003179370251018554,
+      "learning_rate": 0.0646285201556946,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 25696048,
+      "step": 27710
+    },
+    {
+      "epoch": 13.066949552098066,
+      "grad_norm": 0.0005746214301325381,
+      "learning_rate": 0.06458009289875521,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 25700752,
+      "step": 27715
+    },
+    {
+      "epoch": 13.069306930693068,
+      "grad_norm": 0.0005337755428627133,
+      "learning_rate": 0.0645316788146389,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 25705456,
+      "step": 27720
+    },
+    {
+      "epoch": 13.07166430928807,
+      "grad_norm": 0.000592266209423542,
+      "learning_rate": 0.06448327791081175,
+      "loss": 0.3809,
+      "num_input_tokens_seen": 25709296,
+      "step": 27725
+    },
+    {
+      "epoch": 13.074021687883073,
+      "grad_norm": 0.00042086991015821695,
+      "learning_rate": 0.0644348901947379,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 25714464,
+      "step": 27730
+    },
+    {
+      "epoch": 13.076379066478076,
+      "grad_norm": 0.0005454609636217356,
+      "learning_rate": 0.06438651567387917,
+      "loss": 0.2598,
+      "num_input_tokens_seen": 25719040,
+      "step": 27735
+    },
+    {
+      "epoch": 13.078736445073078,
+      "grad_norm": 0.0002528793993405998,
+      "learning_rate": 0.0643381543556957,
+      "loss": 0.2882,
+      "num_input_tokens_seen": 25724080,
+      "step": 27740
+    },
+    {
+      "epoch": 13.08109382366808,
+      "grad_norm": 0.0002594070101622492,
+      "learning_rate": 0.06428980624764526,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 25728736,
+      "step": 27745
+    },
+    {
+      "epoch": 13.083451202263083,
+      "grad_norm": 0.00024125678464770317,
+      "learning_rate": 0.06424147135718378,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 25733504,
+      "step": 27750
+    },
+    {
+      "epoch": 13.085808580858085,
+      "grad_norm": 0.00032209570053964853,
+      "learning_rate": 0.06419314969176519,
+      "loss": 0.3736,
+      "num_input_tokens_seen": 25737520,
+      "step": 27755
+    },
+    {
+      "epoch": 13.088165959453088,
+      "grad_norm": 0.00033620104659348726,
+      "learning_rate": 0.06414484125884118,
+      "loss": 0.3549,
+      "num_input_tokens_seen": 25742000,
+      "step": 27760
+    },
+    {
+      "epoch": 13.09052333804809,
+      "grad_norm": 0.00033925267052836716,
+      "learning_rate": 0.06409654606586157,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 25746336,
+      "step": 27765
+    },
+    {
+      "epoch": 13.092880716643092,
+      "grad_norm": 0.0003715106286108494,
+      "learning_rate": 0.06404826412027415,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 25750560,
+      "step": 27770
+    },
+    {
+      "epoch": 13.095238095238095,
+      "grad_norm": 0.0003935527056455612,
+      "learning_rate": 0.06399999542952453,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 25754768,
+      "step": 27775
+    },
+    {
+      "epoch": 13.097595473833097,
+      "grad_norm": 0.00032495296909473836,
+      "learning_rate": 0.0639517400010563,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 25759280,
+      "step": 27780
+    },
+    {
+      "epoch": 13.0999528524281,
+      "grad_norm": 0.0005008607404306531,
+      "learning_rate": 0.06390349784231118,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 25763840,
+      "step": 27785
+    },
+    {
+      "epoch": 13.102310231023102,
+      "grad_norm": 0.0005171417724341154,
+      "learning_rate": 0.06385526896072859,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 25768480,
+      "step": 27790
+    },
+    {
+      "epoch": 13.104667609618105,
+      "grad_norm": 0.00037335188244469464,
+      "learning_rate": 0.06380705336374613,
+      "loss": 0.3526,
+      "num_input_tokens_seen": 25773184,
+      "step": 27795
+    },
+    {
+      "epoch": 13.107024988213107,
+      "grad_norm": 0.00031295904773287475,
+      "learning_rate": 0.06375885105879918,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 25777696,
+      "step": 27800
+    },
+    {
+      "epoch": 13.107024988213107,
+      "eval_loss": 0.33598676323890686,
+      "eval_runtime": 33.6078,
+      "eval_samples_per_second": 28.059,
+      "eval_steps_per_second": 14.044,
+      "num_input_tokens_seen": 25777696,
+      "step": 27800
+    },
+    {
+      "epoch": 13.10938236680811,
+      "grad_norm": 0.0009527787333354354,
+      "learning_rate": 0.06371066205332115,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 25782768,
+      "step": 27805
+    },
+    {
+      "epoch": 13.111739745403112,
+      "grad_norm": 0.0007888923864811659,
+      "learning_rate": 0.06366248635474347,
+      "loss": 0.334,
+      "num_input_tokens_seen": 25788048,
+      "step": 27810
+    },
+    {
+      "epoch": 13.114097123998114,
+      "grad_norm": 0.00041846244130283594,
+      "learning_rate": 0.06361432397049532,
+      "loss": 0.331,
+      "num_input_tokens_seen": 25792416,
+      "step": 27815
+    },
+    {
+      "epoch": 13.116454502593117,
+      "grad_norm": 0.0004387090157251805,
+      "learning_rate": 0.06356617490800408,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 25796192,
+      "step": 27820
+    },
+    {
+      "epoch": 13.118811881188119,
+      "grad_norm": 0.0004388539236970246,
+      "learning_rate": 0.06351803917469478,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 25801296,
+      "step": 27825
+    },
+    {
+      "epoch": 13.121169259783121,
+      "grad_norm": 0.0003328290185891092,
+      "learning_rate": 0.06346991677799067,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 25806160,
+      "step": 27830
+    },
+    {
+      "epoch": 13.123526638378124,
+      "grad_norm": 0.000874265213496983,
+      "learning_rate": 0.06342180772531283,
+      "loss": 0.36,
+      "num_input_tokens_seen": 25810240,
+      "step": 27835
+    },
+    {
+      "epoch": 13.125884016973126,
+      "grad_norm": 0.00029698104481212795,
+      "learning_rate": 0.06337371202408021,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 25814656,
+      "step": 27840
+    },
+    {
+      "epoch": 13.128241395568129,
+      "grad_norm": 0.000305549445329234,
+      "learning_rate": 0.06332562968170984,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 25818944,
+      "step": 27845
+    },
+    {
+      "epoch": 13.130598774163131,
+      "grad_norm": 0.00044318768777884543,
+      "learning_rate": 0.06327756070561656,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 25824160,
+      "step": 27850
+    },
+    {
+      "epoch": 13.132956152758133,
+      "grad_norm": 0.0002888177696149796,
+      "learning_rate": 0.06322950510321329,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 25828288,
+      "step": 27855
+    },
+    {
+      "epoch": 13.135313531353136,
+      "grad_norm": 0.0003679272485896945,
+      "learning_rate": 0.06318146288191076,
+      "loss": 0.3495,
+      "num_input_tokens_seen": 25833120,
+      "step": 27860
+    },
+    {
+      "epoch": 13.137670909948138,
+      "grad_norm": 0.0006676626508124173,
+      "learning_rate": 0.06313343404911763,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 25837920,
+      "step": 27865
+    },
+    {
+      "epoch": 13.14002828854314,
+      "grad_norm": 0.0003413396771065891,
+      "learning_rate": 0.0630854186122406,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 25842000,
+      "step": 27870
+    },
+    {
+      "epoch": 13.142385667138143,
+      "grad_norm": 0.0003553866990841925,
+      "learning_rate": 0.06303741657868431,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 25846704,
+      "step": 27875
+    },
+    {
+      "epoch": 13.144743045733145,
+      "grad_norm": 0.0007136222557164729,
+      "learning_rate": 0.06298942795585115,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 25851888,
+      "step": 27880
+    },
+    {
+      "epoch": 13.147100424328148,
+      "grad_norm": 0.00035130608011968434,
+      "learning_rate": 0.06294145275114167,
+      "loss": 0.3902,
+      "num_input_tokens_seen": 25857040,
+      "step": 27885
+    },
+    {
+      "epoch": 13.14945780292315,
+      "grad_norm": 0.0004348247603047639,
+      "learning_rate": 0.06289349097195428,
+      "loss": 0.3663,
+      "num_input_tokens_seen": 25861600,
+      "step": 27890
+    },
+    {
+      "epoch": 13.151815181518153,
+      "grad_norm": 0.0007796165882609785,
+      "learning_rate": 0.06284554262568516,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 25866560,
+      "step": 27895
+    },
+    {
+      "epoch": 13.154172560113155,
+      "grad_norm": 0.0002838159562088549,
+      "learning_rate": 0.06279760771972868,
+      "loss": 0.332,
+      "num_input_tokens_seen": 25871360,
+      "step": 27900
+    },
+    {
+      "epoch": 13.156529938708157,
+      "grad_norm": 0.0006291297031566501,
+      "learning_rate": 0.06274968626147688,
+      "loss": 0.3588,
+      "num_input_tokens_seen": 25876784,
+      "step": 27905
+    },
+    {
+      "epoch": 13.15888731730316,
+      "grad_norm": 0.0008026004652492702,
+      "learning_rate": 0.06270177825831993,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 25881008,
+      "step": 27910
+    },
+    {
+      "epoch": 13.16124469589816,
+      "grad_norm": 0.0002538402914069593,
+      "learning_rate": 0.06265388371764587,
+      "loss": 0.341,
+      "num_input_tokens_seen": 25885904,
+      "step": 27915
+    },
+    {
+      "epoch": 13.163602074493163,
+      "grad_norm": 0.0003322128613945097,
+      "learning_rate": 0.0626060026468406,
+      "loss": 0.336,
+      "num_input_tokens_seen": 25889856,
+      "step": 27920
+    },
+    {
+      "epoch": 13.165959453088165,
+      "grad_norm": 0.0006209154962562025,
+      "learning_rate": 0.06255813505328794,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 25894944,
+      "step": 27925
+    },
+    {
+      "epoch": 13.168316831683168,
+      "grad_norm": 0.0002852579054888338,
+      "learning_rate": 0.06251028094436978,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 25899008,
+      "step": 27930
+    },
+    {
+      "epoch": 13.17067421027817,
+      "grad_norm": 0.00026658858405426145,
+      "learning_rate": 0.06246244032746568,
+      "loss": 0.3698,
+      "num_input_tokens_seen": 25903040,
+      "step": 27935
+    },
+    {
+      "epoch": 13.173031588873172,
+      "grad_norm": 0.0002605145564302802,
+      "learning_rate": 0.06241461320995342,
+      "loss": 0.3028,
+      "num_input_tokens_seen": 25907664,
+      "step": 27940
+    },
+    {
+      "epoch": 13.175388967468175,
+      "grad_norm": 0.00023758976021781564,
+      "learning_rate": 0.062366799599208426,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 25911552,
+      "step": 27945
+    },
+    {
+      "epoch": 13.177746346063177,
+      "grad_norm": 0.0003130885597784072,
+      "learning_rate": 0.06231899950260418,
+      "loss": 0.3254,
+      "num_input_tokens_seen": 25915952,
+      "step": 27950
+    },
+    {
+      "epoch": 13.18010372465818,
+      "grad_norm": 0.0006087481160648167,
+      "learning_rate": 0.06227121292751214,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 25920800,
+      "step": 27955
+    },
+    {
+      "epoch": 13.182461103253182,
+      "grad_norm": 0.0008171621011570096,
+      "learning_rate": 0.062223439881301496,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 25926352,
+      "step": 27960
+    },
+    {
+      "epoch": 13.184818481848184,
+      "grad_norm": 0.00034847023198381066,
+      "learning_rate": 0.06217568037133948,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 25931744,
+      "step": 27965
+    },
+    {
+      "epoch": 13.187175860443187,
+      "grad_norm": 0.0004364143533166498,
+      "learning_rate": 0.06212793440499126,
+      "loss": 0.3622,
+      "num_input_tokens_seen": 25936080,
+      "step": 27970
+    },
+    {
+      "epoch": 13.18953323903819,
+      "grad_norm": 0.0005332419532351196,
+      "learning_rate": 0.062080201989619783,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 25940624,
+      "step": 27975
+    },
+    {
+      "epoch": 13.191890617633192,
+      "grad_norm": 0.000987352104857564,
+      "learning_rate": 0.062032483132586094,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 25945072,
+      "step": 27980
+    },
+    {
+      "epoch": 13.194247996228194,
+      "grad_norm": 0.0004895488964393735,
+      "learning_rate": 0.0619847778412489,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 25949344,
+      "step": 27985
+    },
+    {
+      "epoch": 13.196605374823196,
+      "grad_norm": 0.0004208892351016402,
+      "learning_rate": 0.06193708612296509,
+      "loss": 0.29,
+      "num_input_tokens_seen": 25954496,
+      "step": 27990
+    },
+    {
+      "epoch": 13.198962753418199,
+      "grad_norm": 0.0003106491349171847,
+      "learning_rate": 0.06188940798508923,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 25958416,
+      "step": 27995
+    },
+    {
+      "epoch": 13.201320132013201,
+      "grad_norm": 0.000252180005190894,
+      "learning_rate": 0.06184174343497397,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 25963552,
+      "step": 28000
+    },
+    {
+      "epoch": 13.201320132013201,
+      "eval_loss": 0.32762473821640015,
+      "eval_runtime": 33.5663,
+      "eval_samples_per_second": 28.094,
+      "eval_steps_per_second": 14.062,
+      "num_input_tokens_seen": 25963552,
+      "step": 28000
+    },
+    {
+      "epoch": 13.203677510608204,
+      "grad_norm": 0.0009079612791538239,
+      "learning_rate": 0.061794092479969726,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 25968048,
+      "step": 28005
+    },
+    {
+      "epoch": 13.206034889203206,
+      "grad_norm": 0.0003818109107669443,
+      "learning_rate": 0.06174645512742485,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 25972704,
+      "step": 28010
+    },
+    {
+      "epoch": 13.208392267798208,
+      "grad_norm": 0.0006056410493329167,
+      "learning_rate": 0.06169883138468565,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 25977328,
+      "step": 28015
+    },
+    {
+      "epoch": 13.21074964639321,
+      "grad_norm": 0.0004911654978059232,
+      "learning_rate": 0.06165122125909637,
+      "loss": 0.321,
+      "num_input_tokens_seen": 25981488,
+      "step": 28020
+    },
+    {
+      "epoch": 13.213107024988213,
+      "grad_norm": 0.000556729210074991,
+      "learning_rate": 0.061603624757998965,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 25985408,
+      "step": 28025
+    },
+    {
+      "epoch": 13.215464403583216,
+      "grad_norm": 0.0002027755690505728,
+      "learning_rate": 0.0615560418887335,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 25989216,
+      "step": 28030
+    },
+    {
+      "epoch": 13.217821782178218,
+      "grad_norm": 0.0009011666406877339,
+      "learning_rate": 0.06150847265863787,
+      "loss": 0.406,
+      "num_input_tokens_seen": 25993392,
+      "step": 28035
+    },
+    {
+      "epoch": 13.22017916077322,
+      "grad_norm": 0.00023787602549418807,
+      "learning_rate": 0.061460917075047757,
+      "loss": 0.2789,
+      "num_input_tokens_seen": 25998752,
+      "step": 28040
+    },
+    {
+      "epoch": 13.222536539368223,
+      "grad_norm": 0.0004013634752482176,
+      "learning_rate": 0.06141337514529694,
+      "loss": 0.3773,
+      "num_input_tokens_seen": 26005392,
+      "step": 28045
+    },
+    {
+      "epoch": 13.224893917963225,
+      "grad_norm": 0.00062099180649966,
+      "learning_rate": 0.06136584687671687,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 26010272,
+      "step": 28050
+    },
+    {
+      "epoch": 13.227251296558228,
+      "grad_norm": 0.0005423527909442782,
+      "learning_rate": 0.061318332276637064,
+      "loss": 0.3655,
+      "num_input_tokens_seen": 26015424,
+      "step": 28055
+    },
+    {
+      "epoch": 13.22960867515323,
+      "grad_norm": 0.00025982933584600687,
+      "learning_rate": 0.06127083135238491,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 26019376,
+      "step": 28060
+    },
+    {
+      "epoch": 13.231966053748232,
+      "grad_norm": 0.0003917587164323777,
+      "learning_rate": 0.06122334411128555,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 26023584,
+      "step": 28065
+    },
+    {
+      "epoch": 13.234323432343235,
+      "grad_norm": 0.0003112419508397579,
+      "learning_rate": 0.06117587056066223,
+      "loss": 0.337,
+      "num_input_tokens_seen": 26027552,
+      "step": 28070
+    },
+    {
+      "epoch": 13.236680810938237,
+      "grad_norm": 0.0002868252922780812,
+      "learning_rate": 0.06112841070783589,
+      "loss": 0.3166,
+      "num_input_tokens_seen": 26033200,
+      "step": 28075
+    },
+    {
+      "epoch": 13.23903818953324,
+      "grad_norm": 0.0007889370317570865,
+      "learning_rate": 0.061080964560125406,
+      "loss": 0.3141,
+      "num_input_tokens_seen": 26037536,
+      "step": 28080
+    },
+    {
+      "epoch": 13.241395568128242,
+      "grad_norm": 0.0002946430176962167,
+      "learning_rate": 0.06103353212484766,
+      "loss": 0.346,
+      "num_input_tokens_seen": 26041888,
+      "step": 28085
+    },
+    {
+      "epoch": 13.243752946723244,
+      "grad_norm": 0.0007510498398914933,
+      "learning_rate": 0.06098611340931722,
+      "loss": 0.3265,
+      "num_input_tokens_seen": 26046704,
+      "step": 28090
+    },
+    {
+      "epoch": 13.246110325318247,
+      "grad_norm": 0.0003782323910854757,
+      "learning_rate": 0.06093870842084672,
+      "loss": 0.3068,
+      "num_input_tokens_seen": 26052096,
+      "step": 28095
+    },
+    {
+      "epoch": 13.24846770391325,
+      "grad_norm": 0.00032875320175662637,
+      "learning_rate": 0.06089131716674666,
+      "loss": 0.293,
+      "num_input_tokens_seen": 26056352,
+      "step": 28100
+    },
+    {
+      "epoch": 13.250825082508252,
+      "grad_norm": 0.0005683272029273212,
+      "learning_rate": 0.060843939654325226,
+      "loss": 0.2506,
+      "num_input_tokens_seen": 26061184,
+      "step": 28105
+    },
+    {
+      "epoch": 13.253182461103254,
+      "grad_norm": 0.0005240541067905724,
+      "learning_rate": 0.06079657589088873,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 26065280,
+      "step": 28110
+    },
+    {
+      "epoch": 13.255539839698255,
+      "grad_norm": 0.0003665066324174404,
+      "learning_rate": 0.06074922588374126,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 26070048,
+      "step": 28115
+    },
+    {
+      "epoch": 13.257897218293257,
+      "grad_norm": 0.00033695719321258366,
+      "learning_rate": 0.06070188964018472,
+      "loss": 0.323,
+      "num_input_tokens_seen": 26075888,
+      "step": 28120
+    },
+    {
+      "epoch": 13.26025459688826,
+      "grad_norm": 0.00043578300392255187,
+      "learning_rate": 0.06065456716751902,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 26080736,
+      "step": 28125
+    },
+    {
+      "epoch": 13.262611975483262,
+      "grad_norm": 0.0006182793877087533,
+      "learning_rate": 0.06060725847304182,
+      "loss": 0.37,
+      "num_input_tokens_seen": 26085648,
+      "step": 28130
+    },
+    {
+      "epoch": 13.264969354078264,
+      "grad_norm": 0.0005169032956473529,
+      "learning_rate": 0.06055996356404877,
+      "loss": 0.3623,
+      "num_input_tokens_seen": 26090368,
+      "step": 28135
+    },
+    {
+      "epoch": 13.267326732673267,
+      "grad_norm": 0.00031024686177261174,
+      "learning_rate": 0.06051268244783327,
+      "loss": 0.3717,
+      "num_input_tokens_seen": 26094704,
+      "step": 28140
+    },
+    {
+      "epoch": 13.269684111268269,
+      "grad_norm": 0.0003026834747288376,
+      "learning_rate": 0.06046541513168676,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 26099008,
+      "step": 28145
+    },
+    {
+      "epoch": 13.272041489863271,
+      "grad_norm": 0.0003323187702335417,
+      "learning_rate": 0.060418161622898356,
+      "loss": 0.3586,
+      "num_input_tokens_seen": 26103696,
+      "step": 28150
+    },
+    {
+      "epoch": 13.274398868458274,
+      "grad_norm": 0.0003596744791138917,
+      "learning_rate": 0.06037092192875521,
+      "loss": 0.368,
+      "num_input_tokens_seen": 26108752,
+      "step": 28155
+    },
+    {
+      "epoch": 13.276756247053276,
+      "grad_norm": 0.00043575826566666365,
+      "learning_rate": 0.060323696056542225,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 26113248,
+      "step": 28160
+    },
+    {
+      "epoch": 13.279113625648279,
+      "grad_norm": 0.00033126375637948513,
+      "learning_rate": 0.06027648401354229,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 26117520,
+      "step": 28165
+    },
+    {
+      "epoch": 13.281471004243281,
+      "grad_norm": 0.0003204083477612585,
+      "learning_rate": 0.06022928580703601,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 26121840,
+      "step": 28170
+    },
+    {
+      "epoch": 13.283828382838283,
+      "grad_norm": 0.000634452560916543,
+      "learning_rate": 0.060182101444301986,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 26126432,
+      "step": 28175
+    },
+    {
+      "epoch": 13.286185761433286,
+      "grad_norm": 0.00037003480247221887,
+      "learning_rate": 0.06013493093261669,
+      "loss": 0.2722,
+      "num_input_tokens_seen": 26131056,
+      "step": 28180
+    },
+    {
+      "epoch": 13.288543140028288,
+      "grad_norm": 0.0008175345719791949,
+      "learning_rate": 0.06008777427925432,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 26136816,
+      "step": 28185
+    },
+    {
+      "epoch": 13.29090051862329,
+      "grad_norm": 0.00021046950132586062,
+      "learning_rate": 0.06004063149148705,
+      "loss": 0.2905,
+      "num_input_tokens_seen": 26141632,
+      "step": 28190
+    },
+    {
+      "epoch": 13.293257897218293,
+      "grad_norm": 0.0003187076363246888,
+      "learning_rate": 0.05999350257658497,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 26146480,
+      "step": 28195
+    },
+    {
+      "epoch": 13.295615275813295,
+      "grad_norm": 0.00022680895926896483,
+      "learning_rate": 0.05994638754181582,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 26150464,
+      "step": 28200
+    },
+    {
+      "epoch": 13.295615275813295,
+      "eval_loss": 0.3268398344516754,
+      "eval_runtime": 33.5896,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 26150464,
+      "step": 28200
+    },
+    {
+      "epoch": 13.297972654408298,
+      "grad_norm": 0.00048166848137043417,
+      "learning_rate": 0.059899286394445445,
+      "loss": 0.3309,
+      "num_input_tokens_seen": 26154800,
+      "step": 28205
+    },
+    {
+      "epoch": 13.3003300330033,
+      "grad_norm": 0.000573116063605994,
+      "learning_rate": 0.059852199141737346,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 26159456,
+      "step": 28210
+    },
+    {
+      "epoch": 13.302687411598303,
+      "grad_norm": 0.0006192410946823657,
+      "learning_rate": 0.05980512579095304,
+      "loss": 0.3765,
+      "num_input_tokens_seen": 26163952,
+      "step": 28215
+    },
+    {
+      "epoch": 13.305044790193305,
+      "grad_norm": 0.00034066123771481216,
+      "learning_rate": 0.05975806634935181,
+      "loss": 0.3092,
+      "num_input_tokens_seen": 26167664,
+      "step": 28220
+    },
+    {
+      "epoch": 13.307402168788308,
+      "grad_norm": 0.0002767126134131104,
+      "learning_rate": 0.05971102082419076,
+      "loss": 0.3583,
+      "num_input_tokens_seen": 26172592,
+      "step": 28225
+    },
+    {
+      "epoch": 13.30975954738331,
+      "grad_norm": 0.0007001842022873461,
+      "learning_rate": 0.05966398922272492,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 26177136,
+      "step": 28230
+    },
+    {
+      "epoch": 13.312116925978312,
+      "grad_norm": 0.000572962686419487,
+      "learning_rate": 0.059616971552207236,
+      "loss": 0.3349,
+      "num_input_tokens_seen": 26180688,
+      "step": 28235
+    },
+    {
+      "epoch": 13.314474304573315,
+      "grad_norm": 0.0003505521744955331,
+      "learning_rate": 0.059569967819888305,
+      "loss": 0.3744,
+      "num_input_tokens_seen": 26185328,
+      "step": 28240
+    },
+    {
+      "epoch": 13.316831683168317,
+      "grad_norm": 0.0002968232147395611,
+      "learning_rate": 0.05952297803301681,
+      "loss": 0.2871,
+      "num_input_tokens_seen": 26190288,
+      "step": 28245
+    },
+    {
+      "epoch": 13.31918906176332,
+      "grad_norm": 0.0002807599666994065,
+      "learning_rate": 0.059476002198839056,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 26194256,
+      "step": 28250
+    },
+    {
+      "epoch": 13.321546440358322,
+      "grad_norm": 0.0002914691576734185,
+      "learning_rate": 0.05942904032459935,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 26198896,
+      "step": 28255
+    },
+    {
+      "epoch": 13.323903818953324,
+      "grad_norm": 0.0002665547945071012,
+      "learning_rate": 0.05938209241753987,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 26203808,
+      "step": 28260
+    },
+    {
+      "epoch": 13.326261197548327,
+      "grad_norm": 0.0006186177488416433,
+      "learning_rate": 0.05933515848490046,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 26207728,
+      "step": 28265
+    },
+    {
+      "epoch": 13.32861857614333,
+      "grad_norm": 0.0003209326241631061,
+      "learning_rate": 0.059288238533918985,
+      "loss": 0.2962,
+      "num_input_tokens_seen": 26212768,
+      "step": 28270
+    },
+    {
+      "epoch": 13.330975954738332,
+      "grad_norm": 0.0008574778330512345,
+      "learning_rate": 0.05924133257183113,
+      "loss": 0.3926,
+      "num_input_tokens_seen": 26217440,
+      "step": 28275
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 0.00020916271023452282,
+      "learning_rate": 0.059194440605870285,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 26222208,
+      "step": 28280
+    },
+    {
+      "epoch": 13.335690711928336,
+      "grad_norm": 0.0003214669704902917,
+      "learning_rate": 0.059147562643267884,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 26227200,
+      "step": 28285
+    },
+    {
+      "epoch": 13.338048090523339,
+      "grad_norm": 0.00021072663366794586,
+      "learning_rate": 0.059100698691253055,
+      "loss": 0.315,
+      "num_input_tokens_seen": 26232272,
+      "step": 28290
+    },
+    {
+      "epoch": 13.340405469118341,
+      "grad_norm": 0.00018299382645636797,
+      "learning_rate": 0.05905384875705273,
+      "loss": 0.3436,
+      "num_input_tokens_seen": 26236656,
+      "step": 28295
+    },
+    {
+      "epoch": 13.342762847713344,
+      "grad_norm": 0.0003340823168400675,
+      "learning_rate": 0.05900701284789189,
+      "loss": 0.344,
+      "num_input_tokens_seen": 26241520,
+      "step": 28300
+    },
+    {
+      "epoch": 13.345120226308346,
+      "grad_norm": 0.0005256806034594774,
+      "learning_rate": 0.058960190970993115,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 26247664,
+      "step": 28305
+    },
+    {
+      "epoch": 13.347477604903348,
+      "grad_norm": 0.0002682338235899806,
+      "learning_rate": 0.058913383133576955,
+      "loss": 0.3636,
+      "num_input_tokens_seen": 26252080,
+      "step": 28310
+    },
+    {
+      "epoch": 13.34983498349835,
+      "grad_norm": 0.00029237274429760873,
+      "learning_rate": 0.05886658934286185,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 26256640,
+      "step": 28315
+    },
+    {
+      "epoch": 13.352192362093351,
+      "grad_norm": 0.00040289683965966105,
+      "learning_rate": 0.058819809606063846,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 26260448,
+      "step": 28320
+    },
+    {
+      "epoch": 13.354549740688354,
+      "grad_norm": 0.0005790083669126034,
+      "learning_rate": 0.05877304393039711,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 26264368,
+      "step": 28325
+    },
+    {
+      "epoch": 13.356907119283356,
+      "grad_norm": 0.0005823321407660842,
+      "learning_rate": 0.05872629232307338,
+      "loss": 0.3445,
+      "num_input_tokens_seen": 26269056,
+      "step": 28330
+    },
+    {
+      "epoch": 13.359264497878359,
+      "grad_norm": 0.00030258146580308676,
+      "learning_rate": 0.05867955479130239,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 26273200,
+      "step": 28335
+    },
+    {
+      "epoch": 13.361621876473361,
+      "grad_norm": 0.00029334123246371746,
+      "learning_rate": 0.058632831342291705,
+      "loss": 0.29,
+      "num_input_tokens_seen": 26278976,
+      "step": 28340
+    },
+    {
+      "epoch": 13.363979255068363,
+      "grad_norm": 0.00029466519481502473,
+      "learning_rate": 0.05858612198324655,
+      "loss": 0.353,
+      "num_input_tokens_seen": 26283504,
+      "step": 28345
+    },
+    {
+      "epoch": 13.366336633663366,
+      "grad_norm": 0.000573755067307502,
+      "learning_rate": 0.05853942672137025,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 26289280,
+      "step": 28350
+    },
+    {
+      "epoch": 13.368694012258368,
+      "grad_norm": 0.00025140176876448095,
+      "learning_rate": 0.05849274556386363,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 26293728,
+      "step": 28355
+    },
+    {
+      "epoch": 13.37105139085337,
+      "grad_norm": 0.0003715541970450431,
+      "learning_rate": 0.05844607851792567,
+      "loss": 0.2593,
+      "num_input_tokens_seen": 26298464,
+      "step": 28360
+    },
+    {
+      "epoch": 13.373408769448373,
+      "grad_norm": 0.0003226439584977925,
+      "learning_rate": 0.058399425590752924,
+      "loss": 0.3019,
+      "num_input_tokens_seen": 26303440,
+      "step": 28365
+    },
+    {
+      "epoch": 13.375766148043375,
+      "grad_norm": 0.0003261274832766503,
+      "learning_rate": 0.05835278678953985,
+      "loss": 0.304,
+      "num_input_tokens_seen": 26308192,
+      "step": 28370
+    },
+    {
+      "epoch": 13.378123526638378,
+      "grad_norm": 0.00054753856966272,
+      "learning_rate": 0.05830616212147874,
+      "loss": 0.293,
+      "num_input_tokens_seen": 26312864,
+      "step": 28375
+    },
+    {
+      "epoch": 13.38048090523338,
+      "grad_norm": 0.00026933333720080554,
+      "learning_rate": 0.058259551593759784,
+      "loss": 0.3679,
+      "num_input_tokens_seen": 26316768,
+      "step": 28380
+    },
+    {
+      "epoch": 13.382838283828383,
+      "grad_norm": 0.00041805318323895335,
+      "learning_rate": 0.058212955213570804,
+      "loss": 0.2692,
+      "num_input_tokens_seen": 26321856,
+      "step": 28385
+    },
+    {
+      "epoch": 13.385195662423385,
+      "grad_norm": 0.0007715683314017951,
+      "learning_rate": 0.0581663729880976,
+      "loss": 0.3624,
+      "num_input_tokens_seen": 26326528,
+      "step": 28390
+    },
+    {
+      "epoch": 13.387553041018387,
+      "grad_norm": 0.0006174272275529802,
+      "learning_rate": 0.05811980492452379,
+      "loss": 0.3152,
+      "num_input_tokens_seen": 26330768,
+      "step": 28395
+    },
+    {
+      "epoch": 13.38991041961339,
+      "grad_norm": 0.0003399629786144942,
+      "learning_rate": 0.058073251030030644,
+      "loss": 0.3618,
+      "num_input_tokens_seen": 26335552,
+      "step": 28400
+    },
+    {
+      "epoch": 13.38991041961339,
+      "eval_loss": 0.3276827931404114,
+      "eval_runtime": 33.611,
+      "eval_samples_per_second": 28.056,
+      "eval_steps_per_second": 14.043,
+      "num_input_tokens_seen": 26335552,
+      "step": 28400
+    },
+    {
+      "epoch": 13.392267798208392,
+      "grad_norm": 0.0006015504477545619,
+      "learning_rate": 0.05802671131179747,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 26340368,
+      "step": 28405
+    },
+    {
+      "epoch": 13.394625176803395,
+      "grad_norm": 0.0005251822294667363,
+      "learning_rate": 0.057980185777001154,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 26345232,
+      "step": 28410
+    },
+    {
+      "epoch": 13.396982555398397,
+      "grad_norm": 0.0002412048343103379,
+      "learning_rate": 0.057933674432816606,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 26350480,
+      "step": 28415
+    },
+    {
+      "epoch": 13.3993399339934,
+      "grad_norm": 0.0005927341408096254,
+      "learning_rate": 0.05788717728641648,
+      "loss": 0.377,
+      "num_input_tokens_seen": 26354416,
+      "step": 28420
+    },
+    {
+      "epoch": 13.401697312588402,
+      "grad_norm": 0.0009300658712163568,
+      "learning_rate": 0.057840694344971126,
+      "loss": 0.3709,
+      "num_input_tokens_seen": 26358896,
+      "step": 28425
+    },
+    {
+      "epoch": 13.404054691183404,
+      "grad_norm": 0.0002716153394430876,
+      "learning_rate": 0.0577942256156489,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 26363248,
+      "step": 28430
+    },
+    {
+      "epoch": 13.406412069778407,
+      "grad_norm": 0.00024357721849810332,
+      "learning_rate": 0.057747771105615804,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 26368864,
+      "step": 28435
+    },
+    {
+      "epoch": 13.408769448373409,
+      "grad_norm": 0.0006721504614688456,
+      "learning_rate": 0.05770133082203568,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 26373552,
+      "step": 28440
+    },
+    {
+      "epoch": 13.411126826968411,
+      "grad_norm": 0.0005479850224219263,
+      "learning_rate": 0.0576549047720703,
+      "loss": 0.316,
+      "num_input_tokens_seen": 26378880,
+      "step": 28445
+    },
+    {
+      "epoch": 13.413484205563414,
+      "grad_norm": 0.00031644117552787066,
+      "learning_rate": 0.05760849296287902,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 26382784,
+      "step": 28450
+    },
+    {
+      "epoch": 13.415841584158416,
+      "grad_norm": 0.00039972251397557557,
+      "learning_rate": 0.05756209540161919,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 26387872,
+      "step": 28455
+    },
+    {
+      "epoch": 13.418198962753419,
+      "grad_norm": 0.00035433389712125063,
+      "learning_rate": 0.05751571209544595,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 26391824,
+      "step": 28460
+    },
+    {
+      "epoch": 13.420556341348421,
+      "grad_norm": 0.0002926276356447488,
+      "learning_rate": 0.057469343051512085,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 26396048,
+      "step": 28465
+    },
+    {
+      "epoch": 13.422913719943423,
+      "grad_norm": 0.0002144043246516958,
+      "learning_rate": 0.057422988276968324,
+      "loss": 0.2832,
+      "num_input_tokens_seen": 26400128,
+      "step": 28470
+    },
+    {
+      "epoch": 13.425271098538426,
+      "grad_norm": 0.0003912285901606083,
+      "learning_rate": 0.05737664777896323,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 26404928,
+      "step": 28475
+    },
+    {
+      "epoch": 13.427628477133428,
+      "grad_norm": 0.0002386994456173852,
+      "learning_rate": 0.057330321564642975,
+      "loss": 0.3445,
+      "num_input_tokens_seen": 26409760,
+      "step": 28480
+    },
+    {
+      "epoch": 13.42998585572843,
+      "grad_norm": 0.0003511323011480272,
+      "learning_rate": 0.05728400964115174,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 26414832,
+      "step": 28485
+    },
+    {
+      "epoch": 13.432343234323433,
+      "grad_norm": 0.0003568628744687885,
+      "learning_rate": 0.057237712015631305,
+      "loss": 0.326,
+      "num_input_tokens_seen": 26419504,
+      "step": 28490
+    },
+    {
+      "epoch": 13.434700612918435,
+      "grad_norm": 0.0004986542626284063,
+      "learning_rate": 0.057191428695221425,
+      "loss": 0.308,
+      "num_input_tokens_seen": 26424016,
+      "step": 28495
+    },
+    {
+      "epoch": 13.437057991513438,
+      "grad_norm": 0.00043764314614236355,
+      "learning_rate": 0.05714515968705958,
+      "loss": 0.333,
+      "num_input_tokens_seen": 26428608,
+      "step": 28500
+    },
+    {
+      "epoch": 13.43941537010844,
+      "grad_norm": 0.00030214397702366114,
+      "learning_rate": 0.05709890499828099,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 26434112,
+      "step": 28505
+    },
+    {
+      "epoch": 13.441772748703443,
+      "grad_norm": 0.0003645165415946394,
+      "learning_rate": 0.05705266463601868,
+      "loss": 0.3057,
+      "num_input_tokens_seen": 26438848,
+      "step": 28510
+    },
+    {
+      "epoch": 13.444130127298443,
+      "grad_norm": 0.0006226521800272167,
+      "learning_rate": 0.057006438607403565,
+      "loss": 0.258,
+      "num_input_tokens_seen": 26443280,
+      "step": 28515
+    },
+    {
+      "epoch": 13.446487505893446,
+      "grad_norm": 0.00028609426226466894,
+      "learning_rate": 0.056960226919564205,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 26447376,
+      "step": 28520
+    },
+    {
+      "epoch": 13.448844884488448,
+      "grad_norm": 0.0005606103222817183,
+      "learning_rate": 0.05691402957962713,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 26452400,
+      "step": 28525
+    },
+    {
+      "epoch": 13.45120226308345,
+      "grad_norm": 0.0005460849497467279,
+      "learning_rate": 0.05686784659471642,
+      "loss": 0.3754,
+      "num_input_tokens_seen": 26456384,
+      "step": 28530
+    },
+    {
+      "epoch": 13.453559641678453,
+      "grad_norm": 0.0003904096083715558,
+      "learning_rate": 0.056821677971954136,
+      "loss": 0.3071,
+      "num_input_tokens_seen": 26461200,
+      "step": 28535
+    },
+    {
+      "epoch": 13.455917020273455,
+      "grad_norm": 0.0004890165873803198,
+      "learning_rate": 0.05677552371846012,
+      "loss": 0.34,
+      "num_input_tokens_seen": 26465728,
+      "step": 28540
+    },
+    {
+      "epoch": 13.458274398868458,
+      "grad_norm": 0.00038498645881190896,
+      "learning_rate": 0.05672938384135182,
+      "loss": 0.3561,
+      "num_input_tokens_seen": 26470000,
+      "step": 28545
+    },
+    {
+      "epoch": 13.46063177746346,
+      "grad_norm": 0.0006844758172519505,
+      "learning_rate": 0.05668325834774465,
+      "loss": 0.3154,
+      "num_input_tokens_seen": 26474432,
+      "step": 28550
+    },
+    {
+      "epoch": 13.462989156058462,
+      "grad_norm": 0.0005241307662799954,
+      "learning_rate": 0.05663714724475177,
+      "loss": 0.2551,
+      "num_input_tokens_seen": 26478240,
+      "step": 28555
+    },
+    {
+      "epoch": 13.465346534653465,
+      "grad_norm": 0.00031106252572499216,
+      "learning_rate": 0.05659105053948403,
+      "loss": 0.3828,
+      "num_input_tokens_seen": 26484448,
+      "step": 28560
+    },
+    {
+      "epoch": 13.467703913248467,
+      "grad_norm": 0.0003827233158517629,
+      "learning_rate": 0.056544968239050176,
+      "loss": 0.3596,
+      "num_input_tokens_seen": 26490496,
+      "step": 28565
+    },
+    {
+      "epoch": 13.47006129184347,
+      "grad_norm": 0.0003353056381456554,
+      "learning_rate": 0.056498900350556616,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 26495232,
+      "step": 28570
+    },
+    {
+      "epoch": 13.472418670438472,
+      "grad_norm": 0.00033818394877016544,
+      "learning_rate": 0.05645284688110766,
+      "loss": 0.2789,
+      "num_input_tokens_seen": 26500672,
+      "step": 28575
+    },
+    {
+      "epoch": 13.474776049033474,
+      "grad_norm": 0.00028401095187291503,
+      "learning_rate": 0.05640680783780532,
+      "loss": 0.305,
+      "num_input_tokens_seen": 26504848,
+      "step": 28580
+    },
+    {
+      "epoch": 13.477133427628477,
+      "grad_norm": 0.000383329635951668,
+      "learning_rate": 0.056360783227749324,
+      "loss": 0.2957,
+      "num_input_tokens_seen": 26509760,
+      "step": 28585
+    },
+    {
+      "epoch": 13.47949080622348,
+      "grad_norm": 0.0003686407580971718,
+      "learning_rate": 0.05631477305803728,
+      "loss": 0.3012,
+      "num_input_tokens_seen": 26514288,
+      "step": 28590
+    },
+    {
+      "epoch": 13.481848184818482,
+      "grad_norm": 0.0004467918770387769,
+      "learning_rate": 0.05626877733576462,
+      "loss": 0.2584,
+      "num_input_tokens_seen": 26518832,
+      "step": 28595
+    },
+    {
+      "epoch": 13.484205563413484,
+      "grad_norm": 0.00032800654298625886,
+      "learning_rate": 0.05622279606802435,
+      "loss": 0.3095,
+      "num_input_tokens_seen": 26524096,
+      "step": 28600
+    },
+    {
+      "epoch": 13.484205563413484,
+      "eval_loss": 0.3289537727832794,
+      "eval_runtime": 33.6229,
+      "eval_samples_per_second": 28.046,
+      "eval_steps_per_second": 14.038,
+      "num_input_tokens_seen": 26524096,
+      "step": 28600
+    },
+    {
+      "epoch": 13.486562942008486,
+      "grad_norm": 0.00040266307769343257,
+      "learning_rate": 0.05617682926190744,
+      "loss": 0.3696,
+      "num_input_tokens_seen": 26529104,
+      "step": 28605
+    },
+    {
+      "epoch": 13.488920320603489,
+      "grad_norm": 0.0003119848552159965,
+      "learning_rate": 0.05613087692450248,
+      "loss": 0.3665,
+      "num_input_tokens_seen": 26534096,
+      "step": 28610
+    },
+    {
+      "epoch": 13.491277699198491,
+      "grad_norm": 0.0003930232487618923,
+      "learning_rate": 0.05608493906289592,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 26538208,
+      "step": 28615
+    },
+    {
+      "epoch": 13.493635077793494,
+      "grad_norm": 0.0005596402334049344,
+      "learning_rate": 0.05603901568417201,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 26542848,
+      "step": 28620
+    },
+    {
+      "epoch": 13.495992456388496,
+      "grad_norm": 0.0005064510041847825,
+      "learning_rate": 0.055993106795412625,
+      "loss": 0.3678,
+      "num_input_tokens_seen": 26546912,
+      "step": 28625
+    },
+    {
+      "epoch": 13.498349834983498,
+      "grad_norm": 0.0004157153598498553,
+      "learning_rate": 0.05594721240369759,
+      "loss": 0.2806,
+      "num_input_tokens_seen": 26551488,
+      "step": 28630
+    },
+    {
+      "epoch": 13.500707213578501,
+      "grad_norm": 0.0004722370649687946,
+      "learning_rate": 0.055901332516104296,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 26556432,
+      "step": 28635
+    },
+    {
+      "epoch": 13.503064592173503,
+      "grad_norm": 0.0002940115227829665,
+      "learning_rate": 0.05585546713970804,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 26560464,
+      "step": 28640
+    },
+    {
+      "epoch": 13.505421970768506,
+      "grad_norm": 0.0005565288593061268,
+      "learning_rate": 0.05580961628158189,
+      "loss": 0.4163,
+      "num_input_tokens_seen": 26565824,
+      "step": 28645
+    },
+    {
+      "epoch": 13.507779349363508,
+      "grad_norm": 0.00032232783269137144,
+      "learning_rate": 0.05576377994879659,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 26570144,
+      "step": 28650
+    },
+    {
+      "epoch": 13.51013672795851,
+      "grad_norm": 0.00030310044530779123,
+      "learning_rate": 0.05571795814842063,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 26574816,
+      "step": 28655
+    },
+    {
+      "epoch": 13.512494106553513,
+      "grad_norm": 0.0003400715359020978,
+      "learning_rate": 0.05567215088752037,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 26579536,
+      "step": 28660
+    },
+    {
+      "epoch": 13.514851485148515,
+      "grad_norm": 0.00031751455389894545,
+      "learning_rate": 0.05562635817315981,
+      "loss": 0.2877,
+      "num_input_tokens_seen": 26583344,
+      "step": 28665
+    },
+    {
+      "epoch": 13.517208863743518,
+      "grad_norm": 0.0004516844928730279,
+      "learning_rate": 0.05558058001240083,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 26587984,
+      "step": 28670
+    },
+    {
+      "epoch": 13.51956624233852,
+      "grad_norm": 0.0005219571758061647,
+      "learning_rate": 0.055534816412302915,
+      "loss": 0.257,
+      "num_input_tokens_seen": 26593360,
+      "step": 28675
+    },
+    {
+      "epoch": 13.521923620933523,
+      "grad_norm": 0.0005617354181595147,
+      "learning_rate": 0.055489067379923436,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 26597984,
+      "step": 28680
+    },
+    {
+      "epoch": 13.524280999528525,
+      "grad_norm": 0.000330096110701561,
+      "learning_rate": 0.055443332922317505,
+      "loss": 0.2773,
+      "num_input_tokens_seen": 26602048,
+      "step": 28685
+    },
+    {
+      "epoch": 13.526638378123527,
+      "grad_norm": 0.00030977005371823907,
+      "learning_rate": 0.055397613046537876,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 26606128,
+      "step": 28690
+    },
+    {
+      "epoch": 13.52899575671853,
+      "grad_norm": 0.0007934857858344913,
+      "learning_rate": 0.055351907759635145,
+      "loss": 0.4271,
+      "num_input_tokens_seen": 26610816,
+      "step": 28695
+    },
+    {
+      "epoch": 13.531353135313532,
+      "grad_norm": 0.00055346405133605,
+      "learning_rate": 0.05530621706865772,
+      "loss": 0.3262,
+      "num_input_tokens_seen": 26615728,
+      "step": 28700
+    },
+    {
+      "epoch": 13.533710513908535,
+      "grad_norm": 0.0007791415555402637,
+      "learning_rate": 0.055260540980651564,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 26621024,
+      "step": 28705
+    },
+    {
+      "epoch": 13.536067892503535,
+      "grad_norm": 0.000721305375918746,
+      "learning_rate": 0.05521487950266062,
+      "loss": 0.2609,
+      "num_input_tokens_seen": 26625824,
+      "step": 28710
+    },
+    {
+      "epoch": 13.53842527109854,
+      "grad_norm": 0.0003978646418545395,
+      "learning_rate": 0.055169232641726344,
+      "loss": 0.3608,
+      "num_input_tokens_seen": 26630624,
+      "step": 28715
+    },
+    {
+      "epoch": 13.54078264969354,
+      "grad_norm": 0.0004899290506727993,
+      "learning_rate": 0.055123600404888166,
+      "loss": 0.2666,
+      "num_input_tokens_seen": 26635184,
+      "step": 28720
+    },
+    {
+      "epoch": 13.543140028288542,
+      "grad_norm": 0.0008325690287165344,
+      "learning_rate": 0.05507798279918309,
+      "loss": 0.3528,
+      "num_input_tokens_seen": 26640192,
+      "step": 28725
+    },
+    {
+      "epoch": 13.545497406883545,
+      "grad_norm": 0.0006738277152180672,
+      "learning_rate": 0.0550323798316459,
+      "loss": 0.2942,
+      "num_input_tokens_seen": 26644752,
+      "step": 28730
+    },
+    {
+      "epoch": 13.547854785478547,
+      "grad_norm": 0.0004938055644743145,
+      "learning_rate": 0.05498679150930916,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 26649248,
+      "step": 28735
+    },
+    {
+      "epoch": 13.55021216407355,
+      "grad_norm": 0.00048167892964556813,
+      "learning_rate": 0.05494121783920323,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 26654000,
+      "step": 28740
+    },
+    {
+      "epoch": 13.552569542668552,
+      "grad_norm": 0.0005465698195621371,
+      "learning_rate": 0.05489565882835605,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 26659392,
+      "step": 28745
+    },
+    {
+      "epoch": 13.554926921263554,
+      "grad_norm": 0.00045397254871204495,
+      "learning_rate": 0.05485011448379348,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 26664832,
+      "step": 28750
+    },
+    {
+      "epoch": 13.557284299858557,
+      "grad_norm": 0.00033070245990529656,
+      "learning_rate": 0.05480458481253893,
+      "loss": 0.2993,
+      "num_input_tokens_seen": 26669344,
+      "step": 28755
+    },
+    {
+      "epoch": 13.55964167845356,
+      "grad_norm": 0.0003356664383318275,
+      "learning_rate": 0.054759069821613715,
+      "loss": 0.2504,
+      "num_input_tokens_seen": 26674048,
+      "step": 28760
+    },
+    {
+      "epoch": 13.561999057048562,
+      "grad_norm": 0.0003371279744897038,
+      "learning_rate": 0.05471356951803683,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 26678608,
+      "step": 28765
+    },
+    {
+      "epoch": 13.564356435643564,
+      "grad_norm": 0.00043491777614690363,
+      "learning_rate": 0.054668083908824945,
+      "loss": 0.338,
+      "num_input_tokens_seen": 26684224,
+      "step": 28770
+    },
+    {
+      "epoch": 13.566713814238566,
+      "grad_norm": 0.0004301131993997842,
+      "learning_rate": 0.054622613000992526,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 26688672,
+      "step": 28775
+    },
+    {
+      "epoch": 13.569071192833569,
+      "grad_norm": 0.0003420177672524005,
+      "learning_rate": 0.05457715680155182,
+      "loss": 0.3516,
+      "num_input_tokens_seen": 26693360,
+      "step": 28780
+    },
+    {
+      "epoch": 13.571428571428571,
+      "grad_norm": 0.0009730973979458213,
+      "learning_rate": 0.05453171531751265,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 26698160,
+      "step": 28785
+    },
+    {
+      "epoch": 13.573785950023574,
+      "grad_norm": 0.0006349079194478691,
+      "learning_rate": 0.05448628855588276,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 26702800,
+      "step": 28790
+    },
+    {
+      "epoch": 13.576143328618576,
+      "grad_norm": 0.00029715808341279626,
+      "learning_rate": 0.05444087652366746,
+      "loss": 0.3609,
+      "num_input_tokens_seen": 26708432,
+      "step": 28795
+    },
+    {
+      "epoch": 13.578500707213578,
+      "grad_norm": 0.000552503508515656,
+      "learning_rate": 0.05439547922786984,
+      "loss": 0.3783,
+      "num_input_tokens_seen": 26713392,
+      "step": 28800
+    },
+    {
+      "epoch": 13.578500707213578,
+      "eval_loss": 0.3298238217830658,
+      "eval_runtime": 33.5365,
+      "eval_samples_per_second": 28.119,
+      "eval_steps_per_second": 14.074,
+      "num_input_tokens_seen": 26713392,
+      "step": 28800
+    },
+    {
+      "epoch": 13.58085808580858,
+      "grad_norm": 0.0004039329942315817,
+      "learning_rate": 0.0543500966754908,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 26718240,
+      "step": 28805
+    },
+    {
+      "epoch": 13.583215464403583,
+      "grad_norm": 0.0003479929582681507,
+      "learning_rate": 0.05430472887352882,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 26722320,
+      "step": 28810
+    },
+    {
+      "epoch": 13.585572842998586,
+      "grad_norm": 0.0004852610582020134,
+      "learning_rate": 0.05425937582898023,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 26727056,
+      "step": 28815
+    },
+    {
+      "epoch": 13.587930221593588,
+      "grad_norm": 0.0002863580593839288,
+      "learning_rate": 0.054214037548839085,
+      "loss": 0.3026,
+      "num_input_tokens_seen": 26732224,
+      "step": 28820
+    },
+    {
+      "epoch": 13.59028760018859,
+      "grad_norm": 0.0004619710089173168,
+      "learning_rate": 0.05416871404009703,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 26737104,
+      "step": 28825
+    },
+    {
+      "epoch": 13.592644978783593,
+      "grad_norm": 0.00039351783925667405,
+      "learning_rate": 0.054123405309743605,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 26741888,
+      "step": 28830
+    },
+    {
+      "epoch": 13.595002357378595,
+      "grad_norm": 0.000339304911904037,
+      "learning_rate": 0.0540781113647659,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 26746544,
+      "step": 28835
+    },
+    {
+      "epoch": 13.597359735973598,
+      "grad_norm": 0.0009087256039492786,
+      "learning_rate": 0.054032832212148836,
+      "loss": 0.3586,
+      "num_input_tokens_seen": 26751616,
+      "step": 28840
+    },
+    {
+      "epoch": 13.5997171145686,
+      "grad_norm": 0.00036282718065194786,
+      "learning_rate": 0.0539875678588751,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 26756704,
+      "step": 28845
+    },
+    {
+      "epoch": 13.602074493163602,
+      "grad_norm": 0.0003901688614860177,
+      "learning_rate": 0.05394231831192492,
+      "loss": 0.3743,
+      "num_input_tokens_seen": 26761488,
+      "step": 28850
+    },
+    {
+      "epoch": 13.604431871758605,
+      "grad_norm": 0.0004340651794336736,
+      "learning_rate": 0.05389708357827639,
+      "loss": 0.2923,
+      "num_input_tokens_seen": 26765616,
+      "step": 28855
+    },
+    {
+      "epoch": 13.606789250353607,
+      "grad_norm": 0.000526249990798533,
+      "learning_rate": 0.05385186366490533,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 26770096,
+      "step": 28860
+    },
+    {
+      "epoch": 13.60914662894861,
+      "grad_norm": 0.0007294922252185643,
+      "learning_rate": 0.053806658578785166,
+      "loss": 0.3691,
+      "num_input_tokens_seen": 26774896,
+      "step": 28865
+    },
+    {
+      "epoch": 13.611504007543612,
+      "grad_norm": 0.00068529142299667,
+      "learning_rate": 0.05376146832688705,
+      "loss": 0.2899,
+      "num_input_tokens_seen": 26779968,
+      "step": 28870
+    },
+    {
+      "epoch": 13.613861386138614,
+      "grad_norm": 0.0004394998250063509,
+      "learning_rate": 0.053716292916179964,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 26784848,
+      "step": 28875
+    },
+    {
+      "epoch": 13.616218764733617,
+      "grad_norm": 0.00040498492307960987,
+      "learning_rate": 0.05367113235363045,
+      "loss": 0.3331,
+      "num_input_tokens_seen": 26789808,
+      "step": 28880
+    },
+    {
+      "epoch": 13.61857614332862,
+      "grad_norm": 0.0005108287441544235,
+      "learning_rate": 0.05362598664620289,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 26794112,
+      "step": 28885
+    },
+    {
+      "epoch": 13.620933521923622,
+      "grad_norm": 0.00032587131136097014,
+      "learning_rate": 0.053580855800859285,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 26798288,
+      "step": 28890
+    },
+    {
+      "epoch": 13.623290900518624,
+      "grad_norm": 0.0005014297785237432,
+      "learning_rate": 0.05353573982455938,
+      "loss": 0.3232,
+      "num_input_tokens_seen": 26803424,
+      "step": 28895
+    },
+    {
+      "epoch": 13.625648279113626,
+      "grad_norm": 0.0006523652700707316,
+      "learning_rate": 0.053490638724260686,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 26808624,
+      "step": 28900
+    },
+    {
+      "epoch": 13.628005657708629,
+      "grad_norm": 0.0007216432131826878,
+      "learning_rate": 0.05344555250691827,
+      "loss": 0.3613,
+      "num_input_tokens_seen": 26813376,
+      "step": 28905
+    },
+    {
+      "epoch": 13.630363036303631,
+      "grad_norm": 0.00040742495912127197,
+      "learning_rate": 0.053400481179485086,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 26818592,
+      "step": 28910
+    },
+    {
+      "epoch": 13.632720414898632,
+      "grad_norm": 0.0011435047490522265,
+      "learning_rate": 0.05335542474891159,
+      "loss": 0.338,
+      "num_input_tokens_seen": 26823504,
+      "step": 28915
+    },
+    {
+      "epoch": 13.635077793493634,
+      "grad_norm": 0.00035652986844070256,
+      "learning_rate": 0.053310383222146124,
+      "loss": 0.3203,
+      "num_input_tokens_seen": 26828304,
+      "step": 28920
+    },
+    {
+      "epoch": 13.637435172088637,
+      "grad_norm": 0.0003807231259997934,
+      "learning_rate": 0.053265356606134684,
+      "loss": 0.3653,
+      "num_input_tokens_seen": 26832704,
+      "step": 28925
+    },
+    {
+      "epoch": 13.639792550683639,
+      "grad_norm": 0.000886652444023639,
+      "learning_rate": 0.053220344907820856,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 26837344,
+      "step": 28930
+    },
+    {
+      "epoch": 13.642149929278641,
+      "grad_norm": 0.000365628395229578,
+      "learning_rate": 0.05317534813414608,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 26841984,
+      "step": 28935
+    },
+    {
+      "epoch": 13.644507307873644,
+      "grad_norm": 0.00043617701157927513,
+      "learning_rate": 0.05313036629204942,
+      "loss": 0.3065,
+      "num_input_tokens_seen": 26845920,
+      "step": 28940
+    },
+    {
+      "epoch": 13.646864686468646,
+      "grad_norm": 0.0006246353150345385,
+      "learning_rate": 0.05308539938846756,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 26850816,
+      "step": 28945
+    },
+    {
+      "epoch": 13.649222065063649,
+      "grad_norm": 0.0006135523435659707,
+      "learning_rate": 0.05304044743033507,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 26855264,
+      "step": 28950
+    },
+    {
+      "epoch": 13.651579443658651,
+      "grad_norm": 0.0006775347283110023,
+      "learning_rate": 0.05299551042458401,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 26859616,
+      "step": 28955
+    },
+    {
+      "epoch": 13.653936822253653,
+      "grad_norm": 0.0008317778701893985,
+      "learning_rate": 0.052950588378144266,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 26864960,
+      "step": 28960
+    },
+    {
+      "epoch": 13.656294200848656,
+      "grad_norm": 0.000612807460129261,
+      "learning_rate": 0.052905681297943465,
+      "loss": 0.2893,
+      "num_input_tokens_seen": 26869776,
+      "step": 28965
+    },
+    {
+      "epoch": 13.658651579443658,
+      "grad_norm": 0.00038330579991452396,
+      "learning_rate": 0.0528607891909067,
+      "loss": 0.4294,
+      "num_input_tokens_seen": 26874816,
+      "step": 28970
+    },
+    {
+      "epoch": 13.66100895803866,
+      "grad_norm": 0.0006076465942896903,
+      "learning_rate": 0.05281591206395697,
+      "loss": 0.3512,
+      "num_input_tokens_seen": 26879648,
+      "step": 28975
+    },
+    {
+      "epoch": 13.663366336633663,
+      "grad_norm": 0.0006194995366968215,
+      "learning_rate": 0.05277104992401496,
+      "loss": 0.2812,
+      "num_input_tokens_seen": 26884064,
+      "step": 28980
+    },
+    {
+      "epoch": 13.665723715228665,
+      "grad_norm": 0.0006247279234230518,
+      "learning_rate": 0.05272620277799884,
+      "loss": 0.3806,
+      "num_input_tokens_seen": 26888304,
+      "step": 28985
+    },
+    {
+      "epoch": 13.668081093823668,
+      "grad_norm": 0.0005593733512796462,
+      "learning_rate": 0.05268137063282473,
+      "loss": 0.3032,
+      "num_input_tokens_seen": 26892608,
+      "step": 28990
+    },
+    {
+      "epoch": 13.67043847241867,
+      "grad_norm": 0.000814382336102426,
+      "learning_rate": 0.0526365534954062,
+      "loss": 0.369,
+      "num_input_tokens_seen": 26896848,
+      "step": 28995
+    },
+    {
+      "epoch": 13.672795851013673,
+      "grad_norm": 0.00025985026150010526,
+      "learning_rate": 0.052591751372654656,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 26900464,
+      "step": 29000
+    },
+    {
+      "epoch": 13.672795851013673,
+      "eval_loss": 0.32921406626701355,
+      "eval_runtime": 35.3025,
+      "eval_samples_per_second": 26.712,
+      "eval_steps_per_second": 13.37,
+      "num_input_tokens_seen": 26900464,
+      "step": 29000
+    },
+    {
+      "epoch": 13.675153229608675,
+      "grad_norm": 0.0010092470329254866,
+      "learning_rate": 0.05254696427147921,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 26905408,
+      "step": 29005
+    },
+    {
+      "epoch": 13.677510608203677,
+      "grad_norm": 0.00027816175133921206,
+      "learning_rate": 0.052502192198786546,
+      "loss": 0.3416,
+      "num_input_tokens_seen": 26910000,
+      "step": 29010
+    },
+    {
+      "epoch": 13.67986798679868,
+      "grad_norm": 0.00027168463566340506,
+      "learning_rate": 0.05245743516148103,
+      "loss": 0.328,
+      "num_input_tokens_seen": 26914528,
+      "step": 29015
+    },
+    {
+      "epoch": 13.682225365393682,
+      "grad_norm": 0.0003340878465678543,
+      "learning_rate": 0.05241269316646486,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 26918464,
+      "step": 29020
+    },
+    {
+      "epoch": 13.684582743988685,
+      "grad_norm": 0.0004536265041679144,
+      "learning_rate": 0.052367966220637725,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 26922704,
+      "step": 29025
+    },
+    {
+      "epoch": 13.686940122583687,
+      "grad_norm": 0.0002784777607303113,
+      "learning_rate": 0.05232325433089716,
+      "loss": 0.3012,
+      "num_input_tokens_seen": 26927520,
+      "step": 29030
+    },
+    {
+      "epoch": 13.68929750117869,
+      "grad_norm": 0.0005126326577737927,
+      "learning_rate": 0.052278557504138214,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 26932656,
+      "step": 29035
+    },
+    {
+      "epoch": 13.691654879773692,
+      "grad_norm": 0.0006677006022073328,
+      "learning_rate": 0.05223387574725372,
+      "loss": 0.302,
+      "num_input_tokens_seen": 26936800,
+      "step": 29040
+    },
+    {
+      "epoch": 13.694012258368694,
+      "grad_norm": 0.000289001502096653,
+      "learning_rate": 0.05218920906713428,
+      "loss": 0.338,
+      "num_input_tokens_seen": 26941120,
+      "step": 29045
+    },
+    {
+      "epoch": 13.696369636963697,
+      "grad_norm": 0.0007853900897316635,
+      "learning_rate": 0.05214455747066789,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 26947072,
+      "step": 29050
+    },
+    {
+      "epoch": 13.698727015558699,
+      "grad_norm": 0.0002733333967626095,
+      "learning_rate": 0.05209992096474048,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 26952064,
+      "step": 29055
+    },
+    {
+      "epoch": 13.701084394153701,
+      "grad_norm": 0.0004191263287793845,
+      "learning_rate": 0.05205529955623559,
+      "loss": 0.2893,
+      "num_input_tokens_seen": 26956160,
+      "step": 29060
+    },
+    {
+      "epoch": 13.703441772748704,
+      "grad_norm": 0.0005959924892522395,
+      "learning_rate": 0.052010693252034314,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 26960208,
+      "step": 29065
+    },
+    {
+      "epoch": 13.705799151343706,
+      "grad_norm": 0.0003791628987528384,
+      "learning_rate": 0.0519661020590156,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 26964160,
+      "step": 29070
+    },
+    {
+      "epoch": 13.708156529938709,
+      "grad_norm": 0.0004336593847256154,
+      "learning_rate": 0.05192152598405586,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 26968432,
+      "step": 29075
+    },
+    {
+      "epoch": 13.710513908533711,
+      "grad_norm": 0.0002451209875289351,
+      "learning_rate": 0.05187696503402941,
+      "loss": 0.2915,
+      "num_input_tokens_seen": 26973200,
+      "step": 29080
+    },
+    {
+      "epoch": 13.712871287128714,
+      "grad_norm": 0.000274771882686764,
+      "learning_rate": 0.05183241921580798,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 26977440,
+      "step": 29085
+    },
+    {
+      "epoch": 13.715228665723716,
+      "grad_norm": 0.00048548151971772313,
+      "learning_rate": 0.051787888536261206,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 26982272,
+      "step": 29090
+    },
+    {
+      "epoch": 13.717586044318718,
+      "grad_norm": 0.0005938538233749568,
+      "learning_rate": 0.051743373002256184,
+      "loss": 0.3692,
+      "num_input_tokens_seen": 26987136,
+      "step": 29095
+    },
+    {
+      "epoch": 13.71994342291372,
+      "grad_norm": 0.0005472342018038034,
+      "learning_rate": 0.05169887262065787,
+      "loss": 0.2754,
+      "num_input_tokens_seen": 26991936,
+      "step": 29100
+    },
+    {
+      "epoch": 13.722300801508723,
+      "grad_norm": 0.0005904232384636998,
+      "learning_rate": 0.051654387398328665,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 26997264,
+      "step": 29105
+    },
+    {
+      "epoch": 13.724658180103724,
+      "grad_norm": 0.0005522369174286723,
+      "learning_rate": 0.05160991734212888,
+      "loss": 0.2654,
+      "num_input_tokens_seen": 27002352,
+      "step": 29110
+    },
+    {
+      "epoch": 13.727015558698728,
+      "grad_norm": 0.00019769853679463267,
+      "learning_rate": 0.051565462458916224,
+      "loss": 0.2812,
+      "num_input_tokens_seen": 27006976,
+      "step": 29115
+    },
+    {
+      "epoch": 13.729372937293729,
+      "grad_norm": 0.0002786226978059858,
+      "learning_rate": 0.05152102275554627,
+      "loss": 0.332,
+      "num_input_tokens_seen": 27011840,
+      "step": 29120
+    },
+    {
+      "epoch": 13.731730315888731,
+      "grad_norm": 0.0007443213253282011,
+      "learning_rate": 0.05147659823887222,
+      "loss": 0.3887,
+      "num_input_tokens_seen": 27016512,
+      "step": 29125
+    },
+    {
+      "epoch": 13.734087694483733,
+      "grad_norm": 0.0002888799353968352,
+      "learning_rate": 0.05143218891574479,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 27020800,
+      "step": 29130
+    },
+    {
+      "epoch": 13.736445073078736,
+      "grad_norm": 0.0005281316116452217,
+      "learning_rate": 0.0513877947930125,
+      "loss": 0.3203,
+      "num_input_tokens_seen": 27025584,
+      "step": 29135
+    },
+    {
+      "epoch": 13.738802451673738,
+      "grad_norm": 0.00027079760911874473,
+      "learning_rate": 0.051343415877521566,
+      "loss": 0.3349,
+      "num_input_tokens_seen": 27030752,
+      "step": 29140
+    },
+    {
+      "epoch": 13.74115983026874,
+      "grad_norm": 0.00031926363590173423,
+      "learning_rate": 0.051299052176115634,
+      "loss": 0.3174,
+      "num_input_tokens_seen": 27034960,
+      "step": 29145
+    },
+    {
+      "epoch": 13.743517208863743,
+      "grad_norm": 0.0003465110785327852,
+      "learning_rate": 0.051254703695636256,
+      "loss": 0.3699,
+      "num_input_tokens_seen": 27039712,
+      "step": 29150
+    },
+    {
+      "epoch": 13.745874587458745,
+      "grad_norm": 0.000817792781163007,
+      "learning_rate": 0.05121037044292249,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 27044096,
+      "step": 29155
+    },
+    {
+      "epoch": 13.748231966053748,
+      "grad_norm": 0.00043070485116913915,
+      "learning_rate": 0.05116605242481101,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 27049392,
+      "step": 29160
+    },
+    {
+      "epoch": 13.75058934464875,
+      "grad_norm": 0.0003858849813695997,
+      "learning_rate": 0.05112174964813634,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 27054480,
+      "step": 29165
+    },
+    {
+      "epoch": 13.752946723243753,
+      "grad_norm": 0.0005927130696363747,
+      "learning_rate": 0.05107746211973038,
+      "loss": 0.3941,
+      "num_input_tokens_seen": 27058592,
+      "step": 29170
+    },
+    {
+      "epoch": 13.755304101838755,
+      "grad_norm": 0.0005050277104601264,
+      "learning_rate": 0.05103318984642291,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 27062512,
+      "step": 29175
+    },
+    {
+      "epoch": 13.757661480433757,
+      "grad_norm": 0.0008677481091581285,
+      "learning_rate": 0.05098893283504131,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 27066960,
+      "step": 29180
+    },
+    {
+      "epoch": 13.76001885902876,
+      "grad_norm": 0.00033160229213535786,
+      "learning_rate": 0.050944691092410475,
+      "loss": 0.332,
+      "num_input_tokens_seen": 27071872,
+      "step": 29185
+    },
+    {
+      "epoch": 13.762376237623762,
+      "grad_norm": 0.00032717667636461556,
+      "learning_rate": 0.05090046462535313,
+      "loss": 0.3165,
+      "num_input_tokens_seen": 27076832,
+      "step": 29190
+    },
+    {
+      "epoch": 13.764733616218765,
+      "grad_norm": 0.0005599488504230976,
+      "learning_rate": 0.050856253440689454,
+      "loss": 0.2952,
+      "num_input_tokens_seen": 27081680,
+      "step": 29195
+    },
+    {
+      "epoch": 13.767090994813767,
+      "grad_norm": 0.0009090056410059333,
+      "learning_rate": 0.050812057545237405,
+      "loss": 0.3617,
+      "num_input_tokens_seen": 27087040,
+      "step": 29200
+    },
+    {
+      "epoch": 13.767090994813767,
+      "eval_loss": 0.33077818155288696,
+      "eval_runtime": 33.5894,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 27087040,
+      "step": 29200
+    },
+    {
+      "epoch": 13.76944837340877,
+      "grad_norm": 0.0002436030626995489,
+      "learning_rate": 0.0507678769458126,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 27090800,
+      "step": 29205
+    },
+    {
+      "epoch": 13.771805752003772,
+      "grad_norm": 0.0004077032208442688,
+      "learning_rate": 0.050723711649228155,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 27095360,
+      "step": 29210
+    },
+    {
+      "epoch": 13.774163130598774,
+      "grad_norm": 0.0006103739142417908,
+      "learning_rate": 0.05067956166229496,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 27100288,
+      "step": 29215
+    },
+    {
+      "epoch": 13.776520509193777,
+      "grad_norm": 0.0005358441267162561,
+      "learning_rate": 0.05063542699182155,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 27105792,
+      "step": 29220
+    },
+    {
+      "epoch": 13.778877887788779,
+      "grad_norm": 0.0004505492397584021,
+      "learning_rate": 0.050591307644613996,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 27110144,
+      "step": 29225
+    },
+    {
+      "epoch": 13.781235266383781,
+      "grad_norm": 0.00031282383133657277,
+      "learning_rate": 0.05054720362747599,
+      "loss": 0.3708,
+      "num_input_tokens_seen": 27114752,
+      "step": 29230
+    },
+    {
+      "epoch": 13.783592644978784,
+      "grad_norm": 0.00038581283297389746,
+      "learning_rate": 0.050503114947209035,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 27119296,
+      "step": 29235
+    },
+    {
+      "epoch": 13.785950023573786,
+      "grad_norm": 0.0004106120904907584,
+      "learning_rate": 0.05045904161061207,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 27124208,
+      "step": 29240
+    },
+    {
+      "epoch": 13.788307402168789,
+      "grad_norm": 0.0005528785986825824,
+      "learning_rate": 0.05041498362448185,
+      "loss": 0.3726,
+      "num_input_tokens_seen": 27128288,
+      "step": 29245
+    },
+    {
+      "epoch": 13.790664780763791,
+      "grad_norm": 0.0005001981044188142,
+      "learning_rate": 0.05037094099561256,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 27133472,
+      "step": 29250
+    },
+    {
+      "epoch": 13.793022159358793,
+      "grad_norm": 0.0002714249421842396,
+      "learning_rate": 0.05032691373079624,
+      "loss": 0.3782,
+      "num_input_tokens_seen": 27138080,
+      "step": 29255
+    },
+    {
+      "epoch": 13.795379537953796,
+      "grad_norm": 0.0006137939053587615,
+      "learning_rate": 0.05028290183682234,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 27142960,
+      "step": 29260
+    },
+    {
+      "epoch": 13.797736916548798,
+      "grad_norm": 0.00047289623762480915,
+      "learning_rate": 0.050238905320478096,
+      "loss": 0.341,
+      "num_input_tokens_seen": 27147568,
+      "step": 29265
+    },
+    {
+      "epoch": 13.8000942951438,
+      "grad_norm": 0.0005515027442015707,
+      "learning_rate": 0.05019492418854838,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 27152512,
+      "step": 29270
+    },
+    {
+      "epoch": 13.802451673738803,
+      "grad_norm": 0.0006971190450713038,
+      "learning_rate": 0.05015095844781554,
+      "loss": 0.4053,
+      "num_input_tokens_seen": 27156480,
+      "step": 29275
+    },
+    {
+      "epoch": 13.804809052333805,
+      "grad_norm": 0.0005984879680909216,
+      "learning_rate": 0.05010700810505968,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 27161248,
+      "step": 29280
+    },
+    {
+      "epoch": 13.807166430928808,
+      "grad_norm": 0.0009557769517414272,
+      "learning_rate": 0.05006307316705856,
+      "loss": 0.3619,
+      "num_input_tokens_seen": 27165264,
+      "step": 29285
+    },
+    {
+      "epoch": 13.80952380952381,
+      "grad_norm": 0.00030056689865887165,
+      "learning_rate": 0.0500191536405874,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 27169904,
+      "step": 29290
+    },
+    {
+      "epoch": 13.811881188118813,
+      "grad_norm": 0.00048523262375965714,
+      "learning_rate": 0.04997524953241922,
+      "loss": 0.32,
+      "num_input_tokens_seen": 27173616,
+      "step": 29295
+    },
+    {
+      "epoch": 13.814238566713815,
+      "grad_norm": 0.00031947545357979834,
+      "learning_rate": 0.049931360849324556,
+      "loss": 0.3074,
+      "num_input_tokens_seen": 27178208,
+      "step": 29300
+    },
+    {
+      "epoch": 13.816595945308817,
+      "grad_norm": 0.00023441424127668142,
+      "learning_rate": 0.04988748759807155,
+      "loss": 0.2936,
+      "num_input_tokens_seen": 27183408,
+      "step": 29305
+    },
+    {
+      "epoch": 13.81895332390382,
+      "grad_norm": 0.0003758497186936438,
+      "learning_rate": 0.0498436297854261,
+      "loss": 0.2876,
+      "num_input_tokens_seen": 27189216,
+      "step": 29310
+    },
+    {
+      "epoch": 13.82131070249882,
+      "grad_norm": 0.0006313148769550025,
+      "learning_rate": 0.04979978741815152,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 27193024,
+      "step": 29315
+    },
+    {
+      "epoch": 13.823668081093825,
+      "grad_norm": 0.0005333208828233182,
+      "learning_rate": 0.04975596050300891,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 27196672,
+      "step": 29320
+    },
+    {
+      "epoch": 13.826025459688825,
+      "grad_norm": 0.0003810340422205627,
+      "learning_rate": 0.049712149046757005,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 27201776,
+      "step": 29325
+    },
+    {
+      "epoch": 13.828382838283828,
+      "grad_norm": 0.0003327495069243014,
+      "learning_rate": 0.04966835305615194,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 27206128,
+      "step": 29330
+    },
+    {
+      "epoch": 13.83074021687883,
+      "grad_norm": 0.0006084690103307366,
+      "learning_rate": 0.049624572537947755,
+      "loss": 0.3888,
+      "num_input_tokens_seen": 27210928,
+      "step": 29335
+    },
+    {
+      "epoch": 13.833097595473832,
+      "grad_norm": 0.00030528969364240766,
+      "learning_rate": 0.04958080749889582,
+      "loss": 0.3037,
+      "num_input_tokens_seen": 27215376,
+      "step": 29340
+    },
+    {
+      "epoch": 13.835454974068835,
+      "grad_norm": 0.0003470144874881953,
+      "learning_rate": 0.049537057945745304,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 27219488,
+      "step": 29345
+    },
+    {
+      "epoch": 13.837812352663837,
+      "grad_norm": 0.0005863115075044334,
+      "learning_rate": 0.049493323885243,
+      "loss": 0.349,
+      "num_input_tokens_seen": 27224944,
+      "step": 29350
+    },
+    {
+      "epoch": 13.84016973125884,
+      "grad_norm": 0.0003302916302345693,
+      "learning_rate": 0.04944960532413318,
+      "loss": 0.2741,
+      "num_input_tokens_seen": 27229376,
+      "step": 29355
+    },
+    {
+      "epoch": 13.842527109853842,
+      "grad_norm": 0.00024169046082533896,
+      "learning_rate": 0.049405902269157774,
+      "loss": 0.3667,
+      "num_input_tokens_seen": 27233952,
+      "step": 29360
+    },
+    {
+      "epoch": 13.844884488448844,
+      "grad_norm": 0.00032563056447543204,
+      "learning_rate": 0.04936221472705646,
+      "loss": 0.3976,
+      "num_input_tokens_seen": 27239424,
+      "step": 29365
+    },
+    {
+      "epoch": 13.847241867043847,
+      "grad_norm": 0.00025224342243745923,
+      "learning_rate": 0.04931854270456632,
+      "loss": 0.2733,
+      "num_input_tokens_seen": 27243824,
+      "step": 29370
+    },
+    {
+      "epoch": 13.84959924563885,
+      "grad_norm": 0.00034888097434304655,
+      "learning_rate": 0.049274886208422075,
+      "loss": 0.3701,
+      "num_input_tokens_seen": 27248448,
+      "step": 29375
+    },
+    {
+      "epoch": 13.851956624233852,
+      "grad_norm": 0.00035470782313495874,
+      "learning_rate": 0.049231245245356235,
+      "loss": 0.362,
+      "num_input_tokens_seen": 27253040,
+      "step": 29380
+    },
+    {
+      "epoch": 13.854314002828854,
+      "grad_norm": 0.0005466229631565511,
+      "learning_rate": 0.049187619822098655,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 27258144,
+      "step": 29385
+    },
+    {
+      "epoch": 13.856671381423856,
+      "grad_norm": 0.0005957992980256677,
+      "learning_rate": 0.04914400994537705,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 27262160,
+      "step": 29390
+    },
+    {
+      "epoch": 13.859028760018859,
+      "grad_norm": 0.0006725758430548012,
+      "learning_rate": 0.049100415621916485,
+      "loss": 0.327,
+      "num_input_tokens_seen": 27266352,
+      "step": 29395
+    },
+    {
+      "epoch": 13.861386138613861,
+      "grad_norm": 0.00039818076766096056,
+      "learning_rate": 0.04905683685843981,
+      "loss": 0.3589,
+      "num_input_tokens_seen": 27270960,
+      "step": 29400
+    },
+    {
+      "epoch": 13.861386138613861,
+      "eval_loss": 0.32905715703964233,
+      "eval_runtime": 33.6224,
+      "eval_samples_per_second": 28.047,
+      "eval_steps_per_second": 14.038,
+      "num_input_tokens_seen": 27270960,
+      "step": 29400
+    },
+    {
+      "epoch": 13.863743517208864,
+      "grad_norm": 0.0002872126060537994,
+      "learning_rate": 0.049013273661667495,
+      "loss": 0.3618,
+      "num_input_tokens_seen": 27275776,
+      "step": 29405
+    },
+    {
+      "epoch": 13.866100895803866,
+      "grad_norm": 0.0005526572349481285,
+      "learning_rate": 0.048969726038317396,
+      "loss": 0.3232,
+      "num_input_tokens_seen": 27280496,
+      "step": 29410
+    },
+    {
+      "epoch": 13.868458274398868,
+      "grad_norm": 0.0003903426986653358,
+      "learning_rate": 0.048926193995105206,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 27284608,
+      "step": 29415
+    },
+    {
+      "epoch": 13.87081565299387,
+      "grad_norm": 0.0002823714166879654,
+      "learning_rate": 0.048882677538744035,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 27288320,
+      "step": 29420
+    },
+    {
+      "epoch": 13.873173031588873,
+      "grad_norm": 0.0002798018977046013,
+      "learning_rate": 0.048839176675944715,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 27292208,
+      "step": 29425
+    },
+    {
+      "epoch": 13.875530410183876,
+      "grad_norm": 0.0002618451835587621,
+      "learning_rate": 0.04879569141341566,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 27298160,
+      "step": 29430
+    },
+    {
+      "epoch": 13.877887788778878,
+      "grad_norm": 0.0005425254348665476,
+      "learning_rate": 0.04875222175786274,
+      "loss": 0.2903,
+      "num_input_tokens_seen": 27303648,
+      "step": 29435
+    },
+    {
+      "epoch": 13.88024516737388,
+      "grad_norm": 0.0005364757380448282,
+      "learning_rate": 0.04870876771598966,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 27307696,
+      "step": 29440
+    },
+    {
+      "epoch": 13.882602545968883,
+      "grad_norm": 0.0003515800344757736,
+      "learning_rate": 0.04866532929449744,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 27312512,
+      "step": 29445
+    },
+    {
+      "epoch": 13.884959924563885,
+      "grad_norm": 0.0002426451537758112,
+      "learning_rate": 0.048621906500084945,
+      "loss": 0.3028,
+      "num_input_tokens_seen": 27317744,
+      "step": 29450
+    },
+    {
+      "epoch": 13.887317303158888,
+      "grad_norm": 0.0004705035826191306,
+      "learning_rate": 0.04857849933944845,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 27322832,
+      "step": 29455
+    },
+    {
+      "epoch": 13.88967468175389,
+      "grad_norm": 0.00032935134368017316,
+      "learning_rate": 0.048535107819281866,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 27327392,
+      "step": 29460
+    },
+    {
+      "epoch": 13.892032060348892,
+      "grad_norm": 0.0003911993990186602,
+      "learning_rate": 0.04849173194627675,
+      "loss": 0.3664,
+      "num_input_tokens_seen": 27331920,
+      "step": 29465
+    },
+    {
+      "epoch": 13.894389438943895,
+      "grad_norm": 0.00028940438642166555,
+      "learning_rate": 0.04844837172712223,
+      "loss": 0.2938,
+      "num_input_tokens_seen": 27336352,
+      "step": 29470
+    },
+    {
+      "epoch": 13.896746817538897,
+      "grad_norm": 0.00031445364584214985,
+      "learning_rate": 0.04840502716850494,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 27341376,
+      "step": 29475
+    },
+    {
+      "epoch": 13.8991041961339,
+      "grad_norm": 0.0005173799581825733,
+      "learning_rate": 0.04836169827710916,
+      "loss": 0.2925,
+      "num_input_tokens_seen": 27347456,
+      "step": 29480
+    },
+    {
+      "epoch": 13.901461574728902,
+      "grad_norm": 0.0006437363917939365,
+      "learning_rate": 0.04831838505961684,
+      "loss": 0.3694,
+      "num_input_tokens_seen": 27351760,
+      "step": 29485
+    },
+    {
+      "epoch": 13.903818953323904,
+      "grad_norm": 0.0002565818722359836,
+      "learning_rate": 0.048275087522707295,
+      "loss": 0.3173,
+      "num_input_tokens_seen": 27356256,
+      "step": 29490
+    },
+    {
+      "epoch": 13.906176331918907,
+      "grad_norm": 0.00041622543358244,
+      "learning_rate": 0.04823180567305766,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 27360800,
+      "step": 29495
+    },
+    {
+      "epoch": 13.90853371051391,
+      "grad_norm": 0.000327132671372965,
+      "learning_rate": 0.04818853951734244,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 27364880,
+      "step": 29500
+    },
+    {
+      "epoch": 13.910891089108912,
+      "grad_norm": 0.00023970210168045014,
+      "learning_rate": 0.04814528906223387,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 27369648,
+      "step": 29505
+    },
+    {
+      "epoch": 13.913248467703912,
+      "grad_norm": 0.00034229987068101764,
+      "learning_rate": 0.04810205431440177,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 27373536,
+      "step": 29510
+    },
+    {
+      "epoch": 13.915605846298917,
+      "grad_norm": 0.00047489505959674716,
+      "learning_rate": 0.04805883528051341,
+      "loss": 0.3048,
+      "num_input_tokens_seen": 27378944,
+      "step": 29515
+    },
+    {
+      "epoch": 13.917963224893917,
+      "grad_norm": 0.00054751435527578,
+      "learning_rate": 0.048015631967233685,
+      "loss": 0.2809,
+      "num_input_tokens_seen": 27382704,
+      "step": 29520
+    },
+    {
+      "epoch": 13.92032060348892,
+      "grad_norm": 0.0003252057358622551,
+      "learning_rate": 0.04797244438122517,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 27388224,
+      "step": 29525
+    },
+    {
+      "epoch": 13.922677982083922,
+      "grad_norm": 0.0003635413304436952,
+      "learning_rate": 0.04792927252914784,
+      "loss": 0.3294,
+      "num_input_tokens_seen": 27392784,
+      "step": 29530
+    },
+    {
+      "epoch": 13.925035360678924,
+      "grad_norm": 0.0005843109684064984,
+      "learning_rate": 0.04788611641765944,
+      "loss": 0.3262,
+      "num_input_tokens_seen": 27397232,
+      "step": 29535
+    },
+    {
+      "epoch": 13.927392739273927,
+      "grad_norm": 0.00024528519134037197,
+      "learning_rate": 0.04784297605341508,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 27402720,
+      "step": 29540
+    },
+    {
+      "epoch": 13.92975011786893,
+      "grad_norm": 0.0006372675998136401,
+      "learning_rate": 0.04779985144306761,
+      "loss": 0.3551,
+      "num_input_tokens_seen": 27407104,
+      "step": 29545
+    },
+    {
+      "epoch": 13.932107496463932,
+      "grad_norm": 0.0005249126115813851,
+      "learning_rate": 0.047756742593267405,
+      "loss": 0.3005,
+      "num_input_tokens_seen": 27411536,
+      "step": 29550
+    },
+    {
+      "epoch": 13.934464875058934,
+      "grad_norm": 0.00027271686121821404,
+      "learning_rate": 0.047713649510662315,
+      "loss": 0.3209,
+      "num_input_tokens_seen": 27415872,
+      "step": 29555
+    },
+    {
+      "epoch": 13.936822253653936,
+      "grad_norm": 0.0006400510901585221,
+      "learning_rate": 0.04767057220189789,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 27420416,
+      "step": 29560
+    },
+    {
+      "epoch": 13.939179632248939,
+      "grad_norm": 0.0004392596601974219,
+      "learning_rate": 0.04762751067361722,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 27424720,
+      "step": 29565
+    },
+    {
+      "epoch": 13.941537010843941,
+      "grad_norm": 0.00020486186258494854,
+      "learning_rate": 0.04758446493246086,
+      "loss": 0.2479,
+      "num_input_tokens_seen": 27428624,
+      "step": 29570
+    },
+    {
+      "epoch": 13.943894389438944,
+      "grad_norm": 0.0005298868054524064,
+      "learning_rate": 0.047541434985067084,
+      "loss": 0.2529,
+      "num_input_tokens_seen": 27434096,
+      "step": 29575
+    },
+    {
+      "epoch": 13.946251768033946,
+      "grad_norm": 0.00033529396750964224,
+      "learning_rate": 0.047498420838071556,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 27438752,
+      "step": 29580
+    },
+    {
+      "epoch": 13.948609146628948,
+      "grad_norm": 0.0004740756412502378,
+      "learning_rate": 0.04745542249810772,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 27443520,
+      "step": 29585
+    },
+    {
+      "epoch": 13.95096652522395,
+      "grad_norm": 0.00017800406203605235,
+      "learning_rate": 0.047412439971806324,
+      "loss": 0.2651,
+      "num_input_tokens_seen": 27447728,
+      "step": 29590
+    },
+    {
+      "epoch": 13.953323903818953,
+      "grad_norm": 0.0003016071277670562,
+      "learning_rate": 0.04736947326579592,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 27453200,
+      "step": 29595
+    },
+    {
+      "epoch": 13.955681282413956,
+      "grad_norm": 0.00041314351256005466,
+      "learning_rate": 0.04732652238670245,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 27457936,
+      "step": 29600
+    },
+    {
+      "epoch": 13.955681282413956,
+      "eval_loss": 0.3291581869125366,
+      "eval_runtime": 33.55,
+      "eval_samples_per_second": 28.107,
+      "eval_steps_per_second": 14.069,
+      "num_input_tokens_seen": 27457936,
+      "step": 29600
+    },
+    {
+      "epoch": 13.958038661008958,
+      "grad_norm": 0.0004084433021489531,
+      "learning_rate": 0.04728358734114952,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 27461616,
+      "step": 29605
+    },
+    {
+      "epoch": 13.96039603960396,
+      "grad_norm": 0.0006504376651719213,
+      "learning_rate": 0.04724066813575821,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 27466064,
+      "step": 29610
+    },
+    {
+      "epoch": 13.962753418198963,
+      "grad_norm": 0.00046223809476941824,
+      "learning_rate": 0.04719776477714729,
+      "loss": 0.3141,
+      "num_input_tokens_seen": 27470736,
+      "step": 29615
+    },
+    {
+      "epoch": 13.965110796793965,
+      "grad_norm": 0.0003108628443442285,
+      "learning_rate": 0.047154877271932856,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 27475936,
+      "step": 29620
+    },
+    {
+      "epoch": 13.967468175388968,
+      "grad_norm": 0.0004920760984532535,
+      "learning_rate": 0.0471120056267288,
+      "loss": 0.3431,
+      "num_input_tokens_seen": 27479856,
+      "step": 29625
+    },
+    {
+      "epoch": 13.96982555398397,
+      "grad_norm": 0.0006767071317881346,
+      "learning_rate": 0.047069149848146495,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 27485040,
+      "step": 29630
+    },
+    {
+      "epoch": 13.972182932578972,
+      "grad_norm": 0.00041919047362171113,
+      "learning_rate": 0.04702630994279473,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 27489472,
+      "step": 29635
+    },
+    {
+      "epoch": 13.974540311173975,
+      "grad_norm": 0.00023892210447229445,
+      "learning_rate": 0.046983485917280035,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 27493840,
+      "step": 29640
+    },
+    {
+      "epoch": 13.976897689768977,
+      "grad_norm": 0.0002468824968673289,
+      "learning_rate": 0.04694067777820644,
+      "loss": 0.2629,
+      "num_input_tokens_seen": 27498144,
+      "step": 29645
+    },
+    {
+      "epoch": 13.97925506836398,
+      "grad_norm": 0.0005145941977389157,
+      "learning_rate": 0.046897885532175415,
+      "loss": 0.315,
+      "num_input_tokens_seen": 27502528,
+      "step": 29650
+    },
+    {
+      "epoch": 13.981612446958982,
+      "grad_norm": 0.00034895131830126047,
+      "learning_rate": 0.04685510918578613,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 27507920,
+      "step": 29655
+    },
+    {
+      "epoch": 13.983969825553984,
+      "grad_norm": 0.00019115822215098888,
+      "learning_rate": 0.04681234874563519,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 27512192,
+      "step": 29660
+    },
+    {
+      "epoch": 13.986327204148987,
+      "grad_norm": 0.00043431963422335684,
+      "learning_rate": 0.046769604218316836,
+      "loss": 0.2812,
+      "num_input_tokens_seen": 27516448,
+      "step": 29665
+    },
+    {
+      "epoch": 13.98868458274399,
+      "grad_norm": 0.00018817515228874981,
+      "learning_rate": 0.04672687561042279,
+      "loss": 0.3027,
+      "num_input_tokens_seen": 27520720,
+      "step": 29670
+    },
+    {
+      "epoch": 13.991041961338992,
+      "grad_norm": 0.0004822101618628949,
+      "learning_rate": 0.046684162928542286,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 27525056,
+      "step": 29675
+    },
+    {
+      "epoch": 13.993399339933994,
+      "grad_norm": 0.0002985051251016557,
+      "learning_rate": 0.04664146617926222,
+      "loss": 0.3584,
+      "num_input_tokens_seen": 27529664,
+      "step": 29680
+    },
+    {
+      "epoch": 13.995756718528996,
+      "grad_norm": 0.0002698125608731061,
+      "learning_rate": 0.046598785369167,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 27535104,
+      "step": 29685
+    },
+    {
+      "epoch": 13.998114097123999,
+      "grad_norm": 0.00043838476995006204,
+      "learning_rate": 0.046556120504838434,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 27539696,
+      "step": 29690
+    },
+    {
+      "epoch": 14.000471475719001,
+      "grad_norm": 0.0003118664608336985,
+      "learning_rate": 0.04651347159285609,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 27543808,
+      "step": 29695
+    },
+    {
+      "epoch": 14.002828854314004,
+      "grad_norm": 0.0003907522768713534,
+      "learning_rate": 0.04647083863979688,
+      "loss": 0.4181,
+      "num_input_tokens_seen": 27548000,
+      "step": 29700
+    },
+    {
+      "epoch": 14.005186232909006,
+      "grad_norm": 0.0006318867672234774,
+      "learning_rate": 0.04642822165223538,
+      "loss": 0.2896,
+      "num_input_tokens_seen": 27552208,
+      "step": 29705
+    },
+    {
+      "epoch": 14.007543611504008,
+      "grad_norm": 0.0003762226551771164,
+      "learning_rate": 0.046385620636743716,
+      "loss": 0.3797,
+      "num_input_tokens_seen": 27556720,
+      "step": 29710
+    },
+    {
+      "epoch": 14.009900990099009,
+      "grad_norm": 0.0005249331588856876,
+      "learning_rate": 0.04634303559989141,
+      "loss": 0.3677,
+      "num_input_tokens_seen": 27562320,
+      "step": 29715
+    },
+    {
+      "epoch": 14.012258368694011,
+      "grad_norm": 0.00029990565963089466,
+      "learning_rate": 0.046300466548245635,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 27567392,
+      "step": 29720
+    },
+    {
+      "epoch": 14.014615747289014,
+      "grad_norm": 0.0002595797704998404,
+      "learning_rate": 0.04625791348837114,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 27571616,
+      "step": 29725
+    },
+    {
+      "epoch": 14.016973125884016,
+      "grad_norm": 0.00025319631095044315,
+      "learning_rate": 0.046215376426830095,
+      "loss": 0.3615,
+      "num_input_tokens_seen": 27575392,
+      "step": 29730
+    },
+    {
+      "epoch": 14.019330504479019,
+      "grad_norm": 0.0006828262121416628,
+      "learning_rate": 0.04617285537018219,
+      "loss": 0.3955,
+      "num_input_tokens_seen": 27579504,
+      "step": 29735
+    },
+    {
+      "epoch": 14.021687883074021,
+      "grad_norm": 0.00029853449086658657,
+      "learning_rate": 0.046130350324984803,
+      "loss": 0.3584,
+      "num_input_tokens_seen": 27584544,
+      "step": 29740
+    },
+    {
+      "epoch": 14.024045261669023,
+      "grad_norm": 0.0003518964222166687,
+      "learning_rate": 0.046087861297792666,
+      "loss": 0.359,
+      "num_input_tokens_seen": 27589840,
+      "step": 29745
+    },
+    {
+      "epoch": 14.026402640264026,
+      "grad_norm": 0.00039418740198016167,
+      "learning_rate": 0.0460453882951582,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 27594160,
+      "step": 29750
+    },
+    {
+      "epoch": 14.028760018859028,
+      "grad_norm": 0.0005212550750002265,
+      "learning_rate": 0.04600293132363119,
+      "loss": 0.315,
+      "num_input_tokens_seen": 27598576,
+      "step": 29755
+    },
+    {
+      "epoch": 14.03111739745403,
+      "grad_norm": 0.00026293779956176877,
+      "learning_rate": 0.045960490389759086,
+      "loss": 0.3715,
+      "num_input_tokens_seen": 27603632,
+      "step": 29760
+    },
+    {
+      "epoch": 14.033474776049033,
+      "grad_norm": 0.0003491198003757745,
+      "learning_rate": 0.04591806550008685,
+      "loss": 0.3826,
+      "num_input_tokens_seen": 27607744,
+      "step": 29765
+    },
+    {
+      "epoch": 14.035832154644035,
+      "grad_norm": 0.0006369113689288497,
+      "learning_rate": 0.045875656661156825,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 27612208,
+      "step": 29770
+    },
+    {
+      "epoch": 14.038189533239038,
+      "grad_norm": 0.0003479032311588526,
+      "learning_rate": 0.04583326387950911,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 27617408,
+      "step": 29775
+    },
+    {
+      "epoch": 14.04054691183404,
+      "grad_norm": 0.0002868313167709857,
+      "learning_rate": 0.0457908871616811,
+      "loss": 0.333,
+      "num_input_tokens_seen": 27621920,
+      "step": 29780
+    },
+    {
+      "epoch": 14.042904290429043,
+      "grad_norm": 0.0006010888027958572,
+      "learning_rate": 0.04574852651420786,
+      "loss": 0.3808,
+      "num_input_tokens_seen": 27625440,
+      "step": 29785
+    },
+    {
+      "epoch": 14.045261669024045,
+      "grad_norm": 0.0007539343205280602,
+      "learning_rate": 0.045706181943621985,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 27629792,
+      "step": 29790
+    },
+    {
+      "epoch": 14.047619047619047,
+      "grad_norm": 0.0004384057247079909,
+      "learning_rate": 0.04566385345645344,
+      "loss": 0.3127,
+      "num_input_tokens_seen": 27634640,
+      "step": 29795
+    },
+    {
+      "epoch": 14.04997642621405,
+      "grad_norm": 0.0003461191081441939,
+      "learning_rate": 0.04562154105922993,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 27639216,
+      "step": 29800
+    },
+    {
+      "epoch": 14.04997642621405,
+      "eval_loss": 0.3331291079521179,
+      "eval_runtime": 33.6127,
+      "eval_samples_per_second": 28.055,
+      "eval_steps_per_second": 14.042,
+      "num_input_tokens_seen": 27639216,
+      "step": 29800
+    },
+    {
+      "epoch": 14.052333804809052,
+      "grad_norm": 0.0006053831893950701,
+      "learning_rate": 0.04557924475847642,
+      "loss": 0.3039,
+      "num_input_tokens_seen": 27644016,
+      "step": 29805
+    },
+    {
+      "epoch": 14.054691183404055,
+      "grad_norm": 0.0002375054027652368,
+      "learning_rate": 0.04553696456071567,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 27648848,
+      "step": 29810
+    },
+    {
+      "epoch": 14.057048561999057,
+      "grad_norm": 0.0003381546412128955,
+      "learning_rate": 0.045494700472467724,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 27653072,
+      "step": 29815
+    },
+    {
+      "epoch": 14.05940594059406,
+      "grad_norm": 0.0004980339435860515,
+      "learning_rate": 0.04545245250025024,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 27657408,
+      "step": 29820
+    },
+    {
+      "epoch": 14.061763319189062,
+      "grad_norm": 0.0002712719433475286,
+      "learning_rate": 0.045410220650578384,
+      "loss": 0.3441,
+      "num_input_tokens_seen": 27662064,
+      "step": 29825
+    },
+    {
+      "epoch": 14.064120697784064,
+      "grad_norm": 0.0005599742871709168,
+      "learning_rate": 0.04536800492996492,
+      "loss": 0.2862,
+      "num_input_tokens_seen": 27666720,
+      "step": 29830
+    },
+    {
+      "epoch": 14.066478076379067,
+      "grad_norm": 0.00048987747868523,
+      "learning_rate": 0.04532580534491994,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 27671568,
+      "step": 29835
+    },
+    {
+      "epoch": 14.068835454974069,
+      "grad_norm": 0.00028948206454515457,
+      "learning_rate": 0.045283621901951183,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 27676224,
+      "step": 29840
+    },
+    {
+      "epoch": 14.071192833569071,
+      "grad_norm": 0.00021552004909608513,
+      "learning_rate": 0.04524145460756393,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 27680928,
+      "step": 29845
+    },
+    {
+      "epoch": 14.073550212164074,
+      "grad_norm": 0.0003486266068648547,
+      "learning_rate": 0.045199303468260794,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 27685808,
+      "step": 29850
+    },
+    {
+      "epoch": 14.075907590759076,
+      "grad_norm": 0.0003427647170610726,
+      "learning_rate": 0.04515716849054214,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 27690448,
+      "step": 29855
+    },
+    {
+      "epoch": 14.078264969354079,
+      "grad_norm": 0.00035225640749558806,
+      "learning_rate": 0.04511504968090558,
+      "loss": 0.3356,
+      "num_input_tokens_seen": 27694608,
+      "step": 29860
+    },
+    {
+      "epoch": 14.080622347949081,
+      "grad_norm": 0.00045649634557776153,
+      "learning_rate": 0.04507294704584644,
+      "loss": 0.3763,
+      "num_input_tokens_seen": 27698720,
+      "step": 29865
+    },
+    {
+      "epoch": 14.082979726544083,
+      "grad_norm": 0.00039876968367025256,
+      "learning_rate": 0.04503086059185749,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 27703024,
+      "step": 29870
+    },
+    {
+      "epoch": 14.085337105139086,
+      "grad_norm": 0.00020768569083884358,
+      "learning_rate": 0.04498879032542893,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 27708176,
+      "step": 29875
+    },
+    {
+      "epoch": 14.087694483734088,
+      "grad_norm": 0.0006313592894002795,
+      "learning_rate": 0.0449467362530486,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 27712320,
+      "step": 29880
+    },
+    {
+      "epoch": 14.09005186232909,
+      "grad_norm": 0.0003124279319308698,
+      "learning_rate": 0.04490469838120171,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 27716944,
+      "step": 29885
+    },
+    {
+      "epoch": 14.092409240924093,
+      "grad_norm": 0.0005170591757632792,
+      "learning_rate": 0.04486267671637101,
+      "loss": 0.3001,
+      "num_input_tokens_seen": 27721936,
+      "step": 29890
+    },
+    {
+      "epoch": 14.094766619519095,
+      "grad_norm": 0.0002964600862469524,
+      "learning_rate": 0.04482067126503683,
+      "loss": 0.329,
+      "num_input_tokens_seen": 27727136,
+      "step": 29895
+    },
+    {
+      "epoch": 14.097123998114098,
+      "grad_norm": 0.0006035732221789658,
+      "learning_rate": 0.04477868203367687,
+      "loss": 0.3062,
+      "num_input_tokens_seen": 27731536,
+      "step": 29900
+    },
+    {
+      "epoch": 14.0994813767091,
+      "grad_norm": 0.00027699797647073865,
+      "learning_rate": 0.044736709028766426,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 27735952,
+      "step": 29905
+    },
+    {
+      "epoch": 14.101838755304103,
+      "grad_norm": 0.0006328971358016133,
+      "learning_rate": 0.04469475225677832,
+      "loss": 0.2972,
+      "num_input_tokens_seen": 27740032,
+      "step": 29910
+    },
+    {
+      "epoch": 14.104196133899103,
+      "grad_norm": 0.0005282361526042223,
+      "learning_rate": 0.04465281172418273,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 27744320,
+      "step": 29915
+    },
+    {
+      "epoch": 14.106553512494106,
+      "grad_norm": 0.00021923091844655573,
+      "learning_rate": 0.044610887437447476,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 27749616,
+      "step": 29920
+    },
+    {
+      "epoch": 14.108910891089108,
+      "grad_norm": 0.0005365320830605924,
+      "learning_rate": 0.044568979403037744,
+      "loss": 0.2946,
+      "num_input_tokens_seen": 27754560,
+      "step": 29925
+    },
+    {
+      "epoch": 14.11126826968411,
+      "grad_norm": 0.00019319225975777954,
+      "learning_rate": 0.04452708762741631,
+      "loss": 0.3458,
+      "num_input_tokens_seen": 27760496,
+      "step": 29930
+    },
+    {
+      "epoch": 14.113625648279113,
+      "grad_norm": 0.00037376745603978634,
+      "learning_rate": 0.044485212117043475,
+      "loss": 0.3774,
+      "num_input_tokens_seen": 27764976,
+      "step": 29935
+    },
+    {
+      "epoch": 14.115983026874115,
+      "grad_norm": 0.0006667839479632676,
+      "learning_rate": 0.04444335287837687,
+      "loss": 0.3023,
+      "num_input_tokens_seen": 27770144,
+      "step": 29940
+    },
+    {
+      "epoch": 14.118340405469118,
+      "grad_norm": 0.0006207118858583272,
+      "learning_rate": 0.04440150991787179,
+      "loss": 0.3006,
+      "num_input_tokens_seen": 27775168,
+      "step": 29945
+    },
+    {
+      "epoch": 14.12069778406412,
+      "grad_norm": 0.0003162286593578756,
+      "learning_rate": 0.04435968324198088,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 27780304,
+      "step": 29950
+    },
+    {
+      "epoch": 14.123055162659123,
+      "grad_norm": 0.0006495603010989726,
+      "learning_rate": 0.04431787285715442,
+      "loss": 0.338,
+      "num_input_tokens_seen": 27785760,
+      "step": 29955
+    },
+    {
+      "epoch": 14.125412541254125,
+      "grad_norm": 0.0003646801633294672,
+      "learning_rate": 0.04427607876984004,
+      "loss": 0.3847,
+      "num_input_tokens_seen": 27790816,
+      "step": 29960
+    },
+    {
+      "epoch": 14.127769919849127,
+      "grad_norm": 0.0006553350249305367,
+      "learning_rate": 0.044234300986482886,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 27795904,
+      "step": 29965
+    },
+    {
+      "epoch": 14.13012729844413,
+      "grad_norm": 0.00042073713848367333,
+      "learning_rate": 0.04419253951352566,
+      "loss": 0.2671,
+      "num_input_tokens_seen": 27800960,
+      "step": 29970
+    },
+    {
+      "epoch": 14.132484677039132,
+      "grad_norm": 0.0006140428595244884,
+      "learning_rate": 0.044150794357408533,
+      "loss": 0.2454,
+      "num_input_tokens_seen": 27805248,
+      "step": 29975
+    },
+    {
+      "epoch": 14.134842055634135,
+      "grad_norm": 0.0005335743189789355,
+      "learning_rate": 0.044109065524569065,
+      "loss": 0.286,
+      "num_input_tokens_seen": 27810992,
+      "step": 29980
+    },
+    {
+      "epoch": 14.137199434229137,
+      "grad_norm": 0.0004523552197497338,
+      "learning_rate": 0.0440673530214424,
+      "loss": 0.3211,
+      "num_input_tokens_seen": 27815504,
+      "step": 29985
+    },
+    {
+      "epoch": 14.13955681282414,
+      "grad_norm": 0.0004592853947542608,
+      "learning_rate": 0.04402565685446117,
+      "loss": 0.3593,
+      "num_input_tokens_seen": 27819664,
+      "step": 29990
+    },
+    {
+      "epoch": 14.141914191419142,
+      "grad_norm": 0.0003867496852762997,
+      "learning_rate": 0.04398397703005536,
+      "loss": 0.2922,
+      "num_input_tokens_seen": 27823728,
+      "step": 29995
+    },
+    {
+      "epoch": 14.144271570014144,
+      "grad_norm": 0.00035792839480564,
+      "learning_rate": 0.043942313554652626,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 27829056,
+      "step": 30000
+    },
+    {
+      "epoch": 14.144271570014144,
+      "eval_loss": 0.3288826048374176,
+      "eval_runtime": 33.6197,
+      "eval_samples_per_second": 28.049,
+      "eval_steps_per_second": 14.039,
+      "num_input_tokens_seen": 27829056,
+      "step": 30000
+    },
+    {
+      "epoch": 14.146628948609147,
+      "grad_norm": 0.0003593188594095409,
+      "learning_rate": 0.0439006664346779,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 27833536,
+      "step": 30005
+    },
+    {
+      "epoch": 14.148986327204149,
+      "grad_norm": 0.0002567680785432458,
+      "learning_rate": 0.043859035676553755,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 27838272,
+      "step": 30010
+    },
+    {
+      "epoch": 14.151343705799151,
+      "grad_norm": 0.0005706407246179879,
+      "learning_rate": 0.043817421286700194,
+      "loss": 0.2654,
+      "num_input_tokens_seen": 27843168,
+      "step": 30015
+    },
+    {
+      "epoch": 14.153701084394154,
+      "grad_norm": 0.00029121426632627845,
+      "learning_rate": 0.043775823271534585,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 27847568,
+      "step": 30020
+    },
+    {
+      "epoch": 14.156058462989156,
+      "grad_norm": 0.00042397089418955147,
+      "learning_rate": 0.04373424163747197,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 27852608,
+      "step": 30025
+    },
+    {
+      "epoch": 14.158415841584159,
+      "grad_norm": 0.0004151594184804708,
+      "learning_rate": 0.04369267639092473,
+      "loss": 0.2981,
+      "num_input_tokens_seen": 27857376,
+      "step": 30030
+    },
+    {
+      "epoch": 14.160773220179161,
+      "grad_norm": 0.0005061523406766355,
+      "learning_rate": 0.04365112753830268,
+      "loss": 0.2795,
+      "num_input_tokens_seen": 27861456,
+      "step": 30035
+    },
+    {
+      "epoch": 14.163130598774163,
+      "grad_norm": 0.0003839302225969732,
+      "learning_rate": 0.04360959508601327,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 27865808,
+      "step": 30040
+    },
+    {
+      "epoch": 14.165487977369166,
+      "grad_norm": 0.000419962772866711,
+      "learning_rate": 0.04356807904046123,
+      "loss": 0.3736,
+      "num_input_tokens_seen": 27869824,
+      "step": 30045
+    },
+    {
+      "epoch": 14.167845355964168,
+      "grad_norm": 0.00037744196015410125,
+      "learning_rate": 0.04352657940804892,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 27875088,
+      "step": 30050
+    },
+    {
+      "epoch": 14.17020273455917,
+      "grad_norm": 0.0005140785360708833,
+      "learning_rate": 0.04348509619517613,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 27879840,
+      "step": 30055
+    },
+    {
+      "epoch": 14.172560113154173,
+      "grad_norm": 0.0004622192354872823,
+      "learning_rate": 0.04344362940824002,
+      "loss": 0.3861,
+      "num_input_tokens_seen": 27885520,
+      "step": 30060
+    },
+    {
+      "epoch": 14.174917491749175,
+      "grad_norm": 0.0003516161232255399,
+      "learning_rate": 0.04340217905363533,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 27889856,
+      "step": 30065
+    },
+    {
+      "epoch": 14.177274870344178,
+      "grad_norm": 0.0005871279863640666,
+      "learning_rate": 0.04336074513775425,
+      "loss": 0.263,
+      "num_input_tokens_seen": 27893504,
+      "step": 30070
+    },
+    {
+      "epoch": 14.17963224893918,
+      "grad_norm": 0.00032544342684559524,
+      "learning_rate": 0.04331932766698636,
+      "loss": 0.3588,
+      "num_input_tokens_seen": 27898224,
+      "step": 30075
+    },
+    {
+      "epoch": 14.181989627534183,
+      "grad_norm": 0.0003700801753439009,
+      "learning_rate": 0.0432779266477188,
+      "loss": 0.2971,
+      "num_input_tokens_seen": 27902432,
+      "step": 30080
+    },
+    {
+      "epoch": 14.184347006129185,
+      "grad_norm": 0.00032273263786919415,
+      "learning_rate": 0.04323654208633607,
+      "loss": 0.2924,
+      "num_input_tokens_seen": 27907264,
+      "step": 30085
+    },
+    {
+      "epoch": 14.186704384724187,
+      "grad_norm": 0.00028767052572220564,
+      "learning_rate": 0.04319517398922024,
+      "loss": 0.2627,
+      "num_input_tokens_seen": 27912816,
+      "step": 30090
+    },
+    {
+      "epoch": 14.18906176331919,
+      "grad_norm": 0.00031091569690033793,
+      "learning_rate": 0.04315382236275079,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 27918016,
+      "step": 30095
+    },
+    {
+      "epoch": 14.191419141914192,
+      "grad_norm": 0.0004425786028150469,
+      "learning_rate": 0.043112487213304664,
+      "loss": 0.3887,
+      "num_input_tokens_seen": 27923872,
+      "step": 30100
+    },
+    {
+      "epoch": 14.193776520509195,
+      "grad_norm": 0.00038656845572404563,
+      "learning_rate": 0.04307116854725618,
+      "loss": 0.3017,
+      "num_input_tokens_seen": 27927984,
+      "step": 30105
+    },
+    {
+      "epoch": 14.196133899104197,
+      "grad_norm": 0.00036362174432724714,
+      "learning_rate": 0.043029866370977325,
+      "loss": 0.3465,
+      "num_input_tokens_seen": 27932928,
+      "step": 30110
+    },
+    {
+      "epoch": 14.198491277699198,
+      "grad_norm": 0.0007003656355664134,
+      "learning_rate": 0.04298858069083728,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 27937904,
+      "step": 30115
+    },
+    {
+      "epoch": 14.2008486562942,
+      "grad_norm": 0.0005518615944311023,
+      "learning_rate": 0.04294731151320295,
+      "loss": 0.372,
+      "num_input_tokens_seen": 27942880,
+      "step": 30120
+    },
+    {
+      "epoch": 14.203206034889202,
+      "grad_norm": 0.00029615737730637193,
+      "learning_rate": 0.04290605884443841,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 27947328,
+      "step": 30125
+    },
+    {
+      "epoch": 14.205563413484205,
+      "grad_norm": 0.00044766414794139564,
+      "learning_rate": 0.04286482269090545,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 27952192,
+      "step": 30130
+    },
+    {
+      "epoch": 14.207920792079207,
+      "grad_norm": 0.0006394815281964839,
+      "learning_rate": 0.04282360305896323,
+      "loss": 0.3047,
+      "num_input_tokens_seen": 27957504,
+      "step": 30135
+    },
+    {
+      "epoch": 14.21027817067421,
+      "grad_norm": 0.00025741898571141064,
+      "learning_rate": 0.04278239995496822,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 27962576,
+      "step": 30140
+    },
+    {
+      "epoch": 14.212635549269212,
+      "grad_norm": 0.00022035169240552932,
+      "learning_rate": 0.042741213385274514,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 27966928,
+      "step": 30145
+    },
+    {
+      "epoch": 14.214992927864214,
+      "grad_norm": 0.0005071996129117906,
+      "learning_rate": 0.04270004335623366,
+      "loss": 0.2796,
+      "num_input_tokens_seen": 27971648,
+      "step": 30150
+    },
+    {
+      "epoch": 14.217350306459217,
+      "grad_norm": 0.0004008652176707983,
+      "learning_rate": 0.04265888987419448,
+      "loss": 0.3195,
+      "num_input_tokens_seen": 27976352,
+      "step": 30155
+    },
+    {
+      "epoch": 14.21970768505422,
+      "grad_norm": 0.000517789158038795,
+      "learning_rate": 0.04261775294550346,
+      "loss": 0.3006,
+      "num_input_tokens_seen": 27980912,
+      "step": 30160
+    },
+    {
+      "epoch": 14.222065063649222,
+      "grad_norm": 0.0005731845158152282,
+      "learning_rate": 0.042576632576504354,
+      "loss": 0.2919,
+      "num_input_tokens_seen": 27985872,
+      "step": 30165
+    },
+    {
+      "epoch": 14.224422442244224,
+      "grad_norm": 0.00029715715209022164,
+      "learning_rate": 0.0425355287735385,
+      "loss": 0.3436,
+      "num_input_tokens_seen": 27990288,
+      "step": 30170
+    },
+    {
+      "epoch": 14.226779820839226,
+      "grad_norm": 0.00032320659374818206,
+      "learning_rate": 0.0424944415429446,
+      "loss": 0.3751,
+      "num_input_tokens_seen": 27994896,
+      "step": 30175
+    },
+    {
+      "epoch": 14.229137199434229,
+      "grad_norm": 0.00022856808209326118,
+      "learning_rate": 0.04245337089105877,
+      "loss": 0.3682,
+      "num_input_tokens_seen": 27998896,
+      "step": 30180
+    },
+    {
+      "epoch": 14.231494578029231,
+      "grad_norm": 0.000389720342354849,
+      "learning_rate": 0.04241231682421467,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 28003424,
+      "step": 30185
+    },
+    {
+      "epoch": 14.233851956624234,
+      "grad_norm": 0.00030410970794036984,
+      "learning_rate": 0.04237127934874337,
+      "loss": 0.3653,
+      "num_input_tokens_seen": 28008736,
+      "step": 30190
+    },
+    {
+      "epoch": 14.236209335219236,
+      "grad_norm": 0.00034147946280427277,
+      "learning_rate": 0.042330258470973305,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 28013584,
+      "step": 30195
+    },
+    {
+      "epoch": 14.238566713814238,
+      "grad_norm": 0.0003168814000673592,
+      "learning_rate": 0.042289254197230515,
+      "loss": 0.363,
+      "num_input_tokens_seen": 28019840,
+      "step": 30200
+    },
+    {
+      "epoch": 14.238566713814238,
+      "eval_loss": 0.3273707330226898,
+      "eval_runtime": 33.6334,
+      "eval_samples_per_second": 28.038,
+      "eval_steps_per_second": 14.034,
+      "num_input_tokens_seen": 28019840,
+      "step": 30200
+    },
+    {
+      "epoch": 14.24092409240924,
+      "grad_norm": 0.0006269419682212174,
+      "learning_rate": 0.04224826653383823,
+      "loss": 0.2929,
+      "num_input_tokens_seen": 28024720,
+      "step": 30205
+    },
+    {
+      "epoch": 14.243281471004243,
+      "grad_norm": 0.0002720264019444585,
+      "learning_rate": 0.04220729548711735,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 28029248,
+      "step": 30210
+    },
+    {
+      "epoch": 14.245638849599246,
+      "grad_norm": 0.0006227605626918375,
+      "learning_rate": 0.04216634106338616,
+      "loss": 0.298,
+      "num_input_tokens_seen": 28033504,
+      "step": 30215
+    },
+    {
+      "epoch": 14.247996228194248,
+      "grad_norm": 0.00030282759689725935,
+      "learning_rate": 0.04212540326896025,
+      "loss": 0.3622,
+      "num_input_tokens_seen": 28038432,
+      "step": 30220
+    },
+    {
+      "epoch": 14.25035360678925,
+      "grad_norm": 0.00034064362989738584,
+      "learning_rate": 0.0420844821101528,
+      "loss": 0.3768,
+      "num_input_tokens_seen": 28043632,
+      "step": 30225
+    },
+    {
+      "epoch": 14.252710985384253,
+      "grad_norm": 0.0005898342351429164,
+      "learning_rate": 0.04204357759327441,
+      "loss": 0.3459,
+      "num_input_tokens_seen": 28047600,
+      "step": 30230
+    },
+    {
+      "epoch": 14.255068363979255,
+      "grad_norm": 0.0003433020901866257,
+      "learning_rate": 0.042002689724632954,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 28051920,
+      "step": 30235
+    },
+    {
+      "epoch": 14.257425742574258,
+      "grad_norm": 0.0005265246727503836,
+      "learning_rate": 0.04196181851053398,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 28056752,
+      "step": 30240
+    },
+    {
+      "epoch": 14.25978312116926,
+      "grad_norm": 0.0005200657760724425,
+      "learning_rate": 0.041920963957280295,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 28063328,
+      "step": 30245
+    },
+    {
+      "epoch": 14.262140499764262,
+      "grad_norm": 0.0003382648865226656,
+      "learning_rate": 0.04188012607117212,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 28067152,
+      "step": 30250
+    },
+    {
+      "epoch": 14.264497878359265,
+      "grad_norm": 0.000782033777795732,
+      "learning_rate": 0.04183930485850725,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 28072352,
+      "step": 30255
+    },
+    {
+      "epoch": 14.266855256954267,
+      "grad_norm": 0.00042284803930670023,
+      "learning_rate": 0.04179850032558078,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 28076576,
+      "step": 30260
+    },
+    {
+      "epoch": 14.26921263554927,
+      "grad_norm": 0.00026525024441070855,
+      "learning_rate": 0.041757712478685295,
+      "loss": 0.3797,
+      "num_input_tokens_seen": 28081648,
+      "step": 30265
+    },
+    {
+      "epoch": 14.271570014144272,
+      "grad_norm": 0.0007398866582661867,
+      "learning_rate": 0.04171694132411085,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 28086320,
+      "step": 30270
+    },
+    {
+      "epoch": 14.273927392739274,
+      "grad_norm": 0.0004184246645309031,
+      "learning_rate": 0.04167618686814479,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 28091360,
+      "step": 30275
+    },
+    {
+      "epoch": 14.276284771334277,
+      "grad_norm": 0.00030990582308731973,
+      "learning_rate": 0.041635449117072024,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 28096272,
+      "step": 30280
+    },
+    {
+      "epoch": 14.27864214992928,
+      "grad_norm": 0.00036068432382307947,
+      "learning_rate": 0.04159472807717477,
+      "loss": 0.3165,
+      "num_input_tokens_seen": 28101152,
+      "step": 30285
+    },
+    {
+      "epoch": 14.280999528524282,
+      "grad_norm": 0.00033329566940665245,
+      "learning_rate": 0.041554023754732744,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 28106784,
+      "step": 30290
+    },
+    {
+      "epoch": 14.283356907119284,
+      "grad_norm": 0.0004243726434651762,
+      "learning_rate": 0.04151333615602311,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 28110896,
+      "step": 30295
+    },
+    {
+      "epoch": 14.285714285714286,
+      "grad_norm": 0.0003712231991812587,
+      "learning_rate": 0.04147266528732034,
+      "loss": 0.3588,
+      "num_input_tokens_seen": 28115600,
+      "step": 30300
+    },
+    {
+      "epoch": 14.288071664309289,
+      "grad_norm": 0.00026864465326070786,
+      "learning_rate": 0.0414320111548964,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 28120592,
+      "step": 30305
+    },
+    {
+      "epoch": 14.290429042904291,
+      "grad_norm": 0.0006453337264247239,
+      "learning_rate": 0.04139137376502076,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 28125264,
+      "step": 30310
+    },
+    {
+      "epoch": 14.292786421499294,
+      "grad_norm": 0.00029963592533022165,
+      "learning_rate": 0.04135075312396014,
+      "loss": 0.38,
+      "num_input_tokens_seen": 28129616,
+      "step": 30315
+    },
+    {
+      "epoch": 14.295143800094294,
+      "grad_norm": 0.00042474025394767523,
+      "learning_rate": 0.04131014923797875,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 28133840,
+      "step": 30320
+    },
+    {
+      "epoch": 14.297501178689297,
+      "grad_norm": 0.0002848575240932405,
+      "learning_rate": 0.04126956211333819,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 28138224,
+      "step": 30325
+    },
+    {
+      "epoch": 14.299858557284299,
+      "grad_norm": 0.0003327089361846447,
+      "learning_rate": 0.041228991756297545,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 28143104,
+      "step": 30330
+    },
+    {
+      "epoch": 14.302215935879302,
+      "grad_norm": 0.0005613466491922736,
+      "learning_rate": 0.04118843817311332,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 28147888,
+      "step": 30335
+    },
+    {
+      "epoch": 14.304573314474304,
+      "grad_norm": 0.00029565230943262577,
+      "learning_rate": 0.0411479013700393,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 28152608,
+      "step": 30340
+    },
+    {
+      "epoch": 14.306930693069306,
+      "grad_norm": 0.0006047094939276576,
+      "learning_rate": 0.0411073813533268,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 28157376,
+      "step": 30345
+    },
+    {
+      "epoch": 14.309288071664309,
+      "grad_norm": 0.0005010645254515111,
+      "learning_rate": 0.04106687812922456,
+      "loss": 0.2588,
+      "num_input_tokens_seen": 28161744,
+      "step": 30350
+    },
+    {
+      "epoch": 14.311645450259311,
+      "grad_norm": 0.0006772020133212209,
+      "learning_rate": 0.041026391703978635,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 28166464,
+      "step": 30355
+    },
+    {
+      "epoch": 14.314002828854314,
+      "grad_norm": 0.0006273854523897171,
+      "learning_rate": 0.04098592208383259,
+      "loss": 0.344,
+      "num_input_tokens_seen": 28171248,
+      "step": 30360
+    },
+    {
+      "epoch": 14.316360207449316,
+      "grad_norm": 0.0003342225681990385,
+      "learning_rate": 0.040945469275027256,
+      "loss": 0.305,
+      "num_input_tokens_seen": 28175920,
+      "step": 30365
+    },
+    {
+      "epoch": 14.318717586044318,
+      "grad_norm": 0.000389705877751112,
+      "learning_rate": 0.04090503328380104,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 28180384,
+      "step": 30370
+    },
+    {
+      "epoch": 14.32107496463932,
+      "grad_norm": 0.001193988835439086,
+      "learning_rate": 0.04086461411638971,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 28184368,
+      "step": 30375
+    },
+    {
+      "epoch": 14.323432343234323,
+      "grad_norm": 0.0005134408129379153,
+      "learning_rate": 0.04082421177902631,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 28188880,
+      "step": 30380
+    },
+    {
+      "epoch": 14.325789721829326,
+      "grad_norm": 0.0004329641815274954,
+      "learning_rate": 0.04078382627794149,
+      "loss": 0.2926,
+      "num_input_tokens_seen": 28193520,
+      "step": 30385
+    },
+    {
+      "epoch": 14.328147100424328,
+      "grad_norm": 0.0002301677013747394,
+      "learning_rate": 0.04074345761936316,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 28197664,
+      "step": 30390
+    },
+    {
+      "epoch": 14.33050447901933,
+      "grad_norm": 0.0006504479679279029,
+      "learning_rate": 0.04070310580951663,
+      "loss": 0.3445,
+      "num_input_tokens_seen": 28201168,
+      "step": 30395
+    },
+    {
+      "epoch": 14.332861857614333,
+      "grad_norm": 0.00032426221878267825,
+      "learning_rate": 0.040662770854624726,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 28205616,
+      "step": 30400
+    },
+    {
+      "epoch": 14.332861857614333,
+      "eval_loss": 0.32643675804138184,
+      "eval_runtime": 33.5876,
+      "eval_samples_per_second": 28.076,
+      "eval_steps_per_second": 14.053,
+      "num_input_tokens_seen": 28205616,
+      "step": 30400
+    },
+    {
+      "epoch": 14.335219236209335,
+      "grad_norm": 0.0003529741952661425,
+      "learning_rate": 0.040622452760907535,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 28209984,
+      "step": 30405
+    },
+    {
+      "epoch": 14.337576614804338,
+      "grad_norm": 0.0006212076405063272,
+      "learning_rate": 0.04058215153458265,
+      "loss": 0.2995,
+      "num_input_tokens_seen": 28216160,
+      "step": 30410
+    },
+    {
+      "epoch": 14.33993399339934,
+      "grad_norm": 0.0005929396720603108,
+      "learning_rate": 0.04054186718186507,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 28220144,
+      "step": 30415
+    },
+    {
+      "epoch": 14.342291371994342,
+      "grad_norm": 0.0003323762502986938,
+      "learning_rate": 0.04050159970896708,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 28224432,
+      "step": 30420
+    },
+    {
+      "epoch": 14.344648750589345,
+      "grad_norm": 0.00032158507383428514,
+      "learning_rate": 0.04046134912209843,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 28228928,
+      "step": 30425
+    },
+    {
+      "epoch": 14.347006129184347,
+      "grad_norm": 0.00032962646218948066,
+      "learning_rate": 0.040421115427466354,
+      "loss": 0.3421,
+      "num_input_tokens_seen": 28233424,
+      "step": 30430
+    },
+    {
+      "epoch": 14.34936350777935,
+      "grad_norm": 0.0003807446046266705,
+      "learning_rate": 0.04038089863127529,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 28238512,
+      "step": 30435
+    },
+    {
+      "epoch": 14.351720886374352,
+      "grad_norm": 0.0006086711655370891,
+      "learning_rate": 0.04034069873972727,
+      "loss": 0.339,
+      "num_input_tokens_seen": 28243920,
+      "step": 30440
+    },
+    {
+      "epoch": 14.354078264969354,
+      "grad_norm": 0.0002984091406688094,
+      "learning_rate": 0.040300515759021514,
+      "loss": 0.34,
+      "num_input_tokens_seen": 28248288,
+      "step": 30445
+    },
+    {
+      "epoch": 14.356435643564357,
+      "grad_norm": 0.00039859930984675884,
+      "learning_rate": 0.04026034969535478,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 28252976,
+      "step": 30450
+    },
+    {
+      "epoch": 14.35879302215936,
+      "grad_norm": 0.00042250091792084277,
+      "learning_rate": 0.040220200554921266,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 28257280,
+      "step": 30455
+    },
+    {
+      "epoch": 14.361150400754362,
+      "grad_norm": 0.00033490097848698497,
+      "learning_rate": 0.0401800683439124,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 28262224,
+      "step": 30460
+    },
+    {
+      "epoch": 14.363507779349364,
+      "grad_norm": 0.00033972502569667995,
+      "learning_rate": 0.04013995306851704,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 28266688,
+      "step": 30465
+    },
+    {
+      "epoch": 14.365865157944366,
+      "grad_norm": 0.00033604991040192544,
+      "learning_rate": 0.040099854734921545,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 28270448,
+      "step": 30470
+    },
+    {
+      "epoch": 14.368222536539369,
+      "grad_norm": 0.00024316812050528824,
+      "learning_rate": 0.0400597733493095,
+      "loss": 0.3016,
+      "num_input_tokens_seen": 28274944,
+      "step": 30475
+    },
+    {
+      "epoch": 14.370579915134371,
+      "grad_norm": 0.0004851211269851774,
+      "learning_rate": 0.04001970891786203,
+      "loss": 0.3356,
+      "num_input_tokens_seen": 28279424,
+      "step": 30480
+    },
+    {
+      "epoch": 14.372937293729374,
+      "grad_norm": 0.0003675433399621397,
+      "learning_rate": 0.03997966144675752,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 28284992,
+      "step": 30485
+    },
+    {
+      "epoch": 14.375294672324376,
+      "grad_norm": 0.0004101992235518992,
+      "learning_rate": 0.039939630942171796,
+      "loss": 0.3691,
+      "num_input_tokens_seen": 28289328,
+      "step": 30490
+    },
+    {
+      "epoch": 14.377652050919378,
+      "grad_norm": 0.000399368058424443,
+      "learning_rate": 0.03989961741027815,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 28294192,
+      "step": 30495
+    },
+    {
+      "epoch": 14.38000942951438,
+      "grad_norm": 0.00042859482346102595,
+      "learning_rate": 0.03985962085724704,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 28298304,
+      "step": 30500
+    },
+    {
+      "epoch": 14.382366808109383,
+      "grad_norm": 0.0005795407923869789,
+      "learning_rate": 0.03981964128924656,
+      "loss": 0.319,
+      "num_input_tokens_seen": 28302048,
+      "step": 30505
+    },
+    {
+      "epoch": 14.384724186704386,
+      "grad_norm": 0.00029574063955806196,
+      "learning_rate": 0.03977967871244197,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 28306224,
+      "step": 30510
+    },
+    {
+      "epoch": 14.387081565299386,
+      "grad_norm": 0.00030680064810439944,
+      "learning_rate": 0.03973973313299602,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 28310512,
+      "step": 30515
+    },
+    {
+      "epoch": 14.389438943894389,
+      "grad_norm": 0.0005876428913325071,
+      "learning_rate": 0.0396998045570689,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 28314976,
+      "step": 30520
+    },
+    {
+      "epoch": 14.391796322489391,
+      "grad_norm": 0.00035802298225462437,
+      "learning_rate": 0.03965989299081798,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 28320032,
+      "step": 30525
+    },
+    {
+      "epoch": 14.394153701084393,
+      "grad_norm": 0.0004733179812319577,
+      "learning_rate": 0.039619998440398235,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 28324576,
+      "step": 30530
+    },
+    {
+      "epoch": 14.396511079679396,
+      "grad_norm": 0.000886639638338238,
+      "learning_rate": 0.03958012091196184,
+      "loss": 0.3929,
+      "num_input_tokens_seen": 28329936,
+      "step": 30535
+    },
+    {
+      "epoch": 14.398868458274398,
+      "grad_norm": 0.0002876149956136942,
+      "learning_rate": 0.039540260411658396,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 28334848,
+      "step": 30540
+    },
+    {
+      "epoch": 14.4012258368694,
+      "grad_norm": 0.0011572011280804873,
+      "learning_rate": 0.03950041694563496,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 28339312,
+      "step": 30545
+    },
+    {
+      "epoch": 14.403583215464403,
+      "grad_norm": 0.00036702092620544136,
+      "learning_rate": 0.0394605905200358,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 28344016,
+      "step": 30550
+    },
+    {
+      "epoch": 14.405940594059405,
+      "grad_norm": 0.00047169384197331965,
+      "learning_rate": 0.03942078114100272,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 28349056,
+      "step": 30555
+    },
+    {
+      "epoch": 14.408297972654408,
+      "grad_norm": 0.0007029055850580335,
+      "learning_rate": 0.03938098881467485,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 28353216,
+      "step": 30560
+    },
+    {
+      "epoch": 14.41065535124941,
+      "grad_norm": 0.00040539525798521936,
+      "learning_rate": 0.039341213547188586,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 28357216,
+      "step": 30565
+    },
+    {
+      "epoch": 14.413012729844413,
+      "grad_norm": 0.0003696945495903492,
+      "learning_rate": 0.03930145534467782,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 28362208,
+      "step": 30570
+    },
+    {
+      "epoch": 14.415370108439415,
+      "grad_norm": 0.0005611004307866096,
+      "learning_rate": 0.0392617142132738,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 28367744,
+      "step": 30575
+    },
+    {
+      "epoch": 14.417727487034417,
+      "grad_norm": 0.0003910982341039926,
+      "learning_rate": 0.03922199015910504,
+      "loss": 0.3006,
+      "num_input_tokens_seen": 28372528,
+      "step": 30580
+    },
+    {
+      "epoch": 14.42008486562942,
+      "grad_norm": 0.0002864287525881082,
+      "learning_rate": 0.039182283188297556,
+      "loss": 0.3721,
+      "num_input_tokens_seen": 28376960,
+      "step": 30585
+    },
+    {
+      "epoch": 14.422442244224422,
+      "grad_norm": 0.00053724943427369,
+      "learning_rate": 0.039142593306974595,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 28381808,
+      "step": 30590
+    },
+    {
+      "epoch": 14.424799622819425,
+      "grad_norm": 0.0006379265105351806,
+      "learning_rate": 0.039102920521256856,
+      "loss": 0.2918,
+      "num_input_tokens_seen": 28385776,
+      "step": 30595
+    },
+    {
+      "epoch": 14.427157001414427,
+      "grad_norm": 0.00043573451694101095,
+      "learning_rate": 0.03906326483726243,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 28390464,
+      "step": 30600
+    },
+    {
+      "epoch": 14.427157001414427,
+      "eval_loss": 0.3274352550506592,
+      "eval_runtime": 33.5889,
+      "eval_samples_per_second": 28.075,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 28390464,
+      "step": 30600
+    },
+    {
+      "epoch": 14.42951438000943,
+      "grad_norm": 0.00039280697819776833,
+      "learning_rate": 0.039023626261106704,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 28395232,
+      "step": 30605
+    },
+    {
+      "epoch": 14.431871758604432,
+      "grad_norm": 0.0002836171770468354,
+      "learning_rate": 0.03898400479890237,
+      "loss": 0.364,
+      "num_input_tokens_seen": 28399232,
+      "step": 30610
+    },
+    {
+      "epoch": 14.434229137199434,
+      "grad_norm": 0.00035826535895466805,
+      "learning_rate": 0.038944400456759655,
+      "loss": 0.298,
+      "num_input_tokens_seen": 28404192,
+      "step": 30615
+    },
+    {
+      "epoch": 14.436586515794437,
+      "grad_norm": 0.00035881975782103837,
+      "learning_rate": 0.038904813240785964,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 28408416,
+      "step": 30620
+    },
+    {
+      "epoch": 14.438943894389439,
+      "grad_norm": 0.00030263542430475354,
+      "learning_rate": 0.03886524315708621,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 28412880,
+      "step": 30625
+    },
+    {
+      "epoch": 14.441301272984441,
+      "grad_norm": 0.0007358274888247252,
+      "learning_rate": 0.03882569021176255,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 28417088,
+      "step": 30630
+    },
+    {
+      "epoch": 14.443658651579444,
+      "grad_norm": 0.0008486338774673641,
+      "learning_rate": 0.038786154410914535,
+      "loss": 0.2746,
+      "num_input_tokens_seen": 28422352,
+      "step": 30635
+    },
+    {
+      "epoch": 14.446016030174446,
+      "grad_norm": 0.00046241216477937996,
+      "learning_rate": 0.03874663576063917,
+      "loss": 0.3038,
+      "num_input_tokens_seen": 28426400,
+      "step": 30640
+    },
+    {
+      "epoch": 14.448373408769449,
+      "grad_norm": 0.0008158484706655145,
+      "learning_rate": 0.038707134267030624,
+      "loss": 0.358,
+      "num_input_tokens_seen": 28430576,
+      "step": 30645
+    },
+    {
+      "epoch": 14.450730787364451,
+      "grad_norm": 0.00036595953861251473,
+      "learning_rate": 0.038667649936180555,
+      "loss": 0.2996,
+      "num_input_tokens_seen": 28435408,
+      "step": 30650
+    },
+    {
+      "epoch": 14.453088165959453,
+      "grad_norm": 0.0005698665627278388,
+      "learning_rate": 0.038628182774178,
+      "loss": 0.3465,
+      "num_input_tokens_seen": 28440240,
+      "step": 30655
+    },
+    {
+      "epoch": 14.455445544554456,
+      "grad_norm": 0.0004225126758683473,
+      "learning_rate": 0.038588732787109226,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 28444336,
+      "step": 30660
+    },
+    {
+      "epoch": 14.457802923149458,
+      "grad_norm": 0.00036338125937618315,
+      "learning_rate": 0.03854929998105795,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 28449056,
+      "step": 30665
+    },
+    {
+      "epoch": 14.46016030174446,
+      "grad_norm": 0.0006243502721190453,
+      "learning_rate": 0.03850988436210518,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 28453312,
+      "step": 30670
+    },
+    {
+      "epoch": 14.462517680339463,
+      "grad_norm": 0.000366756139555946,
+      "learning_rate": 0.03847048593632933,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 28458576,
+      "step": 30675
+    },
+    {
+      "epoch": 14.464875058934465,
+      "grad_norm": 0.00043645064579322934,
+      "learning_rate": 0.038431104709806096,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 28463152,
+      "step": 30680
+    },
+    {
+      "epoch": 14.467232437529468,
+      "grad_norm": 0.0007700566784478724,
+      "learning_rate": 0.0383917406886086,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 28467360,
+      "step": 30685
+    },
+    {
+      "epoch": 14.46958981612447,
+      "grad_norm": 0.0005736410967074335,
+      "learning_rate": 0.03835239387880722,
+      "loss": 0.3905,
+      "num_input_tokens_seen": 28472016,
+      "step": 30690
+    },
+    {
+      "epoch": 14.471947194719473,
+      "grad_norm": 0.0006892340607009828,
+      "learning_rate": 0.03831306428646979,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 28476848,
+      "step": 30695
+    },
+    {
+      "epoch": 14.474304573314475,
+      "grad_norm": 0.00030083744786679745,
+      "learning_rate": 0.03827375191766135,
+      "loss": 0.303,
+      "num_input_tokens_seen": 28481216,
+      "step": 30700
+    },
+    {
+      "epoch": 14.476661951909477,
+      "grad_norm": 0.000551941804587841,
+      "learning_rate": 0.03823445677844446,
+      "loss": 0.2979,
+      "num_input_tokens_seen": 28486544,
+      "step": 30705
+    },
+    {
+      "epoch": 14.47901933050448,
+      "grad_norm": 0.0006812994834035635,
+      "learning_rate": 0.03819517887487881,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 28490992,
+      "step": 30710
+    },
+    {
+      "epoch": 14.481376709099482,
+      "grad_norm": 0.00042220059549435973,
+      "learning_rate": 0.03815591821302161,
+      "loss": 0.3324,
+      "num_input_tokens_seen": 28495168,
+      "step": 30715
+    },
+    {
+      "epoch": 14.483734087694483,
+      "grad_norm": 0.0010560030350461602,
+      "learning_rate": 0.03811667479892739,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 28499840,
+      "step": 30720
+    },
+    {
+      "epoch": 14.486091466289485,
+      "grad_norm": 0.00041221463470719755,
+      "learning_rate": 0.03807744863864788,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 28503712,
+      "step": 30725
+    },
+    {
+      "epoch": 14.488448844884488,
+      "grad_norm": 0.0003482387983240187,
+      "learning_rate": 0.03803823973823229,
+      "loss": 0.3773,
+      "num_input_tokens_seen": 28508144,
+      "step": 30730
+    },
+    {
+      "epoch": 14.49080622347949,
+      "grad_norm": 0.0009219355415552855,
+      "learning_rate": 0.03799904810372719,
+      "loss": 0.2951,
+      "num_input_tokens_seen": 28512976,
+      "step": 30735
+    },
+    {
+      "epoch": 14.493163602074493,
+      "grad_norm": 0.0008181177545338869,
+      "learning_rate": 0.03795987374117632,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 28517488,
+      "step": 30740
+    },
+    {
+      "epoch": 14.495520980669495,
+      "grad_norm": 0.0006528579397127032,
+      "learning_rate": 0.03792071665662093,
+      "loss": 0.2944,
+      "num_input_tokens_seen": 28521920,
+      "step": 30745
+    },
+    {
+      "epoch": 14.497878359264497,
+      "grad_norm": 0.0006234098691493273,
+      "learning_rate": 0.03788157685609952,
+      "loss": 0.2778,
+      "num_input_tokens_seen": 28526176,
+      "step": 30750
+    },
+    {
+      "epoch": 14.5002357378595,
+      "grad_norm": 0.0003879159630741924,
+      "learning_rate": 0.037842454345647876,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 28531344,
+      "step": 30755
+    },
+    {
+      "epoch": 14.502593116454502,
+      "grad_norm": 0.000355441210558638,
+      "learning_rate": 0.03780334913129929,
+      "loss": 0.3441,
+      "num_input_tokens_seen": 28536080,
+      "step": 30760
+    },
+    {
+      "epoch": 14.504950495049505,
+      "grad_norm": 0.0006543576600961387,
+      "learning_rate": 0.037764261219084175,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 28540160,
+      "step": 30765
+    },
+    {
+      "epoch": 14.507307873644507,
+      "grad_norm": 0.0006987149827182293,
+      "learning_rate": 0.037725190615030414,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 28544368,
+      "step": 30770
+    },
+    {
+      "epoch": 14.50966525223951,
+      "grad_norm": 0.0003635651373770088,
+      "learning_rate": 0.037686137325163224,
+      "loss": 0.3691,
+      "num_input_tokens_seen": 28548384,
+      "step": 30775
+    },
+    {
+      "epoch": 14.512022630834512,
+      "grad_norm": 0.0006368989124894142,
+      "learning_rate": 0.037647101355505065,
+      "loss": 0.356,
+      "num_input_tokens_seen": 28552304,
+      "step": 30780
+    },
+    {
+      "epoch": 14.514380009429514,
+      "grad_norm": 0.0003728933515958488,
+      "learning_rate": 0.03760808271207581,
+      "loss": 0.2841,
+      "num_input_tokens_seen": 28557088,
+      "step": 30785
+    },
+    {
+      "epoch": 14.516737388024517,
+      "grad_norm": 0.0007617680821567774,
+      "learning_rate": 0.03756908140089258,
+      "loss": 0.2871,
+      "num_input_tokens_seen": 28562320,
+      "step": 30790
+    },
+    {
+      "epoch": 14.519094766619519,
+      "grad_norm": 0.00039135292172431946,
+      "learning_rate": 0.03753009742796989,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 28566832,
+      "step": 30795
+    },
+    {
+      "epoch": 14.521452145214521,
+      "grad_norm": 0.0004103196843061596,
+      "learning_rate": 0.037491130799319615,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 28571424,
+      "step": 30800
+    },
+    {
+      "epoch": 14.521452145214521,
+      "eval_loss": 0.3278544545173645,
+      "eval_runtime": 33.6092,
+      "eval_samples_per_second": 28.058,
+      "eval_steps_per_second": 14.044,
+      "num_input_tokens_seen": 28571424,
+      "step": 30800
+    },
+    {
+      "epoch": 14.523809523809524,
+      "grad_norm": 0.0006358613027259707,
+      "learning_rate": 0.03745218152095079,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 28576000,
+      "step": 30805
+    },
+    {
+      "epoch": 14.526166902404526,
+      "grad_norm": 0.00047739598085172474,
+      "learning_rate": 0.037413249598869935,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 28580400,
+      "step": 30810
+    },
+    {
+      "epoch": 14.528524280999529,
+      "grad_norm": 0.0003679770161397755,
+      "learning_rate": 0.037374335039080886,
+      "loss": 0.3712,
+      "num_input_tokens_seen": 28585136,
+      "step": 30815
+    },
+    {
+      "epoch": 14.530881659594531,
+      "grad_norm": 0.0003353601205162704,
+      "learning_rate": 0.037335437847584724,
+      "loss": 0.2854,
+      "num_input_tokens_seen": 28589744,
+      "step": 30820
+    },
+    {
+      "epoch": 14.533239038189533,
+      "grad_norm": 0.00041480601066723466,
+      "learning_rate": 0.03729655803037983,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 28594144,
+      "step": 30825
+    },
+    {
+      "epoch": 14.535596416784536,
+      "grad_norm": 0.000390415545552969,
+      "learning_rate": 0.03725769559346207,
+      "loss": 0.309,
+      "num_input_tokens_seen": 28599696,
+      "step": 30830
+    },
+    {
+      "epoch": 14.537953795379538,
+      "grad_norm": 0.00035560407559387386,
+      "learning_rate": 0.03721885054282439,
+      "loss": 0.2859,
+      "num_input_tokens_seen": 28603760,
+      "step": 30835
+    },
+    {
+      "epoch": 14.54031117397454,
+      "grad_norm": 0.000577306083869189,
+      "learning_rate": 0.03718002288445731,
+      "loss": 0.3052,
+      "num_input_tokens_seen": 28608816,
+      "step": 30840
+    },
+    {
+      "epoch": 14.542668552569543,
+      "grad_norm": 0.0005698580644093454,
+      "learning_rate": 0.03714121262434844,
+      "loss": 0.3039,
+      "num_input_tokens_seen": 28613568,
+      "step": 30845
+    },
+    {
+      "epoch": 14.545025931164545,
+      "grad_norm": 0.0006124115898273885,
+      "learning_rate": 0.037102419768482844,
+      "loss": 0.3503,
+      "num_input_tokens_seen": 28618544,
+      "step": 30850
+    },
+    {
+      "epoch": 14.547383309759548,
+      "grad_norm": 0.0003192370932083577,
+      "learning_rate": 0.03706364432284293,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 28624032,
+      "step": 30855
+    },
+    {
+      "epoch": 14.54974068835455,
+      "grad_norm": 0.0002486076846253127,
+      "learning_rate": 0.03702488629340828,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 28628672,
+      "step": 30860
+    },
+    {
+      "epoch": 14.552098066949553,
+      "grad_norm": 0.0005295825540088117,
+      "learning_rate": 0.036986145686155915,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 28633456,
+      "step": 30865
+    },
+    {
+      "epoch": 14.554455445544555,
+      "grad_norm": 0.00035499309888109565,
+      "learning_rate": 0.036947422507060075,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 28637216,
+      "step": 30870
+    },
+    {
+      "epoch": 14.556812824139557,
+      "grad_norm": 0.0003502136969473213,
+      "learning_rate": 0.0369087167620924,
+      "loss": 0.2883,
+      "num_input_tokens_seen": 28641344,
+      "step": 30875
+    },
+    {
+      "epoch": 14.55917020273456,
+      "grad_norm": 0.00035130875767208636,
+      "learning_rate": 0.03687002845722183,
+      "loss": 0.3553,
+      "num_input_tokens_seen": 28646080,
+      "step": 30880
+    },
+    {
+      "epoch": 14.561527581329562,
+      "grad_norm": 0.0006667778943665326,
+      "learning_rate": 0.03683135759841451,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 28650176,
+      "step": 30885
+    },
+    {
+      "epoch": 14.563884959924565,
+      "grad_norm": 0.00036687025567516685,
+      "learning_rate": 0.03679270419163406,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 28654304,
+      "step": 30890
+    },
+    {
+      "epoch": 14.566242338519567,
+      "grad_norm": 0.0006720128585584462,
+      "learning_rate": 0.03675406824284127,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 28658464,
+      "step": 30895
+    },
+    {
+      "epoch": 14.56859971711457,
+      "grad_norm": 0.0002636207500472665,
+      "learning_rate": 0.03671544975799425,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 28663072,
+      "step": 30900
+    },
+    {
+      "epoch": 14.570957095709572,
+      "grad_norm": 0.0003805234155151993,
+      "learning_rate": 0.03667684874304854,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 28667680,
+      "step": 30905
+    },
+    {
+      "epoch": 14.573314474304574,
+      "grad_norm": 0.0003151843266095966,
+      "learning_rate": 0.03663826520395683,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 28672096,
+      "step": 30910
+    },
+    {
+      "epoch": 14.575671852899575,
+      "grad_norm": 0.000360381935024634,
+      "learning_rate": 0.03659969914666922,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 28676656,
+      "step": 30915
+    },
+    {
+      "epoch": 14.578029231494579,
+      "grad_norm": 0.0005457830848172307,
+      "learning_rate": 0.036561150577133106,
+      "loss": 0.3146,
+      "num_input_tokens_seen": 28681616,
+      "step": 30920
+    },
+    {
+      "epoch": 14.58038661008958,
+      "grad_norm": 0.00028404814656823874,
+      "learning_rate": 0.036522619501293103,
+      "loss": 0.2881,
+      "num_input_tokens_seen": 28686336,
+      "step": 30925
+    },
+    {
+      "epoch": 14.582743988684582,
+      "grad_norm": 0.0006511032115668058,
+      "learning_rate": 0.03648410592509122,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 28690864,
+      "step": 30930
+    },
+    {
+      "epoch": 14.585101367279584,
+      "grad_norm": 0.00032394201843999326,
+      "learning_rate": 0.03644560985446676,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 28694976,
+      "step": 30935
+    },
+    {
+      "epoch": 14.587458745874587,
+      "grad_norm": 0.00048806783161126077,
+      "learning_rate": 0.036407131295356256,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 28699120,
+      "step": 30940
+    },
+    {
+      "epoch": 14.58981612446959,
+      "grad_norm": 0.0004095215117558837,
+      "learning_rate": 0.03636867025369362,
+      "loss": 0.308,
+      "num_input_tokens_seen": 28704752,
+      "step": 30945
+    },
+    {
+      "epoch": 14.592173503064592,
+      "grad_norm": 0.0004586758150253445,
+      "learning_rate": 0.03633022673540999,
+      "loss": 0.306,
+      "num_input_tokens_seen": 28710416,
+      "step": 30950
+    },
+    {
+      "epoch": 14.594530881659594,
+      "grad_norm": 0.0002850836608558893,
+      "learning_rate": 0.03629180074643385,
+      "loss": 0.3578,
+      "num_input_tokens_seen": 28715568,
+      "step": 30955
+    },
+    {
+      "epoch": 14.596888260254596,
+      "grad_norm": 0.0004227794415783137,
+      "learning_rate": 0.03625339229269102,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 28720640,
+      "step": 30960
+    },
+    {
+      "epoch": 14.599245638849599,
+      "grad_norm": 0.0005330160493031144,
+      "learning_rate": 0.036215001380104535,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 28725360,
+      "step": 30965
+    },
+    {
+      "epoch": 14.601603017444601,
+      "grad_norm": 0.0006479942239820957,
+      "learning_rate": 0.03617662801459471,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 28730848,
+      "step": 30970
+    },
+    {
+      "epoch": 14.603960396039604,
+      "grad_norm": 0.0002817995264194906,
+      "learning_rate": 0.036138272202079276,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 28735376,
+      "step": 30975
+    },
+    {
+      "epoch": 14.606317774634606,
+      "grad_norm": 0.0004440380143932998,
+      "learning_rate": 0.036099933948473106,
+      "loss": 0.37,
+      "num_input_tokens_seen": 28740768,
+      "step": 30980
+    },
+    {
+      "epoch": 14.608675153229608,
+      "grad_norm": 0.00045171426609158516,
+      "learning_rate": 0.03606161325968851,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 28745184,
+      "step": 30985
+    },
+    {
+      "epoch": 14.61103253182461,
+      "grad_norm": 0.0005498563405126333,
+      "learning_rate": 0.03602331014163496,
+      "loss": 0.301,
+      "num_input_tokens_seen": 28749440,
+      "step": 30990
+    },
+    {
+      "epoch": 14.613389910419613,
+      "grad_norm": 0.0008812066516838968,
+      "learning_rate": 0.035985024600219295,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 28754208,
+      "step": 30995
+    },
+    {
+      "epoch": 14.615747289014616,
+      "grad_norm": 0.000604007625952363,
+      "learning_rate": 0.03594675664134569,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 28758128,
+      "step": 31000
+    },
+    {
+      "epoch": 14.615747289014616,
+      "eval_loss": 0.3271823525428772,
+      "eval_runtime": 33.6149,
+      "eval_samples_per_second": 28.053,
+      "eval_steps_per_second": 14.041,
+      "num_input_tokens_seen": 28758128,
+      "step": 31000
+    },
+    {
+      "epoch": 14.618104667609618,
+      "grad_norm": 0.00035920788650400937,
+      "learning_rate": 0.03590850627091545,
+      "loss": 0.3111,
+      "num_input_tokens_seen": 28762400,
+      "step": 31005
+    },
+    {
+      "epoch": 14.62046204620462,
+      "grad_norm": 0.0006109399255365133,
+      "learning_rate": 0.03587027349482731,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 28767312,
+      "step": 31010
+    },
+    {
+      "epoch": 14.622819424799623,
+      "grad_norm": 0.0003753074270207435,
+      "learning_rate": 0.035832058318977275,
+      "loss": 0.2784,
+      "num_input_tokens_seen": 28772672,
+      "step": 31015
+    },
+    {
+      "epoch": 14.625176803394625,
+      "grad_norm": 0.0003912792890332639,
+      "learning_rate": 0.03579386074925853,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 28776512,
+      "step": 31020
+    },
+    {
+      "epoch": 14.627534181989628,
+      "grad_norm": 0.00030657585011795163,
+      "learning_rate": 0.035755680791561696,
+      "loss": 0.3092,
+      "num_input_tokens_seen": 28782416,
+      "step": 31025
+    },
+    {
+      "epoch": 14.62989156058463,
+      "grad_norm": 0.00046144562656991184,
+      "learning_rate": 0.03571751845177454,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 28786016,
+      "step": 31030
+    },
+    {
+      "epoch": 14.632248939179632,
+      "grad_norm": 0.00030812231125310063,
+      "learning_rate": 0.03567937373578225,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 28789840,
+      "step": 31035
+    },
+    {
+      "epoch": 14.634606317774635,
+      "grad_norm": 0.00033941082074306905,
+      "learning_rate": 0.03564124664946711,
+      "loss": 0.2952,
+      "num_input_tokens_seen": 28794304,
+      "step": 31040
+    },
+    {
+      "epoch": 14.636963696369637,
+      "grad_norm": 0.000434832094470039,
+      "learning_rate": 0.035603137198708924,
+      "loss": 0.3577,
+      "num_input_tokens_seen": 28798256,
+      "step": 31045
+    },
+    {
+      "epoch": 14.63932107496464,
+      "grad_norm": 0.00029658342828042805,
+      "learning_rate": 0.035565045389384514,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 28803072,
+      "step": 31050
+    },
+    {
+      "epoch": 14.641678453559642,
+      "grad_norm": 0.0005487252492457628,
+      "learning_rate": 0.03552697122736823,
+      "loss": 0.3021,
+      "num_input_tokens_seen": 28807168,
+      "step": 31055
+    },
+    {
+      "epoch": 14.644035832154644,
+      "grad_norm": 0.0006627665716223419,
+      "learning_rate": 0.03548891471853153,
+      "loss": 0.3824,
+      "num_input_tokens_seen": 28812272,
+      "step": 31060
+    },
+    {
+      "epoch": 14.646393210749647,
+      "grad_norm": 0.0004701643483713269,
+      "learning_rate": 0.03545087586874322,
+      "loss": 0.386,
+      "num_input_tokens_seen": 28817952,
+      "step": 31065
+    },
+    {
+      "epoch": 14.64875058934465,
+      "grad_norm": 0.0003353576466906816,
+      "learning_rate": 0.03541285468386935,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 28822192,
+      "step": 31070
+    },
+    {
+      "epoch": 14.651107967939652,
+      "grad_norm": 0.0006892767269164324,
+      "learning_rate": 0.03537485116977327,
+      "loss": 0.3165,
+      "num_input_tokens_seen": 28826384,
+      "step": 31075
+    },
+    {
+      "epoch": 14.653465346534654,
+      "grad_norm": 0.00037172253360040486,
+      "learning_rate": 0.03533686533231565,
+      "loss": 0.3094,
+      "num_input_tokens_seen": 28831408,
+      "step": 31080
+    },
+    {
+      "epoch": 14.655822725129656,
+      "grad_norm": 0.0003161331987939775,
+      "learning_rate": 0.0352988971773543,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 28835792,
+      "step": 31085
+    },
+    {
+      "epoch": 14.658180103724659,
+      "grad_norm": 0.0004171959590166807,
+      "learning_rate": 0.03526094671074443,
+      "loss": 0.3557,
+      "num_input_tokens_seen": 28840400,
+      "step": 31090
+    },
+    {
+      "epoch": 14.660537482319661,
+      "grad_norm": 0.0004726581391878426,
+      "learning_rate": 0.03522301393833852,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 28845472,
+      "step": 31095
+    },
+    {
+      "epoch": 14.662894860914664,
+      "grad_norm": 0.0003060328890569508,
+      "learning_rate": 0.035185098865986204,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 28850288,
+      "step": 31100
+    },
+    {
+      "epoch": 14.665252239509666,
+      "grad_norm": 0.000920928840059787,
+      "learning_rate": 0.03514720149953453,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 28855296,
+      "step": 31105
+    },
+    {
+      "epoch": 14.667609618104667,
+      "grad_norm": 0.0003269517619628459,
+      "learning_rate": 0.03510932184482773,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 28860176,
+      "step": 31110
+    },
+    {
+      "epoch": 14.66996699669967,
+      "grad_norm": 0.0004318112332839519,
+      "learning_rate": 0.03507145990770724,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 28865456,
+      "step": 31115
+    },
+    {
+      "epoch": 14.672324375294671,
+      "grad_norm": 0.0006560329347848892,
+      "learning_rate": 0.035033615694011984,
+      "loss": 0.2894,
+      "num_input_tokens_seen": 28869904,
+      "step": 31120
+    },
+    {
+      "epoch": 14.674681753889674,
+      "grad_norm": 0.0006505104247480631,
+      "learning_rate": 0.03499578920957788,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 28874688,
+      "step": 31125
+    },
+    {
+      "epoch": 14.677039132484676,
+      "grad_norm": 0.0003099643508903682,
+      "learning_rate": 0.034957980460238375,
+      "loss": 0.3014,
+      "num_input_tokens_seen": 28879760,
+      "step": 31130
+    },
+    {
+      "epoch": 14.679396511079679,
+      "grad_norm": 0.0009778194362297654,
+      "learning_rate": 0.03492018945182393,
+      "loss": 0.3878,
+      "num_input_tokens_seen": 28884304,
+      "step": 31135
+    },
+    {
+      "epoch": 14.681753889674681,
+      "grad_norm": 0.0003593201981857419,
+      "learning_rate": 0.03488241619016247,
+      "loss": 0.3049,
+      "num_input_tokens_seen": 28888608,
+      "step": 31140
+    },
+    {
+      "epoch": 14.684111268269683,
+      "grad_norm": 0.0006457061390392482,
+      "learning_rate": 0.03484466068107913,
+      "loss": 0.3632,
+      "num_input_tokens_seen": 28893296,
+      "step": 31145
+    },
+    {
+      "epoch": 14.686468646864686,
+      "grad_norm": 0.00046309464960359037,
+      "learning_rate": 0.034806922930396195,
+      "loss": 0.345,
+      "num_input_tokens_seen": 28897520,
+      "step": 31150
+    },
+    {
+      "epoch": 14.688826025459688,
+      "grad_norm": 0.0005817526252940297,
+      "learning_rate": 0.03476920294393337,
+      "loss": 0.3023,
+      "num_input_tokens_seen": 28902544,
+      "step": 31155
+    },
+    {
+      "epoch": 14.69118340405469,
+      "grad_norm": 0.0009399246191605926,
+      "learning_rate": 0.03473150072750755,
+      "loss": 0.4029,
+      "num_input_tokens_seen": 28907008,
+      "step": 31160
+    },
+    {
+      "epoch": 14.693540782649693,
+      "grad_norm": 0.0003145367663819343,
+      "learning_rate": 0.03469381628693284,
+      "loss": 0.3195,
+      "num_input_tokens_seen": 28911360,
+      "step": 31165
+    },
+    {
+      "epoch": 14.695898161244696,
+      "grad_norm": 0.0006596490857191384,
+      "learning_rate": 0.03465614962802072,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 28916704,
+      "step": 31170
+    },
+    {
+      "epoch": 14.698255539839698,
+      "grad_norm": 0.0003399779961910099,
+      "learning_rate": 0.0346185007565798,
+      "loss": 0.309,
+      "num_input_tokens_seen": 28921184,
+      "step": 31175
+    },
+    {
+      "epoch": 14.7006129184347,
+      "grad_norm": 0.0006392496870830655,
+      "learning_rate": 0.03458086967841609,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 28925376,
+      "step": 31180
+    },
+    {
+      "epoch": 14.702970297029703,
+      "grad_norm": 0.0006372813950292766,
+      "learning_rate": 0.03454325639933266,
+      "loss": 0.3135,
+      "num_input_tokens_seen": 28929616,
+      "step": 31185
+    },
+    {
+      "epoch": 14.705327675624705,
+      "grad_norm": 0.000672868569381535,
+      "learning_rate": 0.03450566092513007,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 28933872,
+      "step": 31190
+    },
+    {
+      "epoch": 14.707685054219708,
+      "grad_norm": 0.00042124383617192507,
+      "learning_rate": 0.034468083261605914,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 28938096,
+      "step": 31195
+    },
+    {
+      "epoch": 14.71004243281471,
+      "grad_norm": 0.0002684209030121565,
+      "learning_rate": 0.03443052341455522,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 28942096,
+      "step": 31200
+    },
+    {
+      "epoch": 14.71004243281471,
+      "eval_loss": 0.329402893781662,
+      "eval_runtime": 33.5838,
+      "eval_samples_per_second": 28.079,
+      "eval_steps_per_second": 14.054,
+      "num_input_tokens_seen": 28942096,
+      "step": 31200
+    },
+    {
+      "epoch": 14.712399811409712,
+      "grad_norm": 0.0005603626486845315,
+      "learning_rate": 0.0343929813897701,
+      "loss": 0.317,
+      "num_input_tokens_seen": 28946048,
+      "step": 31205
+    },
+    {
+      "epoch": 14.714757190004715,
+      "grad_norm": 0.00042471112101338804,
+      "learning_rate": 0.034355457193040125,
+      "loss": 0.326,
+      "num_input_tokens_seen": 28951152,
+      "step": 31210
+    },
+    {
+      "epoch": 14.717114568599717,
+      "grad_norm": 0.0003843243757728487,
+      "learning_rate": 0.03431795083015186,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 28955280,
+      "step": 31215
+    },
+    {
+      "epoch": 14.71947194719472,
+      "grad_norm": 0.0004273228987585753,
+      "learning_rate": 0.03428046230688936,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 28959728,
+      "step": 31220
+    },
+    {
+      "epoch": 14.721829325789722,
+      "grad_norm": 0.00032066108542494476,
+      "learning_rate": 0.034242991629033805,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 28964080,
+      "step": 31225
+    },
+    {
+      "epoch": 14.724186704384724,
+      "grad_norm": 0.0005954905645921826,
+      "learning_rate": 0.03420553880236362,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 28968720,
+      "step": 31230
+    },
+    {
+      "epoch": 14.726544082979727,
+      "grad_norm": 0.0006665041437372565,
+      "learning_rate": 0.03416810383265449,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 28974736,
+      "step": 31235
+    },
+    {
+      "epoch": 14.72890146157473,
+      "grad_norm": 0.0006398346158675849,
+      "learning_rate": 0.03413068672567944,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 28979456,
+      "step": 31240
+    },
+    {
+      "epoch": 14.731258840169732,
+      "grad_norm": 0.0006025523762218654,
+      "learning_rate": 0.034093287487208565,
+      "loss": 0.2879,
+      "num_input_tokens_seen": 28983392,
+      "step": 31245
+    },
+    {
+      "epoch": 14.733616218764734,
+      "grad_norm": 0.00048739209887571633,
+      "learning_rate": 0.03405590612300937,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 28987120,
+      "step": 31250
+    },
+    {
+      "epoch": 14.735973597359736,
+      "grad_norm": 0.00036900685518048704,
+      "learning_rate": 0.03401854263884646,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 28992608,
+      "step": 31255
+    },
+    {
+      "epoch": 14.738330975954739,
+      "grad_norm": 0.0008696626173332334,
+      "learning_rate": 0.033981197040481824,
+      "loss": 0.3466,
+      "num_input_tokens_seen": 28996688,
+      "step": 31260
+    },
+    {
+      "epoch": 14.740688354549741,
+      "grad_norm": 0.0006256934138946235,
+      "learning_rate": 0.03394386933367459,
+      "loss": 0.3065,
+      "num_input_tokens_seen": 29002384,
+      "step": 31265
+    },
+    {
+      "epoch": 14.743045733144744,
+      "grad_norm": 0.00039959404966793954,
+      "learning_rate": 0.033906559524181104,
+      "loss": 0.3002,
+      "num_input_tokens_seen": 29006368,
+      "step": 31270
+    },
+    {
+      "epoch": 14.745403111739746,
+      "grad_norm": 0.00036099707358516753,
+      "learning_rate": 0.033869267617755085,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 29011168,
+      "step": 31275
+    },
+    {
+      "epoch": 14.747760490334748,
+      "grad_norm": 0.00046115907025523484,
+      "learning_rate": 0.0338319936201474,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 29015840,
+      "step": 31280
+    },
+    {
+      "epoch": 14.75011786892975,
+      "grad_norm": 0.00027769990265369415,
+      "learning_rate": 0.033794737537106136,
+      "loss": 0.3088,
+      "num_input_tokens_seen": 29020000,
+      "step": 31285
+    },
+    {
+      "epoch": 14.752475247524753,
+      "grad_norm": 0.00030305914697237313,
+      "learning_rate": 0.03375749937437671,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 29024960,
+      "step": 31290
+    },
+    {
+      "epoch": 14.754832626119756,
+      "grad_norm": 0.0007251842180266976,
+      "learning_rate": 0.033720279137701634,
+      "loss": 0.344,
+      "num_input_tokens_seen": 29029728,
+      "step": 31295
+    },
+    {
+      "epoch": 14.757190004714758,
+      "grad_norm": 0.0003309858439024538,
+      "learning_rate": 0.03368307683282078,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 29034192,
+      "step": 31300
+    },
+    {
+      "epoch": 14.75954738330976,
+      "grad_norm": 0.0004574413469526917,
+      "learning_rate": 0.033645892465471235,
+      "loss": 0.3781,
+      "num_input_tokens_seen": 29038240,
+      "step": 31305
+    },
+    {
+      "epoch": 14.761904761904763,
+      "grad_norm": 0.000308765796944499,
+      "learning_rate": 0.03360872604138724,
+      "loss": 0.3254,
+      "num_input_tokens_seen": 29042672,
+      "step": 31310
+    },
+    {
+      "epoch": 14.764262140499763,
+      "grad_norm": 0.0008489395841024816,
+      "learning_rate": 0.03357157756630034,
+      "loss": 0.4151,
+      "num_input_tokens_seen": 29047264,
+      "step": 31315
+    },
+    {
+      "epoch": 14.766619519094768,
+      "grad_norm": 0.0004055746248923242,
+      "learning_rate": 0.033534447045939365,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 29052672,
+      "step": 31320
+    },
+    {
+      "epoch": 14.768976897689768,
+      "grad_norm": 0.00036154178087599576,
+      "learning_rate": 0.03349733448603026,
+      "loss": 0.2942,
+      "num_input_tokens_seen": 29058848,
+      "step": 31325
+    },
+    {
+      "epoch": 14.77133427628477,
+      "grad_norm": 0.0005946062155999243,
+      "learning_rate": 0.03346023989229619,
+      "loss": 0.3686,
+      "num_input_tokens_seen": 29063136,
+      "step": 31330
+    },
+    {
+      "epoch": 14.773691654879773,
+      "grad_norm": 0.000556131883058697,
+      "learning_rate": 0.03342316327045769,
+      "loss": 0.2802,
+      "num_input_tokens_seen": 29067632,
+      "step": 31335
+    },
+    {
+      "epoch": 14.776049033474775,
+      "grad_norm": 0.0004118982469663024,
+      "learning_rate": 0.033386104626232385,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 29072976,
+      "step": 31340
+    },
+    {
+      "epoch": 14.778406412069778,
+      "grad_norm": 0.0006816927343606949,
+      "learning_rate": 0.03334906396533525,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 29077904,
+      "step": 31345
+    },
+    {
+      "epoch": 14.78076379066478,
+      "grad_norm": 0.0003296163340564817,
+      "learning_rate": 0.033312041293478326,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 29082768,
+      "step": 31350
+    },
+    {
+      "epoch": 14.783121169259783,
+      "grad_norm": 0.0003661163500510156,
+      "learning_rate": 0.03327503661637103,
+      "loss": 0.333,
+      "num_input_tokens_seen": 29088192,
+      "step": 31355
+    },
+    {
+      "epoch": 14.785478547854785,
+      "grad_norm": 0.0004887774703092873,
+      "learning_rate": 0.03323804993971998,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 29091904,
+      "step": 31360
+    },
+    {
+      "epoch": 14.787835926449787,
+      "grad_norm": 0.0003036620037164539,
+      "learning_rate": 0.033201081269228924,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 29096000,
+      "step": 31365
+    },
+    {
+      "epoch": 14.79019330504479,
+      "grad_norm": 0.0005305118975229561,
+      "learning_rate": 0.03316413061059895,
+      "loss": 0.32,
+      "num_input_tokens_seen": 29100336,
+      "step": 31370
+    },
+    {
+      "epoch": 14.792550683639792,
+      "grad_norm": 0.001290766755118966,
+      "learning_rate": 0.03312719796952827,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 29104544,
+      "step": 31375
+    },
+    {
+      "epoch": 14.794908062234795,
+      "grad_norm": 0.0005628954968415201,
+      "learning_rate": 0.03309028335171236,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 29108992,
+      "step": 31380
+    },
+    {
+      "epoch": 14.797265440829797,
+      "grad_norm": 0.00027670833515003324,
+      "learning_rate": 0.03305338676284398,
+      "loss": 0.2906,
+      "num_input_tokens_seen": 29113968,
+      "step": 31385
+    },
+    {
+      "epoch": 14.7996228194248,
+      "grad_norm": 0.0002590977819636464,
+      "learning_rate": 0.03301650820861296,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 29118912,
+      "step": 31390
+    },
+    {
+      "epoch": 14.801980198019802,
+      "grad_norm": 0.0006248497520573437,
+      "learning_rate": 0.03297964769470652,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 29123344,
+      "step": 31395
+    },
+    {
+      "epoch": 14.804337576614804,
+      "grad_norm": 0.0004024539957754314,
+      "learning_rate": 0.032942805226808945,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 29127440,
+      "step": 31400
+    },
+    {
+      "epoch": 14.804337576614804,
+      "eval_loss": 0.32903534173965454,
+      "eval_runtime": 33.5974,
+      "eval_samples_per_second": 28.068,
+      "eval_steps_per_second": 14.049,
+      "num_input_tokens_seen": 29127440,
+      "step": 31400
+    },
+    {
+      "epoch": 14.806694955209807,
+      "grad_norm": 0.000360715901479125,
+      "learning_rate": 0.03290598081060187,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 29131872,
+      "step": 31405
+    },
+    {
+      "epoch": 14.809052333804809,
+      "grad_norm": 0.0006123065832071006,
+      "learning_rate": 0.03286917445176407,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 29135808,
+      "step": 31410
+    },
+    {
+      "epoch": 14.811409712399811,
+      "grad_norm": 0.0003166740061715245,
+      "learning_rate": 0.032832386155971456,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 29140640,
+      "step": 31415
+    },
+    {
+      "epoch": 14.813767090994814,
+      "grad_norm": 0.0007093589520081878,
+      "learning_rate": 0.032795615928897334,
+      "loss": 0.3633,
+      "num_input_tokens_seen": 29145248,
+      "step": 31420
+    },
+    {
+      "epoch": 14.816124469589816,
+      "grad_norm": 0.0003378944529686123,
+      "learning_rate": 0.03275886377621215,
+      "loss": 0.2954,
+      "num_input_tokens_seen": 29149504,
+      "step": 31425
+    },
+    {
+      "epoch": 14.818481848184819,
+      "grad_norm": 0.0003868670901283622,
+      "learning_rate": 0.03272212970358348,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 29154288,
+      "step": 31430
+    },
+    {
+      "epoch": 14.820839226779821,
+      "grad_norm": 0.0005660518654622138,
+      "learning_rate": 0.032685413716676215,
+      "loss": 0.3097,
+      "num_input_tokens_seen": 29158960,
+      "step": 31435
+    },
+    {
+      "epoch": 14.823196605374823,
+      "grad_norm": 0.0005765788955613971,
+      "learning_rate": 0.032648715821152474,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 29162944,
+      "step": 31440
+    },
+    {
+      "epoch": 14.825553983969826,
+      "grad_norm": 0.0003374893276486546,
+      "learning_rate": 0.03261203602267143,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 29167120,
+      "step": 31445
+    },
+    {
+      "epoch": 14.827911362564828,
+      "grad_norm": 0.00035123832640238106,
+      "learning_rate": 0.03257537432688966,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 29171408,
+      "step": 31450
+    },
+    {
+      "epoch": 14.83026874115983,
+      "grad_norm": 0.0005748564144596457,
+      "learning_rate": 0.03253873073946077,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 29175568,
+      "step": 31455
+    },
+    {
+      "epoch": 14.832626119754833,
+      "grad_norm": 0.0005067149177193642,
+      "learning_rate": 0.03250210526603572,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 29179888,
+      "step": 31460
+    },
+    {
+      "epoch": 14.834983498349835,
+      "grad_norm": 0.0005663390620611608,
+      "learning_rate": 0.03246549791226266,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 29184432,
+      "step": 31465
+    },
+    {
+      "epoch": 14.837340876944838,
+      "grad_norm": 0.00024995021522045135,
+      "learning_rate": 0.03242890868378679,
+      "loss": 0.366,
+      "num_input_tokens_seen": 29189504,
+      "step": 31470
+    },
+    {
+      "epoch": 14.83969825553984,
+      "grad_norm": 0.0004386026121210307,
+      "learning_rate": 0.03239233758625074,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 29194832,
+      "step": 31475
+    },
+    {
+      "epoch": 14.842055634134843,
+      "grad_norm": 0.0003119092434644699,
+      "learning_rate": 0.032355784625294204,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 29198960,
+      "step": 31480
+    },
+    {
+      "epoch": 14.844413012729845,
+      "grad_norm": 0.0003411240759305656,
+      "learning_rate": 0.03231924980655402,
+      "loss": 0.3074,
+      "num_input_tokens_seen": 29203648,
+      "step": 31485
+    },
+    {
+      "epoch": 14.846770391324847,
+      "grad_norm": 0.0006234780885279179,
+      "learning_rate": 0.032282733135664446,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 29208576,
+      "step": 31490
+    },
+    {
+      "epoch": 14.84912776991985,
+      "grad_norm": 0.0005274071590974927,
+      "learning_rate": 0.03224623461825669,
+      "loss": 0.2865,
+      "num_input_tokens_seen": 29212816,
+      "step": 31495
+    },
+    {
+      "epoch": 14.851485148514852,
+      "grad_norm": 0.0003955724532715976,
+      "learning_rate": 0.03220975425995937,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 29216960,
+      "step": 31500
+    },
+    {
+      "epoch": 14.853842527109855,
+      "grad_norm": 0.00026687030913308263,
+      "learning_rate": 0.032173292066398206,
+      "loss": 0.352,
+      "num_input_tokens_seen": 29221216,
+      "step": 31505
+    },
+    {
+      "epoch": 14.856199905704855,
+      "grad_norm": 0.0006674741161987185,
+      "learning_rate": 0.03213684804319606,
+      "loss": 0.2615,
+      "num_input_tokens_seen": 29226784,
+      "step": 31510
+    },
+    {
+      "epoch": 14.85855728429986,
+      "grad_norm": 0.00036489011836238205,
+      "learning_rate": 0.03210042219597312,
+      "loss": 0.2871,
+      "num_input_tokens_seen": 29230960,
+      "step": 31515
+    },
+    {
+      "epoch": 14.86091466289486,
+      "grad_norm": 0.00031571241561323404,
+      "learning_rate": 0.03206401453034675,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 29235984,
+      "step": 31520
+    },
+    {
+      "epoch": 14.863272041489862,
+      "grad_norm": 0.00043536315206438303,
+      "learning_rate": 0.03202762505193136,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 29240640,
+      "step": 31525
+    },
+    {
+      "epoch": 14.865629420084865,
+      "grad_norm": 0.0005555329262278974,
+      "learning_rate": 0.031991253766338754,
+      "loss": 0.2843,
+      "num_input_tokens_seen": 29245248,
+      "step": 31530
+    },
+    {
+      "epoch": 14.867986798679867,
+      "grad_norm": 0.00036598718725144863,
+      "learning_rate": 0.03195490067917778,
+      "loss": 0.3046,
+      "num_input_tokens_seen": 29250560,
+      "step": 31535
+    },
+    {
+      "epoch": 14.87034417727487,
+      "grad_norm": 0.00047592015471309423,
+      "learning_rate": 0.03191856579605461,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 29254656,
+      "step": 31540
+    },
+    {
+      "epoch": 14.872701555869872,
+      "grad_norm": 0.0005286636878736317,
+      "learning_rate": 0.031882249122572454,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 29259664,
+      "step": 31545
+    },
+    {
+      "epoch": 14.875058934464874,
+      "grad_norm": 0.0003683031245600432,
+      "learning_rate": 0.03184595066433188,
+      "loss": 0.283,
+      "num_input_tokens_seen": 29264000,
+      "step": 31550
+    },
+    {
+      "epoch": 14.877416313059877,
+      "grad_norm": 0.0007311611552722752,
+      "learning_rate": 0.03180967042693049,
+      "loss": 0.3915,
+      "num_input_tokens_seen": 29268352,
+      "step": 31555
+    },
+    {
+      "epoch": 14.87977369165488,
+      "grad_norm": 0.0006998065509833395,
+      "learning_rate": 0.03177340841596323,
+      "loss": 0.3898,
+      "num_input_tokens_seen": 29273008,
+      "step": 31560
+    },
+    {
+      "epoch": 14.882131070249882,
+      "grad_norm": 0.00037103769136592746,
+      "learning_rate": 0.03173716463702209,
+      "loss": 0.2913,
+      "num_input_tokens_seen": 29277248,
+      "step": 31565
+    },
+    {
+      "epoch": 14.884488448844884,
+      "grad_norm": 0.00036638512392528355,
+      "learning_rate": 0.03170093909569638,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 29281136,
+      "step": 31570
+    },
+    {
+      "epoch": 14.886845827439886,
+      "grad_norm": 0.0006662992527708411,
+      "learning_rate": 0.03166473179757246,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 29285744,
+      "step": 31575
+    },
+    {
+      "epoch": 14.889203206034889,
+      "grad_norm": 0.00038059582584537566,
+      "learning_rate": 0.031628542748234005,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 29290512,
+      "step": 31580
+    },
+    {
+      "epoch": 14.891560584629891,
+      "grad_norm": 0.000621669227257371,
+      "learning_rate": 0.03159237195326184,
+      "loss": 0.3534,
+      "num_input_tokens_seen": 29295024,
+      "step": 31585
+    },
+    {
+      "epoch": 14.893917963224894,
+      "grad_norm": 0.0004477490729186684,
+      "learning_rate": 0.031556219418233875,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 29299888,
+      "step": 31590
+    },
+    {
+      "epoch": 14.896275341819896,
+      "grad_norm": 0.0004981898819096386,
+      "learning_rate": 0.03152008514872533,
+      "loss": 0.3777,
+      "num_input_tokens_seen": 29305456,
+      "step": 31595
+    },
+    {
+      "epoch": 14.898632720414899,
+      "grad_norm": 0.0006994442665018141,
+      "learning_rate": 0.03148396915030862,
+      "loss": 0.3102,
+      "num_input_tokens_seen": 29310016,
+      "step": 31600
+    },
+    {
+      "epoch": 14.898632720414899,
+      "eval_loss": 0.3290310204029083,
+      "eval_runtime": 33.5992,
+      "eval_samples_per_second": 28.066,
+      "eval_steps_per_second": 14.048,
+      "num_input_tokens_seen": 29310016,
+      "step": 31600
+    },
+    {
+      "epoch": 14.900990099009901,
+      "grad_norm": 0.0006230090511962771,
+      "learning_rate": 0.03144787142855318,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 29314064,
+      "step": 31605
+    },
+    {
+      "epoch": 14.903347477604903,
+      "grad_norm": 0.00037296503433026373,
+      "learning_rate": 0.031411791989025835,
+      "loss": 0.308,
+      "num_input_tokens_seen": 29318624,
+      "step": 31610
+    },
+    {
+      "epoch": 14.905704856199906,
+      "grad_norm": 0.00030793569749221206,
+      "learning_rate": 0.031375730837290394,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 29322656,
+      "step": 31615
+    },
+    {
+      "epoch": 14.908062234794908,
+      "grad_norm": 0.0003271812747698277,
+      "learning_rate": 0.031339687978908015,
+      "loss": 0.315,
+      "num_input_tokens_seen": 29326864,
+      "step": 31620
+    },
+    {
+      "epoch": 14.91041961338991,
+      "grad_norm": 0.0004249255871400237,
+      "learning_rate": 0.03130366341943694,
+      "loss": 0.4197,
+      "num_input_tokens_seen": 29331568,
+      "step": 31625
+    },
+    {
+      "epoch": 14.912776991984913,
+      "grad_norm": 0.0003221374936401844,
+      "learning_rate": 0.031267657164432555,
+      "loss": 0.351,
+      "num_input_tokens_seen": 29336272,
+      "step": 31630
+    },
+    {
+      "epoch": 14.915134370579915,
+      "grad_norm": 0.00023478538787458092,
+      "learning_rate": 0.03123166921944752,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 29340576,
+      "step": 31635
+    },
+    {
+      "epoch": 14.917491749174918,
+      "grad_norm": 0.00023067972506396472,
+      "learning_rate": 0.031195699590031666,
+      "loss": 0.3175,
+      "num_input_tokens_seen": 29345216,
+      "step": 31640
+    },
+    {
+      "epoch": 14.91984912776992,
+      "grad_norm": 0.0002631301758810878,
+      "learning_rate": 0.031159748281731885,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 29350384,
+      "step": 31645
+    },
+    {
+      "epoch": 14.922206506364923,
+      "grad_norm": 0.0003970413818024099,
+      "learning_rate": 0.031123815300092394,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 29355408,
+      "step": 31650
+    },
+    {
+      "epoch": 14.924563884959925,
+      "grad_norm": 0.0003460469306446612,
+      "learning_rate": 0.031087900650654424,
+      "loss": 0.3374,
+      "num_input_tokens_seen": 29359376,
+      "step": 31655
+    },
+    {
+      "epoch": 14.926921263554927,
+      "grad_norm": 0.0004173323104623705,
+      "learning_rate": 0.031052004338956534,
+      "loss": 0.289,
+      "num_input_tokens_seen": 29364112,
+      "step": 31660
+    },
+    {
+      "epoch": 14.92927864214993,
+      "grad_norm": 0.000326344306813553,
+      "learning_rate": 0.031016126370534407,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 29368432,
+      "step": 31665
+    },
+    {
+      "epoch": 14.931636020744932,
+      "grad_norm": 0.0005239819874987006,
+      "learning_rate": 0.030980266750920804,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 29373104,
+      "step": 31670
+    },
+    {
+      "epoch": 14.933993399339935,
+      "grad_norm": 0.0006503481417894363,
+      "learning_rate": 0.030944425485645747,
+      "loss": 0.2981,
+      "num_input_tokens_seen": 29377552,
+      "step": 31675
+    },
+    {
+      "epoch": 14.936350777934937,
+      "grad_norm": 0.00048423506086692214,
+      "learning_rate": 0.03090860258023647,
+      "loss": 0.3025,
+      "num_input_tokens_seen": 29382736,
+      "step": 31680
+    },
+    {
+      "epoch": 14.93870815652994,
+      "grad_norm": 0.0007181818364188075,
+      "learning_rate": 0.030872798040217236,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 29387184,
+      "step": 31685
+    },
+    {
+      "epoch": 14.941065535124942,
+      "grad_norm": 0.0006598476902581751,
+      "learning_rate": 0.03083701187110964,
+      "loss": 0.2928,
+      "num_input_tokens_seen": 29392064,
+      "step": 31690
+    },
+    {
+      "epoch": 14.943422913719944,
+      "grad_norm": 0.00031405649497173727,
+      "learning_rate": 0.030801244078432294,
+      "loss": 0.2772,
+      "num_input_tokens_seen": 29397984,
+      "step": 31695
+    },
+    {
+      "epoch": 14.945780292314947,
+      "grad_norm": 0.0004396387084852904,
+      "learning_rate": 0.030765494667701024,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 29402384,
+      "step": 31700
+    },
+    {
+      "epoch": 14.948137670909949,
+      "grad_norm": 0.0007027082610875368,
+      "learning_rate": 0.030729763644428913,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 29407824,
+      "step": 31705
+    },
+    {
+      "epoch": 14.950495049504951,
+      "grad_norm": 0.0006968224188312888,
+      "learning_rate": 0.030694051014126048,
+      "loss": 0.3711,
+      "num_input_tokens_seen": 29412304,
+      "step": 31710
+    },
+    {
+      "epoch": 14.952852428099952,
+      "grad_norm": 0.0004074149765074253,
+      "learning_rate": 0.030658356782299792,
+      "loss": 0.3524,
+      "num_input_tokens_seen": 29416400,
+      "step": 31715
+    },
+    {
+      "epoch": 14.955209806694956,
+      "grad_norm": 0.0005090649356134236,
+      "learning_rate": 0.030622680954454726,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 29420720,
+      "step": 31720
+    },
+    {
+      "epoch": 14.957567185289957,
+      "grad_norm": 0.0005575798568315804,
+      "learning_rate": 0.030587023536092398,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 29426224,
+      "step": 31725
+    },
+    {
+      "epoch": 14.95992456388496,
+      "grad_norm": 0.000608213827945292,
+      "learning_rate": 0.03055138453271171,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 29431024,
+      "step": 31730
+    },
+    {
+      "epoch": 14.962281942479962,
+      "grad_norm": 0.0004841445479542017,
+      "learning_rate": 0.03051576394980858,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 29436192,
+      "step": 31735
+    },
+    {
+      "epoch": 14.964639321074964,
+      "grad_norm": 0.00048839021474123,
+      "learning_rate": 0.030480161792876187,
+      "loss": 0.328,
+      "num_input_tokens_seen": 29441136,
+      "step": 31740
+    },
+    {
+      "epoch": 14.966996699669966,
+      "grad_norm": 0.00035622864379547536,
+      "learning_rate": 0.030444578067404846,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 29445936,
+      "step": 31745
+    },
+    {
+      "epoch": 14.969354078264969,
+      "grad_norm": 0.000766134646255523,
+      "learning_rate": 0.030409012778881975,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 29450368,
+      "step": 31750
+    },
+    {
+      "epoch": 14.971711456859971,
+      "grad_norm": 0.0004083008971065283,
+      "learning_rate": 0.030373465932792235,
+      "loss": 0.344,
+      "num_input_tokens_seen": 29455008,
+      "step": 31755
+    },
+    {
+      "epoch": 14.974068835454974,
+      "grad_norm": 0.000268032104941085,
+      "learning_rate": 0.030337937534617342,
+      "loss": 0.374,
+      "num_input_tokens_seen": 29459952,
+      "step": 31760
+    },
+    {
+      "epoch": 14.976426214049976,
+      "grad_norm": 0.0005280517507344484,
+      "learning_rate": 0.030302427589836277,
+      "loss": 0.3664,
+      "num_input_tokens_seen": 29464128,
+      "step": 31765
+    },
+    {
+      "epoch": 14.978783592644978,
+      "grad_norm": 0.0005800609942525625,
+      "learning_rate": 0.030266936103925095,
+      "loss": 0.29,
+      "num_input_tokens_seen": 29468672,
+      "step": 31770
+    },
+    {
+      "epoch": 14.98114097123998,
+      "grad_norm": 0.0004926708643324673,
+      "learning_rate": 0.030231463082356982,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 29473440,
+      "step": 31775
+    },
+    {
+      "epoch": 14.983498349834983,
+      "grad_norm": 0.000665566127281636,
+      "learning_rate": 0.030196008530602367,
+      "loss": 0.2784,
+      "num_input_tokens_seen": 29478496,
+      "step": 31780
+    },
+    {
+      "epoch": 14.985855728429986,
+      "grad_norm": 0.00041379829053767025,
+      "learning_rate": 0.030160572454128842,
+      "loss": 0.3253,
+      "num_input_tokens_seen": 29482880,
+      "step": 31785
+    },
+    {
+      "epoch": 14.988213107024988,
+      "grad_norm": 0.0005215969285927713,
+      "learning_rate": 0.03012515485840098,
+      "loss": 0.3076,
+      "num_input_tokens_seen": 29488064,
+      "step": 31790
+    },
+    {
+      "epoch": 14.99057048561999,
+      "grad_norm": 0.0003090935933869332,
+      "learning_rate": 0.030089755748880734,
+      "loss": 0.324,
+      "num_input_tokens_seen": 29492880,
+      "step": 31795
+    },
+    {
+      "epoch": 14.992927864214993,
+      "grad_norm": 0.00043750699842348695,
+      "learning_rate": 0.030054375131027003,
+      "loss": 0.2936,
+      "num_input_tokens_seen": 29497520,
+      "step": 31800
+    },
+    {
+      "epoch": 14.992927864214993,
+      "eval_loss": 0.32855224609375,
+      "eval_runtime": 33.6165,
+      "eval_samples_per_second": 28.052,
+      "eval_steps_per_second": 14.041,
+      "num_input_tokens_seen": 29497520,
+      "step": 31800
+    },
+    {
+      "epoch": 14.995285242809995,
+      "grad_norm": 0.000276098377071321,
+      "learning_rate": 0.030019013010295942,
+      "loss": 0.3616,
+      "num_input_tokens_seen": 29502704,
+      "step": 31805
+    },
+    {
+      "epoch": 14.997642621404998,
+      "grad_norm": 0.00038980800309218466,
+      "learning_rate": 0.029983669392140897,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 29507328,
+      "step": 31810
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.0006745730061084032,
+      "learning_rate": 0.029948344282012217,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 29512128,
+      "step": 31815
+    },
+    {
+      "epoch": 15.002357378595002,
+      "grad_norm": 0.00036194626591168344,
+      "learning_rate": 0.029913037685357507,
+      "loss": 0.2953,
+      "num_input_tokens_seen": 29516704,
+      "step": 31820
+    },
+    {
+      "epoch": 15.004714757190005,
+      "grad_norm": 0.0005639872397296131,
+      "learning_rate": 0.029877749607621528,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 29522336,
+      "step": 31825
+    },
+    {
+      "epoch": 15.007072135785007,
+      "grad_norm": 0.00025904999347403646,
+      "learning_rate": 0.029842480054246077,
+      "loss": 0.2665,
+      "num_input_tokens_seen": 29526336,
+      "step": 31830
+    },
+    {
+      "epoch": 15.00942951438001,
+      "grad_norm": 0.000464476877823472,
+      "learning_rate": 0.02980722903067022,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 29530800,
+      "step": 31835
+    },
+    {
+      "epoch": 15.011786892975012,
+      "grad_norm": 0.0002982686855830252,
+      "learning_rate": 0.029771996542330113,
+      "loss": 0.3259,
+      "num_input_tokens_seen": 29535888,
+      "step": 31840
+    },
+    {
+      "epoch": 15.014144271570014,
+      "grad_norm": 0.0004325377813074738,
+      "learning_rate": 0.029736782594658954,
+      "loss": 0.2805,
+      "num_input_tokens_seen": 29540384,
+      "step": 31845
+    },
+    {
+      "epoch": 15.016501650165017,
+      "grad_norm": 0.0004439206968527287,
+      "learning_rate": 0.029701587193087284,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 29544832,
+      "step": 31850
+    },
+    {
+      "epoch": 15.01885902876002,
+      "grad_norm": 0.0005234775599092245,
+      "learning_rate": 0.0296664103430426,
+      "loss": 0.3695,
+      "num_input_tokens_seen": 29549136,
+      "step": 31855
+    },
+    {
+      "epoch": 15.021216407355022,
+      "grad_norm": 0.00036369997542351484,
+      "learning_rate": 0.029631252049949652,
+      "loss": 0.2881,
+      "num_input_tokens_seen": 29554624,
+      "step": 31860
+    },
+    {
+      "epoch": 15.023573785950024,
+      "grad_norm": 0.0003764682332985103,
+      "learning_rate": 0.02959611231923031,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 29558640,
+      "step": 31865
+    },
+    {
+      "epoch": 15.025931164545026,
+      "grad_norm": 0.0003479609149508178,
+      "learning_rate": 0.029560991156303507,
+      "loss": 0.355,
+      "num_input_tokens_seen": 29562912,
+      "step": 31870
+    },
+    {
+      "epoch": 15.028288543140029,
+      "grad_norm": 0.0007561104721389711,
+      "learning_rate": 0.02952588856658544,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 29566928,
+      "step": 31875
+    },
+    {
+      "epoch": 15.030645921735031,
+      "grad_norm": 0.0003328862658236176,
+      "learning_rate": 0.029490804555489296,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 29570976,
+      "step": 31880
+    },
+    {
+      "epoch": 15.033003300330034,
+      "grad_norm": 0.0008063252316787839,
+      "learning_rate": 0.029455739128425484,
+      "loss": 0.3778,
+      "num_input_tokens_seen": 29576640,
+      "step": 31885
+    },
+    {
+      "epoch": 15.035360678925036,
+      "grad_norm": 0.0005688311066478491,
+      "learning_rate": 0.029420692290801607,
+      "loss": 0.322,
+      "num_input_tokens_seen": 29581872,
+      "step": 31890
+    },
+    {
+      "epoch": 15.037718057520038,
+      "grad_norm": 0.000637185643427074,
+      "learning_rate": 0.02938566404802223,
+      "loss": 0.3567,
+      "num_input_tokens_seen": 29586688,
+      "step": 31895
+    },
+    {
+      "epoch": 15.04007543611504,
+      "grad_norm": 0.0004175560316070914,
+      "learning_rate": 0.029350654405489195,
+      "loss": 0.3152,
+      "num_input_tokens_seen": 29590528,
+      "step": 31900
+    },
+    {
+      "epoch": 15.042432814710043,
+      "grad_norm": 0.0009320169338025153,
+      "learning_rate": 0.02931566336860145,
+      "loss": 0.3253,
+      "num_input_tokens_seen": 29595024,
+      "step": 31905
+    },
+    {
+      "epoch": 15.044790193305046,
+      "grad_norm": 0.00039130300865508616,
+      "learning_rate": 0.02928069094275505,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 29599104,
+      "step": 31910
+    },
+    {
+      "epoch": 15.047147571900048,
+      "grad_norm": 0.0007685982272960246,
+      "learning_rate": 0.02924573713334314,
+      "loss": 0.2978,
+      "num_input_tokens_seen": 29603408,
+      "step": 31915
+    },
+    {
+      "epoch": 15.049504950495049,
+      "grad_norm": 0.0003315738867968321,
+      "learning_rate": 0.02921080194575603,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 29607344,
+      "step": 31920
+    },
+    {
+      "epoch": 15.051862329090051,
+      "grad_norm": 0.000573780620470643,
+      "learning_rate": 0.029175885385381177,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 29612048,
+      "step": 31925
+    },
+    {
+      "epoch": 15.054219707685053,
+      "grad_norm": 0.0005638638394884765,
+      "learning_rate": 0.029140987457603223,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 29616768,
+      "step": 31930
+    },
+    {
+      "epoch": 15.056577086280056,
+      "grad_norm": 0.0005692057311534882,
+      "learning_rate": 0.029106108167803763,
+      "loss": 0.3151,
+      "num_input_tokens_seen": 29621616,
+      "step": 31935
+    },
+    {
+      "epoch": 15.058934464875058,
+      "grad_norm": 0.000693658774252981,
+      "learning_rate": 0.029071247521361674,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 29626032,
+      "step": 31940
+    },
+    {
+      "epoch": 15.06129184347006,
+      "grad_norm": 0.0005788168055005372,
+      "learning_rate": 0.029036405523652945,
+      "loss": 0.2751,
+      "num_input_tokens_seen": 29630528,
+      "step": 31945
+    },
+    {
+      "epoch": 15.063649222065063,
+      "grad_norm": 0.0006146986270323396,
+      "learning_rate": 0.029001582180050577,
+      "loss": 0.3764,
+      "num_input_tokens_seen": 29635024,
+      "step": 31950
+    },
+    {
+      "epoch": 15.066006600660065,
+      "grad_norm": 0.0006194237503223121,
+      "learning_rate": 0.02896677749592482,
+      "loss": 0.4031,
+      "num_input_tokens_seen": 29639136,
+      "step": 31955
+    },
+    {
+      "epoch": 15.068363979255068,
+      "grad_norm": 0.0005199589650146663,
+      "learning_rate": 0.028931991476642938,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 29643216,
+      "step": 31960
+    },
+    {
+      "epoch": 15.07072135785007,
+      "grad_norm": 0.00038806922384537756,
+      "learning_rate": 0.028897224127569412,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 29648000,
+      "step": 31965
+    },
+    {
+      "epoch": 15.073078736445073,
+      "grad_norm": 0.000651916372589767,
+      "learning_rate": 0.028862475454065832,
+      "loss": 0.2958,
+      "num_input_tokens_seen": 29652016,
+      "step": 31970
+    },
+    {
+      "epoch": 15.075436115040075,
+      "grad_norm": 0.000680211465805769,
+      "learning_rate": 0.028827745461490806,
+      "loss": 0.3531,
+      "num_input_tokens_seen": 29656592,
+      "step": 31975
+    },
+    {
+      "epoch": 15.077793493635077,
+      "grad_norm": 0.0004120660887565464,
+      "learning_rate": 0.028793034155200212,
+      "loss": 0.3405,
+      "num_input_tokens_seen": 29661184,
+      "step": 31980
+    },
+    {
+      "epoch": 15.08015087223008,
+      "grad_norm": 0.00027265222161076963,
+      "learning_rate": 0.028758341540546944,
+      "loss": 0.3608,
+      "num_input_tokens_seen": 29665376,
+      "step": 31985
+    },
+    {
+      "epoch": 15.082508250825082,
+      "grad_norm": 0.00037708281888626516,
+      "learning_rate": 0.02872366762288098,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 29670400,
+      "step": 31990
+    },
+    {
+      "epoch": 15.084865629420085,
+      "grad_norm": 0.0003896542766597122,
+      "learning_rate": 0.028689012407549567,
+      "loss": 0.339,
+      "num_input_tokens_seen": 29675616,
+      "step": 31995
+    },
+    {
+      "epoch": 15.087223008015087,
+      "grad_norm": 0.00044306801282800734,
+      "learning_rate": 0.028654375899896892,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 29680160,
+      "step": 32000
+    },
+    {
+      "epoch": 15.087223008015087,
+      "eval_loss": 0.33012205362319946,
+      "eval_runtime": 33.5806,
+      "eval_samples_per_second": 28.082,
+      "eval_steps_per_second": 14.056,
+      "num_input_tokens_seen": 29680160,
+      "step": 32000
+    },
+    {
+      "epoch": 15.08958038661009,
+      "grad_norm": 0.000608577043749392,
+      "learning_rate": 0.02861975810526437,
+      "loss": 0.3648,
+      "num_input_tokens_seen": 29685520,
+      "step": 32005
+    },
+    {
+      "epoch": 15.091937765205092,
+      "grad_norm": 0.0004433373105712235,
+      "learning_rate": 0.02858515902899056,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 29691232,
+      "step": 32010
+    },
+    {
+      "epoch": 15.094295143800094,
+      "grad_norm": 0.0003642055089585483,
+      "learning_rate": 0.028550578676410976,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 29696160,
+      "step": 32015
+    },
+    {
+      "epoch": 15.096652522395097,
+      "grad_norm": 0.0003261342935729772,
+      "learning_rate": 0.02851601705285837,
+      "loss": 0.3201,
+      "num_input_tokens_seen": 29701088,
+      "step": 32020
+    },
+    {
+      "epoch": 15.099009900990099,
+      "grad_norm": 0.0004916202160529792,
+      "learning_rate": 0.028481474163662666,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 29704784,
+      "step": 32025
+    },
+    {
+      "epoch": 15.101367279585101,
+      "grad_norm": 0.00039583572652190924,
+      "learning_rate": 0.028446950014150683,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 29710960,
+      "step": 32030
+    },
+    {
+      "epoch": 15.103724658180104,
+      "grad_norm": 0.0006193472072482109,
+      "learning_rate": 0.028412444609646596,
+      "loss": 0.3874,
+      "num_input_tokens_seen": 29715472,
+      "step": 32035
+    },
+    {
+      "epoch": 15.106082036775106,
+      "grad_norm": 0.0004083450185135007,
+      "learning_rate": 0.028377957955471465,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 29720976,
+      "step": 32040
+    },
+    {
+      "epoch": 15.108439415370109,
+      "grad_norm": 0.00044393728603608906,
+      "learning_rate": 0.0283434900569436,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 29725136,
+      "step": 32045
+    },
+    {
+      "epoch": 15.110796793965111,
+      "grad_norm": 0.000794618739746511,
+      "learning_rate": 0.028309040919378456,
+      "loss": 0.3595,
+      "num_input_tokens_seen": 29730656,
+      "step": 32050
+    },
+    {
+      "epoch": 15.113154172560114,
+      "grad_norm": 0.0006996752345003188,
+      "learning_rate": 0.02827461054808848,
+      "loss": 0.3738,
+      "num_input_tokens_seen": 29735552,
+      "step": 32055
+    },
+    {
+      "epoch": 15.115511551155116,
+      "grad_norm": 0.0005568764172494411,
+      "learning_rate": 0.028240198948383186,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 29740528,
+      "step": 32060
+    },
+    {
+      "epoch": 15.117868929750118,
+      "grad_norm": 0.00037194311153143644,
+      "learning_rate": 0.028205806125569402,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 29745616,
+      "step": 32065
+    },
+    {
+      "epoch": 15.12022630834512,
+      "grad_norm": 0.00040713598718866706,
+      "learning_rate": 0.028171432084950834,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 29750240,
+      "step": 32070
+    },
+    {
+      "epoch": 15.122583686940123,
+      "grad_norm": 0.00031336178653873503,
+      "learning_rate": 0.028137076831828478,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 29754576,
+      "step": 32075
+    },
+    {
+      "epoch": 15.124941065535126,
+      "grad_norm": 0.0003819295088760555,
+      "learning_rate": 0.028102740371500238,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 29759456,
+      "step": 32080
+    },
+    {
+      "epoch": 15.127298444130128,
+      "grad_norm": 0.0006270320736803114,
+      "learning_rate": 0.0280684227092613,
+      "loss": 0.2828,
+      "num_input_tokens_seen": 29764496,
+      "step": 32085
+    },
+    {
+      "epoch": 15.12965582272513,
+      "grad_norm": 0.0011593832168728113,
+      "learning_rate": 0.02803412385040392,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 29770432,
+      "step": 32090
+    },
+    {
+      "epoch": 15.132013201320133,
+      "grad_norm": 0.0009502649190835655,
+      "learning_rate": 0.027999843800217306,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 29775408,
+      "step": 32095
+    },
+    {
+      "epoch": 15.134370579915135,
+      "grad_norm": 0.00033020228147506714,
+      "learning_rate": 0.027965582563987932,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 29780736,
+      "step": 32100
+    },
+    {
+      "epoch": 15.136727958510138,
+      "grad_norm": 0.0005478519597090781,
+      "learning_rate": 0.027931340146999346,
+      "loss": 0.3569,
+      "num_input_tokens_seen": 29785344,
+      "step": 32105
+    },
+    {
+      "epoch": 15.13908533710514,
+      "grad_norm": 0.0007033685687929392,
+      "learning_rate": 0.02789711655453208,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 29789120,
+      "step": 32110
+    },
+    {
+      "epoch": 15.14144271570014,
+      "grad_norm": 0.00033045242889784276,
+      "learning_rate": 0.02786291179186392,
+      "loss": 0.3374,
+      "num_input_tokens_seen": 29793568,
+      "step": 32115
+    },
+    {
+      "epoch": 15.143800094295143,
+      "grad_norm": 0.0004882120410911739,
+      "learning_rate": 0.02782872586426961,
+      "loss": 0.305,
+      "num_input_tokens_seen": 29797520,
+      "step": 32120
+    },
+    {
+      "epoch": 15.146157472890145,
+      "grad_norm": 0.000478580390335992,
+      "learning_rate": 0.027794558777021083,
+      "loss": 0.3375,
+      "num_input_tokens_seen": 29801920,
+      "step": 32125
+    },
+    {
+      "epoch": 15.148514851485148,
+      "grad_norm": 0.00032468364224769175,
+      "learning_rate": 0.02776041053538734,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 29806176,
+      "step": 32130
+    },
+    {
+      "epoch": 15.15087223008015,
+      "grad_norm": 0.0006663711974397302,
+      "learning_rate": 0.027726281144634407,
+      "loss": 0.3681,
+      "num_input_tokens_seen": 29811680,
+      "step": 32135
+    },
+    {
+      "epoch": 15.153229608675153,
+      "grad_norm": 0.0003501281316857785,
+      "learning_rate": 0.02769217061002552,
+      "loss": 0.3029,
+      "num_input_tokens_seen": 29816304,
+      "step": 32140
+    },
+    {
+      "epoch": 15.155586987270155,
+      "grad_norm": 0.00037639905349351466,
+      "learning_rate": 0.027658078936820967,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 29821136,
+      "step": 32145
+    },
+    {
+      "epoch": 15.157944365865157,
+      "grad_norm": 0.00037493626587092876,
+      "learning_rate": 0.02762400613027805,
+      "loss": 0.3263,
+      "num_input_tokens_seen": 29825200,
+      "step": 32150
+    },
+    {
+      "epoch": 15.16030174446016,
+      "grad_norm": 0.0005360812065191567,
+      "learning_rate": 0.027589952195651295,
+      "loss": 0.377,
+      "num_input_tokens_seen": 29829664,
+      "step": 32155
+    },
+    {
+      "epoch": 15.162659123055162,
+      "grad_norm": 0.0004816314030904323,
+      "learning_rate": 0.027555917138192186,
+      "loss": 0.3023,
+      "num_input_tokens_seen": 29834048,
+      "step": 32160
+    },
+    {
+      "epoch": 15.165016501650165,
+      "grad_norm": 0.00033518229611217976,
+      "learning_rate": 0.027521900963149375,
+      "loss": 0.3377,
+      "num_input_tokens_seen": 29838256,
+      "step": 32165
+    },
+    {
+      "epoch": 15.167373880245167,
+      "grad_norm": 0.00033154140692204237,
+      "learning_rate": 0.027487903675768633,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 29843264,
+      "step": 32170
+    },
+    {
+      "epoch": 15.16973125884017,
+      "grad_norm": 0.0004136276547797024,
+      "learning_rate": 0.027453925281292677,
+      "loss": 0.319,
+      "num_input_tokens_seen": 29848304,
+      "step": 32175
+    },
+    {
+      "epoch": 15.172088637435172,
+      "grad_norm": 0.000658654433209449,
+      "learning_rate": 0.027419965784961475,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 29852720,
+      "step": 32180
+    },
+    {
+      "epoch": 15.174446016030174,
+      "grad_norm": 0.0004514652246143669,
+      "learning_rate": 0.027386025192012015,
+      "loss": 0.3004,
+      "num_input_tokens_seen": 29858336,
+      "step": 32185
+    },
+    {
+      "epoch": 15.176803394625177,
+      "grad_norm": 0.0004929279675707221,
+      "learning_rate": 0.027352103507678277,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 29863296,
+      "step": 32190
+    },
+    {
+      "epoch": 15.179160773220179,
+      "grad_norm": 0.00044595569488592446,
+      "learning_rate": 0.027318200737191527,
+      "loss": 0.3743,
+      "num_input_tokens_seen": 29867440,
+      "step": 32195
+    },
+    {
+      "epoch": 15.181518151815181,
+      "grad_norm": 0.0004549497680272907,
+      "learning_rate": 0.027284316885779935,
+      "loss": 0.3111,
+      "num_input_tokens_seen": 29872080,
+      "step": 32200
+    },
+    {
+      "epoch": 15.181518151815181,
+      "eval_loss": 0.3299616575241089,
+      "eval_runtime": 33.6183,
+      "eval_samples_per_second": 28.05,
+      "eval_steps_per_second": 14.04,
+      "num_input_tokens_seen": 29872080,
+      "step": 32200
+    },
+    {
+      "epoch": 15.183875530410184,
+      "grad_norm": 0.0006703425897285342,
+      "learning_rate": 0.027250451958668785,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 29877984,
+      "step": 32205
+    },
+    {
+      "epoch": 15.186232909005186,
+      "grad_norm": 0.0006327756564132869,
+      "learning_rate": 0.027216605961080536,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 29883088,
+      "step": 32210
+    },
+    {
+      "epoch": 15.188590287600189,
+      "grad_norm": 0.0003326995938550681,
+      "learning_rate": 0.02718277889823461,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 29888208,
+      "step": 32215
+    },
+    {
+      "epoch": 15.190947666195191,
+      "grad_norm": 0.00043884405749849975,
+      "learning_rate": 0.027148970775347604,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 29893280,
+      "step": 32220
+    },
+    {
+      "epoch": 15.193305044790193,
+      "grad_norm": 0.0002851948083844036,
+      "learning_rate": 0.027115181597633174,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 29898608,
+      "step": 32225
+    },
+    {
+      "epoch": 15.195662423385196,
+      "grad_norm": 0.00040538585744798183,
+      "learning_rate": 0.027081411370301976,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 29903280,
+      "step": 32230
+    },
+    {
+      "epoch": 15.198019801980198,
+      "grad_norm": 0.00038395565934479237,
+      "learning_rate": 0.027047660098561875,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 29908784,
+      "step": 32235
+    },
+    {
+      "epoch": 15.2003771805752,
+      "grad_norm": 0.00040848299977369606,
+      "learning_rate": 0.02701392778761766,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 29913680,
+      "step": 32240
+    },
+    {
+      "epoch": 15.202734559170203,
+      "grad_norm": 0.0005686464137397707,
+      "learning_rate": 0.02698021444267133,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 29917952,
+      "step": 32245
+    },
+    {
+      "epoch": 15.205091937765205,
+      "grad_norm": 0.0004352093383204192,
+      "learning_rate": 0.026946520068921915,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 29922000,
+      "step": 32250
+    },
+    {
+      "epoch": 15.207449316360208,
+      "grad_norm": 0.0005872315960004926,
+      "learning_rate": 0.02691284467156547,
+      "loss": 0.2451,
+      "num_input_tokens_seen": 29926096,
+      "step": 32255
+    },
+    {
+      "epoch": 15.20980669495521,
+      "grad_norm": 0.0004905125824734569,
+      "learning_rate": 0.026879188255795182,
+      "loss": 0.329,
+      "num_input_tokens_seen": 29931136,
+      "step": 32260
+    },
+    {
+      "epoch": 15.212164073550213,
+      "grad_norm": 0.0006409738562069833,
+      "learning_rate": 0.026845550826801328,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 29936480,
+      "step": 32265
+    },
+    {
+      "epoch": 15.214521452145215,
+      "grad_norm": 0.00043081067269667983,
+      "learning_rate": 0.02681193238977121,
+      "loss": 0.3206,
+      "num_input_tokens_seen": 29941056,
+      "step": 32270
+    },
+    {
+      "epoch": 15.216878830740217,
+      "grad_norm": 0.0005061422707512975,
+      "learning_rate": 0.026778332949889145,
+      "loss": 0.3711,
+      "num_input_tokens_seen": 29945520,
+      "step": 32275
+    },
+    {
+      "epoch": 15.21923620933522,
+      "grad_norm": 0.0005828682333230972,
+      "learning_rate": 0.026744752512336673,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 29949984,
+      "step": 32280
+    },
+    {
+      "epoch": 15.221593587930222,
+      "grad_norm": 0.00043271941831335425,
+      "learning_rate": 0.02671119108229225,
+      "loss": 0.3094,
+      "num_input_tokens_seen": 29954416,
+      "step": 32285
+    },
+    {
+      "epoch": 15.223950966525225,
+      "grad_norm": 0.000376496376702562,
+      "learning_rate": 0.026677648664931556,
+      "loss": 0.3535,
+      "num_input_tokens_seen": 29958144,
+      "step": 32290
+    },
+    {
+      "epoch": 15.226308345120227,
+      "grad_norm": 0.0004918393678963184,
+      "learning_rate": 0.026644125265427154,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 29962816,
+      "step": 32295
+    },
+    {
+      "epoch": 15.22866572371523,
+      "grad_norm": 0.0007315535331144929,
+      "learning_rate": 0.026610620888948822,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 29966976,
+      "step": 32300
+    },
+    {
+      "epoch": 15.231023102310232,
+      "grad_norm": 0.0004638344107661396,
+      "learning_rate": 0.026577135540663408,
+      "loss": 0.338,
+      "num_input_tokens_seen": 29971888,
+      "step": 32305
+    },
+    {
+      "epoch": 15.233380480905234,
+      "grad_norm": 0.0004544735129456967,
+      "learning_rate": 0.026543669225734673,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 29976624,
+      "step": 32310
+    },
+    {
+      "epoch": 15.235737859500237,
+      "grad_norm": 0.0004701244761236012,
+      "learning_rate": 0.02651022194932363,
+      "loss": 0.317,
+      "num_input_tokens_seen": 29980960,
+      "step": 32315
+    },
+    {
+      "epoch": 15.238095238095237,
+      "grad_norm": 0.0007520345388911664,
+      "learning_rate": 0.026476793716588194,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 29985232,
+      "step": 32320
+    },
+    {
+      "epoch": 15.24045261669024,
+      "grad_norm": 0.00042334795580245554,
+      "learning_rate": 0.026443384532683467,
+      "loss": 0.3732,
+      "num_input_tokens_seen": 29989584,
+      "step": 32325
+    },
+    {
+      "epoch": 15.242809995285242,
+      "grad_norm": 0.0004955393960699439,
+      "learning_rate": 0.026409994402761584,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 29994000,
+      "step": 32330
+    },
+    {
+      "epoch": 15.245167373880244,
+      "grad_norm": 0.00035050243604928255,
+      "learning_rate": 0.026376623331971653,
+      "loss": 0.3275,
+      "num_input_tokens_seen": 29998816,
+      "step": 32335
+    },
+    {
+      "epoch": 15.247524752475247,
+      "grad_norm": 0.0007484558154828846,
+      "learning_rate": 0.026343271325459997,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 30003024,
+      "step": 32340
+    },
+    {
+      "epoch": 15.24988213107025,
+      "grad_norm": 0.0004886731621809304,
+      "learning_rate": 0.02630993838836987,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 30007936,
+      "step": 32345
+    },
+    {
+      "epoch": 15.252239509665252,
+      "grad_norm": 0.0004479371418710798,
+      "learning_rate": 0.026276624525841584,
+      "loss": 0.3765,
+      "num_input_tokens_seen": 30011472,
+      "step": 32350
+    },
+    {
+      "epoch": 15.254596888260254,
+      "grad_norm": 0.0006623365334235132,
+      "learning_rate": 0.026243329743012637,
+      "loss": 0.3647,
+      "num_input_tokens_seen": 30016512,
+      "step": 32355
+    },
+    {
+      "epoch": 15.256954266855256,
+      "grad_norm": 0.00041509661241434515,
+      "learning_rate": 0.026210054045017438,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 30021600,
+      "step": 32360
+    },
+    {
+      "epoch": 15.259311645450259,
+      "grad_norm": 0.00040568257099948823,
+      "learning_rate": 0.02617679743698755,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 30026304,
+      "step": 32365
+    },
+    {
+      "epoch": 15.261669024045261,
+      "grad_norm": 0.0006880922010168433,
+      "learning_rate": 0.02614355992405158,
+      "loss": 0.2699,
+      "num_input_tokens_seen": 30031184,
+      "step": 32370
+    },
+    {
+      "epoch": 15.264026402640264,
+      "grad_norm": 0.0009151942795142531,
+      "learning_rate": 0.026110341511335115,
+      "loss": 0.3351,
+      "num_input_tokens_seen": 30035984,
+      "step": 32375
+    },
+    {
+      "epoch": 15.266383781235266,
+      "grad_norm": 0.0008589476929046214,
+      "learning_rate": 0.02607714220396093,
+      "loss": 0.2582,
+      "num_input_tokens_seen": 30040272,
+      "step": 32380
+    },
+    {
+      "epoch": 15.268741159830268,
+      "grad_norm": 0.0007980230147950351,
+      "learning_rate": 0.02604396200704869,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 30045328,
+      "step": 32385
+    },
+    {
+      "epoch": 15.27109853842527,
+      "grad_norm": 0.00046785420272499323,
+      "learning_rate": 0.02601080092571523,
+      "loss": 0.3863,
+      "num_input_tokens_seen": 30049344,
+      "step": 32390
+    },
+    {
+      "epoch": 15.273455917020273,
+      "grad_norm": 0.0007754565449431539,
+      "learning_rate": 0.025977658965074455,
+      "loss": 0.3322,
+      "num_input_tokens_seen": 30053696,
+      "step": 32395
+    },
+    {
+      "epoch": 15.275813295615276,
+      "grad_norm": 0.0007582121761515737,
+      "learning_rate": 0.02594453613023719,
+      "loss": 0.2723,
+      "num_input_tokens_seen": 30060048,
+      "step": 32400
+    },
+    {
+      "epoch": 15.275813295615276,
+      "eval_loss": 0.3283199369907379,
+      "eval_runtime": 33.6119,
+      "eval_samples_per_second": 28.056,
+      "eval_steps_per_second": 14.043,
+      "num_input_tokens_seen": 30060048,
+      "step": 32400
+    },
+    {
+      "epoch": 15.278170674210278,
+      "grad_norm": 0.0005832607275806367,
+      "learning_rate": 0.025911432426311443,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 30065040,
+      "step": 32405
+    },
+    {
+      "epoch": 15.28052805280528,
+      "grad_norm": 0.0003811180067714304,
+      "learning_rate": 0.025878347858402234,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 30069456,
+      "step": 32410
+    },
+    {
+      "epoch": 15.282885431400283,
+      "grad_norm": 0.0008735042647458613,
+      "learning_rate": 0.025845282431611598,
+      "loss": 0.4183,
+      "num_input_tokens_seen": 30073792,
+      "step": 32415
+    },
+    {
+      "epoch": 15.285242809995285,
+      "grad_norm": 0.0006828262121416628,
+      "learning_rate": 0.025812236151038608,
+      "loss": 0.299,
+      "num_input_tokens_seen": 30078208,
+      "step": 32420
+    },
+    {
+      "epoch": 15.287600188590288,
+      "grad_norm": 0.00038589464384131134,
+      "learning_rate": 0.025779209021779468,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 30082368,
+      "step": 32425
+    },
+    {
+      "epoch": 15.28995756718529,
+      "grad_norm": 0.00036193247069604695,
+      "learning_rate": 0.025746201048927324,
+      "loss": 0.3617,
+      "num_input_tokens_seen": 30087152,
+      "step": 32430
+    },
+    {
+      "epoch": 15.292314945780292,
+      "grad_norm": 0.0005466933362185955,
+      "learning_rate": 0.025713212237572485,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 30091952,
+      "step": 32435
+    },
+    {
+      "epoch": 15.294672324375295,
+      "grad_norm": 0.0007746720220893621,
+      "learning_rate": 0.025680242592802164,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 30095792,
+      "step": 32440
+    },
+    {
+      "epoch": 15.297029702970297,
+      "grad_norm": 0.0007502194494009018,
+      "learning_rate": 0.02564729211970073,
+      "loss": 0.325,
+      "num_input_tokens_seen": 30100608,
+      "step": 32445
+    },
+    {
+      "epoch": 15.2993870815653,
+      "grad_norm": 0.0003177296312060207,
+      "learning_rate": 0.025614360823349617,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 30104272,
+      "step": 32450
+    },
+    {
+      "epoch": 15.301744460160302,
+      "grad_norm": 0.00026757814339362085,
+      "learning_rate": 0.025581448708827146,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 30108672,
+      "step": 32455
+    },
+    {
+      "epoch": 15.304101838755304,
+      "grad_norm": 0.0003423356974963099,
+      "learning_rate": 0.025548555781208876,
+      "loss": 0.3265,
+      "num_input_tokens_seen": 30113120,
+      "step": 32460
+    },
+    {
+      "epoch": 15.306459217350307,
+      "grad_norm": 0.0004423011851031333,
+      "learning_rate": 0.02551568204556721,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 30118960,
+      "step": 32465
+    },
+    {
+      "epoch": 15.30881659594531,
+      "grad_norm": 0.0002955905220005661,
+      "learning_rate": 0.02548282750697173,
+      "loss": 0.3002,
+      "num_input_tokens_seen": 30123040,
+      "step": 32470
+    },
+    {
+      "epoch": 15.311173974540312,
+      "grad_norm": 0.0006027299095876515,
+      "learning_rate": 0.02544999217048909,
+      "loss": 0.3077,
+      "num_input_tokens_seen": 30129712,
+      "step": 32475
+    },
+    {
+      "epoch": 15.313531353135314,
+      "grad_norm": 0.0007287724874913692,
+      "learning_rate": 0.025417176041182793,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 30133936,
+      "step": 32480
+    },
+    {
+      "epoch": 15.315888731730317,
+      "grad_norm": 0.00035620990092866123,
+      "learning_rate": 0.025384379124113596,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 30138224,
+      "step": 32485
+    },
+    {
+      "epoch": 15.318246110325319,
+      "grad_norm": 0.0011742959031835198,
+      "learning_rate": 0.025351601424339124,
+      "loss": 0.3605,
+      "num_input_tokens_seen": 30142784,
+      "step": 32490
+    },
+    {
+      "epoch": 15.320603488920321,
+      "grad_norm": 0.0005449304007925093,
+      "learning_rate": 0.025318842946914184,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 30147392,
+      "step": 32495
+    },
+    {
+      "epoch": 15.322960867515324,
+      "grad_norm": 0.00036136351991444826,
+      "learning_rate": 0.025286103696890494,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 30151856,
+      "step": 32500
+    },
+    {
+      "epoch": 15.325318246110326,
+      "grad_norm": 0.00037883856566622853,
+      "learning_rate": 0.025253383679316836,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 30156032,
+      "step": 32505
+    },
+    {
+      "epoch": 15.327675624705329,
+      "grad_norm": 0.00041069090366363525,
+      "learning_rate": 0.025220682899239077,
+      "loss": 0.3635,
+      "num_input_tokens_seen": 30160144,
+      "step": 32510
+    },
+    {
+      "epoch": 15.33003300330033,
+      "grad_norm": 0.0005373067688196898,
+      "learning_rate": 0.02518800136170013,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 30165296,
+      "step": 32515
+    },
+    {
+      "epoch": 15.332390381895332,
+      "grad_norm": 0.00036579291918314993,
+      "learning_rate": 0.02515533907173981,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 30169712,
+      "step": 32520
+    },
+    {
+      "epoch": 15.334747760490334,
+      "grad_norm": 0.0003637924965005368,
+      "learning_rate": 0.025122696034395115,
+      "loss": 0.343,
+      "num_input_tokens_seen": 30174496,
+      "step": 32525
+    },
+    {
+      "epoch": 15.337105139085336,
+      "grad_norm": 0.0006308589363470674,
+      "learning_rate": 0.025090072254700023,
+      "loss": 0.2957,
+      "num_input_tokens_seen": 30178720,
+      "step": 32530
+    },
+    {
+      "epoch": 15.339462517680339,
+      "grad_norm": 0.0005670670070685446,
+      "learning_rate": 0.025057467737685468,
+      "loss": 0.3719,
+      "num_input_tokens_seen": 30182736,
+      "step": 32535
+    },
+    {
+      "epoch": 15.341819896275341,
+      "grad_norm": 0.0003548745298758149,
+      "learning_rate": 0.025024882488379557,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 30188736,
+      "step": 32540
+    },
+    {
+      "epoch": 15.344177274870344,
+      "grad_norm": 0.00032821414060890675,
+      "learning_rate": 0.02499231651180727,
+      "loss": 0.3567,
+      "num_input_tokens_seen": 30193632,
+      "step": 32545
+    },
+    {
+      "epoch": 15.346534653465346,
+      "grad_norm": 0.0007098473724909127,
+      "learning_rate": 0.024959769812990713,
+      "loss": 0.3778,
+      "num_input_tokens_seen": 30198992,
+      "step": 32550
+    },
+    {
+      "epoch": 15.348892032060348,
+      "grad_norm": 0.00039461077540181577,
+      "learning_rate": 0.024927242396949045,
+      "loss": 0.3002,
+      "num_input_tokens_seen": 30202992,
+      "step": 32555
+    },
+    {
+      "epoch": 15.35124941065535,
+      "grad_norm": 0.0003386996395420283,
+      "learning_rate": 0.02489473426869836,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 30207088,
+      "step": 32560
+    },
+    {
+      "epoch": 15.353606789250353,
+      "grad_norm": 0.00035413794103078544,
+      "learning_rate": 0.024862245433251776,
+      "loss": 0.3511,
+      "num_input_tokens_seen": 30212352,
+      "step": 32565
+    },
+    {
+      "epoch": 15.355964167845356,
+      "grad_norm": 0.0006625414825975895,
+      "learning_rate": 0.024829775895619577,
+      "loss": 0.2859,
+      "num_input_tokens_seen": 30216688,
+      "step": 32570
+    },
+    {
+      "epoch": 15.358321546440358,
+      "grad_norm": 0.0006956946454010904,
+      "learning_rate": 0.024797325660808882,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 30220448,
+      "step": 32575
+    },
+    {
+      "epoch": 15.36067892503536,
+      "grad_norm": 0.00033209947287105024,
+      "learning_rate": 0.02476489473382401,
+      "loss": 0.321,
+      "num_input_tokens_seen": 30224736,
+      "step": 32580
+    },
+    {
+      "epoch": 15.363036303630363,
+      "grad_norm": 0.0005382318049669266,
+      "learning_rate": 0.024732483119666127,
+      "loss": 0.3263,
+      "num_input_tokens_seen": 30229248,
+      "step": 32585
+    },
+    {
+      "epoch": 15.365393682225365,
+      "grad_norm": 0.0004470293933991343,
+      "learning_rate": 0.024700090823333548,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 30233440,
+      "step": 32590
+    },
+    {
+      "epoch": 15.367751060820368,
+      "grad_norm": 0.00078035076148808,
+      "learning_rate": 0.02466771784982163,
+      "loss": 0.3145,
+      "num_input_tokens_seen": 30238672,
+      "step": 32595
+    },
+    {
+      "epoch": 15.37010843941537,
+      "grad_norm": 0.00030404061544686556,
+      "learning_rate": 0.024635364204122594,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 30243024,
+      "step": 32600
+    },
+    {
+      "epoch": 15.37010843941537,
+      "eval_loss": 0.32837119698524475,
+      "eval_runtime": 33.6287,
+      "eval_samples_per_second": 28.042,
+      "eval_steps_per_second": 14.036,
+      "num_input_tokens_seen": 30243024,
+      "step": 32600
+    },
+    {
+      "epoch": 15.372465818010372,
+      "grad_norm": 0.0003580627089831978,
+      "learning_rate": 0.024603029891225852,
+      "loss": 0.3715,
+      "num_input_tokens_seen": 30247328,
+      "step": 32605
+    },
+    {
+      "epoch": 15.374823196605375,
+      "grad_norm": 0.0007479478372260928,
+      "learning_rate": 0.024570714916117748,
+      "loss": 0.2701,
+      "num_input_tokens_seen": 30252560,
+      "step": 32610
+    },
+    {
+      "epoch": 15.377180575200377,
+      "grad_norm": 0.0004322715103626251,
+      "learning_rate": 0.024538419283781625,
+      "loss": 0.28,
+      "num_input_tokens_seen": 30258256,
+      "step": 32615
+    },
+    {
+      "epoch": 15.37953795379538,
+      "grad_norm": 0.00034770919592119753,
+      "learning_rate": 0.024506142999197938,
+      "loss": 0.3726,
+      "num_input_tokens_seen": 30262432,
+      "step": 32620
+    },
+    {
+      "epoch": 15.381895332390382,
+      "grad_norm": 0.000413735891925171,
+      "learning_rate": 0.024473886067344002,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 30267520,
+      "step": 32625
+    },
+    {
+      "epoch": 15.384252710985384,
+      "grad_norm": 0.0004093371389899403,
+      "learning_rate": 0.02444164849319434,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 30271568,
+      "step": 32630
+    },
+    {
+      "epoch": 15.386610089580387,
+      "grad_norm": 0.0007843797211535275,
+      "learning_rate": 0.024409430281720306,
+      "loss": 0.3884,
+      "num_input_tokens_seen": 30276672,
+      "step": 32635
+    },
+    {
+      "epoch": 15.38896746817539,
+      "grad_norm": 0.0006204337696544826,
+      "learning_rate": 0.024377231437890428,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 30282112,
+      "step": 32640
+    },
+    {
+      "epoch": 15.391324846770392,
+      "grad_norm": 0.0006902210297994316,
+      "learning_rate": 0.024345051966670115,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 30286624,
+      "step": 32645
+    },
+    {
+      "epoch": 15.393682225365394,
+      "grad_norm": 0.0006916335551068187,
+      "learning_rate": 0.024312891873021884,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 30291008,
+      "step": 32650
+    },
+    {
+      "epoch": 15.396039603960396,
+      "grad_norm": 0.00042835294152610004,
+      "learning_rate": 0.024280751161905183,
+      "loss": 0.3481,
+      "num_input_tokens_seen": 30295440,
+      "step": 32655
+    },
+    {
+      "epoch": 15.398396982555399,
+      "grad_norm": 0.0002875236968975514,
+      "learning_rate": 0.02424862983827658,
+      "loss": 0.2953,
+      "num_input_tokens_seen": 30299712,
+      "step": 32660
+    },
+    {
+      "epoch": 15.400754361150401,
+      "grad_norm": 0.0004381640173960477,
+      "learning_rate": 0.024216527907089495,
+      "loss": 0.366,
+      "num_input_tokens_seen": 30303920,
+      "step": 32665
+    },
+    {
+      "epoch": 15.403111739745404,
+      "grad_norm": 0.0007078051567077637,
+      "learning_rate": 0.024184445373294505,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 30309296,
+      "step": 32670
+    },
+    {
+      "epoch": 15.405469118340406,
+      "grad_norm": 0.0003816545649897307,
+      "learning_rate": 0.02415238224183918,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 30313648,
+      "step": 32675
+    },
+    {
+      "epoch": 15.407826496935408,
+      "grad_norm": 0.0003974537248723209,
+      "learning_rate": 0.024120338517667973,
+      "loss": 0.3203,
+      "num_input_tokens_seen": 30317952,
+      "step": 32680
+    },
+    {
+      "epoch": 15.41018387553041,
+      "grad_norm": 0.0004362946201581508,
+      "learning_rate": 0.02408831420572247,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 30322768,
+      "step": 32685
+    },
+    {
+      "epoch": 15.412541254125413,
+      "grad_norm": 0.000353471637936309,
+      "learning_rate": 0.024056309310941264,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 30327008,
+      "step": 32690
+    },
+    {
+      "epoch": 15.414898632720416,
+      "grad_norm": 0.0003346625017002225,
+      "learning_rate": 0.02402432383825982,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 30331888,
+      "step": 32695
+    },
+    {
+      "epoch": 15.417256011315418,
+      "grad_norm": 0.0006994606810621917,
+      "learning_rate": 0.023992357792610792,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 30336816,
+      "step": 32700
+    },
+    {
+      "epoch": 15.41961338991042,
+      "grad_norm": 0.00032144278520718217,
+      "learning_rate": 0.0239604111789237,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 30341424,
+      "step": 32705
+    },
+    {
+      "epoch": 15.421970768505423,
+      "grad_norm": 0.00036434034700505435,
+      "learning_rate": 0.023928484002125095,
+      "loss": 0.2897,
+      "num_input_tokens_seen": 30346000,
+      "step": 32710
+    },
+    {
+      "epoch": 15.424328147100425,
+      "grad_norm": 0.0003396531392354518,
+      "learning_rate": 0.023896576267138595,
+      "loss": 0.2927,
+      "num_input_tokens_seen": 30350048,
+      "step": 32715
+    },
+    {
+      "epoch": 15.426685525695426,
+      "grad_norm": 0.000731286418158561,
+      "learning_rate": 0.02386468797888471,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 30354496,
+      "step": 32720
+    },
+    {
+      "epoch": 15.429042904290428,
+      "grad_norm": 0.00044177041854709387,
+      "learning_rate": 0.023832819142281057,
+      "loss": 0.3549,
+      "num_input_tokens_seen": 30360048,
+      "step": 32725
+    },
+    {
+      "epoch": 15.43140028288543,
+      "grad_norm": 0.0005265027866698802,
+      "learning_rate": 0.02380096976224225,
+      "loss": 0.3819,
+      "num_input_tokens_seen": 30365248,
+      "step": 32730
+    },
+    {
+      "epoch": 15.433757661480433,
+      "grad_norm": 0.00042060099076479673,
+      "learning_rate": 0.023769139843679777,
+      "loss": 0.3294,
+      "num_input_tokens_seen": 30369008,
+      "step": 32735
+    },
+    {
+      "epoch": 15.436115040075435,
+      "grad_norm": 0.0007229304756037891,
+      "learning_rate": 0.023737329391502287,
+      "loss": 0.3133,
+      "num_input_tokens_seen": 30374240,
+      "step": 32740
+    },
+    {
+      "epoch": 15.438472418670438,
+      "grad_norm": 0.00034125594538636506,
+      "learning_rate": 0.023705538410615293,
+      "loss": 0.3866,
+      "num_input_tokens_seen": 30378656,
+      "step": 32745
+    },
+    {
+      "epoch": 15.44082979726544,
+      "grad_norm": 0.0005468291346915066,
+      "learning_rate": 0.023673766905921396,
+      "loss": 0.2815,
+      "num_input_tokens_seen": 30383680,
+      "step": 32750
+    },
+    {
+      "epoch": 15.443187175860443,
+      "grad_norm": 0.0003754253266379237,
+      "learning_rate": 0.0236420148823202,
+      "loss": 0.2859,
+      "num_input_tokens_seen": 30388256,
+      "step": 32755
+    },
+    {
+      "epoch": 15.445544554455445,
+      "grad_norm": 0.0007155304774641991,
+      "learning_rate": 0.02361028234470816,
+      "loss": 0.2682,
+      "num_input_tokens_seen": 30394192,
+      "step": 32760
+    },
+    {
+      "epoch": 15.447901933050447,
+      "grad_norm": 0.00047167183947749436,
+      "learning_rate": 0.023578569297978913,
+      "loss": 0.317,
+      "num_input_tokens_seen": 30400656,
+      "step": 32765
+    },
+    {
+      "epoch": 15.45025931164545,
+      "grad_norm": 0.0007739136344753206,
+      "learning_rate": 0.023546875747023025,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 30404768,
+      "step": 32770
+    },
+    {
+      "epoch": 15.452616690240452,
+      "grad_norm": 0.0004729519132524729,
+      "learning_rate": 0.02351520169672801,
+      "loss": 0.3061,
+      "num_input_tokens_seen": 30409360,
+      "step": 32775
+    },
+    {
+      "epoch": 15.454974068835455,
+      "grad_norm": 0.0005301343044266105,
+      "learning_rate": 0.023483547151978357,
+      "loss": 0.3554,
+      "num_input_tokens_seen": 30414032,
+      "step": 32780
+    },
+    {
+      "epoch": 15.457331447430457,
+      "grad_norm": 0.000746373028960079,
+      "learning_rate": 0.023451912117655675,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 30418576,
+      "step": 32785
+    },
+    {
+      "epoch": 15.45968882602546,
+      "grad_norm": 0.0007077804184518754,
+      "learning_rate": 0.023420296598638417,
+      "loss": 0.2634,
+      "num_input_tokens_seen": 30423824,
+      "step": 32790
+    },
+    {
+      "epoch": 15.462046204620462,
+      "grad_norm": 0.00046844888129271567,
+      "learning_rate": 0.023388700599802165,
+      "loss": 0.3694,
+      "num_input_tokens_seen": 30427984,
+      "step": 32795
+    },
+    {
+      "epoch": 15.464403583215464,
+      "grad_norm": 0.0005037678056396544,
+      "learning_rate": 0.023357124126019334,
+      "loss": 0.3462,
+      "num_input_tokens_seen": 30433968,
+      "step": 32800
+    },
+    {
+      "epoch": 15.464403583215464,
+      "eval_loss": 0.3277427554130554,
+      "eval_runtime": 33.562,
+      "eval_samples_per_second": 28.097,
+      "eval_steps_per_second": 14.064,
+      "num_input_tokens_seen": 30433968,
+      "step": 32800
+    },
+    {
+      "epoch": 15.466760961810467,
+      "grad_norm": 0.001004004618152976,
+      "learning_rate": 0.02332556718215945,
+      "loss": 0.2842,
+      "num_input_tokens_seen": 30437888,
+      "step": 32805
+    },
+    {
+      "epoch": 15.469118340405469,
+      "grad_norm": 0.0004855083243455738,
+      "learning_rate": 0.023294029773089035,
+      "loss": 0.314,
+      "num_input_tokens_seen": 30442896,
+      "step": 32810
+    },
+    {
+      "epoch": 15.471475719000471,
+      "grad_norm": 0.0007599001401104033,
+      "learning_rate": 0.023262511903671484,
+      "loss": 0.3911,
+      "num_input_tokens_seen": 30446752,
+      "step": 32815
+    },
+    {
+      "epoch": 15.473833097595474,
+      "grad_norm": 0.0004800615715794265,
+      "learning_rate": 0.023231013578767324,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 30451600,
+      "step": 32820
+    },
+    {
+      "epoch": 15.476190476190476,
+      "grad_norm": 0.00038991079782135785,
+      "learning_rate": 0.0231995348032339,
+      "loss": 0.323,
+      "num_input_tokens_seen": 30457264,
+      "step": 32825
+    },
+    {
+      "epoch": 15.478547854785479,
+      "grad_norm": 0.0010001810733228922,
+      "learning_rate": 0.023168075581925685,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 30462288,
+      "step": 32830
+    },
+    {
+      "epoch": 15.480905233380481,
+      "grad_norm": 0.0004250274214427918,
+      "learning_rate": 0.023136635919694126,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 30467472,
+      "step": 32835
+    },
+    {
+      "epoch": 15.483262611975483,
+      "grad_norm": 0.0004916167818009853,
+      "learning_rate": 0.02310521582138753,
+      "loss": 0.28,
+      "num_input_tokens_seen": 30472176,
+      "step": 32840
+    },
+    {
+      "epoch": 15.485619990570486,
+      "grad_norm": 0.0007079420611262321,
+      "learning_rate": 0.023073815291851357,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 30476208,
+      "step": 32845
+    },
+    {
+      "epoch": 15.487977369165488,
+      "grad_norm": 0.0006839123670943081,
+      "learning_rate": 0.02304243433592788,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 30480528,
+      "step": 32850
+    },
+    {
+      "epoch": 15.49033474776049,
+      "grad_norm": 0.00036704313242807984,
+      "learning_rate": 0.023011072958456513,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 30485376,
+      "step": 32855
+    },
+    {
+      "epoch": 15.492692126355493,
+      "grad_norm": 0.000430905056418851,
+      "learning_rate": 0.022979731164273536,
+      "loss": 0.3672,
+      "num_input_tokens_seen": 30489392,
+      "step": 32860
+    },
+    {
+      "epoch": 15.495049504950495,
+      "grad_norm": 0.0005352754960767925,
+      "learning_rate": 0.022948408958212218,
+      "loss": 0.352,
+      "num_input_tokens_seen": 30495104,
+      "step": 32865
+    },
+    {
+      "epoch": 15.497406883545498,
+      "grad_norm": 0.0007234168006107211,
+      "learning_rate": 0.022917106345102876,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 30499424,
+      "step": 32870
+    },
+    {
+      "epoch": 15.4997642621405,
+      "grad_norm": 0.0008243360789492726,
+      "learning_rate": 0.022885823329772785,
+      "loss": 0.2977,
+      "num_input_tokens_seen": 30504096,
+      "step": 32875
+    },
+    {
+      "epoch": 15.502121640735503,
+      "grad_norm": 0.0007794261327944696,
+      "learning_rate": 0.02285455991704612,
+      "loss": 0.3825,
+      "num_input_tokens_seen": 30509328,
+      "step": 32880
+    },
+    {
+      "epoch": 15.504479019330505,
+      "grad_norm": 0.0003252956084907055,
+      "learning_rate": 0.022823316111744117,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 30514480,
+      "step": 32885
+    },
+    {
+      "epoch": 15.506836397925507,
+      "grad_norm": 0.00039551430381834507,
+      "learning_rate": 0.022792091918685014,
+      "loss": 0.355,
+      "num_input_tokens_seen": 30518976,
+      "step": 32890
+    },
+    {
+      "epoch": 15.50919377652051,
+      "grad_norm": 0.0004719042917713523,
+      "learning_rate": 0.022760887342683906,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 30522384,
+      "step": 32895
+    },
+    {
+      "epoch": 15.511551155115512,
+      "grad_norm": 0.00038553247577510774,
+      "learning_rate": 0.022729702388552975,
+      "loss": 0.359,
+      "num_input_tokens_seen": 30526704,
+      "step": 32900
+    },
+    {
+      "epoch": 15.513908533710515,
+      "grad_norm": 0.0003763273125514388,
+      "learning_rate": 0.022698537061101292,
+      "loss": 0.2839,
+      "num_input_tokens_seen": 30531392,
+      "step": 32905
+    },
+    {
+      "epoch": 15.516265912305517,
+      "grad_norm": 0.0005824134568683803,
+      "learning_rate": 0.022667391365134962,
+      "loss": 0.2733,
+      "num_input_tokens_seen": 30535824,
+      "step": 32910
+    },
+    {
+      "epoch": 15.518623290900518,
+      "grad_norm": 0.0006434484967030585,
+      "learning_rate": 0.022636265305457065,
+      "loss": 0.3165,
+      "num_input_tokens_seen": 30540880,
+      "step": 32915
+    },
+    {
+      "epoch": 15.520980669495522,
+      "grad_norm": 0.00043700155219994485,
+      "learning_rate": 0.02260515888686764,
+      "loss": 0.3518,
+      "num_input_tokens_seen": 30544832,
+      "step": 32920
+    },
+    {
+      "epoch": 15.523338048090523,
+      "grad_norm": 0.0004101592639926821,
+      "learning_rate": 0.022574072114163596,
+      "loss": 0.3345,
+      "num_input_tokens_seen": 30549344,
+      "step": 32925
+    },
+    {
+      "epoch": 15.525695426685525,
+      "grad_norm": 0.00034073583083227277,
+      "learning_rate": 0.022543004992139005,
+      "loss": 0.3314,
+      "num_input_tokens_seen": 30553632,
+      "step": 32930
+    },
+    {
+      "epoch": 15.528052805280527,
+      "grad_norm": 0.0004137613286729902,
+      "learning_rate": 0.022511957525584745,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 30557568,
+      "step": 32935
+    },
+    {
+      "epoch": 15.53041018387553,
+      "grad_norm": 0.0006385990418493748,
+      "learning_rate": 0.022480929719288778,
+      "loss": 0.3191,
+      "num_input_tokens_seen": 30562800,
+      "step": 32940
+    },
+    {
+      "epoch": 15.532767562470532,
+      "grad_norm": 0.0003619134076870978,
+      "learning_rate": 0.02244992157803592,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 30567504,
+      "step": 32945
+    },
+    {
+      "epoch": 15.535124941065535,
+      "grad_norm": 0.0005572701920755208,
+      "learning_rate": 0.022418933106608047,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 30572896,
+      "step": 32950
+    },
+    {
+      "epoch": 15.537482319660537,
+      "grad_norm": 0.00029076190548948944,
+      "learning_rate": 0.022387964309784018,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 30576928,
+      "step": 32955
+    },
+    {
+      "epoch": 15.53983969825554,
+      "grad_norm": 0.0006694859475828707,
+      "learning_rate": 0.022357015192339517,
+      "loss": 0.2877,
+      "num_input_tokens_seen": 30581360,
+      "step": 32960
+    },
+    {
+      "epoch": 15.542197076850542,
+      "grad_norm": 0.0006241063820198178,
+      "learning_rate": 0.02232608575904734,
+      "loss": 0.2985,
+      "num_input_tokens_seen": 30585552,
+      "step": 32965
+    },
+    {
+      "epoch": 15.544554455445544,
+      "grad_norm": 0.0007895382004790008,
+      "learning_rate": 0.022295176014677225,
+      "loss": 0.3739,
+      "num_input_tokens_seen": 30590544,
+      "step": 32970
+    },
+    {
+      "epoch": 15.546911834040547,
+      "grad_norm": 0.00032080718665383756,
+      "learning_rate": 0.02226428596399577,
+      "loss": 0.2972,
+      "num_input_tokens_seen": 30595072,
+      "step": 32975
+    },
+    {
+      "epoch": 15.549269212635549,
+      "grad_norm": 0.0009646593825891614,
+      "learning_rate": 0.02223341561176669,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 30599696,
+      "step": 32980
+    },
+    {
+      "epoch": 15.551626591230551,
+      "grad_norm": 0.0006262758979573846,
+      "learning_rate": 0.0222025649627505,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 30603456,
+      "step": 32985
+    },
+    {
+      "epoch": 15.553983969825554,
+      "grad_norm": 0.000631277565844357,
+      "learning_rate": 0.022171734021704814,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 30608208,
+      "step": 32990
+    },
+    {
+      "epoch": 15.556341348420556,
+      "grad_norm": 0.00042335278703831136,
+      "learning_rate": 0.022140922793384116,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 30612576,
+      "step": 32995
+    },
+    {
+      "epoch": 15.558698727015559,
+      "grad_norm": 0.0005872598267160356,
+      "learning_rate": 0.022110131282539934,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 30617936,
+      "step": 33000
+    },
+    {
+      "epoch": 15.558698727015559,
+      "eval_loss": 0.327452689409256,
+      "eval_runtime": 33.5959,
+      "eval_samples_per_second": 28.069,
+      "eval_steps_per_second": 14.049,
+      "num_input_tokens_seen": 30617936,
+      "step": 33000
+    },
+    {
+      "epoch": 15.561056105610561,
+      "grad_norm": 0.0004082014784216881,
+      "learning_rate": 0.022079359493920675,
+      "loss": 0.353,
+      "num_input_tokens_seen": 30622432,
+      "step": 33005
+    },
+    {
+      "epoch": 15.563413484205563,
+      "grad_norm": 0.00043353100772947073,
+      "learning_rate": 0.02204860743227169,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 30626720,
+      "step": 33010
+    },
+    {
+      "epoch": 15.565770862800566,
+      "grad_norm": 0.00019980069191660732,
+      "learning_rate": 0.022017875102335365,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 30631072,
+      "step": 33015
+    },
+    {
+      "epoch": 15.568128241395568,
+      "grad_norm": 0.0007099597132764757,
+      "learning_rate": 0.02198716250885108,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 30636144,
+      "step": 33020
+    },
+    {
+      "epoch": 15.57048561999057,
+      "grad_norm": 0.0004038933548144996,
+      "learning_rate": 0.021956469656555,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 30640432,
+      "step": 33025
+    },
+    {
+      "epoch": 15.572842998585573,
+      "grad_norm": 0.0007617791416123509,
+      "learning_rate": 0.0219257965501804,
+      "loss": 0.336,
+      "num_input_tokens_seen": 30645472,
+      "step": 33030
+    },
+    {
+      "epoch": 15.575200377180575,
+      "grad_norm": 0.00043422746239230037,
+      "learning_rate": 0.021895143194457494,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 30650016,
+      "step": 33035
+    },
+    {
+      "epoch": 15.577557755775578,
+      "grad_norm": 0.0007009777473285794,
+      "learning_rate": 0.021864509594113322,
+      "loss": 0.2869,
+      "num_input_tokens_seen": 30654848,
+      "step": 33040
+    },
+    {
+      "epoch": 15.57991513437058,
+      "grad_norm": 0.0005915124784223735,
+      "learning_rate": 0.02183389575387207,
+      "loss": 0.2641,
+      "num_input_tokens_seen": 30658624,
+      "step": 33045
+    },
+    {
+      "epoch": 15.582272512965583,
+      "grad_norm": 0.00031912376289255917,
+      "learning_rate": 0.021803301678454682,
+      "loss": 0.3504,
+      "num_input_tokens_seen": 30662864,
+      "step": 33050
+    },
+    {
+      "epoch": 15.584629891560585,
+      "grad_norm": 0.00031858833972364664,
+      "learning_rate": 0.021772727372579213,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 30667232,
+      "step": 33055
+    },
+    {
+      "epoch": 15.586987270155587,
+      "grad_norm": 0.000306461937725544,
+      "learning_rate": 0.02174217284096061,
+      "loss": 0.2757,
+      "num_input_tokens_seen": 30672144,
+      "step": 33060
+    },
+    {
+      "epoch": 15.58934464875059,
+      "grad_norm": 0.0003862383309751749,
+      "learning_rate": 0.0217116380883107,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 30676384,
+      "step": 33065
+    },
+    {
+      "epoch": 15.591702027345592,
+      "grad_norm": 0.00031651253812015057,
+      "learning_rate": 0.021681123119338425,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 30681952,
+      "step": 33070
+    },
+    {
+      "epoch": 15.594059405940595,
+      "grad_norm": 0.0003743584966287017,
+      "learning_rate": 0.02165062793874951,
+      "loss": 0.2765,
+      "num_input_tokens_seen": 30686016,
+      "step": 33075
+    },
+    {
+      "epoch": 15.596416784535597,
+      "grad_norm": 0.0006762359407730401,
+      "learning_rate": 0.021620152551246666,
+      "loss": 0.2705,
+      "num_input_tokens_seen": 30691584,
+      "step": 33080
+    },
+    {
+      "epoch": 15.5987741631306,
+      "grad_norm": 0.00043206900591030717,
+      "learning_rate": 0.02158969696152967,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 30696032,
+      "step": 33085
+    },
+    {
+      "epoch": 15.601131541725602,
+      "grad_norm": 0.00036286236718297005,
+      "learning_rate": 0.021559261174295057,
+      "loss": 0.354,
+      "num_input_tokens_seen": 30701200,
+      "step": 33090
+    },
+    {
+      "epoch": 15.603488920320604,
+      "grad_norm": 0.0011997390538454056,
+      "learning_rate": 0.02152884519423646,
+      "loss": 0.3581,
+      "num_input_tokens_seen": 30705952,
+      "step": 33095
+    },
+    {
+      "epoch": 15.605846298915607,
+      "grad_norm": 0.0006804878357797861,
+      "learning_rate": 0.021498449026044447,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 30709824,
+      "step": 33100
+    },
+    {
+      "epoch": 15.608203677510609,
+      "grad_norm": 0.0006385156884789467,
+      "learning_rate": 0.021468072674406414,
+      "loss": 0.2963,
+      "num_input_tokens_seen": 30714640,
+      "step": 33105
+    },
+    {
+      "epoch": 15.61056105610561,
+      "grad_norm": 0.0005166949704289436,
+      "learning_rate": 0.021437716144006795,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 30719136,
+      "step": 33110
+    },
+    {
+      "epoch": 15.612918434700614,
+      "grad_norm": 0.00041828161920420825,
+      "learning_rate": 0.021407379439527002,
+      "loss": 0.2956,
+      "num_input_tokens_seen": 30723808,
+      "step": 33115
+    },
+    {
+      "epoch": 15.615275813295614,
+      "grad_norm": 0.0003904783516190946,
+      "learning_rate": 0.021377062565645255,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 30728576,
+      "step": 33120
+    },
+    {
+      "epoch": 15.617633191890617,
+      "grad_norm": 0.00045083541772328317,
+      "learning_rate": 0.02134676552703688,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 30733360,
+      "step": 33125
+    },
+    {
+      "epoch": 15.61999057048562,
+      "grad_norm": 0.0005271293339319527,
+      "learning_rate": 0.02131648832837398,
+      "loss": 0.2999,
+      "num_input_tokens_seen": 30738192,
+      "step": 33130
+    },
+    {
+      "epoch": 15.622347949080622,
+      "grad_norm": 0.0005283799255266786,
+      "learning_rate": 0.02128623097432574,
+      "loss": 0.3873,
+      "num_input_tokens_seen": 30742896,
+      "step": 33135
+    },
+    {
+      "epoch": 15.624705327675624,
+      "grad_norm": 0.0006744364509359002,
+      "learning_rate": 0.021255993469558192,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 30748288,
+      "step": 33140
+    },
+    {
+      "epoch": 15.627062706270626,
+      "grad_norm": 0.0004437514871824533,
+      "learning_rate": 0.021225775818734364,
+      "loss": 0.3893,
+      "num_input_tokens_seen": 30752336,
+      "step": 33145
+    },
+    {
+      "epoch": 15.629420084865629,
+      "grad_norm": 0.0004310224612709135,
+      "learning_rate": 0.021195578026514166,
+      "loss": 0.333,
+      "num_input_tokens_seen": 30757136,
+      "step": 33150
+    },
+    {
+      "epoch": 15.631777463460631,
+      "grad_norm": 0.0007156385690905154,
+      "learning_rate": 0.02116540009755452,
+      "loss": 0.3704,
+      "num_input_tokens_seen": 30762528,
+      "step": 33155
+    },
+    {
+      "epoch": 15.634134842055634,
+      "grad_norm": 0.0007093058084137738,
+      "learning_rate": 0.021135242036509173,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 30766672,
+      "step": 33160
+    },
+    {
+      "epoch": 15.636492220650636,
+      "grad_norm": 0.000576993334107101,
+      "learning_rate": 0.021105103848028967,
+      "loss": 0.2827,
+      "num_input_tokens_seen": 30771280,
+      "step": 33165
+    },
+    {
+      "epoch": 15.638849599245638,
+      "grad_norm": 0.00035421448410488665,
+      "learning_rate": 0.021074985536761504,
+      "loss": 0.3265,
+      "num_input_tokens_seen": 30777136,
+      "step": 33170
+    },
+    {
+      "epoch": 15.64120697784064,
+      "grad_norm": 0.0007070651045069098,
+      "learning_rate": 0.021044887107351435,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 30782176,
+      "step": 33175
+    },
+    {
+      "epoch": 15.643564356435643,
+      "grad_norm": 0.0005919262184761465,
+      "learning_rate": 0.021014808564440362,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 30785952,
+      "step": 33180
+    },
+    {
+      "epoch": 15.645921735030646,
+      "grad_norm": 0.0006826972239650786,
+      "learning_rate": 0.02098474991266671,
+      "loss": 0.2209,
+      "num_input_tokens_seen": 30790144,
+      "step": 33185
+    },
+    {
+      "epoch": 15.648279113625648,
+      "grad_norm": 0.0005910946056246758,
+      "learning_rate": 0.02095471115666592,
+      "loss": 0.32,
+      "num_input_tokens_seen": 30794624,
+      "step": 33190
+    },
+    {
+      "epoch": 15.65063649222065,
+      "grad_norm": 0.0007651221239939332,
+      "learning_rate": 0.020924692301070406,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 30799344,
+      "step": 33195
+    },
+    {
+      "epoch": 15.652993870815653,
+      "grad_norm": 0.00046252450556494296,
+      "learning_rate": 0.020894693350509346,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 30802960,
+      "step": 33200
+    },
+    {
+      "epoch": 15.652993870815653,
+      "eval_loss": 0.32780811190605164,
+      "eval_runtime": 33.6006,
+      "eval_samples_per_second": 28.065,
+      "eval_steps_per_second": 14.047,
+      "num_input_tokens_seen": 30802960,
+      "step": 33200
+    },
+    {
+      "epoch": 15.655351249410655,
+      "grad_norm": 0.0004080692015122622,
+      "learning_rate": 0.020864714309609057,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 30807808,
+      "step": 33205
+    },
+    {
+      "epoch": 15.657708628005658,
+      "grad_norm": 0.0003470881492830813,
+      "learning_rate": 0.020834755182992604,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 30812256,
+      "step": 33210
+    },
+    {
+      "epoch": 15.66006600660066,
+      "grad_norm": 0.0006807553581893444,
+      "learning_rate": 0.02080481597528011,
+      "loss": 0.3294,
+      "num_input_tokens_seen": 30816848,
+      "step": 33215
+    },
+    {
+      "epoch": 15.662423385195662,
+      "grad_norm": 0.00043352702050469816,
+      "learning_rate": 0.020774896691088583,
+      "loss": 0.3805,
+      "num_input_tokens_seen": 30820640,
+      "step": 33220
+    },
+    {
+      "epoch": 15.664780763790665,
+      "grad_norm": 0.0007304451428353786,
+      "learning_rate": 0.020744997335031882,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 30824896,
+      "step": 33225
+    },
+    {
+      "epoch": 15.667138142385667,
+      "grad_norm": 0.00039901482523418963,
+      "learning_rate": 0.02071511791172092,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 30829232,
+      "step": 33230
+    },
+    {
+      "epoch": 15.66949552098067,
+      "grad_norm": 0.0004548398428596556,
+      "learning_rate": 0.02068525842576351,
+      "loss": 0.294,
+      "num_input_tokens_seen": 30833376,
+      "step": 33235
+    },
+    {
+      "epoch": 15.671852899575672,
+      "grad_norm": 0.0005491920164786279,
+      "learning_rate": 0.020655418881764264,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 30838144,
+      "step": 33240
+    },
+    {
+      "epoch": 15.674210278170674,
+      "grad_norm": 0.00042444924474693835,
+      "learning_rate": 0.020625599284324923,
+      "loss": 0.2827,
+      "num_input_tokens_seen": 30843168,
+      "step": 33245
+    },
+    {
+      "epoch": 15.676567656765677,
+      "grad_norm": 0.0004387583758216351,
+      "learning_rate": 0.02059579963804396,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 30847920,
+      "step": 33250
+    },
+    {
+      "epoch": 15.67892503536068,
+      "grad_norm": 0.0004698677221313119,
+      "learning_rate": 0.02056601994751688,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 30852288,
+      "step": 33255
+    },
+    {
+      "epoch": 15.681282413955682,
+      "grad_norm": 0.0003687960561364889,
+      "learning_rate": 0.02053626021733614,
+      "loss": 0.3773,
+      "num_input_tokens_seen": 30857200,
+      "step": 33260
+    },
+    {
+      "epoch": 15.683639792550684,
+      "grad_norm": 0.0003020632721018046,
+      "learning_rate": 0.02050652045209097,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 30861968,
+      "step": 33265
+    },
+    {
+      "epoch": 15.685997171145686,
+      "grad_norm": 0.0004701094003394246,
+      "learning_rate": 0.020476800656367672,
+      "loss": 0.3148,
+      "num_input_tokens_seen": 30866704,
+      "step": 33270
+    },
+    {
+      "epoch": 15.688354549740689,
+      "grad_norm": 0.0003991206467617303,
+      "learning_rate": 0.020447100834749425,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 30872544,
+      "step": 33275
+    },
+    {
+      "epoch": 15.690711928335691,
+      "grad_norm": 0.0005603719037026167,
+      "learning_rate": 0.02041742099181627,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 30877456,
+      "step": 33280
+    },
+    {
+      "epoch": 15.693069306930694,
+      "grad_norm": 0.0006825228338129818,
+      "learning_rate": 0.02038776113214526,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 30881776,
+      "step": 33285
+    },
+    {
+      "epoch": 15.695426685525696,
+      "grad_norm": 0.0004576971987262368,
+      "learning_rate": 0.0203581212603103,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 30886240,
+      "step": 33290
+    },
+    {
+      "epoch": 15.697784064120698,
+      "grad_norm": 0.0003284422855358571,
+      "learning_rate": 0.02032850138088219,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 30890864,
+      "step": 33295
+    },
+    {
+      "epoch": 15.700141442715701,
+      "grad_norm": 0.00035029457649216056,
+      "learning_rate": 0.020298901498428754,
+      "loss": 0.2962,
+      "num_input_tokens_seen": 30895280,
+      "step": 33300
+    },
+    {
+      "epoch": 15.702498821310703,
+      "grad_norm": 0.0004443722718860954,
+      "learning_rate": 0.020269321617514595,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 30899760,
+      "step": 33305
+    },
+    {
+      "epoch": 15.704856199905706,
+      "grad_norm": 0.0004667563771363348,
+      "learning_rate": 0.020239761742701343,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 30905776,
+      "step": 33310
+    },
+    {
+      "epoch": 15.707213578500706,
+      "grad_norm": 0.00041259045246988535,
+      "learning_rate": 0.02021022187854754,
+      "loss": 0.3092,
+      "num_input_tokens_seen": 30909856,
+      "step": 33315
+    },
+    {
+      "epoch": 15.70957095709571,
+      "grad_norm": 0.0006295304046943784,
+      "learning_rate": 0.020180702029608522,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 30913776,
+      "step": 33320
+    },
+    {
+      "epoch": 15.711928335690711,
+      "grad_norm": 0.00035589508479461074,
+      "learning_rate": 0.020151202200436695,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 30918512,
+      "step": 33325
+    },
+    {
+      "epoch": 15.714285714285714,
+      "grad_norm": 0.00041931032319553196,
+      "learning_rate": 0.020121722395581226,
+      "loss": 0.2805,
+      "num_input_tokens_seen": 30922704,
+      "step": 33330
+    },
+    {
+      "epoch": 15.716643092880716,
+      "grad_norm": 0.0004842323251068592,
+      "learning_rate": 0.020092262619588342,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 30927712,
+      "step": 33335
+    },
+    {
+      "epoch": 15.719000471475718,
+      "grad_norm": 0.0005153768579475582,
+      "learning_rate": 0.02006282287700109,
+      "loss": 0.38,
+      "num_input_tokens_seen": 30932256,
+      "step": 33340
+    },
+    {
+      "epoch": 15.72135785007072,
+      "grad_norm": 0.00039258759352378547,
+      "learning_rate": 0.020033403172359427,
+      "loss": 0.2807,
+      "num_input_tokens_seen": 30936176,
+      "step": 33345
+    },
+    {
+      "epoch": 15.723715228665723,
+      "grad_norm": 0.00045518597471527755,
+      "learning_rate": 0.020004003510200284,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 30940288,
+      "step": 33350
+    },
+    {
+      "epoch": 15.726072607260726,
+      "grad_norm": 0.00032621173886582255,
+      "learning_rate": 0.019974623895057407,
+      "loss": 0.3129,
+      "num_input_tokens_seen": 30944592,
+      "step": 33355
+    },
+    {
+      "epoch": 15.728429985855728,
+      "grad_norm": 0.0006674633477814496,
+      "learning_rate": 0.019945264331461553,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 30949280,
+      "step": 33360
+    },
+    {
+      "epoch": 15.73078736445073,
+      "grad_norm": 0.00043251554598100483,
+      "learning_rate": 0.019915924823940317,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 30954544,
+      "step": 33365
+    },
+    {
+      "epoch": 15.733144743045733,
+      "grad_norm": 0.0003872145898640156,
+      "learning_rate": 0.01988660537701816,
+      "loss": 0.3921,
+      "num_input_tokens_seen": 30958544,
+      "step": 33370
+    },
+    {
+      "epoch": 15.735502121640735,
+      "grad_norm": 0.00040430008084513247,
+      "learning_rate": 0.01985730599521659,
+      "loss": 0.298,
+      "num_input_tokens_seen": 30963328,
+      "step": 33375
+    },
+    {
+      "epoch": 15.737859500235738,
+      "grad_norm": 0.0008203816832974553,
+      "learning_rate": 0.019828026683053918,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 30967568,
+      "step": 33380
+    },
+    {
+      "epoch": 15.74021687883074,
+      "grad_norm": 0.0006435273680835962,
+      "learning_rate": 0.01979876744504535,
+      "loss": 0.3381,
+      "num_input_tokens_seen": 30972032,
+      "step": 33385
+    },
+    {
+      "epoch": 15.742574257425742,
+      "grad_norm": 0.0005522130522876978,
+      "learning_rate": 0.019769528285703046,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 30976512,
+      "step": 33390
+    },
+    {
+      "epoch": 15.744931636020745,
+      "grad_norm": 0.00032331745023839176,
+      "learning_rate": 0.019740309209536098,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 30980992,
+      "step": 33395
+    },
+    {
+      "epoch": 15.747289014615747,
+      "grad_norm": 0.0012305863201618195,
+      "learning_rate": 0.019711110221050387,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 30985296,
+      "step": 33400
+    },
+    {
+      "epoch": 15.747289014615747,
+      "eval_loss": 0.32818132638931274,
+      "eval_runtime": 33.6172,
+      "eval_samples_per_second": 28.051,
+      "eval_steps_per_second": 14.04,
+      "num_input_tokens_seen": 30985296,
+      "step": 33400
+    },
+    {
+      "epoch": 15.74964639321075,
+      "grad_norm": 0.0008710618712939322,
+      "learning_rate": 0.019681931324748825,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 30989616,
+      "step": 33405
+    },
+    {
+      "epoch": 15.752003771805752,
+      "grad_norm": 0.00042508391197770834,
+      "learning_rate": 0.019652772525131094,
+      "loss": 0.3764,
+      "num_input_tokens_seen": 30995088,
+      "step": 33410
+    },
+    {
+      "epoch": 15.754361150400754,
+      "grad_norm": 0.00034478685120120645,
+      "learning_rate": 0.019623633826693885,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 30999344,
+      "step": 33415
+    },
+    {
+      "epoch": 15.756718528995757,
+      "grad_norm": 0.0005291500128805637,
+      "learning_rate": 0.019594515233930788,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 31003760,
+      "step": 33420
+    },
+    {
+      "epoch": 15.75907590759076,
+      "grad_norm": 0.0007460209890268743,
+      "learning_rate": 0.019565416751332186,
+      "loss": 0.3494,
+      "num_input_tokens_seen": 31008480,
+      "step": 33425
+    },
+    {
+      "epoch": 15.761433286185762,
+      "grad_norm": 0.00044230042840354145,
+      "learning_rate": 0.019536338383385497,
+      "loss": 0.341,
+      "num_input_tokens_seen": 31012944,
+      "step": 33430
+    },
+    {
+      "epoch": 15.763790664780764,
+      "grad_norm": 0.00044843819341622293,
+      "learning_rate": 0.019507280134574933,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 31017248,
+      "step": 33435
+    },
+    {
+      "epoch": 15.766148043375766,
+      "grad_norm": 0.0008524394943378866,
+      "learning_rate": 0.019478242009381624,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 31022080,
+      "step": 33440
+    },
+    {
+      "epoch": 15.768505421970769,
+      "grad_norm": 0.0004708028573077172,
+      "learning_rate": 0.01944922401228367,
+      "loss": 0.3845,
+      "num_input_tokens_seen": 31026992,
+      "step": 33445
+    },
+    {
+      "epoch": 15.770862800565771,
+      "grad_norm": 0.0005995078245177865,
+      "learning_rate": 0.01942022614775593,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 31031904,
+      "step": 33450
+    },
+    {
+      "epoch": 15.773220179160774,
+      "grad_norm": 0.0007886210805736482,
+      "learning_rate": 0.01939124842027029,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 31036848,
+      "step": 33455
+    },
+    {
+      "epoch": 15.775577557755776,
+      "grad_norm": 0.0005369536811485887,
+      "learning_rate": 0.01936229083429551,
+      "loss": 0.327,
+      "num_input_tokens_seen": 31040832,
+      "step": 33460
+    },
+    {
+      "epoch": 15.777934936350778,
+      "grad_norm": 0.0004263973969500512,
+      "learning_rate": 0.019333353394297148,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 31045008,
+      "step": 33465
+    },
+    {
+      "epoch": 15.78029231494578,
+      "grad_norm": 0.00042008559103123844,
+      "learning_rate": 0.019304436104737754,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 31049712,
+      "step": 33470
+    },
+    {
+      "epoch": 15.782649693540783,
+      "grad_norm": 0.0005900487885810435,
+      "learning_rate": 0.019275538970076778,
+      "loss": 0.3026,
+      "num_input_tokens_seen": 31054304,
+      "step": 33475
+    },
+    {
+      "epoch": 15.785007072135786,
+      "grad_norm": 0.00042925094021484256,
+      "learning_rate": 0.019246661994770434,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 31058448,
+      "step": 33480
+    },
+    {
+      "epoch": 15.787364450730788,
+      "grad_norm": 0.0004434723814483732,
+      "learning_rate": 0.019217805183271985,
+      "loss": 0.3012,
+      "num_input_tokens_seen": 31062592,
+      "step": 33485
+    },
+    {
+      "epoch": 15.78972182932579,
+      "grad_norm": 0.0008998471894301474,
+      "learning_rate": 0.019188968540031465,
+      "loss": 0.3633,
+      "num_input_tokens_seen": 31066784,
+      "step": 33490
+    },
+    {
+      "epoch": 15.792079207920793,
+      "grad_norm": 0.0003267787687946111,
+      "learning_rate": 0.019160152069495867,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 31071680,
+      "step": 33495
+    },
+    {
+      "epoch": 15.794436586515795,
+      "grad_norm": 0.0003283492987975478,
+      "learning_rate": 0.019131355776109103,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 31076736,
+      "step": 33500
+    },
+    {
+      "epoch": 15.796793965110798,
+      "grad_norm": 0.00030042757862247527,
+      "learning_rate": 0.019102579664311857,
+      "loss": 0.3338,
+      "num_input_tokens_seen": 31081584,
+      "step": 33505
+    },
+    {
+      "epoch": 15.799151343705798,
+      "grad_norm": 0.00030736392363905907,
+      "learning_rate": 0.019073823738541763,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 31086656,
+      "step": 33510
+    },
+    {
+      "epoch": 15.801508722300802,
+      "grad_norm": 0.00038639912963844836,
+      "learning_rate": 0.0190450880032334,
+      "loss": 0.31,
+      "num_input_tokens_seen": 31090800,
+      "step": 33515
+    },
+    {
+      "epoch": 15.803866100895803,
+      "grad_norm": 0.0003711711033247411,
+      "learning_rate": 0.019016372462818114,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 31095488,
+      "step": 33520
+    },
+    {
+      "epoch": 15.806223479490805,
+      "grad_norm": 0.00035208938061259687,
+      "learning_rate": 0.018987677121724278,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 31100032,
+      "step": 33525
+    },
+    {
+      "epoch": 15.808580858085808,
+      "grad_norm": 0.0004923030501231551,
+      "learning_rate": 0.018959001984377,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 31104672,
+      "step": 33530
+    },
+    {
+      "epoch": 15.81093823668081,
+      "grad_norm": 0.0008158098789863288,
+      "learning_rate": 0.018930347055198377,
+      "loss": 0.3027,
+      "num_input_tokens_seen": 31108640,
+      "step": 33535
+    },
+    {
+      "epoch": 15.813295615275813,
+      "grad_norm": 0.00035235934774391353,
+      "learning_rate": 0.01890171233860739,
+      "loss": 0.3561,
+      "num_input_tokens_seen": 31112928,
+      "step": 33540
+    },
+    {
+      "epoch": 15.815652993870815,
+      "grad_norm": 0.0012184085790067911,
+      "learning_rate": 0.018873097839019807,
+      "loss": 0.418,
+      "num_input_tokens_seen": 31117712,
+      "step": 33545
+    },
+    {
+      "epoch": 15.818010372465817,
+      "grad_norm": 0.0006097351433709264,
+      "learning_rate": 0.0188445035608484,
+      "loss": 0.316,
+      "num_input_tokens_seen": 31122384,
+      "step": 33550
+    },
+    {
+      "epoch": 15.82036775106082,
+      "grad_norm": 0.0007776801940053701,
+      "learning_rate": 0.018815929508502777,
+      "loss": 0.2732,
+      "num_input_tokens_seen": 31126480,
+      "step": 33555
+    },
+    {
+      "epoch": 15.822725129655822,
+      "grad_norm": 0.0004996860516257584,
+      "learning_rate": 0.01878737568638934,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 31131472,
+      "step": 33560
+    },
+    {
+      "epoch": 15.825082508250825,
+      "grad_norm": 0.0011353730224072933,
+      "learning_rate": 0.01875884209891152,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 31136304,
+      "step": 33565
+    },
+    {
+      "epoch": 15.827439886845827,
+      "grad_norm": 0.0004919528146274388,
+      "learning_rate": 0.018730328750469514,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 31140304,
+      "step": 33570
+    },
+    {
+      "epoch": 15.82979726544083,
+      "grad_norm": 0.0003959363093599677,
+      "learning_rate": 0.018701835645460473,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 31144592,
+      "step": 33575
+    },
+    {
+      "epoch": 15.832154644035832,
+      "grad_norm": 0.00038672139635309577,
+      "learning_rate": 0.01867336278827838,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 31149328,
+      "step": 33580
+    },
+    {
+      "epoch": 15.834512022630834,
+      "grad_norm": 0.00042210810352116823,
+      "learning_rate": 0.018644910183314056,
+      "loss": 0.3232,
+      "num_input_tokens_seen": 31154464,
+      "step": 33585
+    },
+    {
+      "epoch": 15.836869401225837,
+      "grad_norm": 0.0010688776383176446,
+      "learning_rate": 0.01861647783495531,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 31159440,
+      "step": 33590
+    },
+    {
+      "epoch": 15.839226779820839,
+      "grad_norm": 0.0004339402075856924,
+      "learning_rate": 0.01858806574758676,
+      "loss": 0.2635,
+      "num_input_tokens_seen": 31164016,
+      "step": 33595
+    },
+    {
+      "epoch": 15.841584158415841,
+      "grad_norm": 0.0004437043680809438,
+      "learning_rate": 0.01855967392558988,
+      "loss": 0.3195,
+      "num_input_tokens_seen": 31168496,
+      "step": 33600
+    },
+    {
+      "epoch": 15.841584158415841,
+      "eval_loss": 0.3279247581958771,
+      "eval_runtime": 33.5512,
+      "eval_samples_per_second": 28.106,
+      "eval_steps_per_second": 14.068,
+      "num_input_tokens_seen": 31168496,
+      "step": 33600
+    },
+    {
+      "epoch": 15.843941537010844,
+      "grad_norm": 0.0004097944765817374,
+      "learning_rate": 0.018531302373343096,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 31173008,
+      "step": 33605
+    },
+    {
+      "epoch": 15.846298915605846,
+      "grad_norm": 0.0003869070496875793,
+      "learning_rate": 0.018502951095221588,
+      "loss": 0.3621,
+      "num_input_tokens_seen": 31177840,
+      "step": 33610
+    },
+    {
+      "epoch": 15.848656294200849,
+      "grad_norm": 0.0005906961159780622,
+      "learning_rate": 0.01847462009559751,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 31181632,
+      "step": 33615
+    },
+    {
+      "epoch": 15.851013672795851,
+      "grad_norm": 0.0009677757625468075,
+      "learning_rate": 0.01844630937883992,
+      "loss": 0.3552,
+      "num_input_tokens_seen": 31186112,
+      "step": 33620
+    },
+    {
+      "epoch": 15.853371051390853,
+      "grad_norm": 0.0006610217387787998,
+      "learning_rate": 0.018418018949314573,
+      "loss": 0.2541,
+      "num_input_tokens_seen": 31190640,
+      "step": 33625
+    },
+    {
+      "epoch": 15.855728429985856,
+      "grad_norm": 0.0005060358089394867,
+      "learning_rate": 0.018389748811384315,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 31195440,
+      "step": 33630
+    },
+    {
+      "epoch": 15.858085808580858,
+      "grad_norm": 0.0006182573270052671,
+      "learning_rate": 0.018361498969408658,
+      "loss": 0.3123,
+      "num_input_tokens_seen": 31199392,
+      "step": 33635
+    },
+    {
+      "epoch": 15.86044318717586,
+      "grad_norm": 0.0005927632446400821,
+      "learning_rate": 0.01833326942774415,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 31204192,
+      "step": 33640
+    },
+    {
+      "epoch": 15.862800565770863,
+      "grad_norm": 0.0004617150407284498,
+      "learning_rate": 0.018305060190744155,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 31209296,
+      "step": 33645
+    },
+    {
+      "epoch": 15.865157944365865,
+      "grad_norm": 0.00041606774902902544,
+      "learning_rate": 0.018276871262758846,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 31214128,
+      "step": 33650
+    },
+    {
+      "epoch": 15.867515322960868,
+      "grad_norm": 0.00036608168738894165,
+      "learning_rate": 0.0182487026481353,
+      "loss": 0.333,
+      "num_input_tokens_seen": 31218640,
+      "step": 33655
+    },
+    {
+      "epoch": 15.86987270155587,
+      "grad_norm": 0.0004937222693115473,
+      "learning_rate": 0.018220554351217538,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 31223024,
+      "step": 33660
+    },
+    {
+      "epoch": 15.872230080150873,
+      "grad_norm": 0.0002506572927813977,
+      "learning_rate": 0.01819242637634629,
+      "loss": 0.2547,
+      "num_input_tokens_seen": 31227280,
+      "step": 33665
+    },
+    {
+      "epoch": 15.874587458745875,
+      "grad_norm": 0.000512219441588968,
+      "learning_rate": 0.01816431872785933,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 31232432,
+      "step": 33670
+    },
+    {
+      "epoch": 15.876944837340877,
+      "grad_norm": 0.00047336460556834936,
+      "learning_rate": 0.018136231410091148,
+      "loss": 0.318,
+      "num_input_tokens_seen": 31237920,
+      "step": 33675
+    },
+    {
+      "epoch": 15.87930221593588,
+      "grad_norm": 0.00045276631135493517,
+      "learning_rate": 0.018108164427373175,
+      "loss": 0.363,
+      "num_input_tokens_seen": 31242128,
+      "step": 33680
+    },
+    {
+      "epoch": 15.881659594530882,
+      "grad_norm": 0.00037755901576019824,
+      "learning_rate": 0.01808011778403375,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 31246608,
+      "step": 33685
+    },
+    {
+      "epoch": 15.884016973125885,
+      "grad_norm": 0.00039940793067216873,
+      "learning_rate": 0.01805209148439793,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 31250576,
+      "step": 33690
+    },
+    {
+      "epoch": 15.886374351720887,
+      "grad_norm": 0.00038992977351881564,
+      "learning_rate": 0.018024085532787757,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 31254720,
+      "step": 33695
+    },
+    {
+      "epoch": 15.88873173031589,
+      "grad_norm": 0.0003164772060699761,
+      "learning_rate": 0.017996099933522164,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 31259440,
+      "step": 33700
+    },
+    {
+      "epoch": 15.891089108910892,
+      "grad_norm": 0.0008105701999738812,
+      "learning_rate": 0.017968134690916775,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 31263760,
+      "step": 33705
+    },
+    {
+      "epoch": 15.893446487505894,
+      "grad_norm": 0.0004062772204633802,
+      "learning_rate": 0.017940189809284263,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 31268336,
+      "step": 33710
+    },
+    {
+      "epoch": 15.895803866100895,
+      "grad_norm": 0.0004074864846188575,
+      "learning_rate": 0.017912265292934024,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 31272080,
+      "step": 33715
+    },
+    {
+      "epoch": 15.898161244695899,
+      "grad_norm": 0.0006872713565826416,
+      "learning_rate": 0.017884361146172423,
+      "loss": 0.3117,
+      "num_input_tokens_seen": 31276176,
+      "step": 33720
+    },
+    {
+      "epoch": 15.9005186232909,
+      "grad_norm": 0.000587820599321276,
+      "learning_rate": 0.01785647737330261,
+      "loss": 0.2649,
+      "num_input_tokens_seen": 31281552,
+      "step": 33725
+    },
+    {
+      "epoch": 15.902876001885902,
+      "grad_norm": 0.0008187867351807654,
+      "learning_rate": 0.017828613978624563,
+      "loss": 0.2823,
+      "num_input_tokens_seen": 31286480,
+      "step": 33730
+    },
+    {
+      "epoch": 15.905233380480905,
+      "grad_norm": 0.0008168452768586576,
+      "learning_rate": 0.01780077096643523,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 31291376,
+      "step": 33735
+    },
+    {
+      "epoch": 15.907590759075907,
+      "grad_norm": 0.0008816595654934645,
+      "learning_rate": 0.017772948341028345,
+      "loss": 0.2828,
+      "num_input_tokens_seen": 31295584,
+      "step": 33740
+    },
+    {
+      "epoch": 15.90994813767091,
+      "grad_norm": 0.0005290674162097275,
+      "learning_rate": 0.01774514610669447,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 31301216,
+      "step": 33745
+    },
+    {
+      "epoch": 15.912305516265912,
+      "grad_norm": 0.00037446949863806367,
+      "learning_rate": 0.017717364267721112,
+      "loss": 0.3146,
+      "num_input_tokens_seen": 31305248,
+      "step": 33750
+    },
+    {
+      "epoch": 15.914662894860914,
+      "grad_norm": 0.0007524921093136072,
+      "learning_rate": 0.017689602828392513,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 31310160,
+      "step": 33755
+    },
+    {
+      "epoch": 15.917020273455917,
+      "grad_norm": 0.000562355387955904,
+      "learning_rate": 0.017661861792989897,
+      "loss": 0.3668,
+      "num_input_tokens_seen": 31314720,
+      "step": 33760
+    },
+    {
+      "epoch": 15.919377652050919,
+      "grad_norm": 0.0003761699190363288,
+      "learning_rate": 0.017634141165791272,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 31318544,
+      "step": 33765
+    },
+    {
+      "epoch": 15.921735030645921,
+      "grad_norm": 0.0003742923145182431,
+      "learning_rate": 0.017606440951071455,
+      "loss": 0.4079,
+      "num_input_tokens_seen": 31322192,
+      "step": 33770
+    },
+    {
+      "epoch": 15.924092409240924,
+      "grad_norm": 0.000342585175530985,
+      "learning_rate": 0.017578761153102213,
+      "loss": 0.3149,
+      "num_input_tokens_seen": 31326848,
+      "step": 33775
+    },
+    {
+      "epoch": 15.926449787835926,
+      "grad_norm": 0.0008004582487046719,
+      "learning_rate": 0.017551101776152146,
+      "loss": 0.3175,
+      "num_input_tokens_seen": 31333408,
+      "step": 33780
+    },
+    {
+      "epoch": 15.928807166430929,
+      "grad_norm": 0.0006622243672609329,
+      "learning_rate": 0.017523462824486608,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 31337952,
+      "step": 33785
+    },
+    {
+      "epoch": 15.931164545025931,
+      "grad_norm": 0.00040976604213938117,
+      "learning_rate": 0.01749584430236794,
+      "loss": 0.3541,
+      "num_input_tokens_seen": 31341936,
+      "step": 33790
+    },
+    {
+      "epoch": 15.933521923620933,
+      "grad_norm": 0.0008156113908626139,
+      "learning_rate": 0.01746824621405524,
+      "loss": 0.3503,
+      "num_input_tokens_seen": 31346560,
+      "step": 33795
+    },
+    {
+      "epoch": 15.935879302215936,
+      "grad_norm": 0.0004452950961422175,
+      "learning_rate": 0.017440668563804412,
+      "loss": 0.2936,
+      "num_input_tokens_seen": 31350688,
+      "step": 33800
+    },
+    {
+      "epoch": 15.935879302215936,
+      "eval_loss": 0.32945001125335693,
+      "eval_runtime": 33.5882,
+      "eval_samples_per_second": 28.075,
+      "eval_steps_per_second": 14.053,
+      "num_input_tokens_seen": 31350688,
+      "step": 33800
+    },
+    {
+      "epoch": 15.938236680810938,
+      "grad_norm": 0.0009354575886391103,
+      "learning_rate": 0.017413111355868392,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 31356096,
+      "step": 33805
+    },
+    {
+      "epoch": 15.94059405940594,
+      "grad_norm": 0.0006538925808854401,
+      "learning_rate": 0.017385574594496748,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 31360736,
+      "step": 33810
+    },
+    {
+      "epoch": 15.942951438000943,
+      "grad_norm": 0.000847086135763675,
+      "learning_rate": 0.01735805828393605,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 31364912,
+      "step": 33815
+    },
+    {
+      "epoch": 15.945308816595945,
+      "grad_norm": 0.00038711208617314696,
+      "learning_rate": 0.017330562428429667,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 31369984,
+      "step": 33820
+    },
+    {
+      "epoch": 15.947666195190948,
+      "grad_norm": 0.000358381774276495,
+      "learning_rate": 0.01730308703221776,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 31374224,
+      "step": 33825
+    },
+    {
+      "epoch": 15.95002357378595,
+      "grad_norm": 0.0006354165379889309,
+      "learning_rate": 0.01727563209953744,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 31378576,
+      "step": 33830
+    },
+    {
+      "epoch": 15.952380952380953,
+      "grad_norm": 0.0004681196005549282,
+      "learning_rate": 0.017248197634622535,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 31383264,
+      "step": 33835
+    },
+    {
+      "epoch": 15.954738330975955,
+      "grad_norm": 0.00039749793359078467,
+      "learning_rate": 0.01722078364170383,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 31387568,
+      "step": 33840
+    },
+    {
+      "epoch": 15.957095709570957,
+      "grad_norm": 0.00035853171721100807,
+      "learning_rate": 0.017193390125008905,
+      "loss": 0.3498,
+      "num_input_tokens_seen": 31392048,
+      "step": 33845
+    },
+    {
+      "epoch": 15.95945308816596,
+      "grad_norm": 0.002504005329683423,
+      "learning_rate": 0.017166017088762153,
+      "loss": 0.2716,
+      "num_input_tokens_seen": 31396416,
+      "step": 33850
+    },
+    {
+      "epoch": 15.961810466760962,
+      "grad_norm": 0.0006947719375602901,
+      "learning_rate": 0.017138664537184878,
+      "loss": 0.314,
+      "num_input_tokens_seen": 31400272,
+      "step": 33855
+    },
+    {
+      "epoch": 15.964167845355965,
+      "grad_norm": 0.0003909727674908936,
+      "learning_rate": 0.017111332474495172,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 31404592,
+      "step": 33860
+    },
+    {
+      "epoch": 15.966525223950967,
+      "grad_norm": 0.0005883662379346788,
+      "learning_rate": 0.017084020904907998,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 31408944,
+      "step": 33865
+    },
+    {
+      "epoch": 15.96888260254597,
+      "grad_norm": 0.0004488220438361168,
+      "learning_rate": 0.017056729832635103,
+      "loss": 0.3738,
+      "num_input_tokens_seen": 31413088,
+      "step": 33870
+    },
+    {
+      "epoch": 15.971239981140972,
+      "grad_norm": 0.0004372922412585467,
+      "learning_rate": 0.017029459261885153,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 31417392,
+      "step": 33875
+    },
+    {
+      "epoch": 15.973597359735974,
+      "grad_norm": 0.0008893727790564299,
+      "learning_rate": 0.01700220919686359,
+      "loss": 0.3544,
+      "num_input_tokens_seen": 31421568,
+      "step": 33880
+    },
+    {
+      "epoch": 15.975954738330977,
+      "grad_norm": 0.0007033371366560459,
+      "learning_rate": 0.016974979641772723,
+      "loss": 0.3038,
+      "num_input_tokens_seen": 31426000,
+      "step": 33885
+    },
+    {
+      "epoch": 15.978312116925979,
+      "grad_norm": 0.0008849400328472257,
+      "learning_rate": 0.01694777060081169,
+      "loss": 0.3713,
+      "num_input_tokens_seen": 31429856,
+      "step": 33890
+    },
+    {
+      "epoch": 15.980669495520981,
+      "grad_norm": 0.00030917220283299685,
+      "learning_rate": 0.016920582078176444,
+      "loss": 0.2616,
+      "num_input_tokens_seen": 31434240,
+      "step": 33895
+    },
+    {
+      "epoch": 15.983026874115984,
+      "grad_norm": 0.0002987864427268505,
+      "learning_rate": 0.016893414078059863,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 31439344,
+      "step": 33900
+    },
+    {
+      "epoch": 15.985384252710986,
+      "grad_norm": 0.0008257075096480548,
+      "learning_rate": 0.016866266604651535,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 31443808,
+      "step": 33905
+    },
+    {
+      "epoch": 15.987741631305987,
+      "grad_norm": 0.0008059485116973519,
+      "learning_rate": 0.016839139662137976,
+      "loss": 0.3826,
+      "num_input_tokens_seen": 31447856,
+      "step": 33910
+    },
+    {
+      "epoch": 15.990099009900991,
+      "grad_norm": 0.0003223853709641844,
+      "learning_rate": 0.01681203325470245,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 31452688,
+      "step": 33915
+    },
+    {
+      "epoch": 15.992456388495992,
+      "grad_norm": 0.0005772243021056056,
+      "learning_rate": 0.016784947386525157,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 31458112,
+      "step": 33920
+    },
+    {
+      "epoch": 15.994813767090994,
+      "grad_norm": 0.0005977475666441023,
+      "learning_rate": 0.01675788206178308,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 31462720,
+      "step": 33925
+    },
+    {
+      "epoch": 15.997171145685996,
+      "grad_norm": 0.0011008511064574122,
+      "learning_rate": 0.016730837284649986,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 31468176,
+      "step": 33930
+    },
+    {
+      "epoch": 15.999528524280999,
+      "grad_norm": 0.0005584790487773716,
+      "learning_rate": 0.016703813059296583,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 31471552,
+      "step": 33935
+    },
+    {
+      "epoch": 16.001885902876,
+      "grad_norm": 0.0003393731312826276,
+      "learning_rate": 0.016676809389890294,
+      "loss": 0.309,
+      "num_input_tokens_seen": 31476608,
+      "step": 33940
+    },
+    {
+      "epoch": 16.004243281471005,
+      "grad_norm": 0.0004013076249975711,
+      "learning_rate": 0.016649826280595435,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 31480848,
+      "step": 33945
+    },
+    {
+      "epoch": 16.006600660066006,
+      "grad_norm": 0.00038361200131475925,
+      "learning_rate": 0.016622863735573163,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 31484240,
+      "step": 33950
+    },
+    {
+      "epoch": 16.00895803866101,
+      "grad_norm": 0.0014638210413977504,
+      "learning_rate": 0.016595921758981395,
+      "loss": 0.3052,
+      "num_input_tokens_seen": 31488464,
+      "step": 33955
+    },
+    {
+      "epoch": 16.01131541725601,
+      "grad_norm": 0.00032164627918973565,
+      "learning_rate": 0.01656900035497495,
+      "loss": 0.2788,
+      "num_input_tokens_seen": 31493568,
+      "step": 33960
+    },
+    {
+      "epoch": 16.013672795851015,
+      "grad_norm": 0.0007499471539631486,
+      "learning_rate": 0.016542099527705485,
+      "loss": 0.2677,
+      "num_input_tokens_seen": 31497872,
+      "step": 33965
+    },
+    {
+      "epoch": 16.016030174446016,
+      "grad_norm": 0.0005057429079897702,
+      "learning_rate": 0.01651521928132138,
+      "loss": 0.3328,
+      "num_input_tokens_seen": 31503216,
+      "step": 33970
+    },
+    {
+      "epoch": 16.01838755304102,
+      "grad_norm": 0.0010580953676253557,
+      "learning_rate": 0.01648835961996794,
+      "loss": 0.4089,
+      "num_input_tokens_seen": 31507088,
+      "step": 33975
+    },
+    {
+      "epoch": 16.02074493163602,
+      "grad_norm": 0.0004183452401775867,
+      "learning_rate": 0.016461520547787285,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 31512336,
+      "step": 33980
+    },
+    {
+      "epoch": 16.023102310231025,
+      "grad_norm": 0.00035043456591665745,
+      "learning_rate": 0.016434702068918266,
+      "loss": 0.2848,
+      "num_input_tokens_seen": 31517248,
+      "step": 33985
+    },
+    {
+      "epoch": 16.025459688826025,
+      "grad_norm": 0.00039483801811002195,
+      "learning_rate": 0.01640790418749673,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 31521680,
+      "step": 33990
+    },
+    {
+      "epoch": 16.02781706742103,
+      "grad_norm": 0.0009646805701777339,
+      "learning_rate": 0.016381126907655134,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 31526400,
+      "step": 33995
+    },
+    {
+      "epoch": 16.03017444601603,
+      "grad_norm": 0.00048188059008680284,
+      "learning_rate": 0.016354370233522948,
+      "loss": 0.316,
+      "num_input_tokens_seen": 31530704,
+      "step": 34000
+    },
+    {
+      "epoch": 16.03017444601603,
+      "eval_loss": 0.32878145575523376,
+      "eval_runtime": 33.6401,
+      "eval_samples_per_second": 28.032,
+      "eval_steps_per_second": 14.031,
+      "num_input_tokens_seen": 31530704,
+      "step": 34000
+    },
+    {
+      "epoch": 16.032531824611034,
+      "grad_norm": 0.00041105347918346524,
+      "learning_rate": 0.016327634169226394,
+      "loss": 0.274,
+      "num_input_tokens_seen": 31535744,
+      "step": 34005
+    },
+    {
+      "epoch": 16.034889203206035,
+      "grad_norm": 0.0007276590913534164,
+      "learning_rate": 0.016300918718888485,
+      "loss": 0.2881,
+      "num_input_tokens_seen": 31540384,
+      "step": 34010
+    },
+    {
+      "epoch": 16.03724658180104,
+      "grad_norm": 0.0004885486559942365,
+      "learning_rate": 0.016274223886629052,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 31545008,
+      "step": 34015
+    },
+    {
+      "epoch": 16.03960396039604,
+      "grad_norm": 0.0004418363678269088,
+      "learning_rate": 0.01624754967656482,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 31549712,
+      "step": 34020
+    },
+    {
+      "epoch": 16.04196133899104,
+      "grad_norm": 0.00038764788769185543,
+      "learning_rate": 0.016220896092809235,
+      "loss": 0.3697,
+      "num_input_tokens_seen": 31555600,
+      "step": 34025
+    },
+    {
+      "epoch": 16.044318717586044,
+      "grad_norm": 0.0007015657611191273,
+      "learning_rate": 0.01619426313947267,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 31559408,
+      "step": 34030
+    },
+    {
+      "epoch": 16.046676096181045,
+      "grad_norm": 0.0007083748350851238,
+      "learning_rate": 0.016167650820662228,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 31563456,
+      "step": 34035
+    },
+    {
+      "epoch": 16.04903347477605,
+      "grad_norm": 0.0004985578707419336,
+      "learning_rate": 0.016141059140481855,
+      "loss": 0.343,
+      "num_input_tokens_seen": 31569360,
+      "step": 34040
+    },
+    {
+      "epoch": 16.05139085337105,
+      "grad_norm": 0.00042165612103417516,
+      "learning_rate": 0.016114488103032374,
+      "loss": 0.3657,
+      "num_input_tokens_seen": 31574112,
+      "step": 34045
+    },
+    {
+      "epoch": 16.053748231966054,
+      "grad_norm": 0.00039614809793420136,
+      "learning_rate": 0.016087937712411293,
+      "loss": 0.2893,
+      "num_input_tokens_seen": 31578448,
+      "step": 34050
+    },
+    {
+      "epoch": 16.056105610561055,
+      "grad_norm": 0.0006706884014420211,
+      "learning_rate": 0.01606140797271308,
+      "loss": 0.3124,
+      "num_input_tokens_seen": 31582944,
+      "step": 34055
+    },
+    {
+      "epoch": 16.05846298915606,
+      "grad_norm": 0.00028065830701962113,
+      "learning_rate": 0.01603489888802897,
+      "loss": 0.369,
+      "num_input_tokens_seen": 31587408,
+      "step": 34060
+    },
+    {
+      "epoch": 16.06082036775106,
+      "grad_norm": 0.0004588975862134248,
+      "learning_rate": 0.016008410462446918,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 31592544,
+      "step": 34065
+    },
+    {
+      "epoch": 16.063177746346064,
+      "grad_norm": 0.0005978790577501059,
+      "learning_rate": 0.01598194270005185,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 31597040,
+      "step": 34070
+    },
+    {
+      "epoch": 16.065535124941064,
+      "grad_norm": 0.0006471085944212973,
+      "learning_rate": 0.015955495604925356,
+      "loss": 0.2666,
+      "num_input_tokens_seen": 31601872,
+      "step": 34075
+    },
+    {
+      "epoch": 16.06789250353607,
+      "grad_norm": 0.0006999156321398914,
+      "learning_rate": 0.01592906918114598,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 31606768,
+      "step": 34080
+    },
+    {
+      "epoch": 16.07024988213107,
+      "grad_norm": 0.0002812937891576439,
+      "learning_rate": 0.015902663432788965,
+      "loss": 0.2932,
+      "num_input_tokens_seen": 31612832,
+      "step": 34085
+    },
+    {
+      "epoch": 16.072607260726073,
+      "grad_norm": 0.00043435030966065824,
+      "learning_rate": 0.01587627836392643,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 31617376,
+      "step": 34090
+    },
+    {
+      "epoch": 16.074964639321074,
+      "grad_norm": 0.00038371316622942686,
+      "learning_rate": 0.01584991397862726,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 31621696,
+      "step": 34095
+    },
+    {
+      "epoch": 16.077322017916078,
+      "grad_norm": 0.0007905584643594921,
+      "learning_rate": 0.015823570280957214,
+      "loss": 0.3877,
+      "num_input_tokens_seen": 31626480,
+      "step": 34100
+    },
+    {
+      "epoch": 16.07967939651108,
+      "grad_norm": 0.0006738044903613627,
+      "learning_rate": 0.015797247274978766,
+      "loss": 0.2844,
+      "num_input_tokens_seen": 31631696,
+      "step": 34105
+    },
+    {
+      "epoch": 16.082036775106083,
+      "grad_norm": 0.0003760589752346277,
+      "learning_rate": 0.015770944964751326,
+      "loss": 0.306,
+      "num_input_tokens_seen": 31635728,
+      "step": 34110
+    },
+    {
+      "epoch": 16.084394153701083,
+      "grad_norm": 0.001182520529255271,
+      "learning_rate": 0.015744663354330956,
+      "loss": 0.4478,
+      "num_input_tokens_seen": 31640784,
+      "step": 34115
+    },
+    {
+      "epoch": 16.086751532296088,
+      "grad_norm": 0.0007149814628064632,
+      "learning_rate": 0.015718402447770664,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 31645104,
+      "step": 34120
+    },
+    {
+      "epoch": 16.08910891089109,
+      "grad_norm": 0.0003534462593961507,
+      "learning_rate": 0.015692162249120224,
+      "loss": 0.3011,
+      "num_input_tokens_seen": 31649792,
+      "step": 34125
+    },
+    {
+      "epoch": 16.091466289486092,
+      "grad_norm": 0.0003910461673513055,
+      "learning_rate": 0.01566594276242615,
+      "loss": 0.2947,
+      "num_input_tokens_seen": 31654720,
+      "step": 34130
+    },
+    {
+      "epoch": 16.093823668081093,
+      "grad_norm": 0.0004934448515996337,
+      "learning_rate": 0.015639743991731857,
+      "loss": 0.2873,
+      "num_input_tokens_seen": 31659568,
+      "step": 34135
+    },
+    {
+      "epoch": 16.096181046676097,
+      "grad_norm": 0.00033343344694003463,
+      "learning_rate": 0.01561356594107755,
+      "loss": 0.2914,
+      "num_input_tokens_seen": 31664224,
+      "step": 34140
+    },
+    {
+      "epoch": 16.098538425271098,
+      "grad_norm": 0.00040278935921378434,
+      "learning_rate": 0.015587408614500147,
+      "loss": 0.3719,
+      "num_input_tokens_seen": 31668304,
+      "step": 34145
+    },
+    {
+      "epoch": 16.100895803866102,
+      "grad_norm": 0.0011099465191364288,
+      "learning_rate": 0.015561272016033505,
+      "loss": 0.4201,
+      "num_input_tokens_seen": 31674208,
+      "step": 34150
+    },
+    {
+      "epoch": 16.103253182461103,
+      "grad_norm": 0.00036366822314448655,
+      "learning_rate": 0.015535156149708167,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 31678432,
+      "step": 34155
+    },
+    {
+      "epoch": 16.105610561056107,
+      "grad_norm": 0.0002728329855017364,
+      "learning_rate": 0.015509061019551528,
+      "loss": 0.2746,
+      "num_input_tokens_seen": 31683104,
+      "step": 34160
+    },
+    {
+      "epoch": 16.107967939651108,
+      "grad_norm": 0.0004071516450494528,
+      "learning_rate": 0.015482986629587818,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 31687504,
+      "step": 34165
+    },
+    {
+      "epoch": 16.11032531824611,
+      "grad_norm": 0.00038251897785812616,
+      "learning_rate": 0.01545693298383799,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 31692288,
+      "step": 34170
+    },
+    {
+      "epoch": 16.112682696841112,
+      "grad_norm": 0.0004277781117707491,
+      "learning_rate": 0.015430900086319858,
+      "loss": 0.3648,
+      "num_input_tokens_seen": 31696544,
+      "step": 34175
+    },
+    {
+      "epoch": 16.115040075436116,
+      "grad_norm": 0.00035736674908548594,
+      "learning_rate": 0.015404887941048084,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 31701680,
+      "step": 34180
+    },
+    {
+      "epoch": 16.117397454031117,
+      "grad_norm": 0.0003616262983996421,
+      "learning_rate": 0.01537889655203397,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 31706448,
+      "step": 34185
+    },
+    {
+      "epoch": 16.11975483262612,
+      "grad_norm": 0.0006138815078884363,
+      "learning_rate": 0.015352925923285798,
+      "loss": 0.2759,
+      "num_input_tokens_seen": 31710224,
+      "step": 34190
+    },
+    {
+      "epoch": 16.122112211221122,
+      "grad_norm": 0.0009238662896677852,
+      "learning_rate": 0.015326976058808511,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 31714304,
+      "step": 34195
+    },
+    {
+      "epoch": 16.124469589816126,
+      "grad_norm": 0.0006378216785378754,
+      "learning_rate": 0.015301046962603908,
+      "loss": 0.3678,
+      "num_input_tokens_seen": 31718960,
+      "step": 34200
+    },
+    {
+      "epoch": 16.124469589816126,
+      "eval_loss": 0.32892906665802,
+      "eval_runtime": 33.6161,
+      "eval_samples_per_second": 28.052,
+      "eval_steps_per_second": 14.041,
+      "num_input_tokens_seen": 31718960,
+      "step": 34200
+    },
+    {
+      "epoch": 16.126826968411127,
+      "grad_norm": 0.0006927189533598721,
+      "learning_rate": 0.015275138638670626,
+      "loss": 0.3793,
+      "num_input_tokens_seen": 31724400,
+      "step": 34205
+    },
+    {
+      "epoch": 16.12918434700613,
+      "grad_norm": 0.0005220616585575044,
+      "learning_rate": 0.015249251091004001,
+      "loss": 0.329,
+      "num_input_tokens_seen": 31728304,
+      "step": 34210
+    },
+    {
+      "epoch": 16.13154172560113,
+      "grad_norm": 0.0003486397035885602,
+      "learning_rate": 0.01522338432359624,
+      "loss": 0.344,
+      "num_input_tokens_seen": 31732368,
+      "step": 34215
+    },
+    {
+      "epoch": 16.133899104196132,
+      "grad_norm": 0.0003959150053560734,
+      "learning_rate": 0.01519753834043635,
+      "loss": 0.326,
+      "num_input_tokens_seen": 31736160,
+      "step": 34220
+    },
+    {
+      "epoch": 16.136256482791136,
+      "grad_norm": 0.0006609058473259211,
+      "learning_rate": 0.015171713145510095,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 31742624,
+      "step": 34225
+    },
+    {
+      "epoch": 16.138613861386137,
+      "grad_norm": 0.00033581434399820864,
+      "learning_rate": 0.01514590874279999,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 31747360,
+      "step": 34230
+    },
+    {
+      "epoch": 16.14097123998114,
+      "grad_norm": 0.00036992024979554117,
+      "learning_rate": 0.015120125136285467,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 31751584,
+      "step": 34235
+    },
+    {
+      "epoch": 16.14332861857614,
+      "grad_norm": 0.0004004411748610437,
+      "learning_rate": 0.015094362329942629,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 31756576,
+      "step": 34240
+    },
+    {
+      "epoch": 16.145685997171146,
+      "grad_norm": 0.000713611429091543,
+      "learning_rate": 0.01506862032774448,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 31760704,
+      "step": 34245
+    },
+    {
+      "epoch": 16.148043375766147,
+      "grad_norm": 0.0002761281793937087,
+      "learning_rate": 0.015042899133660697,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 31765184,
+      "step": 34250
+    },
+    {
+      "epoch": 16.15040075436115,
+      "grad_norm": 0.00034516866435296834,
+      "learning_rate": 0.01501719875165789,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 31769424,
+      "step": 34255
+    },
+    {
+      "epoch": 16.15275813295615,
+      "grad_norm": 0.0007426338270306587,
+      "learning_rate": 0.014991519185699286,
+      "loss": 0.363,
+      "num_input_tokens_seen": 31773744,
+      "step": 34260
+    },
+    {
+      "epoch": 16.155115511551156,
+      "grad_norm": 0.0007236999226734042,
+      "learning_rate": 0.014965860439745054,
+      "loss": 0.3633,
+      "num_input_tokens_seen": 31778528,
+      "step": 34265
+    },
+    {
+      "epoch": 16.157472890146156,
+      "grad_norm": 0.0003655020846053958,
+      "learning_rate": 0.01494022251775211,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 31782848,
+      "step": 34270
+    },
+    {
+      "epoch": 16.15983026874116,
+      "grad_norm": 0.0004784670891240239,
+      "learning_rate": 0.014914605423674109,
+      "loss": 0.33,
+      "num_input_tokens_seen": 31787008,
+      "step": 34275
+    },
+    {
+      "epoch": 16.16218764733616,
+      "grad_norm": 0.0006926709902472794,
+      "learning_rate": 0.014889009161461525,
+      "loss": 0.3235,
+      "num_input_tokens_seen": 31791600,
+      "step": 34280
+    },
+    {
+      "epoch": 16.164545025931165,
+      "grad_norm": 0.0003657076449599117,
+      "learning_rate": 0.014863433735061665,
+      "loss": 0.3455,
+      "num_input_tokens_seen": 31797056,
+      "step": 34285
+    },
+    {
+      "epoch": 16.166902404526166,
+      "grad_norm": 0.0007109621074050665,
+      "learning_rate": 0.014837879148418541,
+      "loss": 0.3084,
+      "num_input_tokens_seen": 31801504,
+      "step": 34290
+    },
+    {
+      "epoch": 16.16925978312117,
+      "grad_norm": 0.0006192551227286458,
+      "learning_rate": 0.01481234540547302,
+      "loss": 0.2877,
+      "num_input_tokens_seen": 31806176,
+      "step": 34295
+    },
+    {
+      "epoch": 16.17161716171617,
+      "grad_norm": 0.000655363139230758,
+      "learning_rate": 0.014786832510162717,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 31810592,
+      "step": 34300
+    },
+    {
+      "epoch": 16.173974540311175,
+      "grad_norm": 0.0008354824967682362,
+      "learning_rate": 0.014761340466422017,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 31814704,
+      "step": 34305
+    },
+    {
+      "epoch": 16.176331918906175,
+      "grad_norm": 0.00045252498239278793,
+      "learning_rate": 0.014735869278182144,
+      "loss": 0.3436,
+      "num_input_tokens_seen": 31818688,
+      "step": 34310
+    },
+    {
+      "epoch": 16.17868929750118,
+      "grad_norm": 0.0007007624371908605,
+      "learning_rate": 0.014710418949371057,
+      "loss": 0.2609,
+      "num_input_tokens_seen": 31823440,
+      "step": 34315
+    },
+    {
+      "epoch": 16.18104667609618,
+      "grad_norm": 0.0005995263927616179,
+      "learning_rate": 0.014684989483913495,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 31828016,
+      "step": 34320
+    },
+    {
+      "epoch": 16.183404054691184,
+      "grad_norm": 0.0008285421645268798,
+      "learning_rate": 0.014659580885731077,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 31833024,
+      "step": 34325
+    },
+    {
+      "epoch": 16.185761433286185,
+      "grad_norm": 0.0004726887564174831,
+      "learning_rate": 0.014634193158742047,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 31837104,
+      "step": 34330
+    },
+    {
+      "epoch": 16.18811881188119,
+      "grad_norm": 0.00033385652932338417,
+      "learning_rate": 0.014608826306861576,
+      "loss": 0.2969,
+      "num_input_tokens_seen": 31841648,
+      "step": 34335
+    },
+    {
+      "epoch": 16.19047619047619,
+      "grad_norm": 0.00039796342025510967,
+      "learning_rate": 0.014583480334001486,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 31845840,
+      "step": 34340
+    },
+    {
+      "epoch": 16.192833569071194,
+      "grad_norm": 0.000734648376237601,
+      "learning_rate": 0.014558155244070496,
+      "loss": 0.3792,
+      "num_input_tokens_seen": 31850416,
+      "step": 34345
+    },
+    {
+      "epoch": 16.195190947666195,
+      "grad_norm": 0.00038301199674606323,
+      "learning_rate": 0.014532851040974036,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 31854080,
+      "step": 34350
+    },
+    {
+      "epoch": 16.1975483262612,
+      "grad_norm": 0.0006807550671510398,
+      "learning_rate": 0.014507567728614335,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 31860064,
+      "step": 34355
+    },
+    {
+      "epoch": 16.1999057048562,
+      "grad_norm": 0.0006149865221232176,
+      "learning_rate": 0.01448230531089037,
+      "loss": 0.3019,
+      "num_input_tokens_seen": 31865024,
+      "step": 34360
+    },
+    {
+      "epoch": 16.202263083451204,
+      "grad_norm": 0.0006360184634104371,
+      "learning_rate": 0.014457063791697993,
+      "loss": 0.2728,
+      "num_input_tokens_seen": 31869360,
+      "step": 34365
+    },
+    {
+      "epoch": 16.204620462046204,
+      "grad_norm": 0.0007385724456980824,
+      "learning_rate": 0.01443184317492971,
+      "loss": 0.304,
+      "num_input_tokens_seen": 31873728,
+      "step": 34370
+    },
+    {
+      "epoch": 16.20697784064121,
+      "grad_norm": 0.000996586517430842,
+      "learning_rate": 0.014406643464474822,
+      "loss": 0.2912,
+      "num_input_tokens_seen": 31878928,
+      "step": 34375
+    },
+    {
+      "epoch": 16.20933521923621,
+      "grad_norm": 0.0008059171959757805,
+      "learning_rate": 0.014381464664219539,
+      "loss": 0.3836,
+      "num_input_tokens_seen": 31883616,
+      "step": 34380
+    },
+    {
+      "epoch": 16.211692597831213,
+      "grad_norm": 0.00043841288425028324,
+      "learning_rate": 0.014356306778046656,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 31888048,
+      "step": 34385
+    },
+    {
+      "epoch": 16.214049976426214,
+      "grad_norm": 0.0007367781363427639,
+      "learning_rate": 0.014331169809835885,
+      "loss": 0.4009,
+      "num_input_tokens_seen": 31892592,
+      "step": 34390
+    },
+    {
+      "epoch": 16.216407355021218,
+      "grad_norm": 0.0006777559174224734,
+      "learning_rate": 0.014306053763463644,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 31896752,
+      "step": 34395
+    },
+    {
+      "epoch": 16.21876473361622,
+      "grad_norm": 0.00037273403722792864,
+      "learning_rate": 0.014280958642803147,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 31901696,
+      "step": 34400
+    },
+    {
+      "epoch": 16.21876473361622,
+      "eval_loss": 0.3284761607646942,
+      "eval_runtime": 33.5545,
+      "eval_samples_per_second": 28.104,
+      "eval_steps_per_second": 14.067,
+      "num_input_tokens_seen": 31901696,
+      "step": 34400
+    },
+    {
+      "epoch": 16.221122112211223,
+      "grad_norm": 0.000384542130632326,
+      "learning_rate": 0.014255884451724404,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 31907168,
+      "step": 34405
+    },
+    {
+      "epoch": 16.223479490806223,
+      "grad_norm": 0.00033285951940342784,
+      "learning_rate": 0.014230831194094101,
+      "loss": 0.2939,
+      "num_input_tokens_seen": 31911488,
+      "step": 34410
+    },
+    {
+      "epoch": 16.225836869401228,
+      "grad_norm": 0.0008764236117713153,
+      "learning_rate": 0.014205798873775865,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 31916512,
+      "step": 34415
+    },
+    {
+      "epoch": 16.22819424799623,
+      "grad_norm": 0.000989869236946106,
+      "learning_rate": 0.014180787494629893,
+      "loss": 0.291,
+      "num_input_tokens_seen": 31921808,
+      "step": 34420
+    },
+    {
+      "epoch": 16.23055162659123,
+      "grad_norm": 0.0003353665815666318,
+      "learning_rate": 0.014155797060513314,
+      "loss": 0.3004,
+      "num_input_tokens_seen": 31926288,
+      "step": 34425
+    },
+    {
+      "epoch": 16.232909005186233,
+      "grad_norm": 0.0003002944285981357,
+      "learning_rate": 0.014130827575279963,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 31931360,
+      "step": 34430
+    },
+    {
+      "epoch": 16.235266383781234,
+      "grad_norm": 0.00030835633515380323,
+      "learning_rate": 0.014105879042780427,
+      "loss": 0.2984,
+      "num_input_tokens_seen": 31936608,
+      "step": 34435
+    },
+    {
+      "epoch": 16.237623762376238,
+      "grad_norm": 0.00042998368735425174,
+      "learning_rate": 0.014080951466862113,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 31940576,
+      "step": 34440
+    },
+    {
+      "epoch": 16.23998114097124,
+      "grad_norm": 0.0003966007789131254,
+      "learning_rate": 0.014056044851369126,
+      "loss": 0.2512,
+      "num_input_tokens_seen": 31945024,
+      "step": 34445
+    },
+    {
+      "epoch": 16.242338519566243,
+      "grad_norm": 0.0006704042898491025,
+      "learning_rate": 0.014031159200142428,
+      "loss": 0.2963,
+      "num_input_tokens_seen": 31950304,
+      "step": 34450
+    },
+    {
+      "epoch": 16.244695898161243,
+      "grad_norm": 0.0008834393229335546,
+      "learning_rate": 0.014006294517019667,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 31955024,
+      "step": 34455
+    },
+    {
+      "epoch": 16.247053276756247,
+      "grad_norm": 0.00044879908091388643,
+      "learning_rate": 0.013981450805835276,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 31960288,
+      "step": 34460
+    },
+    {
+      "epoch": 16.249410655351248,
+      "grad_norm": 0.0002939710393548012,
+      "learning_rate": 0.01395662807042049,
+      "loss": 0.32,
+      "num_input_tokens_seen": 31964704,
+      "step": 34465
+    },
+    {
+      "epoch": 16.251768033946252,
+      "grad_norm": 0.0006169257685542107,
+      "learning_rate": 0.013931826314603296,
+      "loss": 0.2697,
+      "num_input_tokens_seen": 31969184,
+      "step": 34470
+    },
+    {
+      "epoch": 16.254125412541253,
+      "grad_norm": 0.0005224021151661873,
+      "learning_rate": 0.013907045542208401,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 31973952,
+      "step": 34475
+    },
+    {
+      "epoch": 16.256482791136257,
+      "grad_norm": 0.000765692675486207,
+      "learning_rate": 0.013882285757057333,
+      "loss": 0.3767,
+      "num_input_tokens_seen": 31979472,
+      "step": 34480
+    },
+    {
+      "epoch": 16.258840169731258,
+      "grad_norm": 0.0003396034298930317,
+      "learning_rate": 0.013857546962968403,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 31983648,
+      "step": 34485
+    },
+    {
+      "epoch": 16.261197548326262,
+      "grad_norm": 0.0004810203390661627,
+      "learning_rate": 0.013832829163756577,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 31987792,
+      "step": 34490
+    },
+    {
+      "epoch": 16.263554926921262,
+      "grad_norm": 0.0007066364632919431,
+      "learning_rate": 0.013808132363233689,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 31992192,
+      "step": 34495
+    },
+    {
+      "epoch": 16.265912305516267,
+      "grad_norm": 0.0005656384164467454,
+      "learning_rate": 0.013783456565208256,
+      "loss": 0.3848,
+      "num_input_tokens_seen": 31996976,
+      "step": 34500
+    },
+    {
+      "epoch": 16.268269684111267,
+      "grad_norm": 0.0008281879709102213,
+      "learning_rate": 0.01375880177348564,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 32000944,
+      "step": 34505
+    },
+    {
+      "epoch": 16.27062706270627,
+      "grad_norm": 0.00047179037937894464,
+      "learning_rate": 0.013734167991867928,
+      "loss": 0.3283,
+      "num_input_tokens_seen": 32005712,
+      "step": 34510
+    },
+    {
+      "epoch": 16.272984441301272,
+      "grad_norm": 0.0003648332494776696,
+      "learning_rate": 0.013709555224153935,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 32010992,
+      "step": 34515
+    },
+    {
+      "epoch": 16.275341819896276,
+      "grad_norm": 0.0008427563589066267,
+      "learning_rate": 0.013684963474139222,
+      "loss": 0.337,
+      "num_input_tokens_seen": 32015600,
+      "step": 34520
+    },
+    {
+      "epoch": 16.277699198491277,
+      "grad_norm": 0.00041175211663357913,
+      "learning_rate": 0.013660392745616224,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 32020064,
+      "step": 34525
+    },
+    {
+      "epoch": 16.28005657708628,
+      "grad_norm": 0.0008631301461718976,
+      "learning_rate": 0.013635843042373974,
+      "loss": 0.315,
+      "num_input_tokens_seen": 32025168,
+      "step": 34530
+    },
+    {
+      "epoch": 16.28241395568128,
+      "grad_norm": 0.0002976927498821169,
+      "learning_rate": 0.01361131436819843,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 32030736,
+      "step": 34535
+    },
+    {
+      "epoch": 16.284771334276286,
+      "grad_norm": 0.0004672621435020119,
+      "learning_rate": 0.013586806726872147,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 32035376,
+      "step": 34540
+    },
+    {
+      "epoch": 16.287128712871286,
+      "grad_norm": 0.0004539421643130481,
+      "learning_rate": 0.013562320122174537,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 32039552,
+      "step": 34545
+    },
+    {
+      "epoch": 16.28948609146629,
+      "grad_norm": 0.0007112338207662106,
+      "learning_rate": 0.013537854557881762,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 32044416,
+      "step": 34550
+    },
+    {
+      "epoch": 16.29184347006129,
+      "grad_norm": 0.0005252067348919809,
+      "learning_rate": 0.013513410037766687,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 32048688,
+      "step": 34555
+    },
+    {
+      "epoch": 16.294200848656295,
+      "grad_norm": 0.0006369067705236375,
+      "learning_rate": 0.013488986565598998,
+      "loss": 0.3828,
+      "num_input_tokens_seen": 32053648,
+      "step": 34560
+    },
+    {
+      "epoch": 16.296558227251296,
+      "grad_norm": 0.0008563878363929689,
+      "learning_rate": 0.013464584145145097,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 32058224,
+      "step": 34565
+    },
+    {
+      "epoch": 16.2989156058463,
+      "grad_norm": 0.000575774407479912,
+      "learning_rate": 0.013440202780168109,
+      "loss": 0.3903,
+      "num_input_tokens_seen": 32063248,
+      "step": 34570
+    },
+    {
+      "epoch": 16.3012729844413,
+      "grad_norm": 0.000622838968411088,
+      "learning_rate": 0.01341584247442799,
+      "loss": 0.3048,
+      "num_input_tokens_seen": 32068288,
+      "step": 34575
+    },
+    {
+      "epoch": 16.303630363036305,
+      "grad_norm": 0.00035171539639122784,
+      "learning_rate": 0.013391503231681355,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 32073024,
+      "step": 34580
+    },
+    {
+      "epoch": 16.305987741631306,
+      "grad_norm": 0.0003627141995821148,
+      "learning_rate": 0.013367185055681685,
+      "loss": 0.335,
+      "num_input_tokens_seen": 32077952,
+      "step": 34585
+    },
+    {
+      "epoch": 16.30834512022631,
+      "grad_norm": 0.0006656666519120336,
+      "learning_rate": 0.013342887950179095,
+      "loss": 0.2865,
+      "num_input_tokens_seen": 32083296,
+      "step": 34590
+    },
+    {
+      "epoch": 16.31070249882131,
+      "grad_norm": 0.00039658305468037724,
+      "learning_rate": 0.013318611918920554,
+      "loss": 0.2791,
+      "num_input_tokens_seen": 32088128,
+      "step": 34595
+    },
+    {
+      "epoch": 16.313059877416315,
+      "grad_norm": 0.00045574267278425395,
+      "learning_rate": 0.01329435696564965,
+      "loss": 0.3191,
+      "num_input_tokens_seen": 32092528,
+      "step": 34600
+    },
+    {
+      "epoch": 16.313059877416315,
+      "eval_loss": 0.3289685547351837,
+      "eval_runtime": 33.6028,
+      "eval_samples_per_second": 28.063,
+      "eval_steps_per_second": 14.046,
+      "num_input_tokens_seen": 32092528,
+      "step": 34600
+    },
+    {
+      "epoch": 16.315417256011315,
+      "grad_norm": 0.0004941652296110988,
+      "learning_rate": 0.013270123094106894,
+      "loss": 0.3667,
+      "num_input_tokens_seen": 32097728,
+      "step": 34605
+    },
+    {
+      "epoch": 16.31777463460632,
+      "grad_norm": 0.0010971195297315717,
+      "learning_rate": 0.013245910308029395,
+      "loss": 0.4001,
+      "num_input_tokens_seen": 32101872,
+      "step": 34610
+    },
+    {
+      "epoch": 16.32013201320132,
+      "grad_norm": 0.0008606293704360723,
+      "learning_rate": 0.0132217186111511,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 32106896,
+      "step": 34615
+    },
+    {
+      "epoch": 16.32248939179632,
+      "grad_norm": 0.0004981998936273158,
+      "learning_rate": 0.013197548007202626,
+      "loss": 0.3514,
+      "num_input_tokens_seen": 32111280,
+      "step": 34620
+    },
+    {
+      "epoch": 16.324846770391325,
+      "grad_norm": 0.00040432330570183694,
+      "learning_rate": 0.01317339849991142,
+      "loss": 0.3301,
+      "num_input_tokens_seen": 32116256,
+      "step": 34625
+    },
+    {
+      "epoch": 16.327204148986326,
+      "grad_norm": 0.0008150822250172496,
+      "learning_rate": 0.013149270093001675,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 32120224,
+      "step": 34630
+    },
+    {
+      "epoch": 16.32956152758133,
+      "grad_norm": 0.0005399414803832769,
+      "learning_rate": 0.013125162790194227,
+      "loss": 0.338,
+      "num_input_tokens_seen": 32124720,
+      "step": 34635
+    },
+    {
+      "epoch": 16.33191890617633,
+      "grad_norm": 0.0007156927604228258,
+      "learning_rate": 0.01310107659520674,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 32129600,
+      "step": 34640
+    },
+    {
+      "epoch": 16.334276284771335,
+      "grad_norm": 0.0003497044963296503,
+      "learning_rate": 0.013077011511753655,
+      "loss": 0.31,
+      "num_input_tokens_seen": 32134128,
+      "step": 34645
+    },
+    {
+      "epoch": 16.336633663366335,
+      "grad_norm": 0.0012972570257261395,
+      "learning_rate": 0.013052967543546056,
+      "loss": 0.3329,
+      "num_input_tokens_seen": 32138976,
+      "step": 34650
+    },
+    {
+      "epoch": 16.33899104196134,
+      "grad_norm": 0.00044288436765782535,
+      "learning_rate": 0.01302894469429186,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 32143056,
+      "step": 34655
+    },
+    {
+      "epoch": 16.34134842055634,
+      "grad_norm": 0.0006570191471837461,
+      "learning_rate": 0.013004942967695653,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 32146944,
+      "step": 34660
+    },
+    {
+      "epoch": 16.343705799151344,
+      "grad_norm": 0.0006515401764772832,
+      "learning_rate": 0.012980962367458859,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 32151744,
+      "step": 34665
+    },
+    {
+      "epoch": 16.346063177746345,
+      "grad_norm": 0.0006345859728753567,
+      "learning_rate": 0.012957002897279567,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 32156560,
+      "step": 34670
+    },
+    {
+      "epoch": 16.34842055634135,
+      "grad_norm": 0.0003938811714760959,
+      "learning_rate": 0.012933064560852576,
+      "loss": 0.3205,
+      "num_input_tokens_seen": 32161344,
+      "step": 34675
+    },
+    {
+      "epoch": 16.35077793493635,
+      "grad_norm": 0.0007805594941601157,
+      "learning_rate": 0.012909147361869527,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 32167872,
+      "step": 34680
+    },
+    {
+      "epoch": 16.353135313531354,
+      "grad_norm": 0.0004731643130071461,
+      "learning_rate": 0.012885251304018774,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 32172336,
+      "step": 34685
+    },
+    {
+      "epoch": 16.355492692126354,
+      "grad_norm": 0.0006546253571286798,
+      "learning_rate": 0.012861376390985335,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 32177840,
+      "step": 34690
+    },
+    {
+      "epoch": 16.35785007072136,
+      "grad_norm": 0.0003686354903038591,
+      "learning_rate": 0.012837522626451063,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 32183184,
+      "step": 34695
+    },
+    {
+      "epoch": 16.36020744931636,
+      "grad_norm": 0.0006630761781707406,
+      "learning_rate": 0.01281369001409447,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 32187408,
+      "step": 34700
+    },
+    {
+      "epoch": 16.362564827911363,
+      "grad_norm": 0.00040485465433448553,
+      "learning_rate": 0.012789878557590877,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 32192272,
+      "step": 34705
+    },
+    {
+      "epoch": 16.364922206506364,
+      "grad_norm": 0.00037871699896641076,
+      "learning_rate": 0.012766088260612334,
+      "loss": 0.3449,
+      "num_input_tokens_seen": 32197488,
+      "step": 34710
+    },
+    {
+      "epoch": 16.367279585101368,
+      "grad_norm": 0.0004129793378524482,
+      "learning_rate": 0.012742319126827523,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 32201984,
+      "step": 34715
+    },
+    {
+      "epoch": 16.36963696369637,
+      "grad_norm": 0.0004974536714144051,
+      "learning_rate": 0.012718571159902008,
+      "loss": 0.352,
+      "num_input_tokens_seen": 32207088,
+      "step": 34720
+    },
+    {
+      "epoch": 16.371994342291373,
+      "grad_norm": 0.0006344598368741572,
+      "learning_rate": 0.01269484436349803,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 32211616,
+      "step": 34725
+    },
+    {
+      "epoch": 16.374351720886374,
+      "grad_norm": 0.00048104493180289865,
+      "learning_rate": 0.012671138741274528,
+      "loss": 0.338,
+      "num_input_tokens_seen": 32216624,
+      "step": 34730
+    },
+    {
+      "epoch": 16.376709099481378,
+      "grad_norm": 0.0005211880197748542,
+      "learning_rate": 0.012647454296887194,
+      "loss": 0.342,
+      "num_input_tokens_seen": 32220656,
+      "step": 34735
+    },
+    {
+      "epoch": 16.37906647807638,
+      "grad_norm": 0.00034720395342446864,
+      "learning_rate": 0.012623791033988507,
+      "loss": 0.3782,
+      "num_input_tokens_seen": 32225376,
+      "step": 34740
+    },
+    {
+      "epoch": 16.381423856671383,
+      "grad_norm": 0.000707377097569406,
+      "learning_rate": 0.012600148956227597,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 32229824,
+      "step": 34745
+    },
+    {
+      "epoch": 16.383781235266383,
+      "grad_norm": 0.0006738206138834357,
+      "learning_rate": 0.012576528067250414,
+      "loss": 0.3178,
+      "num_input_tokens_seen": 32234528,
+      "step": 34750
+    },
+    {
+      "epoch": 16.386138613861387,
+      "grad_norm": 0.0007544878753833473,
+      "learning_rate": 0.012552928370699561,
+      "loss": 0.304,
+      "num_input_tokens_seen": 32238592,
+      "step": 34755
+    },
+    {
+      "epoch": 16.388495992456388,
+      "grad_norm": 0.0007441902416758239,
+      "learning_rate": 0.012529349870214411,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 32243264,
+      "step": 34760
+    },
+    {
+      "epoch": 16.390853371051392,
+      "grad_norm": 0.0005973994266241789,
+      "learning_rate": 0.012505792569431106,
+      "loss": 0.2984,
+      "num_input_tokens_seen": 32248096,
+      "step": 34765
+    },
+    {
+      "epoch": 16.393210749646393,
+      "grad_norm": 0.0003801946004386991,
+      "learning_rate": 0.012482256471982422,
+      "loss": 0.3609,
+      "num_input_tokens_seen": 32253072,
+      "step": 34770
+    },
+    {
+      "epoch": 16.395568128241397,
+      "grad_norm": 0.000832955411169678,
+      "learning_rate": 0.012458741581497956,
+      "loss": 0.3253,
+      "num_input_tokens_seen": 32257440,
+      "step": 34775
+    },
+    {
+      "epoch": 16.397925506836398,
+      "grad_norm": 0.00045947483158670366,
+      "learning_rate": 0.012435247901603974,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 32262672,
+      "step": 34780
+    },
+    {
+      "epoch": 16.400282885431402,
+      "grad_norm": 0.0004925584071315825,
+      "learning_rate": 0.012411775435923528,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 32267248,
+      "step": 34785
+    },
+    {
+      "epoch": 16.402640264026402,
+      "grad_norm": 0.0004215284716337919,
+      "learning_rate": 0.012388324188076354,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 32272192,
+      "step": 34790
+    },
+    {
+      "epoch": 16.404997642621407,
+      "grad_norm": 0.000703357916790992,
+      "learning_rate": 0.012364894161678913,
+      "loss": 0.376,
+      "num_input_tokens_seen": 32275968,
+      "step": 34795
+    },
+    {
+      "epoch": 16.407355021216407,
+      "grad_norm": 0.00048568338388577104,
+      "learning_rate": 0.012341485360344445,
+      "loss": 0.2926,
+      "num_input_tokens_seen": 32279920,
+      "step": 34800
+    },
+    {
+      "epoch": 16.407355021216407,
+      "eval_loss": 0.3287159502506256,
+      "eval_runtime": 33.599,
+      "eval_samples_per_second": 28.066,
+      "eval_steps_per_second": 14.048,
+      "num_input_tokens_seen": 32279920,
+      "step": 34800
+    },
+    {
+      "epoch": 16.40971239981141,
+      "grad_norm": 0.0007921826327219605,
+      "learning_rate": 0.01231809778768283,
+      "loss": 0.338,
+      "num_input_tokens_seen": 32284288,
+      "step": 34805
+    },
+    {
+      "epoch": 16.412069778406412,
+      "grad_norm": 0.00045303557999432087,
+      "learning_rate": 0.012294731447300799,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 32289264,
+      "step": 34810
+    },
+    {
+      "epoch": 16.414427157001413,
+      "grad_norm": 0.0007921472424641252,
+      "learning_rate": 0.012271386342801671,
+      "loss": 0.3331,
+      "num_input_tokens_seen": 32294368,
+      "step": 34815
+    },
+    {
+      "epoch": 16.416784535596417,
+      "grad_norm": 0.0006046927883289754,
+      "learning_rate": 0.012248062477785565,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 32298624,
+      "step": 34820
+    },
+    {
+      "epoch": 16.419141914191417,
+      "grad_norm": 0.00034902431070804596,
+      "learning_rate": 0.012224759855849305,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 32303504,
+      "step": 34825
+    },
+    {
+      "epoch": 16.42149929278642,
+      "grad_norm": 0.00040909615927375853,
+      "learning_rate": 0.012201478480586513,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 32308384,
+      "step": 34830
+    },
+    {
+      "epoch": 16.423856671381422,
+      "grad_norm": 0.0004196910886093974,
+      "learning_rate": 0.012178218355587389,
+      "loss": 0.3265,
+      "num_input_tokens_seen": 32313696,
+      "step": 34835
+    },
+    {
+      "epoch": 16.426214049976426,
+      "grad_norm": 0.0007704325253143907,
+      "learning_rate": 0.01215497948443896,
+      "loss": 0.3164,
+      "num_input_tokens_seen": 32318400,
+      "step": 34840
+    },
+    {
+      "epoch": 16.428571428571427,
+      "grad_norm": 0.0006123183993622661,
+      "learning_rate": 0.012131761870724993,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 32322896,
+      "step": 34845
+    },
+    {
+      "epoch": 16.43092880716643,
+      "grad_norm": 0.0004344562184996903,
+      "learning_rate": 0.012108565518025893,
+      "loss": 0.32,
+      "num_input_tokens_seen": 32327920,
+      "step": 34850
+    },
+    {
+      "epoch": 16.433286185761432,
+      "grad_norm": 0.001281208242289722,
+      "learning_rate": 0.012085390429918862,
+      "loss": 0.37,
+      "num_input_tokens_seen": 32331920,
+      "step": 34855
+    },
+    {
+      "epoch": 16.435643564356436,
+      "grad_norm": 0.00038933567702770233,
+      "learning_rate": 0.012062236609977744,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 32336272,
+      "step": 34860
+    },
+    {
+      "epoch": 16.438000942951437,
+      "grad_norm": 0.0003655453911051154,
+      "learning_rate": 0.01203910406177318,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 32340400,
+      "step": 34865
+    },
+    {
+      "epoch": 16.44035832154644,
+      "grad_norm": 0.0003574155271053314,
+      "learning_rate": 0.01201599278887252,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 32345376,
+      "step": 34870
+    },
+    {
+      "epoch": 16.44271570014144,
+      "grad_norm": 0.0004131785244680941,
+      "learning_rate": 0.011992902794839744,
+      "loss": 0.3751,
+      "num_input_tokens_seen": 32349776,
+      "step": 34875
+    },
+    {
+      "epoch": 16.445073078736446,
+      "grad_norm": 0.0007253691437654197,
+      "learning_rate": 0.011969834083235703,
+      "loss": 0.3915,
+      "num_input_tokens_seen": 32354384,
+      "step": 34880
+    },
+    {
+      "epoch": 16.447430457331446,
+      "grad_norm": 0.0004986560088582337,
+      "learning_rate": 0.011946786657617836,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 32358784,
+      "step": 34885
+    },
+    {
+      "epoch": 16.44978783592645,
+      "grad_norm": 0.0004374063282739371,
+      "learning_rate": 0.011923760521540332,
+      "loss": 0.3104,
+      "num_input_tokens_seen": 32364560,
+      "step": 34890
+    },
+    {
+      "epoch": 16.45214521452145,
+      "grad_norm": 0.0008592430385760963,
+      "learning_rate": 0.011900755678554153,
+      "loss": 0.3685,
+      "num_input_tokens_seen": 32368448,
+      "step": 34895
+    },
+    {
+      "epoch": 16.454502593116455,
+      "grad_norm": 0.00031306693563237786,
+      "learning_rate": 0.011877772132206893,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 32373376,
+      "step": 34900
+    },
+    {
+      "epoch": 16.456859971711456,
+      "grad_norm": 0.0004800009191967547,
+      "learning_rate": 0.011854809886042915,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 32377952,
+      "step": 34905
+    },
+    {
+      "epoch": 16.45921735030646,
+      "grad_norm": 0.0006486248457804322,
+      "learning_rate": 0.011831868943603325,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 32381872,
+      "step": 34910
+    },
+    {
+      "epoch": 16.46157472890146,
+      "grad_norm": 0.0004356966237537563,
+      "learning_rate": 0.011808949308425836,
+      "loss": 0.325,
+      "num_input_tokens_seen": 32386016,
+      "step": 34915
+    },
+    {
+      "epoch": 16.463932107496465,
+      "grad_norm": 0.00032061105594038963,
+      "learning_rate": 0.01178605098404501,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 32390304,
+      "step": 34920
+    },
+    {
+      "epoch": 16.466289486091465,
+      "grad_norm": 0.0005856853676959872,
+      "learning_rate": 0.011763173973992002,
+      "loss": 0.3483,
+      "num_input_tokens_seen": 32394880,
+      "step": 34925
+    },
+    {
+      "epoch": 16.46864686468647,
+      "grad_norm": 0.0007568149594590068,
+      "learning_rate": 0.011740318281794776,
+      "loss": 0.2523,
+      "num_input_tokens_seen": 32399632,
+      "step": 34930
+    },
+    {
+      "epoch": 16.47100424328147,
+      "grad_norm": 0.0004921752260997891,
+      "learning_rate": 0.01171748391097796,
+      "loss": 0.3483,
+      "num_input_tokens_seen": 32404192,
+      "step": 34935
+    },
+    {
+      "epoch": 16.473361621876474,
+      "grad_norm": 0.0004033578443340957,
+      "learning_rate": 0.011694670865062873,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 32407616,
+      "step": 34940
+    },
+    {
+      "epoch": 16.475719000471475,
+      "grad_norm": 0.0007643658900633454,
+      "learning_rate": 0.011671879147567616,
+      "loss": 0.349,
+      "num_input_tokens_seen": 32412640,
+      "step": 34945
+    },
+    {
+      "epoch": 16.47807637906648,
+      "grad_norm": 0.0008234513225033879,
+      "learning_rate": 0.011649108762006893,
+      "loss": 0.3339,
+      "num_input_tokens_seen": 32417008,
+      "step": 34950
+    },
+    {
+      "epoch": 16.48043375766148,
+      "grad_norm": 0.00042887250310741365,
+      "learning_rate": 0.011626359711892265,
+      "loss": 0.2911,
+      "num_input_tokens_seen": 32422384,
+      "step": 34955
+    },
+    {
+      "epoch": 16.482791136256484,
+      "grad_norm": 0.0006734798080287874,
+      "learning_rate": 0.01160363200073189,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 32427088,
+      "step": 34960
+    },
+    {
+      "epoch": 16.485148514851485,
+      "grad_norm": 0.0005146127077750862,
+      "learning_rate": 0.011580925632030614,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 32431392,
+      "step": 34965
+    },
+    {
+      "epoch": 16.48750589344649,
+      "grad_norm": 0.0009458709973841906,
+      "learning_rate": 0.011558240609290104,
+      "loss": 0.4178,
+      "num_input_tokens_seen": 32435568,
+      "step": 34970
+    },
+    {
+      "epoch": 16.48986327204149,
+      "grad_norm": 0.0007688464829698205,
+      "learning_rate": 0.011535576936008679,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 32439344,
+      "step": 34975
+    },
+    {
+      "epoch": 16.492220650636494,
+      "grad_norm": 0.00047899014316499233,
+      "learning_rate": 0.011512934615681309,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 32444240,
+      "step": 34980
+    },
+    {
+      "epoch": 16.494578029231494,
+      "grad_norm": 0.0005906751612201333,
+      "learning_rate": 0.011490313651799765,
+      "loss": 0.2473,
+      "num_input_tokens_seen": 32449024,
+      "step": 34985
+    },
+    {
+      "epoch": 16.4969354078265,
+      "grad_norm": 0.0007716568652540445,
+      "learning_rate": 0.011467714047852512,
+      "loss": 0.3422,
+      "num_input_tokens_seen": 32453168,
+      "step": 34990
+    },
+    {
+      "epoch": 16.4992927864215,
+      "grad_norm": 0.0007014306029304862,
+      "learning_rate": 0.011445135807324624,
+      "loss": 0.2993,
+      "num_input_tokens_seen": 32457824,
+      "step": 34995
+    },
+    {
+      "epoch": 16.501650165016503,
+      "grad_norm": 0.0003288265143055469,
+      "learning_rate": 0.011422578933698002,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 32461952,
+      "step": 35000
+    },
+    {
+      "epoch": 16.501650165016503,
+      "eval_loss": 0.3286610543727875,
+      "eval_runtime": 33.4832,
+      "eval_samples_per_second": 28.163,
+      "eval_steps_per_second": 14.097,
+      "num_input_tokens_seen": 32461952,
+      "step": 35000
+    },
+    {
+      "epoch": 16.504007543611504,
+      "grad_norm": 0.00034600909566506743,
+      "learning_rate": 0.011400043430451161,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 32466352,
+      "step": 35005
+    },
+    {
+      "epoch": 16.506364922206508,
+      "grad_norm": 0.0004993703914806247,
+      "learning_rate": 0.011377529301059392,
+      "loss": 0.2935,
+      "num_input_tokens_seen": 32471680,
+      "step": 35010
+    },
+    {
+      "epoch": 16.50872230080151,
+      "grad_norm": 0.00043063476914539933,
+      "learning_rate": 0.011355036548994646,
+      "loss": 0.339,
+      "num_input_tokens_seen": 32476336,
+      "step": 35015
+    },
+    {
+      "epoch": 16.51107967939651,
+      "grad_norm": 0.0012343614362180233,
+      "learning_rate": 0.011332565177725584,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 32480528,
+      "step": 35020
+    },
+    {
+      "epoch": 16.513437057991514,
+      "grad_norm": 0.0005779620260000229,
+      "learning_rate": 0.011310115190717585,
+      "loss": 0.3609,
+      "num_input_tokens_seen": 32484384,
+      "step": 35025
+    },
+    {
+      "epoch": 16.515794436586514,
+      "grad_norm": 0.0007416508160531521,
+      "learning_rate": 0.01128768659143271,
+      "loss": 0.2738,
+      "num_input_tokens_seen": 32489600,
+      "step": 35030
+    },
+    {
+      "epoch": 16.51815181518152,
+      "grad_norm": 0.0004362393810879439,
+      "learning_rate": 0.011265279383329713,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 32493840,
+      "step": 35035
+    },
+    {
+      "epoch": 16.52050919377652,
+      "grad_norm": 0.0004120978992432356,
+      "learning_rate": 0.01124289356986411,
+      "loss": 0.3581,
+      "num_input_tokens_seen": 32497872,
+      "step": 35040
+    },
+    {
+      "epoch": 16.522866572371523,
+      "grad_norm": 0.0007055887253955007,
+      "learning_rate": 0.011220529154488023,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 32502352,
+      "step": 35045
+    },
+    {
+      "epoch": 16.525223950966524,
+      "grad_norm": 0.0006785319419577718,
+      "learning_rate": 0.011198186140650346,
+      "loss": 0.2607,
+      "num_input_tokens_seen": 32506864,
+      "step": 35050
+    },
+    {
+      "epoch": 16.527581329561528,
+      "grad_norm": 0.000681796227581799,
+      "learning_rate": 0.011175864531796685,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 32511728,
+      "step": 35055
+    },
+    {
+      "epoch": 16.52993870815653,
+      "grad_norm": 0.0006598320906050503,
+      "learning_rate": 0.011153564331369258,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 32516544,
+      "step": 35060
+    },
+    {
+      "epoch": 16.532296086751533,
+      "grad_norm": 0.0008056619553826749,
+      "learning_rate": 0.011131285542807078,
+      "loss": 0.3029,
+      "num_input_tokens_seen": 32520848,
+      "step": 35065
+    },
+    {
+      "epoch": 16.534653465346533,
+      "grad_norm": 0.0004527486162260175,
+      "learning_rate": 0.011109028169545815,
+      "loss": 0.2831,
+      "num_input_tokens_seen": 32525344,
+      "step": 35070
+    },
+    {
+      "epoch": 16.537010843941538,
+      "grad_norm": 0.00039509066846221685,
+      "learning_rate": 0.011086792215017804,
+      "loss": 0.2703,
+      "num_input_tokens_seen": 32530560,
+      "step": 35075
+    },
+    {
+      "epoch": 16.539368222536538,
+      "grad_norm": 0.0004217651148792356,
+      "learning_rate": 0.011064577682652137,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 32535104,
+      "step": 35080
+    },
+    {
+      "epoch": 16.541725601131542,
+      "grad_norm": 0.000845195958390832,
+      "learning_rate": 0.011042384575874559,
+      "loss": 0.3423,
+      "num_input_tokens_seen": 32539936,
+      "step": 35085
+    },
+    {
+      "epoch": 16.544082979726543,
+      "grad_norm": 0.00043140375055372715,
+      "learning_rate": 0.011020212898107512,
+      "loss": 0.3221,
+      "num_input_tokens_seen": 32544208,
+      "step": 35090
+    },
+    {
+      "epoch": 16.546440358321547,
+      "grad_norm": 0.00041014060843735933,
+      "learning_rate": 0.010998062652770197,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 32549104,
+      "step": 35095
+    },
+    {
+      "epoch": 16.548797736916548,
+      "grad_norm": 0.0007439719629473984,
+      "learning_rate": 0.010975933843278428,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 32554560,
+      "step": 35100
+    },
+    {
+      "epoch": 16.551155115511552,
+      "grad_norm": 0.0007063186494633555,
+      "learning_rate": 0.010953826473044714,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 32558992,
+      "step": 35105
+    },
+    {
+      "epoch": 16.553512494106553,
+      "grad_norm": 0.0005050214240327477,
+      "learning_rate": 0.010931740545478357,
+      "loss": 0.322,
+      "num_input_tokens_seen": 32564208,
+      "step": 35110
+    },
+    {
+      "epoch": 16.555869872701557,
+      "grad_norm": 0.00036158872535452247,
+      "learning_rate": 0.010909676063985218,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 32568368,
+      "step": 35115
+    },
+    {
+      "epoch": 16.558227251296557,
+      "grad_norm": 0.00036590086529031396,
+      "learning_rate": 0.010887633031967974,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 32574640,
+      "step": 35120
+    },
+    {
+      "epoch": 16.56058462989156,
+      "grad_norm": 0.0010527214035391808,
+      "learning_rate": 0.01086561145282589,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 32579600,
+      "step": 35125
+    },
+    {
+      "epoch": 16.562942008486562,
+      "grad_norm": 0.00039805658161640167,
+      "learning_rate": 0.010843611329954983,
+      "loss": 0.2932,
+      "num_input_tokens_seen": 32583856,
+      "step": 35130
+    },
+    {
+      "epoch": 16.565299387081566,
+      "grad_norm": 0.0003876847622450441,
+      "learning_rate": 0.010821632666747988,
+      "loss": 0.327,
+      "num_input_tokens_seen": 32588464,
+      "step": 35135
+    },
+    {
+      "epoch": 16.567656765676567,
+      "grad_norm": 0.0006801072740927339,
+      "learning_rate": 0.010799675466594244,
+      "loss": 0.3028,
+      "num_input_tokens_seen": 32592784,
+      "step": 35140
+    },
+    {
+      "epoch": 16.57001414427157,
+      "grad_norm": 0.0002830050652846694,
+      "learning_rate": 0.010777739732879826,
+      "loss": 0.2855,
+      "num_input_tokens_seen": 32596816,
+      "step": 35145
+    },
+    {
+      "epoch": 16.572371522866572,
+      "grad_norm": 0.0006620403728447855,
+      "learning_rate": 0.010755825468987562,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 32601712,
+      "step": 35150
+    },
+    {
+      "epoch": 16.574728901461576,
+      "grad_norm": 0.0008036388899199665,
+      "learning_rate": 0.010733932678296814,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 32606608,
+      "step": 35155
+    },
+    {
+      "epoch": 16.577086280056577,
+      "grad_norm": 0.0004102684906683862,
+      "learning_rate": 0.010712061364183817,
+      "loss": 0.3485,
+      "num_input_tokens_seen": 32610800,
+      "step": 35160
+    },
+    {
+      "epoch": 16.57944365865158,
+      "grad_norm": 0.0006706236163154244,
+      "learning_rate": 0.010690211530021337,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 32615568,
+      "step": 35165
+    },
+    {
+      "epoch": 16.58180103724658,
+      "grad_norm": 0.0004571249010041356,
+      "learning_rate": 0.01066838317917893,
+      "loss": 0.3141,
+      "num_input_tokens_seen": 32620912,
+      "step": 35170
+    },
+    {
+      "epoch": 16.584158415841586,
+      "grad_norm": 0.00027340013184584677,
+      "learning_rate": 0.010646576315022787,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 32625872,
+      "step": 35175
+    },
+    {
+      "epoch": 16.586515794436586,
+      "grad_norm": 0.00046912406105548143,
+      "learning_rate": 0.010624790940915785,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 32629520,
+      "step": 35180
+    },
+    {
+      "epoch": 16.58887317303159,
+      "grad_norm": 0.0004007226671092212,
+      "learning_rate": 0.0106030270602175,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 32634272,
+      "step": 35185
+    },
+    {
+      "epoch": 16.59123055162659,
+      "grad_norm": 0.0005749795236624777,
+      "learning_rate": 0.010581284676284252,
+      "loss": 0.4017,
+      "num_input_tokens_seen": 32638688,
+      "step": 35190
+    },
+    {
+      "epoch": 16.593587930221595,
+      "grad_norm": 0.0006376617820933461,
+      "learning_rate": 0.010559563792468923,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 32642832,
+      "step": 35195
+    },
+    {
+      "epoch": 16.595945308816596,
+      "grad_norm": 0.00034410165972076356,
+      "learning_rate": 0.010537864412121217,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 32647696,
+      "step": 35200
+    },
+    {
+      "epoch": 16.595945308816596,
+      "eval_loss": 0.3285839855670929,
+      "eval_runtime": 33.5409,
+      "eval_samples_per_second": 28.115,
+      "eval_steps_per_second": 14.072,
+      "num_input_tokens_seen": 32647696,
+      "step": 35200
+    },
+    {
+      "epoch": 16.5983026874116,
+      "grad_norm": 0.0007358368020504713,
+      "learning_rate": 0.010516186538587357,
+      "loss": 0.3139,
+      "num_input_tokens_seen": 32652608,
+      "step": 35205
+    },
+    {
+      "epoch": 16.6006600660066,
+      "grad_norm": 0.0003587876562960446,
+      "learning_rate": 0.01049453017521042,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 32656576,
+      "step": 35210
+    },
+    {
+      "epoch": 16.603017444601605,
+      "grad_norm": 0.00037776431418024004,
+      "learning_rate": 0.010472895325330083,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 32661792,
+      "step": 35215
+    },
+    {
+      "epoch": 16.605374823196605,
+      "grad_norm": 0.0005141954752616584,
+      "learning_rate": 0.010451281992282662,
+      "loss": 0.3294,
+      "num_input_tokens_seen": 32665936,
+      "step": 35220
+    },
+    {
+      "epoch": 16.607732201791606,
+      "grad_norm": 0.0004008707182947546,
+      "learning_rate": 0.01042969017940124,
+      "loss": 0.3706,
+      "num_input_tokens_seen": 32670688,
+      "step": 35225
+    },
+    {
+      "epoch": 16.61008958038661,
+      "grad_norm": 0.0012639540946111083,
+      "learning_rate": 0.01040811989001557,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 32676032,
+      "step": 35230
+    },
+    {
+      "epoch": 16.61244695898161,
+      "grad_norm": 0.0007288546767085791,
+      "learning_rate": 0.010386571127451992,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 32680656,
+      "step": 35235
+    },
+    {
+      "epoch": 16.614804337576615,
+      "grad_norm": 0.000802516529802233,
+      "learning_rate": 0.010365043895033682,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 32685120,
+      "step": 35240
+    },
+    {
+      "epoch": 16.617161716171616,
+      "grad_norm": 0.0006194415036588907,
+      "learning_rate": 0.010343538196080365,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 32689632,
+      "step": 35245
+    },
+    {
+      "epoch": 16.61951909476662,
+      "grad_norm": 0.0006778054521419108,
+      "learning_rate": 0.010322054033908457,
+      "loss": 0.308,
+      "num_input_tokens_seen": 32695136,
+      "step": 35250
+    },
+    {
+      "epoch": 16.62187647336162,
+      "grad_norm": 0.0004138107760809362,
+      "learning_rate": 0.010300591411831156,
+      "loss": 0.2956,
+      "num_input_tokens_seen": 32699760,
+      "step": 35255
+    },
+    {
+      "epoch": 16.624233851956625,
+      "grad_norm": 0.0006957348086871207,
+      "learning_rate": 0.010279150333158198,
+      "loss": 0.2907,
+      "num_input_tokens_seen": 32704720,
+      "step": 35260
+    },
+    {
+      "epoch": 16.626591230551625,
+      "grad_norm": 0.0008132615475915372,
+      "learning_rate": 0.010257730801196107,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 32709376,
+      "step": 35265
+    },
+    {
+      "epoch": 16.62894860914663,
+      "grad_norm": 0.00035567270242609084,
+      "learning_rate": 0.010236332819248056,
+      "loss": 0.2982,
+      "num_input_tokens_seen": 32713936,
+      "step": 35270
+    },
+    {
+      "epoch": 16.63130598774163,
+      "grad_norm": 0.00023457252245862037,
+      "learning_rate": 0.010214956390613854,
+      "loss": 0.3715,
+      "num_input_tokens_seen": 32718512,
+      "step": 35275
+    },
+    {
+      "epoch": 16.633663366336634,
+      "grad_norm": 0.0007917041657492518,
+      "learning_rate": 0.010193601518590034,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 32722768,
+      "step": 35280
+    },
+    {
+      "epoch": 16.636020744931635,
+      "grad_norm": 0.0007126876153051853,
+      "learning_rate": 0.010172268206469758,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 32726896,
+      "step": 35285
+    },
+    {
+      "epoch": 16.63837812352664,
+      "grad_norm": 0.0006806279998272657,
+      "learning_rate": 0.010150956457542897,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 32731456,
+      "step": 35290
+    },
+    {
+      "epoch": 16.64073550212164,
+      "grad_norm": 0.0006839651614427567,
+      "learning_rate": 0.010129666275096054,
+      "loss": 0.3032,
+      "num_input_tokens_seen": 32735824,
+      "step": 35295
+    },
+    {
+      "epoch": 16.643092880716644,
+      "grad_norm": 0.00043068578816019,
+      "learning_rate": 0.010108397662412338,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 32739760,
+      "step": 35300
+    },
+    {
+      "epoch": 16.645450259311644,
+      "grad_norm": 0.0005297245224937797,
+      "learning_rate": 0.010087150622771707,
+      "loss": 0.3309,
+      "num_input_tokens_seen": 32745088,
+      "step": 35305
+    },
+    {
+      "epoch": 16.64780763790665,
+      "grad_norm": 0.0008560963324271142,
+      "learning_rate": 0.010065925159450739,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 32749952,
+      "step": 35310
+    },
+    {
+      "epoch": 16.65016501650165,
+      "grad_norm": 0.0004009790427517146,
+      "learning_rate": 0.010044721275722618,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 32754576,
+      "step": 35315
+    },
+    {
+      "epoch": 16.652522395096653,
+      "grad_norm": 0.0012012337101623416,
+      "learning_rate": 0.01002353897485726,
+      "loss": 0.3879,
+      "num_input_tokens_seen": 32759216,
+      "step": 35320
+    },
+    {
+      "epoch": 16.654879773691654,
+      "grad_norm": 0.000440767063992098,
+      "learning_rate": 0.010002378260121236,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 32763808,
+      "step": 35325
+    },
+    {
+      "epoch": 16.65723715228666,
+      "grad_norm": 0.000414976297179237,
+      "learning_rate": 0.009981239134777786,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 32767904,
+      "step": 35330
+    },
+    {
+      "epoch": 16.65959453088166,
+      "grad_norm": 0.00037271055043675005,
+      "learning_rate": 0.009960121602086884,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 32772736,
+      "step": 35335
+    },
+    {
+      "epoch": 16.661951909476663,
+      "grad_norm": 0.00047861222992651165,
+      "learning_rate": 0.009939025665305062,
+      "loss": 0.3638,
+      "num_input_tokens_seen": 32777312,
+      "step": 35340
+    },
+    {
+      "epoch": 16.664309288071664,
+      "grad_norm": 0.0006322067929431796,
+      "learning_rate": 0.009917951327685597,
+      "loss": 0.304,
+      "num_input_tokens_seen": 32781376,
+      "step": 35345
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 0.0005210103117860854,
+      "learning_rate": 0.009896898592478425,
+      "loss": 0.3204,
+      "num_input_tokens_seen": 32785344,
+      "step": 35350
+    },
+    {
+      "epoch": 16.66902404526167,
+      "grad_norm": 0.00035669910721480846,
+      "learning_rate": 0.009875867462930132,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 32790368,
+      "step": 35355
+    },
+    {
+      "epoch": 16.671381423856673,
+      "grad_norm": 0.0007203141576610506,
+      "learning_rate": 0.009854857942284006,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 32794256,
+      "step": 35360
+    },
+    {
+      "epoch": 16.673738802451673,
+      "grad_norm": 0.0007836950826458633,
+      "learning_rate": 0.009833870033779923,
+      "loss": 0.3411,
+      "num_input_tokens_seen": 32798224,
+      "step": 35365
+    },
+    {
+      "epoch": 16.676096181046677,
+      "grad_norm": 0.0005519400001503527,
+      "learning_rate": 0.009812903740654527,
+      "loss": 0.322,
+      "num_input_tokens_seen": 32802688,
+      "step": 35370
+    },
+    {
+      "epoch": 16.678453559641678,
+      "grad_norm": 0.0003767031303141266,
+      "learning_rate": 0.009791959066141097,
+      "loss": 0.3093,
+      "num_input_tokens_seen": 32806912,
+      "step": 35375
+    },
+    {
+      "epoch": 16.680810938236682,
+      "grad_norm": 0.000884142704308033,
+      "learning_rate": 0.009771036013469537,
+      "loss": 0.3174,
+      "num_input_tokens_seen": 32810608,
+      "step": 35380
+    },
+    {
+      "epoch": 16.683168316831683,
+      "grad_norm": 0.0002806386037264019,
+      "learning_rate": 0.00975013458586646,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 32814544,
+      "step": 35385
+    },
+    {
+      "epoch": 16.685525695426687,
+      "grad_norm": 0.0005240946193225682,
+      "learning_rate": 0.009729254786555107,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 32819296,
+      "step": 35390
+    },
+    {
+      "epoch": 16.687883074021688,
+      "grad_norm": 0.0006672622985206544,
+      "learning_rate": 0.009708396618755421,
+      "loss": 0.2906,
+      "num_input_tokens_seen": 32823520,
+      "step": 35395
+    },
+    {
+      "epoch": 16.690240452616692,
+      "grad_norm": 0.0003476293059065938,
+      "learning_rate": 0.009687560085683994,
+      "loss": 0.2946,
+      "num_input_tokens_seen": 32828656,
+      "step": 35400
+    },
+    {
+      "epoch": 16.690240452616692,
+      "eval_loss": 0.3287907540798187,
+      "eval_runtime": 33.6239,
+      "eval_samples_per_second": 28.045,
+      "eval_steps_per_second": 14.038,
+      "num_input_tokens_seen": 32828656,
+      "step": 35400
+    },
+    {
+      "epoch": 16.692597831211692,
+      "grad_norm": 0.0005524521111510694,
+      "learning_rate": 0.009666745190554054,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 32833344,
+      "step": 35405
+    },
+    {
+      "epoch": 16.694955209806697,
+      "grad_norm": 0.0006862051668576896,
+      "learning_rate": 0.009645951936575553,
+      "loss": 0.2966,
+      "num_input_tokens_seen": 32838032,
+      "step": 35410
+    },
+    {
+      "epoch": 16.697312588401697,
+      "grad_norm": 0.0003528372326400131,
+      "learning_rate": 0.00962518032695509,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 32842336,
+      "step": 35415
+    },
+    {
+      "epoch": 16.6996699669967,
+      "grad_norm": 0.0007509420975111425,
+      "learning_rate": 0.009604430364895855,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 32847936,
+      "step": 35420
+    },
+    {
+      "epoch": 16.702027345591702,
+      "grad_norm": 0.0004186308360658586,
+      "learning_rate": 0.00958370205359777,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 32852432,
+      "step": 35425
+    },
+    {
+      "epoch": 16.704384724186703,
+      "grad_norm": 0.0003525874635670334,
+      "learning_rate": 0.009562995396257445,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 32856720,
+      "step": 35430
+    },
+    {
+      "epoch": 16.706742102781707,
+      "grad_norm": 0.000499775109346956,
+      "learning_rate": 0.009542310396068026,
+      "loss": 0.2875,
+      "num_input_tokens_seen": 32861936,
+      "step": 35435
+    },
+    {
+      "epoch": 16.709099481376708,
+      "grad_norm": 0.0004765216144733131,
+      "learning_rate": 0.009521647056219495,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 32866656,
+      "step": 35440
+    },
+    {
+      "epoch": 16.71145685997171,
+      "grad_norm": 0.0013469795230776072,
+      "learning_rate": 0.00950100537989832,
+      "loss": 0.3691,
+      "num_input_tokens_seen": 32871440,
+      "step": 35445
+    },
+    {
+      "epoch": 16.713814238566712,
+      "grad_norm": 0.0005327523685991764,
+      "learning_rate": 0.00948038537028772,
+      "loss": 0.3489,
+      "num_input_tokens_seen": 32876032,
+      "step": 35450
+    },
+    {
+      "epoch": 16.716171617161717,
+      "grad_norm": 0.0006182012148201466,
+      "learning_rate": 0.009459787030567617,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 32879904,
+      "step": 35455
+    },
+    {
+      "epoch": 16.718528995756717,
+      "grad_norm": 0.0002833232865668833,
+      "learning_rate": 0.00943921036391449,
+      "loss": 0.3173,
+      "num_input_tokens_seen": 32884592,
+      "step": 35460
+    },
+    {
+      "epoch": 16.72088637435172,
+      "grad_norm": 0.00037674896884709597,
+      "learning_rate": 0.009418655373501483,
+      "loss": 0.3636,
+      "num_input_tokens_seen": 32888608,
+      "step": 35465
+    },
+    {
+      "epoch": 16.723243752946722,
+      "grad_norm": 0.00043303752318024635,
+      "learning_rate": 0.00939812206249851,
+      "loss": 0.2961,
+      "num_input_tokens_seen": 32893248,
+      "step": 35470
+    },
+    {
+      "epoch": 16.725601131541726,
+      "grad_norm": 0.0013382938923314214,
+      "learning_rate": 0.009377610434072004,
+      "loss": 0.4059,
+      "num_input_tokens_seen": 32899360,
+      "step": 35475
+    },
+    {
+      "epoch": 16.727958510136727,
+      "grad_norm": 0.0006556882872246206,
+      "learning_rate": 0.009357120491385167,
+      "loss": 0.2716,
+      "num_input_tokens_seen": 32904080,
+      "step": 35480
+    },
+    {
+      "epoch": 16.73031588873173,
+      "grad_norm": 0.0003945123462472111,
+      "learning_rate": 0.009336652237597743,
+      "loss": 0.3871,
+      "num_input_tokens_seen": 32908416,
+      "step": 35485
+    },
+    {
+      "epoch": 16.73267326732673,
+      "grad_norm": 0.0003681787638925016,
+      "learning_rate": 0.009316205675866251,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 32912864,
+      "step": 35490
+    },
+    {
+      "epoch": 16.735030645921736,
+      "grad_norm": 0.0008430855814367533,
+      "learning_rate": 0.00929578080934379,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 32917328,
+      "step": 35495
+    },
+    {
+      "epoch": 16.737388024516736,
+      "grad_norm": 0.00029394353623501956,
+      "learning_rate": 0.00927537764118012,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 32921376,
+      "step": 35500
+    },
+    {
+      "epoch": 16.73974540311174,
+      "grad_norm": 0.0005177845596335828,
+      "learning_rate": 0.009254996174521678,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 32925616,
+      "step": 35505
+    },
+    {
+      "epoch": 16.74210278170674,
+      "grad_norm": 0.0005037295049987733,
+      "learning_rate": 0.009234636412511531,
+      "loss": 0.3099,
+      "num_input_tokens_seen": 32930048,
+      "step": 35510
+    },
+    {
+      "epoch": 16.744460160301745,
+      "grad_norm": 0.0007276572287082672,
+      "learning_rate": 0.009214298358289418,
+      "loss": 0.3529,
+      "num_input_tokens_seen": 32935024,
+      "step": 35515
+    },
+    {
+      "epoch": 16.746817538896746,
+      "grad_norm": 0.0005138261476531625,
+      "learning_rate": 0.00919398201499173,
+      "loss": 0.3525,
+      "num_input_tokens_seen": 32940752,
+      "step": 35520
+    },
+    {
+      "epoch": 16.74917491749175,
+      "grad_norm": 0.0007567817810922861,
+      "learning_rate": 0.009173687385751495,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 32946096,
+      "step": 35525
+    },
+    {
+      "epoch": 16.75153229608675,
+      "grad_norm": 0.0005093474755994976,
+      "learning_rate": 0.009153414473698407,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 32950640,
+      "step": 35530
+    },
+    {
+      "epoch": 16.753889674681755,
+      "grad_norm": 0.00038801608025096357,
+      "learning_rate": 0.009133163281958784,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 32955168,
+      "step": 35535
+    },
+    {
+      "epoch": 16.756247053276756,
+      "grad_norm": 0.000373963441234082,
+      "learning_rate": 0.009112933813655627,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 32960000,
+      "step": 35540
+    },
+    {
+      "epoch": 16.75860443187176,
+      "grad_norm": 0.0007343320758081973,
+      "learning_rate": 0.009092726071908573,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 32964544,
+      "step": 35545
+    },
+    {
+      "epoch": 16.76096181046676,
+      "grad_norm": 0.000839425774756819,
+      "learning_rate": 0.0090725400598339,
+      "loss": 0.3602,
+      "num_input_tokens_seen": 32969008,
+      "step": 35550
+    },
+    {
+      "epoch": 16.763319189061765,
+      "grad_norm": 0.0003549146349541843,
+      "learning_rate": 0.009052375780544563,
+      "loss": 0.2965,
+      "num_input_tokens_seen": 32973280,
+      "step": 35555
+    },
+    {
+      "epoch": 16.765676567656765,
+      "grad_norm": 0.0007642263080924749,
+      "learning_rate": 0.009032233237150144,
+      "loss": 0.2672,
+      "num_input_tokens_seen": 32977888,
+      "step": 35560
+    },
+    {
+      "epoch": 16.76803394625177,
+      "grad_norm": 0.0007601393153890967,
+      "learning_rate": 0.009012112432756875,
+      "loss": 0.31,
+      "num_input_tokens_seen": 32982208,
+      "step": 35565
+    },
+    {
+      "epoch": 16.77039132484677,
+      "grad_norm": 0.0007571281166747212,
+      "learning_rate": 0.008992013370467605,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 32986672,
+      "step": 35570
+    },
+    {
+      "epoch": 16.772748703441774,
+      "grad_norm": 0.0005108797340653837,
+      "learning_rate": 0.008971936053381924,
+      "loss": 0.3522,
+      "num_input_tokens_seen": 32991808,
+      "step": 35575
+    },
+    {
+      "epoch": 16.775106082036775,
+      "grad_norm": 0.0010889419354498386,
+      "learning_rate": 0.008951880484595953,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 32996368,
+      "step": 35580
+    },
+    {
+      "epoch": 16.77746346063178,
+      "grad_norm": 0.0004602622357197106,
+      "learning_rate": 0.008931846667202552,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 33001328,
+      "step": 35585
+    },
+    {
+      "epoch": 16.77982083922678,
+      "grad_norm": 0.0005714548169635236,
+      "learning_rate": 0.008911834604291152,
+      "loss": 0.3872,
+      "num_input_tokens_seen": 33006224,
+      "step": 35590
+    },
+    {
+      "epoch": 16.782178217821784,
+      "grad_norm": 0.0003089821548201144,
+      "learning_rate": 0.008891844298947882,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 33011344,
+      "step": 35595
+    },
+    {
+      "epoch": 16.784535596416784,
+      "grad_norm": 0.0006057682912796736,
+      "learning_rate": 0.008871875754255508,
+      "loss": 0.3516,
+      "num_input_tokens_seen": 33016320,
+      "step": 35600
+    },
+    {
+      "epoch": 16.784535596416784,
+      "eval_loss": 0.32903987169265747,
+      "eval_runtime": 33.6114,
+      "eval_samples_per_second": 28.056,
+      "eval_steps_per_second": 14.043,
+      "num_input_tokens_seen": 33016320,
+      "step": 35600
+    },
+    {
+      "epoch": 16.78689297501179,
+      "grad_norm": 0.0003284341946709901,
+      "learning_rate": 0.008851928973293422,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 33020672,
+      "step": 35605
+    },
+    {
+      "epoch": 16.78925035360679,
+      "grad_norm": 0.0003898429567925632,
+      "learning_rate": 0.00883200395913764,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 33025072,
+      "step": 35610
+    },
+    {
+      "epoch": 16.79160773220179,
+      "grad_norm": 0.0004570686141960323,
+      "learning_rate": 0.00881210071486091,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 33031456,
+      "step": 35615
+    },
+    {
+      "epoch": 16.793965110796794,
+      "grad_norm": 0.0004090372531209141,
+      "learning_rate": 0.008792219243532505,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 33036400,
+      "step": 35620
+    },
+    {
+      "epoch": 16.796322489391795,
+      "grad_norm": 0.00039548278436996043,
+      "learning_rate": 0.008772359548218428,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 33041008,
+      "step": 35625
+    },
+    {
+      "epoch": 16.7986798679868,
+      "grad_norm": 0.0005446187569759786,
+      "learning_rate": 0.008752521631981274,
+      "loss": 0.2946,
+      "num_input_tokens_seen": 33045680,
+      "step": 35630
+    },
+    {
+      "epoch": 16.8010372465818,
+      "grad_norm": 0.0006853933446109295,
+      "learning_rate": 0.008732705497880315,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 33049968,
+      "step": 35635
+    },
+    {
+      "epoch": 16.803394625176804,
+      "grad_norm": 0.0006402434664778411,
+      "learning_rate": 0.008712911148971459,
+      "loss": 0.287,
+      "num_input_tokens_seen": 33054032,
+      "step": 35640
+    },
+    {
+      "epoch": 16.805752003771804,
+      "grad_norm": 0.0006028083735145628,
+      "learning_rate": 0.008693138588307208,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 33059008,
+      "step": 35645
+    },
+    {
+      "epoch": 16.80810938236681,
+      "grad_norm": 0.0005751213175244629,
+      "learning_rate": 0.008673387818936762,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 33063568,
+      "step": 35650
+    },
+    {
+      "epoch": 16.81046676096181,
+      "grad_norm": 0.0005026414291933179,
+      "learning_rate": 0.008653658843905948,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 33068000,
+      "step": 35655
+    },
+    {
+      "epoch": 16.812824139556813,
+      "grad_norm": 0.00048330522258765996,
+      "learning_rate": 0.0086339516662572,
+      "loss": 0.3706,
+      "num_input_tokens_seen": 33073040,
+      "step": 35660
+    },
+    {
+      "epoch": 16.815181518151814,
+      "grad_norm": 0.0004073814779985696,
+      "learning_rate": 0.008614266289029638,
+      "loss": 0.3401,
+      "num_input_tokens_seen": 33077440,
+      "step": 35665
+    },
+    {
+      "epoch": 16.817538896746818,
+      "grad_norm": 0.00033892644569277763,
+      "learning_rate": 0.008594602715258965,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 33081728,
+      "step": 35670
+    },
+    {
+      "epoch": 16.81989627534182,
+      "grad_norm": 0.00115712801925838,
+      "learning_rate": 0.008574960947977573,
+      "loss": 0.3942,
+      "num_input_tokens_seen": 33086480,
+      "step": 35675
+    },
+    {
+      "epoch": 16.822253653936823,
+      "grad_norm": 0.0003177616454195231,
+      "learning_rate": 0.008555340990214438,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 33090496,
+      "step": 35680
+    },
+    {
+      "epoch": 16.824611032531823,
+      "grad_norm": 0.00039063437725417316,
+      "learning_rate": 0.008535742844995258,
+      "loss": 0.2892,
+      "num_input_tokens_seen": 33095264,
+      "step": 35685
+    },
+    {
+      "epoch": 16.826968411126828,
+      "grad_norm": 0.0006396467215381563,
+      "learning_rate": 0.008516166515342266,
+      "loss": 0.2896,
+      "num_input_tokens_seen": 33099616,
+      "step": 35690
+    },
+    {
+      "epoch": 16.82932578972183,
+      "grad_norm": 0.0006135418661870062,
+      "learning_rate": 0.008496612004274411,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 33104864,
+      "step": 35695
+    },
+    {
+      "epoch": 16.831683168316832,
+      "grad_norm": 0.000413261353969574,
+      "learning_rate": 0.008477079314807201,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 33109296,
+      "step": 35700
+    },
+    {
+      "epoch": 16.834040546911833,
+      "grad_norm": 0.0004142911056987941,
+      "learning_rate": 0.008457568449952874,
+      "loss": 0.334,
+      "num_input_tokens_seen": 33113568,
+      "step": 35705
+    },
+    {
+      "epoch": 16.836397925506837,
+      "grad_norm": 0.0008029933669604361,
+      "learning_rate": 0.008438079412720189,
+      "loss": 0.2669,
+      "num_input_tokens_seen": 33118272,
+      "step": 35710
+    },
+    {
+      "epoch": 16.838755304101838,
+      "grad_norm": 0.0008399310754612088,
+      "learning_rate": 0.00841861220611466,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 33123824,
+      "step": 35715
+    },
+    {
+      "epoch": 16.841112682696842,
+      "grad_norm": 0.0007256748504005373,
+      "learning_rate": 0.008399166833138355,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 33128016,
+      "step": 35720
+    },
+    {
+      "epoch": 16.843470061291843,
+      "grad_norm": 0.0003892066306434572,
+      "learning_rate": 0.008379743296789987,
+      "loss": 0.2998,
+      "num_input_tokens_seen": 33133248,
+      "step": 35725
+    },
+    {
+      "epoch": 16.845827439886847,
+      "grad_norm": 0.0008999413112178445,
+      "learning_rate": 0.008360341600064896,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 33138336,
+      "step": 35730
+    },
+    {
+      "epoch": 16.848184818481847,
+      "grad_norm": 0.0005491488263942301,
+      "learning_rate": 0.008340961745955121,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 33143024,
+      "step": 35735
+    },
+    {
+      "epoch": 16.85054219707685,
+      "grad_norm": 0.0006638644263148308,
+      "learning_rate": 0.008321603737449224,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 33147424,
+      "step": 35740
+    },
+    {
+      "epoch": 16.852899575671852,
+      "grad_norm": 0.0008855981286615133,
+      "learning_rate": 0.008302267577532479,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 33152768,
+      "step": 35745
+    },
+    {
+      "epoch": 16.855256954266856,
+      "grad_norm": 0.0008403942338190973,
+      "learning_rate": 0.008282953269186771,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 33156896,
+      "step": 35750
+    },
+    {
+      "epoch": 16.857614332861857,
+      "grad_norm": 0.0009427497279830277,
+      "learning_rate": 0.008263660815390567,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 33160768,
+      "step": 35755
+    },
+    {
+      "epoch": 16.85997171145686,
+      "grad_norm": 0.0005910337204113603,
+      "learning_rate": 0.008244390219119069,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 33165488,
+      "step": 35760
+    },
+    {
+      "epoch": 16.862329090051862,
+      "grad_norm": 0.000827876734547317,
+      "learning_rate": 0.008225141483343967,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 33170624,
+      "step": 35765
+    },
+    {
+      "epoch": 16.864686468646866,
+      "grad_norm": 0.00027759099612012506,
+      "learning_rate": 0.00820591461103372,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 33175616,
+      "step": 35770
+    },
+    {
+      "epoch": 16.867043847241867,
+      "grad_norm": 0.0004379054589662701,
+      "learning_rate": 0.008186709605153358,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 33179856,
+      "step": 35775
+    },
+    {
+      "epoch": 16.86940122583687,
+      "grad_norm": 0.0006795314257033169,
+      "learning_rate": 0.008167526468664492,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 33184288,
+      "step": 35780
+    },
+    {
+      "epoch": 16.87175860443187,
+      "grad_norm": 0.0009084612829610705,
+      "learning_rate": 0.008148365204525443,
+      "loss": 0.335,
+      "num_input_tokens_seen": 33188208,
+      "step": 35785
+    },
+    {
+      "epoch": 16.874115983026876,
+      "grad_norm": 0.00055878353305161,
+      "learning_rate": 0.00812922581569106,
+      "loss": 0.3371,
+      "num_input_tokens_seen": 33192560,
+      "step": 35790
+    },
+    {
+      "epoch": 16.876473361621876,
+      "grad_norm": 0.00043266150169074535,
+      "learning_rate": 0.008110108305112934,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 33197248,
+      "step": 35795
+    },
+    {
+      "epoch": 16.87883074021688,
+      "grad_norm": 0.0007820745231583714,
+      "learning_rate": 0.008091012675739223,
+      "loss": 0.3322,
+      "num_input_tokens_seen": 33202224,
+      "step": 35800
+    },
+    {
+      "epoch": 16.87883074021688,
+      "eval_loss": 0.3295246958732605,
+      "eval_runtime": 33.5871,
+      "eval_samples_per_second": 28.076,
+      "eval_steps_per_second": 14.053,
+      "num_input_tokens_seen": 33202224,
+      "step": 35800
+    },
+    {
+      "epoch": 16.88118811881188,
+      "grad_norm": 0.0004516129847615957,
+      "learning_rate": 0.008071938930514671,
+      "loss": 0.294,
+      "num_input_tokens_seen": 33206336,
+      "step": 35805
+    },
+    {
+      "epoch": 16.883545497406885,
+      "grad_norm": 0.0006439655553549528,
+      "learning_rate": 0.008052887072380726,
+      "loss": 0.2872,
+      "num_input_tokens_seen": 33210320,
+      "step": 35810
+    },
+    {
+      "epoch": 16.885902876001886,
+      "grad_norm": 0.0003637493937276304,
+      "learning_rate": 0.008033857104275437,
+      "loss": 0.3801,
+      "num_input_tokens_seen": 33215792,
+      "step": 35815
+    },
+    {
+      "epoch": 16.888260254596887,
+      "grad_norm": 0.0003559580072760582,
+      "learning_rate": 0.008014849029133424,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 33220096,
+      "step": 35820
+    },
+    {
+      "epoch": 16.89061763319189,
+      "grad_norm": 0.0005929641774855554,
+      "learning_rate": 0.007995862849885975,
+      "loss": 0.3673,
+      "num_input_tokens_seen": 33225072,
+      "step": 35825
+    },
+    {
+      "epoch": 16.89297501178689,
+      "grad_norm": 0.001169603201560676,
+      "learning_rate": 0.007976898569461032,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 33230576,
+      "step": 35830
+    },
+    {
+      "epoch": 16.895332390381895,
+      "grad_norm": 0.00047525804257020354,
+      "learning_rate": 0.007957956190783088,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 33234944,
+      "step": 35835
+    },
+    {
+      "epoch": 16.897689768976896,
+      "grad_norm": 0.00040280408575199544,
+      "learning_rate": 0.007939035716773324,
+      "loss": 0.3121,
+      "num_input_tokens_seen": 33239552,
+      "step": 35840
+    },
+    {
+      "epoch": 16.9000471475719,
+      "grad_norm": 0.0006616166210733354,
+      "learning_rate": 0.007920137150349487,
+      "loss": 0.333,
+      "num_input_tokens_seen": 33245200,
+      "step": 35845
+    },
+    {
+      "epoch": 16.9024045261669,
+      "grad_norm": 0.0009303883416578174,
+      "learning_rate": 0.007901260494425981,
+      "loss": 0.336,
+      "num_input_tokens_seen": 33250176,
+      "step": 35850
+    },
+    {
+      "epoch": 16.904761904761905,
+      "grad_norm": 0.0004137285868637264,
+      "learning_rate": 0.007882405751913861,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 33254512,
+      "step": 35855
+    },
+    {
+      "epoch": 16.907119283356906,
+      "grad_norm": 0.0006660724757239223,
+      "learning_rate": 0.007863572925720702,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 33258592,
+      "step": 35860
+    },
+    {
+      "epoch": 16.90947666195191,
+      "grad_norm": 0.00042660345206968486,
+      "learning_rate": 0.007844762018750827,
+      "loss": 0.2922,
+      "num_input_tokens_seen": 33263328,
+      "step": 35865
+    },
+    {
+      "epoch": 16.91183404054691,
+      "grad_norm": 0.0004455953894648701,
+      "learning_rate": 0.007825973033905054,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 33267728,
+      "step": 35870
+    },
+    {
+      "epoch": 16.914191419141915,
+      "grad_norm": 0.0004868892137892544,
+      "learning_rate": 0.007807205974080927,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 33272512,
+      "step": 35875
+    },
+    {
+      "epoch": 16.916548797736915,
+      "grad_norm": 0.0006725871353410184,
+      "learning_rate": 0.007788460842172551,
+      "loss": 0.343,
+      "num_input_tokens_seen": 33276336,
+      "step": 35880
+    },
+    {
+      "epoch": 16.91890617633192,
+      "grad_norm": 0.0005521398852579296,
+      "learning_rate": 0.0077697376410706285,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 33280992,
+      "step": 35885
+    },
+    {
+      "epoch": 16.92126355492692,
+      "grad_norm": 0.00065086898393929,
+      "learning_rate": 0.007751036373662567,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 33286272,
+      "step": 35890
+    },
+    {
+      "epoch": 16.923620933521924,
+      "grad_norm": 0.0003543230704963207,
+      "learning_rate": 0.00773235704283231,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 33291104,
+      "step": 35895
+    },
+    {
+      "epoch": 16.925978312116925,
+      "grad_norm": 0.0003701410605572164,
+      "learning_rate": 0.007713699651460437,
+      "loss": 0.329,
+      "num_input_tokens_seen": 33295616,
+      "step": 35900
+    },
+    {
+      "epoch": 16.92833569071193,
+      "grad_norm": 0.0006989045650698245,
+      "learning_rate": 0.007695064202424162,
+      "loss": 0.279,
+      "num_input_tokens_seen": 33300560,
+      "step": 35905
+    },
+    {
+      "epoch": 16.93069306930693,
+      "grad_norm": 0.0009980908362194896,
+      "learning_rate": 0.007676450698597286,
+      "loss": 0.3922,
+      "num_input_tokens_seen": 33304864,
+      "step": 35910
+    },
+    {
+      "epoch": 16.933050447901934,
+      "grad_norm": 0.000443210854427889,
+      "learning_rate": 0.007657859142850265,
+      "loss": 0.314,
+      "num_input_tokens_seen": 33309168,
+      "step": 35915
+    },
+    {
+      "epoch": 16.935407826496935,
+      "grad_norm": 0.0005872717592865229,
+      "learning_rate": 0.0076392895380501535,
+      "loss": 0.3488,
+      "num_input_tokens_seen": 33314080,
+      "step": 35920
+    },
+    {
+      "epoch": 16.93776520509194,
+      "grad_norm": 0.0005554712261073291,
+      "learning_rate": 0.007620741887060611,
+      "loss": 0.349,
+      "num_input_tokens_seen": 33318464,
+      "step": 35925
+    },
+    {
+      "epoch": 16.94012258368694,
+      "grad_norm": 0.00038231132202781737,
+      "learning_rate": 0.007602216192741901,
+      "loss": 0.2947,
+      "num_input_tokens_seen": 33323200,
+      "step": 35930
+    },
+    {
+      "epoch": 16.942479962281944,
+      "grad_norm": 0.0005870879394933581,
+      "learning_rate": 0.007583712457950969,
+      "loss": 0.3887,
+      "num_input_tokens_seen": 33328256,
+      "step": 35935
+    },
+    {
+      "epoch": 16.944837340876944,
+      "grad_norm": 0.0008170435903593898,
+      "learning_rate": 0.007565230685541269,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 33332064,
+      "step": 35940
+    },
+    {
+      "epoch": 16.94719471947195,
+      "grad_norm": 0.0007595454808324575,
+      "learning_rate": 0.007546770878362968,
+      "loss": 0.3705,
+      "num_input_tokens_seen": 33336544,
+      "step": 35945
+    },
+    {
+      "epoch": 16.94955209806695,
+      "grad_norm": 0.000386105413781479,
+      "learning_rate": 0.0075283330392627405,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 33341376,
+      "step": 35950
+    },
+    {
+      "epoch": 16.951909476661953,
+      "grad_norm": 0.00043192054727114737,
+      "learning_rate": 0.007509917171083979,
+      "loss": 0.315,
+      "num_input_tokens_seen": 33346064,
+      "step": 35955
+    },
+    {
+      "epoch": 16.954266855256954,
+      "grad_norm": 0.0010544974356889725,
+      "learning_rate": 0.007491523276666662,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 33350272,
+      "step": 35960
+    },
+    {
+      "epoch": 16.956624233851958,
+      "grad_norm": 0.00032562154228799045,
+      "learning_rate": 0.007473151358847318,
+      "loss": 0.3726,
+      "num_input_tokens_seen": 33354528,
+      "step": 35965
+    },
+    {
+      "epoch": 16.95898161244696,
+      "grad_norm": 0.0008898399537429214,
+      "learning_rate": 0.007454801420459117,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 33359744,
+      "step": 35970
+    },
+    {
+      "epoch": 16.961338991041963,
+      "grad_norm": 0.0008093075593933463,
+      "learning_rate": 0.0074364734643319105,
+      "loss": 0.283,
+      "num_input_tokens_seen": 33363728,
+      "step": 35975
+    },
+    {
+      "epoch": 16.963696369636963,
+      "grad_norm": 0.0011339415796101093,
+      "learning_rate": 0.007418167493292022,
+      "loss": 0.345,
+      "num_input_tokens_seen": 33367728,
+      "step": 35980
+    },
+    {
+      "epoch": 16.966053748231968,
+      "grad_norm": 0.0005104131996631622,
+      "learning_rate": 0.0073998835101625245,
+      "loss": 0.3279,
+      "num_input_tokens_seen": 33372240,
+      "step": 35985
+    },
+    {
+      "epoch": 16.968411126826968,
+      "grad_norm": 0.0009170422563329339,
+      "learning_rate": 0.007381621517762998,
+      "loss": 0.319,
+      "num_input_tokens_seen": 33376496,
+      "step": 35990
+    },
+    {
+      "epoch": 16.970768505421972,
+      "grad_norm": 0.0005571225774474442,
+      "learning_rate": 0.007363381518909689,
+      "loss": 0.3146,
+      "num_input_tokens_seen": 33381776,
+      "step": 35995
+    },
+    {
+      "epoch": 16.973125884016973,
+      "grad_norm": 0.0006086803623475134,
+      "learning_rate": 0.007345163516415448,
+      "loss": 0.2848,
+      "num_input_tokens_seen": 33385424,
+      "step": 36000
+    },
+    {
+      "epoch": 16.973125884016973,
+      "eval_loss": 0.3288109302520752,
+      "eval_runtime": 33.5534,
+      "eval_samples_per_second": 28.104,
+      "eval_steps_per_second": 14.067,
+      "num_input_tokens_seen": 33385424,
+      "step": 36000
+    },
+    {
+      "epoch": 16.975483262611977,
+      "grad_norm": 0.0008150177891366184,
+      "learning_rate": 0.007326967513089693,
+      "loss": 0.2956,
+      "num_input_tokens_seen": 33389856,
+      "step": 36005
+    },
+    {
+      "epoch": 16.977840641206978,
+      "grad_norm": 0.0006775417714379728,
+      "learning_rate": 0.0073087935117384815,
+      "loss": 0.352,
+      "num_input_tokens_seen": 33394688,
+      "step": 36010
+    },
+    {
+      "epoch": 16.980198019801982,
+      "grad_norm": 0.0004653901560232043,
+      "learning_rate": 0.007290641515164503,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 33399456,
+      "step": 36015
+    },
+    {
+      "epoch": 16.982555398396983,
+      "grad_norm": 0.0007135195774026215,
+      "learning_rate": 0.007272511526166986,
+      "loss": 0.3251,
+      "num_input_tokens_seen": 33404656,
+      "step": 36020
+    },
+    {
+      "epoch": 16.984912776991983,
+      "grad_norm": 0.0005712224519811571,
+      "learning_rate": 0.0072544035475418265,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 33409376,
+      "step": 36025
+    },
+    {
+      "epoch": 16.987270155586987,
+      "grad_norm": 0.0004541355010587722,
+      "learning_rate": 0.007236317582081475,
+      "loss": 0.3566,
+      "num_input_tokens_seen": 33413744,
+      "step": 36030
+    },
+    {
+      "epoch": 16.989627534181988,
+      "grad_norm": 0.0004411074332892895,
+      "learning_rate": 0.007218253632575066,
+      "loss": 0.3101,
+      "num_input_tokens_seen": 33418832,
+      "step": 36035
+    },
+    {
+      "epoch": 16.991984912776992,
+      "grad_norm": 0.0003810174821410328,
+      "learning_rate": 0.007200211701808223,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 33423184,
+      "step": 36040
+    },
+    {
+      "epoch": 16.994342291371993,
+      "grad_norm": 0.0004692662041634321,
+      "learning_rate": 0.007182191792563286,
+      "loss": 0.285,
+      "num_input_tokens_seen": 33427984,
+      "step": 36045
+    },
+    {
+      "epoch": 16.996699669966997,
+      "grad_norm": 0.0007006324594840407,
+      "learning_rate": 0.0071641939076191145,
+      "loss": 0.3426,
+      "num_input_tokens_seen": 33432304,
+      "step": 36050
+    },
+    {
+      "epoch": 16.999057048561998,
+      "grad_norm": 0.00040457770228385925,
+      "learning_rate": 0.007146218049751257,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 33436960,
+      "step": 36055
+    },
+    {
+      "epoch": 17.001414427157002,
+      "grad_norm": 0.00047322153113782406,
+      "learning_rate": 0.0071282642217317775,
+      "loss": 0.2516,
+      "num_input_tokens_seen": 33441968,
+      "step": 36060
+    },
+    {
+      "epoch": 17.003771805752002,
+      "grad_norm": 0.0008671689429320395,
+      "learning_rate": 0.007110332426329396,
+      "loss": 0.3292,
+      "num_input_tokens_seen": 33445952,
+      "step": 36065
+    },
+    {
+      "epoch": 17.006129184347007,
+      "grad_norm": 0.0005848984583280981,
+      "learning_rate": 0.007092422666309417,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 33450160,
+      "step": 36070
+    },
+    {
+      "epoch": 17.008486562942007,
+      "grad_norm": 0.000769835663959384,
+      "learning_rate": 0.0070745349444337295,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 33454352,
+      "step": 36075
+    },
+    {
+      "epoch": 17.01084394153701,
+      "grad_norm": 0.0003497824363876134,
+      "learning_rate": 0.007056669263460913,
+      "loss": 0.296,
+      "num_input_tokens_seen": 33458816,
+      "step": 36080
+    },
+    {
+      "epoch": 17.013201320132012,
+      "grad_norm": 0.0008175747934728861,
+      "learning_rate": 0.007038825626145995,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 33463680,
+      "step": 36085
+    },
+    {
+      "epoch": 17.015558698727016,
+      "grad_norm": 0.00042910772026516497,
+      "learning_rate": 0.007021004035240724,
+      "loss": 0.273,
+      "num_input_tokens_seen": 33468304,
+      "step": 36090
+    },
+    {
+      "epoch": 17.017916077322017,
+      "grad_norm": 0.000696908391546458,
+      "learning_rate": 0.007003204493493453,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 33472640,
+      "step": 36095
+    },
+    {
+      "epoch": 17.02027345591702,
+      "grad_norm": 0.0006350624025799334,
+      "learning_rate": 0.006985427003649036,
+      "loss": 0.316,
+      "num_input_tokens_seen": 33477312,
+      "step": 36100
+    },
+    {
+      "epoch": 17.02263083451202,
+      "grad_norm": 0.0005038013332523406,
+      "learning_rate": 0.006967671568449013,
+      "loss": 0.3892,
+      "num_input_tokens_seen": 33481760,
+      "step": 36105
+    },
+    {
+      "epoch": 17.024988213107026,
+      "grad_norm": 0.0004520198272075504,
+      "learning_rate": 0.006949938190631511,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 33487312,
+      "step": 36110
+    },
+    {
+      "epoch": 17.027345591702026,
+      "grad_norm": 0.0006870768265798688,
+      "learning_rate": 0.0069322268729311905,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 33491424,
+      "step": 36115
+    },
+    {
+      "epoch": 17.02970297029703,
+      "grad_norm": 0.0006449475768022239,
+      "learning_rate": 0.006914537618079403,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 33496112,
+      "step": 36120
+    },
+    {
+      "epoch": 17.03206034889203,
+      "grad_norm": 0.0004753140383400023,
+      "learning_rate": 0.006896870428804031,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 33500496,
+      "step": 36125
+    },
+    {
+      "epoch": 17.034417727487035,
+      "grad_norm": 0.0005500145489349961,
+      "learning_rate": 0.006879225307829595,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 33505296,
+      "step": 36130
+    },
+    {
+      "epoch": 17.036775106082036,
+      "grad_norm": 0.0003544551145751029,
+      "learning_rate": 0.00686160225787717,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 33509680,
+      "step": 36135
+    },
+    {
+      "epoch": 17.03913248467704,
+      "grad_norm": 0.0007854898576624691,
+      "learning_rate": 0.006844001281664463,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 33515776,
+      "step": 36140
+    },
+    {
+      "epoch": 17.04148986327204,
+      "grad_norm": 0.0007426285301335156,
+      "learning_rate": 0.006826422381905789,
+      "loss": 0.3136,
+      "num_input_tokens_seen": 33519968,
+      "step": 36145
+    },
+    {
+      "epoch": 17.043847241867045,
+      "grad_norm": 0.0007005475927144289,
+      "learning_rate": 0.006808865561311994,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 33524288,
+      "step": 36150
+    },
+    {
+      "epoch": 17.046204620462046,
+      "grad_norm": 0.0003987116215284914,
+      "learning_rate": 0.00679133082259058,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 33528544,
+      "step": 36155
+    },
+    {
+      "epoch": 17.04856199905705,
+      "grad_norm": 0.0006759123643860221,
+      "learning_rate": 0.00677381816844565,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 33533632,
+      "step": 36160
+    },
+    {
+      "epoch": 17.05091937765205,
+      "grad_norm": 0.00040764533332549036,
+      "learning_rate": 0.0067563276015778434,
+      "loss": 0.3307,
+      "num_input_tokens_seen": 33539664,
+      "step": 36165
+    },
+    {
+      "epoch": 17.053276756247055,
+      "grad_norm": 0.0006687079439871013,
+      "learning_rate": 0.006738859124684437,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 33543920,
+      "step": 36170
+    },
+    {
+      "epoch": 17.055634134842055,
+      "grad_norm": 0.000923357845749706,
+      "learning_rate": 0.006721412740459259,
+      "loss": 0.3436,
+      "num_input_tokens_seen": 33550064,
+      "step": 36175
+    },
+    {
+      "epoch": 17.05799151343706,
+      "grad_norm": 0.00032784699578769505,
+      "learning_rate": 0.006703988451592824,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 33555232,
+      "step": 36180
+    },
+    {
+      "epoch": 17.06034889203206,
+      "grad_norm": 0.0007915444439277053,
+      "learning_rate": 0.006686586260772114,
+      "loss": 0.299,
+      "num_input_tokens_seen": 33559552,
+      "step": 36185
+    },
+    {
+      "epoch": 17.062706270627064,
+      "grad_norm": 0.0007423890056088567,
+      "learning_rate": 0.006669206170680819,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 33563792,
+      "step": 36190
+    },
+    {
+      "epoch": 17.065063649222065,
+      "grad_norm": 0.0003422306617721915,
+      "learning_rate": 0.0066518481839991095,
+      "loss": 0.2741,
+      "num_input_tokens_seen": 33567760,
+      "step": 36195
+    },
+    {
+      "epoch": 17.06742102781707,
+      "grad_norm": 0.0007826330838724971,
+      "learning_rate": 0.006634512303403861,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 33572672,
+      "step": 36200
+    },
+    {
+      "epoch": 17.06742102781707,
+      "eval_loss": 0.32785990834236145,
+      "eval_runtime": 33.6175,
+      "eval_samples_per_second": 28.051,
+      "eval_steps_per_second": 14.04,
+      "num_input_tokens_seen": 33572672,
+      "step": 36200
+    },
+    {
+      "epoch": 17.06977840641207,
+      "grad_norm": 0.0003989459073636681,
+      "learning_rate": 0.0066171985315684355,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 33577664,
+      "step": 36205
+    },
+    {
+      "epoch": 17.072135785007074,
+      "grad_norm": 0.0004898390034213662,
+      "learning_rate": 0.0065999068711628806,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 33582448,
+      "step": 36210
+    },
+    {
+      "epoch": 17.074493163602074,
+      "grad_norm": 0.0004268506891094148,
+      "learning_rate": 0.0065826373248537295,
+      "loss": 0.3536,
+      "num_input_tokens_seen": 33586880,
+      "step": 36215
+    },
+    {
+      "epoch": 17.076850542197075,
+      "grad_norm": 0.0005107491160742939,
+      "learning_rate": 0.006565389895304218,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 33591136,
+      "step": 36220
+    },
+    {
+      "epoch": 17.07920792079208,
+      "grad_norm": 0.0006753834313713014,
+      "learning_rate": 0.006548164585174104,
+      "loss": 0.2943,
+      "num_input_tokens_seen": 33595904,
+      "step": 36225
+    },
+    {
+      "epoch": 17.08156529938708,
+      "grad_norm": 0.000523104565218091,
+      "learning_rate": 0.006530961397119728,
+      "loss": 0.3294,
+      "num_input_tokens_seen": 33600448,
+      "step": 36230
+    },
+    {
+      "epoch": 17.083922677982084,
+      "grad_norm": 0.00045666497317142785,
+      "learning_rate": 0.00651378033379405,
+      "loss": 0.3816,
+      "num_input_tokens_seen": 33604768,
+      "step": 36235
+    },
+    {
+      "epoch": 17.086280056577085,
+      "grad_norm": 0.000747787591535598,
+      "learning_rate": 0.006496621397846619,
+      "loss": 0.3845,
+      "num_input_tokens_seen": 33609232,
+      "step": 36240
+    },
+    {
+      "epoch": 17.08863743517209,
+      "grad_norm": 0.0008553153602406383,
+      "learning_rate": 0.006479484591923518,
+      "loss": 0.2917,
+      "num_input_tokens_seen": 33615408,
+      "step": 36245
+    },
+    {
+      "epoch": 17.09099481376709,
+      "grad_norm": 0.001033107633702457,
+      "learning_rate": 0.006462369918667515,
+      "loss": 0.3571,
+      "num_input_tokens_seen": 33619584,
+      "step": 36250
+    },
+    {
+      "epoch": 17.093352192362094,
+      "grad_norm": 0.0005313367582857609,
+      "learning_rate": 0.006445277380717851,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 33624736,
+      "step": 36255
+    },
+    {
+      "epoch": 17.095709570957094,
+      "grad_norm": 0.0005915130604989827,
+      "learning_rate": 0.006428206980710466,
+      "loss": 0.3448,
+      "num_input_tokens_seen": 33628688,
+      "step": 36260
+    },
+    {
+      "epoch": 17.0980669495521,
+      "grad_norm": 0.000554537633433938,
+      "learning_rate": 0.006411158721277788,
+      "loss": 0.3312,
+      "num_input_tokens_seen": 33633264,
+      "step": 36265
+    },
+    {
+      "epoch": 17.1004243281471,
+      "grad_norm": 0.0009283350082114339,
+      "learning_rate": 0.00639413260504888,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 33638304,
+      "step": 36270
+    },
+    {
+      "epoch": 17.102781706742103,
+      "grad_norm": 0.00040047505171969533,
+      "learning_rate": 0.006377128634649376,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 33642912,
+      "step": 36275
+    },
+    {
+      "epoch": 17.105139085337104,
+      "grad_norm": 0.00035039312206208706,
+      "learning_rate": 0.006360146812701528,
+      "loss": 0.2809,
+      "num_input_tokens_seen": 33647312,
+      "step": 36280
+    },
+    {
+      "epoch": 17.107496463932108,
+      "grad_norm": 0.0003422508598305285,
+      "learning_rate": 0.006343187141824125,
+      "loss": 0.314,
+      "num_input_tokens_seen": 33652224,
+      "step": 36285
+    },
+    {
+      "epoch": 17.10985384252711,
+      "grad_norm": 0.0006457779672928154,
+      "learning_rate": 0.00632624962463259,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 33657216,
+      "step": 36290
+    },
+    {
+      "epoch": 17.112211221122113,
+      "grad_norm": 0.0002799374342430383,
+      "learning_rate": 0.006309334263738853,
+      "loss": 0.3864,
+      "num_input_tokens_seen": 33661936,
+      "step": 36295
+    },
+    {
+      "epoch": 17.114568599717114,
+      "grad_norm": 0.0005390996229834855,
+      "learning_rate": 0.006292441061751508,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 33667248,
+      "step": 36300
+    },
+    {
+      "epoch": 17.116925978312118,
+      "grad_norm": 0.0004412139824125916,
+      "learning_rate": 0.0062755700212757054,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 33671392,
+      "step": 36305
+    },
+    {
+      "epoch": 17.11928335690712,
+      "grad_norm": 0.000838485371787101,
+      "learning_rate": 0.006258721144913148,
+      "loss": 0.293,
+      "num_input_tokens_seen": 33677472,
+      "step": 36310
+    },
+    {
+      "epoch": 17.121640735502123,
+      "grad_norm": 0.00040943027124740183,
+      "learning_rate": 0.0062418944352621575,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 33682336,
+      "step": 36315
+    },
+    {
+      "epoch": 17.123998114097123,
+      "grad_norm": 0.0004507197008933872,
+      "learning_rate": 0.0062250898949176405,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 33687424,
+      "step": 36320
+    },
+    {
+      "epoch": 17.126355492692127,
+      "grad_norm": 0.00044450120185501873,
+      "learning_rate": 0.006208307526471041,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 33692288,
+      "step": 36325
+    },
+    {
+      "epoch": 17.128712871287128,
+      "grad_norm": 0.00043017161078751087,
+      "learning_rate": 0.006191547332510405,
+      "loss": 0.2984,
+      "num_input_tokens_seen": 33696736,
+      "step": 36330
+    },
+    {
+      "epoch": 17.131070249882132,
+      "grad_norm": 0.0005896657821722329,
+      "learning_rate": 0.006174809315620416,
+      "loss": 0.2785,
+      "num_input_tokens_seen": 33701520,
+      "step": 36335
+    },
+    {
+      "epoch": 17.133427628477133,
+      "grad_norm": 0.0005446193972602487,
+      "learning_rate": 0.00615809347838221,
+      "loss": 0.3544,
+      "num_input_tokens_seen": 33705472,
+      "step": 36340
+    },
+    {
+      "epoch": 17.135785007072137,
+      "grad_norm": 0.000873936980497092,
+      "learning_rate": 0.006141399823373655,
+      "loss": 0.3605,
+      "num_input_tokens_seen": 33710224,
+      "step": 36345
+    },
+    {
+      "epoch": 17.138142385667138,
+      "grad_norm": 0.001080716960132122,
+      "learning_rate": 0.0061247283531690455,
+      "loss": 0.3023,
+      "num_input_tokens_seen": 33714560,
+      "step": 36350
+    },
+    {
+      "epoch": 17.14049976426214,
+      "grad_norm": 0.0003756500082090497,
+      "learning_rate": 0.0061080790703393895,
+      "loss": 0.3049,
+      "num_input_tokens_seen": 33718656,
+      "step": 36355
+    },
+    {
+      "epoch": 17.142857142857142,
+      "grad_norm": 0.0007005787920206785,
+      "learning_rate": 0.006091451977452217,
+      "loss": 0.2897,
+      "num_input_tokens_seen": 33723104,
+      "step": 36360
+    },
+    {
+      "epoch": 17.145214521452147,
+      "grad_norm": 0.0008298446773551404,
+      "learning_rate": 0.00607484707707161,
+      "loss": 0.319,
+      "num_input_tokens_seen": 33727584,
+      "step": 36365
+    },
+    {
+      "epoch": 17.147571900047147,
+      "grad_norm": 0.0014041990507394075,
+      "learning_rate": 0.006058264371758254,
+      "loss": 0.3591,
+      "num_input_tokens_seen": 33731984,
+      "step": 36370
+    },
+    {
+      "epoch": 17.14992927864215,
+      "grad_norm": 0.0005015658098272979,
+      "learning_rate": 0.00604170386406942,
+      "loss": 0.3537,
+      "num_input_tokens_seen": 33736640,
+      "step": 36375
+    },
+    {
+      "epoch": 17.152286657237152,
+      "grad_norm": 0.0003403151931706816,
+      "learning_rate": 0.006025165556558931,
+      "loss": 0.2536,
+      "num_input_tokens_seen": 33740512,
+      "step": 36380
+    },
+    {
+      "epoch": 17.154644035832156,
+      "grad_norm": 0.0005295755108818412,
+      "learning_rate": 0.006008649451777248,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 33745280,
+      "step": 36385
+    },
+    {
+      "epoch": 17.157001414427157,
+      "grad_norm": 0.0005690761026926339,
+      "learning_rate": 0.005992155552271283,
+      "loss": 0.3145,
+      "num_input_tokens_seen": 33750176,
+      "step": 36390
+    },
+    {
+      "epoch": 17.15935879302216,
+      "grad_norm": 0.0006725575076416135,
+      "learning_rate": 0.005975683860584685,
+      "loss": 0.382,
+      "num_input_tokens_seen": 33754896,
+      "step": 36395
+    },
+    {
+      "epoch": 17.16171617161716,
+      "grad_norm": 0.0005395645857788622,
+      "learning_rate": 0.0059592343792575385,
+      "loss": 0.3277,
+      "num_input_tokens_seen": 33759120,
+      "step": 36400
+    },
+    {
+      "epoch": 17.16171617161716,
+      "eval_loss": 0.32878726720809937,
+      "eval_runtime": 33.6366,
+      "eval_samples_per_second": 28.035,
+      "eval_steps_per_second": 14.032,
+      "num_input_tokens_seen": 33759120,
+      "step": 36400
+    },
+    {
+      "epoch": 17.164073550212166,
+      "grad_norm": 0.0007818529848009348,
+      "learning_rate": 0.0059428071108265975,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 33764352,
+      "step": 36405
+    },
+    {
+      "epoch": 17.166430928807166,
+      "grad_norm": 0.000807356380391866,
+      "learning_rate": 0.005926402057825136,
+      "loss": 0.2717,
+      "num_input_tokens_seen": 33768720,
+      "step": 36410
+    },
+    {
+      "epoch": 17.16878830740217,
+      "grad_norm": 0.0004392208647914231,
+      "learning_rate": 0.005910019222782997,
+      "loss": 0.2522,
+      "num_input_tokens_seen": 33773568,
+      "step": 36415
+    },
+    {
+      "epoch": 17.17114568599717,
+      "grad_norm": 0.00046646263217553496,
+      "learning_rate": 0.005893658608226643,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 33778304,
+      "step": 36420
+    },
+    {
+      "epoch": 17.173503064592172,
+      "grad_norm": 0.0006023020250722766,
+      "learning_rate": 0.0058773202166791045,
+      "loss": 0.3942,
+      "num_input_tokens_seen": 33782688,
+      "step": 36425
+    },
+    {
+      "epoch": 17.175860443187176,
+      "grad_norm": 0.0004182906122878194,
+      "learning_rate": 0.005861004050659918,
+      "loss": 0.3162,
+      "num_input_tokens_seen": 33787488,
+      "step": 36430
+    },
+    {
+      "epoch": 17.178217821782177,
+      "grad_norm": 0.000889479648321867,
+      "learning_rate": 0.005844710112685286,
+      "loss": 0.3021,
+      "num_input_tokens_seen": 33792288,
+      "step": 36435
+    },
+    {
+      "epoch": 17.18057520037718,
+      "grad_norm": 0.0003957651206292212,
+      "learning_rate": 0.005828438405267933,
+      "loss": 0.3005,
+      "num_input_tokens_seen": 33797408,
+      "step": 36440
+    },
+    {
+      "epoch": 17.18293257897218,
+      "grad_norm": 0.0004549328878056258,
+      "learning_rate": 0.00581218893091715,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 33802176,
+      "step": 36445
+    },
+    {
+      "epoch": 17.185289957567186,
+      "grad_norm": 0.0007586546707898378,
+      "learning_rate": 0.005795961692138801,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 33806640,
+      "step": 36450
+    },
+    {
+      "epoch": 17.187647336162186,
+      "grad_norm": 0.000483467651065439,
+      "learning_rate": 0.00577975669143535,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 33810288,
+      "step": 36455
+    },
+    {
+      "epoch": 17.19000471475719,
+      "grad_norm": 0.0004680331621784717,
+      "learning_rate": 0.005763573931305782,
+      "loss": 0.4085,
+      "num_input_tokens_seen": 33815040,
+      "step": 36460
+    },
+    {
+      "epoch": 17.19236209335219,
+      "grad_norm": 0.0003088585799559951,
+      "learning_rate": 0.005747413414245733,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 33819472,
+      "step": 36465
+    },
+    {
+      "epoch": 17.194719471947195,
+      "grad_norm": 0.0004385067441035062,
+      "learning_rate": 0.005731275142747294,
+      "loss": 0.3196,
+      "num_input_tokens_seen": 33823664,
+      "step": 36470
+    },
+    {
+      "epoch": 17.197076850542196,
+      "grad_norm": 0.00090055912733078,
+      "learning_rate": 0.005715159119299256,
+      "loss": 0.297,
+      "num_input_tokens_seen": 33828064,
+      "step": 36475
+    },
+    {
+      "epoch": 17.1994342291372,
+      "grad_norm": 0.000793890212662518,
+      "learning_rate": 0.005699065346386867,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 33833248,
+      "step": 36480
+    },
+    {
+      "epoch": 17.2017916077322,
+      "grad_norm": 0.00040228868601843715,
+      "learning_rate": 0.0056829938264919885,
+      "loss": 0.3378,
+      "num_input_tokens_seen": 33837392,
+      "step": 36485
+    },
+    {
+      "epoch": 17.204148986327205,
+      "grad_norm": 0.00044782867189496756,
+      "learning_rate": 0.005666944562093074,
+      "loss": 0.3435,
+      "num_input_tokens_seen": 33841744,
+      "step": 36490
+    },
+    {
+      "epoch": 17.206506364922205,
+      "grad_norm": 0.0004996951320208609,
+      "learning_rate": 0.005650917555665108,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 33845856,
+      "step": 36495
+    },
+    {
+      "epoch": 17.20886374351721,
+      "grad_norm": 0.000817609135992825,
+      "learning_rate": 0.005634912809679632,
+      "loss": 0.3523,
+      "num_input_tokens_seen": 33852000,
+      "step": 36500
+    },
+    {
+      "epoch": 17.21122112211221,
+      "grad_norm": 0.0005789933493360877,
+      "learning_rate": 0.005618930326604854,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 33857024,
+      "step": 36505
+    },
+    {
+      "epoch": 17.213578500707214,
+      "grad_norm": 0.00039743201341480017,
+      "learning_rate": 0.005602970108905386,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 33860944,
+      "step": 36510
+    },
+    {
+      "epoch": 17.215935879302215,
+      "grad_norm": 0.0004355394921731204,
+      "learning_rate": 0.005587032159042543,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 33865440,
+      "step": 36515
+    },
+    {
+      "epoch": 17.21829325789722,
+      "grad_norm": 0.0004314372199587524,
+      "learning_rate": 0.005571116479474158,
+      "loss": 0.2715,
+      "num_input_tokens_seen": 33869680,
+      "step": 36520
+    },
+    {
+      "epoch": 17.22065063649222,
+      "grad_norm": 0.0005241957842372358,
+      "learning_rate": 0.005555223072654619,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 33874480,
+      "step": 36525
+    },
+    {
+      "epoch": 17.223008015087224,
+      "grad_norm": 0.00046422568266279995,
+      "learning_rate": 0.005539351941034881,
+      "loss": 0.2902,
+      "num_input_tokens_seen": 33878624,
+      "step": 36530
+    },
+    {
+      "epoch": 17.225365393682225,
+      "grad_norm": 0.0004701920261140913,
+      "learning_rate": 0.0055235030870624865,
+      "loss": 0.3366,
+      "num_input_tokens_seen": 33884672,
+      "step": 36535
+    },
+    {
+      "epoch": 17.22772277227723,
+      "grad_norm": 0.0007555169286206365,
+      "learning_rate": 0.005507676513181514,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 33889200,
+      "step": 36540
+    },
+    {
+      "epoch": 17.23008015087223,
+      "grad_norm": 0.0007378468289971352,
+      "learning_rate": 0.005491872221832628,
+      "loss": 0.3776,
+      "num_input_tokens_seen": 33893552,
+      "step": 36545
+    },
+    {
+      "epoch": 17.232437529467234,
+      "grad_norm": 0.0005027760635130107,
+      "learning_rate": 0.005476090215453061,
+      "loss": 0.3106,
+      "num_input_tokens_seen": 33897728,
+      "step": 36550
+    },
+    {
+      "epoch": 17.234794908062234,
+      "grad_norm": 0.0008144726161845028,
+      "learning_rate": 0.0054603304964765675,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 33901952,
+      "step": 36555
+    },
+    {
+      "epoch": 17.23715228665724,
+      "grad_norm": 0.0003990373224951327,
+      "learning_rate": 0.005444593067333519,
+      "loss": 0.296,
+      "num_input_tokens_seen": 33906080,
+      "step": 36560
+    },
+    {
+      "epoch": 17.23950966525224,
+      "grad_norm": 0.00030283452360890806,
+      "learning_rate": 0.00542887793045081,
+      "loss": 0.2525,
+      "num_input_tokens_seen": 33911136,
+      "step": 36565
+    },
+    {
+      "epoch": 17.241867043847243,
+      "grad_norm": 0.00029801693744957447,
+      "learning_rate": 0.005413185088251932,
+      "loss": 0.2712,
+      "num_input_tokens_seen": 33915520,
+      "step": 36570
+    },
+    {
+      "epoch": 17.244224422442244,
+      "grad_norm": 0.0005231029354035854,
+      "learning_rate": 0.005397514543156884,
+      "loss": 0.3128,
+      "num_input_tokens_seen": 33920480,
+      "step": 36575
+    },
+    {
+      "epoch": 17.246581801037248,
+      "grad_norm": 0.0006826650351285934,
+      "learning_rate": 0.0053818662975822825,
+      "loss": 0.372,
+      "num_input_tokens_seen": 33924880,
+      "step": 36580
+    },
+    {
+      "epoch": 17.24893917963225,
+      "grad_norm": 0.00037748608156107366,
+      "learning_rate": 0.005366240353941315,
+      "loss": 0.2826,
+      "num_input_tokens_seen": 33930080,
+      "step": 36585
+    },
+    {
+      "epoch": 17.251296558227253,
+      "grad_norm": 0.001037707319483161,
+      "learning_rate": 0.005350636714643636,
+      "loss": 0.3815,
+      "num_input_tokens_seen": 33935376,
+      "step": 36590
+    },
+    {
+      "epoch": 17.253653936822253,
+      "grad_norm": 0.0002858676016330719,
+      "learning_rate": 0.005335055382095555,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 33940384,
+      "step": 36595
+    },
+    {
+      "epoch": 17.256011315417258,
+      "grad_norm": 0.0004706961626652628,
+      "learning_rate": 0.005319496358699915,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 33946224,
+      "step": 36600
+    },
+    {
+      "epoch": 17.256011315417258,
+      "eval_loss": 0.3282875418663025,
+      "eval_runtime": 33.5931,
+      "eval_samples_per_second": 28.071,
+      "eval_steps_per_second": 14.051,
+      "num_input_tokens_seen": 33946224,
+      "step": 36600
+    },
+    {
+      "epoch": 17.25836869401226,
+      "grad_norm": 0.0005235353601165116,
+      "learning_rate": 0.005303959646856099,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 33950784,
+      "step": 36605
+    },
+    {
+      "epoch": 17.260726072607262,
+      "grad_norm": 0.0003460862208157778,
+      "learning_rate": 0.005288445248960089,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 33955168,
+      "step": 36610
+    },
+    {
+      "epoch": 17.263083451202263,
+      "grad_norm": 0.0008065321599133313,
+      "learning_rate": 0.005272953167404354,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 33959472,
+      "step": 36615
+    },
+    {
+      "epoch": 17.265440829797264,
+      "grad_norm": 0.0005823386018164456,
+      "learning_rate": 0.005257483404578017,
+      "loss": 0.359,
+      "num_input_tokens_seen": 33964512,
+      "step": 36620
+    },
+    {
+      "epoch": 17.267798208392268,
+      "grad_norm": 0.0007136281346902251,
+      "learning_rate": 0.0052420359628666865,
+      "loss": 0.4109,
+      "num_input_tokens_seen": 33969152,
+      "step": 36625
+    },
+    {
+      "epoch": 17.27015558698727,
+      "grad_norm": 0.0007215572986751795,
+      "learning_rate": 0.00522661084465254,
+      "loss": 0.3643,
+      "num_input_tokens_seen": 33973872,
+      "step": 36630
+    },
+    {
+      "epoch": 17.272512965582273,
+      "grad_norm": 0.0003915661945939064,
+      "learning_rate": 0.005211208052314326,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 33978000,
+      "step": 36635
+    },
+    {
+      "epoch": 17.274870344177273,
+      "grad_norm": 0.0005975140957161784,
+      "learning_rate": 0.005195827588227391,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 33983328,
+      "step": 36640
+    },
+    {
+      "epoch": 17.277227722772277,
+      "grad_norm": 0.0004656660894397646,
+      "learning_rate": 0.0051804694547635255,
+      "loss": 0.2599,
+      "num_input_tokens_seen": 33988304,
+      "step": 36645
+    },
+    {
+      "epoch": 17.279585101367278,
+      "grad_norm": 0.0007464034133590758,
+      "learning_rate": 0.005165133654291232,
+      "loss": 0.275,
+      "num_input_tokens_seen": 33993520,
+      "step": 36650
+    },
+    {
+      "epoch": 17.281942479962282,
+      "grad_norm": 0.0008459362434223294,
+      "learning_rate": 0.005149820189175402,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 33997952,
+      "step": 36655
+    },
+    {
+      "epoch": 17.284299858557283,
+      "grad_norm": 0.0002889342431444675,
+      "learning_rate": 0.005134529061777598,
+      "loss": 0.356,
+      "num_input_tokens_seen": 34002624,
+      "step": 36660
+    },
+    {
+      "epoch": 17.286657237152287,
+      "grad_norm": 0.0005058592651039362,
+      "learning_rate": 0.005119260274455933,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 34007072,
+      "step": 36665
+    },
+    {
+      "epoch": 17.289014615747288,
+      "grad_norm": 0.000373824528651312,
+      "learning_rate": 0.005104013829565007,
+      "loss": 0.3156,
+      "num_input_tokens_seen": 34012480,
+      "step": 36670
+    },
+    {
+      "epoch": 17.291371994342292,
+      "grad_norm": 0.0016127419658005238,
+      "learning_rate": 0.005088789729456006,
+      "loss": 0.3967,
+      "num_input_tokens_seen": 34017088,
+      "step": 36675
+    },
+    {
+      "epoch": 17.293729372937293,
+      "grad_norm": 0.0009497016435489058,
+      "learning_rate": 0.005073587976476735,
+      "loss": 0.322,
+      "num_input_tokens_seen": 34022256,
+      "step": 36680
+    },
+    {
+      "epoch": 17.296086751532297,
+      "grad_norm": 0.00042622265755198896,
+      "learning_rate": 0.005058408572971418,
+      "loss": 0.3506,
+      "num_input_tokens_seen": 34027600,
+      "step": 36685
+    },
+    {
+      "epoch": 17.298444130127297,
+      "grad_norm": 0.00044443379738368094,
+      "learning_rate": 0.005043251521280983,
+      "loss": 0.353,
+      "num_input_tokens_seen": 34032320,
+      "step": 36690
+    },
+    {
+      "epoch": 17.3008015087223,
+      "grad_norm": 0.0004043570952489972,
+      "learning_rate": 0.005028116823742795,
+      "loss": 0.3442,
+      "num_input_tokens_seen": 34036304,
+      "step": 36695
+    },
+    {
+      "epoch": 17.303158887317302,
+      "grad_norm": 0.000492988561745733,
+      "learning_rate": 0.005013004482690819,
+      "loss": 0.3288,
+      "num_input_tokens_seen": 34041072,
+      "step": 36700
+    },
+    {
+      "epoch": 17.305516265912306,
+      "grad_norm": 0.0007729153730906546,
+      "learning_rate": 0.0049979145004555746,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 34046048,
+      "step": 36705
+    },
+    {
+      "epoch": 17.307873644507307,
+      "grad_norm": 0.0005343309021554887,
+      "learning_rate": 0.004982846879364116,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 34051008,
+      "step": 36710
+    },
+    {
+      "epoch": 17.31023102310231,
+      "grad_norm": 0.0005473493365570903,
+      "learning_rate": 0.0049678016217400535,
+      "loss": 0.35,
+      "num_input_tokens_seen": 34056048,
+      "step": 36715
+    },
+    {
+      "epoch": 17.31258840169731,
+      "grad_norm": 0.0006814555381424725,
+      "learning_rate": 0.004952778729903595,
+      "loss": 0.3641,
+      "num_input_tokens_seen": 34060304,
+      "step": 36720
+    },
+    {
+      "epoch": 17.314945780292316,
+      "grad_norm": 0.00043194720637984574,
+      "learning_rate": 0.004937778206171422,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 34064960,
+      "step": 36725
+    },
+    {
+      "epoch": 17.317303158887317,
+      "grad_norm": 0.0012731663882732391,
+      "learning_rate": 0.004922800052856835,
+      "loss": 0.3652,
+      "num_input_tokens_seen": 34070560,
+      "step": 36730
+    },
+    {
+      "epoch": 17.31966053748232,
+      "grad_norm": 0.0005822883686050773,
+      "learning_rate": 0.004907844272269602,
+      "loss": 0.3407,
+      "num_input_tokens_seen": 34075632,
+      "step": 36735
+    },
+    {
+      "epoch": 17.32201791607732,
+      "grad_norm": 0.00045690604019910097,
+      "learning_rate": 0.004892910866716144,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 34079904,
+      "step": 36740
+    },
+    {
+      "epoch": 17.324375294672326,
+      "grad_norm": 0.0007616311777383089,
+      "learning_rate": 0.004877999838499369,
+      "loss": 0.2782,
+      "num_input_tokens_seen": 34085120,
+      "step": 36745
+    },
+    {
+      "epoch": 17.326732673267326,
+      "grad_norm": 0.0003540867182891816,
+      "learning_rate": 0.0048631111899187065,
+      "loss": 0.3862,
+      "num_input_tokens_seen": 34090992,
+      "step": 36750
+    },
+    {
+      "epoch": 17.32909005186233,
+      "grad_norm": 0.0008200734155252576,
+      "learning_rate": 0.0048482449232702335,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 34095424,
+      "step": 36755
+    },
+    {
+      "epoch": 17.33144743045733,
+      "grad_norm": 0.0013423997443169355,
+      "learning_rate": 0.004833401040846469,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 34100592,
+      "step": 36760
+    },
+    {
+      "epoch": 17.333804809052335,
+      "grad_norm": 0.0006792671047151089,
+      "learning_rate": 0.004818579544936546,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 34104752,
+      "step": 36765
+    },
+    {
+      "epoch": 17.336162187647336,
+      "grad_norm": 0.000439649069448933,
+      "learning_rate": 0.004803780437826121,
+      "loss": 0.3645,
+      "num_input_tokens_seen": 34109152,
+      "step": 36770
+    },
+    {
+      "epoch": 17.33851956624234,
+      "grad_norm": 0.0007759581785649061,
+      "learning_rate": 0.004789003721797402,
+      "loss": 0.3264,
+      "num_input_tokens_seen": 34113536,
+      "step": 36775
+    },
+    {
+      "epoch": 17.34087694483734,
+      "grad_norm": 0.0007102675153873861,
+      "learning_rate": 0.004774249399129132,
+      "loss": 0.3379,
+      "num_input_tokens_seen": 34117968,
+      "step": 36780
+    },
+    {
+      "epoch": 17.343234323432345,
+      "grad_norm": 0.0007521254592575133,
+      "learning_rate": 0.004759517472096642,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 34122128,
+      "step": 36785
+    },
+    {
+      "epoch": 17.345591702027345,
+      "grad_norm": 0.0005490314797498286,
+      "learning_rate": 0.004744807942971746,
+      "loss": 0.2934,
+      "num_input_tokens_seen": 34126976,
+      "step": 36790
+    },
+    {
+      "epoch": 17.34794908062235,
+      "grad_norm": 0.000643485807813704,
+      "learning_rate": 0.004730120814022881,
+      "loss": 0.3377,
+      "num_input_tokens_seen": 34132128,
+      "step": 36795
+    },
+    {
+      "epoch": 17.35030645921735,
+      "grad_norm": 0.0004735707479994744,
+      "learning_rate": 0.004715456087514935,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 34137504,
+      "step": 36800
+    },
+    {
+      "epoch": 17.35030645921735,
+      "eval_loss": 0.33003726601600647,
+      "eval_runtime": 33.575,
+      "eval_samples_per_second": 28.086,
+      "eval_steps_per_second": 14.058,
+      "num_input_tokens_seen": 34137504,
+      "step": 36800
+    },
+    {
+      "epoch": 17.352663837812354,
+      "grad_norm": 0.0005217117141000926,
+      "learning_rate": 0.004700813765709432,
+      "loss": 0.3289,
+      "num_input_tokens_seen": 34142096,
+      "step": 36805
+    },
+    {
+      "epoch": 17.355021216407355,
+      "grad_norm": 0.0004938843776471913,
+      "learning_rate": 0.004686193850864401,
+      "loss": 0.3615,
+      "num_input_tokens_seen": 34147328,
+      "step": 36810
+    },
+    {
+      "epoch": 17.35737859500236,
+      "grad_norm": 0.0007479899795725942,
+      "learning_rate": 0.004671596345234385,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 34152480,
+      "step": 36815
+    },
+    {
+      "epoch": 17.35973597359736,
+      "grad_norm": 0.0004997591604478657,
+      "learning_rate": 0.00465702125107052,
+      "loss": 0.381,
+      "num_input_tokens_seen": 34156944,
+      "step": 36820
+    },
+    {
+      "epoch": 17.36209335219236,
+      "grad_norm": 0.0007531152805313468,
+      "learning_rate": 0.004642468570620506,
+      "loss": 0.2881,
+      "num_input_tokens_seen": 34161248,
+      "step": 36825
+    },
+    {
+      "epoch": 17.364450730787365,
+      "grad_norm": 0.0005572146037593484,
+      "learning_rate": 0.004627938306128482,
+      "loss": 0.3464,
+      "num_input_tokens_seen": 34166112,
+      "step": 36830
+    },
+    {
+      "epoch": 17.366808109382365,
+      "grad_norm": 0.0003279398661106825,
+      "learning_rate": 0.004613430459835255,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 34170688,
+      "step": 36835
+    },
+    {
+      "epoch": 17.36916548797737,
+      "grad_norm": 0.0007928090635687113,
+      "learning_rate": 0.004598945033978085,
+      "loss": 0.276,
+      "num_input_tokens_seen": 34175632,
+      "step": 36840
+    },
+    {
+      "epoch": 17.37152286657237,
+      "grad_norm": 0.0003681204980239272,
+      "learning_rate": 0.004584482030790804,
+      "loss": 0.366,
+      "num_input_tokens_seen": 34179840,
+      "step": 36845
+    },
+    {
+      "epoch": 17.373880245167374,
+      "grad_norm": 0.0005680880858562887,
+      "learning_rate": 0.004570041452503826,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 34183808,
+      "step": 36850
+    },
+    {
+      "epoch": 17.376237623762375,
+      "grad_norm": 0.0006804469157941639,
+      "learning_rate": 0.004555623301344003,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 34189504,
+      "step": 36855
+    },
+    {
+      "epoch": 17.37859500235738,
+      "grad_norm": 0.0004647014429792762,
+      "learning_rate": 0.004541227579534857,
+      "loss": 0.3555,
+      "num_input_tokens_seen": 34194160,
+      "step": 36860
+    },
+    {
+      "epoch": 17.38095238095238,
+      "grad_norm": 0.0007433334831148386,
+      "learning_rate": 0.004526854289296378,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 34198688,
+      "step": 36865
+    },
+    {
+      "epoch": 17.383309759547384,
+      "grad_norm": 0.0005077364621683955,
+      "learning_rate": 0.004512503432845078,
+      "loss": 0.343,
+      "num_input_tokens_seen": 34202448,
+      "step": 36870
+    },
+    {
+      "epoch": 17.385667138142384,
+      "grad_norm": 0.0009547967929393053,
+      "learning_rate": 0.004498175012394068,
+      "loss": 0.2912,
+      "num_input_tokens_seen": 34206816,
+      "step": 36875
+    },
+    {
+      "epoch": 17.38802451673739,
+      "grad_norm": 0.0006392842624336481,
+      "learning_rate": 0.004483869030152965,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 34210896,
+      "step": 36880
+    },
+    {
+      "epoch": 17.39038189533239,
+      "grad_norm": 0.0005804981919936836,
+      "learning_rate": 0.004469585488327904,
+      "loss": 0.369,
+      "num_input_tokens_seen": 34215232,
+      "step": 36885
+    },
+    {
+      "epoch": 17.392739273927393,
+      "grad_norm": 0.0007381613249890506,
+      "learning_rate": 0.0044553243891216395,
+      "loss": 0.2669,
+      "num_input_tokens_seen": 34219456,
+      "step": 36890
+    },
+    {
+      "epoch": 17.395096652522394,
+      "grad_norm": 0.0002923531283158809,
+      "learning_rate": 0.004441085734733363,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 34224032,
+      "step": 36895
+    },
+    {
+      "epoch": 17.397454031117398,
+      "grad_norm": 0.0005498527316376567,
+      "learning_rate": 0.004426869527358884,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 34228672,
+      "step": 36900
+    },
+    {
+      "epoch": 17.3998114097124,
+      "grad_norm": 0.00042544372263364494,
+      "learning_rate": 0.0044126757691905156,
+      "loss": 0.2698,
+      "num_input_tokens_seen": 34233136,
+      "step": 36905
+    },
+    {
+      "epoch": 17.402168788307403,
+      "grad_norm": 0.0005690432153642178,
+      "learning_rate": 0.004398504462417107,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 34238608,
+      "step": 36910
+    },
+    {
+      "epoch": 17.404526166902404,
+      "grad_norm": 0.0006854383391328156,
+      "learning_rate": 0.0043843556092240605,
+      "loss": 0.3492,
+      "num_input_tokens_seen": 34243200,
+      "step": 36915
+    },
+    {
+      "epoch": 17.406883545497408,
+      "grad_norm": 0.0005238706362433732,
+      "learning_rate": 0.004370229211793281,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 34247312,
+      "step": 36920
+    },
+    {
+      "epoch": 17.40924092409241,
+      "grad_norm": 0.0005173963727429509,
+      "learning_rate": 0.0043561252723032405,
+      "loss": 0.3491,
+      "num_input_tokens_seen": 34251648,
+      "step": 36925
+    },
+    {
+      "epoch": 17.411598302687413,
+      "grad_norm": 0.00045279020559974015,
+      "learning_rate": 0.004342043792929001,
+      "loss": 0.2829,
+      "num_input_tokens_seen": 34255888,
+      "step": 36930
+    },
+    {
+      "epoch": 17.413955681282413,
+      "grad_norm": 0.0005145229515619576,
+      "learning_rate": 0.004327984775842025,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 34259488,
+      "step": 36935
+    },
+    {
+      "epoch": 17.416313059877417,
+      "grad_norm": 0.0006233335006982088,
+      "learning_rate": 0.004313948223210428,
+      "loss": 0.3082,
+      "num_input_tokens_seen": 34264432,
+      "step": 36940
+    },
+    {
+      "epoch": 17.418670438472418,
+      "grad_norm": 0.0007719302666373551,
+      "learning_rate": 0.004299934137198846,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 34269840,
+      "step": 36945
+    },
+    {
+      "epoch": 17.421027817067422,
+      "grad_norm": 0.0003719167143572122,
+      "learning_rate": 0.004285942519968383,
+      "loss": 0.3722,
+      "num_input_tokens_seen": 34273968,
+      "step": 36950
+    },
+    {
+      "epoch": 17.423385195662423,
+      "grad_norm": 0.0004129989247303456,
+      "learning_rate": 0.004271973373676746,
+      "loss": 0.3078,
+      "num_input_tokens_seen": 34278624,
+      "step": 36955
+    },
+    {
+      "epoch": 17.425742574257427,
+      "grad_norm": 0.0004939650534652174,
+      "learning_rate": 0.004258026700478146,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 34284592,
+      "step": 36960
+    },
+    {
+      "epoch": 17.428099952852428,
+      "grad_norm": 0.0008056544465944171,
+      "learning_rate": 0.004244102502523328,
+      "loss": 0.2553,
+      "num_input_tokens_seen": 34289920,
+      "step": 36965
+    },
+    {
+      "epoch": 17.430457331447432,
+      "grad_norm": 0.0009021278820000589,
+      "learning_rate": 0.004230200781959592,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 34295264,
+      "step": 36970
+    },
+    {
+      "epoch": 17.432814710042432,
+      "grad_norm": 0.0004570194869302213,
+      "learning_rate": 0.004216321540930756,
+      "loss": 0.3012,
+      "num_input_tokens_seen": 34299840,
+      "step": 36975
+    },
+    {
+      "epoch": 17.435172088637437,
+      "grad_norm": 0.000942958693485707,
+      "learning_rate": 0.004202464781577175,
+      "loss": 0.3923,
+      "num_input_tokens_seen": 34303984,
+      "step": 36980
+    },
+    {
+      "epoch": 17.437529467232437,
+      "grad_norm": 0.00044511386658996344,
+      "learning_rate": 0.00418863050603574,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 34308992,
+      "step": 36985
+    },
+    {
+      "epoch": 17.43988684582744,
+      "grad_norm": 0.0005967160104773939,
+      "learning_rate": 0.004174818716439843,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 34313120,
+      "step": 36990
+    },
+    {
+      "epoch": 17.442244224422442,
+      "grad_norm": 0.0003829068155027926,
+      "learning_rate": 0.004161029414919464,
+      "loss": 0.3703,
+      "num_input_tokens_seen": 34317664,
+      "step": 36995
+    },
+    {
+      "epoch": 17.444601603017446,
+      "grad_norm": 0.000539066968485713,
+      "learning_rate": 0.004147262603601071,
+      "loss": 0.291,
+      "num_input_tokens_seen": 34322448,
+      "step": 37000
+    },
+    {
+      "epoch": 17.444601603017446,
+      "eval_loss": 0.3288927674293518,
+      "eval_runtime": 33.6369,
+      "eval_samples_per_second": 28.035,
+      "eval_steps_per_second": 14.032,
+      "num_input_tokens_seen": 34322448,
+      "step": 37000
+    },
+    {
+      "epoch": 17.446958981612447,
+      "grad_norm": 0.0004478166520129889,
+      "learning_rate": 0.004133518284607679,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 34326800,
+      "step": 37005
+    },
+    {
+      "epoch": 17.44931636020745,
+      "grad_norm": 0.00040764460572972894,
+      "learning_rate": 0.004119796460058861,
+      "loss": 0.3549,
+      "num_input_tokens_seen": 34331712,
+      "step": 37010
+    },
+    {
+      "epoch": 17.45167373880245,
+      "grad_norm": 0.0009178518666885793,
+      "learning_rate": 0.00410609713207064,
+      "loss": 0.3188,
+      "num_input_tokens_seen": 34337392,
+      "step": 37015
+    },
+    {
+      "epoch": 17.454031117397456,
+      "grad_norm": 0.0005285186925902963,
+      "learning_rate": 0.004092420302755678,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 34342208,
+      "step": 37020
+    },
+    {
+      "epoch": 17.456388495992456,
+      "grad_norm": 0.000378674129024148,
+      "learning_rate": 0.004078765974223103,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 34346784,
+      "step": 37025
+    },
+    {
+      "epoch": 17.458745874587457,
+      "grad_norm": 0.0005125647294335067,
+      "learning_rate": 0.004065134148578564,
+      "loss": 0.2903,
+      "num_input_tokens_seen": 34352288,
+      "step": 37030
+    },
+    {
+      "epoch": 17.46110325318246,
+      "grad_norm": 0.0007121069356799126,
+      "learning_rate": 0.004051524827924279,
+      "loss": 0.293,
+      "num_input_tokens_seen": 34357200,
+      "step": 37035
+    },
+    {
+      "epoch": 17.463460631777462,
+      "grad_norm": 0.00042418140219524503,
+      "learning_rate": 0.004037938014358955,
+      "loss": 0.3102,
+      "num_input_tokens_seen": 34362736,
+      "step": 37040
+    },
+    {
+      "epoch": 17.465818010372466,
+      "grad_norm": 0.0004353620170149952,
+      "learning_rate": 0.004024373709977863,
+      "loss": 0.333,
+      "num_input_tokens_seen": 34366976,
+      "step": 37045
+    },
+    {
+      "epoch": 17.468175388967467,
+      "grad_norm": 0.0007931871223263443,
+      "learning_rate": 0.004010831916872814,
+      "loss": 0.3062,
+      "num_input_tokens_seen": 34371872,
+      "step": 37050
+    },
+    {
+      "epoch": 17.47053276756247,
+      "grad_norm": 0.0006790512707084417,
+      "learning_rate": 0.003997312637132089,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 34376288,
+      "step": 37055
+    },
+    {
+      "epoch": 17.47289014615747,
+      "grad_norm": 0.0005010089371353388,
+      "learning_rate": 0.003983815872840535,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 34381232,
+      "step": 37060
+    },
+    {
+      "epoch": 17.475247524752476,
+      "grad_norm": 0.0004974972689524293,
+      "learning_rate": 0.003970341626079521,
+      "loss": 0.2862,
+      "num_input_tokens_seen": 34386096,
+      "step": 37065
+    },
+    {
+      "epoch": 17.477604903347476,
+      "grad_norm": 0.0003850339271593839,
+      "learning_rate": 0.003956889898926952,
+      "loss": 0.3201,
+      "num_input_tokens_seen": 34390480,
+      "step": 37070
+    },
+    {
+      "epoch": 17.47996228194248,
+      "grad_norm": 0.0007998758228495717,
+      "learning_rate": 0.0039434606934572675,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 34394416,
+      "step": 37075
+    },
+    {
+      "epoch": 17.48231966053748,
+      "grad_norm": 0.0007206824375316501,
+      "learning_rate": 0.003930054011741396,
+      "loss": 0.3667,
+      "num_input_tokens_seen": 34399040,
+      "step": 37080
+    },
+    {
+      "epoch": 17.484677039132485,
+      "grad_norm": 0.000803234928753227,
+      "learning_rate": 0.0039166698558468155,
+      "loss": 0.2594,
+      "num_input_tokens_seen": 34403696,
+      "step": 37085
+    },
+    {
+      "epoch": 17.487034417727486,
+      "grad_norm": 0.0010389246745035052,
+      "learning_rate": 0.0039033082278375594,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 34408832,
+      "step": 37090
+    },
+    {
+      "epoch": 17.48939179632249,
+      "grad_norm": 0.001172760734334588,
+      "learning_rate": 0.003889969129774112,
+      "loss": 0.3497,
+      "num_input_tokens_seen": 34413152,
+      "step": 37095
+    },
+    {
+      "epoch": 17.49174917491749,
+      "grad_norm": 0.0003351837513037026,
+      "learning_rate": 0.0038766525637135784,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 34417216,
+      "step": 37100
+    },
+    {
+      "epoch": 17.494106553512495,
+      "grad_norm": 0.000668613298330456,
+      "learning_rate": 0.0038633585317095318,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 34421024,
+      "step": 37105
+    },
+    {
+      "epoch": 17.496463932107496,
+      "grad_norm": 0.0006477537681348622,
+      "learning_rate": 0.00385008703581205,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 34425104,
+      "step": 37110
+    },
+    {
+      "epoch": 17.4988213107025,
+      "grad_norm": 0.0003321811091154814,
+      "learning_rate": 0.0038368380780677944,
+      "loss": 0.2583,
+      "num_input_tokens_seen": 34429392,
+      "step": 37115
+    },
+    {
+      "epoch": 17.5011786892975,
+      "grad_norm": 0.0003789081238210201,
+      "learning_rate": 0.003823611660519882,
+      "loss": 0.3208,
+      "num_input_tokens_seen": 34434128,
+      "step": 37120
+    },
+    {
+      "epoch": 17.503536067892504,
+      "grad_norm": 0.0007259150734171271,
+      "learning_rate": 0.0038104077852080475,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 34438208,
+      "step": 37125
+    },
+    {
+      "epoch": 17.505893446487505,
+      "grad_norm": 0.0008122393046505749,
+      "learning_rate": 0.003797226454168462,
+      "loss": 0.2842,
+      "num_input_tokens_seen": 34442992,
+      "step": 37130
+    },
+    {
+      "epoch": 17.50825082508251,
+      "grad_norm": 0.00046097851009108126,
+      "learning_rate": 0.003784067669433849,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 34447744,
+      "step": 37135
+    },
+    {
+      "epoch": 17.51060820367751,
+      "grad_norm": 0.0007157994550652802,
+      "learning_rate": 0.0037709314330334528,
+      "loss": 0.3186,
+      "num_input_tokens_seen": 34451840,
+      "step": 37140
+    },
+    {
+      "epoch": 17.512965582272514,
+      "grad_norm": 0.000744913297239691,
+      "learning_rate": 0.003757817746993086,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 34455856,
+      "step": 37145
+    },
+    {
+      "epoch": 17.515322960867515,
+      "grad_norm": 0.0008055859943851829,
+      "learning_rate": 0.0037447266133349977,
+      "loss": 0.3019,
+      "num_input_tokens_seen": 34460976,
+      "step": 37150
+    },
+    {
+      "epoch": 17.51768033946252,
+      "grad_norm": 0.0005771848373115063,
+      "learning_rate": 0.003731658034078039,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 34464720,
+      "step": 37155
+    },
+    {
+      "epoch": 17.52003771805752,
+      "grad_norm": 0.0003840390418190509,
+      "learning_rate": 0.0037186120112375153,
+      "loss": 0.3397,
+      "num_input_tokens_seen": 34469712,
+      "step": 37160
+    },
+    {
+      "epoch": 17.522395096652524,
+      "grad_norm": 0.0007763108587823808,
+      "learning_rate": 0.003705588546825317,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 34473648,
+      "step": 37165
+    },
+    {
+      "epoch": 17.524752475247524,
+      "grad_norm": 0.0007020782213658094,
+      "learning_rate": 0.0036925876428498205,
+      "loss": 0.2549,
+      "num_input_tokens_seen": 34479152,
+      "step": 37170
+    },
+    {
+      "epoch": 17.52710985384253,
+      "grad_norm": 0.00043743831338360906,
+      "learning_rate": 0.0036796093013159057,
+      "loss": 0.3258,
+      "num_input_tokens_seen": 34483568,
+      "step": 37175
+    },
+    {
+      "epoch": 17.52946723243753,
+      "grad_norm": 0.0004699224082287401,
+      "learning_rate": 0.0036666535242250217,
+      "loss": 0.3317,
+      "num_input_tokens_seen": 34488448,
+      "step": 37180
+    },
+    {
+      "epoch": 17.531824611032533,
+      "grad_norm": 0.00047378032468259335,
+      "learning_rate": 0.003653720313575104,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 34493440,
+      "step": 37185
+    },
+    {
+      "epoch": 17.534181989627534,
+      "grad_norm": 0.00041976291686296463,
+      "learning_rate": 0.003640809671360623,
+      "loss": 0.2998,
+      "num_input_tokens_seen": 34497776,
+      "step": 37190
+    },
+    {
+      "epoch": 17.536539368222538,
+      "grad_norm": 0.0004207214806228876,
+      "learning_rate": 0.003627921599572553,
+      "loss": 0.2917,
+      "num_input_tokens_seen": 34502400,
+      "step": 37195
+    },
+    {
+      "epoch": 17.53889674681754,
+      "grad_norm": 0.0004323215107433498,
+      "learning_rate": 0.003615056100198405,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 34506880,
+      "step": 37200
+    },
+    {
+      "epoch": 17.53889674681754,
+      "eval_loss": 0.3286420404911041,
+      "eval_runtime": 33.6349,
+      "eval_samples_per_second": 28.036,
+      "eval_steps_per_second": 14.033,
+      "num_input_tokens_seen": 34506880,
+      "step": 37200
+    },
+    {
+      "epoch": 17.541254125412543,
+      "grad_norm": 0.0007519710925407708,
+      "learning_rate": 0.003602213175222174,
+      "loss": 0.2883,
+      "num_input_tokens_seen": 34511200,
+      "step": 37205
+    },
+    {
+      "epoch": 17.543611504007544,
+      "grad_norm": 0.0004451487911865115,
+      "learning_rate": 0.0035893928266244432,
+      "loss": 0.3192,
+      "num_input_tokens_seen": 34516192,
+      "step": 37210
+    },
+    {
+      "epoch": 17.545968882602544,
+      "grad_norm": 0.0004127563734073192,
+      "learning_rate": 0.003576595056382248,
+      "loss": 0.3655,
+      "num_input_tokens_seen": 34520976,
+      "step": 37215
+    },
+    {
+      "epoch": 17.54832626119755,
+      "grad_norm": 0.0007921037613414228,
+      "learning_rate": 0.0035638198664691423,
+      "loss": 0.2934,
+      "num_input_tokens_seen": 34524624,
+      "step": 37220
+    },
+    {
+      "epoch": 17.55068363979255,
+      "grad_norm": 0.000482655072119087,
+      "learning_rate": 0.003551067258855267,
+      "loss": 0.3794,
+      "num_input_tokens_seen": 34529680,
+      "step": 37225
+    },
+    {
+      "epoch": 17.553041018387553,
+      "grad_norm": 0.0011437349021434784,
+      "learning_rate": 0.0035383372355071996,
+      "loss": 0.3681,
+      "num_input_tokens_seen": 34535088,
+      "step": 37230
+    },
+    {
+      "epoch": 17.555398396982554,
+      "grad_norm": 0.0004268866323400289,
+      "learning_rate": 0.0035256297983881023,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 34539264,
+      "step": 37235
+    },
+    {
+      "epoch": 17.557755775577558,
+      "grad_norm": 0.0008105778833851218,
+      "learning_rate": 0.0035129449494575747,
+      "loss": 0.345,
+      "num_input_tokens_seen": 34544160,
+      "step": 37240
+    },
+    {
+      "epoch": 17.56011315417256,
+      "grad_norm": 0.0007616877555847168,
+      "learning_rate": 0.0035002826906718187,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 34548848,
+      "step": 37245
+    },
+    {
+      "epoch": 17.562470532767563,
+      "grad_norm": 0.00036554582766257226,
+      "learning_rate": 0.003487643023983522,
+      "loss": 0.3519,
+      "num_input_tokens_seen": 34553344,
+      "step": 37250
+    },
+    {
+      "epoch": 17.564827911362563,
+      "grad_norm": 0.0003823288716375828,
+      "learning_rate": 0.003475025951341842,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 34557312,
+      "step": 37255
+    },
+    {
+      "epoch": 17.567185289957568,
+      "grad_norm": 0.0010599285596981645,
+      "learning_rate": 0.00346243147469249,
+      "loss": 0.3978,
+      "num_input_tokens_seen": 34561616,
+      "step": 37260
+    },
+    {
+      "epoch": 17.569542668552568,
+      "grad_norm": 0.0009310562163591385,
+      "learning_rate": 0.0034498595959777446,
+      "loss": 0.3654,
+      "num_input_tokens_seen": 34567216,
+      "step": 37265
+    },
+    {
+      "epoch": 17.571900047147572,
+      "grad_norm": 0.0014333120780065656,
+      "learning_rate": 0.003437310317136305,
+      "loss": 0.3228,
+      "num_input_tokens_seen": 34572176,
+      "step": 37270
+    },
+    {
+      "epoch": 17.574257425742573,
+      "grad_norm": 0.0009174278238788247,
+      "learning_rate": 0.0034247836401034236,
+      "loss": 0.3833,
+      "num_input_tokens_seen": 34577008,
+      "step": 37275
+    },
+    {
+      "epoch": 17.576614804337577,
+      "grad_norm": 0.0006690616137348115,
+      "learning_rate": 0.003412279566810905,
+      "loss": 0.3812,
+      "num_input_tokens_seen": 34581440,
+      "step": 37280
+    },
+    {
+      "epoch": 17.578972182932578,
+      "grad_norm": 0.0009704427211545408,
+      "learning_rate": 0.00339979809918699,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 34585328,
+      "step": 37285
+    },
+    {
+      "epoch": 17.581329561527582,
+      "grad_norm": 0.0007848695386201143,
+      "learning_rate": 0.0033873392391565228,
+      "loss": 0.3015,
+      "num_input_tokens_seen": 34589872,
+      "step": 37290
+    },
+    {
+      "epoch": 17.583686940122583,
+      "grad_norm": 0.0003673058236017823,
+      "learning_rate": 0.003374902988640782,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 34595040,
+      "step": 37295
+    },
+    {
+      "epoch": 17.586044318717587,
+      "grad_norm": 0.0005028516170568764,
+      "learning_rate": 0.0033624893495576014,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 34599824,
+      "step": 37300
+    },
+    {
+      "epoch": 17.588401697312587,
+      "grad_norm": 0.00047094293404370546,
+      "learning_rate": 0.0033500983238213323,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 34604256,
+      "step": 37305
+    },
+    {
+      "epoch": 17.59075907590759,
+      "grad_norm": 0.0008451066678389907,
+      "learning_rate": 0.0033377299133428126,
+      "loss": 0.306,
+      "num_input_tokens_seen": 34608144,
+      "step": 37310
+    },
+    {
+      "epoch": 17.593116454502592,
+      "grad_norm": 0.0007351780077442527,
+      "learning_rate": 0.003325384120029434,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 34612928,
+      "step": 37315
+    },
+    {
+      "epoch": 17.595473833097596,
+      "grad_norm": 0.0005200334708206356,
+      "learning_rate": 0.0033130609457850233,
+      "loss": 0.325,
+      "num_input_tokens_seen": 34617328,
+      "step": 37320
+    },
+    {
+      "epoch": 17.597831211692597,
+      "grad_norm": 0.0005066985613666475,
+      "learning_rate": 0.0033007603925100104,
+      "loss": 0.3351,
+      "num_input_tokens_seen": 34621984,
+      "step": 37325
+    },
+    {
+      "epoch": 17.6001885902876,
+      "grad_norm": 0.0008185971528291702,
+      "learning_rate": 0.003288482462101294,
+      "loss": 0.3441,
+      "num_input_tokens_seen": 34627584,
+      "step": 37330
+    },
+    {
+      "epoch": 17.602545968882602,
+      "grad_norm": 0.0004147316503804177,
+      "learning_rate": 0.0032762271564522605,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 34632640,
+      "step": 37335
+    },
+    {
+      "epoch": 17.604903347477606,
+      "grad_norm": 0.0005242318147793412,
+      "learning_rate": 0.003263994477452864,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 34636368,
+      "step": 37340
+    },
+    {
+      "epoch": 17.607260726072607,
+      "grad_norm": 0.000596045283600688,
+      "learning_rate": 0.0032517844269895125,
+      "loss": 0.2785,
+      "num_input_tokens_seen": 34641104,
+      "step": 37345
+    },
+    {
+      "epoch": 17.60961810466761,
+      "grad_norm": 0.0006532028783112764,
+      "learning_rate": 0.0032395970069451496,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 34645424,
+      "step": 37350
+    },
+    {
+      "epoch": 17.61197548326261,
+      "grad_norm": 0.0004919898346997797,
+      "learning_rate": 0.0032274322191992388,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 34649840,
+      "step": 37355
+    },
+    {
+      "epoch": 17.614332861857616,
+      "grad_norm": 0.0008316156454384327,
+      "learning_rate": 0.0032152900656277294,
+      "loss": 0.324,
+      "num_input_tokens_seen": 34654256,
+      "step": 37360
+    },
+    {
+      "epoch": 17.616690240452616,
+      "grad_norm": 0.000532429781742394,
+      "learning_rate": 0.0032031705481030902,
+      "loss": 0.3413,
+      "num_input_tokens_seen": 34659392,
+      "step": 37365
+    },
+    {
+      "epoch": 17.61904761904762,
+      "grad_norm": 0.0005673686973750591,
+      "learning_rate": 0.0031910736684943428,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 34663968,
+      "step": 37370
+    },
+    {
+      "epoch": 17.62140499764262,
+      "grad_norm": 0.0007942650699988008,
+      "learning_rate": 0.0031789994286669453,
+      "loss": 0.3271,
+      "num_input_tokens_seen": 34668656,
+      "step": 37375
+    },
+    {
+      "epoch": 17.623762376237625,
+      "grad_norm": 0.0005353006417863071,
+      "learning_rate": 0.003166947830482908,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 34673456,
+      "step": 37380
+    },
+    {
+      "epoch": 17.626119754832626,
+      "grad_norm": 0.0004426763334777206,
+      "learning_rate": 0.003154918875800727,
+      "loss": 0.3842,
+      "num_input_tokens_seen": 34678384,
+      "step": 37385
+    },
+    {
+      "epoch": 17.62847713342763,
+      "grad_norm": 0.0008104530279524624,
+      "learning_rate": 0.00314291256647542,
+      "loss": 0.313,
+      "num_input_tokens_seen": 34682672,
+      "step": 37390
+    },
+    {
+      "epoch": 17.63083451202263,
+      "grad_norm": 0.0003211347502656281,
+      "learning_rate": 0.0031309289043585375,
+      "loss": 0.3174,
+      "num_input_tokens_seen": 34686736,
+      "step": 37395
+    },
+    {
+      "epoch": 17.633191890617635,
+      "grad_norm": 0.0009414918022230268,
+      "learning_rate": 0.003118967891298069,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 34692032,
+      "step": 37400
+    },
+    {
+      "epoch": 17.633191890617635,
+      "eval_loss": 0.3294546604156494,
+      "eval_runtime": 33.5717,
+      "eval_samples_per_second": 28.089,
+      "eval_steps_per_second": 14.059,
+      "num_input_tokens_seen": 34692032,
+      "step": 37400
+    },
+    {
+      "epoch": 17.635549269212635,
+      "grad_norm": 0.0004390760441310704,
+      "learning_rate": 0.003107029529138572,
+      "loss": 0.2746,
+      "num_input_tokens_seen": 34696944,
+      "step": 37405
+    },
+    {
+      "epoch": 17.63790664780764,
+      "grad_norm": 0.0004573217884171754,
+      "learning_rate": 0.0030951138197211235,
+      "loss": 0.3953,
+      "num_input_tokens_seen": 34701776,
+      "step": 37410
+    },
+    {
+      "epoch": 17.64026402640264,
+      "grad_norm": 0.0007593524060212076,
+      "learning_rate": 0.0030832207648832377,
+      "loss": 0.2489,
+      "num_input_tokens_seen": 34706400,
+      "step": 37415
+    },
+    {
+      "epoch": 17.64262140499764,
+      "grad_norm": 0.00048541853902861476,
+      "learning_rate": 0.0030713503664589635,
+      "loss": 0.326,
+      "num_input_tokens_seen": 34710416,
+      "step": 37420
+    },
+    {
+      "epoch": 17.644978783592645,
+      "grad_norm": 0.0007462420617230237,
+      "learning_rate": 0.0030595026262788872,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 34714352,
+      "step": 37425
+    },
+    {
+      "epoch": 17.647336162187646,
+      "grad_norm": 0.0003508043009787798,
+      "learning_rate": 0.00304767754617008,
+      "loss": 0.2788,
+      "num_input_tokens_seen": 34719104,
+      "step": 37430
+    },
+    {
+      "epoch": 17.64969354078265,
+      "grad_norm": 0.0006209732382558286,
+      "learning_rate": 0.003035875127956117,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 34724160,
+      "step": 37435
+    },
+    {
+      "epoch": 17.65205091937765,
+      "grad_norm": 0.00041662619332782924,
+      "learning_rate": 0.0030240953734570752,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 34728160,
+      "step": 37440
+    },
+    {
+      "epoch": 17.654408297972655,
+      "grad_norm": 0.00045692428830079734,
+      "learning_rate": 0.003012338284489535,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 34732080,
+      "step": 37445
+    },
+    {
+      "epoch": 17.656765676567655,
+      "grad_norm": 0.0004900508210994303,
+      "learning_rate": 0.0030006038628665964,
+      "loss": 0.3697,
+      "num_input_tokens_seen": 34736768,
+      "step": 37450
+    },
+    {
+      "epoch": 17.65912305516266,
+      "grad_norm": 0.000510718731675297,
+      "learning_rate": 0.002988892110397845,
+      "loss": 0.2971,
+      "num_input_tokens_seen": 34741280,
+      "step": 37455
+    },
+    {
+      "epoch": 17.66148043375766,
+      "grad_norm": 0.00032273787655867636,
+      "learning_rate": 0.0029772030288894025,
+      "loss": 0.2894,
+      "num_input_tokens_seen": 34745168,
+      "step": 37460
+    },
+    {
+      "epoch": 17.663837812352664,
+      "grad_norm": 0.0007615797221660614,
+      "learning_rate": 0.0029655366201438438,
+      "loss": 0.3118,
+      "num_input_tokens_seen": 34750096,
+      "step": 37465
+    },
+    {
+      "epoch": 17.666195190947665,
+      "grad_norm": 0.00070519233122468,
+      "learning_rate": 0.0029538928859602965,
+      "loss": 0.2833,
+      "num_input_tokens_seen": 34754768,
+      "step": 37470
+    },
+    {
+      "epoch": 17.66855256954267,
+      "grad_norm": 0.0007389942184090614,
+      "learning_rate": 0.002942271828134374,
+      "loss": 0.326,
+      "num_input_tokens_seen": 34759392,
+      "step": 37475
+    },
+    {
+      "epoch": 17.67090994813767,
+      "grad_norm": 0.00048648269148543477,
+      "learning_rate": 0.00293067344845816,
+      "loss": 0.2987,
+      "num_input_tokens_seen": 34763552,
+      "step": 37480
+    },
+    {
+      "epoch": 17.673267326732674,
+      "grad_norm": 0.0006198094342835248,
+      "learning_rate": 0.0029190977487202896,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 34767536,
+      "step": 37485
+    },
+    {
+      "epoch": 17.675624705327674,
+      "grad_norm": 0.0004802331968676299,
+      "learning_rate": 0.0029075447307058853,
+      "loss": 0.3002,
+      "num_input_tokens_seen": 34772864,
+      "step": 37490
+    },
+    {
+      "epoch": 17.67798208392268,
+      "grad_norm": 0.0008357365150004625,
+      "learning_rate": 0.0028960143961965722,
+      "loss": 0.355,
+      "num_input_tokens_seen": 34777536,
+      "step": 37495
+    },
+    {
+      "epoch": 17.68033946251768,
+      "grad_norm": 0.00044881334179081023,
+      "learning_rate": 0.002884506746970461,
+      "loss": 0.3402,
+      "num_input_tokens_seen": 34781920,
+      "step": 37500
+    },
+    {
+      "epoch": 17.682696841112683,
+      "grad_norm": 0.0008361172513104975,
+      "learning_rate": 0.0028730217848021654,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 34786016,
+      "step": 37505
+    },
+    {
+      "epoch": 17.685054219707684,
+      "grad_norm": 0.0004608554590959102,
+      "learning_rate": 0.0028615595114628188,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 34790688,
+      "step": 37510
+    },
+    {
+      "epoch": 17.68741159830269,
+      "grad_norm": 0.00090793363051489,
+      "learning_rate": 0.002850119928720074,
+      "loss": 0.3697,
+      "num_input_tokens_seen": 34795200,
+      "step": 37515
+    },
+    {
+      "epoch": 17.68976897689769,
+      "grad_norm": 0.00042429607128724456,
+      "learning_rate": 0.0028387030383380195,
+      "loss": 0.3167,
+      "num_input_tokens_seen": 34799456,
+      "step": 37520
+    },
+    {
+      "epoch": 17.692126355492693,
+      "grad_norm": 0.0008380450308322906,
+      "learning_rate": 0.0028273088420772974,
+      "loss": 0.297,
+      "num_input_tokens_seen": 34804096,
+      "step": 37525
+    },
+    {
+      "epoch": 17.694483734087694,
+      "grad_norm": 0.0004040731000714004,
+      "learning_rate": 0.002815937341695068,
+      "loss": 0.322,
+      "num_input_tokens_seen": 34809408,
+      "step": 37530
+    },
+    {
+      "epoch": 17.696841112682698,
+      "grad_norm": 0.0009438873967155814,
+      "learning_rate": 0.0028045885389448963,
+      "loss": 0.2938,
+      "num_input_tokens_seen": 34813440,
+      "step": 37535
+    },
+    {
+      "epoch": 17.6991984912777,
+      "grad_norm": 0.00031633221078664064,
+      "learning_rate": 0.002793262435576965,
+      "loss": 0.2901,
+      "num_input_tokens_seen": 34818448,
+      "step": 37540
+    },
+    {
+      "epoch": 17.701555869872703,
+      "grad_norm": 0.0007332817767746747,
+      "learning_rate": 0.0027819590333378772,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 34822672,
+      "step": 37545
+    },
+    {
+      "epoch": 17.703913248467703,
+      "grad_norm": 0.0003344420692883432,
+      "learning_rate": 0.002770678333970755,
+      "loss": 0.2727,
+      "num_input_tokens_seen": 34827232,
+      "step": 37550
+    },
+    {
+      "epoch": 17.706270627062707,
+      "grad_norm": 0.00040897520375438035,
+      "learning_rate": 0.0027594203392152573,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 34831888,
+      "step": 37555
+    },
+    {
+      "epoch": 17.708628005657708,
+      "grad_norm": 0.00045731497812084854,
+      "learning_rate": 0.002748185050807478,
+      "loss": 0.3132,
+      "num_input_tokens_seen": 34836896,
+      "step": 37560
+    },
+    {
+      "epoch": 17.710985384252712,
+      "grad_norm": 0.0006865360774099827,
+      "learning_rate": 0.002736972470480031,
+      "loss": 0.3985,
+      "num_input_tokens_seen": 34841392,
+      "step": 37565
+    },
+    {
+      "epoch": 17.713342762847713,
+      "grad_norm": 0.0005605011247098446,
+      "learning_rate": 0.002725782599962068,
+      "loss": 0.398,
+      "num_input_tokens_seen": 34845856,
+      "step": 37570
+    },
+    {
+      "epoch": 17.715700141442717,
+      "grad_norm": 0.0004165408608969301,
+      "learning_rate": 0.0027146154409791734,
+      "loss": 0.2853,
+      "num_input_tokens_seen": 34850688,
+      "step": 37575
+    },
+    {
+      "epoch": 17.718057520037718,
+      "grad_norm": 0.0007452224381268024,
+      "learning_rate": 0.002703470995253504,
+      "loss": 0.2901,
+      "num_input_tokens_seen": 34854912,
+      "step": 37580
+    },
+    {
+      "epoch": 17.720414898632722,
+      "grad_norm": 0.000551573175471276,
+      "learning_rate": 0.0026923492645036184,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 34860032,
+      "step": 37585
+    },
+    {
+      "epoch": 17.722772277227723,
+      "grad_norm": 0.00044551165774464607,
+      "learning_rate": 0.0026812502504446776,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 34864944,
+      "step": 37590
+    },
+    {
+      "epoch": 17.725129655822727,
+      "grad_norm": 0.0004751787637360394,
+      "learning_rate": 0.0026701739547882798,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 34868960,
+      "step": 37595
+    },
+    {
+      "epoch": 17.727487034417727,
+      "grad_norm": 0.0005792527226731181,
+      "learning_rate": 0.0026591203792425077,
+      "loss": 0.272,
+      "num_input_tokens_seen": 34873984,
+      "step": 37600
+    },
+    {
+      "epoch": 17.727487034417727,
+      "eval_loss": 0.3286833167076111,
+      "eval_runtime": 33.5815,
+      "eval_samples_per_second": 28.081,
+      "eval_steps_per_second": 14.055,
+      "num_input_tokens_seen": 34873984,
+      "step": 37600
+    },
+    {
+      "epoch": 17.72984441301273,
+      "grad_norm": 0.0005902040284126997,
+      "learning_rate": 0.0026480895255119818,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 34878464,
+      "step": 37605
+    },
+    {
+      "epoch": 17.732201791607732,
+      "grad_norm": 0.0009298733784817159,
+      "learning_rate": 0.002637081395297791,
+      "loss": 0.32,
+      "num_input_tokens_seen": 34881840,
+      "step": 37610
+    },
+    {
+      "epoch": 17.734559170202736,
+      "grad_norm": 0.0007836091099306941,
+      "learning_rate": 0.0026260959902975113,
+      "loss": 0.2679,
+      "num_input_tokens_seen": 34885920,
+      "step": 37615
+    },
+    {
+      "epoch": 17.736916548797737,
+      "grad_norm": 0.0005165631300769746,
+      "learning_rate": 0.00261513331220527,
+      "loss": 0.2918,
+      "num_input_tokens_seen": 34889920,
+      "step": 37620
+    },
+    {
+      "epoch": 17.739273927392738,
+      "grad_norm": 0.000515027204528451,
+      "learning_rate": 0.0026041933627116154,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 34894048,
+      "step": 37625
+    },
+    {
+      "epoch": 17.74163130598774,
+      "grad_norm": 0.0004051442083436996,
+      "learning_rate": 0.0025932761435036476,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 34898528,
+      "step": 37630
+    },
+    {
+      "epoch": 17.743988684582742,
+      "grad_norm": 0.0004288375494070351,
+      "learning_rate": 0.002582381656264904,
+      "loss": 0.332,
+      "num_input_tokens_seen": 34904560,
+      "step": 37635
+    },
+    {
+      "epoch": 17.746346063177747,
+      "grad_norm": 0.00035965561983175576,
+      "learning_rate": 0.0025715099026754895,
+      "loss": 0.3376,
+      "num_input_tokens_seen": 34909312,
+      "step": 37640
+    },
+    {
+      "epoch": 17.748703441772747,
+      "grad_norm": 0.0006114624557085335,
+      "learning_rate": 0.002560660884411947,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 34914288,
+      "step": 37645
+    },
+    {
+      "epoch": 17.75106082036775,
+      "grad_norm": 0.0005548015469685197,
+      "learning_rate": 0.0025498346031473385,
+      "loss": 0.3319,
+      "num_input_tokens_seen": 34918832,
+      "step": 37650
+    },
+    {
+      "epoch": 17.753418198962752,
+      "grad_norm": 0.0007279913988895714,
+      "learning_rate": 0.0025390310605511945,
+      "loss": 0.3801,
+      "num_input_tokens_seen": 34923312,
+      "step": 37655
+    },
+    {
+      "epoch": 17.755775577557756,
+      "grad_norm": 0.0006665096152573824,
+      "learning_rate": 0.0025282502582895995,
+      "loss": 0.2656,
+      "num_input_tokens_seen": 34928608,
+      "step": 37660
+    },
+    {
+      "epoch": 17.758132956152757,
+      "grad_norm": 0.00036828016163781285,
+      "learning_rate": 0.002517492198025023,
+      "loss": 0.3265,
+      "num_input_tokens_seen": 34933040,
+      "step": 37665
+    },
+    {
+      "epoch": 17.76049033474776,
+      "grad_norm": 0.00042760063661262393,
+      "learning_rate": 0.0025067568814165554,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 34936640,
+      "step": 37670
+    },
+    {
+      "epoch": 17.76284771334276,
+      "grad_norm": 0.00037097776657901704,
+      "learning_rate": 0.0024960443101196884,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 34941120,
+      "step": 37675
+    },
+    {
+      "epoch": 17.765205091937766,
+      "grad_norm": 0.0005064661963842809,
+      "learning_rate": 0.002485354485786434,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 34945216,
+      "step": 37680
+    },
+    {
+      "epoch": 17.767562470532766,
+      "grad_norm": 0.0004890935961157084,
+      "learning_rate": 0.002474687410065307,
+      "loss": 0.3024,
+      "num_input_tokens_seen": 34949344,
+      "step": 37685
+    },
+    {
+      "epoch": 17.76991984912777,
+      "grad_norm": 0.0007763559115119278,
+      "learning_rate": 0.002464043084601308,
+      "loss": 0.26,
+      "num_input_tokens_seen": 34956096,
+      "step": 37690
+    },
+    {
+      "epoch": 17.77227722772277,
+      "grad_norm": 0.0004075201286468655,
+      "learning_rate": 0.0024534215110358915,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 34960816,
+      "step": 37695
+    },
+    {
+      "epoch": 17.774634606317775,
+      "grad_norm": 0.00045727583346888423,
+      "learning_rate": 0.002442822691007096,
+      "loss": 0.2707,
+      "num_input_tokens_seen": 34965264,
+      "step": 37700
+    },
+    {
+      "epoch": 17.776991984912776,
+      "grad_norm": 0.00044423964573070407,
+      "learning_rate": 0.002432246626149348,
+      "loss": 0.2974,
+      "num_input_tokens_seen": 34969408,
+      "step": 37705
+    },
+    {
+      "epoch": 17.77934936350778,
+      "grad_norm": 0.0007591815083287656,
+      "learning_rate": 0.002421693318093626,
+      "loss": 0.3768,
+      "num_input_tokens_seen": 34973792,
+      "step": 37710
+    },
+    {
+      "epoch": 17.78170674210278,
+      "grad_norm": 0.0008438210934400558,
+      "learning_rate": 0.0024111627684673784,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 34979056,
+      "step": 37715
+    },
+    {
+      "epoch": 17.784064120697785,
+      "grad_norm": 0.0005953813088126481,
+      "learning_rate": 0.0024006549788945395,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 34984640,
+      "step": 37720
+    },
+    {
+      "epoch": 17.786421499292786,
+      "grad_norm": 0.0002810252772178501,
+      "learning_rate": 0.0023901699509955463,
+      "loss": 0.2999,
+      "num_input_tokens_seen": 34989216,
+      "step": 37725
+    },
+    {
+      "epoch": 17.78877887788779,
+      "grad_norm": 0.0008308939286507666,
+      "learning_rate": 0.0023797076863873554,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 34993696,
+      "step": 37730
+    },
+    {
+      "epoch": 17.79113625648279,
+      "grad_norm": 0.0004384329076856375,
+      "learning_rate": 0.0023692681866833262,
+      "loss": 0.3298,
+      "num_input_tokens_seen": 34998352,
+      "step": 37735
+    },
+    {
+      "epoch": 17.793493635077795,
+      "grad_norm": 0.001529626315459609,
+      "learning_rate": 0.0023588514534934046,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 35002928,
+      "step": 37740
+    },
+    {
+      "epoch": 17.795851013672795,
+      "grad_norm": 0.00033704997622407973,
+      "learning_rate": 0.002348457488423955,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 35008688,
+      "step": 37745
+    },
+    {
+      "epoch": 17.7982083922678,
+      "grad_norm": 0.00025971702416427433,
+      "learning_rate": 0.0023380862930778624,
+      "loss": 0.2892,
+      "num_input_tokens_seen": 35013344,
+      "step": 37750
+    },
+    {
+      "epoch": 17.8005657708628,
+      "grad_norm": 0.0006099995807744563,
+      "learning_rate": 0.0023277378690545135,
+      "loss": 0.326,
+      "num_input_tokens_seen": 35017456,
+      "step": 37755
+    },
+    {
+      "epoch": 17.802923149457804,
+      "grad_norm": 0.0008124166051857173,
+      "learning_rate": 0.0023174122179497325,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 35022272,
+      "step": 37760
+    },
+    {
+      "epoch": 17.805280528052805,
+      "grad_norm": 0.0004669433692470193,
+      "learning_rate": 0.0023071093413558784,
+      "loss": 0.3933,
+      "num_input_tokens_seen": 35027552,
+      "step": 37765
+    },
+    {
+      "epoch": 17.80763790664781,
+      "grad_norm": 0.0004706977342721075,
+      "learning_rate": 0.002296829240861814,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 35032512,
+      "step": 37770
+    },
+    {
+      "epoch": 17.80999528524281,
+      "grad_norm": 0.0007418959285132587,
+      "learning_rate": 0.002286571918052821,
+      "loss": 0.3163,
+      "num_input_tokens_seen": 35036496,
+      "step": 37775
+    },
+    {
+      "epoch": 17.812352663837814,
+      "grad_norm": 0.0005056341178715229,
+      "learning_rate": 0.0022763373745107174,
+      "loss": 0.299,
+      "num_input_tokens_seen": 35040832,
+      "step": 37780
+    },
+    {
+      "epoch": 17.814710042432814,
+      "grad_norm": 0.0007658149115741253,
+      "learning_rate": 0.0022661256118138074,
+      "loss": 0.3018,
+      "num_input_tokens_seen": 35045888,
+      "step": 37785
+    },
+    {
+      "epoch": 17.81706742102782,
+      "grad_norm": 0.000459774601040408,
+      "learning_rate": 0.0022559366315368645,
+      "loss": 0.31,
+      "num_input_tokens_seen": 35049824,
+      "step": 37790
+    },
+    {
+      "epoch": 17.81942479962282,
+      "grad_norm": 0.0009567197412252426,
+      "learning_rate": 0.002245770435251182,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 35054400,
+      "step": 37795
+    },
+    {
+      "epoch": 17.821782178217823,
+      "grad_norm": 0.0009094777633436024,
+      "learning_rate": 0.002235627024524456,
+      "loss": 0.3184,
+      "num_input_tokens_seen": 35058576,
+      "step": 37800
+    },
+    {
+      "epoch": 17.821782178217823,
+      "eval_loss": 0.32945606112480164,
+      "eval_runtime": 33.6254,
+      "eval_samples_per_second": 28.044,
+      "eval_steps_per_second": 14.037,
+      "num_input_tokens_seen": 35058576,
+      "step": 37800
+    },
+    {
+      "epoch": 17.824139556812824,
+      "grad_norm": 0.001166377798654139,
+      "learning_rate": 0.0022255064009209847,
+      "loss": 0.3568,
+      "num_input_tokens_seen": 35063360,
+      "step": 37805
+    },
+    {
+      "epoch": 17.826496935407828,
+      "grad_norm": 0.0006106608198024333,
+      "learning_rate": 0.0022154085660014864,
+      "loss": 0.3121,
+      "num_input_tokens_seen": 35068336,
+      "step": 37810
+    },
+    {
+      "epoch": 17.82885431400283,
+      "grad_norm": 0.0009221793152391911,
+      "learning_rate": 0.0022053335213231494,
+      "loss": 0.308,
+      "num_input_tokens_seen": 35072688,
+      "step": 37815
+    },
+    {
+      "epoch": 17.831211692597833,
+      "grad_norm": 0.0005924475262872875,
+      "learning_rate": 0.002195281268439697,
+      "loss": 0.3483,
+      "num_input_tokens_seen": 35077984,
+      "step": 37820
+    },
+    {
+      "epoch": 17.833569071192834,
+      "grad_norm": 0.00046837719855830073,
+      "learning_rate": 0.002185251808901306,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 35082480,
+      "step": 37825
+    },
+    {
+      "epoch": 17.835926449787834,
+      "grad_norm": 0.0005469353054650128,
+      "learning_rate": 0.0021752451442546227,
+      "loss": 0.3241,
+      "num_input_tokens_seen": 35087520,
+      "step": 37830
+    },
+    {
+      "epoch": 17.83828382838284,
+      "grad_norm": 0.0010375917190685868,
+      "learning_rate": 0.0021652612760428456,
+      "loss": 0.34,
+      "num_input_tokens_seen": 35091824,
+      "step": 37835
+    },
+    {
+      "epoch": 17.84064120697784,
+      "grad_norm": 0.00040006707422435284,
+      "learning_rate": 0.0021553002058055603,
+      "loss": 0.3799,
+      "num_input_tokens_seen": 35096896,
+      "step": 37840
+    },
+    {
+      "epoch": 17.842998585572843,
+      "grad_norm": 0.000626365072093904,
+      "learning_rate": 0.0021453619350789376,
+      "loss": 0.2899,
+      "num_input_tokens_seen": 35102032,
+      "step": 37845
+    },
+    {
+      "epoch": 17.845355964167844,
+      "grad_norm": 0.00063325121300295,
+      "learning_rate": 0.0021354464653955516,
+      "loss": 0.3138,
+      "num_input_tokens_seen": 35107040,
+      "step": 37850
+    },
+    {
+      "epoch": 17.847713342762848,
+      "grad_norm": 0.000822997244540602,
+      "learning_rate": 0.002125553798284513,
+      "loss": 0.378,
+      "num_input_tokens_seen": 35111888,
+      "step": 37855
+    },
+    {
+      "epoch": 17.85007072135785,
+      "grad_norm": 0.000510718731675297,
+      "learning_rate": 0.002115683935271384,
+      "loss": 0.3546,
+      "num_input_tokens_seen": 35117184,
+      "step": 37860
+    },
+    {
+      "epoch": 17.852428099952853,
+      "grad_norm": 0.0006091983523219824,
+      "learning_rate": 0.0021058368778782144,
+      "loss": 0.2939,
+      "num_input_tokens_seen": 35121568,
+      "step": 37865
+    },
+    {
+      "epoch": 17.854785478547853,
+      "grad_norm": 0.0006563986535184085,
+      "learning_rate": 0.002096012627623539,
+      "loss": 0.3715,
+      "num_input_tokens_seen": 35126272,
+      "step": 37870
+    },
+    {
+      "epoch": 17.857142857142858,
+      "grad_norm": 0.000548080017324537,
+      "learning_rate": 0.00208621118602243,
+      "loss": 0.374,
+      "num_input_tokens_seen": 35130880,
+      "step": 37875
+    },
+    {
+      "epoch": 17.85950023573786,
+      "grad_norm": 0.000942935177590698,
+      "learning_rate": 0.002076432554586327,
+      "loss": 0.3181,
+      "num_input_tokens_seen": 35135328,
+      "step": 37880
+    },
+    {
+      "epoch": 17.861857614332862,
+      "grad_norm": 0.001411495846696198,
+      "learning_rate": 0.002066676734823258,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 35140304,
+      "step": 37885
+    },
+    {
+      "epoch": 17.864214992927863,
+      "grad_norm": 0.0007682842551730573,
+      "learning_rate": 0.0020569437282376866,
+      "loss": 0.2953,
+      "num_input_tokens_seen": 35144864,
+      "step": 37890
+    },
+    {
+      "epoch": 17.866572371522867,
+      "grad_norm": 0.0003872311790473759,
+      "learning_rate": 0.002047233536330545,
+      "loss": 0.2727,
+      "num_input_tokens_seen": 35150176,
+      "step": 37895
+    },
+    {
+      "epoch": 17.868929750117868,
+      "grad_norm": 0.000710098072886467,
+      "learning_rate": 0.0020375461605993015,
+      "loss": 0.3432,
+      "num_input_tokens_seen": 35153888,
+      "step": 37900
+    },
+    {
+      "epoch": 17.871287128712872,
+      "grad_norm": 0.0003871275985147804,
+      "learning_rate": 0.002027881602537845,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 35157648,
+      "step": 37905
+    },
+    {
+      "epoch": 17.873644507307873,
+      "grad_norm": 0.0007146539282985032,
+      "learning_rate": 0.002018239863636567,
+      "loss": 0.2834,
+      "num_input_tokens_seen": 35161440,
+      "step": 37910
+    },
+    {
+      "epoch": 17.876001885902877,
+      "grad_norm": 0.0006578129250556231,
+      "learning_rate": 0.002008620945382378,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 35166320,
+      "step": 37915
+    },
+    {
+      "epoch": 17.878359264497877,
+      "grad_norm": 0.0006824220181442797,
+      "learning_rate": 0.001999024849258607,
+      "loss": 0.3621,
+      "num_input_tokens_seen": 35170816,
+      "step": 37920
+    },
+    {
+      "epoch": 17.88071664309288,
+      "grad_norm": 0.0008034319616854191,
+      "learning_rate": 0.001989451576745105,
+      "loss": 0.3773,
+      "num_input_tokens_seen": 35175296,
+      "step": 37925
+    },
+    {
+      "epoch": 17.883074021687882,
+      "grad_norm": 0.0004740758740808815,
+      "learning_rate": 0.00197990112931819,
+      "loss": 0.341,
+      "num_input_tokens_seen": 35179872,
+      "step": 37930
+    },
+    {
+      "epoch": 17.885431400282886,
+      "grad_norm": 0.0004033826699014753,
+      "learning_rate": 0.0019703735084506345,
+      "loss": 0.2819,
+      "num_input_tokens_seen": 35184624,
+      "step": 37935
+    },
+    {
+      "epoch": 17.887788778877887,
+      "grad_norm": 0.00033747454290278256,
+      "learning_rate": 0.001960868715611763,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 35189840,
+      "step": 37940
+    },
+    {
+      "epoch": 17.89014615747289,
+      "grad_norm": 0.0008350104908458889,
+      "learning_rate": 0.0019513867522673034,
+      "loss": 0.2965,
+      "num_input_tokens_seen": 35195152,
+      "step": 37945
+    },
+    {
+      "epoch": 17.892503536067892,
+      "grad_norm": 0.00033037233515642583,
+      "learning_rate": 0.001941927619879502,
+      "loss": 0.353,
+      "num_input_tokens_seen": 35199936,
+      "step": 37950
+    },
+    {
+      "epoch": 17.894860914662896,
+      "grad_norm": 0.0005325993406586349,
+      "learning_rate": 0.0019324913199070758,
+      "loss": 0.3707,
+      "num_input_tokens_seen": 35204192,
+      "step": 37955
+    },
+    {
+      "epoch": 17.897218293257897,
+      "grad_norm": 0.00048686936497688293,
+      "learning_rate": 0.0019230778538052106,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 35208736,
+      "step": 37960
+    },
+    {
+      "epoch": 17.8995756718529,
+      "grad_norm": 0.0004246408643666655,
+      "learning_rate": 0.0019136872230255952,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 35212800,
+      "step": 37965
+    },
+    {
+      "epoch": 17.9019330504479,
+      "grad_norm": 0.0007101112278178334,
+      "learning_rate": 0.0019043194290164045,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 35216304,
+      "step": 37970
+    },
+    {
+      "epoch": 17.904290429042906,
+      "grad_norm": 0.0004359112062957138,
+      "learning_rate": 0.0018949744732222162,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 35221376,
+      "step": 37975
+    },
+    {
+      "epoch": 17.906647807637906,
+      "grad_norm": 0.0007514699245803058,
+      "learning_rate": 0.0018856523570841776,
+      "loss": 0.3245,
+      "num_input_tokens_seen": 35226272,
+      "step": 37980
+    },
+    {
+      "epoch": 17.90900518623291,
+      "grad_norm": 0.00042647792724892497,
+      "learning_rate": 0.0018763530820398555,
+      "loss": 0.2776,
+      "num_input_tokens_seen": 35230752,
+      "step": 37985
+    },
+    {
+      "epoch": 17.91136256482791,
+      "grad_norm": 0.00038056951598264277,
+      "learning_rate": 0.0018670766495233525,
+      "loss": 0.3195,
+      "num_input_tokens_seen": 35236528,
+      "step": 37990
+    },
+    {
+      "epoch": 17.913719943422915,
+      "grad_norm": 0.000744959688745439,
+      "learning_rate": 0.001857823060965158,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 35240864,
+      "step": 37995
+    },
+    {
+      "epoch": 17.916077322017916,
+      "grad_norm": 0.0004069434944540262,
+      "learning_rate": 0.0018485923177923467,
+      "loss": 0.296,
+      "num_input_tokens_seen": 35245152,
+      "step": 38000
+    },
+    {
+      "epoch": 17.916077322017916,
+      "eval_loss": 0.3284275233745575,
+      "eval_runtime": 33.6037,
+      "eval_samples_per_second": 28.062,
+      "eval_steps_per_second": 14.046,
+      "num_input_tokens_seen": 35245152,
+      "step": 38000
+    },
+    {
+      "epoch": 17.91843470061292,
+      "grad_norm": 0.0005869438173249364,
+      "learning_rate": 0.001839384421428364,
+      "loss": 0.2855,
+      "num_input_tokens_seen": 35249616,
+      "step": 38005
+    },
+    {
+      "epoch": 17.92079207920792,
+      "grad_norm": 0.00041519434307701886,
+      "learning_rate": 0.0018301993732932065,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 35254256,
+      "step": 38010
+    },
+    {
+      "epoch": 17.92314945780292,
+      "grad_norm": 0.000558848085347563,
+      "learning_rate": 0.0018210371748033248,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 35259040,
+      "step": 38015
+    },
+    {
+      "epoch": 17.925506836397926,
+      "grad_norm": 0.0008242654730565846,
+      "learning_rate": 0.0018118978273716556,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 35263424,
+      "step": 38020
+    },
+    {
+      "epoch": 17.927864214992926,
+      "grad_norm": 0.0005445526912808418,
+      "learning_rate": 0.001802781332407588,
+      "loss": 0.369,
+      "num_input_tokens_seen": 35269072,
+      "step": 38025
+    },
+    {
+      "epoch": 17.93022159358793,
+      "grad_norm": 0.0008186649065464735,
+      "learning_rate": 0.0017936876913169806,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 35273280,
+      "step": 38030
+    },
+    {
+      "epoch": 17.93257897218293,
+      "grad_norm": 0.0005411559250205755,
+      "learning_rate": 0.0017846169055022287,
+      "loss": 0.2823,
+      "num_input_tokens_seen": 35277872,
+      "step": 38035
+    },
+    {
+      "epoch": 17.934936350777935,
+      "grad_norm": 0.0008544166339561343,
+      "learning_rate": 0.0017755689763621295,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 35282464,
+      "step": 38040
+    },
+    {
+      "epoch": 17.937293729372936,
+      "grad_norm": 0.00045549069182015955,
+      "learning_rate": 0.0017665439052920173,
+      "loss": 0.3252,
+      "num_input_tokens_seen": 35287232,
+      "step": 38045
+    },
+    {
+      "epoch": 17.93965110796794,
+      "grad_norm": 0.0003840349963866174,
+      "learning_rate": 0.0017575416936836286,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 35291712,
+      "step": 38050
+    },
+    {
+      "epoch": 17.94200848656294,
+      "grad_norm": 0.0009596769814379513,
+      "learning_rate": 0.0017485623429252528,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 35296352,
+      "step": 38055
+    },
+    {
+      "epoch": 17.944365865157945,
+      "grad_norm": 0.0004607680020853877,
+      "learning_rate": 0.0017396058544016156,
+      "loss": 0.2852,
+      "num_input_tokens_seen": 35301312,
+      "step": 38060
+    },
+    {
+      "epoch": 17.946723243752945,
+      "grad_norm": 0.00038950491580180824,
+      "learning_rate": 0.0017306722294938958,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 35305152,
+      "step": 38065
+    },
+    {
+      "epoch": 17.94908062234795,
+      "grad_norm": 0.0005491823540069163,
+      "learning_rate": 0.0017217614695798078,
+      "loss": 0.3839,
+      "num_input_tokens_seen": 35309968,
+      "step": 38070
+    },
+    {
+      "epoch": 17.95143800094295,
+      "grad_norm": 0.0004498938506003469,
+      "learning_rate": 0.001712873576033469,
+      "loss": 0.2515,
+      "num_input_tokens_seen": 35315024,
+      "step": 38075
+    },
+    {
+      "epoch": 17.953795379537954,
+      "grad_norm": 0.000541830318979919,
+      "learning_rate": 0.0017040085502255163,
+      "loss": 0.3843,
+      "num_input_tokens_seen": 35320416,
+      "step": 38080
+    },
+    {
+      "epoch": 17.956152758132955,
+      "grad_norm": 0.00040984636871144176,
+      "learning_rate": 0.0016951663935230565,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 35325792,
+      "step": 38085
+    },
+    {
+      "epoch": 17.95851013672796,
+      "grad_norm": 0.0007921138312667608,
+      "learning_rate": 0.0016863471072896485,
+      "loss": 0.3399,
+      "num_input_tokens_seen": 35330192,
+      "step": 38090
+    },
+    {
+      "epoch": 17.96086751532296,
+      "grad_norm": 0.0007606763974763453,
+      "learning_rate": 0.0016775506928853377,
+      "loss": 0.3119,
+      "num_input_tokens_seen": 35334464,
+      "step": 38095
+    },
+    {
+      "epoch": 17.963224893917964,
+      "grad_norm": 0.00039617138099856675,
+      "learning_rate": 0.001668777151666656,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 35338896,
+      "step": 38100
+    },
+    {
+      "epoch": 17.965582272512965,
+      "grad_norm": 0.0006952030817046762,
+      "learning_rate": 0.0016600264849865709,
+      "loss": 0.256,
+      "num_input_tokens_seen": 35342928,
+      "step": 38105
+    },
+    {
+      "epoch": 17.96793965110797,
+      "grad_norm": 0.00043379541602917016,
+      "learning_rate": 0.0016512986941945695,
+      "loss": 0.3669,
+      "num_input_tokens_seen": 35347488,
+      "step": 38110
+    },
+    {
+      "epoch": 17.97029702970297,
+      "grad_norm": 0.0007001488120295107,
+      "learning_rate": 0.0016425937806365753,
+      "loss": 0.324,
+      "num_input_tokens_seen": 35352496,
+      "step": 38115
+    },
+    {
+      "epoch": 17.972654408297974,
+      "grad_norm": 0.0004568111908156425,
+      "learning_rate": 0.0016339117456549979,
+      "loss": 0.3408,
+      "num_input_tokens_seen": 35356336,
+      "step": 38120
+    },
+    {
+      "epoch": 17.975011786892974,
+      "grad_norm": 0.0005851248279213905,
+      "learning_rate": 0.0016252525905886995,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 35361184,
+      "step": 38125
+    },
+    {
+      "epoch": 17.97736916548798,
+      "grad_norm": 0.00036984492908231914,
+      "learning_rate": 0.0016166163167730617,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 35365728,
+      "step": 38130
+    },
+    {
+      "epoch": 17.97972654408298,
+      "grad_norm": 0.00031973241129890084,
+      "learning_rate": 0.0016080029255398864,
+      "loss": 0.2895,
+      "num_input_tokens_seen": 35369936,
+      "step": 38135
+    },
+    {
+      "epoch": 17.982083922677983,
+      "grad_norm": 0.0007484302623197436,
+      "learning_rate": 0.0015994124182174606,
+      "loss": 0.2702,
+      "num_input_tokens_seen": 35375136,
+      "step": 38140
+    },
+    {
+      "epoch": 17.984441301272984,
+      "grad_norm": 0.0006105836946517229,
+      "learning_rate": 0.001590844796130575,
+      "loss": 0.355,
+      "num_input_tokens_seen": 35379984,
+      "step": 38145
+    },
+    {
+      "epoch": 17.986798679867988,
+      "grad_norm": 0.0007294415263459086,
+      "learning_rate": 0.001582300060600439,
+      "loss": 0.3624,
+      "num_input_tokens_seen": 35384624,
+      "step": 38150
+    },
+    {
+      "epoch": 17.98915605846299,
+      "grad_norm": 0.000454903143690899,
+      "learning_rate": 0.0015737782129447652,
+      "loss": 0.2873,
+      "num_input_tokens_seen": 35389088,
+      "step": 38155
+    },
+    {
+      "epoch": 17.991513437057993,
+      "grad_norm": 0.0005469523021019995,
+      "learning_rate": 0.0015652792544777361,
+      "loss": 0.351,
+      "num_input_tokens_seen": 35393552,
+      "step": 38160
+    },
+    {
+      "epoch": 17.993870815652993,
+      "grad_norm": 0.0009446573676541448,
+      "learning_rate": 0.0015568031865099863,
+      "loss": 0.2808,
+      "num_input_tokens_seen": 35398528,
+      "step": 38165
+    },
+    {
+      "epoch": 17.996228194247998,
+      "grad_norm": 0.0010020565241575241,
+      "learning_rate": 0.0015483500103486369,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 35402704,
+      "step": 38170
+    },
+    {
+      "epoch": 17.998585572842998,
+      "grad_norm": 0.0006262119859457016,
+      "learning_rate": 0.0015399197272972787,
+      "loss": 0.351,
+      "num_input_tokens_seen": 35407760,
+      "step": 38175
+    },
+    {
+      "epoch": 18.000942951438002,
+      "grad_norm": 0.0005766304675489664,
+      "learning_rate": 0.0015315123386559714,
+      "loss": 0.3543,
+      "num_input_tokens_seen": 35412608,
+      "step": 38180
+    },
+    {
+      "epoch": 18.003300330033003,
+      "grad_norm": 0.0005349426646716893,
+      "learning_rate": 0.0015231278457212283,
+      "loss": 0.3508,
+      "num_input_tokens_seen": 35418576,
+      "step": 38185
+    },
+    {
+      "epoch": 18.005657708628007,
+      "grad_norm": 0.00039997181738726795,
+      "learning_rate": 0.001514766249786048,
+      "loss": 0.2985,
+      "num_input_tokens_seen": 35422720,
+      "step": 38190
+    },
+    {
+      "epoch": 18.008015087223008,
+      "grad_norm": 0.0006950837559998035,
+      "learning_rate": 0.0015064275521398994,
+      "loss": 0.2768,
+      "num_input_tokens_seen": 35426944,
+      "step": 38195
+    },
+    {
+      "epoch": 18.010372465818012,
+      "grad_norm": 0.0004525891854427755,
+      "learning_rate": 0.0014981117540686872,
+      "loss": 0.3044,
+      "num_input_tokens_seen": 35431232,
+      "step": 38200
+    },
+    {
+      "epoch": 18.010372465818012,
+      "eval_loss": 0.32943254709243774,
+      "eval_runtime": 33.5772,
+      "eval_samples_per_second": 28.085,
+      "eval_steps_per_second": 14.057,
+      "num_input_tokens_seen": 35431232,
+      "step": 38200
+    },
+    {
+      "epoch": 18.012729844413013,
+      "grad_norm": 0.0005218111327849329,
+      "learning_rate": 0.0014898188568548687,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 35436176,
+      "step": 38205
+    },
+    {
+      "epoch": 18.015087223008017,
+      "grad_norm": 0.0005566615145653486,
+      "learning_rate": 0.0014815488617772542,
+      "loss": 0.3359,
+      "num_input_tokens_seen": 35440624,
+      "step": 38210
+    },
+    {
+      "epoch": 18.017444601603017,
+      "grad_norm": 0.0009091754909604788,
+      "learning_rate": 0.0014733017701112072,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 35445264,
+      "step": 38215
+    },
+    {
+      "epoch": 18.019801980198018,
+      "grad_norm": 0.0010694594820961356,
+      "learning_rate": 0.0014650775831285435,
+      "loss": 0.4006,
+      "num_input_tokens_seen": 35449616,
+      "step": 38220
+    },
+    {
+      "epoch": 18.022159358793022,
+      "grad_norm": 0.00038128785672597587,
+      "learning_rate": 0.001456876302097515,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 35454160,
+      "step": 38225
+    },
+    {
+      "epoch": 18.024516737388023,
+      "grad_norm": 0.0006341541884467006,
+      "learning_rate": 0.0014486979282828604,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 35458736,
+      "step": 38230
+    },
+    {
+      "epoch": 18.026874115983027,
+      "grad_norm": 0.0005527367466129363,
+      "learning_rate": 0.001440542462945804,
+      "loss": 0.3682,
+      "num_input_tokens_seen": 35462880,
+      "step": 38235
+    },
+    {
+      "epoch": 18.029231494578028,
+      "grad_norm": 0.0007992853061296046,
+      "learning_rate": 0.0014324099073440232,
+      "loss": 0.31,
+      "num_input_tokens_seen": 35467552,
+      "step": 38240
+    },
+    {
+      "epoch": 18.031588873173032,
+      "grad_norm": 0.0003264650295022875,
+      "learning_rate": 0.0014243002627316482,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 35472288,
+      "step": 38245
+    },
+    {
+      "epoch": 18.033946251768032,
+      "grad_norm": 0.0005001961253583431,
+      "learning_rate": 0.0014162135303592781,
+      "loss": 0.2973,
+      "num_input_tokens_seen": 35477040,
+      "step": 38250
+    },
+    {
+      "epoch": 18.036303630363037,
+      "grad_norm": 0.0004829762619920075,
+      "learning_rate": 0.001408149711474016,
+      "loss": 0.3285,
+      "num_input_tokens_seen": 35481440,
+      "step": 38255
+    },
+    {
+      "epoch": 18.038661008958037,
+      "grad_norm": 0.00041481549851596355,
+      "learning_rate": 0.0014001088073193834,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 35486096,
+      "step": 38260
+    },
+    {
+      "epoch": 18.04101838755304,
+      "grad_norm": 0.0007070705760270357,
+      "learning_rate": 0.0013920908191354052,
+      "loss": 0.3176,
+      "num_input_tokens_seen": 35491488,
+      "step": 38265
+    },
+    {
+      "epoch": 18.043375766148042,
+      "grad_norm": 0.0006564765353687108,
+      "learning_rate": 0.001384095748158526,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 35496016,
+      "step": 38270
+    },
+    {
+      "epoch": 18.045733144743046,
+      "grad_norm": 0.0004550031735561788,
+      "learning_rate": 0.0013761235956217255,
+      "loss": 0.2905,
+      "num_input_tokens_seen": 35500384,
+      "step": 38275
+    },
+    {
+      "epoch": 18.048090523338047,
+      "grad_norm": 0.0005656955763697624,
+      "learning_rate": 0.0013681743627543873,
+      "loss": 0.2722,
+      "num_input_tokens_seen": 35505856,
+      "step": 38280
+    },
+    {
+      "epoch": 18.05044790193305,
+      "grad_norm": 0.0008217205759137869,
+      "learning_rate": 0.001360248050782381,
+      "loss": 0.3189,
+      "num_input_tokens_seen": 35510976,
+      "step": 38285
+    },
+    {
+      "epoch": 18.05280528052805,
+      "grad_norm": 0.0015573727432638407,
+      "learning_rate": 0.001352344660928062,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 35514880,
+      "step": 38290
+    },
+    {
+      "epoch": 18.055162659123056,
+      "grad_norm": 0.0012334366329014301,
+      "learning_rate": 0.0013444641944102052,
+      "loss": 0.4006,
+      "num_input_tokens_seen": 35518848,
+      "step": 38295
+    },
+    {
+      "epoch": 18.057520037718056,
+      "grad_norm": 0.0005208657239563763,
+      "learning_rate": 0.0013366066524441056,
+      "loss": 0.2842,
+      "num_input_tokens_seen": 35523248,
+      "step": 38300
+    },
+    {
+      "epoch": 18.05987741631306,
+      "grad_norm": 0.0007301647565327585,
+      "learning_rate": 0.0013287720362414768,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 35527744,
+      "step": 38305
+    },
+    {
+      "epoch": 18.06223479490806,
+      "grad_norm": 0.0007158020744100213,
+      "learning_rate": 0.0013209603470105025,
+      "loss": 0.309,
+      "num_input_tokens_seen": 35531824,
+      "step": 38310
+    },
+    {
+      "epoch": 18.064592173503065,
+      "grad_norm": 0.0006667629349976778,
+      "learning_rate": 0.0013131715859558857,
+      "loss": 0.3172,
+      "num_input_tokens_seen": 35537648,
+      "step": 38315
+    },
+    {
+      "epoch": 18.066949552098066,
+      "grad_norm": 0.0007593011250719428,
+      "learning_rate": 0.001305405754278699,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 35542640,
+      "step": 38320
+    },
+    {
+      "epoch": 18.06930693069307,
+      "grad_norm": 0.000397040625102818,
+      "learning_rate": 0.0012976628531765843,
+      "loss": 0.3147,
+      "num_input_tokens_seen": 35547424,
+      "step": 38325
+    },
+    {
+      "epoch": 18.07166430928807,
+      "grad_norm": 0.0004348836955614388,
+      "learning_rate": 0.0012899428838435533,
+      "loss": 0.3892,
+      "num_input_tokens_seen": 35552288,
+      "step": 38330
+    },
+    {
+      "epoch": 18.074021687883075,
+      "grad_norm": 0.00046779311378486454,
+      "learning_rate": 0.001282245847470137,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 35556096,
+      "step": 38335
+    },
+    {
+      "epoch": 18.076379066478076,
+      "grad_norm": 0.0004926541587337852,
+      "learning_rate": 0.001274571745243319,
+      "loss": 0.3505,
+      "num_input_tokens_seen": 35561632,
+      "step": 38340
+    },
+    {
+      "epoch": 18.07873644507308,
+      "grad_norm": 0.00032897404162213206,
+      "learning_rate": 0.0012669205783465364,
+      "loss": 0.2806,
+      "num_input_tokens_seen": 35566400,
+      "step": 38345
+    },
+    {
+      "epoch": 18.08109382366808,
+      "grad_norm": 0.000356383272446692,
+      "learning_rate": 0.001259292347959695,
+      "loss": 0.3567,
+      "num_input_tokens_seen": 35570544,
+      "step": 38350
+    },
+    {
+      "epoch": 18.083451202263085,
+      "grad_norm": 0.0009226750698871911,
+      "learning_rate": 0.0012516870552591707,
+      "loss": 0.3918,
+      "num_input_tokens_seen": 35574928,
+      "step": 38355
+    },
+    {
+      "epoch": 18.085808580858085,
+      "grad_norm": 0.0004857791936956346,
+      "learning_rate": 0.001244104701417792,
+      "loss": 0.3111,
+      "num_input_tokens_seen": 35579504,
+      "step": 38360
+    },
+    {
+      "epoch": 18.08816595945309,
+      "grad_norm": 0.000834448728710413,
+      "learning_rate": 0.0012365452876048565,
+      "loss": 0.2731,
+      "num_input_tokens_seen": 35583232,
+      "step": 38365
+    },
+    {
+      "epoch": 18.09052333804809,
+      "grad_norm": 0.0004890942946076393,
+      "learning_rate": 0.001229008814986099,
+      "loss": 0.3398,
+      "num_input_tokens_seen": 35588016,
+      "step": 38370
+    },
+    {
+      "epoch": 18.092880716643094,
+      "grad_norm": 0.0005843393737450242,
+      "learning_rate": 0.0012214952847237725,
+      "loss": 0.3215,
+      "num_input_tokens_seen": 35592768,
+      "step": 38375
+    },
+    {
+      "epoch": 18.095238095238095,
+      "grad_norm": 0.0004552601894829422,
+      "learning_rate": 0.0012140046979765339,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 35596720,
+      "step": 38380
+    },
+    {
+      "epoch": 18.0975954738331,
+      "grad_norm": 0.0004935511387884617,
+      "learning_rate": 0.0012065370558995258,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 35601072,
+      "step": 38385
+    },
+    {
+      "epoch": 18.0999528524281,
+      "grad_norm": 0.0003854478127323091,
+      "learning_rate": 0.0011990923596443602,
+      "loss": 0.3278,
+      "num_input_tokens_seen": 35605696,
+      "step": 38390
+    },
+    {
+      "epoch": 18.102310231023104,
+      "grad_norm": 0.0005022428813390434,
+      "learning_rate": 0.001191670610359119,
+      "loss": 0.3033,
+      "num_input_tokens_seen": 35610912,
+      "step": 38395
+    },
+    {
+      "epoch": 18.104667609618105,
+      "grad_norm": 0.0007241087732836604,
+      "learning_rate": 0.0011842718091882865,
+      "loss": 0.2966,
+      "num_input_tokens_seen": 35615248,
+      "step": 38400
+    },
+    {
+      "epoch": 18.104667609618105,
+      "eval_loss": 0.3291270136833191,
+      "eval_runtime": 33.6259,
+      "eval_samples_per_second": 28.044,
+      "eval_steps_per_second": 14.037,
+      "num_input_tokens_seen": 35615248,
+      "step": 38400
+    },
+    {
+      "epoch": 18.10702498821311,
+      "grad_norm": 0.0007824768545106053,
+      "learning_rate": 0.0011768959572729,
+      "loss": 0.3247,
+      "num_input_tokens_seen": 35619984,
+      "step": 38405
+    },
+    {
+      "epoch": 18.10938236680811,
+      "grad_norm": 0.00043330134940333664,
+      "learning_rate": 0.001169543055750366,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 35623952,
+      "step": 38410
+    },
+    {
+      "epoch": 18.111739745403113,
+      "grad_norm": 0.00042020733235403895,
+      "learning_rate": 0.0011622131057546115,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 35628576,
+      "step": 38415
+    },
+    {
+      "epoch": 18.114097123998114,
+      "grad_norm": 0.0007222171407192945,
+      "learning_rate": 0.0011549061084160316,
+      "loss": 0.3299,
+      "num_input_tokens_seen": 35632912,
+      "step": 38420
+    },
+    {
+      "epoch": 18.116454502593115,
+      "grad_norm": 0.000823512498755008,
+      "learning_rate": 0.0011476220648614088,
+      "loss": 0.3336,
+      "num_input_tokens_seen": 35636560,
+      "step": 38425
+    },
+    {
+      "epoch": 18.11881188118812,
+      "grad_norm": 0.0007767322240397334,
+      "learning_rate": 0.0011403609762140777,
+      "loss": 0.3695,
+      "num_input_tokens_seen": 35641456,
+      "step": 38430
+    },
+    {
+      "epoch": 18.12116925978312,
+      "grad_norm": 0.0006686466513201594,
+      "learning_rate": 0.0011331228435937756,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 35646832,
+      "step": 38435
+    },
+    {
+      "epoch": 18.123526638378124,
+      "grad_norm": 0.001336412038654089,
+      "learning_rate": 0.0011259076681166935,
+      "loss": 0.312,
+      "num_input_tokens_seen": 35651168,
+      "step": 38440
+    },
+    {
+      "epoch": 18.125884016973124,
+      "grad_norm": 0.0007863123901188374,
+      "learning_rate": 0.0011187154508955244,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 35655136,
+      "step": 38445
+    },
+    {
+      "epoch": 18.12824139556813,
+      "grad_norm": 0.0005619162111543119,
+      "learning_rate": 0.001111546193039381,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 35659296,
+      "step": 38450
+    },
+    {
+      "epoch": 18.13059877416313,
+      "grad_norm": 0.0007356146234087646,
+      "learning_rate": 0.0011043998956538792,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 35664480,
+      "step": 38455
+    },
+    {
+      "epoch": 18.132956152758133,
+      "grad_norm": 0.0006084367050789297,
+      "learning_rate": 0.0010972765598410538,
+      "loss": 0.3428,
+      "num_input_tokens_seen": 35668992,
+      "step": 38460
+    },
+    {
+      "epoch": 18.135313531353134,
+      "grad_norm": 0.0004317024431657046,
+      "learning_rate": 0.0010901761866993931,
+      "loss": 0.2985,
+      "num_input_tokens_seen": 35673936,
+      "step": 38465
+    },
+    {
+      "epoch": 18.137670909948138,
+      "grad_norm": 0.00038129070890136063,
+      "learning_rate": 0.0010830987773238876,
+      "loss": 0.3088,
+      "num_input_tokens_seen": 35678480,
+      "step": 38470
+    },
+    {
+      "epoch": 18.14002828854314,
+      "grad_norm": 0.0007542498060502112,
+      "learning_rate": 0.0010760443328059644,
+      "loss": 0.3199,
+      "num_input_tokens_seen": 35682896,
+      "step": 38475
+    },
+    {
+      "epoch": 18.142385667138143,
+      "grad_norm": 0.0006918407743796706,
+      "learning_rate": 0.001069012854233503,
+      "loss": 0.2785,
+      "num_input_tokens_seen": 35687744,
+      "step": 38480
+    },
+    {
+      "epoch": 18.144743045733144,
+      "grad_norm": 0.0007234811782836914,
+      "learning_rate": 0.0010620043426908365,
+      "loss": 0.3575,
+      "num_input_tokens_seen": 35692336,
+      "step": 38485
+    },
+    {
+      "epoch": 18.147100424328148,
+      "grad_norm": 0.00033176393480971456,
+      "learning_rate": 0.0010550187992587833,
+      "loss": 0.3513,
+      "num_input_tokens_seen": 35696672,
+      "step": 38490
+    },
+    {
+      "epoch": 18.14945780292315,
+      "grad_norm": 0.0006747888401150703,
+      "learning_rate": 0.0010480562250145653,
+      "loss": 0.3762,
+      "num_input_tokens_seen": 35700832,
+      "step": 38495
+    },
+    {
+      "epoch": 18.151815181518153,
+      "grad_norm": 0.0005274107097648084,
+      "learning_rate": 0.0010411166210319567,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 35705424,
+      "step": 38500
+    },
+    {
+      "epoch": 18.154172560113153,
+      "grad_norm": 0.0005372869200073183,
+      "learning_rate": 0.0010341999883810848,
+      "loss": 0.3236,
+      "num_input_tokens_seen": 35709184,
+      "step": 38505
+    },
+    {
+      "epoch": 18.156529938708157,
+      "grad_norm": 0.0009322565165348351,
+      "learning_rate": 0.0010273063281285965,
+      "loss": 0.328,
+      "num_input_tokens_seen": 35714240,
+      "step": 38510
+    },
+    {
+      "epoch": 18.158887317303158,
+      "grad_norm": 0.00046701772953383625,
+      "learning_rate": 0.0010204356413375747,
+      "loss": 0.3026,
+      "num_input_tokens_seen": 35719520,
+      "step": 38515
+    },
+    {
+      "epoch": 18.161244695898162,
+      "grad_norm": 0.0008069312898442149,
+      "learning_rate": 0.001013587929067572,
+      "loss": 0.299,
+      "num_input_tokens_seen": 35723456,
+      "step": 38520
+    },
+    {
+      "epoch": 18.163602074493163,
+      "grad_norm": 0.0003906420315615833,
+      "learning_rate": 0.00100676319237461,
+      "loss": 0.3472,
+      "num_input_tokens_seen": 35728000,
+      "step": 38525
+    },
+    {
+      "epoch": 18.165959453088167,
+      "grad_norm": 0.00037733156932517886,
+      "learning_rate": 0.0009999614323110972,
+      "loss": 0.363,
+      "num_input_tokens_seen": 35732496,
+      "step": 38530
+    },
+    {
+      "epoch": 18.168316831683168,
+      "grad_norm": 0.0006702198297716677,
+      "learning_rate": 0.000993182649926011,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 35737552,
+      "step": 38535
+    },
+    {
+      "epoch": 18.17067421027817,
+      "grad_norm": 0.0004562682588584721,
+      "learning_rate": 0.000986426846264682,
+      "loss": 0.3056,
+      "num_input_tokens_seen": 35742288,
+      "step": 38540
+    },
+    {
+      "epoch": 18.173031588873172,
+      "grad_norm": 0.0004538297653198242,
+      "learning_rate": 0.00097969402236896,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 35746880,
+      "step": 38545
+    },
+    {
+      "epoch": 18.175388967468177,
+      "grad_norm": 0.0006062721950002015,
+      "learning_rate": 0.0009729841792771143,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 35751952,
+      "step": 38550
+    },
+    {
+      "epoch": 18.177746346063177,
+      "grad_norm": 0.0007362681208178401,
+      "learning_rate": 0.0009662973180239176,
+      "loss": 0.2964,
+      "num_input_tokens_seen": 35756128,
+      "step": 38555
+    },
+    {
+      "epoch": 18.18010372465818,
+      "grad_norm": 0.0004076799377799034,
+      "learning_rate": 0.0009596334396405448,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 35760992,
+      "step": 38560
+    },
+    {
+      "epoch": 18.182461103253182,
+      "grad_norm": 0.0006399248377420008,
+      "learning_rate": 0.0009529925451546406,
+      "loss": 0.3452,
+      "num_input_tokens_seen": 35765136,
+      "step": 38565
+    },
+    {
+      "epoch": 18.184818481848186,
+      "grad_norm": 0.0005609364015981555,
+      "learning_rate": 0.0009463746355903357,
+      "loss": 0.315,
+      "num_input_tokens_seen": 35769280,
+      "step": 38570
+    },
+    {
+      "epoch": 18.187175860443187,
+      "grad_norm": 0.0006006840267218649,
+      "learning_rate": 0.0009397797119681971,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 35774064,
+      "step": 38575
+    },
+    {
+      "epoch": 18.18953323903819,
+      "grad_norm": 0.00047128094593062997,
+      "learning_rate": 0.0009332077753052281,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 35778592,
+      "step": 38580
+    },
+    {
+      "epoch": 18.19189061763319,
+      "grad_norm": 0.000362207560101524,
+      "learning_rate": 0.0009266588266149011,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 35783488,
+      "step": 38585
+    },
+    {
+      "epoch": 18.194247996228196,
+      "grad_norm": 0.0009925754275172949,
+      "learning_rate": 0.0009201328669071584,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 35788192,
+      "step": 38590
+    },
+    {
+      "epoch": 18.196605374823196,
+      "grad_norm": 0.0007001656340435147,
+      "learning_rate": 0.0009136298971883949,
+      "loss": 0.2802,
+      "num_input_tokens_seen": 35793760,
+      "step": 38595
+    },
+    {
+      "epoch": 18.1989627534182,
+      "grad_norm": 0.0006474335677921772,
+      "learning_rate": 0.0009071499184614251,
+      "loss": 0.2675,
+      "num_input_tokens_seen": 35798688,
+      "step": 38600
+    },
+    {
+      "epoch": 18.1989627534182,
+      "eval_loss": 0.3291322886943817,
+      "eval_runtime": 33.6555,
+      "eval_samples_per_second": 28.019,
+      "eval_steps_per_second": 14.024,
+      "num_input_tokens_seen": 35798688,
+      "step": 38600
+    },
+    {
+      "epoch": 18.2013201320132,
+      "grad_norm": 0.0004953358438797295,
+      "learning_rate": 0.0009006929317255663,
+      "loss": 0.3649,
+      "num_input_tokens_seen": 35803088,
+      "step": 38605
+    },
+    {
+      "epoch": 18.203677510608205,
+      "grad_norm": 0.0008321255445480347,
+      "learning_rate": 0.0008942589379765387,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 35807312,
+      "step": 38610
+    },
+    {
+      "epoch": 18.206034889203206,
+      "grad_norm": 0.00044592085760086775,
+      "learning_rate": 0.0008878479382065817,
+      "loss": 0.3871,
+      "num_input_tokens_seen": 35811488,
+      "step": 38615
+    },
+    {
+      "epoch": 18.208392267798207,
+      "grad_norm": 0.00047204943257384,
+      "learning_rate": 0.0008814599334043215,
+      "loss": 0.3178,
+      "num_input_tokens_seen": 35816000,
+      "step": 38620
+    },
+    {
+      "epoch": 18.21074964639321,
+      "grad_norm": 0.0009844005107879639,
+      "learning_rate": 0.0008750949245548866,
+      "loss": 0.3698,
+      "num_input_tokens_seen": 35821008,
+      "step": 38625
+    },
+    {
+      "epoch": 18.21310702498821,
+      "grad_norm": 0.00036781097878701985,
+      "learning_rate": 0.0008687529126398252,
+      "loss": 0.2914,
+      "num_input_tokens_seen": 35825440,
+      "step": 38630
+    },
+    {
+      "epoch": 18.215464403583216,
+      "grad_norm": 0.0009101483738049865,
+      "learning_rate": 0.0008624338986371715,
+      "loss": 0.324,
+      "num_input_tokens_seen": 35830320,
+      "step": 38635
+    },
+    {
+      "epoch": 18.217821782178216,
+      "grad_norm": 0.00029939261730760336,
+      "learning_rate": 0.0008561378835213962,
+      "loss": 0.3282,
+      "num_input_tokens_seen": 35834832,
+      "step": 38640
+    },
+    {
+      "epoch": 18.22017916077322,
+      "grad_norm": 0.0005024717538617551,
+      "learning_rate": 0.0008498648682634058,
+      "loss": 0.3372,
+      "num_input_tokens_seen": 35839408,
+      "step": 38645
+    },
+    {
+      "epoch": 18.22253653936822,
+      "grad_norm": 0.0005689840763807297,
+      "learning_rate": 0.0008436148538306099,
+      "loss": 0.3544,
+      "num_input_tokens_seen": 35843760,
+      "step": 38650
+    },
+    {
+      "epoch": 18.224893917963225,
+      "grad_norm": 0.0008070039912126958,
+      "learning_rate": 0.0008373878411868041,
+      "loss": 0.3153,
+      "num_input_tokens_seen": 35848080,
+      "step": 38655
+    },
+    {
+      "epoch": 18.227251296558226,
+      "grad_norm": 0.0008882707334123552,
+      "learning_rate": 0.000831183831292287,
+      "loss": 0.274,
+      "num_input_tokens_seen": 35852144,
+      "step": 38660
+    },
+    {
+      "epoch": 18.22960867515323,
+      "grad_norm": 0.0005791932344436646,
+      "learning_rate": 0.0008250028251037933,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 35857296,
+      "step": 38665
+    },
+    {
+      "epoch": 18.23196605374823,
+      "grad_norm": 0.0004794469568878412,
+      "learning_rate": 0.0008188448235745271,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 35862192,
+      "step": 38670
+    },
+    {
+      "epoch": 18.234323432343235,
+      "grad_norm": 0.00048331686411984265,
+      "learning_rate": 0.0008127098276541122,
+      "loss": 0.2732,
+      "num_input_tokens_seen": 35866480,
+      "step": 38675
+    },
+    {
+      "epoch": 18.236680810938235,
+      "grad_norm": 0.0005491283372975886,
+      "learning_rate": 0.0008065978382886418,
+      "loss": 0.3213,
+      "num_input_tokens_seen": 35871264,
+      "step": 38680
+    },
+    {
+      "epoch": 18.23903818953324,
+      "grad_norm": 0.0005816187476739287,
+      "learning_rate": 0.0008005088564206785,
+      "loss": 0.2953,
+      "num_input_tokens_seen": 35875904,
+      "step": 38685
+    },
+    {
+      "epoch": 18.24139556812824,
+      "grad_norm": 0.000454878929303959,
+      "learning_rate": 0.0007944428829891881,
+      "loss": 0.2971,
+      "num_input_tokens_seen": 35879744,
+      "step": 38690
+    },
+    {
+      "epoch": 18.243752946723244,
+      "grad_norm": 0.000492254039272666,
+      "learning_rate": 0.0007883999189296386,
+      "loss": 0.3418,
+      "num_input_tokens_seen": 35886096,
+      "step": 38695
+    },
+    {
+      "epoch": 18.246110325318245,
+      "grad_norm": 0.0005000968230888247,
+      "learning_rate": 0.0007823799651739515,
+      "loss": 0.298,
+      "num_input_tokens_seen": 35890320,
+      "step": 38700
+    },
+    {
+      "epoch": 18.24846770391325,
+      "grad_norm": 0.0009764163987711072,
+      "learning_rate": 0.0007763830226504509,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 35896032,
+      "step": 38705
+    },
+    {
+      "epoch": 18.25082508250825,
+      "grad_norm": 0.0004920758074149489,
+      "learning_rate": 0.0007704090922839468,
+      "loss": 0.2806,
+      "num_input_tokens_seen": 35900832,
+      "step": 38710
+    },
+    {
+      "epoch": 18.253182461103254,
+      "grad_norm": 0.0010416971053928137,
+      "learning_rate": 0.0007644581749957025,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 35905792,
+      "step": 38715
+    },
+    {
+      "epoch": 18.255539839698255,
+      "grad_norm": 0.0003766437584999949,
+      "learning_rate": 0.000758530271703417,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 35913312,
+      "step": 38720
+    },
+    {
+      "epoch": 18.25789721829326,
+      "grad_norm": 0.00037308980245143175,
+      "learning_rate": 0.0007526253833212426,
+      "loss": 0.3297,
+      "num_input_tokens_seen": 35917520,
+      "step": 38725
+    },
+    {
+      "epoch": 18.26025459688826,
+      "grad_norm": 0.000346582819474861,
+      "learning_rate": 0.0007467435107598008,
+      "loss": 0.3843,
+      "num_input_tokens_seen": 35921744,
+      "step": 38730
+    },
+    {
+      "epoch": 18.262611975483264,
+      "grad_norm": 0.0010963553795590997,
+      "learning_rate": 0.0007408846549261328,
+      "loss": 0.3839,
+      "num_input_tokens_seen": 35926208,
+      "step": 38735
+    },
+    {
+      "epoch": 18.264969354078264,
+      "grad_norm": 0.0005182438180781901,
+      "learning_rate": 0.0007350488167237656,
+      "loss": 0.3659,
+      "num_input_tokens_seen": 35930416,
+      "step": 38740
+    },
+    {
+      "epoch": 18.26732673267327,
+      "grad_norm": 0.0005551858921535313,
+      "learning_rate": 0.0007292359970526629,
+      "loss": 0.2978,
+      "num_input_tokens_seen": 35934400,
+      "step": 38745
+    },
+    {
+      "epoch": 18.26968411126827,
+      "grad_norm": 0.000559621665161103,
+      "learning_rate": 0.0007234461968092076,
+      "loss": 0.3469,
+      "num_input_tokens_seen": 35938160,
+      "step": 38750
+    },
+    {
+      "epoch": 18.272041489863273,
+      "grad_norm": 0.00036456293310038745,
+      "learning_rate": 0.0007176794168862854,
+      "loss": 0.3306,
+      "num_input_tokens_seen": 35943232,
+      "step": 38755
+    },
+    {
+      "epoch": 18.274398868458274,
+      "grad_norm": 0.000386234576581046,
+      "learning_rate": 0.000711935658173185,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 35947520,
+      "step": 38760
+    },
+    {
+      "epoch": 18.276756247053278,
+      "grad_norm": 0.00044924914254806936,
+      "learning_rate": 0.0007062149215556812,
+      "loss": 0.3443,
+      "num_input_tokens_seen": 35952064,
+      "step": 38765
+    },
+    {
+      "epoch": 18.27911362564828,
+      "grad_norm": 0.0005375097971409559,
+      "learning_rate": 0.0007005172079159849,
+      "loss": 0.323,
+      "num_input_tokens_seen": 35956064,
+      "step": 38770
+    },
+    {
+      "epoch": 18.281471004243283,
+      "grad_norm": 0.0007207370363175869,
+      "learning_rate": 0.0006948425181327267,
+      "loss": 0.3047,
+      "num_input_tokens_seen": 35961936,
+      "step": 38775
+    },
+    {
+      "epoch": 18.283828382838283,
+      "grad_norm": 0.0004595855425577611,
+      "learning_rate": 0.000689190853081073,
+      "loss": 0.3594,
+      "num_input_tokens_seen": 35966416,
+      "step": 38780
+    },
+    {
+      "epoch": 18.286185761433288,
+      "grad_norm": 0.0004538905341178179,
+      "learning_rate": 0.000683562213632527,
+      "loss": 0.2818,
+      "num_input_tokens_seen": 35970384,
+      "step": 38785
+    },
+    {
+      "epoch": 18.28854314002829,
+      "grad_norm": 0.00044911529403179884,
+      "learning_rate": 0.0006779566006551108,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 35974736,
+      "step": 38790
+    },
+    {
+      "epoch": 18.290900518623292,
+      "grad_norm": 0.0005691877449862659,
+      "learning_rate": 0.0006723740150132995,
+      "loss": 0.322,
+      "num_input_tokens_seen": 35979456,
+      "step": 38795
+    },
+    {
+      "epoch": 18.293257897218293,
+      "grad_norm": 0.0008977873367257416,
+      "learning_rate": 0.0006668144575679713,
+      "loss": 0.3953,
+      "num_input_tokens_seen": 35984224,
+      "step": 38800
+    },
+    {
+      "epoch": 18.293257897218293,
+      "eval_loss": 0.32874342799186707,
+      "eval_runtime": 33.6039,
+      "eval_samples_per_second": 28.062,
+      "eval_steps_per_second": 14.046,
+      "num_input_tokens_seen": 35984224,
+      "step": 38800
+    },
+    {
+      "epoch": 18.295615275813297,
+      "grad_norm": 0.0006095943972468376,
+      "learning_rate": 0.0006612779291765069,
+      "loss": 0.2982,
+      "num_input_tokens_seen": 35988496,
+      "step": 38805
+    },
+    {
+      "epoch": 18.297972654408298,
+      "grad_norm": 0.0005276797455735505,
+      "learning_rate": 0.0006557644306926736,
+      "loss": 0.2968,
+      "num_input_tokens_seen": 35993296,
+      "step": 38810
+    },
+    {
+      "epoch": 18.300330033003302,
+      "grad_norm": 0.0004974518669769168,
+      "learning_rate": 0.0006502739629667575,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 35998192,
+      "step": 38815
+    },
+    {
+      "epoch": 18.302687411598303,
+      "grad_norm": 0.000814581464510411,
+      "learning_rate": 0.0006448065268454317,
+      "loss": 0.2834,
+      "num_input_tokens_seen": 36003232,
+      "step": 38820
+    },
+    {
+      "epoch": 18.305044790193303,
+      "grad_norm": 0.0003956457949243486,
+      "learning_rate": 0.0006393621231718549,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 36007232,
+      "step": 38825
+    },
+    {
+      "epoch": 18.307402168788308,
+      "grad_norm": 0.0003660898073576391,
+      "learning_rate": 0.0006339407527856389,
+      "loss": 0.349,
+      "num_input_tokens_seen": 36012016,
+      "step": 38830
+    },
+    {
+      "epoch": 18.309759547383308,
+      "grad_norm": 0.0006996815791353583,
+      "learning_rate": 0.0006285424165227982,
+      "loss": 0.3471,
+      "num_input_tokens_seen": 36015664,
+      "step": 38835
+    },
+    {
+      "epoch": 18.312116925978312,
+      "grad_norm": 0.0007981621893122792,
+      "learning_rate": 0.0006231671152158169,
+      "loss": 0.3507,
+      "num_input_tokens_seen": 36019888,
+      "step": 38840
+    },
+    {
+      "epoch": 18.314474304573313,
+      "grad_norm": 0.00036108630592934787,
+      "learning_rate": 0.0006178148496936819,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 36024144,
+      "step": 38845
+    },
+    {
+      "epoch": 18.316831683168317,
+      "grad_norm": 0.00034441822208464146,
+      "learning_rate": 0.000612485620781733,
+      "loss": 0.3012,
+      "num_input_tokens_seen": 36029120,
+      "step": 38850
+    },
+    {
+      "epoch": 18.319189061763318,
+      "grad_norm": 0.0004161787801422179,
+      "learning_rate": 0.0006071794293018296,
+      "loss": 0.388,
+      "num_input_tokens_seen": 36033232,
+      "step": 38855
+    },
+    {
+      "epoch": 18.321546440358322,
+      "grad_norm": 0.0005760519416071475,
+      "learning_rate": 0.0006018962760722501,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 36037760,
+      "step": 38860
+    },
+    {
+      "epoch": 18.323903818953323,
+      "grad_norm": 0.0006398229743354023,
+      "learning_rate": 0.0005966361619077098,
+      "loss": 0.3556,
+      "num_input_tokens_seen": 36041824,
+      "step": 38865
+    },
+    {
+      "epoch": 18.326261197548327,
+      "grad_norm": 0.0003800116537604481,
+      "learning_rate": 0.000591399087619393,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 36046448,
+      "step": 38870
+    },
+    {
+      "epoch": 18.328618576143327,
+      "grad_norm": 0.000559567182790488,
+      "learning_rate": 0.0005861850540149371,
+      "loss": 0.3034,
+      "num_input_tokens_seen": 36050144,
+      "step": 38875
+    },
+    {
+      "epoch": 18.33097595473833,
+      "grad_norm": 0.0003997728636022657,
+      "learning_rate": 0.0005809940618983822,
+      "loss": 0.2773,
+      "num_input_tokens_seen": 36054848,
+      "step": 38880
+    },
+    {
+      "epoch": 18.333333333333332,
+      "grad_norm": 0.0005546570755541325,
+      "learning_rate": 0.0005758261120702712,
+      "loss": 0.3234,
+      "num_input_tokens_seen": 36059776,
+      "step": 38885
+    },
+    {
+      "epoch": 18.335690711928336,
+      "grad_norm": 0.000806543801445514,
+      "learning_rate": 0.0005706812053275501,
+      "loss": 0.3478,
+      "num_input_tokens_seen": 36064128,
+      "step": 38890
+    },
+    {
+      "epoch": 18.338048090523337,
+      "grad_norm": 0.0007463833899237216,
+      "learning_rate": 0.0005655593424636173,
+      "loss": 0.2575,
+      "num_input_tokens_seen": 36069152,
+      "step": 38895
+    },
+    {
+      "epoch": 18.34040546911834,
+      "grad_norm": 0.0012156262528151274,
+      "learning_rate": 0.0005604605242683746,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 36074736,
+      "step": 38900
+    },
+    {
+      "epoch": 18.34276284771334,
+      "grad_norm": 0.0002980065473821014,
+      "learning_rate": 0.0005553847515280596,
+      "loss": 0.3427,
+      "num_input_tokens_seen": 36079536,
+      "step": 38905
+    },
+    {
+      "epoch": 18.345120226308346,
+      "grad_norm": 0.00038016753387637436,
+      "learning_rate": 0.0005503320250254795,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 36084256,
+      "step": 38910
+    },
+    {
+      "epoch": 18.347477604903347,
+      "grad_norm": 0.0003209293936379254,
+      "learning_rate": 0.0005453023455397943,
+      "loss": 0.2757,
+      "num_input_tokens_seen": 36088912,
+      "step": 38915
+    },
+    {
+      "epoch": 18.34983498349835,
+      "grad_norm": 0.0011378201888874173,
+      "learning_rate": 0.0005402957138466502,
+      "loss": 0.3126,
+      "num_input_tokens_seen": 36093232,
+      "step": 38920
+    },
+    {
+      "epoch": 18.35219236209335,
+      "grad_norm": 0.0004742499440908432,
+      "learning_rate": 0.0005353121307181463,
+      "loss": 0.2968,
+      "num_input_tokens_seen": 36097600,
+      "step": 38925
+    },
+    {
+      "epoch": 18.354549740688356,
+      "grad_norm": 0.0004848292446695268,
+      "learning_rate": 0.0005303515969227845,
+      "loss": 0.2905,
+      "num_input_tokens_seen": 36101760,
+      "step": 38930
+    },
+    {
+      "epoch": 18.356907119283356,
+      "grad_norm": 0.0004847830277867615,
+      "learning_rate": 0.0005254141132255862,
+      "loss": 0.33,
+      "num_input_tokens_seen": 36108416,
+      "step": 38935
+    },
+    {
+      "epoch": 18.35926449787836,
+      "grad_norm": 0.0005925180157646537,
+      "learning_rate": 0.0005204996803879258,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 36113520,
+      "step": 38940
+    },
+    {
+      "epoch": 18.36162187647336,
+      "grad_norm": 0.0007839365280233324,
+      "learning_rate": 0.0005156082991676969,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 36118112,
+      "step": 38945
+    },
+    {
+      "epoch": 18.363979255068365,
+      "grad_norm": 0.00045302827493287623,
+      "learning_rate": 0.0005107399703192127,
+      "loss": 0.3396,
+      "num_input_tokens_seen": 36121952,
+      "step": 38950
+    },
+    {
+      "epoch": 18.366336633663366,
+      "grad_norm": 0.00073088618228212,
+      "learning_rate": 0.0005058946945932063,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 36126816,
+      "step": 38955
+    },
+    {
+      "epoch": 18.36869401225837,
+      "grad_norm": 0.0005003490368835628,
+      "learning_rate": 0.0005010724727369131,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 36131088,
+      "step": 38960
+    },
+    {
+      "epoch": 18.37105139085337,
+      "grad_norm": 0.0010671596974134445,
+      "learning_rate": 0.000496273305493955,
+      "loss": 0.3223,
+      "num_input_tokens_seen": 36135216,
+      "step": 38965
+    },
+    {
+      "epoch": 18.373408769448375,
+      "grad_norm": 0.0006327082519419491,
+      "learning_rate": 0.0004914971936044399,
+      "loss": 0.3334,
+      "num_input_tokens_seen": 36140496,
+      "step": 38970
+    },
+    {
+      "epoch": 18.375766148043375,
+      "grad_norm": 0.0004312880337238312,
+      "learning_rate": 0.00048674413780491196,
+      "loss": 0.277,
+      "num_input_tokens_seen": 36145232,
+      "step": 38975
+    },
+    {
+      "epoch": 18.37812352663838,
+      "grad_norm": 0.0007045348174870014,
+      "learning_rate": 0.0004820141388283183,
+      "loss": 0.3256,
+      "num_input_tokens_seen": 36151040,
+      "step": 38980
+    },
+    {
+      "epoch": 18.38048090523338,
+      "grad_norm": 0.0009109950042329729,
+      "learning_rate": 0.00047730719740410874,
+      "loss": 0.3885,
+      "num_input_tokens_seen": 36155664,
+      "step": 38985
+    },
+    {
+      "epoch": 18.382838283828384,
+      "grad_norm": 0.0007344964542426169,
+      "learning_rate": 0.00047262331425816927,
+      "loss": 0.2801,
+      "num_input_tokens_seen": 36159968,
+      "step": 38990
+    },
+    {
+      "epoch": 18.385195662423385,
+      "grad_norm": 0.0006051463424228132,
+      "learning_rate": 0.00046796249011277213,
+      "loss": 0.3214,
+      "num_input_tokens_seen": 36163520,
+      "step": 38995
+    },
+    {
+      "epoch": 18.38755304101839,
+      "grad_norm": 0.0005311874556355178,
+      "learning_rate": 0.00046332472568669236,
+      "loss": 0.3121,
+      "num_input_tokens_seen": 36168064,
+      "step": 39000
+    },
+    {
+      "epoch": 18.38755304101839,
+      "eval_loss": 0.32882243394851685,
+      "eval_runtime": 33.5691,
+      "eval_samples_per_second": 28.091,
+      "eval_steps_per_second": 14.061,
+      "num_input_tokens_seen": 36168064,
+      "step": 39000
+    },
+    {
+      "epoch": 18.38991041961339,
+      "grad_norm": 0.0006057227728888392,
+      "learning_rate": 0.0004587100216951578,
+      "loss": 0.3238,
+      "num_input_tokens_seen": 36172960,
+      "step": 39005
+    },
+    {
+      "epoch": 18.392267798208394,
+      "grad_norm": 0.0005348807317204773,
+      "learning_rate": 0.00045411837884978265,
+      "loss": 0.3453,
+      "num_input_tokens_seen": 36176528,
+      "step": 39010
+    },
+    {
+      "epoch": 18.394625176803395,
+      "grad_norm": 0.0007155524799600244,
+      "learning_rate": 0.00044954979785865045,
+      "loss": 0.3261,
+      "num_input_tokens_seen": 36180832,
+      "step": 39015
+    },
+    {
+      "epoch": 18.396982555398395,
+      "grad_norm": 0.0006950755487196147,
+      "learning_rate": 0.00044500427942631426,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 36184416,
+      "step": 39020
+    },
+    {
+      "epoch": 18.3993399339934,
+      "grad_norm": 0.00041272997623309493,
+      "learning_rate": 0.0004404818242537467,
+      "loss": 0.3013,
+      "num_input_tokens_seen": 36188560,
+      "step": 39025
+    },
+    {
+      "epoch": 18.4016973125884,
+      "grad_norm": 0.0004612274351529777,
+      "learning_rate": 0.00043598243303837324,
+      "loss": 0.3295,
+      "num_input_tokens_seen": 36194224,
+      "step": 39030
+    },
+    {
+      "epoch": 18.404054691183404,
+      "grad_norm": 0.0005765149253420532,
+      "learning_rate": 0.00043150610647403885,
+      "loss": 0.301,
+      "num_input_tokens_seen": 36199312,
+      "step": 39035
+    },
+    {
+      "epoch": 18.406412069778405,
+      "grad_norm": 0.00037441813037730753,
+      "learning_rate": 0.00042705284525104134,
+      "loss": 0.3145,
+      "num_input_tokens_seen": 36204416,
+      "step": 39040
+    },
+    {
+      "epoch": 18.40876944837341,
+      "grad_norm": 0.0009263997781090438,
+      "learning_rate": 0.0004226226500561647,
+      "loss": 0.3392,
+      "num_input_tokens_seen": 36208928,
+      "step": 39045
+    },
+    {
+      "epoch": 18.41112682696841,
+      "grad_norm": 0.00035763217601925135,
+      "learning_rate": 0.0004182155215725791,
+      "loss": 0.3608,
+      "num_input_tokens_seen": 36213408,
+      "step": 39050
+    },
+    {
+      "epoch": 18.413484205563414,
+      "grad_norm": 0.00045311020221561193,
+      "learning_rate": 0.00041383146047992424,
+      "loss": 0.3066,
+      "num_input_tokens_seen": 36218992,
+      "step": 39055
+    },
+    {
+      "epoch": 18.415841584158414,
+      "grad_norm": 0.0005099179106764495,
+      "learning_rate": 0.00040947046745427597,
+      "loss": 0.2826,
+      "num_input_tokens_seen": 36223440,
+      "step": 39060
+    },
+    {
+      "epoch": 18.41819896275342,
+      "grad_norm": 0.000878060469403863,
+      "learning_rate": 0.00040513254316814625,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 36229136,
+      "step": 39065
+    },
+    {
+      "epoch": 18.42055634134842,
+      "grad_norm": 0.0005955498781986535,
+      "learning_rate": 0.0004008176882905168,
+      "loss": 0.3249,
+      "num_input_tokens_seen": 36234112,
+      "step": 39070
+    },
+    {
+      "epoch": 18.422913719943423,
+      "grad_norm": 0.0007635675137862563,
+      "learning_rate": 0.00039652590348677184,
+      "loss": 0.3045,
+      "num_input_tokens_seen": 36238192,
+      "step": 39075
+    },
+    {
+      "epoch": 18.425271098538424,
+      "grad_norm": 0.0008232316467911005,
+      "learning_rate": 0.00039225718941878206,
+      "loss": 0.3113,
+      "num_input_tokens_seen": 36242240,
+      "step": 39080
+    },
+    {
+      "epoch": 18.427628477133428,
+      "grad_norm": 0.0007165834540501237,
+      "learning_rate": 0.00038801154674480417,
+      "loss": 0.3366,
+      "num_input_tokens_seen": 36246400,
+      "step": 39085
+    },
+    {
+      "epoch": 18.42998585572843,
+      "grad_norm": 0.0007941200165078044,
+      "learning_rate": 0.00038378897611959784,
+      "loss": 0.351,
+      "num_input_tokens_seen": 36250544,
+      "step": 39090
+    },
+    {
+      "epoch": 18.432343234323433,
+      "grad_norm": 0.0005157795385457575,
+      "learning_rate": 0.00037958947819430875,
+      "loss": 0.3125,
+      "num_input_tokens_seen": 36255024,
+      "step": 39095
+    },
+    {
+      "epoch": 18.434700612918434,
+      "grad_norm": 0.001184435561299324,
+      "learning_rate": 0.0003754130536165856,
+      "loss": 0.3656,
+      "num_input_tokens_seen": 36259936,
+      "step": 39100
+    },
+    {
+      "epoch": 18.437057991513438,
+      "grad_norm": 0.0006859335699118674,
+      "learning_rate": 0.0003712597030304632,
+      "loss": 0.294,
+      "num_input_tokens_seen": 36264176,
+      "step": 39105
+    },
+    {
+      "epoch": 18.43941537010844,
+      "grad_norm": 0.0008332450524903834,
+      "learning_rate": 0.00036712942707646247,
+      "loss": 0.3155,
+      "num_input_tokens_seen": 36268848,
+      "step": 39110
+    },
+    {
+      "epoch": 18.441772748703443,
+      "grad_norm": 0.0007642219425179064,
+      "learning_rate": 0.00036302222639149063,
+      "loss": 0.2665,
+      "num_input_tokens_seen": 36273408,
+      "step": 39115
+    },
+    {
+      "epoch": 18.444130127298443,
+      "grad_norm": 0.001041877898387611,
+      "learning_rate": 0.000358938101608941,
+      "loss": 0.316,
+      "num_input_tokens_seen": 36278720,
+      "step": 39120
+    },
+    {
+      "epoch": 18.446487505893447,
+      "grad_norm": 0.0004474285233300179,
+      "learning_rate": 0.0003548770533586598,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 36283152,
+      "step": 39125
+    },
+    {
+      "epoch": 18.448844884488448,
+      "grad_norm": 0.0004117022326681763,
+      "learning_rate": 0.0003508390822668961,
+      "loss": 0.3389,
+      "num_input_tokens_seen": 36287248,
+      "step": 39130
+    },
+    {
+      "epoch": 18.451202263083452,
+      "grad_norm": 0.00040483937482349575,
+      "learning_rate": 0.00034682418895633503,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 36291840,
+      "step": 39135
+    },
+    {
+      "epoch": 18.453559641678453,
+      "grad_norm": 0.0004744984325952828,
+      "learning_rate": 0.0003428323740461647,
+      "loss": 0.3323,
+      "num_input_tokens_seen": 36296480,
+      "step": 39140
+    },
+    {
+      "epoch": 18.455917020273457,
+      "grad_norm": 0.00035456681507639587,
+      "learning_rate": 0.00033886363815194276,
+      "loss": 0.3367,
+      "num_input_tokens_seen": 36301152,
+      "step": 39145
+    },
+    {
+      "epoch": 18.458274398868458,
+      "grad_norm": 0.000785790616646409,
+      "learning_rate": 0.0003349179818857129,
+      "loss": 0.3473,
+      "num_input_tokens_seen": 36306496,
+      "step": 39150
+    },
+    {
+      "epoch": 18.460631777463462,
+      "grad_norm": 0.0009104564669542015,
+      "learning_rate": 0.0003309954058559383,
+      "loss": 0.3661,
+      "num_input_tokens_seen": 36310768,
+      "step": 39155
+    },
+    {
+      "epoch": 18.462989156058462,
+      "grad_norm": 0.0006171336281113327,
+      "learning_rate": 0.0003270959106675186,
+      "loss": 0.34,
+      "num_input_tokens_seen": 36314688,
+      "step": 39160
+    },
+    {
+      "epoch": 18.465346534653467,
+      "grad_norm": 0.0004986601416021585,
+      "learning_rate": 0.0003232194969218227,
+      "loss": 0.3212,
+      "num_input_tokens_seen": 36318896,
+      "step": 39165
+    },
+    {
+      "epoch": 18.467703913248467,
+      "grad_norm": 0.0008358168415725231,
+      "learning_rate": 0.00031936616521663905,
+      "loss": 0.3406,
+      "num_input_tokens_seen": 36323712,
+      "step": 39170
+    },
+    {
+      "epoch": 18.47006129184347,
+      "grad_norm": 0.0003899112343788147,
+      "learning_rate": 0.00031553591614619236,
+      "loss": 0.2857,
+      "num_input_tokens_seen": 36328224,
+      "step": 39175
+    },
+    {
+      "epoch": 18.472418670438472,
+      "grad_norm": 0.0008768230327405035,
+      "learning_rate": 0.00031172875030117676,
+      "loss": 0.3086,
+      "num_input_tokens_seen": 36332768,
+      "step": 39180
+    },
+    {
+      "epoch": 18.474776049033476,
+      "grad_norm": 0.0004760531010106206,
+      "learning_rate": 0.0003079446682686726,
+      "loss": 0.2807,
+      "num_input_tokens_seen": 36336880,
+      "step": 39185
+    },
+    {
+      "epoch": 18.477133427628477,
+      "grad_norm": 0.0006594933802261949,
+      "learning_rate": 0.0003041836706322465,
+      "loss": 0.3527,
+      "num_input_tokens_seen": 36341392,
+      "step": 39190
+    },
+    {
+      "epoch": 18.47949080622348,
+      "grad_norm": 0.0003109076642431319,
+      "learning_rate": 0.0003004457579719011,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 36346224,
+      "step": 39195
+    },
+    {
+      "epoch": 18.48184818481848,
+      "grad_norm": 0.0007866534288041294,
+      "learning_rate": 0.00029673093086405867,
+      "loss": 0.284,
+      "num_input_tokens_seen": 36351216,
+      "step": 39200
+    },
+    {
+      "epoch": 18.48184818481848,
+      "eval_loss": 0.32872965931892395,
+      "eval_runtime": 33.5939,
+      "eval_samples_per_second": 28.071,
+      "eval_steps_per_second": 14.05,
+      "num_input_tokens_seen": 36351216,
+      "step": 39200
+    },
+    {
+      "epoch": 18.484205563413486,
+      "grad_norm": 0.0003575600276235491,
+      "learning_rate": 0.00029303918988159426,
+      "loss": 0.3296,
+      "num_input_tokens_seen": 36355488,
+      "step": 39205
+    },
+    {
+      "epoch": 18.486562942008486,
+      "grad_norm": 0.0005043020355515182,
+      "learning_rate": 0.0002893705355938192,
+      "loss": 0.3274,
+      "num_input_tokens_seen": 36359456,
+      "step": 39210
+    },
+    {
+      "epoch": 18.48892032060349,
+      "grad_norm": 0.0008483062847517431,
+      "learning_rate": 0.0002857249685664975,
+      "loss": 0.323,
+      "num_input_tokens_seen": 36364000,
+      "step": 39215
+    },
+    {
+      "epoch": 18.49127769919849,
+      "grad_norm": 0.0006156976451165974,
+      "learning_rate": 0.0002821024893618129,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 36369504,
+      "step": 39220
+    },
+    {
+      "epoch": 18.493635077793492,
+      "grad_norm": 0.0005713337450288236,
+      "learning_rate": 0.0002785030985383852,
+      "loss": 0.3384,
+      "num_input_tokens_seen": 36374656,
+      "step": 39225
+    },
+    {
+      "epoch": 18.495992456388496,
+      "grad_norm": 0.0010579803492873907,
+      "learning_rate": 0.00027492679665130356,
+      "loss": 0.3864,
+      "num_input_tokens_seen": 36379408,
+      "step": 39230
+    },
+    {
+      "epoch": 18.498349834983497,
+      "grad_norm": 0.000865600595716387,
+      "learning_rate": 0.000271373584252077,
+      "loss": 0.339,
+      "num_input_tokens_seen": 36383904,
+      "step": 39235
+    },
+    {
+      "epoch": 18.5007072135785,
+      "grad_norm": 0.0008159107528626919,
+      "learning_rate": 0.00026784346188865046,
+      "loss": 0.3414,
+      "num_input_tokens_seen": 36388992,
+      "step": 39240
+    },
+    {
+      "epoch": 18.5030645921735,
+      "grad_norm": 0.0009360190597362816,
+      "learning_rate": 0.0002643364301054218,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 36395280,
+      "step": 39245
+    },
+    {
+      "epoch": 18.505421970768506,
+      "grad_norm": 0.000399655953515321,
+      "learning_rate": 0.0002608524894431918,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 36400000,
+      "step": 39250
+    },
+    {
+      "epoch": 18.507779349363506,
+      "grad_norm": 0.00026867809356190264,
+      "learning_rate": 0.000257391640439264,
+      "loss": 0.276,
+      "num_input_tokens_seen": 36404688,
+      "step": 39255
+    },
+    {
+      "epoch": 18.51013672795851,
+      "grad_norm": 0.0008737823227420449,
+      "learning_rate": 0.00025395388362732806,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 36409984,
+      "step": 39260
+    },
+    {
+      "epoch": 18.51249410655351,
+      "grad_norm": 0.0005296116578392684,
+      "learning_rate": 0.00025053921953751,
+      "loss": 0.3461,
+      "num_input_tokens_seen": 36414000,
+      "step": 39265
+    },
+    {
+      "epoch": 18.514851485148515,
+      "grad_norm": 0.0005857647047378123,
+      "learning_rate": 0.00024714764869643855,
+      "loss": 0.3318,
+      "num_input_tokens_seen": 36418656,
+      "step": 39270
+    },
+    {
+      "epoch": 18.517208863743516,
+      "grad_norm": 0.00046543165808543563,
+      "learning_rate": 0.0002437791716270954,
+      "loss": 0.3922,
+      "num_input_tokens_seen": 36422000,
+      "step": 39275
+    },
+    {
+      "epoch": 18.51956624233852,
+      "grad_norm": 0.00048482444253750145,
+      "learning_rate": 0.00024043378884896493,
+      "loss": 0.2806,
+      "num_input_tokens_seen": 36426832,
+      "step": 39280
+    },
+    {
+      "epoch": 18.52192362093352,
+      "grad_norm": 0.0007756781997159123,
+      "learning_rate": 0.00023711150087793453,
+      "loss": 0.2934,
+      "num_input_tokens_seen": 36430912,
+      "step": 39285
+    },
+    {
+      "epoch": 18.524280999528525,
+      "grad_norm": 0.0008645020425319672,
+      "learning_rate": 0.000233812308226361,
+      "loss": 0.2614,
+      "num_input_tokens_seen": 36435392,
+      "step": 39290
+    },
+    {
+      "epoch": 18.526638378123526,
+      "grad_norm": 0.00043317023664712906,
+      "learning_rate": 0.00023053621140300406,
+      "loss": 0.3451,
+      "num_input_tokens_seen": 36440528,
+      "step": 39295
+    },
+    {
+      "epoch": 18.52899575671853,
+      "grad_norm": 0.00040318170795217156,
+      "learning_rate": 0.00022728321091307623,
+      "loss": 0.2678,
+      "num_input_tokens_seen": 36445232,
+      "step": 39300
+    },
+    {
+      "epoch": 18.53135313531353,
+      "grad_norm": 0.0005094759399071336,
+      "learning_rate": 0.0002240533072582429,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 36449024,
+      "step": 39305
+    },
+    {
+      "epoch": 18.533710513908535,
+      "grad_norm": 0.0008123599691316485,
+      "learning_rate": 0.00022084650093658897,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 36453216,
+      "step": 39310
+    },
+    {
+      "epoch": 18.536067892503535,
+      "grad_norm": 0.00048470849287696183,
+      "learning_rate": 0.0002176627924426522,
+      "loss": 0.3246,
+      "num_input_tokens_seen": 36458368,
+      "step": 39315
+    },
+    {
+      "epoch": 18.53842527109854,
+      "grad_norm": 0.0005180378211662173,
+      "learning_rate": 0.0002145021822673898,
+      "loss": 0.3467,
+      "num_input_tokens_seen": 36462768,
+      "step": 39320
+    },
+    {
+      "epoch": 18.54078264969354,
+      "grad_norm": 0.0003551323898136616,
+      "learning_rate": 0.00021136467089822862,
+      "loss": 0.3363,
+      "num_input_tokens_seen": 36467104,
+      "step": 39325
+    },
+    {
+      "epoch": 18.543140028288544,
+      "grad_norm": 0.0006553137791343033,
+      "learning_rate": 0.00020825025881898162,
+      "loss": 0.2853,
+      "num_input_tokens_seen": 36472496,
+      "step": 39330
+    },
+    {
+      "epoch": 18.545497406883545,
+      "grad_norm": 0.0006250406731851399,
+      "learning_rate": 0.0002051589465099479,
+      "loss": 0.3915,
+      "num_input_tokens_seen": 36477584,
+      "step": 39335
+    },
+    {
+      "epoch": 18.54785478547855,
+      "grad_norm": 0.00045968551421537995,
+      "learning_rate": 0.0002020907344478462,
+      "loss": 0.3304,
+      "num_input_tokens_seen": 36482304,
+      "step": 39340
+    },
+    {
+      "epoch": 18.55021216407355,
+      "grad_norm": 0.0009714036132209003,
+      "learning_rate": 0.0001990456231058313,
+      "loss": 0.26,
+      "num_input_tokens_seen": 36487232,
+      "step": 39345
+    },
+    {
+      "epoch": 18.552569542668554,
+      "grad_norm": 0.0003759857208933681,
+      "learning_rate": 0.00019602361295349423,
+      "loss": 0.3385,
+      "num_input_tokens_seen": 36491920,
+      "step": 39350
+    },
+    {
+      "epoch": 18.554926921263554,
+      "grad_norm": 0.0007728750933893025,
+      "learning_rate": 0.0001930247044568789,
+      "loss": 0.3179,
+      "num_input_tokens_seen": 36496208,
+      "step": 39355
+    },
+    {
+      "epoch": 18.55728429985856,
+      "grad_norm": 0.0006751515902578831,
+      "learning_rate": 0.00019004889807843205,
+      "loss": 0.2909,
+      "num_input_tokens_seen": 36501392,
+      "step": 39360
+    },
+    {
+      "epoch": 18.55964167845356,
+      "grad_norm": 0.00044998934026807547,
+      "learning_rate": 0.00018709619427708656,
+      "loss": 0.3107,
+      "num_input_tokens_seen": 36506288,
+      "step": 39365
+    },
+    {
+      "epoch": 18.561999057048563,
+      "grad_norm": 0.0004415575531311333,
+      "learning_rate": 0.00018416659350817822,
+      "loss": 0.376,
+      "num_input_tokens_seen": 36510688,
+      "step": 39370
+    },
+    {
+      "epoch": 18.564356435643564,
+      "grad_norm": 0.000774434651248157,
+      "learning_rate": 0.00018126009622346229,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 36515824,
+      "step": 39375
+    },
+    {
+      "epoch": 18.566713814238568,
+      "grad_norm": 0.00036121706943959,
+      "learning_rate": 0.00017837670287119687,
+      "loss": 0.3475,
+      "num_input_tokens_seen": 36519936,
+      "step": 39380
+    },
+    {
+      "epoch": 18.56907119283357,
+      "grad_norm": 0.0005728837568312883,
+      "learning_rate": 0.00017551641389602633,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 36525008,
+      "step": 39385
+    },
+    {
+      "epoch": 18.571428571428573,
+      "grad_norm": 0.0005601239972747862,
+      "learning_rate": 0.00017267922973903115,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 36529264,
+      "step": 39390
+    },
+    {
+      "epoch": 18.573785950023574,
+      "grad_norm": 0.0005925188888795674,
+      "learning_rate": 0.00016986515083774467,
+      "loss": 0.3807,
+      "num_input_tokens_seen": 36533472,
+      "step": 39395
+    },
+    {
+      "epoch": 18.576143328618578,
+      "grad_norm": 0.00039559585275128484,
+      "learning_rate": 0.00016707417762611975,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 36537456,
+      "step": 39400
+    },
+    {
+      "epoch": 18.576143328618578,
+      "eval_loss": 0.32878851890563965,
+      "eval_runtime": 33.5962,
+      "eval_samples_per_second": 28.069,
+      "eval_steps_per_second": 14.049,
+      "num_input_tokens_seen": 36537456,
+      "step": 39400
+    },
+    {
+      "epoch": 18.57850070721358,
+      "grad_norm": 0.00035175023367628455,
+      "learning_rate": 0.00016430631053459543,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 36541424,
+      "step": 39405
+    },
+    {
+      "epoch": 18.580858085808583,
+      "grad_norm": 0.0004405969229992479,
+      "learning_rate": 0.0001615615499899803,
+      "loss": 0.3302,
+      "num_input_tokens_seen": 36545792,
+      "step": 39410
+    },
+    {
+      "epoch": 18.583215464403583,
+      "grad_norm": 0.0009888046188279986,
+      "learning_rate": 0.00015883989641556905,
+      "loss": 0.3874,
+      "num_input_tokens_seen": 36550800,
+      "step": 39415
+    },
+    {
+      "epoch": 18.585572842998587,
+      "grad_norm": 0.0005860868841409683,
+      "learning_rate": 0.00015614135023105934,
+      "loss": 0.3628,
+      "num_input_tokens_seen": 36555280,
+      "step": 39420
+    },
+    {
+      "epoch": 18.587930221593588,
+      "grad_norm": 0.0004664133593905717,
+      "learning_rate": 0.00015346591185261827,
+      "loss": 0.299,
+      "num_input_tokens_seen": 36560304,
+      "step": 39425
+    },
+    {
+      "epoch": 18.59028760018859,
+      "grad_norm": 0.0007302891463041306,
+      "learning_rate": 0.00015081358169281576,
+      "loss": 0.3108,
+      "num_input_tokens_seen": 36564896,
+      "step": 39430
+    },
+    {
+      "epoch": 18.592644978783593,
+      "grad_norm": 0.0007057212060317397,
+      "learning_rate": 0.00014818436016069135,
+      "loss": 0.3625,
+      "num_input_tokens_seen": 36569888,
+      "step": 39435
+    },
+    {
+      "epoch": 18.595002357378593,
+      "grad_norm": 0.0004913332522846758,
+      "learning_rate": 0.00014557824766168735,
+      "loss": 0.3738,
+      "num_input_tokens_seen": 36573984,
+      "step": 39440
+    },
+    {
+      "epoch": 18.597359735973598,
+      "grad_norm": 0.0006335446960292757,
+      "learning_rate": 0.00014299524459769896,
+      "loss": 0.3921,
+      "num_input_tokens_seen": 36577968,
+      "step": 39445
+    },
+    {
+      "epoch": 18.599717114568598,
+      "grad_norm": 0.00042931234929710627,
+      "learning_rate": 0.0001404353513670742,
+      "loss": 0.3244,
+      "num_input_tokens_seen": 36582048,
+      "step": 39450
+    },
+    {
+      "epoch": 18.602074493163602,
+      "grad_norm": 0.000463794480310753,
+      "learning_rate": 0.0001378985683645806,
+      "loss": 0.4188,
+      "num_input_tokens_seen": 36586400,
+      "step": 39455
+    },
+    {
+      "epoch": 18.604431871758603,
+      "grad_norm": 0.00038035513716749847,
+      "learning_rate": 0.0001353848959813886,
+      "loss": 0.3042,
+      "num_input_tokens_seen": 36590432,
+      "step": 39460
+    },
+    {
+      "epoch": 18.606789250353607,
+      "grad_norm": 0.0006387537578120828,
+      "learning_rate": 0.00013289433460517142,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 36594912,
+      "step": 39465
+    },
+    {
+      "epoch": 18.609146628948608,
+      "grad_norm": 0.00040566810639575124,
+      "learning_rate": 0.00013042688462000518,
+      "loss": 0.296,
+      "num_input_tokens_seen": 36600208,
+      "step": 39470
+    },
+    {
+      "epoch": 18.611504007543612,
+      "grad_norm": 0.0006244953256100416,
+      "learning_rate": 0.0001279825464063855,
+      "loss": 0.3182,
+      "num_input_tokens_seen": 36605488,
+      "step": 39475
+    },
+    {
+      "epoch": 18.613861386138613,
+      "grad_norm": 0.00037394280661828816,
+      "learning_rate": 0.00012556132034126087,
+      "loss": 0.2518,
+      "num_input_tokens_seen": 36610576,
+      "step": 39480
+    },
+    {
+      "epoch": 18.616218764733617,
+      "grad_norm": 0.00047210310003720224,
+      "learning_rate": 0.0001231632067980326,
+      "loss": 0.3353,
+      "num_input_tokens_seen": 36616480,
+      "step": 39485
+    },
+    {
+      "epoch": 18.618576143328617,
+      "grad_norm": 0.0008122975705191493,
+      "learning_rate": 0.00012078820614650486,
+      "loss": 0.3576,
+      "num_input_tokens_seen": 36621040,
+      "step": 39490
+    },
+    {
+      "epoch": 18.62093352192362,
+      "grad_norm": 0.0008451825124211609,
+      "learning_rate": 0.00011843631875291804,
+      "loss": 0.2995,
+      "num_input_tokens_seen": 36625600,
+      "step": 39495
+    },
+    {
+      "epoch": 18.623290900518622,
+      "grad_norm": 0.0004494317399803549,
+      "learning_rate": 0.00011610754497999863,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 36630240,
+      "step": 39500
+    },
+    {
+      "epoch": 18.625648279113626,
+      "grad_norm": 0.0010384292108938098,
+      "learning_rate": 0.0001138018851868594,
+      "loss": 0.3025,
+      "num_input_tokens_seen": 36634080,
+      "step": 39505
+    },
+    {
+      "epoch": 18.628005657708627,
+      "grad_norm": 0.0003796830424107611,
+      "learning_rate": 0.0001115193397290326,
+      "loss": 0.3303,
+      "num_input_tokens_seen": 36638416,
+      "step": 39510
+    },
+    {
+      "epoch": 18.63036303630363,
+      "grad_norm": 0.0007615095237269998,
+      "learning_rate": 0.00010925990895856996,
+      "loss": 0.3438,
+      "num_input_tokens_seen": 36643568,
+      "step": 39515
+    },
+    {
+      "epoch": 18.632720414898632,
+      "grad_norm": 0.00047975537017919123,
+      "learning_rate": 0.00010702359322385946,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 36648608,
+      "step": 39520
+    },
+    {
+      "epoch": 18.635077793493636,
+      "grad_norm": 0.0008306591771543026,
+      "learning_rate": 0.00010481039286977523,
+      "loss": 0.2943,
+      "num_input_tokens_seen": 36653696,
+      "step": 39525
+    },
+    {
+      "epoch": 18.637435172088637,
+      "grad_norm": 0.0005476480000652373,
+      "learning_rate": 0.00010262030823764423,
+      "loss": 0.3316,
+      "num_input_tokens_seen": 36657952,
+      "step": 39530
+    },
+    {
+      "epoch": 18.63979255068364,
+      "grad_norm": 0.00048237963346764445,
+      "learning_rate": 0.00010045333966517966,
+      "loss": 0.2738,
+      "num_input_tokens_seen": 36662336,
+      "step": 39535
+    },
+    {
+      "epoch": 18.64214992927864,
+      "grad_norm": 0.0007007243111729622,
+      "learning_rate": 9.83094874865642e-05,
+      "loss": 0.3001,
+      "num_input_tokens_seen": 36667296,
+      "step": 39540
+    },
+    {
+      "epoch": 18.644507307873646,
+      "grad_norm": 0.0009957937290892005,
+      "learning_rate": 9.618875203241672e-05,
+      "loss": 0.2759,
+      "num_input_tokens_seen": 36671888,
+      "step": 39545
+    },
+    {
+      "epoch": 18.646864686468646,
+      "grad_norm": 0.000787163560744375,
+      "learning_rate": 9.409113362977561e-05,
+      "loss": 0.353,
+      "num_input_tokens_seen": 36676624,
+      "step": 39550
+    },
+    {
+      "epoch": 18.64922206506365,
+      "grad_norm": 0.0005463386187329888,
+      "learning_rate": 9.20166326020988e-05,
+      "loss": 0.2982,
+      "num_input_tokens_seen": 36680320,
+      "step": 39555
+    },
+    {
+      "epoch": 18.65157944365865,
+      "grad_norm": 0.000547907198779285,
+      "learning_rate": 8.996524926933035e-05,
+      "loss": 0.353,
+      "num_input_tokens_seen": 36686256,
+      "step": 39560
+    },
+    {
+      "epoch": 18.653936822253655,
+      "grad_norm": 0.0005148855270817876,
+      "learning_rate": 8.793698394781723e-05,
+      "loss": 0.3716,
+      "num_input_tokens_seen": 36689872,
+      "step": 39565
+    },
+    {
+      "epoch": 18.656294200848656,
+      "grad_norm": 0.0004919039201922715,
+      "learning_rate": 8.593183695030926e-05,
+      "loss": 0.3063,
+      "num_input_tokens_seen": 36694128,
+      "step": 39570
+    },
+    {
+      "epoch": 18.65865157944366,
+      "grad_norm": 0.0007419353350996971,
+      "learning_rate": 8.39498085860757e-05,
+      "loss": 0.3081,
+      "num_input_tokens_seen": 36699088,
+      "step": 39575
+    },
+    {
+      "epoch": 18.66100895803866,
+      "grad_norm": 0.0009020661818794906,
+      "learning_rate": 8.199089916072211e-05,
+      "loss": 0.3755,
+      "num_input_tokens_seen": 36703824,
+      "step": 39580
+    },
+    {
+      "epoch": 18.663366336633665,
+      "grad_norm": 0.000544824986718595,
+      "learning_rate": 8.005510897637346e-05,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 36709056,
+      "step": 39585
+    },
+    {
+      "epoch": 18.665723715228665,
+      "grad_norm": 0.0008357432088814676,
+      "learning_rate": 7.8142438331541e-05,
+      "loss": 0.3416,
+      "num_input_tokens_seen": 36713232,
+      "step": 39590
+    },
+    {
+      "epoch": 18.66808109382367,
+      "grad_norm": 0.001299525611102581,
+      "learning_rate": 7.625288752117209e-05,
+      "loss": 0.2998,
+      "num_input_tokens_seen": 36719344,
+      "step": 39595
+    },
+    {
+      "epoch": 18.67043847241867,
+      "grad_norm": 0.0005059082759544253,
+      "learning_rate": 7.4386456836667e-05,
+      "loss": 0.3618,
+      "num_input_tokens_seen": 36723376,
+      "step": 39600
+    },
+    {
+      "epoch": 18.67043847241867,
+      "eval_loss": 0.3285972476005554,
+      "eval_runtime": 33.6204,
+      "eval_samples_per_second": 28.048,
+      "eval_steps_per_second": 14.039,
+      "num_input_tokens_seen": 36723376,
+      "step": 39600
+    },
+    {
+      "epoch": 18.672795851013674,
+      "grad_norm": 0.0008593794191256166,
+      "learning_rate": 7.254314656586214e-05,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 36728448,
+      "step": 39605
+    },
+    {
+      "epoch": 18.675153229608675,
+      "grad_norm": 0.0005660603637807071,
+      "learning_rate": 7.07229569929968e-05,
+      "loss": 0.3194,
+      "num_input_tokens_seen": 36733072,
+      "step": 39610
+    },
+    {
+      "epoch": 18.677510608203676,
+      "grad_norm": 0.0004572699835989624,
+      "learning_rate": 6.892588839879643e-05,
+      "loss": 0.3744,
+      "num_input_tokens_seen": 36738192,
+      "step": 39615
+    },
+    {
+      "epoch": 18.67986798679868,
+      "grad_norm": 0.000651845708489418,
+      "learning_rate": 6.71519410603727e-05,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 36742304,
+      "step": 39620
+    },
+    {
+      "epoch": 18.68222536539368,
+      "grad_norm": 0.0004317142302170396,
+      "learning_rate": 6.540111525129011e-05,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 36747136,
+      "step": 39625
+    },
+    {
+      "epoch": 18.684582743988685,
+      "grad_norm": 0.0007332460954785347,
+      "learning_rate": 6.367341124154934e-05,
+      "loss": 0.3029,
+      "num_input_tokens_seen": 36752048,
+      "step": 39630
+    },
+    {
+      "epoch": 18.686940122583685,
+      "grad_norm": 0.0004377727454993874,
+      "learning_rate": 6.19688292975873e-05,
+      "loss": 0.3561,
+      "num_input_tokens_seen": 36755952,
+      "step": 39635
+    },
+    {
+      "epoch": 18.68929750117869,
+      "grad_norm": 0.0003957887820433825,
+      "learning_rate": 6.0287369682260336e-05,
+      "loss": 0.3233,
+      "num_input_tokens_seen": 36760592,
+      "step": 39640
+    },
+    {
+      "epoch": 18.69165487977369,
+      "grad_norm": 0.0005441435496322811,
+      "learning_rate": 5.8629032654894384e-05,
+      "loss": 0.3482,
+      "num_input_tokens_seen": 36766032,
+      "step": 39645
+    },
+    {
+      "epoch": 18.694012258368694,
+      "grad_norm": 0.00039159582229331136,
+      "learning_rate": 5.699381847120155e-05,
+      "loss": 0.2781,
+      "num_input_tokens_seen": 36770176,
+      "step": 39650
+    },
+    {
+      "epoch": 18.696369636963695,
+      "grad_norm": 0.0009269213769584894,
+      "learning_rate": 5.5381727383380094e-05,
+      "loss": 0.3851,
+      "num_input_tokens_seen": 36774224,
+      "step": 39655
+    },
+    {
+      "epoch": 18.6987270155587,
+      "grad_norm": 0.0003923369222320616,
+      "learning_rate": 5.379275964001451e-05,
+      "loss": 0.2982,
+      "num_input_tokens_seen": 36778800,
+      "step": 39660
+    },
+    {
+      "epoch": 18.7010843941537,
+      "grad_norm": 0.0005194168770685792,
+      "learning_rate": 5.222691548614211e-05,
+      "loss": 0.3533,
+      "num_input_tokens_seen": 36784064,
+      "step": 39665
+    },
+    {
+      "epoch": 18.703441772748704,
+      "grad_norm": 0.00037764632725156844,
+      "learning_rate": 5.068419516323641e-05,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 36789184,
+      "step": 39670
+    },
+    {
+      "epoch": 18.705799151343705,
+      "grad_norm": 0.0004814645217265934,
+      "learning_rate": 4.91645989092071e-05,
+      "loss": 0.3327,
+      "num_input_tokens_seen": 36794528,
+      "step": 39675
+    },
+    {
+      "epoch": 18.70815652993871,
+      "grad_norm": 0.0005027198349125683,
+      "learning_rate": 4.7668126958400056e-05,
+      "loss": 0.3333,
+      "num_input_tokens_seen": 36798592,
+      "step": 39680
+    },
+    {
+      "epoch": 18.71051390853371,
+      "grad_norm": 0.0005365029210224748,
+      "learning_rate": 4.619477954159734e-05,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 36803360,
+      "step": 39685
+    },
+    {
+      "epoch": 18.712871287128714,
+      "grad_norm": 0.000480244227219373,
+      "learning_rate": 4.4744556885983884e-05,
+      "loss": 0.3983,
+      "num_input_tokens_seen": 36807536,
+      "step": 39690
+    },
+    {
+      "epoch": 18.715228665723714,
+      "grad_norm": 0.0008488482562825084,
+      "learning_rate": 4.331745921523078e-05,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 36812368,
+      "step": 39695
+    },
+    {
+      "epoch": 18.71758604431872,
+      "grad_norm": 0.0004984604893252254,
+      "learning_rate": 4.191348674937867e-05,
+      "loss": 0.3103,
+      "num_input_tokens_seen": 36816928,
+      "step": 39700
+    },
+    {
+      "epoch": 18.71994342291372,
+      "grad_norm": 0.00041743708425201476,
+      "learning_rate": 4.0532639704971006e-05,
+      "loss": 0.3746,
+      "num_input_tokens_seen": 36820832,
+      "step": 39705
+    },
+    {
+      "epoch": 18.722300801508723,
+      "grad_norm": 0.0006508693331852555,
+      "learning_rate": 3.917491829493747e-05,
+      "loss": 0.2894,
+      "num_input_tokens_seen": 36825072,
+      "step": 39710
+    },
+    {
+      "epoch": 18.724658180103724,
+      "grad_norm": 0.0004889988340437412,
+      "learning_rate": 3.78403227286439e-05,
+      "loss": 0.3383,
+      "num_input_tokens_seen": 36829552,
+      "step": 39715
+    },
+    {
+      "epoch": 18.727015558698728,
+      "grad_norm": 0.0005605871556326747,
+      "learning_rate": 3.652885321192567e-05,
+      "loss": 0.337,
+      "num_input_tokens_seen": 36833312,
+      "step": 39720
+    },
+    {
+      "epoch": 18.72937293729373,
+      "grad_norm": 0.0005940769915468991,
+      "learning_rate": 3.524050994702099e-05,
+      "loss": 0.3517,
+      "num_input_tokens_seen": 36838032,
+      "step": 39725
+    },
+    {
+      "epoch": 18.731730315888733,
+      "grad_norm": 0.0006332024931907654,
+      "learning_rate": 3.3975293132604276e-05,
+      "loss": 0.3171,
+      "num_input_tokens_seen": 36842032,
+      "step": 39730
+    },
+    {
+      "epoch": 18.734087694483733,
+      "grad_norm": 0.00046026965719647706,
+      "learning_rate": 3.2733202963786125e-05,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 36846752,
+      "step": 39735
+    },
+    {
+      "epoch": 18.736445073078738,
+      "grad_norm": 0.0007848079549148679,
+      "learning_rate": 3.15142396321133e-05,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 36852960,
+      "step": 39740
+    },
+    {
+      "epoch": 18.738802451673738,
+      "grad_norm": 0.0006848740158602595,
+      "learning_rate": 3.0318403325552132e-05,
+      "loss": 0.2852,
+      "num_input_tokens_seen": 36857424,
+      "step": 39745
+    },
+    {
+      "epoch": 18.741159830268742,
+      "grad_norm": 0.00033870822517201304,
+      "learning_rate": 2.914569422855506e-05,
+      "loss": 0.2673,
+      "num_input_tokens_seen": 36861408,
+      "step": 39750
+    },
+    {
+      "epoch": 18.743517208863743,
+      "grad_norm": 0.0006388265173882246,
+      "learning_rate": 2.7996112521927462e-05,
+      "loss": 0.3021,
+      "num_input_tokens_seen": 36866176,
+      "step": 39755
+    },
+    {
+      "epoch": 18.745874587458747,
+      "grad_norm": 0.0008203398901969194,
+      "learning_rate": 2.68696583829775e-05,
+      "loss": 0.2962,
+      "num_input_tokens_seen": 36870672,
+      "step": 39760
+    },
+    {
+      "epoch": 18.748231966053748,
+      "grad_norm": 0.0008444614941254258,
+      "learning_rate": 2.576633198539957e-05,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 36874544,
+      "step": 39765
+    },
+    {
+      "epoch": 18.750589344648752,
+      "grad_norm": 0.0005690757534466684,
+      "learning_rate": 2.46861334993409e-05,
+      "loss": 0.3624,
+      "num_input_tokens_seen": 36879888,
+      "step": 39770
+    },
+    {
+      "epoch": 18.752946723243753,
+      "grad_norm": 0.0007471232092939317,
+      "learning_rate": 2.3629063091384903e-05,
+      "loss": 0.2724,
+      "num_input_tokens_seen": 36885008,
+      "step": 39775
+    },
+    {
+      "epoch": 18.755304101838757,
+      "grad_norm": 0.0010587942088022828,
+      "learning_rate": 2.2595120924567834e-05,
+      "loss": 0.3355,
+      "num_input_tokens_seen": 36890608,
+      "step": 39780
+    },
+    {
+      "epoch": 18.757661480433757,
+      "grad_norm": 0.00038363601197488606,
+      "learning_rate": 2.158430715829551e-05,
+      "loss": 0.3447,
+      "num_input_tokens_seen": 36895440,
+      "step": 39785
+    },
+    {
+      "epoch": 18.76001885902876,
+      "grad_norm": 0.00038872906588949263,
+      "learning_rate": 2.059662194849321e-05,
+      "loss": 0.3134,
+      "num_input_tokens_seen": 36900960,
+      "step": 39790
+    },
+    {
+      "epoch": 18.762376237623762,
+      "grad_norm": 0.0008238440495915711,
+      "learning_rate": 1.9632065447422463e-05,
+      "loss": 0.3806,
+      "num_input_tokens_seen": 36905440,
+      "step": 39795
+    },
+    {
+      "epoch": 18.764733616218766,
+      "grad_norm": 0.0008332908619195223,
+      "learning_rate": 1.8690637803880916e-05,
+      "loss": 0.3315,
+      "num_input_tokens_seen": 36910256,
+      "step": 39800
+    },
+    {
+      "epoch": 18.764733616218766,
+      "eval_loss": 0.3283248841762543,
+      "eval_runtime": 33.6021,
+      "eval_samples_per_second": 28.064,
+      "eval_steps_per_second": 14.047,
+      "num_input_tokens_seen": 36910256,
+      "step": 39800
+    },
+    {
+      "epoch": 18.767090994813767,
+      "grad_norm": 0.00048283429350703955,
+      "learning_rate": 1.7772339163019123e-05,
+      "loss": 0.3009,
+      "num_input_tokens_seen": 36914608,
+      "step": 39805
+    },
+    {
+      "epoch": 18.76944837340877,
+      "grad_norm": 0.0003486855130176991,
+      "learning_rate": 1.6877169666457138e-05,
+      "loss": 0.3276,
+      "num_input_tokens_seen": 36918928,
+      "step": 39810
+    },
+    {
+      "epoch": 18.77180575200377,
+      "grad_norm": 0.00041437227628193796,
+      "learning_rate": 1.6005129452234532e-05,
+      "loss": 0.3168,
+      "num_input_tokens_seen": 36923520,
+      "step": 39815
+    },
+    {
+      "epoch": 18.774163130598772,
+      "grad_norm": 0.0004448097897693515,
+      "learning_rate": 1.5156218654843733e-05,
+      "loss": 0.3335,
+      "num_input_tokens_seen": 36929904,
+      "step": 39820
+    },
+    {
+      "epoch": 18.776520509193777,
+      "grad_norm": 0.0005045164725743234,
+      "learning_rate": 1.4330437405196683e-05,
+      "loss": 0.3293,
+      "num_input_tokens_seen": 36933840,
+      "step": 39825
+    },
+    {
+      "epoch": 18.778877887788777,
+      "grad_norm": 0.00035695431870408356,
+      "learning_rate": 1.352778583062486e-05,
+      "loss": 0.2867,
+      "num_input_tokens_seen": 36938416,
+      "step": 39830
+    },
+    {
+      "epoch": 18.78123526638378,
+      "grad_norm": 0.0007933588931336999,
+      "learning_rate": 1.2748264054929237e-05,
+      "loss": 0.2814,
+      "num_input_tokens_seen": 36943136,
+      "step": 39835
+    },
+    {
+      "epoch": 18.783592644978782,
+      "grad_norm": 0.0007267258479259908,
+      "learning_rate": 1.1991872198297004e-05,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 36948224,
+      "step": 39840
+    },
+    {
+      "epoch": 18.785950023573786,
+      "grad_norm": 0.0004713740781880915,
+      "learning_rate": 1.1258610377384847e-05,
+      "loss": 0.3174,
+      "num_input_tokens_seen": 36953872,
+      "step": 39845
+    },
+    {
+      "epoch": 18.788307402168787,
+      "grad_norm": 0.0005294667207635939,
+      "learning_rate": 1.0548478705268982e-05,
+      "loss": 0.3217,
+      "num_input_tokens_seen": 36958032,
+      "step": 39850
+    },
+    {
+      "epoch": 18.79066478076379,
+      "grad_norm": 0.0004188097664155066,
+      "learning_rate": 9.86147729147846e-06,
+      "loss": 0.3144,
+      "num_input_tokens_seen": 36961760,
+      "step": 39855
+    },
+    {
+      "epoch": 18.79302215935879,
+      "grad_norm": 0.00044369115494191647,
+      "learning_rate": 9.197606241928557e-06,
+      "loss": 0.2808,
+      "num_input_tokens_seen": 36965136,
+      "step": 39860
+    },
+    {
+      "epoch": 18.795379537953796,
+      "grad_norm": 0.0008818375063128769,
+      "learning_rate": 8.556865659004042e-06,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 36969840,
+      "step": 39865
+    },
+    {
+      "epoch": 18.797736916548796,
+      "grad_norm": 0.00047336117131635547,
+      "learning_rate": 7.939255641525867e-06,
+      "loss": 0.3325,
+      "num_input_tokens_seen": 36974336,
+      "step": 39870
+    },
+    {
+      "epoch": 18.8000942951438,
+      "grad_norm": 0.0008653895929455757,
+      "learning_rate": 7.344776284751164e-06,
+      "loss": 0.305,
+      "num_input_tokens_seen": 36978752,
+      "step": 39875
+    },
+    {
+      "epoch": 18.8024516737388,
+      "grad_norm": 0.00034863935434259474,
+      "learning_rate": 6.773427680323296e-06,
+      "loss": 0.2663,
+      "num_input_tokens_seen": 36984416,
+      "step": 39880
+    },
+    {
+      "epoch": 18.804809052333805,
+      "grad_norm": 0.0005066712037660182,
+      "learning_rate": 6.225209916355112e-06,
+      "loss": 0.315,
+      "num_input_tokens_seen": 36988512,
+      "step": 39885
+    },
+    {
+      "epoch": 18.807166430928806,
+      "grad_norm": 0.0007341099553741515,
+      "learning_rate": 5.7001230774123e-06,
+      "loss": 0.3538,
+      "num_input_tokens_seen": 36993024,
+      "step": 39890
+    },
+    {
+      "epoch": 18.80952380952381,
+      "grad_norm": 0.0005276708980090916,
+      "learning_rate": 5.198167244446772e-06,
+      "loss": 0.3711,
+      "num_input_tokens_seen": 36998448,
+      "step": 39895
+    },
+    {
+      "epoch": 18.81188118811881,
+      "grad_norm": 0.0008371441508643329,
+      "learning_rate": 4.71934249487993e-06,
+      "loss": 0.3227,
+      "num_input_tokens_seen": 37003600,
+      "step": 39900
+    },
+    {
+      "epoch": 18.814238566713815,
+      "grad_norm": 0.0010567017598077655,
+      "learning_rate": 4.2636489025527075e-06,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 37008000,
+      "step": 39905
+    },
+    {
+      "epoch": 18.816595945308816,
+      "grad_norm": 0.0012279131915420294,
+      "learning_rate": 3.831086537742223e-06,
+      "loss": 0.3193,
+      "num_input_tokens_seen": 37012608,
+      "step": 39910
+    },
+    {
+      "epoch": 18.81895332390382,
+      "grad_norm": 0.0007476341561414301,
+      "learning_rate": 3.4216554671451236e-06,
+      "loss": 0.3755,
+      "num_input_tokens_seen": 37017408,
+      "step": 39915
+    },
+    {
+      "epoch": 18.82131070249882,
+      "grad_norm": 0.0009185114759020507,
+      "learning_rate": 3.035355753894242e-06,
+      "loss": 0.363,
+      "num_input_tokens_seen": 37021616,
+      "step": 39920
+    },
+    {
+      "epoch": 18.823668081093825,
+      "grad_norm": 0.0006984603824093938,
+      "learning_rate": 2.6721874575752477e-06,
+      "loss": 0.3028,
+      "num_input_tokens_seen": 37026480,
+      "step": 39925
+    },
+    {
+      "epoch": 18.826025459688825,
+      "grad_norm": 0.0007336573326028883,
+      "learning_rate": 2.3321506341933418e-06,
+      "loss": 0.3195,
+      "num_input_tokens_seen": 37031408,
+      "step": 39930
+    },
+    {
+      "epoch": 18.82838283828383,
+      "grad_norm": 0.0006742941914126277,
+      "learning_rate": 2.0152453361732546e-06,
+      "loss": 0.3534,
+      "num_input_tokens_seen": 37035920,
+      "step": 39935
+    },
+    {
+      "epoch": 18.83074021687883,
+      "grad_norm": 0.0006823717849329114,
+      "learning_rate": 1.7214716123925554e-06,
+      "loss": 0.3344,
+      "num_input_tokens_seen": 37039696,
+      "step": 39940
+    },
+    {
+      "epoch": 18.833097595473834,
+      "grad_norm": 0.0006458980496972799,
+      "learning_rate": 1.4508295081649968e-06,
+      "loss": 0.3248,
+      "num_input_tokens_seen": 37044208,
+      "step": 39945
+    },
+    {
+      "epoch": 18.835454974068835,
+      "grad_norm": 0.0007900646887719631,
+      "learning_rate": 1.2033190652238623e-06,
+      "loss": 0.3386,
+      "num_input_tokens_seen": 37049168,
+      "step": 39950
+    },
+    {
+      "epoch": 18.83781235266384,
+      "grad_norm": 0.0005520584527403116,
+      "learning_rate": 9.78940321721966e-07,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 37053712,
+      "step": 39955
+    },
+    {
+      "epoch": 18.84016973125884,
+      "grad_norm": 0.0005295728915371001,
+      "learning_rate": 7.776933122816132e-07,
+      "loss": 0.3222,
+      "num_input_tokens_seen": 37058592,
+      "step": 39960
+    },
+    {
+      "epoch": 18.842527109853844,
+      "grad_norm": 0.0008061463013291359,
+      "learning_rate": 5.99578067927986e-07,
+      "loss": 0.3024,
+      "num_input_tokens_seen": 37063312,
+      "step": 39965
+    },
+    {
+      "epoch": 18.844884488448844,
+      "grad_norm": 0.0005367737612687051,
+      "learning_rate": 4.445946161224512e-07,
+      "loss": 0.3202,
+      "num_input_tokens_seen": 37068192,
+      "step": 39970
+    },
+    {
+      "epoch": 18.84724186704385,
+      "grad_norm": 0.00037264529964886606,
+      "learning_rate": 3.127429807792126e-07,
+      "loss": 0.3578,
+      "num_input_tokens_seen": 37074112,
+      "step": 39975
+    },
+    {
+      "epoch": 18.84959924563885,
+      "grad_norm": 0.00041749730007722974,
+      "learning_rate": 2.040231822320049e-07,
+      "loss": 0.3563,
+      "num_input_tokens_seen": 37079376,
+      "step": 39980
+    },
+    {
+      "epoch": 18.851956624233853,
+      "grad_norm": 0.0009565838263370097,
+      "learning_rate": 1.1843523723409354e-07,
+      "loss": 0.314,
+      "num_input_tokens_seen": 37083760,
+      "step": 39985
+    },
+    {
+      "epoch": 18.854314002828854,
+      "grad_norm": 0.00047559195081703365,
+      "learning_rate": 5.597915897492811e-08,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 37088688,
+      "step": 39990
+    },
+    {
+      "epoch": 18.85667138142386,
+      "grad_norm": 0.0004936708137392998,
+      "learning_rate": 1.6654957113448885e-08,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 37092992,
+      "step": 39995
+    },
+    {
+      "epoch": 18.85902876001886,
+      "grad_norm": 0.0011332299327477813,
+      "learning_rate": 4.626377114735902e-10,
+      "loss": 0.3403,
+      "num_input_tokens_seen": 37097424,
+      "step": 40000
+    },
+    {
+      "epoch": 18.85902876001886,
+      "eval_loss": 0.3285662531852722,
+      "eval_runtime": 33.5902,
+      "eval_samples_per_second": 28.074,
+      "eval_steps_per_second": 14.052,
+      "num_input_tokens_seen": 37097424,
+      "step": 40000
+    },
+    {
+      "epoch": 18.85902876001886,
+      "num_input_tokens_seen": 37097424,
+      "step": 40000,
+      "total_flos": 1.5834232254395843e+18,
+      "train_loss": 0.33570288619101046,
+      "train_runtime": 19776.3723,
+      "train_samples_per_second": 8.09,
+      "train_steps_per_second": 2.023
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 40000,
+  "num_input_tokens_seen": 37097424,
+  "num_train_epochs": 19,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5834232254395843e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}