diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,196384 @@
+{
+  "best_global_step": 30650,
+  "best_metric": 0.12099920213222504,
+  "best_model_checkpoint": "saves_multiple/p-tuning/llama-3-8b-instruct/train_multirc_42_1762240404/checkpoint-30650",
+  "epoch": 20.0,
+  "eval_steps": 6130,
+  "global_step": 122600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0008156606851549756,
+      "grad_norm": 314.6358337402344,
+      "learning_rate": 3.262642740619902e-07,
+      "loss": 8.3174,
+      "num_input_tokens_seen": 10144,
+      "step": 5
+    },
+    {
+      "epoch": 0.0016313213703099511,
+      "grad_norm": 264.6385803222656,
+      "learning_rate": 7.34094616639478e-07,
+      "loss": 7.4675,
+      "num_input_tokens_seen": 20704,
+      "step": 10
+    },
+    {
+      "epoch": 0.0024469820554649264,
+      "grad_norm": 224.40530395507812,
+      "learning_rate": 1.1419249592169658e-06,
+      "loss": 6.5126,
+      "num_input_tokens_seen": 32096,
+      "step": 15
+    },
+    {
+      "epoch": 0.0032626427406199023,
+      "grad_norm": 172.0708770751953,
+      "learning_rate": 1.5497553017944535e-06,
+      "loss": 5.3189,
+      "num_input_tokens_seen": 42272,
+      "step": 20
+    },
+    {
+      "epoch": 0.004078303425774877,
+      "grad_norm": 135.7971649169922,
+      "learning_rate": 1.957585644371941e-06,
+      "loss": 3.7183,
+      "num_input_tokens_seen": 53792,
+      "step": 25
+    },
+    {
+      "epoch": 0.004893964110929853,
+      "grad_norm": 92.28217315673828,
+      "learning_rate": 2.365415986949429e-06,
+      "loss": 3.0498,
+      "num_input_tokens_seen": 64864,
+      "step": 30
+    },
+    {
+      "epoch": 0.005709624796084829,
+      "grad_norm": 85.29937744140625,
+      "learning_rate": 2.7732463295269165e-06,
+      "loss": 2.1791,
+      "num_input_tokens_seen": 76480,
+      "step": 35
+    },
+    {
+      "epoch": 0.0065252854812398045,
+      "grad_norm": 59.62224578857422,
+      "learning_rate": 3.1810766721044044e-06,
+      "loss": 1.7123,
+      "num_input_tokens_seen": 87616,
+      "step": 40
+    },
+    {
+      "epoch": 0.00734094616639478,
+      "grad_norm": 110.24623107910156,
+      "learning_rate": 3.5889070146818927e-06,
+      "loss": 1.2501,
+      "num_input_tokens_seen": 98624,
+      "step": 45
+    },
+    {
+      "epoch": 0.008156606851549755,
+      "grad_norm": 30.345088958740234,
+      "learning_rate": 3.99673735725938e-06,
+      "loss": 0.7328,
+      "num_input_tokens_seen": 108896,
+      "step": 50
+    },
+    {
+      "epoch": 0.00897226753670473,
+      "grad_norm": 88.82992553710938,
+      "learning_rate": 4.404567699836868e-06,
+      "loss": 0.6449,
+      "num_input_tokens_seen": 119936,
+      "step": 55
+    },
+    {
+      "epoch": 0.009787928221859706,
+      "grad_norm": 21.83713722229004,
+      "learning_rate": 4.812398042414356e-06,
+      "loss": 0.4664,
+      "num_input_tokens_seen": 131520,
+      "step": 60
+    },
+    {
+      "epoch": 0.010603588907014683,
+      "grad_norm": 46.5600471496582,
+      "learning_rate": 5.2202283849918435e-06,
+      "loss": 0.5114,
+      "num_input_tokens_seen": 142912,
+      "step": 65
+    },
+    {
+      "epoch": 0.011419249592169658,
+      "grad_norm": 44.04116439819336,
+      "learning_rate": 5.628058727569331e-06,
+      "loss": 0.4,
+      "num_input_tokens_seen": 153600,
+      "step": 70
+    },
+    {
+      "epoch": 0.012234910277324634,
+      "grad_norm": 31.065277099609375,
+      "learning_rate": 6.035889070146819e-06,
+      "loss": 0.4806,
+      "num_input_tokens_seen": 164576,
+      "step": 75
+    },
+    {
+      "epoch": 0.013050570962479609,
+      "grad_norm": 58.715877532958984,
+      "learning_rate": 6.443719412724307e-06,
+      "loss": 0.4291,
+      "num_input_tokens_seen": 174912,
+      "step": 80
+    },
+    {
+      "epoch": 0.013866231647634585,
+      "grad_norm": 36.94560623168945,
+      "learning_rate": 6.851549755301794e-06,
+      "loss": 0.3929,
+      "num_input_tokens_seen": 185312,
+      "step": 85
+    },
+    {
+      "epoch": 0.01468189233278956,
+      "grad_norm": 41.26664733886719,
+      "learning_rate": 7.2593800978792825e-06,
+      "loss": 0.3971,
+      "num_input_tokens_seen": 196608,
+      "step": 90
+    },
+    {
+      "epoch": 0.015497553017944535,
+      "grad_norm": 52.26409149169922,
+      "learning_rate": 7.66721044045677e-06,
+      "loss": 0.5684,
+      "num_input_tokens_seen": 209408,
+      "step": 95
+    },
+    {
+      "epoch": 0.01631321370309951,
+      "grad_norm": 42.45866012573242,
+      "learning_rate": 8.075040783034257e-06,
+      "loss": 0.476,
+      "num_input_tokens_seen": 220192,
+      "step": 100
+    },
+    {
+      "epoch": 0.017128874388254486,
+      "grad_norm": 37.38993453979492,
+      "learning_rate": 8.482871125611746e-06,
+      "loss": 0.3937,
+      "num_input_tokens_seen": 230464,
+      "step": 105
+    },
+    {
+      "epoch": 0.01794453507340946,
+      "grad_norm": 12.51401424407959,
+      "learning_rate": 8.890701468189234e-06,
+      "loss": 0.3869,
+      "num_input_tokens_seen": 241664,
+      "step": 110
+    },
+    {
+      "epoch": 0.018760195758564437,
+      "grad_norm": 51.17809295654297,
+      "learning_rate": 9.298531810766722e-06,
+      "loss": 0.4125,
+      "num_input_tokens_seen": 253248,
+      "step": 115
+    },
+    {
+      "epoch": 0.01957585644371941,
+      "grad_norm": 34.78268814086914,
+      "learning_rate": 9.706362153344209e-06,
+      "loss": 0.3685,
+      "num_input_tokens_seen": 263072,
+      "step": 120
+    },
+    {
+      "epoch": 0.020391517128874388,
+      "grad_norm": 18.864459991455078,
+      "learning_rate": 1.0114192495921697e-05,
+      "loss": 0.352,
+      "num_input_tokens_seen": 274944,
+      "step": 125
+    },
+    {
+      "epoch": 0.021207177814029365,
+      "grad_norm": 17.730932235717773,
+      "learning_rate": 1.0522022838499184e-05,
+      "loss": 0.3605,
+      "num_input_tokens_seen": 285056,
+      "step": 130
+    },
+    {
+      "epoch": 0.02202283849918434,
+      "grad_norm": 33.00218200683594,
+      "learning_rate": 1.0929853181076672e-05,
+      "loss": 0.3986,
+      "num_input_tokens_seen": 296064,
+      "step": 135
+    },
+    {
+      "epoch": 0.022838499184339316,
+      "grad_norm": 20.735210418701172,
+      "learning_rate": 1.1337683523654159e-05,
+      "loss": 0.4069,
+      "num_input_tokens_seen": 307136,
+      "step": 140
+    },
+    {
+      "epoch": 0.02365415986949429,
+      "grad_norm": 21.635116577148438,
+      "learning_rate": 1.1745513866231649e-05,
+      "loss": 0.4322,
+      "num_input_tokens_seen": 317152,
+      "step": 145
+    },
+    {
+      "epoch": 0.024469820554649267,
+      "grad_norm": 28.22029685974121,
+      "learning_rate": 1.2153344208809135e-05,
+      "loss": 0.4022,
+      "num_input_tokens_seen": 327520,
+      "step": 150
+    },
+    {
+      "epoch": 0.02528548123980424,
+      "grad_norm": 13.397923469543457,
+      "learning_rate": 1.2561174551386624e-05,
+      "loss": 0.5004,
+      "num_input_tokens_seen": 338720,
+      "step": 155
+    },
+    {
+      "epoch": 0.026101141924959218,
+      "grad_norm": 16.55824089050293,
+      "learning_rate": 1.296900489396411e-05,
+      "loss": 0.3486,
+      "num_input_tokens_seen": 349824,
+      "step": 160
+    },
+    {
+      "epoch": 0.026916802610114192,
+      "grad_norm": 39.6685676574707,
+      "learning_rate": 1.3376835236541599e-05,
+      "loss": 0.3352,
+      "num_input_tokens_seen": 360576,
+      "step": 165
+    },
+    {
+      "epoch": 0.02773246329526917,
+      "grad_norm": 57.711448669433594,
+      "learning_rate": 1.3784665579119085e-05,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 371328,
+      "step": 170
+    },
+    {
+      "epoch": 0.028548123980424143,
+      "grad_norm": 63.481502532958984,
+      "learning_rate": 1.4192495921696575e-05,
+      "loss": 0.4694,
+      "num_input_tokens_seen": 382624,
+      "step": 175
+    },
+    {
+      "epoch": 0.02936378466557912,
+      "grad_norm": 175.08531188964844,
+      "learning_rate": 1.4600326264274062e-05,
+      "loss": 0.4874,
+      "num_input_tokens_seen": 395232,
+      "step": 180
+    },
+    {
+      "epoch": 0.030179445350734094,
+      "grad_norm": 53.07209777832031,
+      "learning_rate": 1.500815660685155e-05,
+      "loss": 0.7018,
+      "num_input_tokens_seen": 406784,
+      "step": 185
+    },
+    {
+      "epoch": 0.03099510603588907,
+      "grad_norm": 16.1356143951416,
+      "learning_rate": 1.5415986949429037e-05,
+      "loss": 0.416,
+      "num_input_tokens_seen": 417248,
+      "step": 190
+    },
+    {
+      "epoch": 0.03181076672104405,
+      "grad_norm": 11.130064010620117,
+      "learning_rate": 1.5823817292006523e-05,
+      "loss": 0.4056,
+      "num_input_tokens_seen": 428224,
+      "step": 195
+    },
+    {
+      "epoch": 0.03262642740619902,
+      "grad_norm": 8.214327812194824,
+      "learning_rate": 1.6231647634584013e-05,
+      "loss": 0.3701,
+      "num_input_tokens_seen": 437312,
+      "step": 200
+    },
+    {
+      "epoch": 0.033442088091353996,
+      "grad_norm": 19.780445098876953,
+      "learning_rate": 1.66394779771615e-05,
+      "loss": 0.3989,
+      "num_input_tokens_seen": 447776,
+      "step": 205
+    },
+    {
+      "epoch": 0.03425774877650897,
+      "grad_norm": 23.08263397216797,
+      "learning_rate": 1.704730831973899e-05,
+      "loss": 0.3959,
+      "num_input_tokens_seen": 459040,
+      "step": 210
+    },
+    {
+      "epoch": 0.03507340946166395,
+      "grad_norm": 24.81744384765625,
+      "learning_rate": 1.7455138662316477e-05,
+      "loss": 0.3368,
+      "num_input_tokens_seen": 470656,
+      "step": 215
+    },
+    {
+      "epoch": 0.03588907014681892,
+      "grad_norm": 10.550070762634277,
+      "learning_rate": 1.7862969004893963e-05,
+      "loss": 0.3761,
+      "num_input_tokens_seen": 480864,
+      "step": 220
+    },
+    {
+      "epoch": 0.0367047308319739,
+      "grad_norm": 13.143187522888184,
+      "learning_rate": 1.8270799347471453e-05,
+      "loss": 0.349,
+      "num_input_tokens_seen": 491680,
+      "step": 225
+    },
+    {
+      "epoch": 0.037520391517128875,
+      "grad_norm": 13.331697463989258,
+      "learning_rate": 1.867862969004894e-05,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 502432,
+      "step": 230
+    },
+    {
+      "epoch": 0.03833605220228385,
+      "grad_norm": 7.329267501831055,
+      "learning_rate": 1.908646003262643e-05,
+      "loss": 0.3927,
+      "num_input_tokens_seen": 512800,
+      "step": 235
+    },
+    {
+      "epoch": 0.03915171288743882,
+      "grad_norm": 15.567852973937988,
+      "learning_rate": 1.9494290375203913e-05,
+      "loss": 0.4135,
+      "num_input_tokens_seen": 523424,
+      "step": 240
+    },
+    {
+      "epoch": 0.0399673735725938,
+      "grad_norm": 7.734094142913818,
+      "learning_rate": 1.9902120717781403e-05,
+      "loss": 0.3361,
+      "num_input_tokens_seen": 533600,
+      "step": 245
+    },
+    {
+      "epoch": 0.040783034257748776,
+      "grad_norm": 36.39061737060547,
+      "learning_rate": 2.0309951060358893e-05,
+      "loss": 0.411,
+      "num_input_tokens_seen": 544576,
+      "step": 250
+    },
+    {
+      "epoch": 0.041598694942903754,
+      "grad_norm": 18.676137924194336,
+      "learning_rate": 2.071778140293638e-05,
+      "loss": 0.41,
+      "num_input_tokens_seen": 554784,
+      "step": 255
+    },
+    {
+      "epoch": 0.04241435562805873,
+      "grad_norm": 7.464500427246094,
+      "learning_rate": 2.1125611745513866e-05,
+      "loss": 0.39,
+      "num_input_tokens_seen": 565632,
+      "step": 260
+    },
+    {
+      "epoch": 0.0432300163132137,
+      "grad_norm": 9.962908744812012,
+      "learning_rate": 2.1533442088091353e-05,
+      "loss": 0.3545,
+      "num_input_tokens_seen": 576000,
+      "step": 265
+    },
+    {
+      "epoch": 0.04404567699836868,
+      "grad_norm": 9.480332374572754,
+      "learning_rate": 2.1941272430668843e-05,
+      "loss": 0.3468,
+      "num_input_tokens_seen": 586816,
+      "step": 270
+    },
+    {
+      "epoch": 0.044861337683523655,
+      "grad_norm": 13.83477783203125,
+      "learning_rate": 2.234910277324633e-05,
+      "loss": 0.3342,
+      "num_input_tokens_seen": 597568,
+      "step": 275
+    },
+    {
+      "epoch": 0.04567699836867863,
+      "grad_norm": 7.380682468414307,
+      "learning_rate": 2.2756933115823816e-05,
+      "loss": 0.36,
+      "num_input_tokens_seen": 608064,
+      "step": 280
+    },
+    {
+      "epoch": 0.0464926590538336,
+      "grad_norm": 14.0297269821167,
+      "learning_rate": 2.3164763458401306e-05,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 619904,
+      "step": 285
+    },
+    {
+      "epoch": 0.04730831973898858,
+      "grad_norm": 43.77539825439453,
+      "learning_rate": 2.3572593800978793e-05,
+      "loss": 0.484,
+      "num_input_tokens_seen": 630560,
+      "step": 290
+    },
+    {
+      "epoch": 0.04812398042414356,
+      "grad_norm": 30.18943977355957,
+      "learning_rate": 2.3980424143556283e-05,
+      "loss": 0.3715,
+      "num_input_tokens_seen": 641184,
+      "step": 295
+    },
+    {
+      "epoch": 0.048939641109298535,
+      "grad_norm": 12.309725761413574,
+      "learning_rate": 2.4388254486133766e-05,
+      "loss": 0.4153,
+      "num_input_tokens_seen": 651424,
+      "step": 300
+    },
+    {
+      "epoch": 0.049755301794453505,
+      "grad_norm": 14.924318313598633,
+      "learning_rate": 2.4796084828711256e-05,
+      "loss": 0.3906,
+      "num_input_tokens_seen": 663072,
+      "step": 305
+    },
+    {
+      "epoch": 0.05057096247960848,
+      "grad_norm": 9.72663688659668,
+      "learning_rate": 2.5203915171288743e-05,
+      "loss": 0.396,
+      "num_input_tokens_seen": 672416,
+      "step": 310
+    },
+    {
+      "epoch": 0.05138662316476346,
+      "grad_norm": 11.389423370361328,
+      "learning_rate": 2.5611745513866233e-05,
+      "loss": 0.4705,
+      "num_input_tokens_seen": 683008,
+      "step": 315
+    },
+    {
+      "epoch": 0.052202283849918436,
+      "grad_norm": 52.0793571472168,
+      "learning_rate": 2.6019575856443723e-05,
+      "loss": 0.4732,
+      "num_input_tokens_seen": 694976,
+      "step": 320
+    },
+    {
+      "epoch": 0.05301794453507341,
+      "grad_norm": 10.719328880310059,
+      "learning_rate": 2.6427406199021206e-05,
+      "loss": 0.4089,
+      "num_input_tokens_seen": 705824,
+      "step": 325
+    },
+    {
+      "epoch": 0.053833605220228384,
+      "grad_norm": 6.3341474533081055,
+      "learning_rate": 2.6835236541598696e-05,
+      "loss": 0.4339,
+      "num_input_tokens_seen": 717088,
+      "step": 330
+    },
+    {
+      "epoch": 0.05464926590538336,
+      "grad_norm": 5.4407782554626465,
+      "learning_rate": 2.7243066884176183e-05,
+      "loss": 0.4164,
+      "num_input_tokens_seen": 728768,
+      "step": 335
+    },
+    {
+      "epoch": 0.05546492659053834,
+      "grad_norm": 4.411542892456055,
+      "learning_rate": 2.7650897226753673e-05,
+      "loss": 0.4142,
+      "num_input_tokens_seen": 738528,
+      "step": 340
+    },
+    {
+      "epoch": 0.05628058727569331,
+      "grad_norm": 10.264647483825684,
+      "learning_rate": 2.805872756933116e-05,
+      "loss": 0.3912,
+      "num_input_tokens_seen": 749696,
+      "step": 345
+    },
+    {
+      "epoch": 0.057096247960848286,
+      "grad_norm": 6.780503273010254,
+      "learning_rate": 2.8466557911908646e-05,
+      "loss": 0.3433,
+      "num_input_tokens_seen": 760672,
+      "step": 350
+    },
+    {
+      "epoch": 0.05791190864600326,
+      "grad_norm": 2.577894449234009,
+      "learning_rate": 2.8874388254486136e-05,
+      "loss": 0.3593,
+      "num_input_tokens_seen": 771712,
+      "step": 355
+    },
+    {
+      "epoch": 0.05872756933115824,
+      "grad_norm": 5.244052410125732,
+      "learning_rate": 2.9282218597063623e-05,
+      "loss": 0.3646,
+      "num_input_tokens_seen": 782912,
+      "step": 360
+    },
+    {
+      "epoch": 0.05954323001631321,
+      "grad_norm": 9.439083099365234,
+      "learning_rate": 2.969004893964111e-05,
+      "loss": 0.3592,
+      "num_input_tokens_seen": 794368,
+      "step": 365
+    },
+    {
+      "epoch": 0.06035889070146819,
+      "grad_norm": 2.9597246646881104,
+      "learning_rate": 3.0097879282218596e-05,
+      "loss": 0.3586,
+      "num_input_tokens_seen": 804704,
+      "step": 370
+    },
+    {
+      "epoch": 0.061174551386623165,
+      "grad_norm": 4.3669633865356445,
+      "learning_rate": 3.0505709624796086e-05,
+      "loss": 0.3525,
+      "num_input_tokens_seen": 815872,
+      "step": 375
+    },
+    {
+      "epoch": 0.06199021207177814,
+      "grad_norm": 4.579859733581543,
+      "learning_rate": 3.0913539967373576e-05,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 826912,
+      "step": 380
+    },
+    {
+      "epoch": 0.06280587275693311,
+      "grad_norm": 6.14414119720459,
+      "learning_rate": 3.132137030995106e-05,
+      "loss": 0.4138,
+      "num_input_tokens_seen": 836864,
+      "step": 385
+    },
+    {
+      "epoch": 0.0636215334420881,
+      "grad_norm": 14.99302864074707,
+      "learning_rate": 3.172920065252855e-05,
+      "loss": 0.4467,
+      "num_input_tokens_seen": 848448,
+      "step": 390
+    },
+    {
+      "epoch": 0.06443719412724307,
+      "grad_norm": 8.607397079467773,
+      "learning_rate": 3.213703099510604e-05,
+      "loss": 0.3861,
+      "num_input_tokens_seen": 858976,
+      "step": 395
+    },
+    {
+      "epoch": 0.06525285481239804,
+      "grad_norm": 12.14357852935791,
+      "learning_rate": 3.254486133768352e-05,
+      "loss": 0.4364,
+      "num_input_tokens_seen": 869664,
+      "step": 400
+    },
+    {
+      "epoch": 0.06606851549755302,
+      "grad_norm": 7.592681884765625,
+      "learning_rate": 3.295269168026101e-05,
+      "loss": 0.3747,
+      "num_input_tokens_seen": 881696,
+      "step": 405
+    },
+    {
+      "epoch": 0.06688417618270799,
+      "grad_norm": 9.035486221313477,
+      "learning_rate": 3.33605220228385e-05,
+      "loss": 0.5381,
+      "num_input_tokens_seen": 893440,
+      "step": 410
+    },
+    {
+      "epoch": 0.06769983686786298,
+      "grad_norm": 4.473764896392822,
+      "learning_rate": 3.3768352365415986e-05,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 904224,
+      "step": 415
+    },
+    {
+      "epoch": 0.06851549755301795,
+      "grad_norm": 4.291823863983154,
+      "learning_rate": 3.4176182707993476e-05,
+      "loss": 0.4344,
+      "num_input_tokens_seen": 915776,
+      "step": 420
+    },
+    {
+      "epoch": 0.06933115823817292,
+      "grad_norm": 24.67149543762207,
+      "learning_rate": 3.458401305057096e-05,
+      "loss": 0.383,
+      "num_input_tokens_seen": 926656,
+      "step": 425
+    },
+    {
+      "epoch": 0.0701468189233279,
+      "grad_norm": 27.043270111083984,
+      "learning_rate": 3.4991843393148456e-05,
+      "loss": 0.4272,
+      "num_input_tokens_seen": 937728,
+      "step": 430
+    },
+    {
+      "epoch": 0.07096247960848287,
+      "grad_norm": 13.670089721679688,
+      "learning_rate": 3.539967373572594e-05,
+      "loss": 0.4359,
+      "num_input_tokens_seen": 948800,
+      "step": 435
+    },
+    {
+      "epoch": 0.07177814029363784,
+      "grad_norm": 17.373754501342773,
+      "learning_rate": 3.580750407830342e-05,
+      "loss": 0.3757,
+      "num_input_tokens_seen": 959712,
+      "step": 440
+    },
+    {
+      "epoch": 0.07259380097879282,
+      "grad_norm": 7.593050479888916,
+      "learning_rate": 3.621533442088092e-05,
+      "loss": 0.2887,
+      "num_input_tokens_seen": 970592,
+      "step": 445
+    },
+    {
+      "epoch": 0.0734094616639478,
+      "grad_norm": 19.885852813720703,
+      "learning_rate": 3.66231647634584e-05,
+      "loss": 0.3668,
+      "num_input_tokens_seen": 981632,
+      "step": 450
+    },
+    {
+      "epoch": 0.07422512234910278,
+      "grad_norm": 3.8135032653808594,
+      "learning_rate": 3.703099510603589e-05,
+      "loss": 0.3811,
+      "num_input_tokens_seen": 991680,
+      "step": 455
+    },
+    {
+      "epoch": 0.07504078303425775,
+      "grad_norm": 6.083225250244141,
+      "learning_rate": 3.7438825448613375e-05,
+      "loss": 0.3688,
+      "num_input_tokens_seen": 1002880,
+      "step": 460
+    },
+    {
+      "epoch": 0.07585644371941272,
+      "grad_norm": 4.485177993774414,
+      "learning_rate": 3.7846655791190865e-05,
+      "loss": 0.3793,
+      "num_input_tokens_seen": 1015072,
+      "step": 465
+    },
+    {
+      "epoch": 0.0766721044045677,
+      "grad_norm": 2.079634666442871,
+      "learning_rate": 3.8254486133768355e-05,
+      "loss": 0.3835,
+      "num_input_tokens_seen": 1026176,
+      "step": 470
+    },
+    {
+      "epoch": 0.07748776508972267,
+      "grad_norm": 5.577203750610352,
+      "learning_rate": 3.866231647634584e-05,
+      "loss": 0.3721,
+      "num_input_tokens_seen": 1037632,
+      "step": 475
+    },
+    {
+      "epoch": 0.07830342577487764,
+      "grad_norm": 6.679996967315674,
+      "learning_rate": 3.907014681892333e-05,
+      "loss": 0.3572,
+      "num_input_tokens_seen": 1047040,
+      "step": 480
+    },
+    {
+      "epoch": 0.07911908646003263,
+      "grad_norm": 75.6471176147461,
+      "learning_rate": 3.947797716150082e-05,
+      "loss": 0.332,
+      "num_input_tokens_seen": 1057344,
+      "step": 485
+    },
+    {
+      "epoch": 0.0799347471451876,
+      "grad_norm": 1.4969229698181152,
+      "learning_rate": 3.98858075040783e-05,
+      "loss": 0.3001,
+      "num_input_tokens_seen": 1068064,
+      "step": 490
+    },
+    {
+      "epoch": 0.08075040783034258,
+      "grad_norm": 79.28744506835938,
+      "learning_rate": 4.029363784665579e-05,
+      "loss": 0.5147,
+      "num_input_tokens_seen": 1078560,
+      "step": 495
+    },
+    {
+      "epoch": 0.08156606851549755,
+      "grad_norm": 54.21046829223633,
+      "learning_rate": 4.070146818923328e-05,
+      "loss": 0.2397,
+      "num_input_tokens_seen": 1089824,
+      "step": 500
+    },
+    {
+      "epoch": 0.08238172920065252,
+      "grad_norm": 14.4324369430542,
+      "learning_rate": 4.1109298531810765e-05,
+      "loss": 0.6049,
+      "num_input_tokens_seen": 1101120,
+      "step": 505
+    },
+    {
+      "epoch": 0.08319738988580751,
+      "grad_norm": 21.910572052001953,
+      "learning_rate": 4.1517128874388255e-05,
+      "loss": 0.6272,
+      "num_input_tokens_seen": 1111840,
+      "step": 510
+    },
+    {
+      "epoch": 0.08401305057096248,
+      "grad_norm": 12.105114936828613,
+      "learning_rate": 4.1924959216965745e-05,
+      "loss": 0.5606,
+      "num_input_tokens_seen": 1122720,
+      "step": 515
+    },
+    {
+      "epoch": 0.08482871125611746,
+      "grad_norm": 0.32360613346099854,
+      "learning_rate": 4.233278955954323e-05,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 1131808,
+      "step": 520
+    },
+    {
+      "epoch": 0.08564437194127243,
+      "grad_norm": 1.4238195419311523,
+      "learning_rate": 4.274061990212072e-05,
+      "loss": 0.2238,
+      "num_input_tokens_seen": 1142624,
+      "step": 525
+    },
+    {
+      "epoch": 0.0864600326264274,
+      "grad_norm": 10.996274948120117,
+      "learning_rate": 4.314845024469821e-05,
+      "loss": 0.2579,
+      "num_input_tokens_seen": 1153536,
+      "step": 530
+    },
+    {
+      "epoch": 0.08727569331158239,
+      "grad_norm": 0.11020765453577042,
+      "learning_rate": 4.35562805872757e-05,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 1164960,
+      "step": 535
+    },
+    {
+      "epoch": 0.08809135399673736,
+      "grad_norm": 4.610954761505127,
+      "learning_rate": 4.396411092985318e-05,
+      "loss": 0.102,
+      "num_input_tokens_seen": 1175552,
+      "step": 540
+    },
+    {
+      "epoch": 0.08890701468189233,
+      "grad_norm": 25.28290367126465,
+      "learning_rate": 4.4371941272430665e-05,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 1186624,
+      "step": 545
+    },
+    {
+      "epoch": 0.08972267536704731,
+      "grad_norm": 10.82431411743164,
+      "learning_rate": 4.477977161500816e-05,
+      "loss": 1.4397,
+      "num_input_tokens_seen": 1198336,
+      "step": 550
+    },
+    {
+      "epoch": 0.09053833605220228,
+      "grad_norm": 6.7620134353637695,
+      "learning_rate": 4.5187601957585645e-05,
+      "loss": 0.3143,
+      "num_input_tokens_seen": 1209760,
+      "step": 555
+    },
+    {
+      "epoch": 0.09135399673735727,
+      "grad_norm": 5.035055160522461,
+      "learning_rate": 4.559543230016313e-05,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 1219936,
+      "step": 560
+    },
+    {
+      "epoch": 0.09216965742251224,
+      "grad_norm": 0.12749716639518738,
+      "learning_rate": 4.6003262642740625e-05,
+      "loss": 0.194,
+      "num_input_tokens_seen": 1231456,
+      "step": 565
+    },
+    {
+      "epoch": 0.0929853181076672,
+      "grad_norm": 7.260269641876221,
+      "learning_rate": 4.641109298531811e-05,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 1241952,
+      "step": 570
+    },
+    {
+      "epoch": 0.09380097879282219,
+      "grad_norm": 0.058566510677337646,
+      "learning_rate": 4.68189233278956e-05,
+      "loss": 0.3255,
+      "num_input_tokens_seen": 1253920,
+      "step": 575
+    },
+    {
+      "epoch": 0.09461663947797716,
+      "grad_norm": 14.459625244140625,
+      "learning_rate": 4.722675367047308e-05,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 1265632,
+      "step": 580
+    },
+    {
+      "epoch": 0.09543230016313213,
+      "grad_norm": 22.226320266723633,
+      "learning_rate": 4.763458401305057e-05,
+      "loss": 0.692,
+      "num_input_tokens_seen": 1276256,
+      "step": 585
+    },
+    {
+      "epoch": 0.09624796084828711,
+      "grad_norm": 1.782360553741455,
+      "learning_rate": 4.804241435562806e-05,
+      "loss": 0.2242,
+      "num_input_tokens_seen": 1287424,
+      "step": 590
+    },
+    {
+      "epoch": 0.09706362153344208,
+      "grad_norm": 0.1359458863735199,
+      "learning_rate": 4.8450244698205544e-05,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 1298272,
+      "step": 595
+    },
+    {
+      "epoch": 0.09787928221859707,
+      "grad_norm": 7.373677730560303,
+      "learning_rate": 4.885807504078304e-05,
+      "loss": 0.2317,
+      "num_input_tokens_seen": 1309632,
+      "step": 600
+    },
+    {
+      "epoch": 0.09869494290375204,
+      "grad_norm": 0.5091097950935364,
+      "learning_rate": 4.9265905383360524e-05,
+      "loss": 0.4314,
+      "num_input_tokens_seen": 1319264,
+      "step": 605
+    },
+    {
+      "epoch": 0.09951060358890701,
+      "grad_norm": 11.11815071105957,
+      "learning_rate": 4.967373572593801e-05,
+      "loss": 0.3954,
+      "num_input_tokens_seen": 1330144,
+      "step": 610
+    },
+    {
+      "epoch": 0.100326264274062,
+      "grad_norm": 6.977790832519531,
+      "learning_rate": 5.00815660685155e-05,
+      "loss": 0.2213,
+      "num_input_tokens_seen": 1340640,
+      "step": 615
+    },
+    {
+      "epoch": 0.10114192495921696,
+      "grad_norm": 9.725613594055176,
+      "learning_rate": 5.048939641109299e-05,
+      "loss": 0.4465,
+      "num_input_tokens_seen": 1351136,
+      "step": 620
+    },
+    {
+      "epoch": 0.10195758564437195,
+      "grad_norm": 3.7128005027770996,
+      "learning_rate": 5.089722675367047e-05,
+      "loss": 0.2263,
+      "num_input_tokens_seen": 1363104,
+      "step": 625
+    },
+    {
+      "epoch": 0.10277324632952692,
+      "grad_norm": 3.203340530395508,
+      "learning_rate": 5.130505709624796e-05,
+      "loss": 0.235,
+      "num_input_tokens_seen": 1373856,
+      "step": 630
+    },
+    {
+      "epoch": 0.10358890701468189,
+      "grad_norm": 1.902295708656311,
+      "learning_rate": 5.171288743882545e-05,
+      "loss": 0.1787,
+      "num_input_tokens_seen": 1385984,
+      "step": 635
+    },
+    {
+      "epoch": 0.10440456769983687,
+      "grad_norm": 4.927067279815674,
+      "learning_rate": 5.212071778140294e-05,
+      "loss": 0.1436,
+      "num_input_tokens_seen": 1397472,
+      "step": 640
+    },
+    {
+      "epoch": 0.10522022838499184,
+      "grad_norm": 2.7606987953186035,
+      "learning_rate": 5.2528548123980424e-05,
+      "loss": 0.184,
+      "num_input_tokens_seen": 1407744,
+      "step": 645
+    },
+    {
+      "epoch": 0.10603588907014681,
+      "grad_norm": 7.337327480316162,
+      "learning_rate": 5.293637846655791e-05,
+      "loss": 0.4137,
+      "num_input_tokens_seen": 1418688,
+      "step": 650
+    },
+    {
+      "epoch": 0.1068515497553018,
+      "grad_norm": 0.5223647952079773,
+      "learning_rate": 5.3344208809135404e-05,
+      "loss": 0.2377,
+      "num_input_tokens_seen": 1429056,
+      "step": 655
+    },
+    {
+      "epoch": 0.10766721044045677,
+      "grad_norm": 20.811302185058594,
+      "learning_rate": 5.375203915171289e-05,
+      "loss": 0.3604,
+      "num_input_tokens_seen": 1439264,
+      "step": 660
+    },
+    {
+      "epoch": 0.10848287112561175,
+      "grad_norm": 12.334787368774414,
+      "learning_rate": 5.415986949429037e-05,
+      "loss": 0.4648,
+      "num_input_tokens_seen": 1451072,
+      "step": 665
+    },
+    {
+      "epoch": 0.10929853181076672,
+      "grad_norm": 0.2776586413383484,
+      "learning_rate": 5.456769983686787e-05,
+      "loss": 0.2371,
+      "num_input_tokens_seen": 1460640,
+      "step": 670
+    },
+    {
+      "epoch": 0.11011419249592169,
+      "grad_norm": 5.741067886352539,
+      "learning_rate": 5.497553017944535e-05,
+      "loss": 0.2627,
+      "num_input_tokens_seen": 1472224,
+      "step": 675
+    },
+    {
+      "epoch": 0.11092985318107668,
+      "grad_norm": 4.412654876708984,
+      "learning_rate": 5.538336052202284e-05,
+      "loss": 0.4448,
+      "num_input_tokens_seen": 1483744,
+      "step": 680
+    },
+    {
+      "epoch": 0.11174551386623165,
+      "grad_norm": 5.101598739624023,
+      "learning_rate": 5.579119086460033e-05,
+      "loss": 0.2309,
+      "num_input_tokens_seen": 1495552,
+      "step": 685
+    },
+    {
+      "epoch": 0.11256117455138662,
+      "grad_norm": 4.5909271240234375,
+      "learning_rate": 5.6199021207177814e-05,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 1506880,
+      "step": 690
+    },
+    {
+      "epoch": 0.1133768352365416,
+      "grad_norm": 9.4280366897583,
+      "learning_rate": 5.6606851549755304e-05,
+      "loss": 0.4037,
+      "num_input_tokens_seen": 1518336,
+      "step": 695
+    },
+    {
+      "epoch": 0.11419249592169657,
+      "grad_norm": 2.6467490196228027,
+      "learning_rate": 5.701468189233279e-05,
+      "loss": 0.169,
+      "num_input_tokens_seen": 1528704,
+      "step": 700
+    },
+    {
+      "epoch": 0.11500815660685156,
+      "grad_norm": 8.759927749633789,
+      "learning_rate": 5.7422512234910284e-05,
+      "loss": 0.2088,
+      "num_input_tokens_seen": 1539552,
+      "step": 705
+    },
+    {
+      "epoch": 0.11582381729200653,
+      "grad_norm": 1.059167742729187,
+      "learning_rate": 5.783034257748777e-05,
+      "loss": 0.1942,
+      "num_input_tokens_seen": 1549696,
+      "step": 710
+    },
+    {
+      "epoch": 0.1166394779771615,
+      "grad_norm": 4.634883403778076,
+      "learning_rate": 5.823817292006525e-05,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 1559040,
+      "step": 715
+    },
+    {
+      "epoch": 0.11745513866231648,
+      "grad_norm": 1.964306116104126,
+      "learning_rate": 5.864600326264275e-05,
+      "loss": 0.3159,
+      "num_input_tokens_seen": 1570144,
+      "step": 720
+    },
+    {
+      "epoch": 0.11827079934747145,
+      "grad_norm": 3.4446094036102295,
+      "learning_rate": 5.905383360522023e-05,
+      "loss": 0.2283,
+      "num_input_tokens_seen": 1579776,
+      "step": 725
+    },
+    {
+      "epoch": 0.11908646003262642,
+      "grad_norm": 1069.54541015625,
+      "learning_rate": 5.9461663947797714e-05,
+      "loss": 3.0837,
+      "num_input_tokens_seen": 1589120,
+      "step": 730
+    },
+    {
+      "epoch": 0.1199021207177814,
+      "grad_norm": 227.7669219970703,
+      "learning_rate": 5.9869494290375204e-05,
+      "loss": 2.2193,
+      "num_input_tokens_seen": 1600512,
+      "step": 735
+    },
+    {
+      "epoch": 0.12071778140293637,
+      "grad_norm": 2.590147018432617,
+      "learning_rate": 6.0277324632952694e-05,
+      "loss": 0.7939,
+      "num_input_tokens_seen": 1610880,
+      "step": 740
+    },
+    {
+      "epoch": 0.12153344208809136,
+      "grad_norm": 16.200777053833008,
+      "learning_rate": 6.0685154975530184e-05,
+      "loss": 0.2326,
+      "num_input_tokens_seen": 1620896,
+      "step": 745
+    },
+    {
+      "epoch": 0.12234910277324633,
+      "grad_norm": 6.109814643859863,
+      "learning_rate": 6.109298531810767e-05,
+      "loss": 0.131,
+      "num_input_tokens_seen": 1631232,
+      "step": 750
+    },
+    {
+      "epoch": 0.1231647634584013,
+      "grad_norm": 1.4488592147827148,
+      "learning_rate": 6.150081566068516e-05,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 1642688,
+      "step": 755
+    },
+    {
+      "epoch": 0.12398042414355628,
+      "grad_norm": 12.674674034118652,
+      "learning_rate": 6.190864600326265e-05,
+      "loss": 0.4573,
+      "num_input_tokens_seen": 1653792,
+      "step": 760
+    },
+    {
+      "epoch": 0.12479608482871125,
+      "grad_norm": 75.09253692626953,
+      "learning_rate": 6.231647634584014e-05,
+      "loss": 2.002,
+      "num_input_tokens_seen": 1664160,
+      "step": 765
+    },
+    {
+      "epoch": 0.12561174551386622,
+      "grad_norm": 77.74810028076172,
+      "learning_rate": 6.272430668841763e-05,
+      "loss": 6.3921,
+      "num_input_tokens_seen": 1675232,
+      "step": 770
+    },
+    {
+      "epoch": 0.1264274061990212,
+      "grad_norm": 37.449378967285156,
+      "learning_rate": 6.31321370309951e-05,
+      "loss": 4.1665,
+      "num_input_tokens_seen": 1685280,
+      "step": 775
+    },
+    {
+      "epoch": 0.1272430668841762,
+      "grad_norm": 11.413688659667969,
+      "learning_rate": 6.35399673735726e-05,
+      "loss": 1.2492,
+      "num_input_tokens_seen": 1694848,
+      "step": 780
+    },
+    {
+      "epoch": 0.12805872756933115,
+      "grad_norm": 16.399850845336914,
+      "learning_rate": 6.394779771615008e-05,
+      "loss": 0.4529,
+      "num_input_tokens_seen": 1705600,
+      "step": 785
+    },
+    {
+      "epoch": 0.12887438825448613,
+      "grad_norm": 8.579042434692383,
+      "learning_rate": 6.435562805872756e-05,
+      "loss": 0.5815,
+      "num_input_tokens_seen": 1717152,
+      "step": 790
+    },
+    {
+      "epoch": 0.12969004893964112,
+      "grad_norm": 293.99151611328125,
+      "learning_rate": 6.476345840130505e-05,
+      "loss": 0.5153,
+      "num_input_tokens_seen": 1728288,
+      "step": 795
+    },
+    {
+      "epoch": 0.13050570962479607,
+      "grad_norm": 9.329829216003418,
+      "learning_rate": 6.517128874388255e-05,
+      "loss": 0.2736,
+      "num_input_tokens_seen": 1739936,
+      "step": 800
+    },
+    {
+      "epoch": 0.13132137030995106,
+      "grad_norm": 7.285165309906006,
+      "learning_rate": 6.557911908646004e-05,
+      "loss": 0.1994,
+      "num_input_tokens_seen": 1750656,
+      "step": 805
+    },
+    {
+      "epoch": 0.13213703099510604,
+      "grad_norm": 12.667640686035156,
+      "learning_rate": 6.598694942903752e-05,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 1759392,
+      "step": 810
+    },
+    {
+      "epoch": 0.132952691680261,
+      "grad_norm": 5.781430244445801,
+      "learning_rate": 6.639477977161501e-05,
+      "loss": 0.2163,
+      "num_input_tokens_seen": 1770816,
+      "step": 815
+    },
+    {
+      "epoch": 0.13376835236541598,
+      "grad_norm": 1.2714248895645142,
+      "learning_rate": 6.68026101141925e-05,
+      "loss": 0.155,
+      "num_input_tokens_seen": 1781088,
+      "step": 820
+    },
+    {
+      "epoch": 0.13458401305057097,
+      "grad_norm": 25.848276138305664,
+      "learning_rate": 6.721044045676998e-05,
+      "loss": 0.2787,
+      "num_input_tokens_seen": 1790912,
+      "step": 825
+    },
+    {
+      "epoch": 0.13539967373572595,
+      "grad_norm": 0.10717128962278366,
+      "learning_rate": 6.761827079934747e-05,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 1800736,
+      "step": 830
+    },
+    {
+      "epoch": 0.1362153344208809,
+      "grad_norm": 5.4765625,
+      "learning_rate": 6.802610114192497e-05,
+      "loss": 0.2213,
+      "num_input_tokens_seen": 1810016,
+      "step": 835
+    },
+    {
+      "epoch": 0.1370309951060359,
+      "grad_norm": 5.046440601348877,
+      "learning_rate": 6.843393148450245e-05,
+      "loss": 0.3239,
+      "num_input_tokens_seen": 1820032,
+      "step": 840
+    },
+    {
+      "epoch": 0.13784665579119088,
+      "grad_norm": 0.4740993082523346,
+      "learning_rate": 6.884176182707994e-05,
+      "loss": 0.2064,
+      "num_input_tokens_seen": 1830080,
+      "step": 845
+    },
+    {
+      "epoch": 0.13866231647634583,
+      "grad_norm": 6.393681049346924,
+      "learning_rate": 6.924959216965743e-05,
+      "loss": 0.3382,
+      "num_input_tokens_seen": 1840832,
+      "step": 850
+    },
+    {
+      "epoch": 0.13947797716150082,
+      "grad_norm": 4.807803630828857,
+      "learning_rate": 6.96574225122349e-05,
+      "loss": 0.4432,
+      "num_input_tokens_seen": 1852000,
+      "step": 855
+    },
+    {
+      "epoch": 0.1402936378466558,
+      "grad_norm": 0.19360409677028656,
+      "learning_rate": 7.006525285481239e-05,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 1863264,
+      "step": 860
+    },
+    {
+      "epoch": 0.14110929853181076,
+      "grad_norm": 3.193110227584839,
+      "learning_rate": 7.047308319738988e-05,
+      "loss": 0.2202,
+      "num_input_tokens_seen": 1875104,
+      "step": 865
+    },
+    {
+      "epoch": 0.14192495921696574,
+      "grad_norm": 1.3773865699768066,
+      "learning_rate": 7.088091353996739e-05,
+      "loss": 0.143,
+      "num_input_tokens_seen": 1885088,
+      "step": 870
+    },
+    {
+      "epoch": 0.14274061990212072,
+      "grad_norm": 2.0674312114715576,
+      "learning_rate": 7.128874388254486e-05,
+      "loss": 0.2554,
+      "num_input_tokens_seen": 1895424,
+      "step": 875
+    },
+    {
+      "epoch": 0.14355628058727568,
+      "grad_norm": 3.5503621101379395,
+      "learning_rate": 7.169657422512235e-05,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 1906048,
+      "step": 880
+    },
+    {
+      "epoch": 0.14437194127243066,
+      "grad_norm": 1.0717246532440186,
+      "learning_rate": 7.210440456769984e-05,
+      "loss": 0.017,
+      "num_input_tokens_seen": 1916320,
+      "step": 885
+    },
+    {
+      "epoch": 0.14518760195758565,
+      "grad_norm": 8.777630805969238,
+      "learning_rate": 7.251223491027732e-05,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 1926880,
+      "step": 890
+    },
+    {
+      "epoch": 0.14600326264274063,
+      "grad_norm": 0.08770612627267838,
+      "learning_rate": 7.292006525285481e-05,
+      "loss": 0.1599,
+      "num_input_tokens_seen": 1937792,
+      "step": 895
+    },
+    {
+      "epoch": 0.1468189233278956,
+      "grad_norm": 1.7737507820129395,
+      "learning_rate": 7.332789559543231e-05,
+      "loss": 0.4864,
+      "num_input_tokens_seen": 1950048,
+      "step": 900
+    },
+    {
+      "epoch": 0.14763458401305057,
+      "grad_norm": 14.238997459411621,
+      "learning_rate": 7.373572593800979e-05,
+      "loss": 0.5282,
+      "num_input_tokens_seen": 1960352,
+      "step": 905
+    },
+    {
+      "epoch": 0.14845024469820556,
+      "grad_norm": 7.535554885864258,
+      "learning_rate": 7.414355628058728e-05,
+      "loss": 0.2474,
+      "num_input_tokens_seen": 1970784,
+      "step": 910
+    },
+    {
+      "epoch": 0.14926590538336051,
+      "grad_norm": 2.2550277709960938,
+      "learning_rate": 7.455138662316477e-05,
+      "loss": 0.3021,
+      "num_input_tokens_seen": 1982528,
+      "step": 915
+    },
+    {
+      "epoch": 0.1500815660685155,
+      "grad_norm": 0.23242764174938202,
+      "learning_rate": 7.495921696574225e-05,
+      "loss": 0.23,
+      "num_input_tokens_seen": 1992704,
+      "step": 920
+    },
+    {
+      "epoch": 0.15089722675367048,
+      "grad_norm": 4.0261101722717285,
+      "learning_rate": 7.536704730831974e-05,
+      "loss": 0.2117,
+      "num_input_tokens_seen": 2003328,
+      "step": 925
+    },
+    {
+      "epoch": 0.15171288743882544,
+      "grad_norm": 1.9249851703643799,
+      "learning_rate": 7.577487765089723e-05,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 2013696,
+      "step": 930
+    },
+    {
+      "epoch": 0.15252854812398042,
+      "grad_norm": 0.0670514702796936,
+      "learning_rate": 7.618270799347473e-05,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 2024288,
+      "step": 935
+    },
+    {
+      "epoch": 0.1533442088091354,
+      "grad_norm": 4.352898597717285,
+      "learning_rate": 7.65905383360522e-05,
+      "loss": 0.1985,
+      "num_input_tokens_seen": 2035296,
+      "step": 940
+    },
+    {
+      "epoch": 0.15415986949429036,
+      "grad_norm": 3.5093870162963867,
+      "learning_rate": 7.69983686786297e-05,
+      "loss": 0.1994,
+      "num_input_tokens_seen": 2047680,
+      "step": 945
+    },
+    {
+      "epoch": 0.15497553017944535,
+      "grad_norm": 2.5943655967712402,
+      "learning_rate": 7.740619902120719e-05,
+      "loss": 0.3784,
+      "num_input_tokens_seen": 2058208,
+      "step": 950
+    },
+    {
+      "epoch": 0.15579119086460033,
+      "grad_norm": 0.6778724789619446,
+      "learning_rate": 7.781402936378466e-05,
+      "loss": 0.1371,
+      "num_input_tokens_seen": 2069504,
+      "step": 955
+    },
+    {
+      "epoch": 0.1566068515497553,
+      "grad_norm": 2.2445712089538574,
+      "learning_rate": 7.822185970636215e-05,
+      "loss": 0.1568,
+      "num_input_tokens_seen": 2080416,
+      "step": 960
+    },
+    {
+      "epoch": 0.15742251223491027,
+      "grad_norm": 5.930630207061768,
+      "learning_rate": 7.862969004893964e-05,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 2090880,
+      "step": 965
+    },
+    {
+      "epoch": 0.15823817292006526,
+      "grad_norm": 2.420844793319702,
+      "learning_rate": 7.903752039151713e-05,
+      "loss": 0.2885,
+      "num_input_tokens_seen": 2101440,
+      "step": 970
+    },
+    {
+      "epoch": 0.15905383360522024,
+      "grad_norm": 3.8338279724121094,
+      "learning_rate": 7.944535073409462e-05,
+      "loss": 0.2561,
+      "num_input_tokens_seen": 2111488,
+      "step": 975
+    },
+    {
+      "epoch": 0.1598694942903752,
+      "grad_norm": 0.34937554597854614,
+      "learning_rate": 7.985318107667211e-05,
+      "loss": 0.08,
+      "num_input_tokens_seen": 2123392,
+      "step": 980
+    },
+    {
+      "epoch": 0.16068515497553018,
+      "grad_norm": 8.5946683883667,
+      "learning_rate": 8.026101141924959e-05,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 2134016,
+      "step": 985
+    },
+    {
+      "epoch": 0.16150081566068517,
+      "grad_norm": 6.2617669105529785,
+      "learning_rate": 8.066884176182708e-05,
+      "loss": 0.2836,
+      "num_input_tokens_seen": 2144736,
+      "step": 990
+    },
+    {
+      "epoch": 0.16231647634584012,
+      "grad_norm": 1.5171515941619873,
+      "learning_rate": 8.107667210440457e-05,
+      "loss": 0.1919,
+      "num_input_tokens_seen": 2155520,
+      "step": 995
+    },
+    {
+      "epoch": 0.1631321370309951,
+      "grad_norm": 4.9571428298950195,
+      "learning_rate": 8.148450244698205e-05,
+      "loss": 0.276,
+      "num_input_tokens_seen": 2165312,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1639477977161501,
+      "grad_norm": 5.026040077209473,
+      "learning_rate": 8.189233278955955e-05,
+      "loss": 0.2269,
+      "num_input_tokens_seen": 2175040,
+      "step": 1005
+    },
+    {
+      "epoch": 0.16476345840130505,
+      "grad_norm": 1.8221598863601685,
+      "learning_rate": 8.230016313213704e-05,
+      "loss": 0.2278,
+      "num_input_tokens_seen": 2186176,
+      "step": 1010
+    },
+    {
+      "epoch": 0.16557911908646003,
+      "grad_norm": 3.4954538345336914,
+      "learning_rate": 8.270799347471453e-05,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 2195808,
+      "step": 1015
+    },
+    {
+      "epoch": 0.16639477977161501,
+      "grad_norm": 0.697935938835144,
+      "learning_rate": 8.3115823817292e-05,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 2207232,
+      "step": 1020
+    },
+    {
+      "epoch": 0.16721044045676997,
+      "grad_norm": 0.5946976542472839,
+      "learning_rate": 8.35236541598695e-05,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 2218912,
+      "step": 1025
+    },
+    {
+      "epoch": 0.16802610114192496,
+      "grad_norm": 5.24078893661499,
+      "learning_rate": 8.393148450244699e-05,
+      "loss": 0.1919,
+      "num_input_tokens_seen": 2229536,
+      "step": 1030
+    },
+    {
+      "epoch": 0.16884176182707994,
+      "grad_norm": 4.404401779174805,
+      "learning_rate": 8.433931484502446e-05,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 2240608,
+      "step": 1035
+    },
+    {
+      "epoch": 0.16965742251223492,
+      "grad_norm": 7.255613803863525,
+      "learning_rate": 8.474714518760197e-05,
+      "loss": 0.3607,
+      "num_input_tokens_seen": 2250176,
+      "step": 1040
+    },
+    {
+      "epoch": 0.17047308319738988,
+      "grad_norm": 2.6354668140411377,
+      "learning_rate": 8.515497553017946e-05,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 2262080,
+      "step": 1045
+    },
+    {
+      "epoch": 0.17128874388254486,
+      "grad_norm": 0.04987457022070885,
+      "learning_rate": 8.556280587275693e-05,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 2271968,
+      "step": 1050
+    },
+    {
+      "epoch": 0.17210440456769985,
+      "grad_norm": 3.4202687740325928,
+      "learning_rate": 8.597063621533442e-05,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 2282080,
+      "step": 1055
+    },
+    {
+      "epoch": 0.1729200652528548,
+      "grad_norm": 6.735346794128418,
+      "learning_rate": 8.637846655791191e-05,
+      "loss": 0.1822,
+      "num_input_tokens_seen": 2291744,
+      "step": 1060
+    },
+    {
+      "epoch": 0.1737357259380098,
+      "grad_norm": 2.105976104736328,
+      "learning_rate": 8.678629690048939e-05,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 2302368,
+      "step": 1065
+    },
+    {
+      "epoch": 0.17455138662316477,
+      "grad_norm": 18.188085556030273,
+      "learning_rate": 8.719412724306688e-05,
+      "loss": 0.1898,
+      "num_input_tokens_seen": 2313664,
+      "step": 1070
+    },
+    {
+      "epoch": 0.17536704730831973,
+      "grad_norm": 3.8808937072753906,
+      "learning_rate": 8.760195758564438e-05,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 2325184,
+      "step": 1075
+    },
+    {
+      "epoch": 0.1761827079934747,
+      "grad_norm": 7.137500286102295,
+      "learning_rate": 8.800978792822187e-05,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 2336352,
+      "step": 1080
+    },
+    {
+      "epoch": 0.1769983686786297,
+      "grad_norm": 1.505784034729004,
+      "learning_rate": 8.841761827079935e-05,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 2346816,
+      "step": 1085
+    },
+    {
+      "epoch": 0.17781402936378465,
+      "grad_norm": 0.14202602207660675,
+      "learning_rate": 8.882544861337684e-05,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 2356672,
+      "step": 1090
+    },
+    {
+      "epoch": 0.17862969004893964,
+      "grad_norm": 5.891081809997559,
+      "learning_rate": 8.923327895595433e-05,
+      "loss": 0.2582,
+      "num_input_tokens_seen": 2367168,
+      "step": 1095
+    },
+    {
+      "epoch": 0.17944535073409462,
+      "grad_norm": 5.1646904945373535,
+      "learning_rate": 8.96411092985318e-05,
+      "loss": 0.2548,
+      "num_input_tokens_seen": 2378912,
+      "step": 1100
+    },
+    {
+      "epoch": 0.1802610114192496,
+      "grad_norm": 1.1886264085769653,
+      "learning_rate": 9.00489396411093e-05,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 2390848,
+      "step": 1105
+    },
+    {
+      "epoch": 0.18107667210440456,
+      "grad_norm": 1.5492854118347168,
+      "learning_rate": 9.04567699836868e-05,
+      "loss": 0.199,
+      "num_input_tokens_seen": 2401344,
+      "step": 1110
+    },
+    {
+      "epoch": 0.18189233278955955,
+      "grad_norm": 0.5389428734779358,
+      "learning_rate": 9.086460032626427e-05,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 2412224,
+      "step": 1115
+    },
+    {
+      "epoch": 0.18270799347471453,
+      "grad_norm": 1.1149766445159912,
+      "learning_rate": 9.127243066884176e-05,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 2423072,
+      "step": 1120
+    },
+    {
+      "epoch": 0.1835236541598695,
+      "grad_norm": 6.989159107208252,
+      "learning_rate": 9.168026101141925e-05,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 2434368,
+      "step": 1125
+    },
+    {
+      "epoch": 0.18433931484502447,
+      "grad_norm": 0.5632582902908325,
+      "learning_rate": 9.208809135399673e-05,
+      "loss": 0.3705,
+      "num_input_tokens_seen": 2444544,
+      "step": 1130
+    },
+    {
+      "epoch": 0.18515497553017946,
+      "grad_norm": 4.612658977508545,
+      "learning_rate": 9.249592169657422e-05,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 2454048,
+      "step": 1135
+    },
+    {
+      "epoch": 0.1859706362153344,
+      "grad_norm": 13.68948745727539,
+      "learning_rate": 9.290375203915171e-05,
+      "loss": 0.2374,
+      "num_input_tokens_seen": 2464704,
+      "step": 1140
+    },
+    {
+      "epoch": 0.1867862969004894,
+      "grad_norm": 4.448404788970947,
+      "learning_rate": 9.33115823817292e-05,
+      "loss": 0.359,
+      "num_input_tokens_seen": 2475712,
+      "step": 1145
+    },
+    {
+      "epoch": 0.18760195758564438,
+      "grad_norm": 0.15590998530387878,
+      "learning_rate": 9.371941272430669e-05,
+      "loss": 0.3164,
+      "num_input_tokens_seen": 2488352,
+      "step": 1150
+    },
+    {
+      "epoch": 0.18841761827079934,
+      "grad_norm": 2.397275924682617,
+      "learning_rate": 9.412724306688418e-05,
+      "loss": 0.206,
+      "num_input_tokens_seen": 2499232,
+      "step": 1155
+    },
+    {
+      "epoch": 0.18923327895595432,
+      "grad_norm": 0.36472228169441223,
+      "learning_rate": 9.453507340946167e-05,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 2509376,
+      "step": 1160
+    },
+    {
+      "epoch": 0.1900489396411093,
+      "grad_norm": 2.360445022583008,
+      "learning_rate": 9.494290375203915e-05,
+      "loss": 0.178,
+      "num_input_tokens_seen": 2520352,
+      "step": 1165
+    },
+    {
+      "epoch": 0.19086460032626426,
+      "grad_norm": 0.22225035727024078,
+      "learning_rate": 9.535073409461664e-05,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 2530752,
+      "step": 1170
+    },
+    {
+      "epoch": 0.19168026101141925,
+      "grad_norm": 0.07478147000074387,
+      "learning_rate": 9.575856443719413e-05,
+      "loss": 0.4729,
+      "num_input_tokens_seen": 2539872,
+      "step": 1175
+    },
+    {
+      "epoch": 0.19249592169657423,
+      "grad_norm": 0.3705507516860962,
+      "learning_rate": 9.616639477977162e-05,
+      "loss": 0.2679,
+      "num_input_tokens_seen": 2551456,
+      "step": 1180
+    },
+    {
+      "epoch": 0.1933115823817292,
+      "grad_norm": 0.7973094582557678,
+      "learning_rate": 9.657422512234911e-05,
+      "loss": 0.119,
+      "num_input_tokens_seen": 2563136,
+      "step": 1185
+    },
+    {
+      "epoch": 0.19412724306688417,
+      "grad_norm": 0.2963646650314331,
+      "learning_rate": 9.69820554649266e-05,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 2573984,
+      "step": 1190
+    },
+    {
+      "epoch": 0.19494290375203915,
+      "grad_norm": 0.3415137529373169,
+      "learning_rate": 9.738988580750407e-05,
+      "loss": 0.2677,
+      "num_input_tokens_seen": 2585344,
+      "step": 1195
+    },
+    {
+      "epoch": 0.19575856443719414,
+      "grad_norm": 0.12055652588605881,
+      "learning_rate": 9.779771615008156e-05,
+      "loss": 0.2518,
+      "num_input_tokens_seen": 2596448,
+      "step": 1200
+    },
+    {
+      "epoch": 0.1965742251223491,
+      "grad_norm": 8.142424583435059,
+      "learning_rate": 9.820554649265905e-05,
+      "loss": 0.5066,
+      "num_input_tokens_seen": 2606848,
+      "step": 1205
+    },
+    {
+      "epoch": 0.19738988580750408,
+      "grad_norm": 1.2064582109451294,
+      "learning_rate": 9.861337683523653e-05,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 2617952,
+      "step": 1210
+    },
+    {
+      "epoch": 0.19820554649265906,
+      "grad_norm": 0.07324664294719696,
+      "learning_rate": 9.902120717781403e-05,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 2628448,
+      "step": 1215
+    },
+    {
+      "epoch": 0.19902120717781402,
+      "grad_norm": 3.5778586864471436,
+      "learning_rate": 9.942903752039152e-05,
+      "loss": 0.2794,
+      "num_input_tokens_seen": 2639648,
+      "step": 1220
+    },
+    {
+      "epoch": 0.199836867862969,
+      "grad_norm": 3.4566075801849365,
+      "learning_rate": 9.983686786296901e-05,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 2650112,
+      "step": 1225
+    },
+    {
+      "epoch": 0.200652528548124,
+      "grad_norm": 3.4942331314086914,
+      "learning_rate": 0.00010024469820554649,
+      "loss": 0.5332,
+      "num_input_tokens_seen": 2660576,
+      "step": 1230
+    },
+    {
+      "epoch": 0.20146818923327894,
+      "grad_norm": 0.2953527271747589,
+      "learning_rate": 0.00010065252854812398,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 2669440,
+      "step": 1235
+    },
+    {
+      "epoch": 0.20228384991843393,
+      "grad_norm": 1.5927826166152954,
+      "learning_rate": 0.00010106035889070147,
+      "loss": 0.2455,
+      "num_input_tokens_seen": 2680544,
+      "step": 1240
+    },
+    {
+      "epoch": 0.2030995106035889,
+      "grad_norm": 2.855224609375,
+      "learning_rate": 0.00010146818923327896,
+      "loss": 0.2392,
+      "num_input_tokens_seen": 2692608,
+      "step": 1245
+    },
+    {
+      "epoch": 0.2039151712887439,
+      "grad_norm": 2.0778863430023193,
+      "learning_rate": 0.00010187601957585645,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 2701760,
+      "step": 1250
+    },
+    {
+      "epoch": 0.20473083197389885,
+      "grad_norm": 3.7085254192352295,
+      "learning_rate": 0.00010228384991843394,
+      "loss": 0.2331,
+      "num_input_tokens_seen": 2712288,
+      "step": 1255
+    },
+    {
+      "epoch": 0.20554649265905384,
+      "grad_norm": 2.640923500061035,
+      "learning_rate": 0.00010269168026101142,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 2723488,
+      "step": 1260
+    },
+    {
+      "epoch": 0.20636215334420882,
+      "grad_norm": 0.7595841884613037,
+      "learning_rate": 0.00010309951060358891,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 2734400,
+      "step": 1265
+    },
+    {
+      "epoch": 0.20717781402936378,
+      "grad_norm": 0.3323002755641937,
+      "learning_rate": 0.0001035073409461664,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 2746208,
+      "step": 1270
+    },
+    {
+      "epoch": 0.20799347471451876,
+      "grad_norm": 6.0016303062438965,
+      "learning_rate": 0.00010391517128874387,
+      "loss": 0.1824,
+      "num_input_tokens_seen": 2757216,
+      "step": 1275
+    },
+    {
+      "epoch": 0.20880913539967375,
+      "grad_norm": 0.13172432780265808,
+      "learning_rate": 0.00010432300163132138,
+      "loss": 0.1912,
+      "num_input_tokens_seen": 2768192,
+      "step": 1280
+    },
+    {
+      "epoch": 0.2096247960848287,
+      "grad_norm": 3.026542901992798,
+      "learning_rate": 0.00010473083197389887,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 2778400,
+      "step": 1285
+    },
+    {
+      "epoch": 0.21044045676998369,
+      "grad_norm": 4.948746681213379,
+      "learning_rate": 0.00010513866231647634,
+      "loss": 0.3657,
+      "num_input_tokens_seen": 2788416,
+      "step": 1290
+    },
+    {
+      "epoch": 0.21125611745513867,
+      "grad_norm": 0.26640602946281433,
+      "learning_rate": 0.00010554649265905383,
+      "loss": 0.3439,
+      "num_input_tokens_seen": 2799360,
+      "step": 1295
+    },
+    {
+      "epoch": 0.21207177814029363,
+      "grad_norm": 0.36822858452796936,
+      "learning_rate": 0.00010595432300163132,
+      "loss": 0.199,
+      "num_input_tokens_seen": 2809728,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2128874388254486,
+      "grad_norm": 2.3697075843811035,
+      "learning_rate": 0.00010636215334420881,
+      "loss": 0.2865,
+      "num_input_tokens_seen": 2819776,
+      "step": 1305
+    },
+    {
+      "epoch": 0.2137030995106036,
+      "grad_norm": 0.7037314772605896,
+      "learning_rate": 0.00010676998368678629,
+      "loss": 0.1692,
+      "num_input_tokens_seen": 2831360,
+      "step": 1310
+    },
+    {
+      "epoch": 0.21451876019575855,
+      "grad_norm": 1.2460227012634277,
+      "learning_rate": 0.0001071778140293638,
+      "loss": 0.1563,
+      "num_input_tokens_seen": 2842432,
+      "step": 1315
+    },
+    {
+      "epoch": 0.21533442088091354,
+      "grad_norm": 0.42761459946632385,
+      "learning_rate": 0.00010758564437194128,
+      "loss": 0.122,
+      "num_input_tokens_seen": 2852448,
+      "step": 1320
+    },
+    {
+      "epoch": 0.21615008156606852,
+      "grad_norm": 0.9030336737632751,
+      "learning_rate": 0.00010799347471451876,
+      "loss": 0.088,
+      "num_input_tokens_seen": 2862912,
+      "step": 1325
+    },
+    {
+      "epoch": 0.2169657422512235,
+      "grad_norm": 1.067244052886963,
+      "learning_rate": 0.00010840130505709625,
+      "loss": 0.2082,
+      "num_input_tokens_seen": 2873888,
+      "step": 1330
+    },
+    {
+      "epoch": 0.21778140293637846,
+      "grad_norm": 0.8108012676239014,
+      "learning_rate": 0.00010880913539967374,
+      "loss": 0.1894,
+      "num_input_tokens_seen": 2885664,
+      "step": 1335
+    },
+    {
+      "epoch": 0.21859706362153344,
+      "grad_norm": 0.14770320057868958,
+      "learning_rate": 0.00010921696574225122,
+      "loss": 0.367,
+      "num_input_tokens_seen": 2896288,
+      "step": 1340
+    },
+    {
+      "epoch": 0.21941272430668843,
+      "grad_norm": 2.9352149963378906,
+      "learning_rate": 0.0001096247960848287,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 2907264,
+      "step": 1345
+    },
+    {
+      "epoch": 0.22022838499184338,
+      "grad_norm": 0.31926628947257996,
+      "learning_rate": 0.00011003262642740621,
+      "loss": 0.3341,
+      "num_input_tokens_seen": 2918464,
+      "step": 1350
+    },
+    {
+      "epoch": 0.22104404567699837,
+      "grad_norm": 7.357073783874512,
+      "learning_rate": 0.00011044045676998369,
+      "loss": 0.4854,
+      "num_input_tokens_seen": 2929792,
+      "step": 1355
+    },
+    {
+      "epoch": 0.22185970636215335,
+      "grad_norm": 4.365267753601074,
+      "learning_rate": 0.00011084828711256118,
+      "loss": 0.1755,
+      "num_input_tokens_seen": 2940064,
+      "step": 1360
+    },
+    {
+      "epoch": 0.2226753670473083,
+      "grad_norm": 0.6887586116790771,
+      "learning_rate": 0.00011125611745513867,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 2950368,
+      "step": 1365
+    },
+    {
+      "epoch": 0.2234910277324633,
+      "grad_norm": 4.315596580505371,
+      "learning_rate": 0.00011166394779771616,
+      "loss": 0.3597,
+      "num_input_tokens_seen": 2960448,
+      "step": 1370
+    },
+    {
+      "epoch": 0.22430668841761828,
+      "grad_norm": 0.5510193109512329,
+      "learning_rate": 0.00011207177814029363,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 2972032,
+      "step": 1375
+    },
+    {
+      "epoch": 0.22512234910277323,
+      "grad_norm": 0.8004043102264404,
+      "learning_rate": 0.00011247960848287112,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 2984160,
+      "step": 1380
+    },
+    {
+      "epoch": 0.22593800978792822,
+      "grad_norm": 0.13799701631069183,
+      "learning_rate": 0.00011288743882544863,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 2994752,
+      "step": 1385
+    },
+    {
+      "epoch": 0.2267536704730832,
+      "grad_norm": 1.3625370264053345,
+      "learning_rate": 0.0001132952691680261,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 3005376,
+      "step": 1390
+    },
+    {
+      "epoch": 0.2275693311582382,
+      "grad_norm": 7.915112018585205,
+      "learning_rate": 0.00011370309951060359,
+      "loss": 0.2681,
+      "num_input_tokens_seen": 3016576,
+      "step": 1395
+    },
+    {
+      "epoch": 0.22838499184339314,
+      "grad_norm": 35.910255432128906,
+      "learning_rate": 0.00011411092985318108,
+      "loss": 0.3882,
+      "num_input_tokens_seen": 3028704,
+      "step": 1400
+    },
+    {
+      "epoch": 0.22920065252854813,
+      "grad_norm": 3.048297166824341,
+      "learning_rate": 0.00011451876019575856,
+      "loss": 0.3004,
+      "num_input_tokens_seen": 3039456,
+      "step": 1405
+    },
+    {
+      "epoch": 0.2300163132137031,
+      "grad_norm": 3.245952606201172,
+      "learning_rate": 0.00011492659053833605,
+      "loss": 0.2714,
+      "num_input_tokens_seen": 3050816,
+      "step": 1410
+    },
+    {
+      "epoch": 0.23083197389885807,
+      "grad_norm": 0.7663965821266174,
+      "learning_rate": 0.00011533442088091354,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 3060064,
+      "step": 1415
+    },
+    {
+      "epoch": 0.23164763458401305,
+      "grad_norm": 1.7909114360809326,
+      "learning_rate": 0.00011574225122349103,
+      "loss": 0.2217,
+      "num_input_tokens_seen": 3071936,
+      "step": 1420
+    },
+    {
+      "epoch": 0.23246329526916804,
+      "grad_norm": 1.2014027833938599,
+      "learning_rate": 0.00011615008156606852,
+      "loss": 0.0531,
+      "num_input_tokens_seen": 3082752,
+      "step": 1425
+    },
+    {
+      "epoch": 0.233278955954323,
+      "grad_norm": 0.3540492653846741,
+      "learning_rate": 0.00011655791190864601,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 3094592,
+      "step": 1430
+    },
+    {
+      "epoch": 0.23409461663947798,
+      "grad_norm": 1.3756060600280762,
+      "learning_rate": 0.0001169657422512235,
+      "loss": 0.2884,
+      "num_input_tokens_seen": 3105312,
+      "step": 1435
+    },
+    {
+      "epoch": 0.23491027732463296,
+      "grad_norm": 0.6397413611412048,
+      "learning_rate": 0.00011737357259380098,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 3115776,
+      "step": 1440
+    },
+    {
+      "epoch": 0.23572593800978792,
+      "grad_norm": 0.5612933039665222,
+      "learning_rate": 0.00011778140293637847,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 3127392,
+      "step": 1445
+    },
+    {
+      "epoch": 0.2365415986949429,
+      "grad_norm": 2.8829073905944824,
+      "learning_rate": 0.00011818923327895596,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 3137760,
+      "step": 1450
+    },
+    {
+      "epoch": 0.23735725938009788,
+      "grad_norm": 6.076878547668457,
+      "learning_rate": 0.00011859706362153345,
+      "loss": 0.2851,
+      "num_input_tokens_seen": 3148192,
+      "step": 1455
+    },
+    {
+      "epoch": 0.23817292006525284,
+      "grad_norm": 0.2625199854373932,
+      "learning_rate": 0.00011900489396411094,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 3159008,
+      "step": 1460
+    },
+    {
+      "epoch": 0.23898858075040783,
+      "grad_norm": 0.1276540756225586,
+      "learning_rate": 0.00011941272430668843,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 3170784,
+      "step": 1465
+    },
+    {
+      "epoch": 0.2398042414355628,
+      "grad_norm": 2.398977041244507,
+      "learning_rate": 0.0001198205546492659,
+      "loss": 0.1997,
+      "num_input_tokens_seen": 3182016,
+      "step": 1470
+    },
+    {
+      "epoch": 0.2406199021207178,
+      "grad_norm": 0.0415484681725502,
+      "learning_rate": 0.00012022838499184339,
+      "loss": 0.2176,
+      "num_input_tokens_seen": 3192288,
+      "step": 1475
+    },
+    {
+      "epoch": 0.24143556280587275,
+      "grad_norm": 0.10787076503038406,
+      "learning_rate": 0.00012063621533442088,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 3202560,
+      "step": 1480
+    },
+    {
+      "epoch": 0.24225122349102773,
+      "grad_norm": 2.47776460647583,
+      "learning_rate": 0.00012104404567699836,
+      "loss": 0.2372,
+      "num_input_tokens_seen": 3213888,
+      "step": 1485
+    },
+    {
+      "epoch": 0.24306688417618272,
+      "grad_norm": 0.6052817702293396,
+      "learning_rate": 0.00012145187601957586,
+      "loss": 0.2751,
+      "num_input_tokens_seen": 3224032,
+      "step": 1490
+    },
+    {
+      "epoch": 0.24388254486133767,
+      "grad_norm": 0.7725127339363098,
+      "learning_rate": 0.00012185970636215335,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 3234720,
+      "step": 1495
+    },
+    {
+      "epoch": 0.24469820554649266,
+      "grad_norm": 2.9930591583251953,
+      "learning_rate": 0.00012226753670473083,
+      "loss": 0.2188,
+      "num_input_tokens_seen": 3244928,
+      "step": 1500
+    },
+    {
+      "epoch": 0.24551386623164764,
+      "grad_norm": 3.0129828453063965,
+      "learning_rate": 0.00012267536704730833,
+      "loss": 0.3815,
+      "num_input_tokens_seen": 3254528,
+      "step": 1505
+    },
+    {
+      "epoch": 0.2463295269168026,
+      "grad_norm": 0.08210022002458572,
+      "learning_rate": 0.0001230831973898858,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 3264768,
+      "step": 1510
+    },
+    {
+      "epoch": 0.24714518760195758,
+      "grad_norm": 1.515202522277832,
+      "learning_rate": 0.0001234910277324633,
+      "loss": 0.0471,
+      "num_input_tokens_seen": 3276736,
+      "step": 1515
+    },
+    {
+      "epoch": 0.24796084828711257,
+      "grad_norm": 2.027247667312622,
+      "learning_rate": 0.0001238988580750408,
+      "loss": 0.5108,
+      "num_input_tokens_seen": 3287264,
+      "step": 1520
+    },
+    {
+      "epoch": 0.24877650897226752,
+      "grad_norm": 2.5827109813690186,
+      "learning_rate": 0.00012430668841761827,
+      "loss": 0.3454,
+      "num_input_tokens_seen": 3298048,
+      "step": 1525
+    },
+    {
+      "epoch": 0.2495921696574225,
+      "grad_norm": 1.8741847276687622,
+      "learning_rate": 0.00012471451876019577,
+      "loss": 0.2622,
+      "num_input_tokens_seen": 3308640,
+      "step": 1530
+    },
+    {
+      "epoch": 0.25040783034257746,
+      "grad_norm": 0.7166083455085754,
+      "learning_rate": 0.00012512234910277325,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 3319040,
+      "step": 1535
+    },
+    {
+      "epoch": 0.25122349102773245,
+      "grad_norm": 0.20941627025604248,
+      "learning_rate": 0.00012553017944535072,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 3330720,
+      "step": 1540
+    },
+    {
+      "epoch": 0.25203915171288743,
+      "grad_norm": 8.934325218200684,
+      "learning_rate": 0.00012593800978792823,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 3340352,
+      "step": 1545
+    },
+    {
+      "epoch": 0.2528548123980424,
+      "grad_norm": 0.5297455787658691,
+      "learning_rate": 0.0001263458401305057,
+      "loss": 0.2996,
+      "num_input_tokens_seen": 3350272,
+      "step": 1550
+    },
+    {
+      "epoch": 0.2536704730831974,
+      "grad_norm": 2.1738781929016113,
+      "learning_rate": 0.0001267536704730832,
+      "loss": 0.2076,
+      "num_input_tokens_seen": 3361440,
+      "step": 1555
+    },
+    {
+      "epoch": 0.2544861337683524,
+      "grad_norm": 6.6399455070495605,
+      "learning_rate": 0.00012716150081566068,
+      "loss": 0.2664,
+      "num_input_tokens_seen": 3373600,
+      "step": 1560
+    },
+    {
+      "epoch": 0.2553017944535073,
+      "grad_norm": 5.0540385246276855,
+      "learning_rate": 0.00012756933115823819,
+      "loss": 0.2678,
+      "num_input_tokens_seen": 3384160,
+      "step": 1565
+    },
+    {
+      "epoch": 0.2561174551386623,
+      "grad_norm": 18.535308837890625,
+      "learning_rate": 0.00012797716150081566,
+      "loss": 0.6454,
+      "num_input_tokens_seen": 3393792,
+      "step": 1570
+    },
+    {
+      "epoch": 0.2569331158238173,
+      "grad_norm": 3.7608978748321533,
+      "learning_rate": 0.00012838499184339314,
+      "loss": 0.4939,
+      "num_input_tokens_seen": 3404576,
+      "step": 1575
+    },
+    {
+      "epoch": 0.25774877650897227,
+      "grad_norm": 3.712184190750122,
+      "learning_rate": 0.00012879282218597064,
+      "loss": 0.2159,
+      "num_input_tokens_seen": 3414816,
+      "step": 1580
+    },
+    {
+      "epoch": 0.25856443719412725,
+      "grad_norm": 3.3276753425598145,
+      "learning_rate": 0.00012920065252854812,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 3425248,
+      "step": 1585
+    },
+    {
+      "epoch": 0.25938009787928223,
+      "grad_norm": 0.4005642831325531,
+      "learning_rate": 0.00012960848287112562,
+      "loss": 0.069,
+      "num_input_tokens_seen": 3435680,
+      "step": 1590
+    },
+    {
+      "epoch": 0.2601957585644372,
+      "grad_norm": 1.2974168062210083,
+      "learning_rate": 0.0001300163132137031,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 3447488,
+      "step": 1595
+    },
+    {
+      "epoch": 0.26101141924959215,
+      "grad_norm": 0.48080500960350037,
+      "learning_rate": 0.0001304241435562806,
+      "loss": 0.1689,
+      "num_input_tokens_seen": 3458336,
+      "step": 1600
+    },
+    {
+      "epoch": 0.26182707993474713,
+      "grad_norm": 2.298285961151123,
+      "learning_rate": 0.00013083197389885805,
+      "loss": 0.2302,
+      "num_input_tokens_seen": 3467680,
+      "step": 1605
+    },
+    {
+      "epoch": 0.2626427406199021,
+      "grad_norm": 0.040536798536777496,
+      "learning_rate": 0.00013123980424143555,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 3478400,
+      "step": 1610
+    },
+    {
+      "epoch": 0.2634584013050571,
+      "grad_norm": 0.12443608790636063,
+      "learning_rate": 0.00013164763458401306,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 3489280,
+      "step": 1615
+    },
+    {
+      "epoch": 0.2642740619902121,
+      "grad_norm": 3.2961642742156982,
+      "learning_rate": 0.00013205546492659053,
+      "loss": 0.3348,
+      "num_input_tokens_seen": 3500800,
+      "step": 1620
+    },
+    {
+      "epoch": 0.26508972267536707,
+      "grad_norm": 0.34571152925491333,
+      "learning_rate": 0.00013246329526916804,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 3510656,
+      "step": 1625
+    },
+    {
+      "epoch": 0.265905383360522,
+      "grad_norm": 0.5007117986679077,
+      "learning_rate": 0.00013287112561174552,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 3521696,
+      "step": 1630
+    },
+    {
+      "epoch": 0.266721044045677,
+      "grad_norm": 0.8755322098731995,
+      "learning_rate": 0.00013327895595432302,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 3534304,
+      "step": 1635
+    },
+    {
+      "epoch": 0.26753670473083196,
+      "grad_norm": 2.3326218128204346,
+      "learning_rate": 0.00013368678629690047,
+      "loss": 0.2073,
+      "num_input_tokens_seen": 3544416,
+      "step": 1640
+    },
+    {
+      "epoch": 0.26835236541598695,
+      "grad_norm": 0.17495253682136536,
+      "learning_rate": 0.00013409461663947797,
+      "loss": 0.1812,
+      "num_input_tokens_seen": 3553760,
+      "step": 1645
+    },
+    {
+      "epoch": 0.26916802610114193,
+      "grad_norm": 0.30354925990104675,
+      "learning_rate": 0.00013450244698205548,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 3563776,
+      "step": 1650
+    },
+    {
+      "epoch": 0.2699836867862969,
+      "grad_norm": 0.07377764582633972,
+      "learning_rate": 0.00013491027732463295,
+      "loss": 0.1907,
+      "num_input_tokens_seen": 3575200,
+      "step": 1655
+    },
+    {
+      "epoch": 0.2707993474714519,
+      "grad_norm": 0.5978612899780273,
+      "learning_rate": 0.00013531810766721046,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 3587328,
+      "step": 1660
+    },
+    {
+      "epoch": 0.27161500815660683,
+      "grad_norm": 3.454429864883423,
+      "learning_rate": 0.00013572593800978793,
+      "loss": 0.15,
+      "num_input_tokens_seen": 3597056,
+      "step": 1665
+    },
+    {
+      "epoch": 0.2724306688417618,
+      "grad_norm": 6.486354827880859,
+      "learning_rate": 0.0001361337683523654,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 3608064,
+      "step": 1670
+    },
+    {
+      "epoch": 0.2732463295269168,
+      "grad_norm": 6.622701168060303,
+      "learning_rate": 0.00013654159869494288,
+      "loss": 0.2567,
+      "num_input_tokens_seen": 3618208,
+      "step": 1675
+    },
+    {
+      "epoch": 0.2740619902120718,
+      "grad_norm": 3.2912650108337402,
+      "learning_rate": 0.0001369494290375204,
+      "loss": 0.4063,
+      "num_input_tokens_seen": 3629600,
+      "step": 1680
+    },
+    {
+      "epoch": 0.27487765089722677,
+      "grad_norm": 1.7371718883514404,
+      "learning_rate": 0.0001373572593800979,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 3640160,
+      "step": 1685
+    },
+    {
+      "epoch": 0.27569331158238175,
+      "grad_norm": 1.5828455686569214,
+      "learning_rate": 0.00013776508972267537,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 3649984,
+      "step": 1690
+    },
+    {
+      "epoch": 0.2765089722675367,
+      "grad_norm": 0.8824554681777954,
+      "learning_rate": 0.00013817292006525287,
+      "loss": 0.041,
+      "num_input_tokens_seen": 3660544,
+      "step": 1695
+    },
+    {
+      "epoch": 0.27732463295269166,
+      "grad_norm": 0.31346526741981506,
+      "learning_rate": 0.00013858075040783035,
+      "loss": 0.2259,
+      "num_input_tokens_seen": 3670688,
+      "step": 1700
+    },
+    {
+      "epoch": 0.27814029363784665,
+      "grad_norm": 0.8705945014953613,
+      "learning_rate": 0.00013898858075040782,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 3680896,
+      "step": 1705
+    },
+    {
+      "epoch": 0.27895595432300163,
+      "grad_norm": 0.12432600557804108,
+      "learning_rate": 0.00013939641109298533,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 3691648,
+      "step": 1710
+    },
+    {
+      "epoch": 0.2797716150081566,
+      "grad_norm": 0.15383680164813995,
+      "learning_rate": 0.0001398042414355628,
+      "loss": 0.2624,
+      "num_input_tokens_seen": 3701920,
+      "step": 1715
+    },
+    {
+      "epoch": 0.2805872756933116,
+      "grad_norm": 0.3748222291469574,
+      "learning_rate": 0.0001402120717781403,
+      "loss": 0.3476,
+      "num_input_tokens_seen": 3711648,
+      "step": 1720
+    },
+    {
+      "epoch": 0.2814029363784666,
+      "grad_norm": 1.4904766082763672,
+      "learning_rate": 0.00014061990212071778,
+      "loss": 0.1822,
+      "num_input_tokens_seen": 3721312,
+      "step": 1725
+    },
+    {
+      "epoch": 0.2822185970636215,
+      "grad_norm": 0.6280257105827332,
+      "learning_rate": 0.0001410277324632953,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 3732192,
+      "step": 1730
+    },
+    {
+      "epoch": 0.2830342577487765,
+      "grad_norm": 1.832024097442627,
+      "learning_rate": 0.00014143556280587274,
+      "loss": 0.2084,
+      "num_input_tokens_seen": 3742368,
+      "step": 1735
+    },
+    {
+      "epoch": 0.2838499184339315,
+      "grad_norm": 1.173895001411438,
+      "learning_rate": 0.00014184339314845024,
+      "loss": 0.2289,
+      "num_input_tokens_seen": 3753536,
+      "step": 1740
+    },
+    {
+      "epoch": 0.28466557911908646,
+      "grad_norm": 0.7341709733009338,
+      "learning_rate": 0.00014225122349102774,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 3764960,
+      "step": 1745
+    },
+    {
+      "epoch": 0.28548123980424145,
+      "grad_norm": 0.40611112117767334,
+      "learning_rate": 0.00014265905383360522,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 3776224,
+      "step": 1750
+    },
+    {
+      "epoch": 0.28629690048939643,
+      "grad_norm": 0.38497471809387207,
+      "learning_rate": 0.00014306688417618272,
+      "loss": 0.3102,
+      "num_input_tokens_seen": 3786208,
+      "step": 1755
+    },
+    {
+      "epoch": 0.28711256117455136,
+      "grad_norm": 1.9566757678985596,
+      "learning_rate": 0.0001434747145187602,
+      "loss": 0.1619,
+      "num_input_tokens_seen": 3796768,
+      "step": 1760
+    },
+    {
+      "epoch": 0.28792822185970635,
+      "grad_norm": 0.3571220338344574,
+      "learning_rate": 0.0001438825448613377,
+      "loss": 0.1974,
+      "num_input_tokens_seen": 3808928,
+      "step": 1765
+    },
+    {
+      "epoch": 0.28874388254486133,
+      "grad_norm": 1.0718194246292114,
+      "learning_rate": 0.00014429037520391515,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 3820480,
+      "step": 1770
+    },
+    {
+      "epoch": 0.2895595432300163,
+      "grad_norm": 0.08225858211517334,
+      "learning_rate": 0.00014469820554649266,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 3832352,
+      "step": 1775
+    },
+    {
+      "epoch": 0.2903752039151713,
+      "grad_norm": 1.1732842922210693,
+      "learning_rate": 0.00014510603588907016,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 3842560,
+      "step": 1780
+    },
+    {
+      "epoch": 0.2911908646003263,
+      "grad_norm": 1.7823255062103271,
+      "learning_rate": 0.00014551386623164764,
+      "loss": 0.3127,
+      "num_input_tokens_seen": 3853824,
+      "step": 1785
+    },
+    {
+      "epoch": 0.29200652528548127,
+      "grad_norm": 0.37060829997062683,
+      "learning_rate": 0.00014592169657422514,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 3865280,
+      "step": 1790
+    },
+    {
+      "epoch": 0.2928221859706362,
+      "grad_norm": 2.0758445262908936,
+      "learning_rate": 0.00014632952691680262,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 3874944,
+      "step": 1795
+    },
+    {
+      "epoch": 0.2936378466557912,
+      "grad_norm": 0.1883598268032074,
+      "learning_rate": 0.0001467373572593801,
+      "loss": 0.125,
+      "num_input_tokens_seen": 3885824,
+      "step": 1800
+    },
+    {
+      "epoch": 0.29445350734094616,
+      "grad_norm": 3.2518420219421387,
+      "learning_rate": 0.00014714518760195757,
+      "loss": 0.2931,
+      "num_input_tokens_seen": 3896480,
+      "step": 1805
+    },
+    {
+      "epoch": 0.29526916802610115,
+      "grad_norm": 2.0988779067993164,
+      "learning_rate": 0.00014755301794453507,
+      "loss": 0.2474,
+      "num_input_tokens_seen": 3908256,
+      "step": 1810
+    },
+    {
+      "epoch": 0.29608482871125613,
+      "grad_norm": 0.1773896962404251,
+      "learning_rate": 0.00014796084828711258,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 3919584,
+      "step": 1815
+    },
+    {
+      "epoch": 0.2969004893964111,
+      "grad_norm": 1.0337015390396118,
+      "learning_rate": 0.00014836867862969005,
+      "loss": 0.1539,
+      "num_input_tokens_seen": 3930016,
+      "step": 1820
+    },
+    {
+      "epoch": 0.29771615008156604,
+      "grad_norm": 0.4843730032444,
+      "learning_rate": 0.00014877650897226756,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 3940800,
+      "step": 1825
+    },
+    {
+      "epoch": 0.29853181076672103,
+      "grad_norm": 0.14410769939422607,
+      "learning_rate": 0.00014918433931484503,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 3952192,
+      "step": 1830
+    },
+    {
+      "epoch": 0.299347471451876,
+      "grad_norm": 0.07089443504810333,
+      "learning_rate": 0.0001495921696574225,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 3963936,
+      "step": 1835
+    },
+    {
+      "epoch": 0.300163132137031,
+      "grad_norm": 2.6121270656585693,
+      "learning_rate": 0.00015,
+      "loss": 0.145,
+      "num_input_tokens_seen": 3973824,
+      "step": 1840
+    },
+    {
+      "epoch": 0.300978792822186,
+      "grad_norm": 0.0231600571423769,
+      "learning_rate": 0.0001504078303425775,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 3984576,
+      "step": 1845
+    },
+    {
+      "epoch": 0.30179445350734097,
+      "grad_norm": 0.015244451351463795,
+      "learning_rate": 0.000150815660685155,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 3997024,
+      "step": 1850
+    },
+    {
+      "epoch": 0.30261011419249595,
+      "grad_norm": 0.007247697561979294,
+      "learning_rate": 0.00015122349102773247,
+      "loss": 0.1895,
+      "num_input_tokens_seen": 4007808,
+      "step": 1855
+    },
+    {
+      "epoch": 0.3034257748776509,
+      "grad_norm": 0.05449846014380455,
+      "learning_rate": 0.00015163132137030997,
+      "loss": 0.188,
+      "num_input_tokens_seen": 4018944,
+      "step": 1860
+    },
+    {
+      "epoch": 0.30424143556280586,
+      "grad_norm": 2.1363980770111084,
+      "learning_rate": 0.00015203915171288742,
+      "loss": 0.6462,
+      "num_input_tokens_seen": 4029824,
+      "step": 1865
+    },
+    {
+      "epoch": 0.30505709624796085,
+      "grad_norm": 1.8556227684020996,
+      "learning_rate": 0.00015244698205546493,
+      "loss": 0.3281,
+      "num_input_tokens_seen": 4040800,
+      "step": 1870
+    },
+    {
+      "epoch": 0.30587275693311583,
+      "grad_norm": 1.4034215211868286,
+      "learning_rate": 0.0001528548123980424,
+      "loss": 0.2342,
+      "num_input_tokens_seen": 4050912,
+      "step": 1875
+    },
+    {
+      "epoch": 0.3066884176182708,
+      "grad_norm": 1.7816450595855713,
+      "learning_rate": 0.0001532626427406199,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 4061696,
+      "step": 1880
+    },
+    {
+      "epoch": 0.3075040783034258,
+      "grad_norm": 2.1075515747070312,
+      "learning_rate": 0.0001536704730831974,
+      "loss": 0.2302,
+      "num_input_tokens_seen": 4071264,
+      "step": 1885
+    },
+    {
+      "epoch": 0.3083197389885807,
+      "grad_norm": 1.625557780265808,
+      "learning_rate": 0.0001540783034257749,
+      "loss": 0.1746,
+      "num_input_tokens_seen": 4081152,
+      "step": 1890
+    },
+    {
+      "epoch": 0.3091353996737357,
+      "grad_norm": 0.2660638988018036,
+      "learning_rate": 0.00015448613376835236,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 4091584,
+      "step": 1895
+    },
+    {
+      "epoch": 0.3099510603588907,
+      "grad_norm": 0.2802708148956299,
+      "learning_rate": 0.00015489396411092984,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 4102560,
+      "step": 1900
+    },
+    {
+      "epoch": 0.3107667210440457,
+      "grad_norm": 0.36759790778160095,
+      "learning_rate": 0.00015530179445350734,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 4113920,
+      "step": 1905
+    },
+    {
+      "epoch": 0.31158238172920066,
+      "grad_norm": 1.4215971231460571,
+      "learning_rate": 0.00015570962479608482,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 4125472,
+      "step": 1910
+    },
+    {
+      "epoch": 0.31239804241435565,
+      "grad_norm": 0.3487188220024109,
+      "learning_rate": 0.00015611745513866232,
+      "loss": 0.2935,
+      "num_input_tokens_seen": 4136032,
+      "step": 1915
+    },
+    {
+      "epoch": 0.3132137030995106,
+      "grad_norm": 0.13971523940563202,
+      "learning_rate": 0.00015652528548123983,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 4145792,
+      "step": 1920
+    },
+    {
+      "epoch": 0.31402936378466556,
+      "grad_norm": 0.19864986836910248,
+      "learning_rate": 0.0001569331158238173,
+      "loss": 0.2522,
+      "num_input_tokens_seen": 4156832,
+      "step": 1925
+    },
+    {
+      "epoch": 0.31484502446982054,
+      "grad_norm": 2.3408796787261963,
+      "learning_rate": 0.00015734094616639478,
+      "loss": 0.1961,
+      "num_input_tokens_seen": 4167424,
+      "step": 1930
+    },
+    {
+      "epoch": 0.31566068515497553,
+      "grad_norm": 1.4813441038131714,
+      "learning_rate": 0.00015774877650897226,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 4177248,
+      "step": 1935
+    },
+    {
+      "epoch": 0.3164763458401305,
+      "grad_norm": 0.1526590883731842,
+      "learning_rate": 0.00015815660685154976,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 4188064,
+      "step": 1940
+    },
+    {
+      "epoch": 0.3172920065252855,
+      "grad_norm": 0.12207305431365967,
+      "learning_rate": 0.00015856443719412724,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 4198144,
+      "step": 1945
+    },
+    {
+      "epoch": 0.3181076672104405,
+      "grad_norm": 0.2033795267343521,
+      "learning_rate": 0.00015897226753670474,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 4209952,
+      "step": 1950
+    },
+    {
+      "epoch": 0.3189233278955954,
+      "grad_norm": 1.4362683296203613,
+      "learning_rate": 0.00015938009787928224,
+      "loss": 0.025,
+      "num_input_tokens_seen": 4219360,
+      "step": 1955
+    },
+    {
+      "epoch": 0.3197389885807504,
+      "grad_norm": 0.9837049245834351,
+      "learning_rate": 0.0001597879282218597,
+      "loss": 0.2129,
+      "num_input_tokens_seen": 4230080,
+      "step": 1960
+    },
+    {
+      "epoch": 0.3205546492659054,
+      "grad_norm": 0.08906455338001251,
+      "learning_rate": 0.0001601957585644372,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 4240768,
+      "step": 1965
+    },
+    {
+      "epoch": 0.32137030995106036,
+      "grad_norm": 1.3643310070037842,
+      "learning_rate": 0.00016060358890701467,
+      "loss": 0.3903,
+      "num_input_tokens_seen": 4252224,
+      "step": 1970
+    },
+    {
+      "epoch": 0.32218597063621535,
+      "grad_norm": 0.5359205603599548,
+      "learning_rate": 0.00016101141924959218,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 4264160,
+      "step": 1975
+    },
+    {
+      "epoch": 0.32300163132137033,
+      "grad_norm": 1.2164024114608765,
+      "learning_rate": 0.00016141924959216965,
+      "loss": 0.2022,
+      "num_input_tokens_seen": 4274368,
+      "step": 1980
+    },
+    {
+      "epoch": 0.32381729200652526,
+      "grad_norm": 0.5487558841705322,
+      "learning_rate": 0.00016182707993474716,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 4283936,
+      "step": 1985
+    },
+    {
+      "epoch": 0.32463295269168024,
+      "grad_norm": 0.5527929663658142,
+      "learning_rate": 0.00016223491027732466,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 4294368,
+      "step": 1990
+    },
+    {
+      "epoch": 0.3254486133768352,
+      "grad_norm": 1.1117502450942993,
+      "learning_rate": 0.0001626427406199021,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 4303328,
+      "step": 1995
+    },
+    {
+      "epoch": 0.3262642740619902,
+      "grad_norm": 2.3114776611328125,
+      "learning_rate": 0.0001630505709624796,
+      "loss": 0.1864,
+      "num_input_tokens_seen": 4315072,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3270799347471452,
+      "grad_norm": 0.029865602031350136,
+      "learning_rate": 0.0001634584013050571,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 4326816,
+      "step": 2005
+    },
+    {
+      "epoch": 0.3278955954323002,
+      "grad_norm": 2.729114055633545,
+      "learning_rate": 0.0001638662316476346,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 4336896,
+      "step": 2010
+    },
+    {
+      "epoch": 0.32871125611745516,
+      "grad_norm": 1.5304375886917114,
+      "learning_rate": 0.00016427406199021207,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 4347328,
+      "step": 2015
+    },
+    {
+      "epoch": 0.3295269168026101,
+      "grad_norm": 0.3901952803134918,
+      "learning_rate": 0.00016468189233278957,
+      "loss": 0.1983,
+      "num_input_tokens_seen": 4358208,
+      "step": 2020
+    },
+    {
+      "epoch": 0.3303425774877651,
+      "grad_norm": 2.25579571723938,
+      "learning_rate": 0.00016508972267536705,
+      "loss": 0.1892,
+      "num_input_tokens_seen": 4368672,
+      "step": 2025
+    },
+    {
+      "epoch": 0.33115823817292006,
+      "grad_norm": 3.3735718727111816,
+      "learning_rate": 0.00016549755301794453,
+      "loss": 0.1723,
+      "num_input_tokens_seen": 4379808,
+      "step": 2030
+    },
+    {
+      "epoch": 0.33197389885807504,
+      "grad_norm": 1.8546075820922852,
+      "learning_rate": 0.00016590538336052203,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 4389728,
+      "step": 2035
+    },
+    {
+      "epoch": 0.33278955954323003,
+      "grad_norm": 0.03245149180293083,
+      "learning_rate": 0.0001663132137030995,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 4400704,
+      "step": 2040
+    },
+    {
+      "epoch": 0.333605220228385,
+      "grad_norm": 2.443859577178955,
+      "learning_rate": 0.000166721044045677,
+      "loss": 0.2122,
+      "num_input_tokens_seen": 4411648,
+      "step": 2045
+    },
+    {
+      "epoch": 0.33442088091353994,
+      "grad_norm": 0.18161454796791077,
+      "learning_rate": 0.00016712887438825449,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 4423328,
+      "step": 2050
+    },
+    {
+      "epoch": 0.3352365415986949,
+      "grad_norm": 0.296201229095459,
+      "learning_rate": 0.000167536704730832,
+      "loss": 0.3971,
+      "num_input_tokens_seen": 4434336,
+      "step": 2055
+    },
+    {
+      "epoch": 0.3360522022838499,
+      "grad_norm": 0.04536137357354164,
+      "learning_rate": 0.00016794453507340947,
+      "loss": 0.1908,
+      "num_input_tokens_seen": 4444672,
+      "step": 2060
+    },
+    {
+      "epoch": 0.3368678629690049,
+      "grad_norm": 0.1336517184972763,
+      "learning_rate": 0.00016835236541598694,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 4455872,
+      "step": 2065
+    },
+    {
+      "epoch": 0.3376835236541599,
+      "grad_norm": 0.3583919405937195,
+      "learning_rate": 0.00016876019575856445,
+      "loss": 0.129,
+      "num_input_tokens_seen": 4467616,
+      "step": 2070
+    },
+    {
+      "epoch": 0.33849918433931486,
+      "grad_norm": 1.1324158906936646,
+      "learning_rate": 0.00016916802610114192,
+      "loss": 0.143,
+      "num_input_tokens_seen": 4478656,
+      "step": 2075
+    },
+    {
+      "epoch": 0.33931484502446985,
+      "grad_norm": 0.07469242811203003,
+      "learning_rate": 0.00016957585644371943,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 4488800,
+      "step": 2080
+    },
+    {
+      "epoch": 0.3401305057096248,
+      "grad_norm": 1.5802353620529175,
+      "learning_rate": 0.0001699836867862969,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 4498496,
+      "step": 2085
+    },
+    {
+      "epoch": 0.34094616639477976,
+      "grad_norm": 1.5060569047927856,
+      "learning_rate": 0.00017039151712887438,
+      "loss": 0.2579,
+      "num_input_tokens_seen": 4509152,
+      "step": 2090
+    },
+    {
+      "epoch": 0.34176182707993474,
+      "grad_norm": 0.15717989206314087,
+      "learning_rate": 0.00017079934747145188,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 4521120,
+      "step": 2095
+    },
+    {
+      "epoch": 0.3425774877650897,
+      "grad_norm": 2.0099587440490723,
+      "learning_rate": 0.00017120717781402936,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 4531744,
+      "step": 2100
+    },
+    {
+      "epoch": 0.3433931484502447,
+      "grad_norm": 0.8347704410552979,
+      "learning_rate": 0.00017161500815660686,
+      "loss": 0.2788,
+      "num_input_tokens_seen": 4540704,
+      "step": 2105
+    },
+    {
+      "epoch": 0.3442088091353997,
+      "grad_norm": 1.3534941673278809,
+      "learning_rate": 0.00017202283849918434,
+      "loss": 0.1521,
+      "num_input_tokens_seen": 4551552,
+      "step": 2110
+    },
+    {
+      "epoch": 0.3450244698205546,
+      "grad_norm": 0.24349333345890045,
+      "learning_rate": 0.00017243066884176184,
+      "loss": 0.2539,
+      "num_input_tokens_seen": 4562976,
+      "step": 2115
+    },
+    {
+      "epoch": 0.3458401305057096,
+      "grad_norm": 0.4490703046321869,
+      "learning_rate": 0.00017283849918433932,
+      "loss": 0.1712,
+      "num_input_tokens_seen": 4573920,
+      "step": 2120
+    },
+    {
+      "epoch": 0.3466557911908646,
+      "grad_norm": 1.9330402612686157,
+      "learning_rate": 0.0001732463295269168,
+      "loss": 0.2538,
+      "num_input_tokens_seen": 4585088,
+      "step": 2125
+    },
+    {
+      "epoch": 0.3474714518760196,
+      "grad_norm": 0.46054011583328247,
+      "learning_rate": 0.0001736541598694943,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 4594752,
+      "step": 2130
+    },
+    {
+      "epoch": 0.34828711256117456,
+      "grad_norm": 0.2638119161128998,
+      "learning_rate": 0.00017406199021207178,
+      "loss": 0.1508,
+      "num_input_tokens_seen": 4604512,
+      "step": 2135
+    },
+    {
+      "epoch": 0.34910277324632955,
+      "grad_norm": 0.5201454758644104,
+      "learning_rate": 0.00017446982055464928,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 4615616,
+      "step": 2140
+    },
+    {
+      "epoch": 0.34991843393148453,
+      "grad_norm": 12.082786560058594,
+      "learning_rate": 0.00017487765089722676,
+      "loss": 0.2726,
+      "num_input_tokens_seen": 4625984,
+      "step": 2145
+    },
+    {
+      "epoch": 0.35073409461663946,
+      "grad_norm": 0.30344992876052856,
+      "learning_rate": 0.00017528548123980426,
+      "loss": 0.1277,
+      "num_input_tokens_seen": 4636992,
+      "step": 2150
+    },
+    {
+      "epoch": 0.35154975530179444,
+      "grad_norm": 0.7207813858985901,
+      "learning_rate": 0.0001756933115823817,
+      "loss": 0.0274,
+      "num_input_tokens_seen": 4647424,
+      "step": 2155
+    },
+    {
+      "epoch": 0.3523654159869494,
+      "grad_norm": 0.2960370182991028,
+      "learning_rate": 0.0001761011419249592,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 4659360,
+      "step": 2160
+    },
+    {
+      "epoch": 0.3531810766721044,
+      "grad_norm": 0.4028482139110565,
+      "learning_rate": 0.00017650897226753672,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 4669248,
+      "step": 2165
+    },
+    {
+      "epoch": 0.3539967373572594,
+      "grad_norm": 0.2826700210571289,
+      "learning_rate": 0.0001769168026101142,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 4679360,
+      "step": 2170
+    },
+    {
+      "epoch": 0.3548123980424144,
+      "grad_norm": 1.6123909950256348,
+      "learning_rate": 0.0001773246329526917,
+      "loss": 0.3686,
+      "num_input_tokens_seen": 4691104,
+      "step": 2175
+    },
+    {
+      "epoch": 0.3556280587275693,
+      "grad_norm": 2.6291587352752686,
+      "learning_rate": 0.00017773246329526917,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 4700416,
+      "step": 2180
+    },
+    {
+      "epoch": 0.3564437194127243,
+      "grad_norm": 0.5103549957275391,
+      "learning_rate": 0.00017814029363784668,
+      "loss": 0.3337,
+      "num_input_tokens_seen": 4711072,
+      "step": 2185
+    },
+    {
+      "epoch": 0.3572593800978793,
+      "grad_norm": 0.25698915123939514,
+      "learning_rate": 0.00017854812398042412,
+      "loss": 0.2498,
+      "num_input_tokens_seen": 4722496,
+      "step": 2190
+    },
+    {
+      "epoch": 0.35807504078303426,
+      "grad_norm": 0.3679829239845276,
+      "learning_rate": 0.00017895595432300163,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 4730784,
+      "step": 2195
+    },
+    {
+      "epoch": 0.35889070146818924,
+      "grad_norm": 0.2273644059896469,
+      "learning_rate": 0.00017936378466557913,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 4740896,
+      "step": 2200
+    },
+    {
+      "epoch": 0.35970636215334423,
+      "grad_norm": 0.28911730647087097,
+      "learning_rate": 0.0001797716150081566,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 4752448,
+      "step": 2205
+    },
+    {
+      "epoch": 0.3605220228384992,
+      "grad_norm": 0.657588005065918,
+      "learning_rate": 0.0001801794453507341,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 4763904,
+      "step": 2210
+    },
+    {
+      "epoch": 0.36133768352365414,
+      "grad_norm": 0.7489591836929321,
+      "learning_rate": 0.0001805872756933116,
+      "loss": 0.092,
+      "num_input_tokens_seen": 4773952,
+      "step": 2215
+    },
+    {
+      "epoch": 0.3621533442088091,
+      "grad_norm": 0.6419491171836853,
+      "learning_rate": 0.00018099510603588906,
+      "loss": 0.1956,
+      "num_input_tokens_seen": 4784672,
+      "step": 2220
+    },
+    {
+      "epoch": 0.3629690048939641,
+      "grad_norm": 1.2978434562683105,
+      "learning_rate": 0.00018140293637846654,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 4796480,
+      "step": 2225
+    },
+    {
+      "epoch": 0.3637846655791191,
+      "grad_norm": 0.9570780396461487,
+      "learning_rate": 0.00018181076672104404,
+      "loss": 0.2541,
+      "num_input_tokens_seen": 4807328,
+      "step": 2230
+    },
+    {
+      "epoch": 0.3646003262642741,
+      "grad_norm": 0.6393945813179016,
+      "learning_rate": 0.00018221859706362155,
+      "loss": 0.1581,
+      "num_input_tokens_seen": 4818848,
+      "step": 2235
+    },
+    {
+      "epoch": 0.36541598694942906,
+      "grad_norm": 0.6659722924232483,
+      "learning_rate": 0.00018262642740619902,
+      "loss": 0.1676,
+      "num_input_tokens_seen": 4829024,
+      "step": 2240
+    },
+    {
+      "epoch": 0.366231647634584,
+      "grad_norm": 0.46172747015953064,
+      "learning_rate": 0.00018303425774877653,
+      "loss": 0.1468,
+      "num_input_tokens_seen": 4839936,
+      "step": 2245
+    },
+    {
+      "epoch": 0.367047308319739,
+      "grad_norm": 0.5429582595825195,
+      "learning_rate": 0.00018344208809135398,
+      "loss": 0.2178,
+      "num_input_tokens_seen": 4851424,
+      "step": 2250
+    },
+    {
+      "epoch": 0.36786296900489396,
+      "grad_norm": 0.18980517983436584,
+      "learning_rate": 0.00018384991843393148,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 4861888,
+      "step": 2255
+    },
+    {
+      "epoch": 0.36867862969004894,
+      "grad_norm": 0.52447509765625,
+      "learning_rate": 0.00018425774877650896,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 4871136,
+      "step": 2260
+    },
+    {
+      "epoch": 0.3694942903752039,
+      "grad_norm": 0.4742538034915924,
+      "learning_rate": 0.00018466557911908646,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 4882976,
+      "step": 2265
+    },
+    {
+      "epoch": 0.3703099510603589,
+      "grad_norm": 0.05093076080083847,
+      "learning_rate": 0.00018507340946166396,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 4893536,
+      "step": 2270
+    },
+    {
+      "epoch": 0.37112561174551384,
+      "grad_norm": 0.5098185539245605,
+      "learning_rate": 0.00018548123980424144,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 4904384,
+      "step": 2275
+    },
+    {
+      "epoch": 0.3719412724306688,
+      "grad_norm": 0.00874658115208149,
+      "learning_rate": 0.00018588907014681894,
+      "loss": 0.2179,
+      "num_input_tokens_seen": 4915008,
+      "step": 2280
+    },
+    {
+      "epoch": 0.3727569331158238,
+      "grad_norm": 0.49980396032333374,
+      "learning_rate": 0.0001862969004893964,
+      "loss": 0.081,
+      "num_input_tokens_seen": 4925632,
+      "step": 2285
+    },
+    {
+      "epoch": 0.3735725938009788,
+      "grad_norm": 0.029526453465223312,
+      "learning_rate": 0.0001867047308319739,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 4936224,
+      "step": 2290
+    },
+    {
+      "epoch": 0.3743882544861338,
+      "grad_norm": 0.04340076446533203,
+      "learning_rate": 0.0001871125611745514,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 4947072,
+      "step": 2295
+    },
+    {
+      "epoch": 0.37520391517128876,
+      "grad_norm": 2.040459156036377,
+      "learning_rate": 0.00018752039151712888,
+      "loss": 0.1318,
+      "num_input_tokens_seen": 4957024,
+      "step": 2300
+    },
+    {
+      "epoch": 0.37601957585644374,
+      "grad_norm": 0.05700768902897835,
+      "learning_rate": 0.00018792822185970638,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 4966528,
+      "step": 2305
+    },
+    {
+      "epoch": 0.3768352365415987,
+      "grad_norm": 0.07470440119504929,
+      "learning_rate": 0.00018833605220228386,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 4976928,
+      "step": 2310
+    },
+    {
+      "epoch": 0.37765089722675366,
+      "grad_norm": 1.5700215101242065,
+      "learning_rate": 0.00018874388254486133,
+      "loss": 0.2085,
+      "num_input_tokens_seen": 4987296,
+      "step": 2315
+    },
+    {
+      "epoch": 0.37846655791190864,
+      "grad_norm": 0.786880373954773,
+      "learning_rate": 0.0001891517128874388,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 4998336,
+      "step": 2320
+    },
+    {
+      "epoch": 0.3792822185970636,
+      "grad_norm": 0.19122718274593353,
+      "learning_rate": 0.00018955954323001631,
+      "loss": 0.1669,
+      "num_input_tokens_seen": 5008256,
+      "step": 2325
+    },
+    {
+      "epoch": 0.3800978792822186,
+      "grad_norm": 1.7962323427200317,
+      "learning_rate": 0.00018996737357259382,
+      "loss": 0.195,
+      "num_input_tokens_seen": 5018688,
+      "step": 2330
+    },
+    {
+      "epoch": 0.3809135399673736,
+      "grad_norm": 0.29662618041038513,
+      "learning_rate": 0.0001903752039151713,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 5029984,
+      "step": 2335
+    },
+    {
+      "epoch": 0.3817292006525285,
+      "grad_norm": 0.5231503248214722,
+      "learning_rate": 0.0001907830342577488,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 5040160,
+      "step": 2340
+    },
+    {
+      "epoch": 0.3825448613376835,
+      "grad_norm": 1.3572986125946045,
+      "learning_rate": 0.00019119086460032627,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 5052640,
+      "step": 2345
+    },
+    {
+      "epoch": 0.3833605220228385,
+      "grad_norm": 0.11215253174304962,
+      "learning_rate": 0.00019159869494290375,
+      "loss": 0.1856,
+      "num_input_tokens_seen": 5063616,
+      "step": 2350
+    },
+    {
+      "epoch": 0.3841761827079935,
+      "grad_norm": 1.3003672361373901,
+      "learning_rate": 0.00019200652528548123,
+      "loss": 0.1788,
+      "num_input_tokens_seen": 5075584,
+      "step": 2355
+    },
+    {
+      "epoch": 0.38499184339314846,
+      "grad_norm": 0.8807132840156555,
+      "learning_rate": 0.00019241435562805873,
+      "loss": 0.2466,
+      "num_input_tokens_seen": 5086272,
+      "step": 2360
+    },
+    {
+      "epoch": 0.38580750407830344,
+      "grad_norm": 0.5251150131225586,
+      "learning_rate": 0.00019282218597063623,
+      "loss": 0.2486,
+      "num_input_tokens_seen": 5098560,
+      "step": 2365
+    },
+    {
+      "epoch": 0.3866231647634584,
+      "grad_norm": 0.2054545283317566,
+      "learning_rate": 0.0001932300163132137,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 5109792,
+      "step": 2370
+    },
+    {
+      "epoch": 0.38743882544861336,
+      "grad_norm": 1.0482416152954102,
+      "learning_rate": 0.00019363784665579121,
+      "loss": 0.2811,
+      "num_input_tokens_seen": 5119328,
+      "step": 2375
+    },
+    {
+      "epoch": 0.38825448613376834,
+      "grad_norm": 0.46562135219573975,
+      "learning_rate": 0.00019404567699836866,
+      "loss": 0.1733,
+      "num_input_tokens_seen": 5129824,
+      "step": 2380
+    },
+    {
+      "epoch": 0.3890701468189233,
+      "grad_norm": 1.1354540586471558,
+      "learning_rate": 0.00019445350734094617,
+      "loss": 0.2479,
+      "num_input_tokens_seen": 5140800,
+      "step": 2385
+    },
+    {
+      "epoch": 0.3898858075040783,
+      "grad_norm": 0.5768679976463318,
+      "learning_rate": 0.00019486133768352364,
+      "loss": 0.1671,
+      "num_input_tokens_seen": 5152064,
+      "step": 2390
+    },
+    {
+      "epoch": 0.3907014681892333,
+      "grad_norm": 0.4160184860229492,
+      "learning_rate": 0.00019526916802610115,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 5164288,
+      "step": 2395
+    },
+    {
+      "epoch": 0.3915171288743883,
+      "grad_norm": 0.5931136012077332,
+      "learning_rate": 0.00019567699836867865,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 5174784,
+      "step": 2400
+    },
+    {
+      "epoch": 0.3923327895595432,
+      "grad_norm": 0.5052030086517334,
+      "learning_rate": 0.00019608482871125613,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 5185792,
+      "step": 2405
+    },
+    {
+      "epoch": 0.3931484502446982,
+      "grad_norm": 0.699626088142395,
+      "learning_rate": 0.00019649265905383363,
+      "loss": 0.2045,
+      "num_input_tokens_seen": 5196832,
+      "step": 2410
+    },
+    {
+      "epoch": 0.3939641109298532,
+      "grad_norm": 0.30739665031433105,
+      "learning_rate": 0.00019690048939641108,
+      "loss": 0.3627,
+      "num_input_tokens_seen": 5208288,
+      "step": 2415
+    },
+    {
+      "epoch": 0.39477977161500816,
+      "grad_norm": 0.7836719155311584,
+      "learning_rate": 0.00019730831973898858,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 5219008,
+      "step": 2420
+    },
+    {
+      "epoch": 0.39559543230016314,
+      "grad_norm": 1.719211220741272,
+      "learning_rate": 0.00019771615008156606,
+      "loss": 0.1785,
+      "num_input_tokens_seen": 5230400,
+      "step": 2425
+    },
+    {
+      "epoch": 0.3964110929853181,
+      "grad_norm": 3.8855228424072266,
+      "learning_rate": 0.00019812398042414356,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 5241920,
+      "step": 2430
+    },
+    {
+      "epoch": 0.3972267536704731,
+      "grad_norm": 0.14320261776447296,
+      "learning_rate": 0.00019853181076672107,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 5252768,
+      "step": 2435
+    },
+    {
+      "epoch": 0.39804241435562804,
+      "grad_norm": 0.2717430591583252,
+      "learning_rate": 0.00019893964110929854,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 5263840,
+      "step": 2440
+    },
+    {
+      "epoch": 0.398858075040783,
+      "grad_norm": 0.1439686268568039,
+      "learning_rate": 0.00019934747145187602,
+      "loss": 0.2313,
+      "num_input_tokens_seen": 5274656,
+      "step": 2445
+    },
+    {
+      "epoch": 0.399673735725938,
+      "grad_norm": 0.17499934136867523,
+      "learning_rate": 0.0001997553017944535,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 5285504,
+      "step": 2450
+    },
+    {
+      "epoch": 0.400489396411093,
+      "grad_norm": 0.2679937779903412,
+      "learning_rate": 0.000200163132137031,
+      "loss": 0.2409,
+      "num_input_tokens_seen": 5297024,
+      "step": 2455
+    },
+    {
+      "epoch": 0.401305057096248,
+      "grad_norm": 0.47787871956825256,
+      "learning_rate": 0.00020057096247960848,
+      "loss": 0.2762,
+      "num_input_tokens_seen": 5308064,
+      "step": 2460
+    },
+    {
+      "epoch": 0.40212071778140296,
+      "grad_norm": 0.14121407270431519,
+      "learning_rate": 0.00020097879282218598,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 5318880,
+      "step": 2465
+    },
+    {
+      "epoch": 0.4029363784665579,
+      "grad_norm": 0.4858434200286865,
+      "learning_rate": 0.00020138662316476348,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 5329440,
+      "step": 2470
+    },
+    {
+      "epoch": 0.40375203915171287,
+      "grad_norm": 0.30492958426475525,
+      "learning_rate": 0.00020179445350734096,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 5340000,
+      "step": 2475
+    },
+    {
+      "epoch": 0.40456769983686786,
+      "grad_norm": 5.706164836883545,
+      "learning_rate": 0.00020220228384991844,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 5350944,
+      "step": 2480
+    },
+    {
+      "epoch": 0.40538336052202284,
+      "grad_norm": 0.20894655585289001,
+      "learning_rate": 0.0002026101141924959,
+      "loss": 0.257,
+      "num_input_tokens_seen": 5362016,
+      "step": 2485
+    },
+    {
+      "epoch": 0.4061990212071778,
+      "grad_norm": 0.1500648409128189,
+      "learning_rate": 0.00020301794453507342,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 5373024,
+      "step": 2490
+    },
+    {
+      "epoch": 0.4070146818923328,
+      "grad_norm": 0.25598615407943726,
+      "learning_rate": 0.0002034257748776509,
+      "loss": 0.1976,
+      "num_input_tokens_seen": 5383840,
+      "step": 2495
+    },
+    {
+      "epoch": 0.4078303425774878,
+      "grad_norm": 0.2832091748714447,
+      "learning_rate": 0.0002038336052202284,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 5394688,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4086460032626427,
+      "grad_norm": 0.49175241589546204,
+      "learning_rate": 0.0002042414355628059,
+      "loss": 0.0589,
+      "num_input_tokens_seen": 5405760,
+      "step": 2505
+    },
+    {
+      "epoch": 0.4094616639477977,
+      "grad_norm": 2.1446218490600586,
+      "learning_rate": 0.00020464926590538335,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 5416736,
+      "step": 2510
+    },
+    {
+      "epoch": 0.4102773246329527,
+      "grad_norm": 1.993091106414795,
+      "learning_rate": 0.00020505709624796085,
+      "loss": 0.1631,
+      "num_input_tokens_seen": 5428160,
+      "step": 2515
+    },
+    {
+      "epoch": 0.4110929853181077,
+      "grad_norm": 0.05304631590843201,
+      "learning_rate": 0.00020546492659053833,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 5439616,
+      "step": 2520
+    },
+    {
+      "epoch": 0.41190864600326266,
+      "grad_norm": 2.1700851917266846,
+      "learning_rate": 0.00020587275693311583,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 5450048,
+      "step": 2525
+    },
+    {
+      "epoch": 0.41272430668841764,
+      "grad_norm": 2.9487311840057373,
+      "learning_rate": 0.0002062805872756933,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 5460512,
+      "step": 2530
+    },
+    {
+      "epoch": 0.41353996737357257,
+      "grad_norm": 1.1737804412841797,
+      "learning_rate": 0.0002066884176182708,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 5470496,
+      "step": 2535
+    },
+    {
+      "epoch": 0.41435562805872755,
+      "grad_norm": 8.738869667053223,
+      "learning_rate": 0.00020709624796084832,
+      "loss": 0.4035,
+      "num_input_tokens_seen": 5482112,
+      "step": 2540
+    },
+    {
+      "epoch": 0.41517128874388254,
+      "grad_norm": 2.1070964336395264,
+      "learning_rate": 0.00020750407830342577,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 5493984,
+      "step": 2545
+    },
+    {
+      "epoch": 0.4159869494290375,
+      "grad_norm": 0.5695657134056091,
+      "learning_rate": 0.00020791190864600327,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 5505440,
+      "step": 2550
+    },
+    {
+      "epoch": 0.4168026101141925,
+      "grad_norm": 0.01275833323597908,
+      "learning_rate": 0.00020831973898858075,
+      "loss": 0.1324,
+      "num_input_tokens_seen": 5516800,
+      "step": 2555
+    },
+    {
+      "epoch": 0.4176182707993475,
+      "grad_norm": 0.055172014981508255,
+      "learning_rate": 0.00020872756933115825,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 5527360,
+      "step": 2560
+    },
+    {
+      "epoch": 0.4184339314845024,
+      "grad_norm": 1.583932638168335,
+      "learning_rate": 0.00020913539967373573,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 5537792,
+      "step": 2565
+    },
+    {
+      "epoch": 0.4192495921696574,
+      "grad_norm": 0.4243050217628479,
+      "learning_rate": 0.00020954323001631323,
+      "loss": 0.269,
+      "num_input_tokens_seen": 5548864,
+      "step": 2570
+    },
+    {
+      "epoch": 0.4200652528548124,
+      "grad_norm": 2.5984838008880615,
+      "learning_rate": 0.0002099510603588907,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 5559072,
+      "step": 2575
+    },
+    {
+      "epoch": 0.42088091353996737,
+      "grad_norm": 0.3416847288608551,
+      "learning_rate": 0.00021035889070146818,
+      "loss": 0.2578,
+      "num_input_tokens_seen": 5568864,
+      "step": 2580
+    },
+    {
+      "epoch": 0.42169657422512236,
+      "grad_norm": 0.1450396478176117,
+      "learning_rate": 0.00021076672104404569,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 5579744,
+      "step": 2585
+    },
+    {
+      "epoch": 0.42251223491027734,
+      "grad_norm": 0.7415868639945984,
+      "learning_rate": 0.00021117455138662316,
+      "loss": 0.2167,
+      "num_input_tokens_seen": 5589824,
+      "step": 2590
+    },
+    {
+      "epoch": 0.4233278955954323,
+      "grad_norm": 0.3233489990234375,
+      "learning_rate": 0.00021158238172920067,
+      "loss": 0.143,
+      "num_input_tokens_seen": 5601056,
+      "step": 2595
+    },
+    {
+      "epoch": 0.42414355628058725,
+      "grad_norm": 0.10952405631542206,
+      "learning_rate": 0.00021199021207177814,
+      "loss": 0.2179,
+      "num_input_tokens_seen": 5611744,
+      "step": 2600
+    },
+    {
+      "epoch": 0.42495921696574224,
+      "grad_norm": 0.619699239730835,
+      "learning_rate": 0.00021239804241435562,
+      "loss": 0.2343,
+      "num_input_tokens_seen": 5621600,
+      "step": 2605
+    },
+    {
+      "epoch": 0.4257748776508972,
+      "grad_norm": 0.3699929118156433,
+      "learning_rate": 0.00021280587275693312,
+      "loss": 0.143,
+      "num_input_tokens_seen": 5633088,
+      "step": 2610
+    },
+    {
+      "epoch": 0.4265905383360522,
+      "grad_norm": 1.0430079698562622,
+      "learning_rate": 0.0002132137030995106,
+      "loss": 0.1942,
+      "num_input_tokens_seen": 5644352,
+      "step": 2615
+    },
+    {
+      "epoch": 0.4274061990212072,
+      "grad_norm": 0.596524178981781,
+      "learning_rate": 0.0002136215334420881,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 5653600,
+      "step": 2620
+    },
+    {
+      "epoch": 0.4282218597063622,
+      "grad_norm": 0.615421712398529,
+      "learning_rate": 0.00021402936378466558,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 5665152,
+      "step": 2625
+    },
+    {
+      "epoch": 0.4290375203915171,
+      "grad_norm": 1.0820027589797974,
+      "learning_rate": 0.00021443719412724308,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 5676640,
+      "step": 2630
+    },
+    {
+      "epoch": 0.4298531810766721,
+      "grad_norm": 0.33138588070869446,
+      "learning_rate": 0.00021484502446982056,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 5687360,
+      "step": 2635
+    },
+    {
+      "epoch": 0.43066884176182707,
+      "grad_norm": 1.8373628854751587,
+      "learning_rate": 0.00021525285481239804,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 5698112,
+      "step": 2640
+    },
+    {
+      "epoch": 0.43148450244698205,
+      "grad_norm": 0.3439456820487976,
+      "learning_rate": 0.00021566068515497554,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 5708480,
+      "step": 2645
+    },
+    {
+      "epoch": 0.43230016313213704,
+      "grad_norm": 1.2714189291000366,
+      "learning_rate": 0.00021606851549755302,
+      "loss": 0.1843,
+      "num_input_tokens_seen": 5718144,
+      "step": 2650
+    },
+    {
+      "epoch": 0.433115823817292,
+      "grad_norm": 0.7776082754135132,
+      "learning_rate": 0.00021647634584013052,
+      "loss": 0.2882,
+      "num_input_tokens_seen": 5728832,
+      "step": 2655
+    },
+    {
+      "epoch": 0.433931484502447,
+      "grad_norm": 0.16278807818889618,
+      "learning_rate": 0.000216884176182708,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 5739584,
+      "step": 2660
+    },
+    {
+      "epoch": 0.43474714518760194,
+      "grad_norm": 0.8418310284614563,
+      "learning_rate": 0.0002172920065252855,
+      "loss": 0.145,
+      "num_input_tokens_seen": 5749632,
+      "step": 2665
+    },
+    {
+      "epoch": 0.4355628058727569,
+      "grad_norm": 0.3150191903114319,
+      "learning_rate": 0.00021769983686786295,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 5760480,
+      "step": 2670
+    },
+    {
+      "epoch": 0.4363784665579119,
+      "grad_norm": 0.9902245998382568,
+      "learning_rate": 0.00021810766721044045,
+      "loss": 0.1921,
+      "num_input_tokens_seen": 5770560,
+      "step": 2675
+    },
+    {
+      "epoch": 0.4371941272430669,
+      "grad_norm": 1.708687424659729,
+      "learning_rate": 0.00021851549755301796,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 5780416,
+      "step": 2680
+    },
+    {
+      "epoch": 0.43800978792822187,
+      "grad_norm": 0.952900767326355,
+      "learning_rate": 0.00021892332789559543,
+      "loss": 0.2966,
+      "num_input_tokens_seen": 5791136,
+      "step": 2685
+    },
+    {
+      "epoch": 0.43882544861337686,
+      "grad_norm": 1.0747466087341309,
+      "learning_rate": 0.00021933115823817294,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 5801600,
+      "step": 2690
+    },
+    {
+      "epoch": 0.4396411092985318,
+      "grad_norm": 0.06641166657209396,
+      "learning_rate": 0.0002197389885807504,
+      "loss": 0.19,
+      "num_input_tokens_seen": 5813632,
+      "step": 2695
+    },
+    {
+      "epoch": 0.44045676998368677,
+      "grad_norm": 0.29006800055503845,
+      "learning_rate": 0.00022014681892332792,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 5823680,
+      "step": 2700
+    },
+    {
+      "epoch": 0.44127243066884175,
+      "grad_norm": 0.15687257051467896,
+      "learning_rate": 0.00022055464926590536,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 5833760,
+      "step": 2705
+    },
+    {
+      "epoch": 0.44208809135399674,
+      "grad_norm": 0.32435062527656555,
+      "learning_rate": 0.00022096247960848287,
+      "loss": 0.184,
+      "num_input_tokens_seen": 5844352,
+      "step": 2710
+    },
+    {
+      "epoch": 0.4429037520391517,
+      "grad_norm": 0.9220103621482849,
+      "learning_rate": 0.00022137030995106037,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 5854624,
+      "step": 2715
+    },
+    {
+      "epoch": 0.4437194127243067,
+      "grad_norm": 0.1260593682527542,
+      "learning_rate": 0.00022177814029363785,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 5865280,
+      "step": 2720
+    },
+    {
+      "epoch": 0.4445350734094617,
+      "grad_norm": 0.10509152710437775,
+      "learning_rate": 0.00022218597063621535,
+      "loss": 0.128,
+      "num_input_tokens_seen": 5875552,
+      "step": 2725
+    },
+    {
+      "epoch": 0.4453507340946166,
+      "grad_norm": 0.3267362117767334,
+      "learning_rate": 0.00022259380097879283,
+      "loss": 0.2118,
+      "num_input_tokens_seen": 5886592,
+      "step": 2730
+    },
+    {
+      "epoch": 0.4461663947797716,
+      "grad_norm": 0.5570999383926392,
+      "learning_rate": 0.0002230016313213703,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 5896864,
+      "step": 2735
+    },
+    {
+      "epoch": 0.4469820554649266,
+      "grad_norm": 0.09635140746831894,
+      "learning_rate": 0.00022340946166394778,
+      "loss": 0.1857,
+      "num_input_tokens_seen": 5907360,
+      "step": 2740
+    },
+    {
+      "epoch": 0.44779771615008157,
+      "grad_norm": 0.42166176438331604,
+      "learning_rate": 0.00022381729200652529,
+      "loss": 0.1385,
+      "num_input_tokens_seen": 5917344,
+      "step": 2745
+    },
+    {
+      "epoch": 0.44861337683523655,
+      "grad_norm": 0.3304622173309326,
+      "learning_rate": 0.0002242251223491028,
+      "loss": 0.2181,
+      "num_input_tokens_seen": 5929536,
+      "step": 2750
+    },
+    {
+      "epoch": 0.44942903752039154,
+      "grad_norm": 0.3093664050102234,
+      "learning_rate": 0.00022463295269168027,
+      "loss": 0.155,
+      "num_input_tokens_seen": 5940992,
+      "step": 2755
+    },
+    {
+      "epoch": 0.45024469820554647,
+      "grad_norm": 0.12017809599637985,
+      "learning_rate": 0.00022504078303425777,
+      "loss": 0.1618,
+      "num_input_tokens_seen": 5951520,
+      "step": 2760
+    },
+    {
+      "epoch": 0.45106035889070145,
+      "grad_norm": 0.5987087488174438,
+      "learning_rate": 0.00022544861337683525,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 5961952,
+      "step": 2765
+    },
+    {
+      "epoch": 0.45187601957585644,
+      "grad_norm": 1.5060359239578247,
+      "learning_rate": 0.00022585644371941272,
+      "loss": 0.2578,
+      "num_input_tokens_seen": 5972000,
+      "step": 2770
+    },
+    {
+      "epoch": 0.4526916802610114,
+      "grad_norm": 0.19394594430923462,
+      "learning_rate": 0.0002262642740619902,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 5981984,
+      "step": 2775
+    },
+    {
+      "epoch": 0.4535073409461664,
+      "grad_norm": 0.22451826930046082,
+      "learning_rate": 0.0002266721044045677,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 5992800,
+      "step": 2780
+    },
+    {
+      "epoch": 0.4543230016313214,
+      "grad_norm": 0.9931198954582214,
+      "learning_rate": 0.0002270799347471452,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 6003808,
+      "step": 2785
+    },
+    {
+      "epoch": 0.4551386623164764,
+      "grad_norm": 2.576740026473999,
+      "learning_rate": 0.00022748776508972268,
+      "loss": 0.1955,
+      "num_input_tokens_seen": 6014336,
+      "step": 2790
+    },
+    {
+      "epoch": 0.4559543230016313,
+      "grad_norm": 0.04945773258805275,
+      "learning_rate": 0.00022789559543230019,
+      "loss": 0.2142,
+      "num_input_tokens_seen": 6025792,
+      "step": 2795
+    },
+    {
+      "epoch": 0.4567699836867863,
+      "grad_norm": 0.8532063364982605,
+      "learning_rate": 0.00022830342577487763,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 6035968,
+      "step": 2800
+    },
+    {
+      "epoch": 0.45758564437194127,
+      "grad_norm": 0.15329685807228088,
+      "learning_rate": 0.00022871125611745514,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 6047040,
+      "step": 2805
+    },
+    {
+      "epoch": 0.45840130505709625,
+      "grad_norm": 0.15588818490505219,
+      "learning_rate": 0.00022911908646003261,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 6057728,
+      "step": 2810
+    },
+    {
+      "epoch": 0.45921696574225124,
+      "grad_norm": 0.7118588089942932,
+      "learning_rate": 0.00022952691680261012,
+      "loss": 0.1649,
+      "num_input_tokens_seen": 6070208,
+      "step": 2815
+    },
+    {
+      "epoch": 0.4600326264274062,
+      "grad_norm": 0.23197035491466522,
+      "learning_rate": 0.00022993474714518762,
+      "loss": 0.1928,
+      "num_input_tokens_seen": 6082144,
+      "step": 2820
+    },
+    {
+      "epoch": 0.46084828711256115,
+      "grad_norm": 0.136517733335495,
+      "learning_rate": 0.0002303425774877651,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 6094112,
+      "step": 2825
+    },
+    {
+      "epoch": 0.46166394779771613,
+      "grad_norm": 0.056639283895492554,
+      "learning_rate": 0.0002307504078303426,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 6104608,
+      "step": 2830
+    },
+    {
+      "epoch": 0.4624796084828711,
+      "grad_norm": 0.2406209260225296,
+      "learning_rate": 0.00023115823817292005,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 6114816,
+      "step": 2835
+    },
+    {
+      "epoch": 0.4632952691680261,
+      "grad_norm": 0.0827520340681076,
+      "learning_rate": 0.00023156606851549755,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 6125952,
+      "step": 2840
+    },
+    {
+      "epoch": 0.4641109298531811,
+      "grad_norm": 0.08483751118183136,
+      "learning_rate": 0.00023197389885807503,
+      "loss": 0.2323,
+      "num_input_tokens_seen": 6137056,
+      "step": 2845
+    },
+    {
+      "epoch": 0.46492659053833607,
+      "grad_norm": 1.0944316387176514,
+      "learning_rate": 0.00023238172920065253,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 6147840,
+      "step": 2850
+    },
+    {
+      "epoch": 0.46574225122349105,
+      "grad_norm": 0.10864396393299103,
+      "learning_rate": 0.00023278955954323004,
+      "loss": 0.222,
+      "num_input_tokens_seen": 6159808,
+      "step": 2855
+    },
+    {
+      "epoch": 0.466557911908646,
+      "grad_norm": 0.804469108581543,
+      "learning_rate": 0.00023319738988580751,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 6171520,
+      "step": 2860
+    },
+    {
+      "epoch": 0.46737357259380097,
+      "grad_norm": 0.7416703701019287,
+      "learning_rate": 0.000233605220228385,
+      "loss": 0.1842,
+      "num_input_tokens_seen": 6182656,
+      "step": 2865
+    },
+    {
+      "epoch": 0.46818923327895595,
+      "grad_norm": 0.2062879502773285,
+      "learning_rate": 0.00023401305057096247,
+      "loss": 0.2398,
+      "num_input_tokens_seen": 6193696,
+      "step": 2870
+    },
+    {
+      "epoch": 0.46900489396411094,
+      "grad_norm": 0.3211911618709564,
+      "learning_rate": 0.00023442088091353997,
+      "loss": 0.1797,
+      "num_input_tokens_seen": 6204192,
+      "step": 2875
+    },
+    {
+      "epoch": 0.4698205546492659,
+      "grad_norm": 0.5380843877792358,
+      "learning_rate": 0.00023482871125611747,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 6215136,
+      "step": 2880
+    },
+    {
+      "epoch": 0.4706362153344209,
+      "grad_norm": 0.6130079627037048,
+      "learning_rate": 0.00023523654159869495,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 6225952,
+      "step": 2885
+    },
+    {
+      "epoch": 0.47145187601957583,
+      "grad_norm": 1.6829217672348022,
+      "learning_rate": 0.00023564437194127245,
+      "loss": 0.2225,
+      "num_input_tokens_seen": 6237152,
+      "step": 2890
+    },
+    {
+      "epoch": 0.4722675367047308,
+      "grad_norm": 0.5651580691337585,
+      "learning_rate": 0.00023605220228384993,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 6248416,
+      "step": 2895
+    },
+    {
+      "epoch": 0.4730831973898858,
+      "grad_norm": 1.282302737236023,
+      "learning_rate": 0.0002364600326264274,
+      "loss": 0.1621,
+      "num_input_tokens_seen": 6259840,
+      "step": 2900
+    },
+    {
+      "epoch": 0.4738988580750408,
+      "grad_norm": 0.22257353365421295,
+      "learning_rate": 0.00023686786296900488,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 6271104,
+      "step": 2905
+    },
+    {
+      "epoch": 0.47471451876019577,
+      "grad_norm": 0.780252993106842,
+      "learning_rate": 0.0002372756933115824,
+      "loss": 0.1725,
+      "num_input_tokens_seen": 6281696,
+      "step": 2910
+    },
+    {
+      "epoch": 0.47553017944535075,
+      "grad_norm": 1.1723055839538574,
+      "learning_rate": 0.0002376835236541599,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 6293760,
+      "step": 2915
+    },
+    {
+      "epoch": 0.4763458401305057,
+      "grad_norm": 0.23256178200244904,
+      "learning_rate": 0.00023809135399673737,
+      "loss": 0.091,
+      "num_input_tokens_seen": 6305376,
+      "step": 2920
+    },
+    {
+      "epoch": 0.47716150081566067,
+      "grad_norm": 0.22261440753936768,
+      "learning_rate": 0.00023849918433931487,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 6316032,
+      "step": 2925
+    },
+    {
+      "epoch": 0.47797716150081565,
+      "grad_norm": 1.2297919988632202,
+      "learning_rate": 0.00023890701468189232,
+      "loss": 0.2899,
+      "num_input_tokens_seen": 6327552,
+      "step": 2930
+    },
+    {
+      "epoch": 0.47879282218597063,
+      "grad_norm": 0.4029012620449066,
+      "learning_rate": 0.00023931484502446982,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 6337344,
+      "step": 2935
+    },
+    {
+      "epoch": 0.4796084828711256,
+      "grad_norm": 0.3078548312187195,
+      "learning_rate": 0.0002397226753670473,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 6349120,
+      "step": 2940
+    },
+    {
+      "epoch": 0.4804241435562806,
+      "grad_norm": 0.18580852448940277,
+      "learning_rate": 0.0002401305057096248,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 6359584,
+      "step": 2945
+    },
+    {
+      "epoch": 0.4812398042414356,
+      "grad_norm": 0.7232683897018433,
+      "learning_rate": 0.0002405383360522023,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 6370112,
+      "step": 2950
+    },
+    {
+      "epoch": 0.4820554649265905,
+      "grad_norm": 0.07306995987892151,
+      "learning_rate": 0.00024094616639477978,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 6381248,
+      "step": 2955
+    },
+    {
+      "epoch": 0.4828711256117455,
+      "grad_norm": 1.1193236112594604,
+      "learning_rate": 0.00024135399673735726,
+      "loss": 0.1825,
+      "num_input_tokens_seen": 6392224,
+      "step": 2960
+    },
+    {
+      "epoch": 0.4836867862969005,
+      "grad_norm": 0.22385838627815247,
+      "learning_rate": 0.00024176182707993474,
+      "loss": 0.2347,
+      "num_input_tokens_seen": 6401888,
+      "step": 2965
+    },
+    {
+      "epoch": 0.48450244698205547,
+      "grad_norm": 0.5825753808021545,
+      "learning_rate": 0.00024216965742251224,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 6412352,
+      "step": 2970
+    },
+    {
+      "epoch": 0.48531810766721045,
+      "grad_norm": 1.0909613370895386,
+      "learning_rate": 0.00024257748776508972,
+      "loss": 0.115,
+      "num_input_tokens_seen": 6422880,
+      "step": 2975
+    },
+    {
+      "epoch": 0.48613376835236544,
+      "grad_norm": 0.23585692048072815,
+      "learning_rate": 0.00024298531810766722,
+      "loss": 0.1675,
+      "num_input_tokens_seen": 6433696,
+      "step": 2980
+    },
+    {
+      "epoch": 0.48694942903752036,
+      "grad_norm": 0.722490131855011,
+      "learning_rate": 0.00024339314845024472,
+      "loss": 0.2255,
+      "num_input_tokens_seen": 6444576,
+      "step": 2985
+    },
+    {
+      "epoch": 0.48776508972267535,
+      "grad_norm": 0.2733224630355835,
+      "learning_rate": 0.0002438009787928222,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 6455616,
+      "step": 2990
+    },
+    {
+      "epoch": 0.48858075040783033,
+      "grad_norm": 0.12696190178394318,
+      "learning_rate": 0.0002442088091353997,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 6465632,
+      "step": 2995
+    },
+    {
+      "epoch": 0.4893964110929853,
+      "grad_norm": 1.2236684560775757,
+      "learning_rate": 0.00024461663947797715,
+      "loss": 0.1988,
+      "num_input_tokens_seen": 6476320,
+      "step": 3000
+    },
+    {
+      "epoch": 0.4902120717781403,
+      "grad_norm": 0.11306619644165039,
+      "learning_rate": 0.00024502446982055463,
+      "loss": 0.1749,
+      "num_input_tokens_seen": 6486560,
+      "step": 3005
+    },
+    {
+      "epoch": 0.4910277324632953,
+      "grad_norm": 0.06194991618394852,
+      "learning_rate": 0.00024543230016313216,
+      "loss": 0.06,
+      "num_input_tokens_seen": 6496448,
+      "step": 3010
+    },
+    {
+      "epoch": 0.49184339314845027,
+      "grad_norm": 0.1334661990404129,
+      "learning_rate": 0.00024584013050570964,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 6506624,
+      "step": 3015
+    },
+    {
+      "epoch": 0.4926590538336052,
+      "grad_norm": 0.09926887601613998,
+      "learning_rate": 0.0002462479608482871,
+      "loss": 0.1661,
+      "num_input_tokens_seen": 6516960,
+      "step": 3020
+    },
+    {
+      "epoch": 0.4934747145187602,
+      "grad_norm": 1.0292459726333618,
+      "learning_rate": 0.0002466557911908646,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 6528896,
+      "step": 3025
+    },
+    {
+      "epoch": 0.49429037520391517,
+      "grad_norm": 0.5590057969093323,
+      "learning_rate": 0.00024706362153344207,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 6540576,
+      "step": 3030
+    },
+    {
+      "epoch": 0.49510603588907015,
+      "grad_norm": 0.3860446512699127,
+      "learning_rate": 0.0002474714518760196,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 6551424,
+      "step": 3035
+    },
+    {
+      "epoch": 0.49592169657422513,
+      "grad_norm": 0.12069137394428253,
+      "learning_rate": 0.0002478792822185971,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 6562176,
+      "step": 3040
+    },
+    {
+      "epoch": 0.4967373572593801,
+      "grad_norm": 0.0766163021326065,
+      "learning_rate": 0.00024828711256117455,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 6572384,
+      "step": 3045
+    },
+    {
+      "epoch": 0.49755301794453505,
+      "grad_norm": 0.1165001317858696,
+      "learning_rate": 0.000248694942903752,
+      "loss": 0.2203,
+      "num_input_tokens_seen": 6583424,
+      "step": 3050
+    },
+    {
+      "epoch": 0.49836867862969003,
+      "grad_norm": 0.015077603980898857,
+      "learning_rate": 0.00024910277324632956,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 6594144,
+      "step": 3055
+    },
+    {
+      "epoch": 0.499184339314845,
+      "grad_norm": 0.4812507629394531,
+      "learning_rate": 0.00024951060358890703,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 6605760,
+      "step": 3060
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.2543140649795532,
+      "learning_rate": 0.0002499184339314845,
+      "loss": 0.1945,
+      "num_input_tokens_seen": 6616832,
+      "step": 3065
+    },
+    {
+      "epoch": 0.5008156606851549,
+      "grad_norm": 0.787386417388916,
+      "learning_rate": 0.00025032626427406204,
+      "loss": 0.159,
+      "num_input_tokens_seen": 6628384,
+      "step": 3070
+    },
+    {
+      "epoch": 0.50163132137031,
+      "grad_norm": 0.19998139142990112,
+      "learning_rate": 0.00025073409461663946,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 6639456,
+      "step": 3075
+    },
+    {
+      "epoch": 0.5024469820554649,
+      "grad_norm": 0.042470287531614304,
+      "learning_rate": 0.00025114192495921694,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 6651520,
+      "step": 3080
+    },
+    {
+      "epoch": 0.5032626427406199,
+      "grad_norm": 0.04640533775091171,
+      "learning_rate": 0.00025154975530179447,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 6661664,
+      "step": 3085
+    },
+    {
+      "epoch": 0.5040783034257749,
+      "grad_norm": 1.1446317434310913,
+      "learning_rate": 0.00025195758564437195,
+      "loss": 0.2796,
+      "num_input_tokens_seen": 6673024,
+      "step": 3090
+    },
+    {
+      "epoch": 0.5048939641109299,
+      "grad_norm": 0.34324145317077637,
+      "learning_rate": 0.0002523654159869495,
+      "loss": 0.1932,
+      "num_input_tokens_seen": 6685216,
+      "step": 3095
+    },
+    {
+      "epoch": 0.5057096247960848,
+      "grad_norm": 1.195542812347412,
+      "learning_rate": 0.0002527732463295269,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 6696096,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5065252854812398,
+      "grad_norm": 0.16621847450733185,
+      "learning_rate": 0.0002531810766721044,
+      "loss": 0.2937,
+      "num_input_tokens_seen": 6706656,
+      "step": 3105
+    },
+    {
+      "epoch": 0.5073409461663948,
+      "grad_norm": 0.3265911042690277,
+      "learning_rate": 0.0002535889070146819,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 6716704,
+      "step": 3110
+    },
+    {
+      "epoch": 0.5081566068515497,
+      "grad_norm": 0.47061917185783386,
+      "learning_rate": 0.0002539967373572594,
+      "loss": 0.1496,
+      "num_input_tokens_seen": 6728352,
+      "step": 3115
+    },
+    {
+      "epoch": 0.5089722675367048,
+      "grad_norm": 0.8664241433143616,
+      "learning_rate": 0.00025440456769983686,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 6739296,
+      "step": 3120
+    },
+    {
+      "epoch": 0.5097879282218597,
+      "grad_norm": 0.4536451995372772,
+      "learning_rate": 0.00025481239804241434,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 6750176,
+      "step": 3125
+    },
+    {
+      "epoch": 0.5106035889070146,
+      "grad_norm": 0.8622775673866272,
+      "learning_rate": 0.00025522022838499187,
+      "loss": 0.1824,
+      "num_input_tokens_seen": 6760288,
+      "step": 3130
+    },
+    {
+      "epoch": 0.5114192495921697,
+      "grad_norm": 0.4697278141975403,
+      "learning_rate": 0.00025562805872756934,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 6769792,
+      "step": 3135
+    },
+    {
+      "epoch": 0.5122349102773246,
+      "grad_norm": 0.8493194580078125,
+      "learning_rate": 0.0002560358890701468,
+      "loss": 0.169,
+      "num_input_tokens_seen": 6779712,
+      "step": 3140
+    },
+    {
+      "epoch": 0.5130505709624796,
+      "grad_norm": 0.7845749258995056,
+      "learning_rate": 0.0002564437194127243,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 6791232,
+      "step": 3145
+    },
+    {
+      "epoch": 0.5138662316476346,
+      "grad_norm": 0.11098422855138779,
+      "learning_rate": 0.00025685154975530177,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 6801696,
+      "step": 3150
+    },
+    {
+      "epoch": 0.5146818923327896,
+      "grad_norm": 0.016223762184381485,
+      "learning_rate": 0.0002572593800978793,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 6812672,
+      "step": 3155
+    },
+    {
+      "epoch": 0.5154975530179445,
+      "grad_norm": 1.0923768281936646,
+      "learning_rate": 0.0002576672104404568,
+      "loss": 0.2778,
+      "num_input_tokens_seen": 6822976,
+      "step": 3160
+    },
+    {
+      "epoch": 0.5163132137030995,
+      "grad_norm": 0.14902295172214508,
+      "learning_rate": 0.0002580750407830343,
+      "loss": 0.179,
+      "num_input_tokens_seen": 6833888,
+      "step": 3165
+    },
+    {
+      "epoch": 0.5171288743882545,
+      "grad_norm": 0.7654731869697571,
+      "learning_rate": 0.00025848287112561173,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 6845632,
+      "step": 3170
+    },
+    {
+      "epoch": 0.5179445350734094,
+      "grad_norm": 0.13922156393527985,
+      "learning_rate": 0.0002588907014681892,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 6856128,
+      "step": 3175
+    },
+    {
+      "epoch": 0.5187601957585645,
+      "grad_norm": 0.2902519404888153,
+      "learning_rate": 0.00025929853181076674,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 6867840,
+      "step": 3180
+    },
+    {
+      "epoch": 0.5195758564437194,
+      "grad_norm": 0.7630822658538818,
+      "learning_rate": 0.0002597063621533442,
+      "loss": 0.1326,
+      "num_input_tokens_seen": 6878112,
+      "step": 3185
+    },
+    {
+      "epoch": 0.5203915171288744,
+      "grad_norm": 0.21264766156673431,
+      "learning_rate": 0.00026011419249592175,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 6889312,
+      "step": 3190
+    },
+    {
+      "epoch": 0.5212071778140294,
+      "grad_norm": 0.3382579982280731,
+      "learning_rate": 0.00026052202283849917,
+      "loss": 0.2752,
+      "num_input_tokens_seen": 6899968,
+      "step": 3195
+    },
+    {
+      "epoch": 0.5220228384991843,
+      "grad_norm": 0.5595989227294922,
+      "learning_rate": 0.0002609298531810767,
+      "loss": 0.106,
+      "num_input_tokens_seen": 6909568,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5228384991843393,
+      "grad_norm": 0.2680160403251648,
+      "learning_rate": 0.0002613376835236542,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 6920928,
+      "step": 3205
+    },
+    {
+      "epoch": 0.5236541598694943,
+      "grad_norm": 0.43840864300727844,
+      "learning_rate": 0.00026174551386623165,
+      "loss": 0.059,
+      "num_input_tokens_seen": 6930144,
+      "step": 3210
+    },
+    {
+      "epoch": 0.5244698205546493,
+      "grad_norm": 0.0211274903267622,
+      "learning_rate": 0.00026215334420880913,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 6940320,
+      "step": 3215
+    },
+    {
+      "epoch": 0.5252854812398042,
+      "grad_norm": 0.3852957487106323,
+      "learning_rate": 0.0002625611745513866,
+      "loss": 0.2524,
+      "num_input_tokens_seen": 6950656,
+      "step": 3220
+    },
+    {
+      "epoch": 0.5261011419249593,
+      "grad_norm": 0.7833412885665894,
+      "learning_rate": 0.00026296900489396414,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 6961216,
+      "step": 3225
+    },
+    {
+      "epoch": 0.5269168026101142,
+      "grad_norm": 0.1404338926076889,
+      "learning_rate": 0.0002633768352365416,
+      "loss": 0.1797,
+      "num_input_tokens_seen": 6971808,
+      "step": 3230
+    },
+    {
+      "epoch": 0.5277324632952691,
+      "grad_norm": 0.2573801577091217,
+      "learning_rate": 0.0002637846655791191,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 6984000,
+      "step": 3235
+    },
+    {
+      "epoch": 0.5285481239804242,
+      "grad_norm": 0.347644180059433,
+      "learning_rate": 0.00026419249592169657,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 6994112,
+      "step": 3240
+    },
+    {
+      "epoch": 0.5293637846655791,
+      "grad_norm": 0.2416415959596634,
+      "learning_rate": 0.00026460032626427404,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 7005184,
+      "step": 3245
+    },
+    {
+      "epoch": 0.5301794453507341,
+      "grad_norm": 0.15647706389427185,
+      "learning_rate": 0.00026500815660685157,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 7015968,
+      "step": 3250
+    },
+    {
+      "epoch": 0.5309951060358891,
+      "grad_norm": 0.6454426646232605,
+      "learning_rate": 0.00026541598694942905,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 7027584,
+      "step": 3255
+    },
+    {
+      "epoch": 0.531810766721044,
+      "grad_norm": 0.3946031630039215,
+      "learning_rate": 0.0002658238172920066,
+      "loss": 0.1434,
+      "num_input_tokens_seen": 7039424,
+      "step": 3260
+    },
+    {
+      "epoch": 0.532626427406199,
+      "grad_norm": 0.1988263875246048,
+      "learning_rate": 0.000266231647634584,
+      "loss": 0.2385,
+      "num_input_tokens_seen": 7049824,
+      "step": 3265
+    },
+    {
+      "epoch": 0.533442088091354,
+      "grad_norm": 0.3768634498119354,
+      "learning_rate": 0.0002666394779771615,
+      "loss": 0.2721,
+      "num_input_tokens_seen": 7061472,
+      "step": 3270
+    },
+    {
+      "epoch": 0.534257748776509,
+      "grad_norm": 0.9409236311912537,
+      "learning_rate": 0.000267047308319739,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 7073152,
+      "step": 3275
+    },
+    {
+      "epoch": 0.5350734094616639,
+      "grad_norm": 0.7082731127738953,
+      "learning_rate": 0.0002674551386623165,
+      "loss": 0.192,
+      "num_input_tokens_seen": 7084640,
+      "step": 3280
+    },
+    {
+      "epoch": 0.535889070146819,
+      "grad_norm": 0.22120733559131622,
+      "learning_rate": 0.00026786296900489396,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 7093088,
+      "step": 3285
+    },
+    {
+      "epoch": 0.5367047308319739,
+      "grad_norm": 0.10793591290712357,
+      "learning_rate": 0.00026827079934747144,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 7103072,
+      "step": 3290
+    },
+    {
+      "epoch": 0.5375203915171288,
+      "grad_norm": 0.1707492172718048,
+      "learning_rate": 0.00026867862969004897,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 7113792,
+      "step": 3295
+    },
+    {
+      "epoch": 0.5383360522022839,
+      "grad_norm": 0.06590881943702698,
+      "learning_rate": 0.00026908646003262645,
+      "loss": 0.109,
+      "num_input_tokens_seen": 7124800,
+      "step": 3300
+    },
+    {
+      "epoch": 0.5391517128874388,
+      "grad_norm": 0.35956960916519165,
+      "learning_rate": 0.0002694942903752039,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 7137280,
+      "step": 3305
+    },
+    {
+      "epoch": 0.5399673735725938,
+      "grad_norm": 0.5606528520584106,
+      "learning_rate": 0.0002699021207177814,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 7147264,
+      "step": 3310
+    },
+    {
+      "epoch": 0.5407830342577488,
+      "grad_norm": 0.4383194148540497,
+      "learning_rate": 0.0002703099510603589,
+      "loss": 0.1905,
+      "num_input_tokens_seen": 7157408,
+      "step": 3315
+    },
+    {
+      "epoch": 0.5415986949429038,
+      "grad_norm": 0.6812806129455566,
+      "learning_rate": 0.0002707177814029364,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 7168224,
+      "step": 3320
+    },
+    {
+      "epoch": 0.5424143556280587,
+      "grad_norm": 1.3847594261169434,
+      "learning_rate": 0.0002711256117455139,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 7179680,
+      "step": 3325
+    },
+    {
+      "epoch": 0.5432300163132137,
+      "grad_norm": 0.5613686442375183,
+      "learning_rate": 0.0002715334420880914,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 7190944,
+      "step": 3330
+    },
+    {
+      "epoch": 0.5440456769983687,
+      "grad_norm": 0.03551279008388519,
+      "learning_rate": 0.00027194127243066883,
+      "loss": 0.2025,
+      "num_input_tokens_seen": 7200928,
+      "step": 3335
+    },
+    {
+      "epoch": 0.5448613376835236,
+      "grad_norm": 0.08977734297513962,
+      "learning_rate": 0.0002723491027732463,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 7210400,
+      "step": 3340
+    },
+    {
+      "epoch": 0.5456769983686787,
+      "grad_norm": 0.0749269425868988,
+      "learning_rate": 0.00027275693311582384,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 7221696,
+      "step": 3345
+    },
+    {
+      "epoch": 0.5464926590538336,
+      "grad_norm": 1.869079828262329,
+      "learning_rate": 0.0002731647634584013,
+      "loss": 0.3457,
+      "num_input_tokens_seen": 7232288,
+      "step": 3350
+    },
+    {
+      "epoch": 0.5473083197389886,
+      "grad_norm": 0.035522375255823135,
+      "learning_rate": 0.0002735725938009788,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 7243808,
+      "step": 3355
+    },
+    {
+      "epoch": 0.5481239804241436,
+      "grad_norm": 0.18078352510929108,
+      "learning_rate": 0.00027398042414355627,
+      "loss": 0.1636,
+      "num_input_tokens_seen": 7254880,
+      "step": 3360
+    },
+    {
+      "epoch": 0.5489396411092985,
+      "grad_norm": 0.5510651469230652,
+      "learning_rate": 0.00027438825448613375,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 7265664,
+      "step": 3365
+    },
+    {
+      "epoch": 0.5497553017944535,
+      "grad_norm": 0.2560504972934723,
+      "learning_rate": 0.0002747960848287113,
+      "loss": 0.2246,
+      "num_input_tokens_seen": 7275424,
+      "step": 3370
+    },
+    {
+      "epoch": 0.5505709624796085,
+      "grad_norm": 0.26291438937187195,
+      "learning_rate": 0.00027520391517128875,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 7286496,
+      "step": 3375
+    },
+    {
+      "epoch": 0.5513866231647635,
+      "grad_norm": 0.4947168529033661,
+      "learning_rate": 0.00027561174551386623,
+      "loss": 0.2398,
+      "num_input_tokens_seen": 7297152,
+      "step": 3380
+    },
+    {
+      "epoch": 0.5522022838499184,
+      "grad_norm": 0.21689368784427643,
+      "learning_rate": 0.0002760195758564437,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 7306816,
+      "step": 3385
+    },
+    {
+      "epoch": 0.5530179445350734,
+      "grad_norm": 0.08921483159065247,
+      "learning_rate": 0.00027642740619902124,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 7317888,
+      "step": 3390
+    },
+    {
+      "epoch": 0.5538336052202284,
+      "grad_norm": 0.8110567927360535,
+      "learning_rate": 0.0002768352365415987,
+      "loss": 0.151,
+      "num_input_tokens_seen": 7329056,
+      "step": 3395
+    },
+    {
+      "epoch": 0.5546492659053833,
+      "grad_norm": 0.1971195936203003,
+      "learning_rate": 0.0002772430668841762,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 7340192,
+      "step": 3400
+    },
+    {
+      "epoch": 0.5554649265905384,
+      "grad_norm": 0.5013919472694397,
+      "learning_rate": 0.00027765089722675367,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 7351584,
+      "step": 3405
+    },
+    {
+      "epoch": 0.5562805872756933,
+      "grad_norm": 0.2764725387096405,
+      "learning_rate": 0.00027805872756933114,
+      "loss": 0.2417,
+      "num_input_tokens_seen": 7361632,
+      "step": 3410
+    },
+    {
+      "epoch": 0.5570962479608483,
+      "grad_norm": 0.15180736780166626,
+      "learning_rate": 0.0002784665579119087,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 7371616,
+      "step": 3415
+    },
+    {
+      "epoch": 0.5579119086460033,
+      "grad_norm": 0.03513738512992859,
+      "learning_rate": 0.00027887438825448615,
+      "loss": 0.1879,
+      "num_input_tokens_seen": 7383488,
+      "step": 3420
+    },
+    {
+      "epoch": 0.5587275693311582,
+      "grad_norm": 0.05455316975712776,
+      "learning_rate": 0.00027928221859706363,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 7394720,
+      "step": 3425
+    },
+    {
+      "epoch": 0.5595432300163132,
+      "grad_norm": 0.369393527507782,
+      "learning_rate": 0.0002796900489396411,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 7405312,
+      "step": 3430
+    },
+    {
+      "epoch": 0.5603588907014682,
+      "grad_norm": 0.5221443176269531,
+      "learning_rate": 0.0002800978792822186,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 7415040,
+      "step": 3435
+    },
+    {
+      "epoch": 0.5611745513866232,
+      "grad_norm": 0.04115762189030647,
+      "learning_rate": 0.0002805057096247961,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 7426144,
+      "step": 3440
+    },
+    {
+      "epoch": 0.5619902120717781,
+      "grad_norm": 0.5287455320358276,
+      "learning_rate": 0.0002809135399673736,
+      "loss": 0.1836,
+      "num_input_tokens_seen": 7437024,
+      "step": 3445
+    },
+    {
+      "epoch": 0.5628058727569332,
+      "grad_norm": 0.0422709584236145,
+      "learning_rate": 0.00028132137030995106,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 7447552,
+      "step": 3450
+    },
+    {
+      "epoch": 0.5636215334420881,
+      "grad_norm": 1.0483263731002808,
+      "learning_rate": 0.00028172920065252854,
+      "loss": 0.2494,
+      "num_input_tokens_seen": 7459040,
+      "step": 3455
+    },
+    {
+      "epoch": 0.564437194127243,
+      "grad_norm": 0.06323757022619247,
+      "learning_rate": 0.000282137030995106,
+      "loss": 0.3266,
+      "num_input_tokens_seen": 7469248,
+      "step": 3460
+    },
+    {
+      "epoch": 0.5652528548123981,
+      "grad_norm": 0.149562269449234,
+      "learning_rate": 0.00028254486133768355,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 7480832,
+      "step": 3465
+    },
+    {
+      "epoch": 0.566068515497553,
+      "grad_norm": 0.4498364329338074,
+      "learning_rate": 0.000282952691680261,
+      "loss": 0.1335,
+      "num_input_tokens_seen": 7490016,
+      "step": 3470
+    },
+    {
+      "epoch": 0.566884176182708,
+      "grad_norm": 0.18582139909267426,
+      "learning_rate": 0.0002833605220228385,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 7501184,
+      "step": 3475
+    },
+    {
+      "epoch": 0.567699836867863,
+      "grad_norm": 0.42618072032928467,
+      "learning_rate": 0.000283768352365416,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 7511648,
+      "step": 3480
+    },
+    {
+      "epoch": 0.5685154975530179,
+      "grad_norm": 0.24001431465148926,
+      "learning_rate": 0.0002841761827079935,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 7523104,
+      "step": 3485
+    },
+    {
+      "epoch": 0.5693311582381729,
+      "grad_norm": 0.15262551605701447,
+      "learning_rate": 0.000284584013050571,
+      "loss": 0.2082,
+      "num_input_tokens_seen": 7534496,
+      "step": 3490
+    },
+    {
+      "epoch": 0.5701468189233279,
+      "grad_norm": 1.1047290563583374,
+      "learning_rate": 0.0002849918433931484,
+      "loss": 0.2414,
+      "num_input_tokens_seen": 7545568,
+      "step": 3495
+    },
+    {
+      "epoch": 0.5709624796084829,
+      "grad_norm": 0.1071564257144928,
+      "learning_rate": 0.00028539967373572594,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 7555808,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5717781402936378,
+      "grad_norm": 0.6726254224777222,
+      "learning_rate": 0.0002858075040783034,
+      "loss": 0.1989,
+      "num_input_tokens_seen": 7567296,
+      "step": 3505
+    },
+    {
+      "epoch": 0.5725938009787929,
+      "grad_norm": 0.18670007586479187,
+      "learning_rate": 0.00028621533442088094,
+      "loss": 0.1782,
+      "num_input_tokens_seen": 7577824,
+      "step": 3510
+    },
+    {
+      "epoch": 0.5734094616639478,
+      "grad_norm": 0.7367821931838989,
+      "learning_rate": 0.0002866231647634584,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 7588448,
+      "step": 3515
+    },
+    {
+      "epoch": 0.5742251223491027,
+      "grad_norm": 0.11420662701129913,
+      "learning_rate": 0.0002870309951060359,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 7599264,
+      "step": 3520
+    },
+    {
+      "epoch": 0.5750407830342578,
+      "grad_norm": 1.1549158096313477,
+      "learning_rate": 0.0002874388254486134,
+      "loss": 0.2732,
+      "num_input_tokens_seen": 7611264,
+      "step": 3525
+    },
+    {
+      "epoch": 0.5758564437194127,
+      "grad_norm": 1.2724305391311646,
+      "learning_rate": 0.00028784665579119085,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 7621312,
+      "step": 3530
+    },
+    {
+      "epoch": 0.5766721044045677,
+      "grad_norm": 0.13163702189922333,
+      "learning_rate": 0.0002882544861337684,
+      "loss": 0.2843,
+      "num_input_tokens_seen": 7632736,
+      "step": 3535
+    },
+    {
+      "epoch": 0.5774877650897227,
+      "grad_norm": 0.22550056874752045,
+      "learning_rate": 0.00028866231647634586,
+      "loss": 0.2393,
+      "num_input_tokens_seen": 7643296,
+      "step": 3540
+    },
+    {
+      "epoch": 0.5783034257748777,
+      "grad_norm": 0.5635867714881897,
+      "learning_rate": 0.00028907014681892333,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 7653888,
+      "step": 3545
+    },
+    {
+      "epoch": 0.5791190864600326,
+      "grad_norm": 0.1705874353647232,
+      "learning_rate": 0.0002894779771615008,
+      "loss": 0.089,
+      "num_input_tokens_seen": 7664448,
+      "step": 3550
+    },
+    {
+      "epoch": 0.5799347471451876,
+      "grad_norm": 0.32659459114074707,
+      "learning_rate": 0.00028988580750407834,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 7674176,
+      "step": 3555
+    },
+    {
+      "epoch": 0.5807504078303426,
+      "grad_norm": 0.4205467998981476,
+      "learning_rate": 0.0002902936378466558,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 7685184,
+      "step": 3560
+    },
+    {
+      "epoch": 0.5815660685154975,
+      "grad_norm": 1.7951291799545288,
+      "learning_rate": 0.00029070146818923324,
+      "loss": 0.2567,
+      "num_input_tokens_seen": 7696064,
+      "step": 3565
+    },
+    {
+      "epoch": 0.5823817292006526,
+      "grad_norm": 0.15837207436561584,
+      "learning_rate": 0.00029110929853181077,
+      "loss": 0.2791,
+      "num_input_tokens_seen": 7707328,
+      "step": 3570
+    },
+    {
+      "epoch": 0.5831973898858075,
+      "grad_norm": 0.20898975431919098,
+      "learning_rate": 0.00029151712887438825,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 7718368,
+      "step": 3575
+    },
+    {
+      "epoch": 0.5840130505709625,
+      "grad_norm": 1.0188244581222534,
+      "learning_rate": 0.0002919249592169658,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 7729888,
+      "step": 3580
+    },
+    {
+      "epoch": 0.5848287112561175,
+      "grad_norm": 1.0055124759674072,
+      "learning_rate": 0.00029233278955954325,
+      "loss": 0.2485,
+      "num_input_tokens_seen": 7739424,
+      "step": 3585
+    },
+    {
+      "epoch": 0.5856443719412724,
+      "grad_norm": 1.2235937118530273,
+      "learning_rate": 0.0002927406199021207,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 7748832,
+      "step": 3590
+    },
+    {
+      "epoch": 0.5864600326264274,
+      "grad_norm": 0.947248637676239,
+      "learning_rate": 0.0002931484502446982,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 7760128,
+      "step": 3595
+    },
+    {
+      "epoch": 0.5872756933115824,
+      "grad_norm": 0.5701817870140076,
+      "learning_rate": 0.0002935562805872757,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 7770688,
+      "step": 3600
+    },
+    {
+      "epoch": 0.5880913539967374,
+      "grad_norm": 0.41673779487609863,
+      "learning_rate": 0.0002939641109298532,
+      "loss": 0.1512,
+      "num_input_tokens_seen": 7782304,
+      "step": 3605
+    },
+    {
+      "epoch": 0.5889070146818923,
+      "grad_norm": 0.6106691360473633,
+      "learning_rate": 0.0002943719412724307,
+      "loss": 0.1987,
+      "num_input_tokens_seen": 7793184,
+      "step": 3610
+    },
+    {
+      "epoch": 0.5897226753670473,
+      "grad_norm": 0.19900889694690704,
+      "learning_rate": 0.00029477977161500817,
+      "loss": 0.1869,
+      "num_input_tokens_seen": 7803648,
+      "step": 3615
+    },
+    {
+      "epoch": 0.5905383360522023,
+      "grad_norm": 0.19333691895008087,
+      "learning_rate": 0.00029518760195758564,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 7814272,
+      "step": 3620
+    },
+    {
+      "epoch": 0.5913539967373572,
+      "grad_norm": 0.2754856050014496,
+      "learning_rate": 0.0002955954323001631,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 7825120,
+      "step": 3625
+    },
+    {
+      "epoch": 0.5921696574225123,
+      "grad_norm": 0.9911066889762878,
+      "learning_rate": 0.00029600326264274065,
+      "loss": 0.135,
+      "num_input_tokens_seen": 7837440,
+      "step": 3630
+    },
+    {
+      "epoch": 0.5929853181076672,
+      "grad_norm": 0.45625540614128113,
+      "learning_rate": 0.00029641109298531807,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 7848064,
+      "step": 3635
+    },
+    {
+      "epoch": 0.5938009787928222,
+      "grad_norm": 0.22430795431137085,
+      "learning_rate": 0.0002968189233278956,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 7858816,
+      "step": 3640
+    },
+    {
+      "epoch": 0.5946166394779772,
+      "grad_norm": 1.5107712745666504,
+      "learning_rate": 0.0002972267536704731,
+      "loss": 0.2535,
+      "num_input_tokens_seen": 7869504,
+      "step": 3645
+    },
+    {
+      "epoch": 0.5954323001631321,
+      "grad_norm": 0.162008136510849,
+      "learning_rate": 0.0002976345840130506,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 7879712,
+      "step": 3650
+    },
+    {
+      "epoch": 0.5962479608482871,
+      "grad_norm": 0.5064948201179504,
+      "learning_rate": 0.0002980424143556281,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 7890368,
+      "step": 3655
+    },
+    {
+      "epoch": 0.5970636215334421,
+      "grad_norm": 0.48915374279022217,
+      "learning_rate": 0.0002984502446982055,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 7900704,
+      "step": 3660
+    },
+    {
+      "epoch": 0.5978792822185971,
+      "grad_norm": 1.123414158821106,
+      "learning_rate": 0.00029885807504078304,
+      "loss": 0.2029,
+      "num_input_tokens_seen": 7911776,
+      "step": 3665
+    },
+    {
+      "epoch": 0.598694942903752,
+      "grad_norm": 0.43261805176734924,
+      "learning_rate": 0.0002992659053833605,
+      "loss": 0.2295,
+      "num_input_tokens_seen": 7921984,
+      "step": 3670
+    },
+    {
+      "epoch": 0.5995106035889071,
+      "grad_norm": 0.5339052677154541,
+      "learning_rate": 0.00029967373572593805,
+      "loss": 0.2408,
+      "num_input_tokens_seen": 7934080,
+      "step": 3675
+    },
+    {
+      "epoch": 0.600326264274062,
+      "grad_norm": 0.15146224200725555,
+      "learning_rate": 0.0003000815660685155,
+      "loss": 0.1547,
+      "num_input_tokens_seen": 7944736,
+      "step": 3680
+    },
+    {
+      "epoch": 0.6011419249592169,
+      "grad_norm": 0.11091198772192001,
+      "learning_rate": 0.000300489396411093,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 7956256,
+      "step": 3685
+    },
+    {
+      "epoch": 0.601957585644372,
+      "grad_norm": 0.07787430286407471,
+      "learning_rate": 0.0003008972267536705,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 7967808,
+      "step": 3690
+    },
+    {
+      "epoch": 0.6027732463295269,
+      "grad_norm": 0.16613641381263733,
+      "learning_rate": 0.00030130505709624795,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 7979648,
+      "step": 3695
+    },
+    {
+      "epoch": 0.6035889070146819,
+      "grad_norm": 0.32812386751174927,
+      "learning_rate": 0.0003017128874388255,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 7990944,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6044045676998369,
+      "grad_norm": 0.3859018385410309,
+      "learning_rate": 0.0003021207177814029,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 8001568,
+      "step": 3705
+    },
+    {
+      "epoch": 0.6052202283849919,
+      "grad_norm": 0.14347811043262482,
+      "learning_rate": 0.00030252854812398044,
+      "loss": 0.2942,
+      "num_input_tokens_seen": 8013376,
+      "step": 3710
+    },
+    {
+      "epoch": 0.6060358890701468,
+      "grad_norm": 0.922331690788269,
+      "learning_rate": 0.0003029363784665579,
+      "loss": 0.2152,
+      "num_input_tokens_seen": 8024512,
+      "step": 3715
+    },
+    {
+      "epoch": 0.6068515497553018,
+      "grad_norm": 0.7256356477737427,
+      "learning_rate": 0.0003033442088091354,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 8035520,
+      "step": 3720
+    },
+    {
+      "epoch": 0.6076672104404568,
+      "grad_norm": 0.32077616453170776,
+      "learning_rate": 0.0003037520391517129,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 8046912,
+      "step": 3725
+    },
+    {
+      "epoch": 0.6084828711256117,
+      "grad_norm": 0.3042055666446686,
+      "learning_rate": 0.00030415986949429034,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 8057472,
+      "step": 3730
+    },
+    {
+      "epoch": 0.6092985318107668,
+      "grad_norm": 1.0995193719863892,
+      "learning_rate": 0.00030456769983686787,
+      "loss": 0.3589,
+      "num_input_tokens_seen": 8068576,
+      "step": 3735
+    },
+    {
+      "epoch": 0.6101141924959217,
+      "grad_norm": 0.34954649209976196,
+      "learning_rate": 0.00030497553017944535,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 8080320,
+      "step": 3740
+    },
+    {
+      "epoch": 0.6109298531810766,
+      "grad_norm": 0.32164424657821655,
+      "learning_rate": 0.0003053833605220229,
+      "loss": 0.2047,
+      "num_input_tokens_seen": 8090144,
+      "step": 3745
+    },
+    {
+      "epoch": 0.6117455138662317,
+      "grad_norm": 0.20417018234729767,
+      "learning_rate": 0.00030579119086460036,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 8101472,
+      "step": 3750
+    },
+    {
+      "epoch": 0.6125611745513866,
+      "grad_norm": 0.8525700569152832,
+      "learning_rate": 0.0003061990212071778,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 8112736,
+      "step": 3755
+    },
+    {
+      "epoch": 0.6133768352365416,
+      "grad_norm": 0.8774811625480652,
+      "learning_rate": 0.0003066068515497553,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 8123296,
+      "step": 3760
+    },
+    {
+      "epoch": 0.6141924959216966,
+      "grad_norm": 0.4467347264289856,
+      "learning_rate": 0.0003070146818923328,
+      "loss": 0.1969,
+      "num_input_tokens_seen": 8133248,
+      "step": 3765
+    },
+    {
+      "epoch": 0.6150081566068516,
+      "grad_norm": 0.09053094685077667,
+      "learning_rate": 0.0003074225122349103,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 8144448,
+      "step": 3770
+    },
+    {
+      "epoch": 0.6158238172920065,
+      "grad_norm": 0.6725847721099854,
+      "learning_rate": 0.00030783034257748774,
+      "loss": 0.1982,
+      "num_input_tokens_seen": 8154656,
+      "step": 3775
+    },
+    {
+      "epoch": 0.6166394779771615,
+      "grad_norm": 0.3370138108730316,
+      "learning_rate": 0.00030823817292006527,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 8165888,
+      "step": 3780
+    },
+    {
+      "epoch": 0.6174551386623165,
+      "grad_norm": 1.0672154426574707,
+      "learning_rate": 0.00030864600326264275,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 8175744,
+      "step": 3785
+    },
+    {
+      "epoch": 0.6182707993474714,
+      "grad_norm": 0.0875239148736,
+      "learning_rate": 0.0003090538336052202,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 8186880,
+      "step": 3790
+    },
+    {
+      "epoch": 0.6190864600326265,
+      "grad_norm": 0.2635380029678345,
+      "learning_rate": 0.00030946166394779775,
+      "loss": 0.1947,
+      "num_input_tokens_seen": 8196192,
+      "step": 3795
+    },
+    {
+      "epoch": 0.6199021207177814,
+      "grad_norm": 0.2070256769657135,
+      "learning_rate": 0.0003098694942903752,
+      "loss": 0.1919,
+      "num_input_tokens_seen": 8205632,
+      "step": 3800
+    },
+    {
+      "epoch": 0.6207177814029364,
+      "grad_norm": 0.3485415577888489,
+      "learning_rate": 0.0003102773246329527,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 8216032,
+      "step": 3805
+    },
+    {
+      "epoch": 0.6215334420880914,
+      "grad_norm": 0.5896238684654236,
+      "learning_rate": 0.0003106851549755302,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 8228192,
+      "step": 3810
+    },
+    {
+      "epoch": 0.6223491027732463,
+      "grad_norm": 0.1791100800037384,
+      "learning_rate": 0.00031109298531810766,
+      "loss": 0.143,
+      "num_input_tokens_seen": 8239136,
+      "step": 3815
+    },
+    {
+      "epoch": 0.6231647634584013,
+      "grad_norm": 0.2757539451122284,
+      "learning_rate": 0.0003115008156606852,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 8249184,
+      "step": 3820
+    },
+    {
+      "epoch": 0.6239804241435563,
+      "grad_norm": 0.47659072279930115,
+      "learning_rate": 0.0003119086460032626,
+      "loss": 0.1604,
+      "num_input_tokens_seen": 8260288,
+      "step": 3825
+    },
+    {
+      "epoch": 0.6247960848287113,
+      "grad_norm": 0.1077791154384613,
+      "learning_rate": 0.00031231647634584014,
+      "loss": 0.2936,
+      "num_input_tokens_seen": 8271232,
+      "step": 3830
+    },
+    {
+      "epoch": 0.6256117455138662,
+      "grad_norm": 0.2414446771144867,
+      "learning_rate": 0.0003127243066884176,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 8281248,
+      "step": 3835
+    },
+    {
+      "epoch": 0.6264274061990212,
+      "grad_norm": 0.13507677614688873,
+      "learning_rate": 0.00031313213703099515,
+      "loss": 0.1825,
+      "num_input_tokens_seen": 8292864,
+      "step": 3840
+    },
+    {
+      "epoch": 0.6272430668841762,
+      "grad_norm": 0.26294106245040894,
+      "learning_rate": 0.0003135399673735726,
+      "loss": 0.1879,
+      "num_input_tokens_seen": 8303488,
+      "step": 3845
+    },
+    {
+      "epoch": 0.6280587275693311,
+      "grad_norm": 0.3151414096355438,
+      "learning_rate": 0.00031394779771615005,
+      "loss": 0.217,
+      "num_input_tokens_seen": 8315008,
+      "step": 3850
+    },
+    {
+      "epoch": 0.6288743882544862,
+      "grad_norm": 0.38112303614616394,
+      "learning_rate": 0.0003143556280587276,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 8325696,
+      "step": 3855
+    },
+    {
+      "epoch": 0.6296900489396411,
+      "grad_norm": 0.07693363726139069,
+      "learning_rate": 0.00031476345840130506,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 8336960,
+      "step": 3860
+    },
+    {
+      "epoch": 0.6305057096247961,
+      "grad_norm": 0.24605275690555573,
+      "learning_rate": 0.0003151712887438826,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 8348544,
+      "step": 3865
+    },
+    {
+      "epoch": 0.6313213703099511,
+      "grad_norm": 0.48214077949523926,
+      "learning_rate": 0.00031557911908646,
+      "loss": 0.1825,
+      "num_input_tokens_seen": 8359072,
+      "step": 3870
+    },
+    {
+      "epoch": 0.632137030995106,
+      "grad_norm": 0.4101504385471344,
+      "learning_rate": 0.00031598694942903754,
+      "loss": 0.1694,
+      "num_input_tokens_seen": 8369184,
+      "step": 3875
+    },
+    {
+      "epoch": 0.632952691680261,
+      "grad_norm": 0.06815630197525024,
+      "learning_rate": 0.000316394779771615,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 8380352,
+      "step": 3880
+    },
+    {
+      "epoch": 0.633768352365416,
+      "grad_norm": 0.11706419289112091,
+      "learning_rate": 0.0003168026101141925,
+      "loss": 0.0495,
+      "num_input_tokens_seen": 8390880,
+      "step": 3885
+    },
+    {
+      "epoch": 0.634584013050571,
+      "grad_norm": 0.41242027282714844,
+      "learning_rate": 0.00031721044045677,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 8402176,
+      "step": 3890
+    },
+    {
+      "epoch": 0.6353996737357259,
+      "grad_norm": 0.09979145973920822,
+      "learning_rate": 0.00031761827079934744,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 8413280,
+      "step": 3895
+    },
+    {
+      "epoch": 0.636215334420881,
+      "grad_norm": 0.043393541127443314,
+      "learning_rate": 0.000318026101141925,
+      "loss": 0.046,
+      "num_input_tokens_seen": 8424960,
+      "step": 3900
+    },
+    {
+      "epoch": 0.6370309951060359,
+      "grad_norm": 0.12201043963432312,
+      "learning_rate": 0.00031843393148450245,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 8436160,
+      "step": 3905
+    },
+    {
+      "epoch": 0.6378466557911908,
+      "grad_norm": 1.5243480205535889,
+      "learning_rate": 0.00031884176182708,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 8445856,
+      "step": 3910
+    },
+    {
+      "epoch": 0.6386623164763459,
+      "grad_norm": 1.0513534545898438,
+      "learning_rate": 0.00031924959216965746,
+      "loss": 0.5507,
+      "num_input_tokens_seen": 8455264,
+      "step": 3915
+    },
+    {
+      "epoch": 0.6394779771615008,
+      "grad_norm": 0.4103231132030487,
+      "learning_rate": 0.0003196574225122349,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 8465984,
+      "step": 3920
+    },
+    {
+      "epoch": 0.6402936378466558,
+      "grad_norm": 1.263214349746704,
+      "learning_rate": 0.0003200652528548124,
+      "loss": 0.2106,
+      "num_input_tokens_seen": 8477344,
+      "step": 3925
+    },
+    {
+      "epoch": 0.6411092985318108,
+      "grad_norm": 0.15126630663871765,
+      "learning_rate": 0.0003204730831973899,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 8488544,
+      "step": 3930
+    },
+    {
+      "epoch": 0.6419249592169658,
+      "grad_norm": 0.36729708313941956,
+      "learning_rate": 0.0003208809135399674,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 8499296,
+      "step": 3935
+    },
+    {
+      "epoch": 0.6427406199021207,
+      "grad_norm": 0.9425373673439026,
+      "learning_rate": 0.00032128874388254484,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 8510912,
+      "step": 3940
+    },
+    {
+      "epoch": 0.6435562805872757,
+      "grad_norm": 0.2685391306877136,
+      "learning_rate": 0.0003216965742251223,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 8521920,
+      "step": 3945
+    },
+    {
+      "epoch": 0.6443719412724307,
+      "grad_norm": 0.489003986120224,
+      "learning_rate": 0.00032210440456769985,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 8532448,
+      "step": 3950
+    },
+    {
+      "epoch": 0.6451876019575856,
+      "grad_norm": 0.14087380468845367,
+      "learning_rate": 0.0003225122349102773,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 8543936,
+      "step": 3955
+    },
+    {
+      "epoch": 0.6460032626427407,
+      "grad_norm": 0.11659581959247589,
+      "learning_rate": 0.00032292006525285486,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 8556160,
+      "step": 3960
+    },
+    {
+      "epoch": 0.6468189233278956,
+      "grad_norm": 0.15926118195056915,
+      "learning_rate": 0.0003233278955954323,
+      "loss": 0.0522,
+      "num_input_tokens_seen": 8566816,
+      "step": 3965
+    },
+    {
+      "epoch": 0.6476345840130505,
+      "grad_norm": 0.35616812109947205,
+      "learning_rate": 0.0003237357259380098,
+      "loss": 0.2619,
+      "num_input_tokens_seen": 8576992,
+      "step": 3970
+    },
+    {
+      "epoch": 0.6484502446982056,
+      "grad_norm": 0.46962714195251465,
+      "learning_rate": 0.0003241435562805873,
+      "loss": 0.2148,
+      "num_input_tokens_seen": 8588224,
+      "step": 3975
+    },
+    {
+      "epoch": 0.6492659053833605,
+      "grad_norm": 0.061958249658346176,
+      "learning_rate": 0.00032455138662316476,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 8598976,
+      "step": 3980
+    },
+    {
+      "epoch": 0.6500815660685155,
+      "grad_norm": 0.13584494590759277,
+      "learning_rate": 0.0003249592169657423,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 8609216,
+      "step": 3985
+    },
+    {
+      "epoch": 0.6508972267536705,
+      "grad_norm": 0.8373795747756958,
+      "learning_rate": 0.0003253670473083197,
+      "loss": 0.1666,
+      "num_input_tokens_seen": 8620032,
+      "step": 3990
+    },
+    {
+      "epoch": 0.6517128874388255,
+      "grad_norm": 0.06975753605365753,
+      "learning_rate": 0.00032577487765089724,
+      "loss": 0.2013,
+      "num_input_tokens_seen": 8631456,
+      "step": 3995
+    },
+    {
+      "epoch": 0.6525285481239804,
+      "grad_norm": 0.164698988199234,
+      "learning_rate": 0.0003261827079934747,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 8641696,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6533442088091354,
+      "grad_norm": 0.8426600098609924,
+      "learning_rate": 0.00032659053833605225,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 8652576,
+      "step": 4005
+    },
+    {
+      "epoch": 0.6541598694942904,
+      "grad_norm": 0.6252540349960327,
+      "learning_rate": 0.0003269983686786297,
+      "loss": 0.2312,
+      "num_input_tokens_seen": 8662464,
+      "step": 4010
+    },
+    {
+      "epoch": 0.6549755301794453,
+      "grad_norm": 0.43457654118537903,
+      "learning_rate": 0.00032740619902120715,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 8673312,
+      "step": 4015
+    },
+    {
+      "epoch": 0.6557911908646004,
+      "grad_norm": 0.4076187312602997,
+      "learning_rate": 0.0003278140293637847,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 8683904,
+      "step": 4020
+    },
+    {
+      "epoch": 0.6566068515497553,
+      "grad_norm": 0.28343382477760315,
+      "learning_rate": 0.00032822185970636216,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 8694944,
+      "step": 4025
+    },
+    {
+      "epoch": 0.6574225122349103,
+      "grad_norm": 0.19631558656692505,
+      "learning_rate": 0.0003286296900489397,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 8706400,
+      "step": 4030
+    },
+    {
+      "epoch": 0.6582381729200653,
+      "grad_norm": 0.06990889459848404,
+      "learning_rate": 0.0003290375203915171,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 8717504,
+      "step": 4035
+    },
+    {
+      "epoch": 0.6590538336052202,
+      "grad_norm": 0.39275580644607544,
+      "learning_rate": 0.00032944535073409464,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 8728736,
+      "step": 4040
+    },
+    {
+      "epoch": 0.6598694942903752,
+      "grad_norm": 0.7639222741127014,
+      "learning_rate": 0.0003298531810766721,
+      "loss": 0.3712,
+      "num_input_tokens_seen": 8740032,
+      "step": 4045
+    },
+    {
+      "epoch": 0.6606851549755302,
+      "grad_norm": 0.0512065626680851,
+      "learning_rate": 0.0003302610114192496,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 8749280,
+      "step": 4050
+    },
+    {
+      "epoch": 0.6615008156606852,
+      "grad_norm": 0.07373015582561493,
+      "learning_rate": 0.0003306688417618271,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 8760320,
+      "step": 4055
+    },
+    {
+      "epoch": 0.6623164763458401,
+      "grad_norm": 0.5321258902549744,
+      "learning_rate": 0.00033107667210440455,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 8771104,
+      "step": 4060
+    },
+    {
+      "epoch": 0.6631321370309952,
+      "grad_norm": 0.03265725448727608,
+      "learning_rate": 0.0003314845024469821,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 8781664,
+      "step": 4065
+    },
+    {
+      "epoch": 0.6639477977161501,
+      "grad_norm": 0.15506812930107117,
+      "learning_rate": 0.00033189233278955955,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 8792128,
+      "step": 4070
+    },
+    {
+      "epoch": 0.664763458401305,
+      "grad_norm": 0.3224940896034241,
+      "learning_rate": 0.00033230016313213703,
+      "loss": 0.2244,
+      "num_input_tokens_seen": 8803616,
+      "step": 4075
+    },
+    {
+      "epoch": 0.6655791190864601,
+      "grad_norm": 0.6347690224647522,
+      "learning_rate": 0.0003327079934747145,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 8813696,
+      "step": 4080
+    },
+    {
+      "epoch": 0.666394779771615,
+      "grad_norm": 0.6844305396080017,
+      "learning_rate": 0.000333115823817292,
+      "loss": 0.1977,
+      "num_input_tokens_seen": 8824672,
+      "step": 4085
+    },
+    {
+      "epoch": 0.66721044045677,
+      "grad_norm": 0.053750500082969666,
+      "learning_rate": 0.0003335236541598695,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 8836256,
+      "step": 4090
+    },
+    {
+      "epoch": 0.668026101141925,
+      "grad_norm": 0.0979921966791153,
+      "learning_rate": 0.000333931484502447,
+      "loss": 0.1962,
+      "num_input_tokens_seen": 8847168,
+      "step": 4095
+    },
+    {
+      "epoch": 0.6688417618270799,
+      "grad_norm": 0.7607890367507935,
+      "learning_rate": 0.0003343393148450245,
+      "loss": 0.1747,
+      "num_input_tokens_seen": 8855008,
+      "step": 4100
+    },
+    {
+      "epoch": 0.6696574225122349,
+      "grad_norm": 0.2811325490474701,
+      "learning_rate": 0.00033474714518760194,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 8865728,
+      "step": 4105
+    },
+    {
+      "epoch": 0.6704730831973899,
+      "grad_norm": 0.14467936754226685,
+      "learning_rate": 0.0003351549755301794,
+      "loss": 0.1633,
+      "num_input_tokens_seen": 8877440,
+      "step": 4110
+    },
+    {
+      "epoch": 0.6712887438825449,
+      "grad_norm": 0.5608596205711365,
+      "learning_rate": 0.00033556280587275695,
+      "loss": 0.2213,
+      "num_input_tokens_seen": 8889248,
+      "step": 4115
+    },
+    {
+      "epoch": 0.6721044045676998,
+      "grad_norm": 0.36362361907958984,
+      "learning_rate": 0.0003359706362153344,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 8900640,
+      "step": 4120
+    },
+    {
+      "epoch": 0.6729200652528549,
+      "grad_norm": 0.05654023960232735,
+      "learning_rate": 0.00033637846655791196,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 8911232,
+      "step": 4125
+    },
+    {
+      "epoch": 0.6737357259380098,
+      "grad_norm": 0.09752820432186127,
+      "learning_rate": 0.0003367862969004894,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 8921952,
+      "step": 4130
+    },
+    {
+      "epoch": 0.6745513866231647,
+      "grad_norm": 0.08624225109815598,
+      "learning_rate": 0.0003371941272430669,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 8933856,
+      "step": 4135
+    },
+    {
+      "epoch": 0.6753670473083198,
+      "grad_norm": 0.14989924430847168,
+      "learning_rate": 0.0003376019575856444,
+      "loss": 0.061,
+      "num_input_tokens_seen": 8944800,
+      "step": 4140
+    },
+    {
+      "epoch": 0.6761827079934747,
+      "grad_norm": 0.11734739691019058,
+      "learning_rate": 0.00033800978792822186,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 8956352,
+      "step": 4145
+    },
+    {
+      "epoch": 0.6769983686786297,
+      "grad_norm": 0.35162967443466187,
+      "learning_rate": 0.00033841761827079934,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 8967520,
+      "step": 4150
+    },
+    {
+      "epoch": 0.6778140293637847,
+      "grad_norm": 0.03362584114074707,
+      "learning_rate": 0.0003388254486133768,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 8977888,
+      "step": 4155
+    },
+    {
+      "epoch": 0.6786296900489397,
+      "grad_norm": 0.1328830122947693,
+      "learning_rate": 0.00033923327895595435,
+      "loss": 0.0441,
+      "num_input_tokens_seen": 8989440,
+      "step": 4160
+    },
+    {
+      "epoch": 0.6794453507340946,
+      "grad_norm": 0.18508820235729218,
+      "learning_rate": 0.0003396411092985318,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 9000896,
+      "step": 4165
+    },
+    {
+      "epoch": 0.6802610114192496,
+      "grad_norm": 0.026474563404917717,
+      "learning_rate": 0.0003400489396411093,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 9011808,
+      "step": 4170
+    },
+    {
+      "epoch": 0.6810766721044046,
+      "grad_norm": 0.793641984462738,
+      "learning_rate": 0.0003404567699836868,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 9024096,
+      "step": 4175
+    },
+    {
+      "epoch": 0.6818923327895595,
+      "grad_norm": 0.07803583890199661,
+      "learning_rate": 0.00034086460032626425,
+      "loss": 0.2088,
+      "num_input_tokens_seen": 9035648,
+      "step": 4180
+    },
+    {
+      "epoch": 0.6827079934747146,
+      "grad_norm": 0.08670012652873993,
+      "learning_rate": 0.0003412724306688418,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 9045920,
+      "step": 4185
+    },
+    {
+      "epoch": 0.6835236541598695,
+      "grad_norm": 0.4543367028236389,
+      "learning_rate": 0.00034168026101141926,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 9057088,
+      "step": 4190
+    },
+    {
+      "epoch": 0.6843393148450244,
+      "grad_norm": 0.41005179286003113,
+      "learning_rate": 0.0003420880913539968,
+      "loss": 0.1719,
+      "num_input_tokens_seen": 9066208,
+      "step": 4195
+    },
+    {
+      "epoch": 0.6851549755301795,
+      "grad_norm": 0.7371568083763123,
+      "learning_rate": 0.0003424959216965742,
+      "loss": 0.1812,
+      "num_input_tokens_seen": 9077120,
+      "step": 4200
+    },
+    {
+      "epoch": 0.6859706362153344,
+      "grad_norm": 0.340640127658844,
+      "learning_rate": 0.0003429037520391517,
+      "loss": 0.2524,
+      "num_input_tokens_seen": 9086592,
+      "step": 4205
+    },
+    {
+      "epoch": 0.6867862969004894,
+      "grad_norm": 0.18895219266414642,
+      "learning_rate": 0.0003433115823817292,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 9096864,
+      "step": 4210
+    },
+    {
+      "epoch": 0.6876019575856444,
+      "grad_norm": 0.18842971324920654,
+      "learning_rate": 0.0003437194127243067,
+      "loss": 0.1622,
+      "num_input_tokens_seen": 9107424,
+      "step": 4215
+    },
+    {
+      "epoch": 0.6884176182707994,
+      "grad_norm": 0.0588395819067955,
+      "learning_rate": 0.00034412724306688417,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 9117696,
+      "step": 4220
+    },
+    {
+      "epoch": 0.6892332789559543,
+      "grad_norm": 0.08728792518377304,
+      "learning_rate": 0.00034453507340946165,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 9128096,
+      "step": 4225
+    },
+    {
+      "epoch": 0.6900489396411092,
+      "grad_norm": 1.0194220542907715,
+      "learning_rate": 0.0003449429037520392,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 9139104,
+      "step": 4230
+    },
+    {
+      "epoch": 0.6908646003262643,
+      "grad_norm": 0.4258745014667511,
+      "learning_rate": 0.00034535073409461666,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 9149408,
+      "step": 4235
+    },
+    {
+      "epoch": 0.6916802610114192,
+      "grad_norm": 0.0936698392033577,
+      "learning_rate": 0.00034575856443719413,
+      "loss": 0.064,
+      "num_input_tokens_seen": 9160672,
+      "step": 4240
+    },
+    {
+      "epoch": 0.6924959216965743,
+      "grad_norm": 0.8383188843727112,
+      "learning_rate": 0.0003461663947797716,
+      "loss": 0.2815,
+      "num_input_tokens_seen": 9171104,
+      "step": 4245
+    },
+    {
+      "epoch": 0.6933115823817292,
+      "grad_norm": 0.05329615995287895,
+      "learning_rate": 0.0003465742251223491,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 9181440,
+      "step": 4250
+    },
+    {
+      "epoch": 0.6941272430668842,
+      "grad_norm": 0.044270992279052734,
+      "learning_rate": 0.0003469820554649266,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 9191488,
+      "step": 4255
+    },
+    {
+      "epoch": 0.6949429037520392,
+      "grad_norm": 1.0437971353530884,
+      "learning_rate": 0.0003473898858075041,
+      "loss": 0.2139,
+      "num_input_tokens_seen": 9203392,
+      "step": 4260
+    },
+    {
+      "epoch": 0.6957585644371941,
+      "grad_norm": 0.3245795667171478,
+      "learning_rate": 0.0003477977161500816,
+      "loss": 0.2403,
+      "num_input_tokens_seen": 9214368,
+      "step": 4265
+    },
+    {
+      "epoch": 0.6965742251223491,
+      "grad_norm": 0.08259432762861252,
+      "learning_rate": 0.00034820554649265905,
+      "loss": 0.062,
+      "num_input_tokens_seen": 9225248,
+      "step": 4270
+    },
+    {
+      "epoch": 0.697389885807504,
+      "grad_norm": 0.269199401140213,
+      "learning_rate": 0.0003486133768352365,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 9236640,
+      "step": 4275
+    },
+    {
+      "epoch": 0.6982055464926591,
+      "grad_norm": 0.38677653670310974,
+      "learning_rate": 0.00034902120717781405,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 9248000,
+      "step": 4280
+    },
+    {
+      "epoch": 0.699021207177814,
+      "grad_norm": 0.1369486302137375,
+      "learning_rate": 0.00034942903752039153,
+      "loss": 0.267,
+      "num_input_tokens_seen": 9258752,
+      "step": 4285
+    },
+    {
+      "epoch": 0.6998368678629691,
+      "grad_norm": 0.44952574372291565,
+      "learning_rate": 0.000349836867862969,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 9269376,
+      "step": 4290
+    },
+    {
+      "epoch": 0.700652528548124,
+      "grad_norm": 0.12477151304483414,
+      "learning_rate": 0.0003502446982055465,
+      "loss": 0.2004,
+      "num_input_tokens_seen": 9281312,
+      "step": 4295
+    },
+    {
+      "epoch": 0.7014681892332789,
+      "grad_norm": 0.11125738173723221,
+      "learning_rate": 0.00035065252854812396,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 9291936,
+      "step": 4300
+    },
+    {
+      "epoch": 0.702283849918434,
+      "grad_norm": 0.1944471299648285,
+      "learning_rate": 0.0003510603588907015,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 9302528,
+      "step": 4305
+    },
+    {
+      "epoch": 0.7030995106035889,
+      "grad_norm": 0.08961895108222961,
+      "learning_rate": 0.00035146818923327897,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 9313536,
+      "step": 4310
+    },
+    {
+      "epoch": 0.7039151712887439,
+      "grad_norm": 0.043053120374679565,
+      "learning_rate": 0.00035187601957585644,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 9324384,
+      "step": 4315
+    },
+    {
+      "epoch": 0.7047308319738989,
+      "grad_norm": 0.5048277378082275,
+      "learning_rate": 0.0003522838499184339,
+      "loss": 0.2702,
+      "num_input_tokens_seen": 9335104,
+      "step": 4320
+    },
+    {
+      "epoch": 0.7055464926590538,
+      "grad_norm": 0.516410768032074,
+      "learning_rate": 0.00035269168026101145,
+      "loss": 0.2341,
+      "num_input_tokens_seen": 9345824,
+      "step": 4325
+    },
+    {
+      "epoch": 0.7063621533442088,
+      "grad_norm": 0.15441341698169708,
+      "learning_rate": 0.0003530995106035889,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 9357088,
+      "step": 4330
+    },
+    {
+      "epoch": 0.7071778140293637,
+      "grad_norm": 0.7144105434417725,
+      "learning_rate": 0.0003535073409461664,
+      "loss": 0.2489,
+      "num_input_tokens_seen": 9366784,
+      "step": 4335
+    },
+    {
+      "epoch": 0.7079934747145188,
+      "grad_norm": 0.1695648729801178,
+      "learning_rate": 0.0003539151712887439,
+      "loss": 0.1474,
+      "num_input_tokens_seen": 9377024,
+      "step": 4340
+    },
+    {
+      "epoch": 0.7088091353996737,
+      "grad_norm": 0.2768016457557678,
+      "learning_rate": 0.00035432300163132136,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 9389152,
+      "step": 4345
+    },
+    {
+      "epoch": 0.7096247960848288,
+      "grad_norm": 0.1949160099029541,
+      "learning_rate": 0.0003547308319738989,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 9399616,
+      "step": 4350
+    },
+    {
+      "epoch": 0.7104404567699837,
+      "grad_norm": 0.09738589823246002,
+      "learning_rate": 0.00035513866231647636,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 9410176,
+      "step": 4355
+    },
+    {
+      "epoch": 0.7112561174551386,
+      "grad_norm": 0.14508315920829773,
+      "learning_rate": 0.0003555464926590539,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 9421760,
+      "step": 4360
+    },
+    {
+      "epoch": 0.7120717781402937,
+      "grad_norm": 0.07993219792842865,
+      "learning_rate": 0.0003559543230016313,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 9432960,
+      "step": 4365
+    },
+    {
+      "epoch": 0.7128874388254486,
+      "grad_norm": 0.3040957450866699,
+      "learning_rate": 0.0003563621533442088,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 9443936,
+      "step": 4370
+    },
+    {
+      "epoch": 0.7137030995106036,
+      "grad_norm": 0.043079450726509094,
+      "learning_rate": 0.0003567699836867863,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 9453120,
+      "step": 4375
+    },
+    {
+      "epoch": 0.7145187601957586,
+      "grad_norm": 0.12413550168275833,
+      "learning_rate": 0.0003571778140293638,
+      "loss": 0.1671,
+      "num_input_tokens_seen": 9464480,
+      "step": 4380
+    },
+    {
+      "epoch": 0.7153344208809136,
+      "grad_norm": 0.45056381821632385,
+      "learning_rate": 0.0003575856443719413,
+      "loss": 0.1845,
+      "num_input_tokens_seen": 9475360,
+      "step": 4385
+    },
+    {
+      "epoch": 0.7161500815660685,
+      "grad_norm": 0.3023238182067871,
+      "learning_rate": 0.00035799347471451875,
+      "loss": 0.2689,
+      "num_input_tokens_seen": 9484992,
+      "step": 4390
+    },
+    {
+      "epoch": 0.7169657422512234,
+      "grad_norm": 0.5121544003486633,
+      "learning_rate": 0.0003584013050570963,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 9495296,
+      "step": 4395
+    },
+    {
+      "epoch": 0.7177814029363785,
+      "grad_norm": 0.2982773184776306,
+      "learning_rate": 0.00035880913539967376,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 9506592,
+      "step": 4400
+    },
+    {
+      "epoch": 0.7185970636215334,
+      "grad_norm": 0.4488369822502136,
+      "learning_rate": 0.00035921696574225124,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 9517056,
+      "step": 4405
+    },
+    {
+      "epoch": 0.7194127243066885,
+      "grad_norm": 0.037081990391016006,
+      "learning_rate": 0.0003596247960848287,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 9527808,
+      "step": 4410
+    },
+    {
+      "epoch": 0.7202283849918434,
+      "grad_norm": 0.4101148545742035,
+      "learning_rate": 0.0003600326264274062,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 9538624,
+      "step": 4415
+    },
+    {
+      "epoch": 0.7210440456769984,
+      "grad_norm": 0.6088188290596008,
+      "learning_rate": 0.0003604404567699837,
+      "loss": 0.1898,
+      "num_input_tokens_seen": 9547744,
+      "step": 4420
+    },
+    {
+      "epoch": 0.7218597063621534,
+      "grad_norm": 0.4636387526988983,
+      "learning_rate": 0.0003608482871125612,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 9559072,
+      "step": 4425
+    },
+    {
+      "epoch": 0.7226753670473083,
+      "grad_norm": 0.4632618725299835,
+      "learning_rate": 0.0003612561174551386,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 9570528,
+      "step": 4430
+    },
+    {
+      "epoch": 0.7234910277324633,
+      "grad_norm": 0.5356050729751587,
+      "learning_rate": 0.00036166394779771615,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 9580800,
+      "step": 4435
+    },
+    {
+      "epoch": 0.7243066884176182,
+      "grad_norm": 0.06347585469484329,
+      "learning_rate": 0.0003620717781402936,
+      "loss": 0.1803,
+      "num_input_tokens_seen": 9592064,
+      "step": 4440
+    },
+    {
+      "epoch": 0.7251223491027733,
+      "grad_norm": 0.03401469439268112,
+      "learning_rate": 0.00036247960848287116,
+      "loss": 0.1577,
+      "num_input_tokens_seen": 9603744,
+      "step": 4445
+    },
+    {
+      "epoch": 0.7259380097879282,
+      "grad_norm": 0.08639135956764221,
+      "learning_rate": 0.00036288743882544863,
+      "loss": 0.247,
+      "num_input_tokens_seen": 9615008,
+      "step": 4450
+    },
+    {
+      "epoch": 0.7267536704730831,
+      "grad_norm": 0.52489173412323,
+      "learning_rate": 0.0003632952691680261,
+      "loss": 0.198,
+      "num_input_tokens_seen": 9625376,
+      "step": 4455
+    },
+    {
+      "epoch": 0.7275693311582382,
+      "grad_norm": 0.23638580739498138,
+      "learning_rate": 0.0003637030995106036,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 9636128,
+      "step": 4460
+    },
+    {
+      "epoch": 0.7283849918433931,
+      "grad_norm": 0.2670087218284607,
+      "learning_rate": 0.00036411092985318106,
+      "loss": 0.2096,
+      "num_input_tokens_seen": 9647808,
+      "step": 4465
+    },
+    {
+      "epoch": 0.7292006525285482,
+      "grad_norm": 0.5415324568748474,
+      "learning_rate": 0.0003645187601957586,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 9658496,
+      "step": 4470
+    },
+    {
+      "epoch": 0.7300163132137031,
+      "grad_norm": 0.27866536378860474,
+      "learning_rate": 0.00036492659053833607,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 9669120,
+      "step": 4475
+    },
+    {
+      "epoch": 0.7308319738988581,
+      "grad_norm": 0.20106881856918335,
+      "learning_rate": 0.00036533442088091354,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 9680448,
+      "step": 4480
+    },
+    {
+      "epoch": 0.731647634584013,
+      "grad_norm": 0.2943683862686157,
+      "learning_rate": 0.000365742251223491,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 9690592,
+      "step": 4485
+    },
+    {
+      "epoch": 0.732463295269168,
+      "grad_norm": 0.8741294741630554,
+      "learning_rate": 0.00036615008156606855,
+      "loss": 0.1675,
+      "num_input_tokens_seen": 9701824,
+      "step": 4490
+    },
+    {
+      "epoch": 0.733278955954323,
+      "grad_norm": 0.7757192254066467,
+      "learning_rate": 0.00036655791190864603,
+      "loss": 0.2252,
+      "num_input_tokens_seen": 9712384,
+      "step": 4495
+    },
+    {
+      "epoch": 0.734094616639478,
+      "grad_norm": 0.24651999771595,
+      "learning_rate": 0.0003669657422512235,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 9723200,
+      "step": 4500
+    },
+    {
+      "epoch": 0.734910277324633,
+      "grad_norm": 0.1742609441280365,
+      "learning_rate": 0.000367373572593801,
+      "loss": 0.138,
+      "num_input_tokens_seen": 9733536,
+      "step": 4505
+    },
+    {
+      "epoch": 0.7357259380097879,
+      "grad_norm": 0.20956604182720184,
+      "learning_rate": 0.00036778140293637846,
+      "loss": 0.2098,
+      "num_input_tokens_seen": 9744832,
+      "step": 4510
+    },
+    {
+      "epoch": 0.736541598694943,
+      "grad_norm": 0.4425009489059448,
+      "learning_rate": 0.000368189233278956,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 9755520,
+      "step": 4515
+    },
+    {
+      "epoch": 0.7373572593800979,
+      "grad_norm": 0.9309787750244141,
+      "learning_rate": 0.00036859706362153346,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 9766208,
+      "step": 4520
+    },
+    {
+      "epoch": 0.7381729200652528,
+      "grad_norm": 0.6328949332237244,
+      "learning_rate": 0.0003690048939641109,
+      "loss": 0.1981,
+      "num_input_tokens_seen": 9778272,
+      "step": 4525
+    },
+    {
+      "epoch": 0.7389885807504079,
+      "grad_norm": 0.8695969581604004,
+      "learning_rate": 0.0003694127243066884,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 9789760,
+      "step": 4530
+    },
+    {
+      "epoch": 0.7398042414355628,
+      "grad_norm": 0.7203797101974487,
+      "learning_rate": 0.0003698205546492659,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 9800800,
+      "step": 4535
+    },
+    {
+      "epoch": 0.7406199021207178,
+      "grad_norm": 1.077952265739441,
+      "learning_rate": 0.0003702283849918434,
+      "loss": 0.1574,
+      "num_input_tokens_seen": 9812672,
+      "step": 4540
+    },
+    {
+      "epoch": 0.7414355628058727,
+      "grad_norm": 0.6627715229988098,
+      "learning_rate": 0.0003706362153344209,
+      "loss": 0.2866,
+      "num_input_tokens_seen": 9823232,
+      "step": 4545
+    },
+    {
+      "epoch": 0.7422512234910277,
+      "grad_norm": 0.1315276026725769,
+      "learning_rate": 0.0003710440456769984,
+      "loss": 0.1755,
+      "num_input_tokens_seen": 9834848,
+      "step": 4550
+    },
+    {
+      "epoch": 0.7430668841761827,
+      "grad_norm": 0.05795247107744217,
+      "learning_rate": 0.00037145187601957585,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 9846304,
+      "step": 4555
+    },
+    {
+      "epoch": 0.7438825448613376,
+      "grad_norm": 0.21074354648590088,
+      "learning_rate": 0.00037185970636215333,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 9857472,
+      "step": 4560
+    },
+    {
+      "epoch": 0.7446982055464927,
+      "grad_norm": 0.11915198713541031,
+      "learning_rate": 0.00037226753670473086,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 9869632,
+      "step": 4565
+    },
+    {
+      "epoch": 0.7455138662316476,
+      "grad_norm": 0.12031367421150208,
+      "learning_rate": 0.00037267536704730834,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 9881344,
+      "step": 4570
+    },
+    {
+      "epoch": 0.7463295269168027,
+      "grad_norm": 0.14942015707492828,
+      "learning_rate": 0.0003730831973898858,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 9892640,
+      "step": 4575
+    },
+    {
+      "epoch": 0.7471451876019576,
+      "grad_norm": 0.525719165802002,
+      "learning_rate": 0.0003734910277324633,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 9903296,
+      "step": 4580
+    },
+    {
+      "epoch": 0.7479608482871125,
+      "grad_norm": 0.03644242137670517,
+      "learning_rate": 0.0003738988580750408,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 9913952,
+      "step": 4585
+    },
+    {
+      "epoch": 0.7487765089722676,
+      "grad_norm": 0.02505657821893692,
+      "learning_rate": 0.0003743066884176183,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 9924928,
+      "step": 4590
+    },
+    {
+      "epoch": 0.7495921696574225,
+      "grad_norm": 0.08508000522851944,
+      "learning_rate": 0.0003747145187601957,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 9936576,
+      "step": 4595
+    },
+    {
+      "epoch": 0.7504078303425775,
+      "grad_norm": 0.7894995212554932,
+      "learning_rate": 0.00037512234910277325,
+      "loss": 0.2172,
+      "num_input_tokens_seen": 9948288,
+      "step": 4600
+    },
+    {
+      "epoch": 0.7512234910277324,
+      "grad_norm": 0.46785202622413635,
+      "learning_rate": 0.00037553017944535073,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 9958976,
+      "step": 4605
+    },
+    {
+      "epoch": 0.7520391517128875,
+      "grad_norm": 0.3128347098827362,
+      "learning_rate": 0.00037593800978792826,
+      "loss": 0.2062,
+      "num_input_tokens_seen": 9969856,
+      "step": 4610
+    },
+    {
+      "epoch": 0.7528548123980424,
+      "grad_norm": 0.21548837423324585,
+      "learning_rate": 0.00037634584013050573,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 9982176,
+      "step": 4615
+    },
+    {
+      "epoch": 0.7536704730831973,
+      "grad_norm": 0.61204993724823,
+      "learning_rate": 0.0003767536704730832,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 9994176,
+      "step": 4620
+    },
+    {
+      "epoch": 0.7544861337683524,
+      "grad_norm": 0.2929581105709076,
+      "learning_rate": 0.0003771615008156607,
+      "loss": 0.127,
+      "num_input_tokens_seen": 10005504,
+      "step": 4625
+    },
+    {
+      "epoch": 0.7553017944535073,
+      "grad_norm": 0.2728572487831116,
+      "learning_rate": 0.00037756933115823816,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 10016800,
+      "step": 4630
+    },
+    {
+      "epoch": 0.7561174551386624,
+      "grad_norm": 0.5226534008979797,
+      "learning_rate": 0.0003779771615008157,
+      "loss": 0.2997,
+      "num_input_tokens_seen": 10026720,
+      "step": 4635
+    },
+    {
+      "epoch": 0.7569331158238173,
+      "grad_norm": 0.32955631613731384,
+      "learning_rate": 0.00037838499184339317,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 10037664,
+      "step": 4640
+    },
+    {
+      "epoch": 0.7577487765089723,
+      "grad_norm": 0.2558460235595703,
+      "learning_rate": 0.00037879282218597065,
+      "loss": 0.1725,
+      "num_input_tokens_seen": 10049216,
+      "step": 4645
+    },
+    {
+      "epoch": 0.7585644371941273,
+      "grad_norm": 0.34898290038108826,
+      "learning_rate": 0.0003792006525285481,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 10060960,
+      "step": 4650
+    },
+    {
+      "epoch": 0.7593800978792822,
+      "grad_norm": 0.2750975489616394,
+      "learning_rate": 0.0003796084828711256,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 10072096,
+      "step": 4655
+    },
+    {
+      "epoch": 0.7601957585644372,
+      "grad_norm": 0.4596557319164276,
+      "learning_rate": 0.00038001631321370313,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 10083712,
+      "step": 4660
+    },
+    {
+      "epoch": 0.7610114192495921,
+      "grad_norm": 0.21442389488220215,
+      "learning_rate": 0.00038042414355628055,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 10094656,
+      "step": 4665
+    },
+    {
+      "epoch": 0.7618270799347472,
+      "grad_norm": 0.41847553849220276,
+      "learning_rate": 0.0003808319738988581,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 10105568,
+      "step": 4670
+    },
+    {
+      "epoch": 0.7626427406199021,
+      "grad_norm": 0.258605033159256,
+      "learning_rate": 0.00038123980424143556,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 10116800,
+      "step": 4675
+    },
+    {
+      "epoch": 0.763458401305057,
+      "grad_norm": 0.08785971254110336,
+      "learning_rate": 0.0003816476345840131,
+      "loss": 0.151,
+      "num_input_tokens_seen": 10127360,
+      "step": 4680
+    },
+    {
+      "epoch": 0.7642740619902121,
+      "grad_norm": 0.44143345952033997,
+      "learning_rate": 0.00038205546492659057,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 10137312,
+      "step": 4685
+    },
+    {
+      "epoch": 0.765089722675367,
+      "grad_norm": 1.2000739574432373,
+      "learning_rate": 0.000382463295269168,
+      "loss": 0.2656,
+      "num_input_tokens_seen": 10148960,
+      "step": 4690
+    },
+    {
+      "epoch": 0.765905383360522,
+      "grad_norm": 0.045616984367370605,
+      "learning_rate": 0.0003828711256117455,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 10157856,
+      "step": 4695
+    },
+    {
+      "epoch": 0.766721044045677,
+      "grad_norm": 0.29947271943092346,
+      "learning_rate": 0.000383278955954323,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 10168672,
+      "step": 4700
+    },
+    {
+      "epoch": 0.767536704730832,
+      "grad_norm": 0.0342426560819149,
+      "learning_rate": 0.00038368678629690053,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 10178272,
+      "step": 4705
+    },
+    {
+      "epoch": 0.768352365415987,
+      "grad_norm": 0.40731778740882874,
+      "learning_rate": 0.000384094616639478,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 10188896,
+      "step": 4710
+    },
+    {
+      "epoch": 0.7691680261011419,
+      "grad_norm": 0.35202035307884216,
+      "learning_rate": 0.0003845024469820555,
+      "loss": 0.1535,
+      "num_input_tokens_seen": 10199488,
+      "step": 4715
+    },
+    {
+      "epoch": 0.7699836867862969,
+      "grad_norm": 0.38114434480667114,
+      "learning_rate": 0.00038491027732463296,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 10210720,
+      "step": 4720
+    },
+    {
+      "epoch": 0.7707993474714518,
+      "grad_norm": 0.16754403710365295,
+      "learning_rate": 0.00038531810766721043,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 10221472,
+      "step": 4725
+    },
+    {
+      "epoch": 0.7716150081566069,
+      "grad_norm": 0.761899471282959,
+      "learning_rate": 0.00038572593800978796,
+      "loss": 0.1995,
+      "num_input_tokens_seen": 10232288,
+      "step": 4730
+    },
+    {
+      "epoch": 0.7724306688417618,
+      "grad_norm": 0.18429462611675262,
+      "learning_rate": 0.0003861337683523654,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 10243616,
+      "step": 4735
+    },
+    {
+      "epoch": 0.7732463295269169,
+      "grad_norm": 0.5064928531646729,
+      "learning_rate": 0.0003865415986949429,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 10254464,
+      "step": 4740
+    },
+    {
+      "epoch": 0.7740619902120718,
+      "grad_norm": 0.21989291906356812,
+      "learning_rate": 0.0003869494290375204,
+      "loss": 0.065,
+      "num_input_tokens_seen": 10265472,
+      "step": 4745
+    },
+    {
+      "epoch": 0.7748776508972267,
+      "grad_norm": 0.2017669528722763,
+      "learning_rate": 0.0003873572593800979,
+      "loss": 0.1856,
+      "num_input_tokens_seen": 10277184,
+      "step": 4750
+    },
+    {
+      "epoch": 0.7756933115823818,
+      "grad_norm": 0.43002089858055115,
+      "learning_rate": 0.0003877650897226754,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 10287104,
+      "step": 4755
+    },
+    {
+      "epoch": 0.7765089722675367,
+      "grad_norm": 0.11221319437026978,
+      "learning_rate": 0.0003881729200652528,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 10297952,
+      "step": 4760
+    },
+    {
+      "epoch": 0.7773246329526917,
+      "grad_norm": 0.12216249108314514,
+      "learning_rate": 0.00038858075040783035,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 10309440,
+      "step": 4765
+    },
+    {
+      "epoch": 0.7781402936378466,
+      "grad_norm": 0.12690703570842743,
+      "learning_rate": 0.00038898858075040783,
+      "loss": 0.2505,
+      "num_input_tokens_seen": 10319680,
+      "step": 4770
+    },
+    {
+      "epoch": 0.7789559543230016,
+      "grad_norm": 0.2630586624145508,
+      "learning_rate": 0.00038939641109298536,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 10331424,
+      "step": 4775
+    },
+    {
+      "epoch": 0.7797716150081566,
+      "grad_norm": 0.5038022398948669,
+      "learning_rate": 0.00038980424143556284,
+      "loss": 0.2242,
+      "num_input_tokens_seen": 10341600,
+      "step": 4780
+    },
+    {
+      "epoch": 0.7805872756933115,
+      "grad_norm": 0.30624839663505554,
+      "learning_rate": 0.00039021207177814026,
+      "loss": 0.2602,
+      "num_input_tokens_seen": 10353504,
+      "step": 4785
+    },
+    {
+      "epoch": 0.7814029363784666,
+      "grad_norm": 0.10484899580478668,
+      "learning_rate": 0.0003906199021207178,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 10365536,
+      "step": 4790
+    },
+    {
+      "epoch": 0.7822185970636215,
+      "grad_norm": 0.285604327917099,
+      "learning_rate": 0.00039102773246329527,
+      "loss": 0.1797,
+      "num_input_tokens_seen": 10375456,
+      "step": 4795
+    },
+    {
+      "epoch": 0.7830342577487766,
+      "grad_norm": 0.14094938337802887,
+      "learning_rate": 0.0003914355628058728,
+      "loss": 0.1878,
+      "num_input_tokens_seen": 10386336,
+      "step": 4800
+    },
+    {
+      "epoch": 0.7838499184339315,
+      "grad_norm": 0.04346349090337753,
+      "learning_rate": 0.0003918433931484502,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 10397504,
+      "step": 4805
+    },
+    {
+      "epoch": 0.7846655791190864,
+      "grad_norm": 0.128965362906456,
+      "learning_rate": 0.00039225122349102775,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 10407520,
+      "step": 4810
+    },
+    {
+      "epoch": 0.7854812398042414,
+      "grad_norm": 0.3891755938529968,
+      "learning_rate": 0.0003926590538336052,
+      "loss": 0.1559,
+      "num_input_tokens_seen": 10418368,
+      "step": 4815
+    },
+    {
+      "epoch": 0.7862969004893964,
+      "grad_norm": 0.0359419621527195,
+      "learning_rate": 0.0003930668841761827,
+      "loss": 0.1942,
+      "num_input_tokens_seen": 10428864,
+      "step": 4820
+    },
+    {
+      "epoch": 0.7871125611745514,
+      "grad_norm": 0.36615094542503357,
+      "learning_rate": 0.00039347471451876023,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 10440224,
+      "step": 4825
+    },
+    {
+      "epoch": 0.7879282218597063,
+      "grad_norm": 0.2508382499217987,
+      "learning_rate": 0.00039388254486133766,
+      "loss": 0.1644,
+      "num_input_tokens_seen": 10450912,
+      "step": 4830
+    },
+    {
+      "epoch": 0.7887438825448614,
+      "grad_norm": 0.19512003660202026,
+      "learning_rate": 0.0003942903752039152,
+      "loss": 0.1277,
+      "num_input_tokens_seen": 10460352,
+      "step": 4835
+    },
+    {
+      "epoch": 0.7895595432300163,
+      "grad_norm": 0.23638033866882324,
+      "learning_rate": 0.00039469820554649266,
+      "loss": 0.242,
+      "num_input_tokens_seen": 10471968,
+      "step": 4840
+    },
+    {
+      "epoch": 0.7903752039151712,
+      "grad_norm": 0.43455421924591064,
+      "learning_rate": 0.0003951060358890702,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 10481312,
+      "step": 4845
+    },
+    {
+      "epoch": 0.7911908646003263,
+      "grad_norm": 0.13896767795085907,
+      "learning_rate": 0.00039551386623164767,
+      "loss": 0.1634,
+      "num_input_tokens_seen": 10491136,
+      "step": 4850
+    },
+    {
+      "epoch": 0.7920065252854812,
+      "grad_norm": 0.31423068046569824,
+      "learning_rate": 0.0003959216965742251,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 10501344,
+      "step": 4855
+    },
+    {
+      "epoch": 0.7928221859706363,
+      "grad_norm": 0.08108766376972198,
+      "learning_rate": 0.0003963295269168026,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 10511968,
+      "step": 4860
+    },
+    {
+      "epoch": 0.7936378466557912,
+      "grad_norm": 0.3036273717880249,
+      "learning_rate": 0.0003967373572593801,
+      "loss": 0.139,
+      "num_input_tokens_seen": 10523296,
+      "step": 4865
+    },
+    {
+      "epoch": 0.7944535073409462,
+      "grad_norm": 0.18951745331287384,
+      "learning_rate": 0.00039714518760195763,
+      "loss": 0.068,
+      "num_input_tokens_seen": 10532992,
+      "step": 4870
+    },
+    {
+      "epoch": 0.7952691680261011,
+      "grad_norm": 0.030269593000411987,
+      "learning_rate": 0.00039755301794453505,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 10544768,
+      "step": 4875
+    },
+    {
+      "epoch": 0.7960848287112561,
+      "grad_norm": 0.29710137844085693,
+      "learning_rate": 0.00039796084828711253,
+      "loss": 0.049,
+      "num_input_tokens_seen": 10555680,
+      "step": 4880
+    },
+    {
+      "epoch": 0.7969004893964111,
+      "grad_norm": 0.21235564351081848,
+      "learning_rate": 0.00039836867862969006,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 10566304,
+      "step": 4885
+    },
+    {
+      "epoch": 0.797716150081566,
+      "grad_norm": 0.6146203875541687,
+      "learning_rate": 0.00039877650897226754,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 10576128,
+      "step": 4890
+    },
+    {
+      "epoch": 0.7985318107667211,
+      "grad_norm": 0.18994970619678497,
+      "learning_rate": 0.00039918433931484507,
+      "loss": 0.032,
+      "num_input_tokens_seen": 10587072,
+      "step": 4895
+    },
+    {
+      "epoch": 0.799347471451876,
+      "grad_norm": 1.0278782844543457,
+      "learning_rate": 0.0003995921696574225,
+      "loss": 0.087,
+      "num_input_tokens_seen": 10597696,
+      "step": 4900
+    },
+    {
+      "epoch": 0.8001631321370309,
+      "grad_norm": 0.9544143676757812,
+      "learning_rate": 0.0004,
+      "loss": 0.1629,
+      "num_input_tokens_seen": 10608928,
+      "step": 4905
+    },
+    {
+      "epoch": 0.800978792822186,
+      "grad_norm": 0.12461934238672256,
+      "learning_rate": 0.0004004078303425775,
+      "loss": 0.04,
+      "num_input_tokens_seen": 10619872,
+      "step": 4910
+    },
+    {
+      "epoch": 0.8017944535073409,
+      "grad_norm": 0.027850087732076645,
+      "learning_rate": 0.00040081566068515497,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 10631360,
+      "step": 4915
+    },
+    {
+      "epoch": 0.802610114192496,
+      "grad_norm": 0.21807579696178436,
+      "learning_rate": 0.0004012234910277325,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 10642880,
+      "step": 4920
+    },
+    {
+      "epoch": 0.8034257748776509,
+      "grad_norm": 0.40161916613578796,
+      "learning_rate": 0.0004016313213703099,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 10651968,
+      "step": 4925
+    },
+    {
+      "epoch": 0.8042414355628059,
+      "grad_norm": 0.8437064290046692,
+      "learning_rate": 0.00040203915171288746,
+      "loss": 0.246,
+      "num_input_tokens_seen": 10662240,
+      "step": 4930
+    },
+    {
+      "epoch": 0.8050570962479608,
+      "grad_norm": 0.15779760479927063,
+      "learning_rate": 0.00040244698205546493,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 10672864,
+      "step": 4935
+    },
+    {
+      "epoch": 0.8058727569331158,
+      "grad_norm": 0.08539305627346039,
+      "learning_rate": 0.00040285481239804246,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 10683936,
+      "step": 4940
+    },
+    {
+      "epoch": 0.8066884176182708,
+      "grad_norm": 0.8961646556854248,
+      "learning_rate": 0.0004032626427406199,
+      "loss": 0.2105,
+      "num_input_tokens_seen": 10695104,
+      "step": 4945
+    },
+    {
+      "epoch": 0.8075040783034257,
+      "grad_norm": 0.11104848980903625,
+      "learning_rate": 0.00040367047308319736,
+      "loss": 0.1674,
+      "num_input_tokens_seen": 10706528,
+      "step": 4950
+    },
+    {
+      "epoch": 0.8083197389885808,
+      "grad_norm": 0.26247522234916687,
+      "learning_rate": 0.0004040783034257749,
+      "loss": 0.1362,
+      "num_input_tokens_seen": 10717728,
+      "step": 4955
+    },
+    {
+      "epoch": 0.8091353996737357,
+      "grad_norm": 0.030089763924479485,
+      "learning_rate": 0.00040448613376835237,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 10727104,
+      "step": 4960
+    },
+    {
+      "epoch": 0.8099510603588908,
+      "grad_norm": 0.11344542354345322,
+      "learning_rate": 0.0004048939641109299,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 10737952,
+      "step": 4965
+    },
+    {
+      "epoch": 0.8107667210440457,
+      "grad_norm": 0.3622676134109497,
+      "learning_rate": 0.0004053017944535073,
+      "loss": 0.2602,
+      "num_input_tokens_seen": 10747744,
+      "step": 4970
+    },
+    {
+      "epoch": 0.8115823817292006,
+      "grad_norm": 0.08006960898637772,
+      "learning_rate": 0.00040570962479608485,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 10757920,
+      "step": 4975
+    },
+    {
+      "epoch": 0.8123980424143556,
+      "grad_norm": 0.12218235433101654,
+      "learning_rate": 0.00040611745513866233,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 10768896,
+      "step": 4980
+    },
+    {
+      "epoch": 0.8132137030995106,
+      "grad_norm": 0.0940176248550415,
+      "learning_rate": 0.0004065252854812398,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 10779136,
+      "step": 4985
+    },
+    {
+      "epoch": 0.8140293637846656,
+      "grad_norm": 0.17066459357738495,
+      "learning_rate": 0.00040693311582381734,
+      "loss": 0.1839,
+      "num_input_tokens_seen": 10789280,
+      "step": 4990
+    },
+    {
+      "epoch": 0.8148450244698205,
+      "grad_norm": 0.17495228350162506,
+      "learning_rate": 0.00040734094616639476,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 10800192,
+      "step": 4995
+    },
+    {
+      "epoch": 0.8156606851549756,
+      "grad_norm": 0.4211640954017639,
+      "learning_rate": 0.0004077487765089723,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 10811296,
+      "step": 5000
+    },
+    {
+      "epoch": 0.8164763458401305,
+      "grad_norm": 0.1242627203464508,
+      "learning_rate": 0.00040815660685154977,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 10822272,
+      "step": 5005
+    },
+    {
+      "epoch": 0.8172920065252854,
+      "grad_norm": 0.684248149394989,
+      "learning_rate": 0.00040856443719412724,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 10832832,
+      "step": 5010
+    },
+    {
+      "epoch": 0.8181076672104405,
+      "grad_norm": 0.5153582692146301,
+      "learning_rate": 0.00040897226753670477,
+      "loss": 0.2636,
+      "num_input_tokens_seen": 10843008,
+      "step": 5015
+    },
+    {
+      "epoch": 0.8189233278955954,
+      "grad_norm": 0.13736863434314728,
+      "learning_rate": 0.0004093800978792822,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 10856000,
+      "step": 5020
+    },
+    {
+      "epoch": 0.8197389885807504,
+      "grad_norm": 0.07956301420927048,
+      "learning_rate": 0.0004097879282218597,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 10866144,
+      "step": 5025
+    },
+    {
+      "epoch": 0.8205546492659054,
+      "grad_norm": 0.7332919239997864,
+      "learning_rate": 0.0004101957585644372,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 10877312,
+      "step": 5030
+    },
+    {
+      "epoch": 0.8213703099510603,
+      "grad_norm": 0.054674167186021805,
+      "learning_rate": 0.00041060358890701473,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 10887040,
+      "step": 5035
+    },
+    {
+      "epoch": 0.8221859706362153,
+      "grad_norm": 0.20225413143634796,
+      "learning_rate": 0.00041101141924959215,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 10897440,
+      "step": 5040
+    },
+    {
+      "epoch": 0.8230016313213703,
+      "grad_norm": 0.6315981149673462,
+      "learning_rate": 0.00041141924959216963,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 10909504,
+      "step": 5045
+    },
+    {
+      "epoch": 0.8238172920065253,
+      "grad_norm": 0.7156874537467957,
+      "learning_rate": 0.00041182707993474716,
+      "loss": 0.3704,
+      "num_input_tokens_seen": 10921728,
+      "step": 5050
+    },
+    {
+      "epoch": 0.8246329526916802,
+      "grad_norm": 0.16364993155002594,
+      "learning_rate": 0.00041223491027732464,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 10931776,
+      "step": 5055
+    },
+    {
+      "epoch": 0.8254486133768353,
+      "grad_norm": 0.12342008948326111,
+      "learning_rate": 0.00041264274061990217,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 10942784,
+      "step": 5060
+    },
+    {
+      "epoch": 0.8262642740619902,
+      "grad_norm": 0.04900471493601799,
+      "learning_rate": 0.0004130505709624796,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 10954272,
+      "step": 5065
+    },
+    {
+      "epoch": 0.8270799347471451,
+      "grad_norm": 0.40814009308815,
+      "learning_rate": 0.0004134584013050571,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 10964864,
+      "step": 5070
+    },
+    {
+      "epoch": 0.8278955954323002,
+      "grad_norm": 0.0919327363371849,
+      "learning_rate": 0.0004138662316476346,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 10975104,
+      "step": 5075
+    },
+    {
+      "epoch": 0.8287112561174551,
+      "grad_norm": 0.6414536237716675,
+      "learning_rate": 0.0004142740619902121,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 10985152,
+      "step": 5080
+    },
+    {
+      "epoch": 0.8295269168026101,
+      "grad_norm": 0.05294128879904747,
+      "learning_rate": 0.0004146818923327896,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 10996640,
+      "step": 5085
+    },
+    {
+      "epoch": 0.8303425774877651,
+      "grad_norm": 0.0711590051651001,
+      "learning_rate": 0.00041508972267536703,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 11007328,
+      "step": 5090
+    },
+    {
+      "epoch": 0.8311582381729201,
+      "grad_norm": 0.27603647112846375,
+      "learning_rate": 0.00041549755301794456,
+      "loss": 0.1779,
+      "num_input_tokens_seen": 11017760,
+      "step": 5095
+    },
+    {
+      "epoch": 0.831973898858075,
+      "grad_norm": 0.6225929856300354,
+      "learning_rate": 0.00041590538336052203,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 11028768,
+      "step": 5100
+    },
+    {
+      "epoch": 0.83278955954323,
+      "grad_norm": 0.2413845807313919,
+      "learning_rate": 0.00041631321370309957,
+      "loss": 0.269,
+      "num_input_tokens_seen": 11039360,
+      "step": 5105
+    },
+    {
+      "epoch": 0.833605220228385,
+      "grad_norm": 0.3218750059604645,
+      "learning_rate": 0.000416721044045677,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 11050272,
+      "step": 5110
+    },
+    {
+      "epoch": 0.8344208809135399,
+      "grad_norm": 0.42538219690322876,
+      "learning_rate": 0.00041712887438825446,
+      "loss": 0.3043,
+      "num_input_tokens_seen": 11060736,
+      "step": 5115
+    },
+    {
+      "epoch": 0.835236541598695,
+      "grad_norm": 0.951379656791687,
+      "learning_rate": 0.000417536704730832,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 11070688,
+      "step": 5120
+    },
+    {
+      "epoch": 0.8360522022838499,
+      "grad_norm": 0.5826851725578308,
+      "learning_rate": 0.00041794453507340947,
+      "loss": 0.2831,
+      "num_input_tokens_seen": 11080800,
+      "step": 5125
+    },
+    {
+      "epoch": 0.8368678629690048,
+      "grad_norm": 0.1050708070397377,
+      "learning_rate": 0.000418352365415987,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 11091680,
+      "step": 5130
+    },
+    {
+      "epoch": 0.8376835236541599,
+      "grad_norm": 0.08830724656581879,
+      "learning_rate": 0.0004187601957585644,
+      "loss": 0.1475,
+      "num_input_tokens_seen": 11102656,
+      "step": 5135
+    },
+    {
+      "epoch": 0.8384991843393148,
+      "grad_norm": 0.21703684329986572,
+      "learning_rate": 0.0004191680261011419,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 11112960,
+      "step": 5140
+    },
+    {
+      "epoch": 0.8393148450244698,
+      "grad_norm": 0.07175783067941666,
+      "learning_rate": 0.00041957585644371943,
+      "loss": 0.098,
+      "num_input_tokens_seen": 11124512,
+      "step": 5145
+    },
+    {
+      "epoch": 0.8401305057096248,
+      "grad_norm": 0.33142393827438354,
+      "learning_rate": 0.0004199836867862969,
+      "loss": 0.2984,
+      "num_input_tokens_seen": 11134976,
+      "step": 5150
+    },
+    {
+      "epoch": 0.8409461663947798,
+      "grad_norm": 0.46356773376464844,
+      "learning_rate": 0.00042039151712887444,
+      "loss": 0.1555,
+      "num_input_tokens_seen": 11146144,
+      "step": 5155
+    },
+    {
+      "epoch": 0.8417618270799347,
+      "grad_norm": 0.36611565947532654,
+      "learning_rate": 0.00042079934747145186,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 11157152,
+      "step": 5160
+    },
+    {
+      "epoch": 0.8425774877650897,
+      "grad_norm": 0.11518274247646332,
+      "learning_rate": 0.0004212071778140294,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 11166400,
+      "step": 5165
+    },
+    {
+      "epoch": 0.8433931484502447,
+      "grad_norm": 0.3951309025287628,
+      "learning_rate": 0.00042161500815660687,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 11178016,
+      "step": 5170
+    },
+    {
+      "epoch": 0.8442088091353996,
+      "grad_norm": 0.4681323766708374,
+      "learning_rate": 0.00042202283849918434,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 11188992,
+      "step": 5175
+    },
+    {
+      "epoch": 0.8450244698205547,
+      "grad_norm": 0.26340165734291077,
+      "learning_rate": 0.0004224306688417618,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 11200160,
+      "step": 5180
+    },
+    {
+      "epoch": 0.8458401305057096,
+      "grad_norm": 0.562423586845398,
+      "learning_rate": 0.0004228384991843393,
+      "loss": 0.2449,
+      "num_input_tokens_seen": 11211776,
+      "step": 5185
+    },
+    {
+      "epoch": 0.8466557911908646,
+      "grad_norm": 0.7215205430984497,
+      "learning_rate": 0.00042324632952691683,
+      "loss": 0.2644,
+      "num_input_tokens_seen": 11223328,
+      "step": 5190
+    },
+    {
+      "epoch": 0.8474714518760196,
+      "grad_norm": 0.04237314313650131,
+      "learning_rate": 0.0004236541598694943,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 11234528,
+      "step": 5195
+    },
+    {
+      "epoch": 0.8482871125611745,
+      "grad_norm": 0.09171731770038605,
+      "learning_rate": 0.00042406199021207183,
+      "loss": 0.1566,
+      "num_input_tokens_seen": 11245920,
+      "step": 5200
+    },
+    {
+      "epoch": 0.8491027732463295,
+      "grad_norm": 0.135093554854393,
+      "learning_rate": 0.00042446982055464926,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 11258080,
+      "step": 5205
+    },
+    {
+      "epoch": 0.8499184339314845,
+      "grad_norm": 0.10724607855081558,
+      "learning_rate": 0.00042487765089722673,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 11270176,
+      "step": 5210
+    },
+    {
+      "epoch": 0.8507340946166395,
+      "grad_norm": 0.08377696573734283,
+      "learning_rate": 0.00042528548123980426,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 11282016,
+      "step": 5215
+    },
+    {
+      "epoch": 0.8515497553017944,
+      "grad_norm": 0.12989285588264465,
+      "learning_rate": 0.00042569331158238174,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 11292320,
+      "step": 5220
+    },
+    {
+      "epoch": 0.8523654159869495,
+      "grad_norm": 0.13682430982589722,
+      "learning_rate": 0.00042610114192495927,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 11303040,
+      "step": 5225
+    },
+    {
+      "epoch": 0.8531810766721044,
+      "grad_norm": 0.7620516419410706,
+      "learning_rate": 0.0004265089722675367,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 11312672,
+      "step": 5230
+    },
+    {
+      "epoch": 0.8539967373572593,
+      "grad_norm": 0.033026549965143204,
+      "learning_rate": 0.00042691680261011417,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 11323488,
+      "step": 5235
+    },
+    {
+      "epoch": 0.8548123980424144,
+      "grad_norm": 0.16827772557735443,
+      "learning_rate": 0.0004273246329526917,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 11334176,
+      "step": 5240
+    },
+    {
+      "epoch": 0.8556280587275693,
+      "grad_norm": 0.16478866338729858,
+      "learning_rate": 0.0004277324632952692,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 11345632,
+      "step": 5245
+    },
+    {
+      "epoch": 0.8564437194127243,
+      "grad_norm": 0.2556282579898834,
+      "learning_rate": 0.00042814029363784665,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 11355552,
+      "step": 5250
+    },
+    {
+      "epoch": 0.8572593800978793,
+      "grad_norm": 0.02794981375336647,
+      "learning_rate": 0.00042854812398042413,
+      "loss": 0.1908,
+      "num_input_tokens_seen": 11367072,
+      "step": 5255
+    },
+    {
+      "epoch": 0.8580750407830342,
+      "grad_norm": 0.5714795589447021,
+      "learning_rate": 0.00042895595432300166,
+      "loss": 0.2137,
+      "num_input_tokens_seen": 11377120,
+      "step": 5260
+    },
+    {
+      "epoch": 0.8588907014681892,
+      "grad_norm": 0.11488376557826996,
+      "learning_rate": 0.00042936378466557914,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 11388416,
+      "step": 5265
+    },
+    {
+      "epoch": 0.8597063621533442,
+      "grad_norm": 0.08155690133571625,
+      "learning_rate": 0.0004297716150081566,
+      "loss": 0.1723,
+      "num_input_tokens_seen": 11398528,
+      "step": 5270
+    },
+    {
+      "epoch": 0.8605220228384992,
+      "grad_norm": 0.10925207287073135,
+      "learning_rate": 0.0004301794453507341,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 11408576,
+      "step": 5275
+    },
+    {
+      "epoch": 0.8613376835236541,
+      "grad_norm": 0.23385116457939148,
+      "learning_rate": 0.00043058727569331157,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 11420000,
+      "step": 5280
+    },
+    {
+      "epoch": 0.8621533442088092,
+      "grad_norm": 0.510635495185852,
+      "learning_rate": 0.0004309951060358891,
+      "loss": 0.1581,
+      "num_input_tokens_seen": 11430528,
+      "step": 5285
+    },
+    {
+      "epoch": 0.8629690048939641,
+      "grad_norm": 0.08769966661930084,
+      "learning_rate": 0.0004314029363784666,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 11440992,
+      "step": 5290
+    },
+    {
+      "epoch": 0.863784665579119,
+      "grad_norm": 0.09656643867492676,
+      "learning_rate": 0.0004318107667210441,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 11451712,
+      "step": 5295
+    },
+    {
+      "epoch": 0.8646003262642741,
+      "grad_norm": 0.5707296133041382,
+      "learning_rate": 0.0004322185970636215,
+      "loss": 0.1564,
+      "num_input_tokens_seen": 11463584,
+      "step": 5300
+    },
+    {
+      "epoch": 0.865415986949429,
+      "grad_norm": 0.18754911422729492,
+      "learning_rate": 0.000432626427406199,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 11474560,
+      "step": 5305
+    },
+    {
+      "epoch": 0.866231647634584,
+      "grad_norm": 0.0587138757109642,
+      "learning_rate": 0.00043303425774877653,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 11486080,
+      "step": 5310
+    },
+    {
+      "epoch": 0.867047308319739,
+      "grad_norm": 0.026419376954436302,
+      "learning_rate": 0.000433442088091354,
+      "loss": 0.1829,
+      "num_input_tokens_seen": 11498464,
+      "step": 5315
+    },
+    {
+      "epoch": 0.867862969004894,
+      "grad_norm": 0.5190200209617615,
+      "learning_rate": 0.0004338499184339315,
+      "loss": 0.2018,
+      "num_input_tokens_seen": 11509376,
+      "step": 5320
+    },
+    {
+      "epoch": 0.8686786296900489,
+      "grad_norm": 0.07488425821065903,
+      "learning_rate": 0.00043425774877650896,
+      "loss": 0.202,
+      "num_input_tokens_seen": 11520480,
+      "step": 5325
+    },
+    {
+      "epoch": 0.8694942903752039,
+      "grad_norm": 0.18614496290683746,
+      "learning_rate": 0.0004346655791190865,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 11531136,
+      "step": 5330
+    },
+    {
+      "epoch": 0.8703099510603589,
+      "grad_norm": 0.05950484424829483,
+      "learning_rate": 0.00043507340946166397,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 11541408,
+      "step": 5335
+    },
+    {
+      "epoch": 0.8711256117455138,
+      "grad_norm": 0.21500875055789948,
+      "learning_rate": 0.00043548123980424145,
+      "loss": 0.2217,
+      "num_input_tokens_seen": 11552320,
+      "step": 5340
+    },
+    {
+      "epoch": 0.8719412724306689,
+      "grad_norm": 0.773648202419281,
+      "learning_rate": 0.0004358890701468189,
+      "loss": 0.2593,
+      "num_input_tokens_seen": 11563232,
+      "step": 5345
+    },
+    {
+      "epoch": 0.8727569331158238,
+      "grad_norm": 0.14433734118938446,
+      "learning_rate": 0.0004362969004893964,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 11573856,
+      "step": 5350
+    },
+    {
+      "epoch": 0.8735725938009788,
+      "grad_norm": 0.10043247789144516,
+      "learning_rate": 0.00043670473083197393,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 11584960,
+      "step": 5355
+    },
+    {
+      "epoch": 0.8743882544861338,
+      "grad_norm": 0.03573020547628403,
+      "learning_rate": 0.0004371125611745514,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 11595168,
+      "step": 5360
+    },
+    {
+      "epoch": 0.8752039151712887,
+      "grad_norm": 0.25010839104652405,
+      "learning_rate": 0.0004375203915171289,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 11605472,
+      "step": 5365
+    },
+    {
+      "epoch": 0.8760195758564437,
+      "grad_norm": 0.22654956579208374,
+      "learning_rate": 0.00043792822185970636,
+      "loss": 0.035,
+      "num_input_tokens_seen": 11616224,
+      "step": 5370
+    },
+    {
+      "epoch": 0.8768352365415987,
+      "grad_norm": 0.20199733972549438,
+      "learning_rate": 0.00043833605220228384,
+      "loss": 0.077,
+      "num_input_tokens_seen": 11626816,
+      "step": 5375
+    },
+    {
+      "epoch": 0.8776508972267537,
+      "grad_norm": 0.20932228863239288,
+      "learning_rate": 0.00043874388254486137,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 11637152,
+      "step": 5380
+    },
+    {
+      "epoch": 0.8784665579119086,
+      "grad_norm": 0.268714964389801,
+      "learning_rate": 0.00043915171288743884,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 11648160,
+      "step": 5385
+    },
+    {
+      "epoch": 0.8792822185970636,
+      "grad_norm": 0.25124499201774597,
+      "learning_rate": 0.0004395595432300163,
+      "loss": 0.2045,
+      "num_input_tokens_seen": 11660320,
+      "step": 5390
+    },
+    {
+      "epoch": 0.8800978792822186,
+      "grad_norm": 0.030649229884147644,
+      "learning_rate": 0.0004399673735725938,
+      "loss": 0.1744,
+      "num_input_tokens_seen": 11670816,
+      "step": 5395
+    },
+    {
+      "epoch": 0.8809135399673735,
+      "grad_norm": 0.06209159642457962,
+      "learning_rate": 0.00044037520391517127,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 11682560,
+      "step": 5400
+    },
+    {
+      "epoch": 0.8817292006525286,
+      "grad_norm": 0.13285031914710999,
+      "learning_rate": 0.0004407830342577488,
+      "loss": 0.3882,
+      "num_input_tokens_seen": 11694400,
+      "step": 5405
+    },
+    {
+      "epoch": 0.8825448613376835,
+      "grad_norm": 0.14116713404655457,
+      "learning_rate": 0.0004411908646003263,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 11705728,
+      "step": 5410
+    },
+    {
+      "epoch": 0.8833605220228385,
+      "grad_norm": 0.23796717822551727,
+      "learning_rate": 0.00044159869494290376,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 11716736,
+      "step": 5415
+    },
+    {
+      "epoch": 0.8841761827079935,
+      "grad_norm": 0.18344132602214813,
+      "learning_rate": 0.00044200652528548123,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 11726208,
+      "step": 5420
+    },
+    {
+      "epoch": 0.8849918433931484,
+      "grad_norm": 0.10778245329856873,
+      "learning_rate": 0.00044241435562805876,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 11737664,
+      "step": 5425
+    },
+    {
+      "epoch": 0.8858075040783034,
+      "grad_norm": 0.22092236578464508,
+      "learning_rate": 0.00044282218597063624,
+      "loss": 0.1987,
+      "num_input_tokens_seen": 11749312,
+      "step": 5430
+    },
+    {
+      "epoch": 0.8866231647634584,
+      "grad_norm": 0.6242573261260986,
+      "learning_rate": 0.0004432300163132137,
+      "loss": 0.2475,
+      "num_input_tokens_seen": 11760192,
+      "step": 5435
+    },
+    {
+      "epoch": 0.8874388254486134,
+      "grad_norm": 0.2279716432094574,
+      "learning_rate": 0.0004436378466557912,
+      "loss": 0.164,
+      "num_input_tokens_seen": 11770464,
+      "step": 5440
+    },
+    {
+      "epoch": 0.8882544861337683,
+      "grad_norm": 0.06530027091503143,
+      "learning_rate": 0.00044404567699836867,
+      "loss": 0.1861,
+      "num_input_tokens_seen": 11781344,
+      "step": 5445
+    },
+    {
+      "epoch": 0.8890701468189234,
+      "grad_norm": 0.14814841747283936,
+      "learning_rate": 0.0004444535073409462,
+      "loss": 0.116,
+      "num_input_tokens_seen": 11791968,
+      "step": 5450
+    },
+    {
+      "epoch": 0.8898858075040783,
+      "grad_norm": 0.3580428659915924,
+      "learning_rate": 0.0004448613376835237,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 11802624,
+      "step": 5455
+    },
+    {
+      "epoch": 0.8907014681892332,
+      "grad_norm": 0.944884717464447,
+      "learning_rate": 0.0004452691680261011,
+      "loss": 0.2742,
+      "num_input_tokens_seen": 11813248,
+      "step": 5460
+    },
+    {
+      "epoch": 0.8915171288743883,
+      "grad_norm": 0.2670440077781677,
+      "learning_rate": 0.00044567699836867863,
+      "loss": 0.1914,
+      "num_input_tokens_seen": 11823040,
+      "step": 5465
+    },
+    {
+      "epoch": 0.8923327895595432,
+      "grad_norm": 0.3020407259464264,
+      "learning_rate": 0.0004460848287112561,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 11834528,
+      "step": 5470
+    },
+    {
+      "epoch": 0.8931484502446982,
+      "grad_norm": 0.21428096294403076,
+      "learning_rate": 0.00044649265905383364,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 11844896,
+      "step": 5475
+    },
+    {
+      "epoch": 0.8939641109298532,
+      "grad_norm": 0.2839694321155548,
+      "learning_rate": 0.0004469004893964111,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 11855392,
+      "step": 5480
+    },
+    {
+      "epoch": 0.8947797716150081,
+      "grad_norm": 0.6894422769546509,
+      "learning_rate": 0.0004473083197389886,
+      "loss": 0.2677,
+      "num_input_tokens_seen": 11864608,
+      "step": 5485
+    },
+    {
+      "epoch": 0.8955954323001631,
+      "grad_norm": 0.20967309176921844,
+      "learning_rate": 0.00044771615008156607,
+      "loss": 0.2639,
+      "num_input_tokens_seen": 11875776,
+      "step": 5490
+    },
+    {
+      "epoch": 0.8964110929853181,
+      "grad_norm": 0.37381711602211,
+      "learning_rate": 0.00044812398042414354,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 11885472,
+      "step": 5495
+    },
+    {
+      "epoch": 0.8972267536704731,
+      "grad_norm": 0.6217723488807678,
+      "learning_rate": 0.00044853181076672107,
+      "loss": 0.178,
+      "num_input_tokens_seen": 11897056,
+      "step": 5500
+    },
+    {
+      "epoch": 0.898042414355628,
+      "grad_norm": 0.4900282323360443,
+      "learning_rate": 0.00044893964110929855,
+      "loss": 0.1818,
+      "num_input_tokens_seen": 11907104,
+      "step": 5505
+    },
+    {
+      "epoch": 0.8988580750407831,
+      "grad_norm": 0.05841980502009392,
+      "learning_rate": 0.000449347471451876,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 11916960,
+      "step": 5510
+    },
+    {
+      "epoch": 0.899673735725938,
+      "grad_norm": 0.0654044821858406,
+      "learning_rate": 0.0004497553017944535,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 11927232,
+      "step": 5515
+    },
+    {
+      "epoch": 0.9004893964110929,
+      "grad_norm": 0.1382654458284378,
+      "learning_rate": 0.00045016313213703103,
+      "loss": 0.2114,
+      "num_input_tokens_seen": 11938272,
+      "step": 5520
+    },
+    {
+      "epoch": 0.901305057096248,
+      "grad_norm": 0.2675796449184418,
+      "learning_rate": 0.0004505709624796085,
+      "loss": 0.2142,
+      "num_input_tokens_seen": 11949632,
+      "step": 5525
+    },
+    {
+      "epoch": 0.9021207177814029,
+      "grad_norm": 0.05411672219634056,
+      "learning_rate": 0.00045097879282218593,
+      "loss": 0.1789,
+      "num_input_tokens_seen": 11959232,
+      "step": 5530
+    },
+    {
+      "epoch": 0.9029363784665579,
+      "grad_norm": 0.3251686096191406,
+      "learning_rate": 0.00045138662316476346,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 11970304,
+      "step": 5535
+    },
+    {
+      "epoch": 0.9037520391517129,
+      "grad_norm": 0.15985806286334991,
+      "learning_rate": 0.00045179445350734094,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 11980864,
+      "step": 5540
+    },
+    {
+      "epoch": 0.9045676998368679,
+      "grad_norm": 0.5636354684829712,
+      "learning_rate": 0.00045220228384991847,
+      "loss": 0.1869,
+      "num_input_tokens_seen": 11990592,
+      "step": 5545
+    },
+    {
+      "epoch": 0.9053833605220228,
+      "grad_norm": 0.07867056131362915,
+      "learning_rate": 0.00045261011419249595,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 12002720,
+      "step": 5550
+    },
+    {
+      "epoch": 0.9061990212071778,
+      "grad_norm": 0.7367706298828125,
+      "learning_rate": 0.0004530179445350734,
+      "loss": 0.126,
+      "num_input_tokens_seen": 12012896,
+      "step": 5555
+    },
+    {
+      "epoch": 0.9070146818923328,
+      "grad_norm": 0.75595623254776,
+      "learning_rate": 0.0004534257748776509,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 12025120,
+      "step": 5560
+    },
+    {
+      "epoch": 0.9078303425774877,
+      "grad_norm": 0.9178465008735657,
+      "learning_rate": 0.0004538336052202284,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 12036384,
+      "step": 5565
+    },
+    {
+      "epoch": 0.9086460032626428,
+      "grad_norm": 0.47468215227127075,
+      "learning_rate": 0.0004542414355628059,
+      "loss": 0.2105,
+      "num_input_tokens_seen": 12047296,
+      "step": 5570
+    },
+    {
+      "epoch": 0.9094616639477977,
+      "grad_norm": 0.175617977976799,
+      "learning_rate": 0.0004546492659053834,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 12057664,
+      "step": 5575
+    },
+    {
+      "epoch": 0.9102773246329527,
+      "grad_norm": 0.21897639334201813,
+      "learning_rate": 0.00045505709624796086,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 12069344,
+      "step": 5580
+    },
+    {
+      "epoch": 0.9110929853181077,
+      "grad_norm": 0.10874702781438828,
+      "learning_rate": 0.00045546492659053833,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 12080224,
+      "step": 5585
+    },
+    {
+      "epoch": 0.9119086460032626,
+      "grad_norm": 0.36471787095069885,
+      "learning_rate": 0.0004558727569331158,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 12089824,
+      "step": 5590
+    },
+    {
+      "epoch": 0.9127243066884176,
+      "grad_norm": 0.024809151887893677,
+      "learning_rate": 0.00045628058727569334,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 12101152,
+      "step": 5595
+    },
+    {
+      "epoch": 0.9135399673735726,
+      "grad_norm": 0.024391191080212593,
+      "learning_rate": 0.00045668841761827076,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 12111936,
+      "step": 5600
+    },
+    {
+      "epoch": 0.9143556280587276,
+      "grad_norm": 0.18645010888576508,
+      "learning_rate": 0.0004570962479608483,
+      "loss": 0.1784,
+      "num_input_tokens_seen": 12122528,
+      "step": 5605
+    },
+    {
+      "epoch": 0.9151712887438825,
+      "grad_norm": 0.03236968070268631,
+      "learning_rate": 0.00045750407830342577,
+      "loss": 0.2051,
+      "num_input_tokens_seen": 12132128,
+      "step": 5610
+    },
+    {
+      "epoch": 0.9159869494290375,
+      "grad_norm": 0.036100562661886215,
+      "learning_rate": 0.0004579119086460033,
+      "loss": 0.2114,
+      "num_input_tokens_seen": 12143552,
+      "step": 5615
+    },
+    {
+      "epoch": 0.9168026101141925,
+      "grad_norm": 0.16130702197551727,
+      "learning_rate": 0.0004583197389885808,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 12152992,
+      "step": 5620
+    },
+    {
+      "epoch": 0.9176182707993474,
+      "grad_norm": 0.23771022260189056,
+      "learning_rate": 0.0004587275693311582,
+      "loss": 0.1475,
+      "num_input_tokens_seen": 12163488,
+      "step": 5625
+    },
+    {
+      "epoch": 0.9184339314845025,
+      "grad_norm": 0.2382916957139969,
+      "learning_rate": 0.00045913539967373573,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 12174976,
+      "step": 5630
+    },
+    {
+      "epoch": 0.9192495921696574,
+      "grad_norm": 0.3301408588886261,
+      "learning_rate": 0.0004595432300163132,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 12185984,
+      "step": 5635
+    },
+    {
+      "epoch": 0.9200652528548124,
+      "grad_norm": 0.7716155648231506,
+      "learning_rate": 0.00045995106035889074,
+      "loss": 0.2212,
+      "num_input_tokens_seen": 12196768,
+      "step": 5640
+    },
+    {
+      "epoch": 0.9208809135399674,
+      "grad_norm": 0.11273916065692902,
+      "learning_rate": 0.0004603588907014682,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 12209120,
+      "step": 5645
+    },
+    {
+      "epoch": 0.9216965742251223,
+      "grad_norm": 0.07322194427251816,
+      "learning_rate": 0.0004607667210440457,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 12220768,
+      "step": 5650
+    },
+    {
+      "epoch": 0.9225122349102773,
+      "grad_norm": 0.1523495316505432,
+      "learning_rate": 0.00046117455138662317,
+      "loss": 0.047,
+      "num_input_tokens_seen": 12230720,
+      "step": 5655
+    },
+    {
+      "epoch": 0.9233278955954323,
+      "grad_norm": 0.6982433795928955,
+      "learning_rate": 0.00046158238172920064,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 12242880,
+      "step": 5660
+    },
+    {
+      "epoch": 0.9241435562805873,
+      "grad_norm": 0.05697758495807648,
+      "learning_rate": 0.0004619902120717782,
+      "loss": 0.0375,
+      "num_input_tokens_seen": 12253760,
+      "step": 5665
+    },
+    {
+      "epoch": 0.9249592169657422,
+      "grad_norm": 0.05087430030107498,
+      "learning_rate": 0.0004623980424143556,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 12263712,
+      "step": 5670
+    },
+    {
+      "epoch": 0.9257748776508973,
+      "grad_norm": 0.04257337376475334,
+      "learning_rate": 0.00046280587275693313,
+      "loss": 0.145,
+      "num_input_tokens_seen": 12274560,
+      "step": 5675
+    },
+    {
+      "epoch": 0.9265905383360522,
+      "grad_norm": 0.3906922936439514,
+      "learning_rate": 0.0004632137030995106,
+      "loss": 0.159,
+      "num_input_tokens_seen": 12285024,
+      "step": 5680
+    },
+    {
+      "epoch": 0.9274061990212071,
+      "grad_norm": 0.21243229508399963,
+      "learning_rate": 0.00046362153344208813,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 12295712,
+      "step": 5685
+    },
+    {
+      "epoch": 0.9282218597063622,
+      "grad_norm": 0.46332404017448425,
+      "learning_rate": 0.0004640293637846656,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 12305024,
+      "step": 5690
+    },
+    {
+      "epoch": 0.9290375203915171,
+      "grad_norm": 0.20840857923030853,
+      "learning_rate": 0.00046443719412724303,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 12315360,
+      "step": 5695
+    },
+    {
+      "epoch": 0.9298531810766721,
+      "grad_norm": 0.39110761880874634,
+      "learning_rate": 0.00046484502446982056,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 12326464,
+      "step": 5700
+    },
+    {
+      "epoch": 0.9306688417618271,
+      "grad_norm": 0.3890259861946106,
+      "learning_rate": 0.00046525285481239804,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 12337600,
+      "step": 5705
+    },
+    {
+      "epoch": 0.9314845024469821,
+      "grad_norm": 0.19361518323421478,
+      "learning_rate": 0.00046566068515497557,
+      "loss": 0.2785,
+      "num_input_tokens_seen": 12347904,
+      "step": 5710
+    },
+    {
+      "epoch": 0.932300163132137,
+      "grad_norm": 0.15051914751529694,
+      "learning_rate": 0.00046606851549755305,
+      "loss": 0.1508,
+      "num_input_tokens_seen": 12359712,
+      "step": 5715
+    },
+    {
+      "epoch": 0.933115823817292,
+      "grad_norm": 0.12826696038246155,
+      "learning_rate": 0.00046647634584013047,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 12369952,
+      "step": 5720
+    },
+    {
+      "epoch": 0.933931484502447,
+      "grad_norm": 0.20581692457199097,
+      "learning_rate": 0.000466884176182708,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 12380384,
+      "step": 5725
+    },
+    {
+      "epoch": 0.9347471451876019,
+      "grad_norm": 0.0365518257021904,
+      "learning_rate": 0.0004672920065252855,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 12391904,
+      "step": 5730
+    },
+    {
+      "epoch": 0.935562805872757,
+      "grad_norm": 0.04881615564227104,
+      "learning_rate": 0.000467699836867863,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 12402944,
+      "step": 5735
+    },
+    {
+      "epoch": 0.9363784665579119,
+      "grad_norm": 0.26118239760398865,
+      "learning_rate": 0.0004681076672104405,
+      "loss": 0.2689,
+      "num_input_tokens_seen": 12414432,
+      "step": 5740
+    },
+    {
+      "epoch": 0.9371941272430668,
+      "grad_norm": 0.18851740658283234,
+      "learning_rate": 0.00046851549755301796,
+      "loss": 0.2165,
+      "num_input_tokens_seen": 12425024,
+      "step": 5745
+    },
+    {
+      "epoch": 0.9380097879282219,
+      "grad_norm": 0.5728957056999207,
+      "learning_rate": 0.00046892332789559544,
+      "loss": 0.2883,
+      "num_input_tokens_seen": 12435232,
+      "step": 5750
+    },
+    {
+      "epoch": 0.9388254486133768,
+      "grad_norm": 0.13215041160583496,
+      "learning_rate": 0.0004693311582381729,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 12445984,
+      "step": 5755
+    },
+    {
+      "epoch": 0.9396411092985318,
+      "grad_norm": 0.2319490611553192,
+      "learning_rate": 0.00046973898858075044,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 12456416,
+      "step": 5760
+    },
+    {
+      "epoch": 0.9404567699836868,
+      "grad_norm": 0.16915561258792877,
+      "learning_rate": 0.00047014681892332787,
+      "loss": 0.2011,
+      "num_input_tokens_seen": 12466656,
+      "step": 5765
+    },
+    {
+      "epoch": 0.9412724306688418,
+      "grad_norm": 0.09713034331798553,
+      "learning_rate": 0.0004705546492659054,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 12477696,
+      "step": 5770
+    },
+    {
+      "epoch": 0.9420880913539967,
+      "grad_norm": 0.7483925223350525,
+      "learning_rate": 0.0004709624796084829,
+      "loss": 0.2129,
+      "num_input_tokens_seen": 12488896,
+      "step": 5775
+    },
+    {
+      "epoch": 0.9429037520391517,
+      "grad_norm": 0.5672449469566345,
+      "learning_rate": 0.0004713703099510604,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 12499040,
+      "step": 5780
+    },
+    {
+      "epoch": 0.9437194127243067,
+      "grad_norm": 0.6804947257041931,
+      "learning_rate": 0.0004717781402936379,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 12509760,
+      "step": 5785
+    },
+    {
+      "epoch": 0.9445350734094616,
+      "grad_norm": 0.24877053499221802,
+      "learning_rate": 0.0004721859706362153,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 12521440,
+      "step": 5790
+    },
+    {
+      "epoch": 0.9453507340946167,
+      "grad_norm": 0.5431973338127136,
+      "learning_rate": 0.00047259380097879283,
+      "loss": 0.2528,
+      "num_input_tokens_seen": 12531840,
+      "step": 5795
+    },
+    {
+      "epoch": 0.9461663947797716,
+      "grad_norm": 0.1831020563840866,
+      "learning_rate": 0.0004730016313213703,
+      "loss": 0.2248,
+      "num_input_tokens_seen": 12543136,
+      "step": 5800
+    },
+    {
+      "epoch": 0.9469820554649266,
+      "grad_norm": 0.33074751496315,
+      "learning_rate": 0.00047340946166394784,
+      "loss": 0.2949,
+      "num_input_tokens_seen": 12554240,
+      "step": 5805
+    },
+    {
+      "epoch": 0.9477977161500816,
+      "grad_norm": 0.10430339723825455,
+      "learning_rate": 0.0004738172920065253,
+      "loss": 0.1823,
+      "num_input_tokens_seen": 12564640,
+      "step": 5810
+    },
+    {
+      "epoch": 0.9486133768352365,
+      "grad_norm": 0.17456623911857605,
+      "learning_rate": 0.00047422512234910274,
+      "loss": 0.2085,
+      "num_input_tokens_seen": 12574976,
+      "step": 5815
+    },
+    {
+      "epoch": 0.9494290375203915,
+      "grad_norm": 0.15890410542488098,
+      "learning_rate": 0.00047463295269168027,
+      "loss": 0.1755,
+      "num_input_tokens_seen": 12585632,
+      "step": 5820
+    },
+    {
+      "epoch": 0.9502446982055465,
+      "grad_norm": 0.4678882658481598,
+      "learning_rate": 0.00047504078303425775,
+      "loss": 0.2283,
+      "num_input_tokens_seen": 12596096,
+      "step": 5825
+    },
+    {
+      "epoch": 0.9510603588907015,
+      "grad_norm": 0.10083203762769699,
+      "learning_rate": 0.0004754486133768353,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 12607712,
+      "step": 5830
+    },
+    {
+      "epoch": 0.9518760195758564,
+      "grad_norm": 0.054982513189315796,
+      "learning_rate": 0.0004758564437194127,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 12618272,
+      "step": 5835
+    },
+    {
+      "epoch": 0.9526916802610114,
+      "grad_norm": 0.08998695760965347,
+      "learning_rate": 0.00047626427406199023,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 12629856,
+      "step": 5840
+    },
+    {
+      "epoch": 0.9535073409461664,
+      "grad_norm": 0.19011932611465454,
+      "learning_rate": 0.0004766721044045677,
+      "loss": 0.1799,
+      "num_input_tokens_seen": 12639456,
+      "step": 5845
+    },
+    {
+      "epoch": 0.9543230016313213,
+      "grad_norm": 0.5274903774261475,
+      "learning_rate": 0.0004770799347471452,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 12649088,
+      "step": 5850
+    },
+    {
+      "epoch": 0.9551386623164764,
+      "grad_norm": 0.065676748752594,
+      "learning_rate": 0.0004774877650897227,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 12659680,
+      "step": 5855
+    },
+    {
+      "epoch": 0.9559543230016313,
+      "grad_norm": 0.25573477149009705,
+      "learning_rate": 0.00047789559543230014,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 12670848,
+      "step": 5860
+    },
+    {
+      "epoch": 0.9567699836867863,
+      "grad_norm": 0.11124901473522186,
+      "learning_rate": 0.00047830342577487767,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 12681568,
+      "step": 5865
+    },
+    {
+      "epoch": 0.9575856443719413,
+      "grad_norm": 0.12954628467559814,
+      "learning_rate": 0.00047871125611745514,
+      "loss": 0.2106,
+      "num_input_tokens_seen": 12691616,
+      "step": 5870
+    },
+    {
+      "epoch": 0.9584013050570962,
+      "grad_norm": 0.1547648310661316,
+      "learning_rate": 0.0004791190864600327,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 12701728,
+      "step": 5875
+    },
+    {
+      "epoch": 0.9592169657422512,
+      "grad_norm": 0.18160319328308105,
+      "learning_rate": 0.00047952691680261015,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 12712480,
+      "step": 5880
+    },
+    {
+      "epoch": 0.9600326264274062,
+      "grad_norm": 0.12603481113910675,
+      "learning_rate": 0.00047993474714518757,
+      "loss": 0.2585,
+      "num_input_tokens_seen": 12724544,
+      "step": 5885
+    },
+    {
+      "epoch": 0.9608482871125612,
+      "grad_norm": 0.12232507020235062,
+      "learning_rate": 0.0004803425774877651,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 12735552,
+      "step": 5890
+    },
+    {
+      "epoch": 0.9616639477977161,
+      "grad_norm": 0.8182587623596191,
+      "learning_rate": 0.0004807504078303426,
+      "loss": 0.2742,
+      "num_input_tokens_seen": 12747072,
+      "step": 5895
+    },
+    {
+      "epoch": 0.9624796084828712,
+      "grad_norm": 0.2686678171157837,
+      "learning_rate": 0.0004811582381729201,
+      "loss": 0.2193,
+      "num_input_tokens_seen": 12757504,
+      "step": 5900
+    },
+    {
+      "epoch": 0.9632952691680261,
+      "grad_norm": 0.10753358900547028,
+      "learning_rate": 0.00048156606851549753,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 12768544,
+      "step": 5905
+    },
+    {
+      "epoch": 0.964110929853181,
+      "grad_norm": 0.24111835658550262,
+      "learning_rate": 0.00048197389885807506,
+      "loss": 0.069,
+      "num_input_tokens_seen": 12778464,
+      "step": 5910
+    },
+    {
+      "epoch": 0.9649265905383361,
+      "grad_norm": 0.1870940625667572,
+      "learning_rate": 0.00048238172920065254,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 12788352,
+      "step": 5915
+    },
+    {
+      "epoch": 0.965742251223491,
+      "grad_norm": 0.08543268591165543,
+      "learning_rate": 0.00048278955954323,
+      "loss": 0.1739,
+      "num_input_tokens_seen": 12797344,
+      "step": 5920
+    },
+    {
+      "epoch": 0.966557911908646,
+      "grad_norm": 0.17103126645088196,
+      "learning_rate": 0.00048319738988580755,
+      "loss": 0.1457,
+      "num_input_tokens_seen": 12807264,
+      "step": 5925
+    },
+    {
+      "epoch": 0.967373572593801,
+      "grad_norm": 0.037070151418447495,
+      "learning_rate": 0.00048360522022838497,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 12817408,
+      "step": 5930
+    },
+    {
+      "epoch": 0.968189233278956,
+      "grad_norm": 0.34985965490341187,
+      "learning_rate": 0.0004840130505709625,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 12827616,
+      "step": 5935
+    },
+    {
+      "epoch": 0.9690048939641109,
+      "grad_norm": 0.42751795053482056,
+      "learning_rate": 0.00048442088091354,
+      "loss": 0.181,
+      "num_input_tokens_seen": 12837696,
+      "step": 5940
+    },
+    {
+      "epoch": 0.9698205546492659,
+      "grad_norm": 0.12427811324596405,
+      "learning_rate": 0.00048482871125611745,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 12848928,
+      "step": 5945
+    },
+    {
+      "epoch": 0.9706362153344209,
+      "grad_norm": 0.15662795305252075,
+      "learning_rate": 0.000485236541598695,
+      "loss": 0.2212,
+      "num_input_tokens_seen": 12859264,
+      "step": 5950
+    },
+    {
+      "epoch": 0.9714518760195758,
+      "grad_norm": 0.13130423426628113,
+      "learning_rate": 0.0004856443719412724,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 12870336,
+      "step": 5955
+    },
+    {
+      "epoch": 0.9722675367047309,
+      "grad_norm": 0.5949497222900391,
+      "learning_rate": 0.00048605220228384994,
+      "loss": 0.308,
+      "num_input_tokens_seen": 12881280,
+      "step": 5960
+    },
+    {
+      "epoch": 0.9730831973898858,
+      "grad_norm": 0.24126264452934265,
+      "learning_rate": 0.0004864600326264274,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 12892544,
+      "step": 5965
+    },
+    {
+      "epoch": 0.9738988580750407,
+      "grad_norm": 0.18657752871513367,
+      "learning_rate": 0.00048686786296900494,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 12903680,
+      "step": 5970
+    },
+    {
+      "epoch": 0.9747145187601958,
+      "grad_norm": 0.2861552834510803,
+      "learning_rate": 0.00048727569331158237,
+      "loss": 0.1987,
+      "num_input_tokens_seen": 12914400,
+      "step": 5975
+    },
+    {
+      "epoch": 0.9755301794453507,
+      "grad_norm": 0.11565116047859192,
+      "learning_rate": 0.00048768352365415984,
+      "loss": 0.1782,
+      "num_input_tokens_seen": 12925920,
+      "step": 5980
+    },
+    {
+      "epoch": 0.9763458401305057,
+      "grad_norm": 0.09785725176334381,
+      "learning_rate": 0.00048809135399673737,
+      "loss": 0.1816,
+      "num_input_tokens_seen": 12936640,
+      "step": 5985
+    },
+    {
+      "epoch": 0.9771615008156607,
+      "grad_norm": 0.4810200035572052,
+      "learning_rate": 0.0004884991843393148,
+      "loss": 0.177,
+      "num_input_tokens_seen": 12948160,
+      "step": 5990
+    },
+    {
+      "epoch": 0.9779771615008157,
+      "grad_norm": 0.16747428476810455,
+      "learning_rate": 0.0004889070146818923,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 12959296,
+      "step": 5995
+    },
+    {
+      "epoch": 0.9787928221859706,
+      "grad_norm": 0.12989793717861176,
+      "learning_rate": 0.0004893148450244698,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 12970624,
+      "step": 6000
+    },
+    {
+      "epoch": 0.9796084828711256,
+      "grad_norm": 0.08526536822319031,
+      "learning_rate": 0.0004897226753670474,
+      "loss": 0.2367,
+      "num_input_tokens_seen": 12981664,
+      "step": 6005
+    },
+    {
+      "epoch": 0.9804241435562806,
+      "grad_norm": 0.15927903354167938,
+      "learning_rate": 0.0004901305057096248,
+      "loss": 0.2274,
+      "num_input_tokens_seen": 12991328,
+      "step": 6010
+    },
+    {
+      "epoch": 0.9812398042414355,
+      "grad_norm": 0.15431569516658783,
+      "learning_rate": 0.0004905383360522022,
+      "loss": 0.046,
+      "num_input_tokens_seen": 13001632,
+      "step": 6015
+    },
+    {
+      "epoch": 0.9820554649265906,
+      "grad_norm": 0.6077148914337158,
+      "learning_rate": 0.0004909461663947798,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 13012256,
+      "step": 6020
+    },
+    {
+      "epoch": 0.9828711256117455,
+      "grad_norm": 0.36628520488739014,
+      "learning_rate": 0.0004913539967373573,
+      "loss": 0.1385,
+      "num_input_tokens_seen": 13024480,
+      "step": 6025
+    },
+    {
+      "epoch": 0.9836867862969005,
+      "grad_norm": 0.052024632692337036,
+      "learning_rate": 0.0004917618270799348,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 13034432,
+      "step": 6030
+    },
+    {
+      "epoch": 0.9845024469820555,
+      "grad_norm": 0.08394888788461685,
+      "learning_rate": 0.0004921696574225122,
+      "loss": 0.163,
+      "num_input_tokens_seen": 13045824,
+      "step": 6035
+    },
+    {
+      "epoch": 0.9853181076672104,
+      "grad_norm": 0.21150889992713928,
+      "learning_rate": 0.0004925774877650897,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 13057536,
+      "step": 6040
+    },
+    {
+      "epoch": 0.9861337683523654,
+      "grad_norm": 0.09327172487974167,
+      "learning_rate": 0.0004929853181076672,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 13069120,
+      "step": 6045
+    },
+    {
+      "epoch": 0.9869494290375204,
+      "grad_norm": 0.2453579306602478,
+      "learning_rate": 0.0004933931484502447,
+      "loss": 0.0449,
+      "num_input_tokens_seen": 13080192,
+      "step": 6050
+    },
+    {
+      "epoch": 0.9877650897226754,
+      "grad_norm": 0.04804931953549385,
+      "learning_rate": 0.0004938009787928223,
+      "loss": 0.1282,
+      "num_input_tokens_seen": 13091040,
+      "step": 6055
+    },
+    {
+      "epoch": 0.9885807504078303,
+      "grad_norm": 0.01482168585062027,
+      "learning_rate": 0.0004942088091353996,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 13102976,
+      "step": 6060
+    },
+    {
+      "epoch": 0.9893964110929854,
+      "grad_norm": 0.13239941000938416,
+      "learning_rate": 0.0004946166394779772,
+      "loss": 0.3,
+      "num_input_tokens_seen": 13114688,
+      "step": 6065
+    },
+    {
+      "epoch": 0.9902120717781403,
+      "grad_norm": 0.10520962625741959,
+      "learning_rate": 0.0004950244698205547,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 13126432,
+      "step": 6070
+    },
+    {
+      "epoch": 0.9910277324632952,
+      "grad_norm": 0.21707811951637268,
+      "learning_rate": 0.0004954323001631322,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 13137344,
+      "step": 6075
+    },
+    {
+      "epoch": 0.9918433931484503,
+      "grad_norm": 0.11555507779121399,
+      "learning_rate": 0.0004958401305057096,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 13148608,
+      "step": 6080
+    },
+    {
+      "epoch": 0.9926590538336052,
+      "grad_norm": 0.5580472350120544,
+      "learning_rate": 0.0004962479608482871,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 13159840,
+      "step": 6085
+    },
+    {
+      "epoch": 0.9934747145187602,
+      "grad_norm": 0.4591805934906006,
+      "learning_rate": 0.0004966557911908646,
+      "loss": 0.1872,
+      "num_input_tokens_seen": 13169856,
+      "step": 6090
+    },
+    {
+      "epoch": 0.9942903752039152,
+      "grad_norm": 0.3633251190185547,
+      "learning_rate": 0.0004970636215334421,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 13181728,
+      "step": 6095
+    },
+    {
+      "epoch": 0.9951060358890701,
+      "grad_norm": 0.22325961291790009,
+      "learning_rate": 0.0004974714518760197,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 13193760,
+      "step": 6100
+    },
+    {
+      "epoch": 0.9959216965742251,
+      "grad_norm": 0.09583016484975815,
+      "learning_rate": 0.000497879282218597,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 13205280,
+      "step": 6105
+    },
+    {
+      "epoch": 0.9967373572593801,
+      "grad_norm": 0.8459984064102173,
+      "learning_rate": 0.0004982871125611745,
+      "loss": 0.2232,
+      "num_input_tokens_seen": 13215584,
+      "step": 6110
+    },
+    {
+      "epoch": 0.9975530179445351,
+      "grad_norm": 0.24980811774730682,
+      "learning_rate": 0.0004986949429037521,
+      "loss": 0.1846,
+      "num_input_tokens_seen": 13226496,
+      "step": 6115
+    },
+    {
+      "epoch": 0.99836867862969,
+      "grad_norm": 0.04283153638243675,
+      "learning_rate": 0.0004991027732463296,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 13236992,
+      "step": 6120
+    },
+    {
+      "epoch": 0.9991843393148451,
+      "grad_norm": 0.5137706995010376,
+      "learning_rate": 0.000499510603588907,
+      "loss": 0.2165,
+      "num_input_tokens_seen": 13247424,
+      "step": 6125
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.39642074704170227,
+      "learning_rate": 0.0004999184339314845,
+      "loss": 0.1799,
+      "num_input_tokens_seen": 13256608,
+      "step": 6130
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.1398823857307434,
+      "eval_runtime": 103.3977,
+      "eval_samples_per_second": 26.355,
+      "eval_steps_per_second": 6.596,
+      "num_input_tokens_seen": 13256608,
+      "step": 6130
+    },
+    {
+      "epoch": 1.000815660685155,
+      "grad_norm": 0.11160384863615036,
+      "learning_rate": 0.000500326264274062,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 13268544,
+      "step": 6135
+    },
+    {
+      "epoch": 1.0016313213703099,
+      "grad_norm": 0.23075062036514282,
+      "learning_rate": 0.0005007340946166395,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 13279712,
+      "step": 6140
+    },
+    {
+      "epoch": 1.002446982055465,
+      "grad_norm": 0.18675552308559418,
+      "learning_rate": 0.0005011419249592169,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 13289344,
+      "step": 6145
+    },
+    {
+      "epoch": 1.00326264274062,
+      "grad_norm": 0.2517428398132324,
+      "learning_rate": 0.0005015497553017944,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 13300032,
+      "step": 6150
+    },
+    {
+      "epoch": 1.004078303425775,
+      "grad_norm": 0.18479129672050476,
+      "learning_rate": 0.000501957585644372,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 13310176,
+      "step": 6155
+    },
+    {
+      "epoch": 1.0048939641109298,
+      "grad_norm": 0.09900052845478058,
+      "learning_rate": 0.0005023654159869494,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 13320256,
+      "step": 6160
+    },
+    {
+      "epoch": 1.0057096247960848,
+      "grad_norm": 0.2950863838195801,
+      "learning_rate": 0.000502773246329527,
+      "loss": 0.2501,
+      "num_input_tokens_seen": 13330560,
+      "step": 6165
+    },
+    {
+      "epoch": 1.0065252854812399,
+      "grad_norm": 0.0240387711673975,
+      "learning_rate": 0.0005031810766721044,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 13341120,
+      "step": 6170
+    },
+    {
+      "epoch": 1.0073409461663947,
+      "grad_norm": 0.08495213836431503,
+      "learning_rate": 0.0005035889070146818,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 13352416,
+      "step": 6175
+    },
+    {
+      "epoch": 1.0081566068515497,
+      "grad_norm": 0.23577626049518585,
+      "learning_rate": 0.0005039967373572594,
+      "loss": 0.148,
+      "num_input_tokens_seen": 13363392,
+      "step": 6180
+    },
+    {
+      "epoch": 1.0089722675367048,
+      "grad_norm": 0.10276693105697632,
+      "learning_rate": 0.0005044045676998369,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 13373056,
+      "step": 6185
+    },
+    {
+      "epoch": 1.0097879282218598,
+      "grad_norm": 0.08981849253177643,
+      "learning_rate": 0.0005048123980424144,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 13384288,
+      "step": 6190
+    },
+    {
+      "epoch": 1.0106035889070146,
+      "grad_norm": 0.1138916164636612,
+      "learning_rate": 0.0005052202283849918,
+      "loss": 0.2059,
+      "num_input_tokens_seen": 13394208,
+      "step": 6195
+    },
+    {
+      "epoch": 1.0114192495921697,
+      "grad_norm": 0.1942625790834427,
+      "learning_rate": 0.0005056280587275693,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 13404576,
+      "step": 6200
+    },
+    {
+      "epoch": 1.0122349102773247,
+      "grad_norm": 0.09755151718854904,
+      "learning_rate": 0.0005060358890701469,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 13415296,
+      "step": 6205
+    },
+    {
+      "epoch": 1.0130505709624795,
+      "grad_norm": 0.06156241148710251,
+      "learning_rate": 0.0005064437194127242,
+      "loss": 0.1902,
+      "num_input_tokens_seen": 13426112,
+      "step": 6210
+    },
+    {
+      "epoch": 1.0138662316476346,
+      "grad_norm": 0.10398396849632263,
+      "learning_rate": 0.0005068515497553018,
+      "loss": 0.2426,
+      "num_input_tokens_seen": 13436416,
+      "step": 6215
+    },
+    {
+      "epoch": 1.0146818923327896,
+      "grad_norm": 0.20540976524353027,
+      "learning_rate": 0.0005072593800978793,
+      "loss": 0.2627,
+      "num_input_tokens_seen": 13446624,
+      "step": 6220
+    },
+    {
+      "epoch": 1.0154975530179446,
+      "grad_norm": 0.15334442257881165,
+      "learning_rate": 0.0005076672104404568,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 13457440,
+      "step": 6225
+    },
+    {
+      "epoch": 1.0163132137030995,
+      "grad_norm": 0.34090787172317505,
+      "learning_rate": 0.0005080750407830343,
+      "loss": 0.1779,
+      "num_input_tokens_seen": 13468800,
+      "step": 6230
+    },
+    {
+      "epoch": 1.0171288743882545,
+      "grad_norm": 0.15002760291099548,
+      "learning_rate": 0.0005084828711256117,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 13480512,
+      "step": 6235
+    },
+    {
+      "epoch": 1.0179445350734095,
+      "grad_norm": 0.2431073635816574,
+      "learning_rate": 0.0005088907014681893,
+      "loss": 0.133,
+      "num_input_tokens_seen": 13491232,
+      "step": 6240
+    },
+    {
+      "epoch": 1.0187601957585644,
+      "grad_norm": 0.14370810985565186,
+      "learning_rate": 0.0005092985318107667,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 13501920,
+      "step": 6245
+    },
+    {
+      "epoch": 1.0195758564437194,
+      "grad_norm": 0.07355213165283203,
+      "learning_rate": 0.0005097063621533442,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 13510016,
+      "step": 6250
+    },
+    {
+      "epoch": 1.0203915171288744,
+      "grad_norm": 0.2566724419593811,
+      "learning_rate": 0.0005101141924959218,
+      "loss": 0.2044,
+      "num_input_tokens_seen": 13521280,
+      "step": 6255
+    },
+    {
+      "epoch": 1.0212071778140293,
+      "grad_norm": 0.08346903324127197,
+      "learning_rate": 0.0005105220228384992,
+      "loss": 0.1983,
+      "num_input_tokens_seen": 13532032,
+      "step": 6260
+    },
+    {
+      "epoch": 1.0220228384991843,
+      "grad_norm": 0.28570470213890076,
+      "learning_rate": 0.0005109298531810767,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 13541568,
+      "step": 6265
+    },
+    {
+      "epoch": 1.0228384991843393,
+      "grad_norm": 0.41711992025375366,
+      "learning_rate": 0.0005113376835236542,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 13552064,
+      "step": 6270
+    },
+    {
+      "epoch": 1.0236541598694944,
+      "grad_norm": 0.10956079512834549,
+      "learning_rate": 0.0005117455138662317,
+      "loss": 0.1441,
+      "num_input_tokens_seen": 13560928,
+      "step": 6275
+    },
+    {
+      "epoch": 1.0244698205546492,
+      "grad_norm": 0.13065916299819946,
+      "learning_rate": 0.0005121533442088091,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 13572096,
+      "step": 6280
+    },
+    {
+      "epoch": 1.0252854812398042,
+      "grad_norm": 0.5665595531463623,
+      "learning_rate": 0.0005125611745513866,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 13584448,
+      "step": 6285
+    },
+    {
+      "epoch": 1.0261011419249593,
+      "grad_norm": 0.18895985186100006,
+      "learning_rate": 0.0005129690048939642,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 13596352,
+      "step": 6290
+    },
+    {
+      "epoch": 1.026916802610114,
+      "grad_norm": 0.1723942905664444,
+      "learning_rate": 0.0005133768352365417,
+      "loss": 0.1629,
+      "num_input_tokens_seen": 13606688,
+      "step": 6295
+    },
+    {
+      "epoch": 1.0277324632952691,
+      "grad_norm": 0.5321813821792603,
+      "learning_rate": 0.000513784665579119,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 13618400,
+      "step": 6300
+    },
+    {
+      "epoch": 1.0285481239804242,
+      "grad_norm": 0.014531032182276249,
+      "learning_rate": 0.0005141924959216966,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 13629376,
+      "step": 6305
+    },
+    {
+      "epoch": 1.0293637846655792,
+      "grad_norm": 0.11209902167320251,
+      "learning_rate": 0.0005146003262642741,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 13640896,
+      "step": 6310
+    },
+    {
+      "epoch": 1.030179445350734,
+      "grad_norm": 0.2015608698129654,
+      "learning_rate": 0.0005150081566068515,
+      "loss": 0.143,
+      "num_input_tokens_seen": 13652128,
+      "step": 6315
+    },
+    {
+      "epoch": 1.030995106035889,
+      "grad_norm": 0.09540046751499176,
+      "learning_rate": 0.000515415986949429,
+      "loss": 0.019,
+      "num_input_tokens_seen": 13662048,
+      "step": 6320
+    },
+    {
+      "epoch": 1.031810766721044,
+      "grad_norm": 0.579704225063324,
+      "learning_rate": 0.0005158238172920065,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 13672160,
+      "step": 6325
+    },
+    {
+      "epoch": 1.032626427406199,
+      "grad_norm": 0.1127452477812767,
+      "learning_rate": 0.0005162316476345841,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 13682400,
+      "step": 6330
+    },
+    {
+      "epoch": 1.033442088091354,
+      "grad_norm": 0.6191928386688232,
+      "learning_rate": 0.0005166394779771615,
+      "loss": 0.3745,
+      "num_input_tokens_seen": 13692608,
+      "step": 6335
+    },
+    {
+      "epoch": 1.034257748776509,
+      "grad_norm": 0.23995548486709595,
+      "learning_rate": 0.000517047308319739,
+      "loss": 0.2638,
+      "num_input_tokens_seen": 13703008,
+      "step": 6340
+    },
+    {
+      "epoch": 1.035073409461664,
+      "grad_norm": 0.05872446298599243,
+      "learning_rate": 0.0005174551386623165,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 13714496,
+      "step": 6345
+    },
+    {
+      "epoch": 1.0358890701468189,
+      "grad_norm": 0.1604536920785904,
+      "learning_rate": 0.0005178629690048939,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 13725120,
+      "step": 6350
+    },
+    {
+      "epoch": 1.036704730831974,
+      "grad_norm": 0.1121409609913826,
+      "learning_rate": 0.0005182707993474715,
+      "loss": 0.049,
+      "num_input_tokens_seen": 13734560,
+      "step": 6355
+    },
+    {
+      "epoch": 1.037520391517129,
+      "grad_norm": 0.1634875386953354,
+      "learning_rate": 0.000518678629690049,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 13745248,
+      "step": 6360
+    },
+    {
+      "epoch": 1.0383360522022838,
+      "grad_norm": 0.20854128897190094,
+      "learning_rate": 0.0005190864600326263,
+      "loss": 0.1673,
+      "num_input_tokens_seen": 13755584,
+      "step": 6365
+    },
+    {
+      "epoch": 1.0391517128874388,
+      "grad_norm": 0.08223803341388702,
+      "learning_rate": 0.0005194942903752039,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 13767456,
+      "step": 6370
+    },
+    {
+      "epoch": 1.0399673735725938,
+      "grad_norm": 0.3701033294200897,
+      "learning_rate": 0.0005199021207177814,
+      "loss": 0.2891,
+      "num_input_tokens_seen": 13778176,
+      "step": 6375
+    },
+    {
+      "epoch": 1.0407830342577489,
+      "grad_norm": 0.042385704815387726,
+      "learning_rate": 0.000520309951060359,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 13788576,
+      "step": 6380
+    },
+    {
+      "epoch": 1.0415986949429037,
+      "grad_norm": 0.04089699313044548,
+      "learning_rate": 0.0005207177814029364,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 13798432,
+      "step": 6385
+    },
+    {
+      "epoch": 1.0424143556280587,
+      "grad_norm": 0.1607908308506012,
+      "learning_rate": 0.0005211256117455138,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 13809408,
+      "step": 6390
+    },
+    {
+      "epoch": 1.0432300163132138,
+      "grad_norm": 0.2969203591346741,
+      "learning_rate": 0.0005215334420880914,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 13821152,
+      "step": 6395
+    },
+    {
+      "epoch": 1.0440456769983686,
+      "grad_norm": 0.41446980834007263,
+      "learning_rate": 0.0005219412724306688,
+      "loss": 0.254,
+      "num_input_tokens_seen": 13832000,
+      "step": 6400
+    },
+    {
+      "epoch": 1.0448613376835236,
+      "grad_norm": 0.1455860584974289,
+      "learning_rate": 0.0005223491027732464,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 13842208,
+      "step": 6405
+    },
+    {
+      "epoch": 1.0456769983686787,
+      "grad_norm": 0.3523208796977997,
+      "learning_rate": 0.0005227569331158238,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 13852256,
+      "step": 6410
+    },
+    {
+      "epoch": 1.0464926590538337,
+      "grad_norm": 0.14199502766132355,
+      "learning_rate": 0.0005231647634584013,
+      "loss": 0.0589,
+      "num_input_tokens_seen": 13864064,
+      "step": 6415
+    },
+    {
+      "epoch": 1.0473083197389885,
+      "grad_norm": 0.09805894643068314,
+      "learning_rate": 0.0005235725938009788,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 13874368,
+      "step": 6420
+    },
+    {
+      "epoch": 1.0481239804241436,
+      "grad_norm": 0.2984837293624878,
+      "learning_rate": 0.0005239804241435563,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 13885984,
+      "step": 6425
+    },
+    {
+      "epoch": 1.0489396411092986,
+      "grad_norm": 0.03853955864906311,
+      "learning_rate": 0.0005243882544861339,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 13896000,
+      "step": 6430
+    },
+    {
+      "epoch": 1.0497553017944534,
+      "grad_norm": 0.010538961738348007,
+      "learning_rate": 0.0005247960848287112,
+      "loss": 0.2701,
+      "num_input_tokens_seen": 13906848,
+      "step": 6435
+    },
+    {
+      "epoch": 1.0505709624796085,
+      "grad_norm": 0.04958980530500412,
+      "learning_rate": 0.0005252039151712887,
+      "loss": 0.1826,
+      "num_input_tokens_seen": 13916864,
+      "step": 6440
+    },
+    {
+      "epoch": 1.0513866231647635,
+      "grad_norm": 0.10969033092260361,
+      "learning_rate": 0.0005256117455138663,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 13926592,
+      "step": 6445
+    },
+    {
+      "epoch": 1.0522022838499185,
+      "grad_norm": 0.08144375681877136,
+      "learning_rate": 0.0005260195758564438,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 13937120,
+      "step": 6450
+    },
+    {
+      "epoch": 1.0530179445350734,
+      "grad_norm": 0.399844229221344,
+      "learning_rate": 0.0005264274061990211,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 13949120,
+      "step": 6455
+    },
+    {
+      "epoch": 1.0538336052202284,
+      "grad_norm": 0.28734290599823,
+      "learning_rate": 0.0005268352365415987,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 13959264,
+      "step": 6460
+    },
+    {
+      "epoch": 1.0546492659053834,
+      "grad_norm": 0.4673934876918793,
+      "learning_rate": 0.0005272430668841762,
+      "loss": 0.1745,
+      "num_input_tokens_seen": 13970304,
+      "step": 6465
+    },
+    {
+      "epoch": 1.0554649265905383,
+      "grad_norm": 0.15282650291919708,
+      "learning_rate": 0.0005276508972267537,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 13980800,
+      "step": 6470
+    },
+    {
+      "epoch": 1.0562805872756933,
+      "grad_norm": 0.11581412702798843,
+      "learning_rate": 0.0005280587275693311,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 13991040,
+      "step": 6475
+    },
+    {
+      "epoch": 1.0570962479608483,
+      "grad_norm": 0.023843001574277878,
+      "learning_rate": 0.0005284665579119086,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 14001216,
+      "step": 6480
+    },
+    {
+      "epoch": 1.0579119086460032,
+      "grad_norm": 0.027091102674603462,
+      "learning_rate": 0.0005288743882544862,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 14012672,
+      "step": 6485
+    },
+    {
+      "epoch": 1.0587275693311582,
+      "grad_norm": 0.051208313554525375,
+      "learning_rate": 0.0005292822185970636,
+      "loss": 0.119,
+      "num_input_tokens_seen": 14023872,
+      "step": 6490
+    },
+    {
+      "epoch": 1.0595432300163132,
+      "grad_norm": 0.061948299407958984,
+      "learning_rate": 0.0005296900489396412,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 14035136,
+      "step": 6495
+    },
+    {
+      "epoch": 1.0603588907014683,
+      "grad_norm": 0.5826138257980347,
+      "learning_rate": 0.0005300978792822186,
+      "loss": 0.1936,
+      "num_input_tokens_seen": 14046240,
+      "step": 6500
+    },
+    {
+      "epoch": 1.061174551386623,
+      "grad_norm": 0.025136886164546013,
+      "learning_rate": 0.000530505709624796,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 14056512,
+      "step": 6505
+    },
+    {
+      "epoch": 1.0619902120717781,
+      "grad_norm": 0.3028709888458252,
+      "learning_rate": 0.0005309135399673736,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 14068000,
+      "step": 6510
+    },
+    {
+      "epoch": 1.0628058727569332,
+      "grad_norm": 0.04569149389863014,
+      "learning_rate": 0.0005313213703099511,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 14078336,
+      "step": 6515
+    },
+    {
+      "epoch": 1.0636215334420882,
+      "grad_norm": 0.48968860507011414,
+      "learning_rate": 0.0005317292006525287,
+      "loss": 0.1447,
+      "num_input_tokens_seen": 14089632,
+      "step": 6520
+    },
+    {
+      "epoch": 1.064437194127243,
+      "grad_norm": 0.06684679538011551,
+      "learning_rate": 0.000532137030995106,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 14099104,
+      "step": 6525
+    },
+    {
+      "epoch": 1.065252854812398,
+      "grad_norm": 0.5205869078636169,
+      "learning_rate": 0.0005325448613376835,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 14109408,
+      "step": 6530
+    },
+    {
+      "epoch": 1.066068515497553,
+      "grad_norm": 0.07348957657814026,
+      "learning_rate": 0.0005329526916802611,
+      "loss": 0.2033,
+      "num_input_tokens_seen": 14119616,
+      "step": 6535
+    },
+    {
+      "epoch": 1.066884176182708,
+      "grad_norm": 0.12224670499563217,
+      "learning_rate": 0.0005333605220228385,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 14130112,
+      "step": 6540
+    },
+    {
+      "epoch": 1.067699836867863,
+      "grad_norm": 0.03272275999188423,
+      "learning_rate": 0.000533768352365416,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 14140672,
+      "step": 6545
+    },
+    {
+      "epoch": 1.068515497553018,
+      "grad_norm": 0.4673844277858734,
+      "learning_rate": 0.0005341761827079935,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 14152128,
+      "step": 6550
+    },
+    {
+      "epoch": 1.0693311582381728,
+      "grad_norm": 0.12728549540042877,
+      "learning_rate": 0.000534584013050571,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 14164096,
+      "step": 6555
+    },
+    {
+      "epoch": 1.0701468189233279,
+      "grad_norm": 0.48025938868522644,
+      "learning_rate": 0.0005349918433931485,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 14174624,
+      "step": 6560
+    },
+    {
+      "epoch": 1.070962479608483,
+      "grad_norm": 0.06705355644226074,
+      "learning_rate": 0.0005353996737357259,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 14186784,
+      "step": 6565
+    },
+    {
+      "epoch": 1.071778140293638,
+      "grad_norm": 0.043406713753938675,
+      "learning_rate": 0.0005358075040783035,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 14196064,
+      "step": 6570
+    },
+    {
+      "epoch": 1.0725938009787928,
+      "grad_norm": 0.3859328031539917,
+      "learning_rate": 0.0005362153344208809,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 14207232,
+      "step": 6575
+    },
+    {
+      "epoch": 1.0734094616639478,
+      "grad_norm": 0.015095439739525318,
+      "learning_rate": 0.0005366231647634584,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 14217920,
+      "step": 6580
+    },
+    {
+      "epoch": 1.0742251223491028,
+      "grad_norm": 0.8526964783668518,
+      "learning_rate": 0.000537030995106036,
+      "loss": 0.2762,
+      "num_input_tokens_seen": 14228896,
+      "step": 6585
+    },
+    {
+      "epoch": 1.0750407830342577,
+      "grad_norm": 0.045150063931941986,
+      "learning_rate": 0.0005374388254486133,
+      "loss": 0.2702,
+      "num_input_tokens_seen": 14239712,
+      "step": 6590
+    },
+    {
+      "epoch": 1.0758564437194127,
+      "grad_norm": 0.4150654077529907,
+      "learning_rate": 0.0005378466557911908,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 14249760,
+      "step": 6595
+    },
+    {
+      "epoch": 1.0766721044045677,
+      "grad_norm": 0.23948174715042114,
+      "learning_rate": 0.0005382544861337684,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 14259552,
+      "step": 6600
+    },
+    {
+      "epoch": 1.0774877650897228,
+      "grad_norm": 0.2983197271823883,
+      "learning_rate": 0.0005386623164763459,
+      "loss": 0.1766,
+      "num_input_tokens_seen": 14270880,
+      "step": 6605
+    },
+    {
+      "epoch": 1.0783034257748776,
+      "grad_norm": 0.08725722879171371,
+      "learning_rate": 0.0005390701468189233,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 14281856,
+      "step": 6610
+    },
+    {
+      "epoch": 1.0791190864600326,
+      "grad_norm": 0.17761683464050293,
+      "learning_rate": 0.0005394779771615008,
+      "loss": 0.133,
+      "num_input_tokens_seen": 14293536,
+      "step": 6615
+    },
+    {
+      "epoch": 1.0799347471451877,
+      "grad_norm": 0.4125170111656189,
+      "learning_rate": 0.0005398858075040783,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 14303968,
+      "step": 6620
+    },
+    {
+      "epoch": 1.0807504078303425,
+      "grad_norm": 0.1900666207075119,
+      "learning_rate": 0.0005402936378466558,
+      "loss": 0.1574,
+      "num_input_tokens_seen": 14315296,
+      "step": 6625
+    },
+    {
+      "epoch": 1.0815660685154975,
+      "grad_norm": 0.28400659561157227,
+      "learning_rate": 0.0005407014681892332,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 14326528,
+      "step": 6630
+    },
+    {
+      "epoch": 1.0823817292006526,
+      "grad_norm": 0.04672158136963844,
+      "learning_rate": 0.0005411092985318108,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 14337248,
+      "step": 6635
+    },
+    {
+      "epoch": 1.0831973898858076,
+      "grad_norm": 0.4267369508743286,
+      "learning_rate": 0.0005415171288743883,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 14347392,
+      "step": 6640
+    },
+    {
+      "epoch": 1.0840130505709624,
+      "grad_norm": 0.14387011528015137,
+      "learning_rate": 0.0005419249592169657,
+      "loss": 0.032,
+      "num_input_tokens_seen": 14359008,
+      "step": 6645
+    },
+    {
+      "epoch": 1.0848287112561175,
+      "grad_norm": 0.2627013325691223,
+      "learning_rate": 0.0005423327895595433,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 14370464,
+      "step": 6650
+    },
+    {
+      "epoch": 1.0856443719412725,
+      "grad_norm": 0.7487311363220215,
+      "learning_rate": 0.0005427406199021207,
+      "loss": 0.1933,
+      "num_input_tokens_seen": 14382304,
+      "step": 6655
+    },
+    {
+      "epoch": 1.0864600326264273,
+      "grad_norm": 0.2547962963581085,
+      "learning_rate": 0.0005431484502446982,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 14392288,
+      "step": 6660
+    },
+    {
+      "epoch": 1.0872756933115824,
+      "grad_norm": 0.5006257891654968,
+      "learning_rate": 0.0005435562805872757,
+      "loss": 0.117,
+      "num_input_tokens_seen": 14403200,
+      "step": 6665
+    },
+    {
+      "epoch": 1.0880913539967374,
+      "grad_norm": 0.10363472998142242,
+      "learning_rate": 0.0005439641109298532,
+      "loss": 0.253,
+      "num_input_tokens_seen": 14414944,
+      "step": 6670
+    },
+    {
+      "epoch": 1.0889070146818924,
+      "grad_norm": 0.7664408087730408,
+      "learning_rate": 0.0005443719412724307,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 14426336,
+      "step": 6675
+    },
+    {
+      "epoch": 1.0897226753670473,
+      "grad_norm": 0.11776512116193771,
+      "learning_rate": 0.0005447797716150081,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 14437760,
+      "step": 6680
+    },
+    {
+      "epoch": 1.0905383360522023,
+      "grad_norm": 0.13282710313796997,
+      "learning_rate": 0.0005451876019575857,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 14449120,
+      "step": 6685
+    },
+    {
+      "epoch": 1.0913539967373573,
+      "grad_norm": 0.3319006562232971,
+      "learning_rate": 0.0005455954323001632,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 14460544,
+      "step": 6690
+    },
+    {
+      "epoch": 1.0921696574225122,
+      "grad_norm": 0.24569126963615417,
+      "learning_rate": 0.0005460032626427405,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 14472608,
+      "step": 6695
+    },
+    {
+      "epoch": 1.0929853181076672,
+      "grad_norm": 0.12690795958042145,
+      "learning_rate": 0.0005464110929853181,
+      "loss": 0.111,
+      "num_input_tokens_seen": 14482176,
+      "step": 6700
+    },
+    {
+      "epoch": 1.0938009787928222,
+      "grad_norm": 0.24353094398975372,
+      "learning_rate": 0.0005468189233278956,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 14492768,
+      "step": 6705
+    },
+    {
+      "epoch": 1.094616639477977,
+      "grad_norm": 0.3623286187648773,
+      "learning_rate": 0.0005472267536704732,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 14505024,
+      "step": 6710
+    },
+    {
+      "epoch": 1.095432300163132,
+      "grad_norm": 0.5367739200592041,
+      "learning_rate": 0.0005476345840130506,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 14515744,
+      "step": 6715
+    },
+    {
+      "epoch": 1.0962479608482871,
+      "grad_norm": 0.2832864820957184,
+      "learning_rate": 0.000548042414355628,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 14526784,
+      "step": 6720
+    },
+    {
+      "epoch": 1.0970636215334422,
+      "grad_norm": 0.2894558906555176,
+      "learning_rate": 0.0005484502446982056,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 14536960,
+      "step": 6725
+    },
+    {
+      "epoch": 1.097879282218597,
+      "grad_norm": 0.07219669222831726,
+      "learning_rate": 0.000548858075040783,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 14549344,
+      "step": 6730
+    },
+    {
+      "epoch": 1.098694942903752,
+      "grad_norm": 0.04819165915250778,
+      "learning_rate": 0.0005492659053833605,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 14560224,
+      "step": 6735
+    },
+    {
+      "epoch": 1.099510603588907,
+      "grad_norm": 0.08893704414367676,
+      "learning_rate": 0.000549673735725938,
+      "loss": 0.288,
+      "num_input_tokens_seen": 14569440,
+      "step": 6740
+    },
+    {
+      "epoch": 1.100326264274062,
+      "grad_norm": 0.5870652794837952,
+      "learning_rate": 0.0005500815660685155,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 14579648,
+      "step": 6745
+    },
+    {
+      "epoch": 1.101141924959217,
+      "grad_norm": 0.03373727947473526,
+      "learning_rate": 0.000550489396411093,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 14590528,
+      "step": 6750
+    },
+    {
+      "epoch": 1.101957585644372,
+      "grad_norm": 0.10977505147457123,
+      "learning_rate": 0.0005508972267536705,
+      "loss": 0.1862,
+      "num_input_tokens_seen": 14600864,
+      "step": 6755
+    },
+    {
+      "epoch": 1.102773246329527,
+      "grad_norm": 1.0331140756607056,
+      "learning_rate": 0.000551305057096248,
+      "loss": 0.186,
+      "num_input_tokens_seen": 14612096,
+      "step": 6760
+    },
+    {
+      "epoch": 1.1035889070146818,
+      "grad_norm": 0.3095877170562744,
+      "learning_rate": 0.0005517128874388254,
+      "loss": 0.059,
+      "num_input_tokens_seen": 14623392,
+      "step": 6765
+    },
+    {
+      "epoch": 1.1044045676998369,
+      "grad_norm": 0.19286680221557617,
+      "learning_rate": 0.0005521207177814029,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 14634016,
+      "step": 6770
+    },
+    {
+      "epoch": 1.105220228384992,
+      "grad_norm": 0.22141914069652557,
+      "learning_rate": 0.0005525285481239805,
+      "loss": 0.2321,
+      "num_input_tokens_seen": 14645216,
+      "step": 6775
+    },
+    {
+      "epoch": 1.1060358890701467,
+      "grad_norm": 0.48826268315315247,
+      "learning_rate": 0.000552936378466558,
+      "loss": 0.2204,
+      "num_input_tokens_seen": 14656576,
+      "step": 6780
+    },
+    {
+      "epoch": 1.1068515497553018,
+      "grad_norm": 0.13619111478328705,
+      "learning_rate": 0.0005533442088091353,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 14667168,
+      "step": 6785
+    },
+    {
+      "epoch": 1.1076672104404568,
+      "grad_norm": 0.5033240914344788,
+      "learning_rate": 0.0005537520391517129,
+      "loss": 0.199,
+      "num_input_tokens_seen": 14678016,
+      "step": 6790
+    },
+    {
+      "epoch": 1.1084828711256118,
+      "grad_norm": 0.08465439826250076,
+      "learning_rate": 0.0005541598694942904,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 14688960,
+      "step": 6795
+    },
+    {
+      "epoch": 1.1092985318107667,
+      "grad_norm": 0.2793862521648407,
+      "learning_rate": 0.0005545676998368679,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 14700480,
+      "step": 6800
+    },
+    {
+      "epoch": 1.1101141924959217,
+      "grad_norm": 0.4719338119029999,
+      "learning_rate": 0.0005549755301794454,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 14711104,
+      "step": 6805
+    },
+    {
+      "epoch": 1.1109298531810767,
+      "grad_norm": 0.12284115701913834,
+      "learning_rate": 0.0005553833605220228,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 14722176,
+      "step": 6810
+    },
+    {
+      "epoch": 1.1117455138662315,
+      "grad_norm": 0.1608635038137436,
+      "learning_rate": 0.0005557911908646003,
+      "loss": 0.2192,
+      "num_input_tokens_seen": 14733600,
+      "step": 6815
+    },
+    {
+      "epoch": 1.1125611745513866,
+      "grad_norm": 0.1508731096982956,
+      "learning_rate": 0.0005561990212071778,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 14744352,
+      "step": 6820
+    },
+    {
+      "epoch": 1.1133768352365416,
+      "grad_norm": 0.2695777714252472,
+      "learning_rate": 0.0005566068515497554,
+      "loss": 0.1752,
+      "num_input_tokens_seen": 14755040,
+      "step": 6825
+    },
+    {
+      "epoch": 1.1141924959216967,
+      "grad_norm": 0.39584463834762573,
+      "learning_rate": 0.0005570146818923328,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 14766112,
+      "step": 6830
+    },
+    {
+      "epoch": 1.1150081566068515,
+      "grad_norm": 0.11579836159944534,
+      "learning_rate": 0.0005574225122349102,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 14776192,
+      "step": 6835
+    },
+    {
+      "epoch": 1.1158238172920065,
+      "grad_norm": 0.013752263970673084,
+      "learning_rate": 0.0005578303425774878,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 14786240,
+      "step": 6840
+    },
+    {
+      "epoch": 1.1166394779771616,
+      "grad_norm": 0.7901402115821838,
+      "learning_rate": 0.0005582381729200653,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 14798048,
+      "step": 6845
+    },
+    {
+      "epoch": 1.1174551386623164,
+      "grad_norm": 0.37859535217285156,
+      "learning_rate": 0.0005586460032626428,
+      "loss": 0.2425,
+      "num_input_tokens_seen": 14808928,
+      "step": 6850
+    },
+    {
+      "epoch": 1.1182707993474714,
+      "grad_norm": 0.21328096091747284,
+      "learning_rate": 0.0005590538336052202,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 14820384,
+      "step": 6855
+    },
+    {
+      "epoch": 1.1190864600326265,
+      "grad_norm": 0.11841249465942383,
+      "learning_rate": 0.0005594616639477977,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 14831168,
+      "step": 6860
+    },
+    {
+      "epoch": 1.1199021207177815,
+      "grad_norm": 0.5339210629463196,
+      "learning_rate": 0.0005598694942903753,
+      "loss": 0.3598,
+      "num_input_tokens_seen": 14842112,
+      "step": 6865
+    },
+    {
+      "epoch": 1.1207177814029363,
+      "grad_norm": 0.2543666958808899,
+      "learning_rate": 0.0005602773246329527,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 14852096,
+      "step": 6870
+    },
+    {
+      "epoch": 1.1215334420880914,
+      "grad_norm": 0.06985493749380112,
+      "learning_rate": 0.0005606851549755301,
+      "loss": 0.131,
+      "num_input_tokens_seen": 14862240,
+      "step": 6875
+    },
+    {
+      "epoch": 1.1223491027732464,
+      "grad_norm": 0.1255275011062622,
+      "learning_rate": 0.0005610929853181077,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 14872448,
+      "step": 6880
+    },
+    {
+      "epoch": 1.1231647634584012,
+      "grad_norm": 0.06869206577539444,
+      "learning_rate": 0.0005615008156606851,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 14884000,
+      "step": 6885
+    },
+    {
+      "epoch": 1.1239804241435563,
+      "grad_norm": 0.20043504238128662,
+      "learning_rate": 0.0005619086460032627,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 14895552,
+      "step": 6890
+    },
+    {
+      "epoch": 1.1247960848287113,
+      "grad_norm": 0.1891249418258667,
+      "learning_rate": 0.0005623164763458401,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 14904896,
+      "step": 6895
+    },
+    {
+      "epoch": 1.1256117455138663,
+      "grad_norm": 0.05826778709888458,
+      "learning_rate": 0.0005627243066884176,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 14917184,
+      "step": 6900
+    },
+    {
+      "epoch": 1.1264274061990212,
+      "grad_norm": 0.15955139696598053,
+      "learning_rate": 0.0005631321370309951,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 14928064,
+      "step": 6905
+    },
+    {
+      "epoch": 1.1272430668841762,
+      "grad_norm": 0.19315731525421143,
+      "learning_rate": 0.0005635399673735726,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 14939008,
+      "step": 6910
+    },
+    {
+      "epoch": 1.1280587275693312,
+      "grad_norm": 0.24480724334716797,
+      "learning_rate": 0.0005639477977161502,
+      "loss": 0.1961,
+      "num_input_tokens_seen": 14950464,
+      "step": 6915
+    },
+    {
+      "epoch": 1.128874388254486,
+      "grad_norm": 0.4513859450817108,
+      "learning_rate": 0.0005643556280587275,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 14960736,
+      "step": 6920
+    },
+    {
+      "epoch": 1.129690048939641,
+      "grad_norm": 0.4298337399959564,
+      "learning_rate": 0.000564763458401305,
+      "loss": 0.2811,
+      "num_input_tokens_seen": 14972128,
+      "step": 6925
+    },
+    {
+      "epoch": 1.1305057096247961,
+      "grad_norm": 0.20439466834068298,
+      "learning_rate": 0.0005651712887438826,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 14982400,
+      "step": 6930
+    },
+    {
+      "epoch": 1.131321370309951,
+      "grad_norm": 0.25064659118652344,
+      "learning_rate": 0.0005655791190864601,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 14992320,
+      "step": 6935
+    },
+    {
+      "epoch": 1.132137030995106,
+      "grad_norm": 0.42060086131095886,
+      "learning_rate": 0.0005659869494290375,
+      "loss": 0.2396,
+      "num_input_tokens_seen": 15003520,
+      "step": 6940
+    },
+    {
+      "epoch": 1.132952691680261,
+      "grad_norm": 0.044980768114328384,
+      "learning_rate": 0.000566394779771615,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 15014656,
+      "step": 6945
+    },
+    {
+      "epoch": 1.133768352365416,
+      "grad_norm": 0.07436365634202957,
+      "learning_rate": 0.0005668026101141925,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 15025408,
+      "step": 6950
+    },
+    {
+      "epoch": 1.1345840130505709,
+      "grad_norm": 0.47422927618026733,
+      "learning_rate": 0.00056721044045677,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 15036672,
+      "step": 6955
+    },
+    {
+      "epoch": 1.135399673735726,
+      "grad_norm": 0.29630041122436523,
+      "learning_rate": 0.0005676182707993474,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 15047136,
+      "step": 6960
+    },
+    {
+      "epoch": 1.136215334420881,
+      "grad_norm": 0.16470947861671448,
+      "learning_rate": 0.000568026101141925,
+      "loss": 0.134,
+      "num_input_tokens_seen": 15058976,
+      "step": 6965
+    },
+    {
+      "epoch": 1.137030995106036,
+      "grad_norm": 0.28484222292900085,
+      "learning_rate": 0.0005684339314845025,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 15069312,
+      "step": 6970
+    },
+    {
+      "epoch": 1.1378466557911908,
+      "grad_norm": 0.03445442393422127,
+      "learning_rate": 0.0005688417618270799,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 15080832,
+      "step": 6975
+    },
+    {
+      "epoch": 1.1386623164763459,
+      "grad_norm": 0.05196113511919975,
+      "learning_rate": 0.0005692495921696575,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 15092288,
+      "step": 6980
+    },
+    {
+      "epoch": 1.139477977161501,
+      "grad_norm": 0.0929301381111145,
+      "learning_rate": 0.0005696574225122349,
+      "loss": 0.1277,
+      "num_input_tokens_seen": 15102432,
+      "step": 6985
+    },
+    {
+      "epoch": 1.1402936378466557,
+      "grad_norm": 0.11680106818675995,
+      "learning_rate": 0.0005700652528548124,
+      "loss": 0.1757,
+      "num_input_tokens_seen": 15112256,
+      "step": 6990
+    },
+    {
+      "epoch": 1.1411092985318108,
+      "grad_norm": 0.19014939665794373,
+      "learning_rate": 0.0005704730831973899,
+      "loss": 0.2152,
+      "num_input_tokens_seen": 15123808,
+      "step": 6995
+    },
+    {
+      "epoch": 1.1419249592169658,
+      "grad_norm": 0.1377144306898117,
+      "learning_rate": 0.0005708809135399674,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 15133184,
+      "step": 7000
+    },
+    {
+      "epoch": 1.1427406199021206,
+      "grad_norm": 0.5549722909927368,
+      "learning_rate": 0.000571288743882545,
+      "loss": 0.2517,
+      "num_input_tokens_seen": 15144704,
+      "step": 7005
+    },
+    {
+      "epoch": 1.1435562805872757,
+      "grad_norm": 0.24352173507213593,
+      "learning_rate": 0.0005716965742251223,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 15155456,
+      "step": 7010
+    },
+    {
+      "epoch": 1.1443719412724307,
+      "grad_norm": 0.11551082879304886,
+      "learning_rate": 0.0005721044045676999,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 15165696,
+      "step": 7015
+    },
+    {
+      "epoch": 1.1451876019575857,
+      "grad_norm": 0.278942734003067,
+      "learning_rate": 0.0005725122349102774,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 15176320,
+      "step": 7020
+    },
+    {
+      "epoch": 1.1460032626427405,
+      "grad_norm": 0.07334481179714203,
+      "learning_rate": 0.0005729200652528548,
+      "loss": 0.2575,
+      "num_input_tokens_seen": 15187488,
+      "step": 7025
+    },
+    {
+      "epoch": 1.1468189233278956,
+      "grad_norm": 0.11356133967638016,
+      "learning_rate": 0.0005733278955954323,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 15198528,
+      "step": 7030
+    },
+    {
+      "epoch": 1.1476345840130506,
+      "grad_norm": 0.31060490012168884,
+      "learning_rate": 0.0005737357259380098,
+      "loss": 0.1982,
+      "num_input_tokens_seen": 15209376,
+      "step": 7035
+    },
+    {
+      "epoch": 1.1484502446982057,
+      "grad_norm": 0.10984083265066147,
+      "learning_rate": 0.0005741435562805873,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 15220128,
+      "step": 7040
+    },
+    {
+      "epoch": 1.1492659053833605,
+      "grad_norm": 0.08647423982620239,
+      "learning_rate": 0.0005745513866231648,
+      "loss": 0.2202,
+      "num_input_tokens_seen": 15231552,
+      "step": 7045
+    },
+    {
+      "epoch": 1.1500815660685155,
+      "grad_norm": 0.32499903440475464,
+      "learning_rate": 0.0005749592169657422,
+      "loss": 0.2185,
+      "num_input_tokens_seen": 15241664,
+      "step": 7050
+    },
+    {
+      "epoch": 1.1508972267536706,
+      "grad_norm": 0.374118834733963,
+      "learning_rate": 0.0005753670473083198,
+      "loss": 0.112,
+      "num_input_tokens_seen": 15253536,
+      "step": 7055
+    },
+    {
+      "epoch": 1.1517128874388254,
+      "grad_norm": 0.4085756242275238,
+      "learning_rate": 0.0005757748776508972,
+      "loss": 0.1844,
+      "num_input_tokens_seen": 15263872,
+      "step": 7060
+    },
+    {
+      "epoch": 1.1525285481239804,
+      "grad_norm": 0.08538088202476501,
+      "learning_rate": 0.0005761827079934747,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 15275264,
+      "step": 7065
+    },
+    {
+      "epoch": 1.1533442088091355,
+      "grad_norm": 0.37617227435112,
+      "learning_rate": 0.0005765905383360523,
+      "loss": 0.2125,
+      "num_input_tokens_seen": 15286848,
+      "step": 7070
+    },
+    {
+      "epoch": 1.1541598694942903,
+      "grad_norm": 0.15897266566753387,
+      "learning_rate": 0.0005769983686786296,
+      "loss": 0.2071,
+      "num_input_tokens_seen": 15297472,
+      "step": 7075
+    },
+    {
+      "epoch": 1.1549755301794453,
+      "grad_norm": 0.22269028425216675,
+      "learning_rate": 0.0005774061990212072,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 15308224,
+      "step": 7080
+    },
+    {
+      "epoch": 1.1557911908646004,
+      "grad_norm": 0.2394644170999527,
+      "learning_rate": 0.0005778140293637847,
+      "loss": 0.2109,
+      "num_input_tokens_seen": 15319904,
+      "step": 7085
+    },
+    {
+      "epoch": 1.1566068515497552,
+      "grad_norm": 0.2885288596153259,
+      "learning_rate": 0.0005782218597063622,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 15329216,
+      "step": 7090
+    },
+    {
+      "epoch": 1.1574225122349102,
+      "grad_norm": 0.062343530356884,
+      "learning_rate": 0.0005786296900489396,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 15340288,
+      "step": 7095
+    },
+    {
+      "epoch": 1.1582381729200653,
+      "grad_norm": 0.30550217628479004,
+      "learning_rate": 0.0005790375203915171,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 15351648,
+      "step": 7100
+    },
+    {
+      "epoch": 1.1590538336052203,
+      "grad_norm": 0.022208329290151596,
+      "learning_rate": 0.0005794453507340947,
+      "loss": 0.1672,
+      "num_input_tokens_seen": 15363488,
+      "step": 7105
+    },
+    {
+      "epoch": 1.1598694942903751,
+      "grad_norm": 0.06365969777107239,
+      "learning_rate": 0.0005798531810766721,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 15373792,
+      "step": 7110
+    },
+    {
+      "epoch": 1.1606851549755302,
+      "grad_norm": 0.30073338747024536,
+      "learning_rate": 0.0005802610114192495,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 15385120,
+      "step": 7115
+    },
+    {
+      "epoch": 1.1615008156606852,
+      "grad_norm": 0.18821366131305695,
+      "learning_rate": 0.0005806688417618271,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 15395264,
+      "step": 7120
+    },
+    {
+      "epoch": 1.1623164763458402,
+      "grad_norm": 0.3371999263763428,
+      "learning_rate": 0.0005810766721044046,
+      "loss": 0.2989,
+      "num_input_tokens_seen": 15405696,
+      "step": 7125
+    },
+    {
+      "epoch": 1.163132137030995,
+      "grad_norm": 0.3867366909980774,
+      "learning_rate": 0.0005814845024469821,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 15416928,
+      "step": 7130
+    },
+    {
+      "epoch": 1.16394779771615,
+      "grad_norm": 0.48066145181655884,
+      "learning_rate": 0.0005818923327895596,
+      "loss": 0.2603,
+      "num_input_tokens_seen": 15427456,
+      "step": 7135
+    },
+    {
+      "epoch": 1.1647634584013051,
+      "grad_norm": 0.11666944622993469,
+      "learning_rate": 0.000582300163132137,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 15438336,
+      "step": 7140
+    },
+    {
+      "epoch": 1.16557911908646,
+      "grad_norm": 0.15594574809074402,
+      "learning_rate": 0.0005827079934747145,
+      "loss": 0.2309,
+      "num_input_tokens_seen": 15449088,
+      "step": 7145
+    },
+    {
+      "epoch": 1.166394779771615,
+      "grad_norm": 0.2819611132144928,
+      "learning_rate": 0.000583115823817292,
+      "loss": 0.1877,
+      "num_input_tokens_seen": 15460256,
+      "step": 7150
+    },
+    {
+      "epoch": 1.16721044045677,
+      "grad_norm": 0.1727602779865265,
+      "learning_rate": 0.0005835236541598696,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 15470560,
+      "step": 7155
+    },
+    {
+      "epoch": 1.1680261011419248,
+      "grad_norm": 0.19856815040111542,
+      "learning_rate": 0.000583931484502447,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 15482112,
+      "step": 7160
+    },
+    {
+      "epoch": 1.1688417618270799,
+      "grad_norm": 0.034124091267585754,
+      "learning_rate": 0.0005843393148450244,
+      "loss": 0.074,
+      "num_input_tokens_seen": 15493312,
+      "step": 7165
+    },
+    {
+      "epoch": 1.169657422512235,
+      "grad_norm": 0.05666607618331909,
+      "learning_rate": 0.000584747145187602,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 15503424,
+      "step": 7170
+    },
+    {
+      "epoch": 1.17047308319739,
+      "grad_norm": 0.05534420162439346,
+      "learning_rate": 0.0005851549755301795,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 15514400,
+      "step": 7175
+    },
+    {
+      "epoch": 1.1712887438825448,
+      "grad_norm": 0.014158536680042744,
+      "learning_rate": 0.0005855628058727568,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 15525760,
+      "step": 7180
+    },
+    {
+      "epoch": 1.1721044045676998,
+      "grad_norm": 0.44807717204093933,
+      "learning_rate": 0.0005859706362153344,
+      "loss": 0.179,
+      "num_input_tokens_seen": 15536480,
+      "step": 7185
+    },
+    {
+      "epoch": 1.1729200652528549,
+      "grad_norm": 0.06306151300668716,
+      "learning_rate": 0.0005863784665579119,
+      "loss": 0.129,
+      "num_input_tokens_seen": 15546720,
+      "step": 7190
+    },
+    {
+      "epoch": 1.17373572593801,
+      "grad_norm": 0.37018027901649475,
+      "learning_rate": 0.0005867862969004895,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 15556704,
+      "step": 7195
+    },
+    {
+      "epoch": 1.1745513866231647,
+      "grad_norm": 0.03759448975324631,
+      "learning_rate": 0.0005871941272430669,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 15567776,
+      "step": 7200
+    },
+    {
+      "epoch": 1.1753670473083198,
+      "grad_norm": 0.07634948194026947,
+      "learning_rate": 0.0005876019575856443,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 15578976,
+      "step": 7205
+    },
+    {
+      "epoch": 1.1761827079934748,
+      "grad_norm": 0.23645785450935364,
+      "learning_rate": 0.0005880097879282219,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 15590816,
+      "step": 7210
+    },
+    {
+      "epoch": 1.1769983686786296,
+      "grad_norm": 0.02600211650133133,
+      "learning_rate": 0.0005884176182707993,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 15601120,
+      "step": 7215
+    },
+    {
+      "epoch": 1.1778140293637847,
+      "grad_norm": 0.062186602503061295,
+      "learning_rate": 0.0005888254486133769,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 15610816,
+      "step": 7220
+    },
+    {
+      "epoch": 1.1786296900489397,
+      "grad_norm": 0.015181249938905239,
+      "learning_rate": 0.0005892332789559544,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 15621664,
+      "step": 7225
+    },
+    {
+      "epoch": 1.1794453507340945,
+      "grad_norm": 0.06925445795059204,
+      "learning_rate": 0.0005896411092985318,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 15632768,
+      "step": 7230
+    },
+    {
+      "epoch": 1.1802610114192496,
+      "grad_norm": 0.008259747177362442,
+      "learning_rate": 0.0005900489396411093,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 15643872,
+      "step": 7235
+    },
+    {
+      "epoch": 1.1810766721044046,
+      "grad_norm": 0.12475767731666565,
+      "learning_rate": 0.0005904567699836868,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 15655200,
+      "step": 7240
+    },
+    {
+      "epoch": 1.1818923327895596,
+      "grad_norm": 0.0850701779127121,
+      "learning_rate": 0.0005908646003262644,
+      "loss": 0.2109,
+      "num_input_tokens_seen": 15664512,
+      "step": 7245
+    },
+    {
+      "epoch": 1.1827079934747144,
+      "grad_norm": 0.7401888370513916,
+      "learning_rate": 0.0005912724306688417,
+      "loss": 0.2835,
+      "num_input_tokens_seen": 15675072,
+      "step": 7250
+    },
+    {
+      "epoch": 1.1835236541598695,
+      "grad_norm": 0.1192028746008873,
+      "learning_rate": 0.0005916802610114192,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 15685152,
+      "step": 7255
+    },
+    {
+      "epoch": 1.1843393148450245,
+      "grad_norm": 0.1462324559688568,
+      "learning_rate": 0.0005920880913539968,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 15696064,
+      "step": 7260
+    },
+    {
+      "epoch": 1.1851549755301796,
+      "grad_norm": 0.21007820963859558,
+      "learning_rate": 0.0005924959216965743,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 15707296,
+      "step": 7265
+    },
+    {
+      "epoch": 1.1859706362153344,
+      "grad_norm": 0.13377432525157928,
+      "learning_rate": 0.0005929037520391517,
+      "loss": 0.095,
+      "num_input_tokens_seen": 15718496,
+      "step": 7270
+    },
+    {
+      "epoch": 1.1867862969004894,
+      "grad_norm": 0.23630847036838531,
+      "learning_rate": 0.0005933115823817292,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 15730080,
+      "step": 7275
+    },
+    {
+      "epoch": 1.1876019575856445,
+      "grad_norm": 0.05261866748332977,
+      "learning_rate": 0.0005937194127243067,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 15741248,
+      "step": 7280
+    },
+    {
+      "epoch": 1.1884176182707993,
+      "grad_norm": 0.09066125005483627,
+      "learning_rate": 0.0005941272430668842,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 15752736,
+      "step": 7285
+    },
+    {
+      "epoch": 1.1892332789559543,
+      "grad_norm": 0.5383073687553406,
+      "learning_rate": 0.0005945350734094617,
+      "loss": 0.2609,
+      "num_input_tokens_seen": 15763648,
+      "step": 7290
+    },
+    {
+      "epoch": 1.1900489396411094,
+      "grad_norm": 0.2469019889831543,
+      "learning_rate": 0.0005949429037520392,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 15774016,
+      "step": 7295
+    },
+    {
+      "epoch": 1.1908646003262642,
+      "grad_norm": 0.10927631705999374,
+      "learning_rate": 0.0005953507340946166,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 15783232,
+      "step": 7300
+    },
+    {
+      "epoch": 1.1916802610114192,
+      "grad_norm": 0.14146047830581665,
+      "learning_rate": 0.0005957585644371941,
+      "loss": 0.226,
+      "num_input_tokens_seen": 15794304,
+      "step": 7305
+    },
+    {
+      "epoch": 1.1924959216965743,
+      "grad_norm": 0.1634165346622467,
+      "learning_rate": 0.0005961663947797717,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 15804960,
+      "step": 7310
+    },
+    {
+      "epoch": 1.1933115823817293,
+      "grad_norm": 0.5072509050369263,
+      "learning_rate": 0.0005965742251223491,
+      "loss": 0.2341,
+      "num_input_tokens_seen": 15815808,
+      "step": 7315
+    },
+    {
+      "epoch": 1.1941272430668841,
+      "grad_norm": 0.2947240471839905,
+      "learning_rate": 0.0005969820554649265,
+      "loss": 0.1681,
+      "num_input_tokens_seen": 15826528,
+      "step": 7320
+    },
+    {
+      "epoch": 1.1949429037520392,
+      "grad_norm": 0.34804099798202515,
+      "learning_rate": 0.0005973898858075041,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 15837920,
+      "step": 7325
+    },
+    {
+      "epoch": 1.1957585644371942,
+      "grad_norm": 0.09488537162542343,
+      "learning_rate": 0.0005977977161500816,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 15849152,
+      "step": 7330
+    },
+    {
+      "epoch": 1.196574225122349,
+      "grad_norm": 0.012553676031529903,
+      "learning_rate": 0.000598205546492659,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 15861152,
+      "step": 7335
+    },
+    {
+      "epoch": 1.197389885807504,
+      "grad_norm": 0.1785455197095871,
+      "learning_rate": 0.0005986133768352365,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 15872352,
+      "step": 7340
+    },
+    {
+      "epoch": 1.198205546492659,
+      "grad_norm": 0.09887787699699402,
+      "learning_rate": 0.000599021207177814,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 15881984,
+      "step": 7345
+    },
+    {
+      "epoch": 1.1990212071778141,
+      "grad_norm": 0.5077795386314392,
+      "learning_rate": 0.0005994290375203916,
+      "loss": 0.1468,
+      "num_input_tokens_seen": 15892800,
+      "step": 7350
+    },
+    {
+      "epoch": 1.199836867862969,
+      "grad_norm": 0.015568344853818417,
+      "learning_rate": 0.000599836867862969,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 15902912,
+      "step": 7355
+    },
+    {
+      "epoch": 1.200652528548124,
+      "grad_norm": 0.02570744976401329,
+      "learning_rate": 0.0006002446982055465,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 15914656,
+      "step": 7360
+    },
+    {
+      "epoch": 1.201468189233279,
+      "grad_norm": 0.01589066907763481,
+      "learning_rate": 0.000600652528548124,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 15924960,
+      "step": 7365
+    },
+    {
+      "epoch": 1.2022838499184338,
+      "grad_norm": 0.5855007171630859,
+      "learning_rate": 0.0006010603588907014,
+      "loss": 0.22,
+      "num_input_tokens_seen": 15935808,
+      "step": 7370
+    },
+    {
+      "epoch": 1.2030995106035889,
+      "grad_norm": 0.19280865788459778,
+      "learning_rate": 0.000601468189233279,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 15945184,
+      "step": 7375
+    },
+    {
+      "epoch": 1.203915171288744,
+      "grad_norm": 0.18036264181137085,
+      "learning_rate": 0.0006018760195758564,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 15956000,
+      "step": 7380
+    },
+    {
+      "epoch": 1.2047308319738987,
+      "grad_norm": 0.27529698610305786,
+      "learning_rate": 0.000602283849918434,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 15967712,
+      "step": 7385
+    },
+    {
+      "epoch": 1.2055464926590538,
+      "grad_norm": 0.6813198924064636,
+      "learning_rate": 0.0006026916802610114,
+      "loss": 0.2154,
+      "num_input_tokens_seen": 15977312,
+      "step": 7390
+    },
+    {
+      "epoch": 1.2063621533442088,
+      "grad_norm": 0.6599311232566833,
+      "learning_rate": 0.0006030995106035889,
+      "loss": 0.1632,
+      "num_input_tokens_seen": 15986048,
+      "step": 7395
+    },
+    {
+      "epoch": 1.2071778140293639,
+      "grad_norm": 0.2776208817958832,
+      "learning_rate": 0.0006035073409461665,
+      "loss": 0.2229,
+      "num_input_tokens_seen": 15998080,
+      "step": 7400
+    },
+    {
+      "epoch": 1.2079934747145187,
+      "grad_norm": 0.08681552112102509,
+      "learning_rate": 0.0006039151712887438,
+      "loss": 0.097,
+      "num_input_tokens_seen": 16008704,
+      "step": 7405
+    },
+    {
+      "epoch": 1.2088091353996737,
+      "grad_norm": 0.13826783001422882,
+      "learning_rate": 0.0006043230016313214,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 16020128,
+      "step": 7410
+    },
+    {
+      "epoch": 1.2096247960848288,
+      "grad_norm": 0.2015797346830368,
+      "learning_rate": 0.0006047308319738989,
+      "loss": 0.1688,
+      "num_input_tokens_seen": 16031680,
+      "step": 7415
+    },
+    {
+      "epoch": 1.2104404567699838,
+      "grad_norm": 0.27414339780807495,
+      "learning_rate": 0.0006051386623164764,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 16042400,
+      "step": 7420
+    },
+    {
+      "epoch": 1.2112561174551386,
+      "grad_norm": 0.4146776795387268,
+      "learning_rate": 0.0006055464926590538,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 16052832,
+      "step": 7425
+    },
+    {
+      "epoch": 1.2120717781402937,
+      "grad_norm": 0.5340694785118103,
+      "learning_rate": 0.0006059543230016313,
+      "loss": 0.2615,
+      "num_input_tokens_seen": 16062688,
+      "step": 7430
+    },
+    {
+      "epoch": 1.2128874388254487,
+      "grad_norm": 0.15199506282806396,
+      "learning_rate": 0.0006063621533442089,
+      "loss": 0.1463,
+      "num_input_tokens_seen": 16073440,
+      "step": 7435
+    },
+    {
+      "epoch": 1.2137030995106035,
+      "grad_norm": 0.45297807455062866,
+      "learning_rate": 0.0006067699836867863,
+      "loss": 0.2037,
+      "num_input_tokens_seen": 16085120,
+      "step": 7440
+    },
+    {
+      "epoch": 1.2145187601957586,
+      "grad_norm": 0.23709626495838165,
+      "learning_rate": 0.0006071778140293637,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 16095296,
+      "step": 7445
+    },
+    {
+      "epoch": 1.2153344208809136,
+      "grad_norm": 0.3890670835971832,
+      "learning_rate": 0.0006075856443719413,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 16106112,
+      "step": 7450
+    },
+    {
+      "epoch": 1.2161500815660684,
+      "grad_norm": 0.1603914052248001,
+      "learning_rate": 0.0006079934747145188,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 16115136,
+      "step": 7455
+    },
+    {
+      "epoch": 1.2169657422512234,
+      "grad_norm": 0.06594960391521454,
+      "learning_rate": 0.0006084013050570962,
+      "loss": 0.083,
+      "num_input_tokens_seen": 16125344,
+      "step": 7460
+    },
+    {
+      "epoch": 1.2177814029363785,
+      "grad_norm": 0.12942712008953094,
+      "learning_rate": 0.0006088091353996738,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 16136928,
+      "step": 7465
+    },
+    {
+      "epoch": 1.2185970636215335,
+      "grad_norm": 0.2689228951931,
+      "learning_rate": 0.0006092169657422512,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 16147392,
+      "step": 7470
+    },
+    {
+      "epoch": 1.2194127243066883,
+      "grad_norm": 0.142789825797081,
+      "learning_rate": 0.0006096247960848287,
+      "loss": 0.117,
+      "num_input_tokens_seen": 16158080,
+      "step": 7475
+    },
+    {
+      "epoch": 1.2202283849918434,
+      "grad_norm": 0.06195086985826492,
+      "learning_rate": 0.0006100326264274062,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 16169568,
+      "step": 7480
+    },
+    {
+      "epoch": 1.2210440456769984,
+      "grad_norm": 0.1662866175174713,
+      "learning_rate": 0.0006104404567699837,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 16180768,
+      "step": 7485
+    },
+    {
+      "epoch": 1.2218597063621535,
+      "grad_norm": 0.21019388735294342,
+      "learning_rate": 0.0006108482871125613,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 16191520,
+      "step": 7490
+    },
+    {
+      "epoch": 1.2226753670473083,
+      "grad_norm": 0.20374208688735962,
+      "learning_rate": 0.0006112561174551386,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 16202624,
+      "step": 7495
+    },
+    {
+      "epoch": 1.2234910277324633,
+      "grad_norm": 0.0657731369137764,
+      "learning_rate": 0.0006116639477977162,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 16212192,
+      "step": 7500
+    },
+    {
+      "epoch": 1.2243066884176184,
+      "grad_norm": 0.5109583735466003,
+      "learning_rate": 0.0006120717781402937,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 16224416,
+      "step": 7505
+    },
+    {
+      "epoch": 1.2251223491027732,
+      "grad_norm": 0.04669109731912613,
+      "learning_rate": 0.000612479608482871,
+      "loss": 0.1749,
+      "num_input_tokens_seen": 16235232,
+      "step": 7510
+    },
+    {
+      "epoch": 1.2259380097879282,
+      "grad_norm": 0.04343324527144432,
+      "learning_rate": 0.0006128874388254486,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 16245696,
+      "step": 7515
+    },
+    {
+      "epoch": 1.2267536704730833,
+      "grad_norm": 0.124315544962883,
+      "learning_rate": 0.0006132952691680261,
+      "loss": 0.1668,
+      "num_input_tokens_seen": 16257216,
+      "step": 7520
+    },
+    {
+      "epoch": 1.227569331158238,
+      "grad_norm": 0.4877174496650696,
+      "learning_rate": 0.0006137030995106036,
+      "loss": 0.1787,
+      "num_input_tokens_seen": 16268896,
+      "step": 7525
+    },
+    {
+      "epoch": 1.2283849918433931,
+      "grad_norm": 0.0646728053689003,
+      "learning_rate": 0.0006141109298531811,
+      "loss": 0.074,
+      "num_input_tokens_seen": 16280128,
+      "step": 7530
+    },
+    {
+      "epoch": 1.2292006525285482,
+      "grad_norm": 0.07480008155107498,
+      "learning_rate": 0.0006145187601957585,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 16292128,
+      "step": 7535
+    },
+    {
+      "epoch": 1.2300163132137032,
+      "grad_norm": 0.25711551308631897,
+      "learning_rate": 0.0006149265905383361,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 16302048,
+      "step": 7540
+    },
+    {
+      "epoch": 1.230831973898858,
+      "grad_norm": 0.48960769176483154,
+      "learning_rate": 0.0006153344208809135,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 16312672,
+      "step": 7545
+    },
+    {
+      "epoch": 1.231647634584013,
+      "grad_norm": 0.21101155877113342,
+      "learning_rate": 0.0006157422512234911,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 16322528,
+      "step": 7550
+    },
+    {
+      "epoch": 1.232463295269168,
+      "grad_norm": 0.6068270206451416,
+      "learning_rate": 0.0006161500815660686,
+      "loss": 0.3582,
+      "num_input_tokens_seen": 16334720,
+      "step": 7555
+    },
+    {
+      "epoch": 1.233278955954323,
+      "grad_norm": 0.21375367045402527,
+      "learning_rate": 0.0006165579119086459,
+      "loss": 0.059,
+      "num_input_tokens_seen": 16346272,
+      "step": 7560
+    },
+    {
+      "epoch": 1.234094616639478,
+      "grad_norm": 0.13177448511123657,
+      "learning_rate": 0.0006169657422512235,
+      "loss": 0.094,
+      "num_input_tokens_seen": 16357280,
+      "step": 7565
+    },
+    {
+      "epoch": 1.234910277324633,
+      "grad_norm": 0.2921614646911621,
+      "learning_rate": 0.000617373572593801,
+      "loss": 0.1991,
+      "num_input_tokens_seen": 16368704,
+      "step": 7570
+    },
+    {
+      "epoch": 1.235725938009788,
+      "grad_norm": 0.3497111201286316,
+      "learning_rate": 0.0006177814029363786,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 16379904,
+      "step": 7575
+    },
+    {
+      "epoch": 1.2365415986949428,
+      "grad_norm": 0.056018609553575516,
+      "learning_rate": 0.0006181892332789559,
+      "loss": 0.129,
+      "num_input_tokens_seen": 16390144,
+      "step": 7580
+    },
+    {
+      "epoch": 1.2373572593800979,
+      "grad_norm": 0.15077915787696838,
+      "learning_rate": 0.0006185970636215334,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 16401024,
+      "step": 7585
+    },
+    {
+      "epoch": 1.238172920065253,
+      "grad_norm": 0.13833118975162506,
+      "learning_rate": 0.000619004893964111,
+      "loss": 0.1811,
+      "num_input_tokens_seen": 16410368,
+      "step": 7590
+    },
+    {
+      "epoch": 1.2389885807504077,
+      "grad_norm": 0.2312982827425003,
+      "learning_rate": 0.0006194127243066884,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 16420000,
+      "step": 7595
+    },
+    {
+      "epoch": 1.2398042414355628,
+      "grad_norm": 0.11060801148414612,
+      "learning_rate": 0.000619820554649266,
+      "loss": 0.08,
+      "num_input_tokens_seen": 16430240,
+      "step": 7600
+    },
+    {
+      "epoch": 1.2406199021207178,
+      "grad_norm": 0.1415390968322754,
+      "learning_rate": 0.0006202283849918434,
+      "loss": 0.2042,
+      "num_input_tokens_seen": 16440384,
+      "step": 7605
+    },
+    {
+      "epoch": 1.2414355628058726,
+      "grad_norm": 0.36229464411735535,
+      "learning_rate": 0.0006206362153344209,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 16451296,
+      "step": 7610
+    },
+    {
+      "epoch": 1.2422512234910277,
+      "grad_norm": 0.13426244258880615,
+      "learning_rate": 0.0006210440456769984,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 16463584,
+      "step": 7615
+    },
+    {
+      "epoch": 1.2430668841761827,
+      "grad_norm": 0.24502316117286682,
+      "learning_rate": 0.0006214518760195759,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 16474656,
+      "step": 7620
+    },
+    {
+      "epoch": 1.2438825448613378,
+      "grad_norm": 0.39227384328842163,
+      "learning_rate": 0.0006218597063621533,
+      "loss": 0.213,
+      "num_input_tokens_seen": 16485632,
+      "step": 7625
+    },
+    {
+      "epoch": 1.2446982055464926,
+      "grad_norm": 0.24334146082401276,
+      "learning_rate": 0.0006222675367047308,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 16496160,
+      "step": 7630
+    },
+    {
+      "epoch": 1.2455138662316476,
+      "grad_norm": 0.4462047517299652,
+      "learning_rate": 0.0006226753670473083,
+      "loss": 0.1664,
+      "num_input_tokens_seen": 16506016,
+      "step": 7635
+    },
+    {
+      "epoch": 1.2463295269168027,
+      "grad_norm": 0.14899565279483795,
+      "learning_rate": 0.0006230831973898859,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 16516832,
+      "step": 7640
+    },
+    {
+      "epoch": 1.2471451876019577,
+      "grad_norm": 0.043367356061935425,
+      "learning_rate": 0.0006234910277324634,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 16528128,
+      "step": 7645
+    },
+    {
+      "epoch": 1.2479608482871125,
+      "grad_norm": 0.019222905859351158,
+      "learning_rate": 0.0006238988580750407,
+      "loss": 0.039,
+      "num_input_tokens_seen": 16539168,
+      "step": 7650
+    },
+    {
+      "epoch": 1.2487765089722676,
+      "grad_norm": 0.16319647431373596,
+      "learning_rate": 0.0006243066884176183,
+      "loss": 0.1972,
+      "num_input_tokens_seen": 16549280,
+      "step": 7655
+    },
+    {
+      "epoch": 1.2495921696574226,
+      "grad_norm": 0.17091651260852814,
+      "learning_rate": 0.0006247145187601958,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 16559680,
+      "step": 7660
+    },
+    {
+      "epoch": 1.2504078303425774,
+      "grad_norm": 0.055152345448732376,
+      "learning_rate": 0.0006251223491027733,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 16570048,
+      "step": 7665
+    },
+    {
+      "epoch": 1.2512234910277324,
+      "grad_norm": 0.35145047307014465,
+      "learning_rate": 0.0006255301794453507,
+      "loss": 0.123,
+      "num_input_tokens_seen": 16581344,
+      "step": 7670
+    },
+    {
+      "epoch": 1.2520391517128875,
+      "grad_norm": 0.08169589936733246,
+      "learning_rate": 0.0006259380097879282,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 16591872,
+      "step": 7675
+    },
+    {
+      "epoch": 1.2528548123980423,
+      "grad_norm": 0.20706957578659058,
+      "learning_rate": 0.0006263458401305058,
+      "loss": 0.264,
+      "num_input_tokens_seen": 16602400,
+      "step": 7680
+    },
+    {
+      "epoch": 1.2536704730831973,
+      "grad_norm": 0.41825392842292786,
+      "learning_rate": 0.0006267536704730832,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 16614272,
+      "step": 7685
+    },
+    {
+      "epoch": 1.2544861337683524,
+      "grad_norm": 0.017080556601285934,
+      "learning_rate": 0.0006271615008156607,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 16625728,
+      "step": 7690
+    },
+    {
+      "epoch": 1.2553017944535072,
+      "grad_norm": 0.30033621191978455,
+      "learning_rate": 0.0006275693311582382,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 16637056,
+      "step": 7695
+    },
+    {
+      "epoch": 1.2561174551386622,
+      "grad_norm": 0.02396804839372635,
+      "learning_rate": 0.0006279771615008156,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 16648448,
+      "step": 7700
+    },
+    {
+      "epoch": 1.2569331158238173,
+      "grad_norm": 0.18351727724075317,
+      "learning_rate": 0.0006283849918433932,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 16659200,
+      "step": 7705
+    },
+    {
+      "epoch": 1.2577487765089723,
+      "grad_norm": 0.008948463946580887,
+      "learning_rate": 0.0006287928221859707,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 16668992,
+      "step": 7710
+    },
+    {
+      "epoch": 1.2585644371941274,
+      "grad_norm": 0.2766994535923004,
+      "learning_rate": 0.0006292006525285482,
+      "loss": 0.068,
+      "num_input_tokens_seen": 16678720,
+      "step": 7715
+    },
+    {
+      "epoch": 1.2593800978792822,
+      "grad_norm": 0.0534847155213356,
+      "learning_rate": 0.0006296084828711256,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 16690656,
+      "step": 7720
+    },
+    {
+      "epoch": 1.2601957585644372,
+      "grad_norm": 0.026031237095594406,
+      "learning_rate": 0.0006300163132137031,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 16701536,
+      "step": 7725
+    },
+    {
+      "epoch": 1.2610114192495923,
+      "grad_norm": 0.0823201909661293,
+      "learning_rate": 0.0006304241435562807,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 16712096,
+      "step": 7730
+    },
+    {
+      "epoch": 1.261827079934747,
+      "grad_norm": 0.058362994343042374,
+      "learning_rate": 0.000630831973898858,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 16724544,
+      "step": 7735
+    },
+    {
+      "epoch": 1.2626427406199021,
+      "grad_norm": 0.30868566036224365,
+      "learning_rate": 0.0006312398042414356,
+      "loss": 0.0493,
+      "num_input_tokens_seen": 16736128,
+      "step": 7740
+    },
+    {
+      "epoch": 1.2634584013050572,
+      "grad_norm": 0.03179110214114189,
+      "learning_rate": 0.0006316476345840131,
+      "loss": 0.1463,
+      "num_input_tokens_seen": 16746464,
+      "step": 7745
+    },
+    {
+      "epoch": 1.264274061990212,
+      "grad_norm": 0.10827480256557465,
+      "learning_rate": 0.0006320554649265906,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 16757632,
+      "step": 7750
+    },
+    {
+      "epoch": 1.265089722675367,
+      "grad_norm": 0.4119908809661865,
+      "learning_rate": 0.000632463295269168,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 16767296,
+      "step": 7755
+    },
+    {
+      "epoch": 1.265905383360522,
+      "grad_norm": 0.0076904455199837685,
+      "learning_rate": 0.0006328711256117455,
+      "loss": 0.2405,
+      "num_input_tokens_seen": 16779616,
+      "step": 7760
+    },
+    {
+      "epoch": 1.2667210440456769,
+      "grad_norm": 0.21104197204113007,
+      "learning_rate": 0.000633278955954323,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 16789216,
+      "step": 7765
+    },
+    {
+      "epoch": 1.267536704730832,
+      "grad_norm": 0.47181203961372375,
+      "learning_rate": 0.0006336867862969005,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 16800192,
+      "step": 7770
+    },
+    {
+      "epoch": 1.268352365415987,
+      "grad_norm": 0.2550259828567505,
+      "learning_rate": 0.000634094616639478,
+      "loss": 0.088,
+      "num_input_tokens_seen": 16810624,
+      "step": 7775
+    },
+    {
+      "epoch": 1.269168026101142,
+      "grad_norm": 0.09608176350593567,
+      "learning_rate": 0.0006345024469820555,
+      "loss": 0.213,
+      "num_input_tokens_seen": 16821280,
+      "step": 7780
+    },
+    {
+      "epoch": 1.269983686786297,
+      "grad_norm": 0.026034316048026085,
+      "learning_rate": 0.0006349102773246329,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 16832384,
+      "step": 7785
+    },
+    {
+      "epoch": 1.2707993474714518,
+      "grad_norm": 0.12941612303256989,
+      "learning_rate": 0.0006353181076672104,
+      "loss": 0.06,
+      "num_input_tokens_seen": 16843360,
+      "step": 7790
+    },
+    {
+      "epoch": 1.2716150081566069,
+      "grad_norm": 0.10202895104885101,
+      "learning_rate": 0.000635725938009788,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 16853216,
+      "step": 7795
+    },
+    {
+      "epoch": 1.272430668841762,
+      "grad_norm": 0.3297278583049774,
+      "learning_rate": 0.0006361337683523654,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 16864704,
+      "step": 7800
+    },
+    {
+      "epoch": 1.2732463295269167,
+      "grad_norm": 0.5877017974853516,
+      "learning_rate": 0.0006365415986949429,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 16876928,
+      "step": 7805
+    },
+    {
+      "epoch": 1.2740619902120718,
+      "grad_norm": 0.4183492362499237,
+      "learning_rate": 0.0006369494290375204,
+      "loss": 0.1534,
+      "num_input_tokens_seen": 16888224,
+      "step": 7810
+    },
+    {
+      "epoch": 1.2748776508972268,
+      "grad_norm": 0.31846538186073303,
+      "learning_rate": 0.0006373572593800979,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 16899648,
+      "step": 7815
+    },
+    {
+      "epoch": 1.2756933115823816,
+      "grad_norm": 0.38586241006851196,
+      "learning_rate": 0.0006377650897226754,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 16909472,
+      "step": 7820
+    },
+    {
+      "epoch": 1.2765089722675367,
+      "grad_norm": 0.15391522645950317,
+      "learning_rate": 0.0006381729200652528,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 16921344,
+      "step": 7825
+    },
+    {
+      "epoch": 1.2773246329526917,
+      "grad_norm": 0.2430095225572586,
+      "learning_rate": 0.0006385807504078304,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 16931648,
+      "step": 7830
+    },
+    {
+      "epoch": 1.2781402936378465,
+      "grad_norm": 0.10504290461540222,
+      "learning_rate": 0.0006389885807504079,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 16942304,
+      "step": 7835
+    },
+    {
+      "epoch": 1.2789559543230016,
+      "grad_norm": 0.10132510960102081,
+      "learning_rate": 0.0006393964110929853,
+      "loss": 0.1656,
+      "num_input_tokens_seen": 16953056,
+      "step": 7840
+    },
+    {
+      "epoch": 1.2797716150081566,
+      "grad_norm": 0.14680597186088562,
+      "learning_rate": 0.0006398042414355628,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 16962944,
+      "step": 7845
+    },
+    {
+      "epoch": 1.2805872756933117,
+      "grad_norm": 0.04616044834256172,
+      "learning_rate": 0.0006402120717781403,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 16973408,
+      "step": 7850
+    },
+    {
+      "epoch": 1.2814029363784667,
+      "grad_norm": 0.03202705457806587,
+      "learning_rate": 0.0006406199021207178,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 16983904,
+      "step": 7855
+    },
+    {
+      "epoch": 1.2822185970636215,
+      "grad_norm": 0.0769016444683075,
+      "learning_rate": 0.0006410277324632953,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 16995584,
+      "step": 7860
+    },
+    {
+      "epoch": 1.2830342577487766,
+      "grad_norm": 0.2932111620903015,
+      "learning_rate": 0.0006414355628058727,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 17006912,
+      "step": 7865
+    },
+    {
+      "epoch": 1.2838499184339316,
+      "grad_norm": 0.0873182862997055,
+      "learning_rate": 0.0006418433931484503,
+      "loss": 0.2605,
+      "num_input_tokens_seen": 17018240,
+      "step": 7870
+    },
+    {
+      "epoch": 1.2846655791190864,
+      "grad_norm": 0.1578231006860733,
+      "learning_rate": 0.0006422512234910277,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 17028832,
+      "step": 7875
+    },
+    {
+      "epoch": 1.2854812398042414,
+      "grad_norm": 0.27968907356262207,
+      "learning_rate": 0.0006426590538336053,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 17040704,
+      "step": 7880
+    },
+    {
+      "epoch": 1.2862969004893965,
+      "grad_norm": 0.04651603102684021,
+      "learning_rate": 0.0006430668841761828,
+      "loss": 0.1679,
+      "num_input_tokens_seen": 17052224,
+      "step": 7885
+    },
+    {
+      "epoch": 1.2871125611745513,
+      "grad_norm": 0.5027137398719788,
+      "learning_rate": 0.0006434747145187601,
+      "loss": 0.4001,
+      "num_input_tokens_seen": 17062272,
+      "step": 7890
+    },
+    {
+      "epoch": 1.2879282218597063,
+      "grad_norm": 0.08611617237329483,
+      "learning_rate": 0.0006438825448613377,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 17073728,
+      "step": 7895
+    },
+    {
+      "epoch": 1.2887438825448614,
+      "grad_norm": 0.29694536328315735,
+      "learning_rate": 0.0006442903752039152,
+      "loss": 0.241,
+      "num_input_tokens_seen": 17084032,
+      "step": 7900
+    },
+    {
+      "epoch": 1.2895595432300162,
+      "grad_norm": 0.023007987067103386,
+      "learning_rate": 0.0006446982055464927,
+      "loss": 0.2715,
+      "num_input_tokens_seen": 17095616,
+      "step": 7905
+    },
+    {
+      "epoch": 1.2903752039151712,
+      "grad_norm": 0.23659998178482056,
+      "learning_rate": 0.0006451060358890701,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 17105952,
+      "step": 7910
+    },
+    {
+      "epoch": 1.2911908646003263,
+      "grad_norm": 0.28056174516677856,
+      "learning_rate": 0.0006455138662316476,
+      "loss": 0.161,
+      "num_input_tokens_seen": 17116064,
+      "step": 7915
+    },
+    {
+      "epoch": 1.2920065252854813,
+      "grad_norm": 0.22875936329364777,
+      "learning_rate": 0.0006459216965742252,
+      "loss": 0.1918,
+      "num_input_tokens_seen": 17127456,
+      "step": 7920
+    },
+    {
+      "epoch": 1.2928221859706361,
+      "grad_norm": 0.5045974254608154,
+      "learning_rate": 0.0006463295269168026,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 17139168,
+      "step": 7925
+    },
+    {
+      "epoch": 1.2936378466557912,
+      "grad_norm": 0.24506209790706635,
+      "learning_rate": 0.00064673735725938,
+      "loss": 0.078,
+      "num_input_tokens_seen": 17150848,
+      "step": 7930
+    },
+    {
+      "epoch": 1.2944535073409462,
+      "grad_norm": 0.04896121099591255,
+      "learning_rate": 0.0006471451876019576,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 17162080,
+      "step": 7935
+    },
+    {
+      "epoch": 1.2952691680261013,
+      "grad_norm": 0.2526971995830536,
+      "learning_rate": 0.0006475530179445351,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 17172544,
+      "step": 7940
+    },
+    {
+      "epoch": 1.296084828711256,
+      "grad_norm": 0.10988382250070572,
+      "learning_rate": 0.0006479608482871126,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 17182848,
+      "step": 7945
+    },
+    {
+      "epoch": 1.2969004893964111,
+      "grad_norm": 0.27198734879493713,
+      "learning_rate": 0.0006483686786296901,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 17193408,
+      "step": 7950
+    },
+    {
+      "epoch": 1.2977161500815662,
+      "grad_norm": 0.3824102580547333,
+      "learning_rate": 0.0006487765089722675,
+      "loss": 0.176,
+      "num_input_tokens_seen": 17204384,
+      "step": 7955
+    },
+    {
+      "epoch": 1.298531810766721,
+      "grad_norm": 0.1732729822397232,
+      "learning_rate": 0.000649184339314845,
+      "loss": 0.1326,
+      "num_input_tokens_seen": 17214656,
+      "step": 7960
+    },
+    {
+      "epoch": 1.299347471451876,
+      "grad_norm": 0.2566794753074646,
+      "learning_rate": 0.0006495921696574225,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 17224320,
+      "step": 7965
+    },
+    {
+      "epoch": 1.300163132137031,
+      "grad_norm": 0.09076650440692902,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 0.1901,
+      "num_input_tokens_seen": 17236512,
+      "step": 7970
+    },
+    {
+      "epoch": 1.3009787928221859,
+      "grad_norm": 0.18000783026218414,
+      "learning_rate": 0.0006504078303425776,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 17247520,
+      "step": 7975
+    },
+    {
+      "epoch": 1.301794453507341,
+      "grad_norm": 0.23230217397212982,
+      "learning_rate": 0.0006508156606851549,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 17258752,
+      "step": 7980
+    },
+    {
+      "epoch": 1.302610114192496,
+      "grad_norm": 0.11019614338874817,
+      "learning_rate": 0.0006512234910277325,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 17269632,
+      "step": 7985
+    },
+    {
+      "epoch": 1.3034257748776508,
+      "grad_norm": 0.04341624677181244,
+      "learning_rate": 0.00065163132137031,
+      "loss": 0.2333,
+      "num_input_tokens_seen": 17280192,
+      "step": 7990
+    },
+    {
+      "epoch": 1.3042414355628058,
+      "grad_norm": 0.4747850298881531,
+      "learning_rate": 0.0006520391517128875,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 17291712,
+      "step": 7995
+    },
+    {
+      "epoch": 1.3050570962479608,
+      "grad_norm": 0.7965296506881714,
+      "learning_rate": 0.0006524469820554649,
+      "loss": 0.22,
+      "num_input_tokens_seen": 17302272,
+      "step": 8000
+    },
+    {
+      "epoch": 1.3058727569331159,
+      "grad_norm": 0.29167118668556213,
+      "learning_rate": 0.0006528548123980424,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 17314304,
+      "step": 8005
+    },
+    {
+      "epoch": 1.306688417618271,
+      "grad_norm": 0.3655271828174591,
+      "learning_rate": 0.0006532626427406199,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 17325248,
+      "step": 8010
+    },
+    {
+      "epoch": 1.3075040783034257,
+      "grad_norm": 0.26490768790245056,
+      "learning_rate": 0.0006536704730831974,
+      "loss": 0.1989,
+      "num_input_tokens_seen": 17335936,
+      "step": 8015
+    },
+    {
+      "epoch": 1.3083197389885808,
+      "grad_norm": 0.3598152995109558,
+      "learning_rate": 0.000654078303425775,
+      "loss": 0.2269,
+      "num_input_tokens_seen": 17346016,
+      "step": 8020
+    },
+    {
+      "epoch": 1.3091353996737358,
+      "grad_norm": 0.10805067420005798,
+      "learning_rate": 0.0006544861337683524,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 17357728,
+      "step": 8025
+    },
+    {
+      "epoch": 1.3099510603588906,
+      "grad_norm": 0.07780245691537857,
+      "learning_rate": 0.0006548939641109298,
+      "loss": 0.094,
+      "num_input_tokens_seen": 17368032,
+      "step": 8030
+    },
+    {
+      "epoch": 1.3107667210440457,
+      "grad_norm": 0.41313520073890686,
+      "learning_rate": 0.0006553017944535074,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 17378816,
+      "step": 8035
+    },
+    {
+      "epoch": 1.3115823817292007,
+      "grad_norm": 0.10756899416446686,
+      "learning_rate": 0.0006557096247960849,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 17390048,
+      "step": 8040
+    },
+    {
+      "epoch": 1.3123980424143555,
+      "grad_norm": 0.5034075379371643,
+      "learning_rate": 0.0006561174551386622,
+      "loss": 0.1469,
+      "num_input_tokens_seen": 17399680,
+      "step": 8045
+    },
+    {
+      "epoch": 1.3132137030995106,
+      "grad_norm": 0.08964333683252335,
+      "learning_rate": 0.0006565252854812398,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 17411424,
+      "step": 8050
+    },
+    {
+      "epoch": 1.3140293637846656,
+      "grad_norm": 0.029598180204629898,
+      "learning_rate": 0.0006569331158238173,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 17422272,
+      "step": 8055
+    },
+    {
+      "epoch": 1.3148450244698204,
+      "grad_norm": 0.2906266450881958,
+      "learning_rate": 0.0006573409461663949,
+      "loss": 0.1844,
+      "num_input_tokens_seen": 17433216,
+      "step": 8060
+    },
+    {
+      "epoch": 1.3156606851549755,
+      "grad_norm": 0.033766523003578186,
+      "learning_rate": 0.0006577487765089722,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 17443200,
+      "step": 8065
+    },
+    {
+      "epoch": 1.3164763458401305,
+      "grad_norm": 0.08947774022817612,
+      "learning_rate": 0.0006581566068515497,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 17453792,
+      "step": 8070
+    },
+    {
+      "epoch": 1.3172920065252856,
+      "grad_norm": 0.14372272789478302,
+      "learning_rate": 0.0006585644371941273,
+      "loss": 0.1788,
+      "num_input_tokens_seen": 17464192,
+      "step": 8075
+    },
+    {
+      "epoch": 1.3181076672104406,
+      "grad_norm": 0.029002483934164047,
+      "learning_rate": 0.0006589722675367047,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 17475200,
+      "step": 8080
+    },
+    {
+      "epoch": 1.3189233278955954,
+      "grad_norm": 0.2958846092224121,
+      "learning_rate": 0.0006593800978792823,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 17486176,
+      "step": 8085
+    },
+    {
+      "epoch": 1.3197389885807504,
+      "grad_norm": 0.14247475564479828,
+      "learning_rate": 0.0006597879282218597,
+      "loss": 0.2228,
+      "num_input_tokens_seen": 17496416,
+      "step": 8090
+    },
+    {
+      "epoch": 1.3205546492659055,
+      "grad_norm": 0.2910315990447998,
+      "learning_rate": 0.0006601957585644372,
+      "loss": 0.1838,
+      "num_input_tokens_seen": 17507200,
+      "step": 8095
+    },
+    {
+      "epoch": 1.3213703099510603,
+      "grad_norm": 0.08594219386577606,
+      "learning_rate": 0.0006606035889070147,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 17517792,
+      "step": 8100
+    },
+    {
+      "epoch": 1.3221859706362153,
+      "grad_norm": 0.026004578918218613,
+      "learning_rate": 0.0006610114192495922,
+      "loss": 0.12,
+      "num_input_tokens_seen": 17527808,
+      "step": 8105
+    },
+    {
+      "epoch": 1.3230016313213704,
+      "grad_norm": 0.030598606914281845,
+      "learning_rate": 0.0006614192495921697,
+      "loss": 0.124,
+      "num_input_tokens_seen": 17538560,
+      "step": 8110
+    },
+    {
+      "epoch": 1.3238172920065252,
+      "grad_norm": 0.12475190311670303,
+      "learning_rate": 0.0006618270799347471,
+      "loss": 0.1772,
+      "num_input_tokens_seen": 17550656,
+      "step": 8115
+    },
+    {
+      "epoch": 1.3246329526916802,
+      "grad_norm": 0.05746564269065857,
+      "learning_rate": 0.0006622349102773246,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 17561824,
+      "step": 8120
+    },
+    {
+      "epoch": 1.3254486133768353,
+      "grad_norm": 0.2370694875717163,
+      "learning_rate": 0.0006626427406199022,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 17573120,
+      "step": 8125
+    },
+    {
+      "epoch": 1.32626427406199,
+      "grad_norm": 0.3231610655784607,
+      "learning_rate": 0.0006630505709624797,
+      "loss": 0.1533,
+      "num_input_tokens_seen": 17584224,
+      "step": 8130
+    },
+    {
+      "epoch": 1.3270799347471451,
+      "grad_norm": 0.025710172951221466,
+      "learning_rate": 0.0006634584013050571,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 17595232,
+      "step": 8135
+    },
+    {
+      "epoch": 1.3278955954323002,
+      "grad_norm": 0.22752685844898224,
+      "learning_rate": 0.0006638662316476346,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 17606624,
+      "step": 8140
+    },
+    {
+      "epoch": 1.3287112561174552,
+      "grad_norm": 0.07197009772062302,
+      "learning_rate": 0.0006642740619902121,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 17616864,
+      "step": 8145
+    },
+    {
+      "epoch": 1.32952691680261,
+      "grad_norm": 0.11145736277103424,
+      "learning_rate": 0.0006646818923327896,
+      "loss": 0.2121,
+      "num_input_tokens_seen": 17628416,
+      "step": 8150
+    },
+    {
+      "epoch": 1.330342577487765,
+      "grad_norm": 0.06519704312086105,
+      "learning_rate": 0.000665089722675367,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 17637472,
+      "step": 8155
+    },
+    {
+      "epoch": 1.3311582381729201,
+      "grad_norm": 0.0630141869187355,
+      "learning_rate": 0.0006654975530179446,
+      "loss": 0.1842,
+      "num_input_tokens_seen": 17647744,
+      "step": 8160
+    },
+    {
+      "epoch": 1.3319738988580752,
+      "grad_norm": 0.10813954472541809,
+      "learning_rate": 0.0006659053833605221,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 17657824,
+      "step": 8165
+    },
+    {
+      "epoch": 1.33278955954323,
+      "grad_norm": 0.0244632288813591,
+      "learning_rate": 0.0006663132137030995,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 17669344,
+      "step": 8170
+    },
+    {
+      "epoch": 1.333605220228385,
+      "grad_norm": 0.019405458122491837,
+      "learning_rate": 0.000666721044045677,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 17680000,
+      "step": 8175
+    },
+    {
+      "epoch": 1.33442088091354,
+      "grad_norm": 0.013781199231743813,
+      "learning_rate": 0.0006671288743882545,
+      "loss": 0.1345,
+      "num_input_tokens_seen": 17690368,
+      "step": 8180
+    },
+    {
+      "epoch": 1.3352365415986949,
+      "grad_norm": 0.012108061462640762,
+      "learning_rate": 0.0006675367047308319,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 17701216,
+      "step": 8185
+    },
+    {
+      "epoch": 1.33605220228385,
+      "grad_norm": 0.10047098994255066,
+      "learning_rate": 0.0006679445350734095,
+      "loss": 0.2312,
+      "num_input_tokens_seen": 17712800,
+      "step": 8190
+    },
+    {
+      "epoch": 1.336867862969005,
+      "grad_norm": 0.10426725447177887,
+      "learning_rate": 0.000668352365415987,
+      "loss": 0.218,
+      "num_input_tokens_seen": 17723136,
+      "step": 8195
+    },
+    {
+      "epoch": 1.3376835236541598,
+      "grad_norm": 0.21119491755962372,
+      "learning_rate": 0.0006687601957585645,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 17733792,
+      "step": 8200
+    },
+    {
+      "epoch": 1.3384991843393148,
+      "grad_norm": 0.060859113931655884,
+      "learning_rate": 0.0006691680261011419,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 17744032,
+      "step": 8205
+    },
+    {
+      "epoch": 1.3393148450244698,
+      "grad_norm": 0.04675585404038429,
+      "learning_rate": 0.0006695758564437194,
+      "loss": 0.1787,
+      "num_input_tokens_seen": 17753856,
+      "step": 8210
+    },
+    {
+      "epoch": 1.3401305057096247,
+      "grad_norm": 0.09033242613077164,
+      "learning_rate": 0.000669983686786297,
+      "loss": 0.2053,
+      "num_input_tokens_seen": 17765184,
+      "step": 8215
+    },
+    {
+      "epoch": 1.3409461663947797,
+      "grad_norm": 0.2503712773323059,
+      "learning_rate": 0.0006703915171288743,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 17776032,
+      "step": 8220
+    },
+    {
+      "epoch": 1.3417618270799347,
+      "grad_norm": 0.03463561087846756,
+      "learning_rate": 0.0006707993474714519,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 17785472,
+      "step": 8225
+    },
+    {
+      "epoch": 1.3425774877650898,
+      "grad_norm": 0.6294701099395752,
+      "learning_rate": 0.0006712071778140294,
+      "loss": 0.1538,
+      "num_input_tokens_seen": 17796832,
+      "step": 8230
+    },
+    {
+      "epoch": 1.3433931484502448,
+      "grad_norm": 0.3345804214477539,
+      "learning_rate": 0.0006716150081566068,
+      "loss": 0.1497,
+      "num_input_tokens_seen": 17809344,
+      "step": 8235
+    },
+    {
+      "epoch": 1.3442088091353996,
+      "grad_norm": 0.47858479619026184,
+      "learning_rate": 0.0006720228384991843,
+      "loss": 0.3782,
+      "num_input_tokens_seen": 17820000,
+      "step": 8240
+    },
+    {
+      "epoch": 1.3450244698205547,
+      "grad_norm": 0.38808053731918335,
+      "learning_rate": 0.0006724306688417618,
+      "loss": 0.1865,
+      "num_input_tokens_seen": 17830912,
+      "step": 8245
+    },
+    {
+      "epoch": 1.3458401305057097,
+      "grad_norm": 0.24597151577472687,
+      "learning_rate": 0.0006728384991843394,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 17841856,
+      "step": 8250
+    },
+    {
+      "epoch": 1.3466557911908645,
+      "grad_norm": 0.29200631380081177,
+      "learning_rate": 0.0006732463295269168,
+      "loss": 0.1813,
+      "num_input_tokens_seen": 17852320,
+      "step": 8255
+    },
+    {
+      "epoch": 1.3474714518760196,
+      "grad_norm": 0.02408430352807045,
+      "learning_rate": 0.0006736541598694943,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 17862624,
+      "step": 8260
+    },
+    {
+      "epoch": 1.3482871125611746,
+      "grad_norm": 0.10565165430307388,
+      "learning_rate": 0.0006740619902120718,
+      "loss": 0.2301,
+      "num_input_tokens_seen": 17873280,
+      "step": 8265
+    },
+    {
+      "epoch": 1.3491027732463294,
+      "grad_norm": 0.07163897156715393,
+      "learning_rate": 0.0006744698205546492,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 17884608,
+      "step": 8270
+    },
+    {
+      "epoch": 1.3499184339314845,
+      "grad_norm": 0.17496277391910553,
+      "learning_rate": 0.0006748776508972268,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 17895072,
+      "step": 8275
+    },
+    {
+      "epoch": 1.3507340946166395,
+      "grad_norm": 0.14802797138690948,
+      "learning_rate": 0.0006752854812398043,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 17905248,
+      "step": 8280
+    },
+    {
+      "epoch": 1.3515497553017943,
+      "grad_norm": 0.01929861307144165,
+      "learning_rate": 0.0006756933115823817,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 17914336,
+      "step": 8285
+    },
+    {
+      "epoch": 1.3523654159869494,
+      "grad_norm": 0.129594624042511,
+      "learning_rate": 0.0006761011419249592,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 17926112,
+      "step": 8290
+    },
+    {
+      "epoch": 1.3531810766721044,
+      "grad_norm": 0.23017330467700958,
+      "learning_rate": 0.0006765089722675367,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 17937472,
+      "step": 8295
+    },
+    {
+      "epoch": 1.3539967373572595,
+      "grad_norm": 0.044130630791187286,
+      "learning_rate": 0.0006769168026101143,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 17948960,
+      "step": 8300
+    },
+    {
+      "epoch": 1.3548123980424145,
+      "grad_norm": 0.32337111234664917,
+      "learning_rate": 0.0006773246329526917,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 17959808,
+      "step": 8305
+    },
+    {
+      "epoch": 1.3556280587275693,
+      "grad_norm": 0.5042018890380859,
+      "learning_rate": 0.0006777324632952691,
+      "loss": 0.069,
+      "num_input_tokens_seen": 17972224,
+      "step": 8310
+    },
+    {
+      "epoch": 1.3564437194127243,
+      "grad_norm": 0.057626839727163315,
+      "learning_rate": 0.0006781402936378467,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 17982528,
+      "step": 8315
+    },
+    {
+      "epoch": 1.3572593800978794,
+      "grad_norm": 0.011388307437300682,
+      "learning_rate": 0.0006785481239804242,
+      "loss": 0.192,
+      "num_input_tokens_seen": 17993408,
+      "step": 8320
+    },
+    {
+      "epoch": 1.3580750407830342,
+      "grad_norm": 0.13212941586971283,
+      "learning_rate": 0.0006789559543230017,
+      "loss": 0.054,
+      "num_input_tokens_seen": 18004288,
+      "step": 8325
+    },
+    {
+      "epoch": 1.3588907014681892,
+      "grad_norm": 0.025670086964964867,
+      "learning_rate": 0.0006793637846655791,
+      "loss": 0.2387,
+      "num_input_tokens_seen": 18015552,
+      "step": 8330
+    },
+    {
+      "epoch": 1.3597063621533443,
+      "grad_norm": 0.37728649377822876,
+      "learning_rate": 0.0006797716150081566,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 18024800,
+      "step": 8335
+    },
+    {
+      "epoch": 1.360522022838499,
+      "grad_norm": 0.018351459875702858,
+      "learning_rate": 0.0006801794453507341,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 18035072,
+      "step": 8340
+    },
+    {
+      "epoch": 1.3613376835236541,
+      "grad_norm": 0.08784783631563187,
+      "learning_rate": 0.0006805872756933116,
+      "loss": 0.057,
+      "num_input_tokens_seen": 18045728,
+      "step": 8345
+    },
+    {
+      "epoch": 1.3621533442088092,
+      "grad_norm": 0.06758838891983032,
+      "learning_rate": 0.000680995106035889,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 18055936,
+      "step": 8350
+    },
+    {
+      "epoch": 1.362969004893964,
+      "grad_norm": 0.5933988690376282,
+      "learning_rate": 0.0006814029363784666,
+      "loss": 0.2268,
+      "num_input_tokens_seen": 18067680,
+      "step": 8355
+    },
+    {
+      "epoch": 1.363784665579119,
+      "grad_norm": 0.05332661420106888,
+      "learning_rate": 0.000681810766721044,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 18078400,
+      "step": 8360
+    },
+    {
+      "epoch": 1.364600326264274,
+      "grad_norm": 0.16641493141651154,
+      "learning_rate": 0.0006822185970636216,
+      "loss": 0.199,
+      "num_input_tokens_seen": 18089568,
+      "step": 8365
+    },
+    {
+      "epoch": 1.3654159869494291,
+      "grad_norm": 0.14251184463500977,
+      "learning_rate": 0.0006826264274061991,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 18100928,
+      "step": 8370
+    },
+    {
+      "epoch": 1.366231647634584,
+      "grad_norm": 0.21270228922367096,
+      "learning_rate": 0.0006830342577487764,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 18111264,
+      "step": 8375
+    },
+    {
+      "epoch": 1.367047308319739,
+      "grad_norm": 0.0460171140730381,
+      "learning_rate": 0.000683442088091354,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 18122080,
+      "step": 8380
+    },
+    {
+      "epoch": 1.367862969004894,
+      "grad_norm": 0.4137776792049408,
+      "learning_rate": 0.0006838499184339315,
+      "loss": 0.2193,
+      "num_input_tokens_seen": 18132416,
+      "step": 8385
+    },
+    {
+      "epoch": 1.368678629690049,
+      "grad_norm": 0.10444167256355286,
+      "learning_rate": 0.0006842577487765091,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 18143584,
+      "step": 8390
+    },
+    {
+      "epoch": 1.3694942903752039,
+      "grad_norm": 0.06799294054508209,
+      "learning_rate": 0.0006846655791190864,
+      "loss": 0.2084,
+      "num_input_tokens_seen": 18153760,
+      "step": 8395
+    },
+    {
+      "epoch": 1.370309951060359,
+      "grad_norm": 0.0833783745765686,
+      "learning_rate": 0.0006850734094616639,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 18165216,
+      "step": 8400
+    },
+    {
+      "epoch": 1.371125611745514,
+      "grad_norm": 0.031502969563007355,
+      "learning_rate": 0.0006854812398042415,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 18176480,
+      "step": 8405
+    },
+    {
+      "epoch": 1.3719412724306688,
+      "grad_norm": 0.3506411910057068,
+      "learning_rate": 0.0006858890701468189,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 18187648,
+      "step": 8410
+    },
+    {
+      "epoch": 1.3727569331158238,
+      "grad_norm": 0.45229458808898926,
+      "learning_rate": 0.0006862969004893965,
+      "loss": 0.068,
+      "num_input_tokens_seen": 18198752,
+      "step": 8415
+    },
+    {
+      "epoch": 1.3735725938009788,
+      "grad_norm": 0.2910847067832947,
+      "learning_rate": 0.0006867047308319739,
+      "loss": 0.1658,
+      "num_input_tokens_seen": 18210880,
+      "step": 8420
+    },
+    {
+      "epoch": 1.3743882544861337,
+      "grad_norm": 0.31154388189315796,
+      "learning_rate": 0.0006871125611745514,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 18222464,
+      "step": 8425
+    },
+    {
+      "epoch": 1.3752039151712887,
+      "grad_norm": 0.03552580624818802,
+      "learning_rate": 0.0006875203915171289,
+      "loss": 0.122,
+      "num_input_tokens_seen": 18233216,
+      "step": 8430
+    },
+    {
+      "epoch": 1.3760195758564437,
+      "grad_norm": 0.1600065529346466,
+      "learning_rate": 0.0006879282218597064,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 18244832,
+      "step": 8435
+    },
+    {
+      "epoch": 1.3768352365415986,
+      "grad_norm": 0.07445048540830612,
+      "learning_rate": 0.000688336052202284,
+      "loss": 0.1999,
+      "num_input_tokens_seen": 18254176,
+      "step": 8440
+    },
+    {
+      "epoch": 1.3776508972267536,
+      "grad_norm": 0.47163334488868713,
+      "learning_rate": 0.0006887438825448613,
+      "loss": 0.22,
+      "num_input_tokens_seen": 18265184,
+      "step": 8445
+    },
+    {
+      "epoch": 1.3784665579119086,
+      "grad_norm": 0.13729801774024963,
+      "learning_rate": 0.0006891517128874388,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 18275424,
+      "step": 8450
+    },
+    {
+      "epoch": 1.3792822185970637,
+      "grad_norm": 0.39802855253219604,
+      "learning_rate": 0.0006895595432300164,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 18285632,
+      "step": 8455
+    },
+    {
+      "epoch": 1.3800978792822187,
+      "grad_norm": 0.02712981216609478,
+      "learning_rate": 0.0006899673735725939,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 18297536,
+      "step": 8460
+    },
+    {
+      "epoch": 1.3809135399673735,
+      "grad_norm": 0.1002969890832901,
+      "learning_rate": 0.0006903752039151713,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 18307360,
+      "step": 8465
+    },
+    {
+      "epoch": 1.3817292006525286,
+      "grad_norm": 0.4240610599517822,
+      "learning_rate": 0.0006907830342577488,
+      "loss": 0.2264,
+      "num_input_tokens_seen": 18317792,
+      "step": 8470
+    },
+    {
+      "epoch": 1.3825448613376836,
+      "grad_norm": 0.41298383474349976,
+      "learning_rate": 0.0006911908646003263,
+      "loss": 0.2458,
+      "num_input_tokens_seen": 18329184,
+      "step": 8475
+    },
+    {
+      "epoch": 1.3833605220228384,
+      "grad_norm": 0.08825691044330597,
+      "learning_rate": 0.0006915986949429038,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 18340224,
+      "step": 8480
+    },
+    {
+      "epoch": 1.3841761827079935,
+      "grad_norm": 0.31725960969924927,
+      "learning_rate": 0.0006920065252854812,
+      "loss": 0.1657,
+      "num_input_tokens_seen": 18352032,
+      "step": 8485
+    },
+    {
+      "epoch": 1.3849918433931485,
+      "grad_norm": 0.2807118892669678,
+      "learning_rate": 0.0006924143556280587,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 18361728,
+      "step": 8490
+    },
+    {
+      "epoch": 1.3858075040783033,
+      "grad_norm": 0.20829269289970398,
+      "learning_rate": 0.0006928221859706362,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 18371744,
+      "step": 8495
+    },
+    {
+      "epoch": 1.3866231647634584,
+      "grad_norm": 0.11227507889270782,
+      "learning_rate": 0.0006932300163132137,
+      "loss": 0.147,
+      "num_input_tokens_seen": 18382752,
+      "step": 8500
+    },
+    {
+      "epoch": 1.3874388254486134,
+      "grad_norm": 0.0697614997625351,
+      "learning_rate": 0.0006936378466557913,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 18393152,
+      "step": 8505
+    },
+    {
+      "epoch": 1.3882544861337682,
+      "grad_norm": 0.23251527547836304,
+      "learning_rate": 0.0006940456769983687,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 18403168,
+      "step": 8510
+    },
+    {
+      "epoch": 1.3890701468189233,
+      "grad_norm": 0.37753644585609436,
+      "learning_rate": 0.0006944535073409461,
+      "loss": 0.3207,
+      "num_input_tokens_seen": 18413664,
+      "step": 8515
+    },
+    {
+      "epoch": 1.3898858075040783,
+      "grad_norm": 0.17351676523685455,
+      "learning_rate": 0.0006948613376835237,
+      "loss": 0.112,
+      "num_input_tokens_seen": 18424288,
+      "step": 8520
+    },
+    {
+      "epoch": 1.3907014681892333,
+      "grad_norm": 0.21399036049842834,
+      "learning_rate": 0.0006952691680261012,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 18434976,
+      "step": 8525
+    },
+    {
+      "epoch": 1.3915171288743884,
+      "grad_norm": 0.20291267335414886,
+      "learning_rate": 0.0006956769983686786,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 18445440,
+      "step": 8530
+    },
+    {
+      "epoch": 1.3923327895595432,
+      "grad_norm": 0.04411192238330841,
+      "learning_rate": 0.0006960848287112561,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 18455904,
+      "step": 8535
+    },
+    {
+      "epoch": 1.3931484502446982,
+      "grad_norm": 0.0695725828409195,
+      "learning_rate": 0.0006964926590538336,
+      "loss": 0.2081,
+      "num_input_tokens_seen": 18467200,
+      "step": 8540
+    },
+    {
+      "epoch": 1.3939641109298533,
+      "grad_norm": 0.0445864163339138,
+      "learning_rate": 0.0006969004893964112,
+      "loss": 0.1561,
+      "num_input_tokens_seen": 18478304,
+      "step": 8545
+    },
+    {
+      "epoch": 1.394779771615008,
+      "grad_norm": 0.4487917721271515,
+      "learning_rate": 0.0006973083197389885,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 18489664,
+      "step": 8550
+    },
+    {
+      "epoch": 1.3955954323001631,
+      "grad_norm": 0.19967851042747498,
+      "learning_rate": 0.0006977161500815661,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 18501568,
+      "step": 8555
+    },
+    {
+      "epoch": 1.3964110929853182,
+      "grad_norm": 0.35850760340690613,
+      "learning_rate": 0.0006981239804241436,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 18513504,
+      "step": 8560
+    },
+    {
+      "epoch": 1.397226753670473,
+      "grad_norm": 0.15785285830497742,
+      "learning_rate": 0.000698531810766721,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 18523616,
+      "step": 8565
+    },
+    {
+      "epoch": 1.398042414355628,
+      "grad_norm": 0.5196748971939087,
+      "learning_rate": 0.0006989396411092986,
+      "loss": 0.1858,
+      "num_input_tokens_seen": 18534464,
+      "step": 8570
+    },
+    {
+      "epoch": 1.398858075040783,
+      "grad_norm": 0.40732455253601074,
+      "learning_rate": 0.000699347471451876,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 18545536,
+      "step": 8575
+    },
+    {
+      "epoch": 1.399673735725938,
+      "grad_norm": 0.3885939121246338,
+      "learning_rate": 0.0006997553017944536,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 18556128,
+      "step": 8580
+    },
+    {
+      "epoch": 1.400489396411093,
+      "grad_norm": 0.27319011092185974,
+      "learning_rate": 0.000700163132137031,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 18567232,
+      "step": 8585
+    },
+    {
+      "epoch": 1.401305057096248,
+      "grad_norm": 0.13056805729866028,
+      "learning_rate": 0.0007005709624796085,
+      "loss": 0.2172,
+      "num_input_tokens_seen": 18577824,
+      "step": 8590
+    },
+    {
+      "epoch": 1.402120717781403,
+      "grad_norm": 0.07697630673646927,
+      "learning_rate": 0.000700978792822186,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 18588096,
+      "step": 8595
+    },
+    {
+      "epoch": 1.4029363784665578,
+      "grad_norm": 0.18461918830871582,
+      "learning_rate": 0.0007013866231647634,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 18599744,
+      "step": 8600
+    },
+    {
+      "epoch": 1.4037520391517129,
+      "grad_norm": 0.3856184482574463,
+      "learning_rate": 0.000701794453507341,
+      "loss": 0.206,
+      "num_input_tokens_seen": 18610592,
+      "step": 8605
+    },
+    {
+      "epoch": 1.404567699836868,
+      "grad_norm": 0.06395883858203888,
+      "learning_rate": 0.0007022022838499185,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 18620896,
+      "step": 8610
+    },
+    {
+      "epoch": 1.405383360522023,
+      "grad_norm": 0.011114265769720078,
+      "learning_rate": 0.000702610114192496,
+      "loss": 0.0479,
+      "num_input_tokens_seen": 18630848,
+      "step": 8615
+    },
+    {
+      "epoch": 1.4061990212071778,
+      "grad_norm": 0.024176809936761856,
+      "learning_rate": 0.0007030179445350734,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 18641600,
+      "step": 8620
+    },
+    {
+      "epoch": 1.4070146818923328,
+      "grad_norm": 0.6192775964736938,
+      "learning_rate": 0.0007034257748776509,
+      "loss": 0.1453,
+      "num_input_tokens_seen": 18652448,
+      "step": 8625
+    },
+    {
+      "epoch": 1.4078303425774878,
+      "grad_norm": 0.04966207593679428,
+      "learning_rate": 0.0007038336052202285,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 18663392,
+      "step": 8630
+    },
+    {
+      "epoch": 1.4086460032626427,
+      "grad_norm": 0.016872374340891838,
+      "learning_rate": 0.0007042414355628059,
+      "loss": 0.063,
+      "num_input_tokens_seen": 18674528,
+      "step": 8635
+    },
+    {
+      "epoch": 1.4094616639477977,
+      "grad_norm": 0.02471073530614376,
+      "learning_rate": 0.0007046492659053833,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 18685632,
+      "step": 8640
+    },
+    {
+      "epoch": 1.4102773246329527,
+      "grad_norm": 0.012303034774959087,
+      "learning_rate": 0.0007050570962479609,
+      "loss": 0.071,
+      "num_input_tokens_seen": 18695776,
+      "step": 8645
+    },
+    {
+      "epoch": 1.4110929853181076,
+      "grad_norm": 0.098455511033535,
+      "learning_rate": 0.0007054649265905384,
+      "loss": 0.249,
+      "num_input_tokens_seen": 18705056,
+      "step": 8650
+    },
+    {
+      "epoch": 1.4119086460032626,
+      "grad_norm": 0.3847644627094269,
+      "learning_rate": 0.0007058727569331158,
+      "loss": 0.1436,
+      "num_input_tokens_seen": 18714688,
+      "step": 8655
+    },
+    {
+      "epoch": 1.4127243066884176,
+      "grad_norm": 0.024373041465878487,
+      "learning_rate": 0.0007062805872756933,
+      "loss": 0.102,
+      "num_input_tokens_seen": 18725984,
+      "step": 8660
+    },
+    {
+      "epoch": 1.4135399673735725,
+      "grad_norm": 0.15685175359249115,
+      "learning_rate": 0.0007066884176182708,
+      "loss": 0.1985,
+      "num_input_tokens_seen": 18736224,
+      "step": 8665
+    },
+    {
+      "epoch": 1.4143556280587275,
+      "grad_norm": 0.1535254567861557,
+      "learning_rate": 0.0007070962479608483,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 18748832,
+      "step": 8670
+    },
+    {
+      "epoch": 1.4151712887438825,
+      "grad_norm": 0.3047678470611572,
+      "learning_rate": 0.0007075040783034258,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 18757792,
+      "step": 8675
+    },
+    {
+      "epoch": 1.4159869494290376,
+      "grad_norm": 0.28612783551216125,
+      "learning_rate": 0.0007079119086460033,
+      "loss": 0.249,
+      "num_input_tokens_seen": 18768160,
+      "step": 8680
+    },
+    {
+      "epoch": 1.4168026101141926,
+      "grad_norm": 0.059516116976737976,
+      "learning_rate": 0.0007083197389885808,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 18778336,
+      "step": 8685
+    },
+    {
+      "epoch": 1.4176182707993474,
+      "grad_norm": 0.2646983861923218,
+      "learning_rate": 0.0007087275693311582,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 18789632,
+      "step": 8690
+    },
+    {
+      "epoch": 1.4184339314845025,
+      "grad_norm": 0.15517950057983398,
+      "learning_rate": 0.0007091353996737358,
+      "loss": 0.2406,
+      "num_input_tokens_seen": 18800224,
+      "step": 8695
+    },
+    {
+      "epoch": 1.4192495921696575,
+      "grad_norm": 0.04616353288292885,
+      "learning_rate": 0.0007095432300163133,
+      "loss": 0.108,
+      "num_input_tokens_seen": 18810208,
+      "step": 8700
+    },
+    {
+      "epoch": 1.4200652528548123,
+      "grad_norm": 0.04655442386865616,
+      "learning_rate": 0.0007099510603588906,
+      "loss": 0.065,
+      "num_input_tokens_seen": 18821760,
+      "step": 8705
+    },
+    {
+      "epoch": 1.4208809135399674,
+      "grad_norm": 0.2469894289970398,
+      "learning_rate": 0.0007103588907014682,
+      "loss": 0.2837,
+      "num_input_tokens_seen": 18833536,
+      "step": 8710
+    },
+    {
+      "epoch": 1.4216965742251224,
+      "grad_norm": 0.11056669801473618,
+      "learning_rate": 0.0007107667210440457,
+      "loss": 0.1823,
+      "num_input_tokens_seen": 18844576,
+      "step": 8715
+    },
+    {
+      "epoch": 1.4225122349102772,
+      "grad_norm": 0.01934995874762535,
+      "learning_rate": 0.0007111745513866232,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 18856096,
+      "step": 8720
+    },
+    {
+      "epoch": 1.4233278955954323,
+      "grad_norm": 0.12118564546108246,
+      "learning_rate": 0.0007115823817292006,
+      "loss": 0.134,
+      "num_input_tokens_seen": 18866944,
+      "step": 8725
+    },
+    {
+      "epoch": 1.4241435562805873,
+      "grad_norm": 0.09233374893665314,
+      "learning_rate": 0.0007119902120717781,
+      "loss": 0.189,
+      "num_input_tokens_seen": 18878464,
+      "step": 8730
+    },
+    {
+      "epoch": 1.4249592169657421,
+      "grad_norm": 0.10285761952400208,
+      "learning_rate": 0.0007123980424143557,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 18888992,
+      "step": 8735
+    },
+    {
+      "epoch": 1.4257748776508972,
+      "grad_norm": 0.03624412789940834,
+      "learning_rate": 0.0007128058727569331,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 18899776,
+      "step": 8740
+    },
+    {
+      "epoch": 1.4265905383360522,
+      "grad_norm": 0.6590876579284668,
+      "learning_rate": 0.0007132137030995107,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 18910528,
+      "step": 8745
+    },
+    {
+      "epoch": 1.4274061990212072,
+      "grad_norm": 0.06478895992040634,
+      "learning_rate": 0.0007136215334420881,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 18922048,
+      "step": 8750
+    },
+    {
+      "epoch": 1.4282218597063623,
+      "grad_norm": 0.020453322678804398,
+      "learning_rate": 0.0007140293637846655,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 18933472,
+      "step": 8755
+    },
+    {
+      "epoch": 1.429037520391517,
+      "grad_norm": 0.46330201625823975,
+      "learning_rate": 0.0007144371941272431,
+      "loss": 0.1484,
+      "num_input_tokens_seen": 18944160,
+      "step": 8760
+    },
+    {
+      "epoch": 1.4298531810766721,
+      "grad_norm": 0.5292882323265076,
+      "learning_rate": 0.0007148450244698206,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 18954688,
+      "step": 8765
+    },
+    {
+      "epoch": 1.4306688417618272,
+      "grad_norm": 0.12839145958423615,
+      "learning_rate": 0.0007152528548123982,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 18965728,
+      "step": 8770
+    },
+    {
+      "epoch": 1.431484502446982,
+      "grad_norm": 0.026854708790779114,
+      "learning_rate": 0.0007156606851549755,
+      "loss": 0.1457,
+      "num_input_tokens_seen": 18977088,
+      "step": 8775
+    },
+    {
+      "epoch": 1.432300163132137,
+      "grad_norm": 0.0423266664147377,
+      "learning_rate": 0.000716068515497553,
+      "loss": 0.14,
+      "num_input_tokens_seen": 18989056,
+      "step": 8780
+    },
+    {
+      "epoch": 1.433115823817292,
+      "grad_norm": 0.022482803091406822,
+      "learning_rate": 0.0007164763458401306,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 18999936,
+      "step": 8785
+    },
+    {
+      "epoch": 1.433931484502447,
+      "grad_norm": 0.009021877311170101,
+      "learning_rate": 0.000716884176182708,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 19011328,
+      "step": 8790
+    },
+    {
+      "epoch": 1.434747145187602,
+      "grad_norm": 0.34267958998680115,
+      "learning_rate": 0.0007172920065252854,
+      "loss": 0.0449,
+      "num_input_tokens_seen": 19022176,
+      "step": 8795
+    },
+    {
+      "epoch": 1.435562805872757,
+      "grad_norm": 0.0407864935696125,
+      "learning_rate": 0.000717699836867863,
+      "loss": 0.2754,
+      "num_input_tokens_seen": 19032832,
+      "step": 8800
+    },
+    {
+      "epoch": 1.4363784665579118,
+      "grad_norm": 0.06768330931663513,
+      "learning_rate": 0.0007181076672104405,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 19044384,
+      "step": 8805
+    },
+    {
+      "epoch": 1.4371941272430668,
+      "grad_norm": 0.03693476691842079,
+      "learning_rate": 0.000718515497553018,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 19054816,
+      "step": 8810
+    },
+    {
+      "epoch": 1.4380097879282219,
+      "grad_norm": 0.05763913691043854,
+      "learning_rate": 0.0007189233278955954,
+      "loss": 0.031,
+      "num_input_tokens_seen": 19065120,
+      "step": 8815
+    },
+    {
+      "epoch": 1.438825448613377,
+      "grad_norm": 0.26617172360420227,
+      "learning_rate": 0.0007193311582381729,
+      "loss": 0.389,
+      "num_input_tokens_seen": 19075872,
+      "step": 8820
+    },
+    {
+      "epoch": 1.4396411092985317,
+      "grad_norm": 0.06919386237859726,
+      "learning_rate": 0.0007197389885807504,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 19087808,
+      "step": 8825
+    },
+    {
+      "epoch": 1.4404567699836868,
+      "grad_norm": 0.2736736238002777,
+      "learning_rate": 0.0007201468189233279,
+      "loss": 0.3008,
+      "num_input_tokens_seen": 19099488,
+      "step": 8830
+    },
+    {
+      "epoch": 1.4412724306688418,
+      "grad_norm": 0.05337755009531975,
+      "learning_rate": 0.0007205546492659055,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 19111104,
+      "step": 8835
+    },
+    {
+      "epoch": 1.4420880913539968,
+      "grad_norm": 0.03262023627758026,
+      "learning_rate": 0.0007209624796084829,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 19122656,
+      "step": 8840
+    },
+    {
+      "epoch": 1.4429037520391517,
+      "grad_norm": 0.19894321262836456,
+      "learning_rate": 0.0007213703099510603,
+      "loss": 0.2232,
+      "num_input_tokens_seen": 19133728,
+      "step": 8845
+    },
+    {
+      "epoch": 1.4437194127243067,
+      "grad_norm": 0.031567685306072235,
+      "learning_rate": 0.0007217781402936379,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 19144896,
+      "step": 8850
+    },
+    {
+      "epoch": 1.4445350734094617,
+      "grad_norm": 0.050865061581134796,
+      "learning_rate": 0.0007221859706362154,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 19155040,
+      "step": 8855
+    },
+    {
+      "epoch": 1.4453507340946166,
+      "grad_norm": 0.3916897177696228,
+      "learning_rate": 0.0007225938009787928,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 19165216,
+      "step": 8860
+    },
+    {
+      "epoch": 1.4461663947797716,
+      "grad_norm": 0.02855168841779232,
+      "learning_rate": 0.0007230016313213703,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 19175904,
+      "step": 8865
+    },
+    {
+      "epoch": 1.4469820554649266,
+      "grad_norm": 0.009972508065402508,
+      "learning_rate": 0.0007234094616639478,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 19185312,
+      "step": 8870
+    },
+    {
+      "epoch": 1.4477977161500815,
+      "grad_norm": 0.05328962206840515,
+      "learning_rate": 0.0007238172920065254,
+      "loss": 0.1923,
+      "num_input_tokens_seen": 19196768,
+      "step": 8875
+    },
+    {
+      "epoch": 1.4486133768352365,
+      "grad_norm": 0.20842105150222778,
+      "learning_rate": 0.0007242251223491027,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 19207360,
+      "step": 8880
+    },
+    {
+      "epoch": 1.4494290375203915,
+      "grad_norm": 0.298380047082901,
+      "learning_rate": 0.0007246329526916803,
+      "loss": 0.097,
+      "num_input_tokens_seen": 19217792,
+      "step": 8885
+    },
+    {
+      "epoch": 1.4502446982055464,
+      "grad_norm": 0.056603509932756424,
+      "learning_rate": 0.0007250407830342578,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 19229920,
+      "step": 8890
+    },
+    {
+      "epoch": 1.4510603588907014,
+      "grad_norm": 0.028075775131583214,
+      "learning_rate": 0.0007254486133768352,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 19241952,
+      "step": 8895
+    },
+    {
+      "epoch": 1.4518760195758564,
+      "grad_norm": 0.04573468863964081,
+      "learning_rate": 0.0007258564437194128,
+      "loss": 0.157,
+      "num_input_tokens_seen": 19252320,
+      "step": 8900
+    },
+    {
+      "epoch": 1.4526916802610115,
+      "grad_norm": 0.06405018270015717,
+      "learning_rate": 0.0007262642740619902,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 19262912,
+      "step": 8905
+    },
+    {
+      "epoch": 1.4535073409461665,
+      "grad_norm": 0.17091864347457886,
+      "learning_rate": 0.0007266721044045678,
+      "loss": 0.2396,
+      "num_input_tokens_seen": 19273792,
+      "step": 8910
+    },
+    {
+      "epoch": 1.4543230016313213,
+      "grad_norm": 0.15708409249782562,
+      "learning_rate": 0.0007270799347471452,
+      "loss": 0.2161,
+      "num_input_tokens_seen": 19284448,
+      "step": 8915
+    },
+    {
+      "epoch": 1.4551386623164764,
+      "grad_norm": 0.05929143726825714,
+      "learning_rate": 0.0007274877650897227,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 19295712,
+      "step": 8920
+    },
+    {
+      "epoch": 1.4559543230016314,
+      "grad_norm": 0.03152371942996979,
+      "learning_rate": 0.0007278955954323002,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 19307520,
+      "step": 8925
+    },
+    {
+      "epoch": 1.4567699836867862,
+      "grad_norm": 0.06505519896745682,
+      "learning_rate": 0.0007283034257748776,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 19319008,
+      "step": 8930
+    },
+    {
+      "epoch": 1.4575856443719413,
+      "grad_norm": 0.1482236683368683,
+      "learning_rate": 0.0007287112561174551,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 19329440,
+      "step": 8935
+    },
+    {
+      "epoch": 1.4584013050570963,
+      "grad_norm": 0.10577386617660522,
+      "learning_rate": 0.0007291190864600327,
+      "loss": 0.2586,
+      "num_input_tokens_seen": 19339616,
+      "step": 8940
+    },
+    {
+      "epoch": 1.4592169657422511,
+      "grad_norm": 0.18734675645828247,
+      "learning_rate": 0.00072952691680261,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 19351136,
+      "step": 8945
+    },
+    {
+      "epoch": 1.4600326264274062,
+      "grad_norm": 0.052861470729112625,
+      "learning_rate": 0.0007299347471451876,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 19360768,
+      "step": 8950
+    },
+    {
+      "epoch": 1.4608482871125612,
+      "grad_norm": 0.02653975412249565,
+      "learning_rate": 0.0007303425774877651,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 19370688,
+      "step": 8955
+    },
+    {
+      "epoch": 1.461663947797716,
+      "grad_norm": 0.04796244576573372,
+      "learning_rate": 0.0007307504078303426,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 19382336,
+      "step": 8960
+    },
+    {
+      "epoch": 1.462479608482871,
+      "grad_norm": 0.02996446006000042,
+      "learning_rate": 0.0007311582381729201,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 19393152,
+      "step": 8965
+    },
+    {
+      "epoch": 1.463295269168026,
+      "grad_norm": 0.13484928011894226,
+      "learning_rate": 0.0007315660685154975,
+      "loss": 0.116,
+      "num_input_tokens_seen": 19403744,
+      "step": 8970
+    },
+    {
+      "epoch": 1.4641109298531811,
+      "grad_norm": 0.0562857910990715,
+      "learning_rate": 0.0007319738988580751,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 19415008,
+      "step": 8975
+    },
+    {
+      "epoch": 1.4649265905383362,
+      "grad_norm": 0.11413650959730148,
+      "learning_rate": 0.0007323817292006525,
+      "loss": 0.1563,
+      "num_input_tokens_seen": 19425888,
+      "step": 8980
+    },
+    {
+      "epoch": 1.465742251223491,
+      "grad_norm": 0.2681230902671814,
+      "learning_rate": 0.00073278955954323,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 19437280,
+      "step": 8985
+    },
+    {
+      "epoch": 1.466557911908646,
+      "grad_norm": 0.055149346590042114,
+      "learning_rate": 0.0007331973898858076,
+      "loss": 0.2557,
+      "num_input_tokens_seen": 19448544,
+      "step": 8990
+    },
+    {
+      "epoch": 1.467373572593801,
+      "grad_norm": 0.07654145359992981,
+      "learning_rate": 0.000733605220228385,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 19459264,
+      "step": 8995
+    },
+    {
+      "epoch": 1.468189233278956,
+      "grad_norm": 0.07035654783248901,
+      "learning_rate": 0.0007340130505709625,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 19468896,
+      "step": 9000
+    },
+    {
+      "epoch": 1.469004893964111,
+      "grad_norm": 0.3256077170372009,
+      "learning_rate": 0.00073442088091354,
+      "loss": 0.2185,
+      "num_input_tokens_seen": 19480032,
+      "step": 9005
+    },
+    {
+      "epoch": 1.469820554649266,
+      "grad_norm": 0.08641856163740158,
+      "learning_rate": 0.0007348287112561175,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 19490816,
+      "step": 9010
+    },
+    {
+      "epoch": 1.4706362153344208,
+      "grad_norm": 0.4245319068431854,
+      "learning_rate": 0.0007352365415986949,
+      "loss": 0.1821,
+      "num_input_tokens_seen": 19501248,
+      "step": 9015
+    },
+    {
+      "epoch": 1.4714518760195758,
+      "grad_norm": 0.057510893791913986,
+      "learning_rate": 0.0007356443719412724,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 19513152,
+      "step": 9020
+    },
+    {
+      "epoch": 1.4722675367047309,
+      "grad_norm": 0.23167626559734344,
+      "learning_rate": 0.00073605220228385,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 19523776,
+      "step": 9025
+    },
+    {
+      "epoch": 1.4730831973898857,
+      "grad_norm": 0.03532523289322853,
+      "learning_rate": 0.0007364600326264275,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 19535072,
+      "step": 9030
+    },
+    {
+      "epoch": 1.4738988580750407,
+      "grad_norm": 0.015089893713593483,
+      "learning_rate": 0.0007368678629690048,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 19545696,
+      "step": 9035
+    },
+    {
+      "epoch": 1.4747145187601958,
+      "grad_norm": 0.4665493667125702,
+      "learning_rate": 0.0007372756933115824,
+      "loss": 0.1995,
+      "num_input_tokens_seen": 19554944,
+      "step": 9040
+    },
+    {
+      "epoch": 1.4755301794453508,
+      "grad_norm": 0.21652501821517944,
+      "learning_rate": 0.0007376835236541599,
+      "loss": 0.2747,
+      "num_input_tokens_seen": 19566144,
+      "step": 9045
+    },
+    {
+      "epoch": 1.4763458401305056,
+      "grad_norm": 0.329572468996048,
+      "learning_rate": 0.0007380913539967374,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 19576256,
+      "step": 9050
+    },
+    {
+      "epoch": 1.4771615008156607,
+      "grad_norm": 0.13731348514556885,
+      "learning_rate": 0.0007384991843393149,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 19587264,
+      "step": 9055
+    },
+    {
+      "epoch": 1.4779771615008157,
+      "grad_norm": 0.08550713956356049,
+      "learning_rate": 0.0007389070146818923,
+      "loss": 0.087,
+      "num_input_tokens_seen": 19599904,
+      "step": 9060
+    },
+    {
+      "epoch": 1.4787928221859707,
+      "grad_norm": 0.08178147673606873,
+      "learning_rate": 0.0007393148450244699,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 19610848,
+      "step": 9065
+    },
+    {
+      "epoch": 1.4796084828711256,
+      "grad_norm": 0.28226912021636963,
+      "learning_rate": 0.0007397226753670473,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 19621344,
+      "step": 9070
+    },
+    {
+      "epoch": 1.4804241435562806,
+      "grad_norm": 0.05449576675891876,
+      "learning_rate": 0.0007401305057096248,
+      "loss": 0.1941,
+      "num_input_tokens_seen": 19631616,
+      "step": 9075
+    },
+    {
+      "epoch": 1.4812398042414356,
+      "grad_norm": 0.24325771629810333,
+      "learning_rate": 0.0007405383360522023,
+      "loss": 0.2353,
+      "num_input_tokens_seen": 19642528,
+      "step": 9080
+    },
+    {
+      "epoch": 1.4820554649265905,
+      "grad_norm": 0.07389519363641739,
+      "learning_rate": 0.0007409461663947797,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 19651840,
+      "step": 9085
+    },
+    {
+      "epoch": 1.4828711256117455,
+      "grad_norm": 0.08990222960710526,
+      "learning_rate": 0.0007413539967373573,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 19662848,
+      "step": 9090
+    },
+    {
+      "epoch": 1.4836867862969005,
+      "grad_norm": 0.04385393112897873,
+      "learning_rate": 0.0007417618270799348,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 19673984,
+      "step": 9095
+    },
+    {
+      "epoch": 1.4845024469820554,
+      "grad_norm": 0.06532658636569977,
+      "learning_rate": 0.0007421696574225123,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 19685504,
+      "step": 9100
+    },
+    {
+      "epoch": 1.4853181076672104,
+      "grad_norm": 0.025229470804333687,
+      "learning_rate": 0.0007425774877650897,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 19696832,
+      "step": 9105
+    },
+    {
+      "epoch": 1.4861337683523654,
+      "grad_norm": 0.35470104217529297,
+      "learning_rate": 0.0007429853181076672,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 19708064,
+      "step": 9110
+    },
+    {
+      "epoch": 1.4869494290375203,
+      "grad_norm": 0.34158971905708313,
+      "learning_rate": 0.0007433931484502448,
+      "loss": 0.2832,
+      "num_input_tokens_seen": 19719264,
+      "step": 9115
+    },
+    {
+      "epoch": 1.4877650897226753,
+      "grad_norm": 0.041290439665317535,
+      "learning_rate": 0.0007438009787928222,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 19729280,
+      "step": 9120
+    },
+    {
+      "epoch": 1.4885807504078303,
+      "grad_norm": 0.03599981218576431,
+      "learning_rate": 0.0007442088091353996,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 19739840,
+      "step": 9125
+    },
+    {
+      "epoch": 1.4893964110929854,
+      "grad_norm": 0.11953336000442505,
+      "learning_rate": 0.0007446166394779772,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 19750304,
+      "step": 9130
+    },
+    {
+      "epoch": 1.4902120717781404,
+      "grad_norm": 0.14723843336105347,
+      "learning_rate": 0.0007450244698205547,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 19760288,
+      "step": 9135
+    },
+    {
+      "epoch": 1.4910277324632952,
+      "grad_norm": 0.07382355630397797,
+      "learning_rate": 0.0007454323001631322,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 19770080,
+      "step": 9140
+    },
+    {
+      "epoch": 1.4918433931484503,
+      "grad_norm": 0.32175618410110474,
+      "learning_rate": 0.0007458401305057096,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 19780512,
+      "step": 9145
+    },
+    {
+      "epoch": 1.4926590538336053,
+      "grad_norm": 0.28489458560943604,
+      "learning_rate": 0.0007462479608482871,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 19792032,
+      "step": 9150
+    },
+    {
+      "epoch": 1.4934747145187601,
+      "grad_norm": 0.07463068515062332,
+      "learning_rate": 0.0007466557911908646,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 19802496,
+      "step": 9155
+    },
+    {
+      "epoch": 1.4942903752039152,
+      "grad_norm": 0.2966947853565216,
+      "learning_rate": 0.0007470636215334421,
+      "loss": 0.1891,
+      "num_input_tokens_seen": 19813024,
+      "step": 9160
+    },
+    {
+      "epoch": 1.4951060358890702,
+      "grad_norm": 0.05433628708124161,
+      "learning_rate": 0.0007474714518760197,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 19823968,
+      "step": 9165
+    },
+    {
+      "epoch": 1.495921696574225,
+      "grad_norm": 0.10637657344341278,
+      "learning_rate": 0.0007478792822185971,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 19833856,
+      "step": 9170
+    },
+    {
+      "epoch": 1.49673735725938,
+      "grad_norm": 0.36320605874061584,
+      "learning_rate": 0.0007482871125611745,
+      "loss": 0.1962,
+      "num_input_tokens_seen": 19843872,
+      "step": 9175
+    },
+    {
+      "epoch": 1.497553017944535,
+      "grad_norm": 0.04385019838809967,
+      "learning_rate": 0.0007486949429037521,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 19854144,
+      "step": 9180
+    },
+    {
+      "epoch": 1.49836867862969,
+      "grad_norm": 0.04330093413591385,
+      "learning_rate": 0.0007491027732463296,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 19865184,
+      "step": 9185
+    },
+    {
+      "epoch": 1.499184339314845,
+      "grad_norm": 0.32716479897499084,
+      "learning_rate": 0.000749510603588907,
+      "loss": 0.2863,
+      "num_input_tokens_seen": 19874528,
+      "step": 9190
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.042429886758327484,
+      "learning_rate": 0.0007499184339314845,
+      "loss": 0.1687,
+      "num_input_tokens_seen": 19885184,
+      "step": 9195
+    },
+    {
+      "epoch": 1.5008156606851548,
+      "grad_norm": 0.16900426149368286,
+      "learning_rate": 0.000750326264274062,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 19896768,
+      "step": 9200
+    },
+    {
+      "epoch": 1.50163132137031,
+      "grad_norm": 0.04221004992723465,
+      "learning_rate": 0.0007507340946166395,
+      "loss": 0.153,
+      "num_input_tokens_seen": 19906848,
+      "step": 9205
+    },
+    {
+      "epoch": 1.502446982055465,
+      "grad_norm": 0.038230542093515396,
+      "learning_rate": 0.000751141924959217,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 19917728,
+      "step": 9210
+    },
+    {
+      "epoch": 1.50326264274062,
+      "grad_norm": 0.20852527022361755,
+      "learning_rate": 0.0007515497553017944,
+      "loss": 0.343,
+      "num_input_tokens_seen": 19928224,
+      "step": 9215
+    },
+    {
+      "epoch": 1.504078303425775,
+      "grad_norm": 0.134451761841774,
+      "learning_rate": 0.000751957585644372,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 19939904,
+      "step": 9220
+    },
+    {
+      "epoch": 1.5048939641109298,
+      "grad_norm": 0.071271613240242,
+      "learning_rate": 0.0007523654159869494,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 19951360,
+      "step": 9225
+    },
+    {
+      "epoch": 1.5057096247960848,
+      "grad_norm": 0.12655316293239594,
+      "learning_rate": 0.000752773246329527,
+      "loss": 0.261,
+      "num_input_tokens_seen": 19961792,
+      "step": 9230
+    },
+    {
+      "epoch": 1.5065252854812399,
+      "grad_norm": 0.04052901268005371,
+      "learning_rate": 0.0007531810766721044,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 19972288,
+      "step": 9235
+    },
+    {
+      "epoch": 1.5073409461663947,
+      "grad_norm": 0.6805994510650635,
+      "learning_rate": 0.0007535889070146818,
+      "loss": 0.1843,
+      "num_input_tokens_seen": 19982688,
+      "step": 9240
+    },
+    {
+      "epoch": 1.5081566068515497,
+      "grad_norm": 0.07349798828363419,
+      "learning_rate": 0.0007539967373572594,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 19992992,
+      "step": 9245
+    },
+    {
+      "epoch": 1.5089722675367048,
+      "grad_norm": 0.3114171028137207,
+      "learning_rate": 0.0007544045676998369,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 20004384,
+      "step": 9250
+    },
+    {
+      "epoch": 1.5097879282218596,
+      "grad_norm": 0.045912064611911774,
+      "learning_rate": 0.0007548123980424145,
+      "loss": 0.2534,
+      "num_input_tokens_seen": 20014784,
+      "step": 9255
+    },
+    {
+      "epoch": 1.5106035889070146,
+      "grad_norm": 0.06314994394779205,
+      "learning_rate": 0.0007552202283849918,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 20025536,
+      "step": 9260
+    },
+    {
+      "epoch": 1.5114192495921697,
+      "grad_norm": 0.07371212542057037,
+      "learning_rate": 0.0007556280587275693,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 20035712,
+      "step": 9265
+    },
+    {
+      "epoch": 1.5122349102773245,
+      "grad_norm": 0.08201035857200623,
+      "learning_rate": 0.0007560358890701469,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 20046912,
+      "step": 9270
+    },
+    {
+      "epoch": 1.5130505709624797,
+      "grad_norm": 0.05865674465894699,
+      "learning_rate": 0.0007564437194127243,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 20058304,
+      "step": 9275
+    },
+    {
+      "epoch": 1.5138662316476346,
+      "grad_norm": 0.26975804567337036,
+      "learning_rate": 0.0007568515497553018,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 20068256,
+      "step": 9280
+    },
+    {
+      "epoch": 1.5146818923327896,
+      "grad_norm": 0.02460741624236107,
+      "learning_rate": 0.0007572593800978793,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 20079232,
+      "step": 9285
+    },
+    {
+      "epoch": 1.5154975530179446,
+      "grad_norm": 0.010626477189362049,
+      "learning_rate": 0.0007576672104404568,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 20090176,
+      "step": 9290
+    },
+    {
+      "epoch": 1.5163132137030995,
+      "grad_norm": 0.21808360517024994,
+      "learning_rate": 0.0007580750407830343,
+      "loss": 0.09,
+      "num_input_tokens_seen": 20100640,
+      "step": 9295
+    },
+    {
+      "epoch": 1.5171288743882545,
+      "grad_norm": 0.31197798252105713,
+      "learning_rate": 0.0007584828711256117,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 20110656,
+      "step": 9300
+    },
+    {
+      "epoch": 1.5179445350734095,
+      "grad_norm": 0.07159364223480225,
+      "learning_rate": 0.0007588907014681893,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 20122240,
+      "step": 9305
+    },
+    {
+      "epoch": 1.5187601957585644,
+      "grad_norm": 0.011855943128466606,
+      "learning_rate": 0.0007592985318107667,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 20133344,
+      "step": 9310
+    },
+    {
+      "epoch": 1.5195758564437194,
+      "grad_norm": 0.39659756422042847,
+      "learning_rate": 0.0007597063621533442,
+      "loss": 0.1872,
+      "num_input_tokens_seen": 20142944,
+      "step": 9315
+    },
+    {
+      "epoch": 1.5203915171288744,
+      "grad_norm": 0.23843838274478912,
+      "learning_rate": 0.0007601141924959218,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 20153728,
+      "step": 9320
+    },
+    {
+      "epoch": 1.5212071778140293,
+      "grad_norm": 0.17858515679836273,
+      "learning_rate": 0.0007605220228384992,
+      "loss": 0.1768,
+      "num_input_tokens_seen": 20163904,
+      "step": 9325
+    },
+    {
+      "epoch": 1.5220228384991843,
+      "grad_norm": 0.07030331343412399,
+      "learning_rate": 0.0007609298531810767,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 20175040,
+      "step": 9330
+    },
+    {
+      "epoch": 1.5228384991843393,
+      "grad_norm": 0.09889055788516998,
+      "learning_rate": 0.0007613376835236542,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 20185696,
+      "step": 9335
+    },
+    {
+      "epoch": 1.5236541598694942,
+      "grad_norm": 0.08910706639289856,
+      "learning_rate": 0.0007617455138662317,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 20196288,
+      "step": 9340
+    },
+    {
+      "epoch": 1.5244698205546494,
+      "grad_norm": 0.11903411149978638,
+      "learning_rate": 0.0007621533442088091,
+      "loss": 0.1586,
+      "num_input_tokens_seen": 20206688,
+      "step": 9345
+    },
+    {
+      "epoch": 1.5252854812398042,
+      "grad_norm": 0.2565356194972992,
+      "learning_rate": 0.0007625611745513866,
+      "loss": 0.206,
+      "num_input_tokens_seen": 20217824,
+      "step": 9350
+    },
+    {
+      "epoch": 1.5261011419249593,
+      "grad_norm": 0.09693357348442078,
+      "learning_rate": 0.0007629690048939642,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 20227552,
+      "step": 9355
+    },
+    {
+      "epoch": 1.5269168026101143,
+      "grad_norm": 0.2581535279750824,
+      "learning_rate": 0.0007633768352365417,
+      "loss": 0.2088,
+      "num_input_tokens_seen": 20237920,
+      "step": 9360
+    },
+    {
+      "epoch": 1.5277324632952691,
+      "grad_norm": 0.14089787006378174,
+      "learning_rate": 0.000763784665579119,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 20248928,
+      "step": 9365
+    },
+    {
+      "epoch": 1.5285481239804242,
+      "grad_norm": 0.2328333854675293,
+      "learning_rate": 0.0007641924959216966,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 20260448,
+      "step": 9370
+    },
+    {
+      "epoch": 1.5293637846655792,
+      "grad_norm": 0.018458805978298187,
+      "learning_rate": 0.0007646003262642741,
+      "loss": 0.06,
+      "num_input_tokens_seen": 20271136,
+      "step": 9375
+    },
+    {
+      "epoch": 1.530179445350734,
+      "grad_norm": 0.13734719157218933,
+      "learning_rate": 0.0007650081566068515,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 20282048,
+      "step": 9380
+    },
+    {
+      "epoch": 1.530995106035889,
+      "grad_norm": 0.18070201575756073,
+      "learning_rate": 0.0007654159869494291,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 20291936,
+      "step": 9385
+    },
+    {
+      "epoch": 1.531810766721044,
+      "grad_norm": 0.09469042718410492,
+      "learning_rate": 0.0007658238172920065,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 20302976,
+      "step": 9390
+    },
+    {
+      "epoch": 1.532626427406199,
+      "grad_norm": 0.02390364743769169,
+      "learning_rate": 0.0007662316476345841,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 20314336,
+      "step": 9395
+    },
+    {
+      "epoch": 1.533442088091354,
+      "grad_norm": 0.2972950339317322,
+      "learning_rate": 0.0007666394779771615,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 20325248,
+      "step": 9400
+    },
+    {
+      "epoch": 1.534257748776509,
+      "grad_norm": 0.39182689785957336,
+      "learning_rate": 0.000767047308319739,
+      "loss": 0.388,
+      "num_input_tokens_seen": 20335936,
+      "step": 9405
+    },
+    {
+      "epoch": 1.5350734094616638,
+      "grad_norm": 0.03537694737315178,
+      "learning_rate": 0.0007674551386623165,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 20347424,
+      "step": 9410
+    },
+    {
+      "epoch": 1.535889070146819,
+      "grad_norm": 0.06817349791526794,
+      "learning_rate": 0.0007678629690048939,
+      "loss": 0.1584,
+      "num_input_tokens_seen": 20358240,
+      "step": 9415
+    },
+    {
+      "epoch": 1.536704730831974,
+      "grad_norm": 0.21510159969329834,
+      "learning_rate": 0.0007682707993474715,
+      "loss": 0.172,
+      "num_input_tokens_seen": 20369184,
+      "step": 9420
+    },
+    {
+      "epoch": 1.5375203915171287,
+      "grad_norm": 0.17005428671836853,
+      "learning_rate": 0.000768678629690049,
+      "loss": 0.2609,
+      "num_input_tokens_seen": 20380480,
+      "step": 9425
+    },
+    {
+      "epoch": 1.538336052202284,
+      "grad_norm": 0.10062456130981445,
+      "learning_rate": 0.0007690864600326263,
+      "loss": 0.2049,
+      "num_input_tokens_seen": 20389600,
+      "step": 9430
+    },
+    {
+      "epoch": 1.5391517128874388,
+      "grad_norm": 0.08677083998918533,
+      "learning_rate": 0.0007694942903752039,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 20399712,
+      "step": 9435
+    },
+    {
+      "epoch": 1.5399673735725938,
+      "grad_norm": 0.21858160197734833,
+      "learning_rate": 0.0007699021207177814,
+      "loss": 0.2001,
+      "num_input_tokens_seen": 20410816,
+      "step": 9440
+    },
+    {
+      "epoch": 1.5407830342577489,
+      "grad_norm": 0.13692283630371094,
+      "learning_rate": 0.000770309951060359,
+      "loss": 0.08,
+      "num_input_tokens_seen": 20421952,
+      "step": 9445
+    },
+    {
+      "epoch": 1.5415986949429037,
+      "grad_norm": 0.07183019816875458,
+      "learning_rate": 0.0007707177814029364,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 20432480,
+      "step": 9450
+    },
+    {
+      "epoch": 1.5424143556280587,
+      "grad_norm": 0.04967404529452324,
+      "learning_rate": 0.0007711256117455138,
+      "loss": 0.1739,
+      "num_input_tokens_seen": 20444032,
+      "step": 9455
+    },
+    {
+      "epoch": 1.5432300163132138,
+      "grad_norm": 0.05237607657909393,
+      "learning_rate": 0.0007715334420880914,
+      "loss": 0.2333,
+      "num_input_tokens_seen": 20455648,
+      "step": 9460
+    },
+    {
+      "epoch": 1.5440456769983686,
+      "grad_norm": 0.2099936455488205,
+      "learning_rate": 0.0007719412724306688,
+      "loss": 0.139,
+      "num_input_tokens_seen": 20466112,
+      "step": 9465
+    },
+    {
+      "epoch": 1.5448613376835236,
+      "grad_norm": 0.04406539723277092,
+      "learning_rate": 0.0007723491027732464,
+      "loss": 0.1943,
+      "num_input_tokens_seen": 20477280,
+      "step": 9470
+    },
+    {
+      "epoch": 1.5456769983686787,
+      "grad_norm": 0.0637565404176712,
+      "learning_rate": 0.0007727569331158239,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 20488704,
+      "step": 9475
+    },
+    {
+      "epoch": 1.5464926590538335,
+      "grad_norm": 0.14393645524978638,
+      "learning_rate": 0.0007731647634584013,
+      "loss": 0.146,
+      "num_input_tokens_seen": 20499168,
+      "step": 9480
+    },
+    {
+      "epoch": 1.5473083197389887,
+      "grad_norm": 0.032931309193372726,
+      "learning_rate": 0.0007735725938009788,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 20509696,
+      "step": 9485
+    },
+    {
+      "epoch": 1.5481239804241436,
+      "grad_norm": 0.11536554247140884,
+      "learning_rate": 0.0007739804241435563,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 20519424,
+      "step": 9490
+    },
+    {
+      "epoch": 1.5489396411092984,
+      "grad_norm": 0.017625289037823677,
+      "learning_rate": 0.0007743882544861339,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 20530304,
+      "step": 9495
+    },
+    {
+      "epoch": 1.5497553017944536,
+      "grad_norm": 0.15197528898715973,
+      "learning_rate": 0.0007747960848287112,
+      "loss": 0.1542,
+      "num_input_tokens_seen": 20540384,
+      "step": 9500
+    },
+    {
+      "epoch": 1.5505709624796085,
+      "grad_norm": 0.2158111035823822,
+      "learning_rate": 0.0007752039151712887,
+      "loss": 0.096,
+      "num_input_tokens_seen": 20550912,
+      "step": 9505
+    },
+    {
+      "epoch": 1.5513866231647635,
+      "grad_norm": 0.04284696653485298,
+      "learning_rate": 0.0007756117455138663,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 20561280,
+      "step": 9510
+    },
+    {
+      "epoch": 1.5522022838499185,
+      "grad_norm": 0.1303076297044754,
+      "learning_rate": 0.0007760195758564438,
+      "loss": 0.2241,
+      "num_input_tokens_seen": 20572896,
+      "step": 9515
+    },
+    {
+      "epoch": 1.5530179445350734,
+      "grad_norm": 0.044415369629859924,
+      "learning_rate": 0.0007764274061990211,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 20583200,
+      "step": 9520
+    },
+    {
+      "epoch": 1.5538336052202284,
+      "grad_norm": 0.09820342063903809,
+      "learning_rate": 0.0007768352365415987,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 20593824,
+      "step": 9525
+    },
+    {
+      "epoch": 1.5546492659053834,
+      "grad_norm": 0.0766250267624855,
+      "learning_rate": 0.0007772430668841762,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 20605696,
+      "step": 9530
+    },
+    {
+      "epoch": 1.5554649265905383,
+      "grad_norm": 0.11463528871536255,
+      "learning_rate": 0.0007776508972267537,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 20616672,
+      "step": 9535
+    },
+    {
+      "epoch": 1.5562805872756933,
+      "grad_norm": 0.3298501968383789,
+      "learning_rate": 0.0007780587275693312,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 20629216,
+      "step": 9540
+    },
+    {
+      "epoch": 1.5570962479608483,
+      "grad_norm": 0.15438921749591827,
+      "learning_rate": 0.0007784665579119086,
+      "loss": 0.046,
+      "num_input_tokens_seen": 20640544,
+      "step": 9545
+    },
+    {
+      "epoch": 1.5579119086460032,
+      "grad_norm": 0.03456113860011101,
+      "learning_rate": 0.0007788743882544862,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 20651808,
+      "step": 9550
+    },
+    {
+      "epoch": 1.5587275693311582,
+      "grad_norm": 0.044604893773794174,
+      "learning_rate": 0.0007792822185970636,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 20663360,
+      "step": 9555
+    },
+    {
+      "epoch": 1.5595432300163132,
+      "grad_norm": 0.015352782793343067,
+      "learning_rate": 0.0007796900489396412,
+      "loss": 0.1858,
+      "num_input_tokens_seen": 20674336,
+      "step": 9560
+    },
+    {
+      "epoch": 1.560358890701468,
+      "grad_norm": 0.12856276333332062,
+      "learning_rate": 0.0007800978792822186,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 20684960,
+      "step": 9565
+    },
+    {
+      "epoch": 1.5611745513866233,
+      "grad_norm": 0.15705958008766174,
+      "learning_rate": 0.000780505709624796,
+      "loss": 0.1627,
+      "num_input_tokens_seen": 20695648,
+      "step": 9570
+    },
+    {
+      "epoch": 1.5619902120717781,
+      "grad_norm": 0.26499855518341064,
+      "learning_rate": 0.0007809135399673736,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 20707008,
+      "step": 9575
+    },
+    {
+      "epoch": 1.5628058727569332,
+      "grad_norm": 0.44296300411224365,
+      "learning_rate": 0.0007813213703099511,
+      "loss": 0.2125,
+      "num_input_tokens_seen": 20717024,
+      "step": 9580
+    },
+    {
+      "epoch": 1.5636215334420882,
+      "grad_norm": 0.10148364305496216,
+      "learning_rate": 0.0007817292006525287,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 20727968,
+      "step": 9585
+    },
+    {
+      "epoch": 1.564437194127243,
+      "grad_norm": 0.7346378564834595,
+      "learning_rate": 0.000782137030995106,
+      "loss": 0.3014,
+      "num_input_tokens_seen": 20739520,
+      "step": 9590
+    },
+    {
+      "epoch": 1.565252854812398,
+      "grad_norm": 0.25575461983680725,
+      "learning_rate": 0.0007825448613376835,
+      "loss": 0.099,
+      "num_input_tokens_seen": 20751104,
+      "step": 9595
+    },
+    {
+      "epoch": 1.566068515497553,
+      "grad_norm": 0.041789885610342026,
+      "learning_rate": 0.0007829526916802611,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 20760672,
+      "step": 9600
+    },
+    {
+      "epoch": 1.566884176182708,
+      "grad_norm": 0.2482481747865677,
+      "learning_rate": 0.0007833605220228385,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 20772160,
+      "step": 9605
+    },
+    {
+      "epoch": 1.567699836867863,
+      "grad_norm": 0.32589903473854065,
+      "learning_rate": 0.000783768352365416,
+      "loss": 0.076,
+      "num_input_tokens_seen": 20783840,
+      "step": 9610
+    },
+    {
+      "epoch": 1.568515497553018,
+      "grad_norm": 0.056545983999967575,
+      "learning_rate": 0.0007841761827079935,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 20795488,
+      "step": 9615
+    },
+    {
+      "epoch": 1.5693311582381728,
+      "grad_norm": 0.02571425400674343,
+      "learning_rate": 0.000784584013050571,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 20806272,
+      "step": 9620
+    },
+    {
+      "epoch": 1.5701468189233279,
+      "grad_norm": 0.12023447453975677,
+      "learning_rate": 0.0007849918433931485,
+      "loss": 0.1562,
+      "num_input_tokens_seen": 20817472,
+      "step": 9625
+    },
+    {
+      "epoch": 1.570962479608483,
+      "grad_norm": 0.17629219591617584,
+      "learning_rate": 0.000785399673735726,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 20828992,
+      "step": 9630
+    },
+    {
+      "epoch": 1.5717781402936377,
+      "grad_norm": 0.20702822506427765,
+      "learning_rate": 0.0007858075040783035,
+      "loss": 0.1637,
+      "num_input_tokens_seen": 20841184,
+      "step": 9635
+    },
+    {
+      "epoch": 1.572593800978793,
+      "grad_norm": 0.10118906199932098,
+      "learning_rate": 0.0007862153344208809,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 20852096,
+      "step": 9640
+    },
+    {
+      "epoch": 1.5734094616639478,
+      "grad_norm": 0.016205577179789543,
+      "learning_rate": 0.0007866231647634584,
+      "loss": 0.1564,
+      "num_input_tokens_seen": 20862784,
+      "step": 9645
+    },
+    {
+      "epoch": 1.5742251223491026,
+      "grad_norm": 0.3246265947818756,
+      "learning_rate": 0.000787030995106036,
+      "loss": 0.2121,
+      "num_input_tokens_seen": 20872320,
+      "step": 9650
+    },
+    {
+      "epoch": 1.5750407830342579,
+      "grad_norm": 0.12944892048835754,
+      "learning_rate": 0.0007874388254486133,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 20883648,
+      "step": 9655
+    },
+    {
+      "epoch": 1.5758564437194127,
+      "grad_norm": 0.2590799629688263,
+      "learning_rate": 0.0007878466557911908,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 20892992,
+      "step": 9660
+    },
+    {
+      "epoch": 1.5766721044045677,
+      "grad_norm": 0.049245089292526245,
+      "learning_rate": 0.0007882544861337684,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 20903552,
+      "step": 9665
+    },
+    {
+      "epoch": 1.5774877650897228,
+      "grad_norm": 0.15859724581241608,
+      "learning_rate": 0.0007886623164763459,
+      "loss": 0.118,
+      "num_input_tokens_seen": 20914400,
+      "step": 9670
+    },
+    {
+      "epoch": 1.5783034257748776,
+      "grad_norm": 0.08111312985420227,
+      "learning_rate": 0.0007890701468189233,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 20925280,
+      "step": 9675
+    },
+    {
+      "epoch": 1.5791190864600326,
+      "grad_norm": 0.2263268232345581,
+      "learning_rate": 0.0007894779771615008,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 20936256,
+      "step": 9680
+    },
+    {
+      "epoch": 1.5799347471451877,
+      "grad_norm": 0.24854174256324768,
+      "learning_rate": 0.0007898858075040783,
+      "loss": 0.2001,
+      "num_input_tokens_seen": 20946432,
+      "step": 9685
+    },
+    {
+      "epoch": 1.5807504078303425,
+      "grad_norm": 0.3115064203739166,
+      "learning_rate": 0.0007902936378466558,
+      "loss": 0.2652,
+      "num_input_tokens_seen": 20956576,
+      "step": 9690
+    },
+    {
+      "epoch": 1.5815660685154975,
+      "grad_norm": 0.054324883967638016,
+      "learning_rate": 0.0007907014681892332,
+      "loss": 0.2013,
+      "num_input_tokens_seen": 20967296,
+      "step": 9695
+    },
+    {
+      "epoch": 1.5823817292006526,
+      "grad_norm": 0.15358050167560577,
+      "learning_rate": 0.0007911092985318108,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 20978176,
+      "step": 9700
+    },
+    {
+      "epoch": 1.5831973898858074,
+      "grad_norm": 0.05537407100200653,
+      "learning_rate": 0.0007915171288743883,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 20989824,
+      "step": 9705
+    },
+    {
+      "epoch": 1.5840130505709626,
+      "grad_norm": 0.1706741601228714,
+      "learning_rate": 0.0007919249592169657,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 21000992,
+      "step": 9710
+    },
+    {
+      "epoch": 1.5848287112561175,
+      "grad_norm": 0.179428368806839,
+      "learning_rate": 0.0007923327895595433,
+      "loss": 0.086,
+      "num_input_tokens_seen": 21010624,
+      "step": 9715
+    },
+    {
+      "epoch": 1.5856443719412723,
+      "grad_norm": 0.19192343950271606,
+      "learning_rate": 0.0007927406199021207,
+      "loss": 0.224,
+      "num_input_tokens_seen": 21021856,
+      "step": 9720
+    },
+    {
+      "epoch": 1.5864600326264275,
+      "grad_norm": 0.2749413847923279,
+      "learning_rate": 0.0007931484502446982,
+      "loss": 0.2647,
+      "num_input_tokens_seen": 21032864,
+      "step": 9725
+    },
+    {
+      "epoch": 1.5872756933115824,
+      "grad_norm": 0.020634248852729797,
+      "learning_rate": 0.0007935562805872757,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 21044800,
+      "step": 9730
+    },
+    {
+      "epoch": 1.5880913539967374,
+      "grad_norm": 0.036429792642593384,
+      "learning_rate": 0.0007939641109298532,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 21055936,
+      "step": 9735
+    },
+    {
+      "epoch": 1.5889070146818924,
+      "grad_norm": 0.11412417143583298,
+      "learning_rate": 0.0007943719412724308,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 21066944,
+      "step": 9740
+    },
+    {
+      "epoch": 1.5897226753670473,
+      "grad_norm": 0.34290286898612976,
+      "learning_rate": 0.0007947797716150081,
+      "loss": 0.2389,
+      "num_input_tokens_seen": 21077440,
+      "step": 9745
+    },
+    {
+      "epoch": 1.5905383360522023,
+      "grad_norm": 0.07320336997509003,
+      "learning_rate": 0.0007951876019575857,
+      "loss": 0.2007,
+      "num_input_tokens_seen": 21087616,
+      "step": 9750
+    },
+    {
+      "epoch": 1.5913539967373573,
+      "grad_norm": 0.13163729012012482,
+      "learning_rate": 0.0007955954323001632,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 21099424,
+      "step": 9755
+    },
+    {
+      "epoch": 1.5921696574225122,
+      "grad_norm": 0.08553323149681091,
+      "learning_rate": 0.0007960032626427406,
+      "loss": 0.1947,
+      "num_input_tokens_seen": 21109696,
+      "step": 9760
+    },
+    {
+      "epoch": 1.5929853181076672,
+      "grad_norm": 0.08144395798444748,
+      "learning_rate": 0.0007964110929853181,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 21120608,
+      "step": 9765
+    },
+    {
+      "epoch": 1.5938009787928222,
+      "grad_norm": 0.27438557147979736,
+      "learning_rate": 0.0007968189233278956,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 21131552,
+      "step": 9770
+    },
+    {
+      "epoch": 1.594616639477977,
+      "grad_norm": 0.13903331756591797,
+      "learning_rate": 0.0007972267536704732,
+      "loss": 0.116,
+      "num_input_tokens_seen": 21141920,
+      "step": 9775
+    },
+    {
+      "epoch": 1.595432300163132,
+      "grad_norm": 0.07145722210407257,
+      "learning_rate": 0.0007976345840130506,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 21152768,
+      "step": 9780
+    },
+    {
+      "epoch": 1.5962479608482871,
+      "grad_norm": 0.19481636583805084,
+      "learning_rate": 0.000798042414355628,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 21162816,
+      "step": 9785
+    },
+    {
+      "epoch": 1.597063621533442,
+      "grad_norm": 0.1090518906712532,
+      "learning_rate": 0.0007984502446982056,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 21173376,
+      "step": 9790
+    },
+    {
+      "epoch": 1.5978792822185972,
+      "grad_norm": 0.07812517881393433,
+      "learning_rate": 0.000798858075040783,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 21184064,
+      "step": 9795
+    },
+    {
+      "epoch": 1.598694942903752,
+      "grad_norm": 0.10007583349943161,
+      "learning_rate": 0.0007992659053833605,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 21195136,
+      "step": 9800
+    },
+    {
+      "epoch": 1.599510603588907,
+      "grad_norm": 0.00513321440666914,
+      "learning_rate": 0.0007996737357259381,
+      "loss": 0.1956,
+      "num_input_tokens_seen": 21205824,
+      "step": 9805
+    },
+    {
+      "epoch": 1.600326264274062,
+      "grad_norm": 0.005637241993099451,
+      "learning_rate": 0.0008000815660685155,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 21215456,
+      "step": 9810
+    },
+    {
+      "epoch": 1.601141924959217,
+      "grad_norm": 0.0892510935664177,
+      "learning_rate": 0.000800489396411093,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 21226368,
+      "step": 9815
+    },
+    {
+      "epoch": 1.601957585644372,
+      "grad_norm": 0.376203328371048,
+      "learning_rate": 0.0008008972267536705,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 21238240,
+      "step": 9820
+    },
+    {
+      "epoch": 1.602773246329527,
+      "grad_norm": 0.36713284254074097,
+      "learning_rate": 0.000801305057096248,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 21248896,
+      "step": 9825
+    },
+    {
+      "epoch": 1.6035889070146818,
+      "grad_norm": 0.0800262987613678,
+      "learning_rate": 0.0008017128874388254,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 21259264,
+      "step": 9830
+    },
+    {
+      "epoch": 1.6044045676998369,
+      "grad_norm": 0.0729251429438591,
+      "learning_rate": 0.0008021207177814029,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 21269472,
+      "step": 9835
+    },
+    {
+      "epoch": 1.605220228384992,
+      "grad_norm": 0.4738904535770416,
+      "learning_rate": 0.0008025285481239805,
+      "loss": 0.1909,
+      "num_input_tokens_seen": 21281280,
+      "step": 9840
+    },
+    {
+      "epoch": 1.6060358890701467,
+      "grad_norm": 0.03555934503674507,
+      "learning_rate": 0.000802936378466558,
+      "loss": 0.1532,
+      "num_input_tokens_seen": 21290752,
+      "step": 9845
+    },
+    {
+      "epoch": 1.6068515497553018,
+      "grad_norm": 0.2605329751968384,
+      "learning_rate": 0.0008033442088091353,
+      "loss": 0.2615,
+      "num_input_tokens_seen": 21299520,
+      "step": 9850
+    },
+    {
+      "epoch": 1.6076672104404568,
+      "grad_norm": 0.21877489984035492,
+      "learning_rate": 0.0008037520391517129,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 21309632,
+      "step": 9855
+    },
+    {
+      "epoch": 1.6084828711256116,
+      "grad_norm": 0.2073116898536682,
+      "learning_rate": 0.0008041598694942904,
+      "loss": 0.079,
+      "num_input_tokens_seen": 21320416,
+      "step": 9860
+    },
+    {
+      "epoch": 1.6092985318107669,
+      "grad_norm": 0.23353806138038635,
+      "learning_rate": 0.0008045676998368679,
+      "loss": 0.1914,
+      "num_input_tokens_seen": 21330432,
+      "step": 9865
+    },
+    {
+      "epoch": 1.6101141924959217,
+      "grad_norm": 0.06838128715753555,
+      "learning_rate": 0.0008049755301794454,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 21341056,
+      "step": 9870
+    },
+    {
+      "epoch": 1.6109298531810765,
+      "grad_norm": 0.08493325114250183,
+      "learning_rate": 0.0008053833605220228,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 21352864,
+      "step": 9875
+    },
+    {
+      "epoch": 1.6117455138662318,
+      "grad_norm": 0.1823084056377411,
+      "learning_rate": 0.0008057911908646003,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 21364512,
+      "step": 9880
+    },
+    {
+      "epoch": 1.6125611745513866,
+      "grad_norm": 0.03267619386315346,
+      "learning_rate": 0.0008061990212071778,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 21374656,
+      "step": 9885
+    },
+    {
+      "epoch": 1.6133768352365416,
+      "grad_norm": 0.22920729219913483,
+      "learning_rate": 0.0008066068515497554,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 21384928,
+      "step": 9890
+    },
+    {
+      "epoch": 1.6141924959216967,
+      "grad_norm": 0.009968969970941544,
+      "learning_rate": 0.0008070146818923329,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 21395488,
+      "step": 9895
+    },
+    {
+      "epoch": 1.6150081566068515,
+      "grad_norm": 0.06347603350877762,
+      "learning_rate": 0.0008074225122349102,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 21405760,
+      "step": 9900
+    },
+    {
+      "epoch": 1.6158238172920065,
+      "grad_norm": 0.03512804955244064,
+      "learning_rate": 0.0008078303425774878,
+      "loss": 0.3131,
+      "num_input_tokens_seen": 21416096,
+      "step": 9905
+    },
+    {
+      "epoch": 1.6166394779771616,
+      "grad_norm": 0.25602778792381287,
+      "learning_rate": 0.0008082381729200653,
+      "loss": 0.1505,
+      "num_input_tokens_seen": 21426176,
+      "step": 9910
+    },
+    {
+      "epoch": 1.6174551386623164,
+      "grad_norm": 0.036331601440906525,
+      "learning_rate": 0.0008086460032626428,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 21437024,
+      "step": 9915
+    },
+    {
+      "epoch": 1.6182707993474714,
+      "grad_norm": 0.06043427065014839,
+      "learning_rate": 0.0008090538336052202,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 21447168,
+      "step": 9920
+    },
+    {
+      "epoch": 1.6190864600326265,
+      "grad_norm": 0.19334854185581207,
+      "learning_rate": 0.0008094616639477977,
+      "loss": 0.2161,
+      "num_input_tokens_seen": 21457568,
+      "step": 9925
+    },
+    {
+      "epoch": 1.6199021207177813,
+      "grad_norm": 0.08765456825494766,
+      "learning_rate": 0.0008098694942903753,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 21467264,
+      "step": 9930
+    },
+    {
+      "epoch": 1.6207177814029365,
+      "grad_norm": 0.1640249788761139,
+      "learning_rate": 0.0008102773246329527,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 21479360,
+      "step": 9935
+    },
+    {
+      "epoch": 1.6215334420880914,
+      "grad_norm": 0.1942995935678482,
+      "learning_rate": 0.0008106851549755301,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 21490208,
+      "step": 9940
+    },
+    {
+      "epoch": 1.6223491027732462,
+      "grad_norm": 0.1993321031332016,
+      "learning_rate": 0.0008110929853181077,
+      "loss": 0.138,
+      "num_input_tokens_seen": 21501472,
+      "step": 9945
+    },
+    {
+      "epoch": 1.6231647634584014,
+      "grad_norm": 0.09414301067590714,
+      "learning_rate": 0.0008115008156606851,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 21512896,
+      "step": 9950
+    },
+    {
+      "epoch": 1.6239804241435563,
+      "grad_norm": 0.07336173206567764,
+      "learning_rate": 0.0008119086460032627,
+      "loss": 0.1602,
+      "num_input_tokens_seen": 21523744,
+      "step": 9955
+    },
+    {
+      "epoch": 1.6247960848287113,
+      "grad_norm": 0.23218612372875214,
+      "learning_rate": 0.0008123164763458402,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 21534592,
+      "step": 9960
+    },
+    {
+      "epoch": 1.6256117455138663,
+      "grad_norm": 0.0703354924917221,
+      "learning_rate": 0.0008127243066884176,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 21546784,
+      "step": 9965
+    },
+    {
+      "epoch": 1.6264274061990212,
+      "grad_norm": 0.5143048763275146,
+      "learning_rate": 0.0008131321370309951,
+      "loss": 0.1959,
+      "num_input_tokens_seen": 21557792,
+      "step": 9970
+    },
+    {
+      "epoch": 1.6272430668841762,
+      "grad_norm": 0.26658895611763,
+      "learning_rate": 0.0008135399673735726,
+      "loss": 0.1729,
+      "num_input_tokens_seen": 21566496,
+      "step": 9975
+    },
+    {
+      "epoch": 1.6280587275693312,
+      "grad_norm": 0.007412992883473635,
+      "learning_rate": 0.0008139477977161502,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 21576800,
+      "step": 9980
+    },
+    {
+      "epoch": 1.628874388254486,
+      "grad_norm": 0.14374643564224243,
+      "learning_rate": 0.0008143556280587275,
+      "loss": 0.1996,
+      "num_input_tokens_seen": 21587360,
+      "step": 9985
+    },
+    {
+      "epoch": 1.629690048939641,
+      "grad_norm": 0.23667171597480774,
+      "learning_rate": 0.000814763458401305,
+      "loss": 0.1,
+      "num_input_tokens_seen": 21597824,
+      "step": 9990
+    },
+    {
+      "epoch": 1.6305057096247961,
+      "grad_norm": 0.02756788767874241,
+      "learning_rate": 0.0008151712887438826,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 21608064,
+      "step": 9995
+    },
+    {
+      "epoch": 1.631321370309951,
+      "grad_norm": 0.03173388913273811,
+      "learning_rate": 0.0008155791190864601,
+      "loss": 0.129,
+      "num_input_tokens_seen": 21617568,
+      "step": 10000
+    },
+    {
+      "epoch": 1.632137030995106,
+      "grad_norm": 0.0286561269313097,
+      "learning_rate": 0.0008159869494290375,
+      "loss": 0.1911,
+      "num_input_tokens_seen": 21628544,
+      "step": 10005
+    },
+    {
+      "epoch": 1.632952691680261,
+      "grad_norm": 0.02535759098827839,
+      "learning_rate": 0.000816394779771615,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 21637440,
+      "step": 10010
+    },
+    {
+      "epoch": 1.6337683523654158,
+      "grad_norm": 0.26951324939727783,
+      "learning_rate": 0.0008168026101141925,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 21647200,
+      "step": 10015
+    },
+    {
+      "epoch": 1.634584013050571,
+      "grad_norm": 0.09645380079746246,
+      "learning_rate": 0.00081721044045677,
+      "loss": 0.181,
+      "num_input_tokens_seen": 21657888,
+      "step": 10020
+    },
+    {
+      "epoch": 1.635399673735726,
+      "grad_norm": 0.19887897372245789,
+      "learning_rate": 0.0008176182707993475,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 21668640,
+      "step": 10025
+    },
+    {
+      "epoch": 1.636215334420881,
+      "grad_norm": 0.18069353699684143,
+      "learning_rate": 0.000818026101141925,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 21679008,
+      "step": 10030
+    },
+    {
+      "epoch": 1.637030995106036,
+      "grad_norm": 0.09430285543203354,
+      "learning_rate": 0.0008184339314845025,
+      "loss": 0.2209,
+      "num_input_tokens_seen": 21689984,
+      "step": 10035
+    },
+    {
+      "epoch": 1.6378466557911908,
+      "grad_norm": 0.050288546830415726,
+      "learning_rate": 0.0008188417618270799,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 21700960,
+      "step": 10040
+    },
+    {
+      "epoch": 1.6386623164763459,
+      "grad_norm": 0.11963741481304169,
+      "learning_rate": 0.0008192495921696575,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 21711680,
+      "step": 10045
+    },
+    {
+      "epoch": 1.639477977161501,
+      "grad_norm": 0.18857711553573608,
+      "learning_rate": 0.0008196574225122349,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 21722432,
+      "step": 10050
+    },
+    {
+      "epoch": 1.6402936378466557,
+      "grad_norm": 0.2952326238155365,
+      "learning_rate": 0.0008200652528548124,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 21732608,
+      "step": 10055
+    },
+    {
+      "epoch": 1.6411092985318108,
+      "grad_norm": 0.06583889573812485,
+      "learning_rate": 0.0008204730831973899,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 21741760,
+      "step": 10060
+    },
+    {
+      "epoch": 1.6419249592169658,
+      "grad_norm": 0.23590274155139923,
+      "learning_rate": 0.0008208809135399674,
+      "loss": 0.1632,
+      "num_input_tokens_seen": 21753472,
+      "step": 10065
+    },
+    {
+      "epoch": 1.6427406199021206,
+      "grad_norm": 0.11746193468570709,
+      "learning_rate": 0.000821288743882545,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 21764480,
+      "step": 10070
+    },
+    {
+      "epoch": 1.6435562805872757,
+      "grad_norm": 0.11129488050937653,
+      "learning_rate": 0.0008216965742251223,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 21775296,
+      "step": 10075
+    },
+    {
+      "epoch": 1.6443719412724307,
+      "grad_norm": 0.25786536931991577,
+      "learning_rate": 0.0008221044045676999,
+      "loss": 0.2348,
+      "num_input_tokens_seen": 21786240,
+      "step": 10080
+    },
+    {
+      "epoch": 1.6451876019575855,
+      "grad_norm": 0.1905505508184433,
+      "learning_rate": 0.0008225122349102774,
+      "loss": 0.171,
+      "num_input_tokens_seen": 21797440,
+      "step": 10085
+    },
+    {
+      "epoch": 1.6460032626427408,
+      "grad_norm": 0.10690456628799438,
+      "learning_rate": 0.0008229200652528548,
+      "loss": 0.069,
+      "num_input_tokens_seen": 21807456,
+      "step": 10090
+    },
+    {
+      "epoch": 1.6468189233278956,
+      "grad_norm": 0.015939027070999146,
+      "learning_rate": 0.0008233278955954323,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 21819968,
+      "step": 10095
+    },
+    {
+      "epoch": 1.6476345840130504,
+      "grad_norm": 0.03100682608783245,
+      "learning_rate": 0.0008237357259380098,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 21831328,
+      "step": 10100
+    },
+    {
+      "epoch": 1.6484502446982057,
+      "grad_norm": 0.2114262878894806,
+      "learning_rate": 0.0008241435562805873,
+      "loss": 0.2003,
+      "num_input_tokens_seen": 21843648,
+      "step": 10105
+    },
+    {
+      "epoch": 1.6492659053833605,
+      "grad_norm": 0.1278071254491806,
+      "learning_rate": 0.0008245513866231648,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 21853120,
+      "step": 10110
+    },
+    {
+      "epoch": 1.6500815660685155,
+      "grad_norm": 0.06103214994072914,
+      "learning_rate": 0.0008249592169657422,
+      "loss": 0.129,
+      "num_input_tokens_seen": 21863424,
+      "step": 10115
+    },
+    {
+      "epoch": 1.6508972267536706,
+      "grad_norm": 0.048976849764585495,
+      "learning_rate": 0.0008253670473083198,
+      "loss": 0.173,
+      "num_input_tokens_seen": 21873952,
+      "step": 10120
+    },
+    {
+      "epoch": 1.6517128874388254,
+      "grad_norm": 0.07527100294828415,
+      "learning_rate": 0.0008257748776508972,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 21884736,
+      "step": 10125
+    },
+    {
+      "epoch": 1.6525285481239804,
+      "grad_norm": 0.038339171558618546,
+      "learning_rate": 0.0008261827079934747,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 21895264,
+      "step": 10130
+    },
+    {
+      "epoch": 1.6533442088091355,
+      "grad_norm": 0.15123924612998962,
+      "learning_rate": 0.0008265905383360523,
+      "loss": 0.2225,
+      "num_input_tokens_seen": 21906720,
+      "step": 10135
+    },
+    {
+      "epoch": 1.6541598694942903,
+      "grad_norm": 0.19199934601783752,
+      "learning_rate": 0.0008269983686786296,
+      "loss": 0.1511,
+      "num_input_tokens_seen": 21916416,
+      "step": 10140
+    },
+    {
+      "epoch": 1.6549755301794453,
+      "grad_norm": 0.1354297697544098,
+      "learning_rate": 0.0008274061990212072,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 21927328,
+      "step": 10145
+    },
+    {
+      "epoch": 1.6557911908646004,
+      "grad_norm": 0.16701364517211914,
+      "learning_rate": 0.0008278140293637847,
+      "loss": 0.1901,
+      "num_input_tokens_seen": 21938112,
+      "step": 10150
+    },
+    {
+      "epoch": 1.6566068515497552,
+      "grad_norm": 0.10553938150405884,
+      "learning_rate": 0.0008282218597063622,
+      "loss": 0.123,
+      "num_input_tokens_seen": 21949472,
+      "step": 10155
+    },
+    {
+      "epoch": 1.6574225122349104,
+      "grad_norm": 0.031392499804496765,
+      "learning_rate": 0.0008286296900489396,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 21960384,
+      "step": 10160
+    },
+    {
+      "epoch": 1.6582381729200653,
+      "grad_norm": 0.15648214519023895,
+      "learning_rate": 0.0008290375203915171,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 21971104,
+      "step": 10165
+    },
+    {
+      "epoch": 1.65905383360522,
+      "grad_norm": 0.06735506653785706,
+      "learning_rate": 0.0008294453507340947,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 21982400,
+      "step": 10170
+    },
+    {
+      "epoch": 1.6598694942903753,
+      "grad_norm": 0.017349006608128548,
+      "learning_rate": 0.0008298531810766721,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 21994080,
+      "step": 10175
+    },
+    {
+      "epoch": 1.6606851549755302,
+      "grad_norm": 0.1527702659368515,
+      "learning_rate": 0.0008302610114192496,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 22005984,
+      "step": 10180
+    },
+    {
+      "epoch": 1.6615008156606852,
+      "grad_norm": 0.07216469943523407,
+      "learning_rate": 0.0008306688417618271,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 22015744,
+      "step": 10185
+    },
+    {
+      "epoch": 1.6623164763458402,
+      "grad_norm": 0.15371765196323395,
+      "learning_rate": 0.0008310766721044046,
+      "loss": 0.2624,
+      "num_input_tokens_seen": 22025248,
+      "step": 10190
+    },
+    {
+      "epoch": 1.663132137030995,
+      "grad_norm": 0.06531374156475067,
+      "learning_rate": 0.0008314845024469821,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 22035456,
+      "step": 10195
+    },
+    {
+      "epoch": 1.66394779771615,
+      "grad_norm": 0.06966865062713623,
+      "learning_rate": 0.0008318923327895596,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 22045568,
+      "step": 10200
+    },
+    {
+      "epoch": 1.6647634584013051,
+      "grad_norm": 0.036182425916194916,
+      "learning_rate": 0.000832300163132137,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 22055360,
+      "step": 10205
+    },
+    {
+      "epoch": 1.66557911908646,
+      "grad_norm": 0.040477022528648376,
+      "learning_rate": 0.0008327079934747145,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 22066624,
+      "step": 10210
+    },
+    {
+      "epoch": 1.666394779771615,
+      "grad_norm": 0.06451041251420975,
+      "learning_rate": 0.000833115823817292,
+      "loss": 0.1723,
+      "num_input_tokens_seen": 22078528,
+      "step": 10215
+    },
+    {
+      "epoch": 1.66721044045677,
+      "grad_norm": 0.27383536100387573,
+      "learning_rate": 0.0008335236541598696,
+      "loss": 0.1661,
+      "num_input_tokens_seen": 22089824,
+      "step": 10220
+    },
+    {
+      "epoch": 1.6680261011419248,
+      "grad_norm": 0.09901408106088638,
+      "learning_rate": 0.0008339314845024471,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 22099744,
+      "step": 10225
+    },
+    {
+      "epoch": 1.6688417618270799,
+      "grad_norm": 0.3080720901489258,
+      "learning_rate": 0.0008343393148450244,
+      "loss": 0.2365,
+      "num_input_tokens_seen": 22110432,
+      "step": 10230
+    },
+    {
+      "epoch": 1.669657422512235,
+      "grad_norm": 0.1689985692501068,
+      "learning_rate": 0.000834747145187602,
+      "loss": 0.1776,
+      "num_input_tokens_seen": 22120992,
+      "step": 10235
+    },
+    {
+      "epoch": 1.6704730831973897,
+      "grad_norm": 0.36505305767059326,
+      "learning_rate": 0.0008351549755301795,
+      "loss": 0.2088,
+      "num_input_tokens_seen": 22130816,
+      "step": 10240
+    },
+    {
+      "epoch": 1.671288743882545,
+      "grad_norm": 0.11974579095840454,
+      "learning_rate": 0.0008355628058727569,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 22142144,
+      "step": 10245
+    },
+    {
+      "epoch": 1.6721044045676998,
+      "grad_norm": 0.21502956748008728,
+      "learning_rate": 0.0008359706362153344,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 22152544,
+      "step": 10250
+    },
+    {
+      "epoch": 1.6729200652528549,
+      "grad_norm": 0.29304221272468567,
+      "learning_rate": 0.0008363784665579119,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 22162720,
+      "step": 10255
+    },
+    {
+      "epoch": 1.67373572593801,
+      "grad_norm": 0.11507556587457657,
+      "learning_rate": 0.0008367862969004895,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 22172832,
+      "step": 10260
+    },
+    {
+      "epoch": 1.6745513866231647,
+      "grad_norm": 0.0777512788772583,
+      "learning_rate": 0.0008371941272430669,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 22183360,
+      "step": 10265
+    },
+    {
+      "epoch": 1.6753670473083198,
+      "grad_norm": 0.02606668882071972,
+      "learning_rate": 0.0008376019575856443,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 22192640,
+      "step": 10270
+    },
+    {
+      "epoch": 1.6761827079934748,
+      "grad_norm": 0.19271859526634216,
+      "learning_rate": 0.0008380097879282219,
+      "loss": 0.2345,
+      "num_input_tokens_seen": 22204416,
+      "step": 10275
+    },
+    {
+      "epoch": 1.6769983686786296,
+      "grad_norm": 0.05584167316555977,
+      "learning_rate": 0.0008384176182707993,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 22216288,
+      "step": 10280
+    },
+    {
+      "epoch": 1.6778140293637847,
+      "grad_norm": 0.052766405045986176,
+      "learning_rate": 0.0008388254486133769,
+      "loss": 0.2267,
+      "num_input_tokens_seen": 22226752,
+      "step": 10285
+    },
+    {
+      "epoch": 1.6786296900489397,
+      "grad_norm": 0.10538561642169952,
+      "learning_rate": 0.0008392332789559544,
+      "loss": 0.225,
+      "num_input_tokens_seen": 22237952,
+      "step": 10290
+    },
+    {
+      "epoch": 1.6794453507340945,
+      "grad_norm": 0.06835313141345978,
+      "learning_rate": 0.0008396411092985318,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 22248032,
+      "step": 10295
+    },
+    {
+      "epoch": 1.6802610114192496,
+      "grad_norm": 0.27471956610679626,
+      "learning_rate": 0.0008400489396411093,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 22258816,
+      "step": 10300
+    },
+    {
+      "epoch": 1.6810766721044046,
+      "grad_norm": 0.07462483644485474,
+      "learning_rate": 0.0008404567699836868,
+      "loss": 0.1832,
+      "num_input_tokens_seen": 22270720,
+      "step": 10305
+    },
+    {
+      "epoch": 1.6818923327895594,
+      "grad_norm": 0.22200042009353638,
+      "learning_rate": 0.0008408646003262644,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 22280160,
+      "step": 10310
+    },
+    {
+      "epoch": 1.6827079934747147,
+      "grad_norm": 0.018682435154914856,
+      "learning_rate": 0.0008412724306688417,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 22291264,
+      "step": 10315
+    },
+    {
+      "epoch": 1.6835236541598695,
+      "grad_norm": 0.1510961651802063,
+      "learning_rate": 0.0008416802610114192,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 22302080,
+      "step": 10320
+    },
+    {
+      "epoch": 1.6843393148450243,
+      "grad_norm": 0.46816954016685486,
+      "learning_rate": 0.0008420880913539968,
+      "loss": 0.2358,
+      "num_input_tokens_seen": 22313344,
+      "step": 10325
+    },
+    {
+      "epoch": 1.6851549755301796,
+      "grad_norm": 0.07551740109920502,
+      "learning_rate": 0.0008424959216965743,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 22324416,
+      "step": 10330
+    },
+    {
+      "epoch": 1.6859706362153344,
+      "grad_norm": 0.0401376448571682,
+      "learning_rate": 0.0008429037520391518,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 22334528,
+      "step": 10335
+    },
+    {
+      "epoch": 1.6867862969004894,
+      "grad_norm": 0.0454762764275074,
+      "learning_rate": 0.0008433115823817292,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 22344864,
+      "step": 10340
+    },
+    {
+      "epoch": 1.6876019575856445,
+      "grad_norm": 0.0823223739862442,
+      "learning_rate": 0.0008437194127243067,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 22355360,
+      "step": 10345
+    },
+    {
+      "epoch": 1.6884176182707993,
+      "grad_norm": 0.043828509747982025,
+      "learning_rate": 0.0008441272430668842,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 22366016,
+      "step": 10350
+    },
+    {
+      "epoch": 1.6892332789559543,
+      "grad_norm": 0.21091154217720032,
+      "learning_rate": 0.0008445350734094617,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 22376128,
+      "step": 10355
+    },
+    {
+      "epoch": 1.6900489396411094,
+      "grad_norm": 0.19217798113822937,
+      "learning_rate": 0.0008449429037520392,
+      "loss": 0.2432,
+      "num_input_tokens_seen": 22385632,
+      "step": 10360
+    },
+    {
+      "epoch": 1.6908646003262642,
+      "grad_norm": 0.17423127591609955,
+      "learning_rate": 0.0008453507340946166,
+      "loss": 0.2182,
+      "num_input_tokens_seen": 22397152,
+      "step": 10365
+    },
+    {
+      "epoch": 1.6916802610114192,
+      "grad_norm": 0.06854557245969772,
+      "learning_rate": 0.0008457585644371941,
+      "loss": 0.1772,
+      "num_input_tokens_seen": 22409952,
+      "step": 10370
+    },
+    {
+      "epoch": 1.6924959216965743,
+      "grad_norm": 0.05031463876366615,
+      "learning_rate": 0.0008461663947797717,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 22422016,
+      "step": 10375
+    },
+    {
+      "epoch": 1.693311582381729,
+      "grad_norm": 0.10461442172527313,
+      "learning_rate": 0.0008465742251223492,
+      "loss": 0.1723,
+      "num_input_tokens_seen": 22432960,
+      "step": 10380
+    },
+    {
+      "epoch": 1.6941272430668843,
+      "grad_norm": 0.06757992506027222,
+      "learning_rate": 0.0008469820554649265,
+      "loss": 0.082,
+      "num_input_tokens_seen": 22443648,
+      "step": 10385
+    },
+    {
+      "epoch": 1.6949429037520392,
+      "grad_norm": 0.09296396374702454,
+      "learning_rate": 0.0008473898858075041,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 22454560,
+      "step": 10390
+    },
+    {
+      "epoch": 1.695758564437194,
+      "grad_norm": 0.16991855204105377,
+      "learning_rate": 0.0008477977161500816,
+      "loss": 0.127,
+      "num_input_tokens_seen": 22466400,
+      "step": 10395
+    },
+    {
+      "epoch": 1.6965742251223492,
+      "grad_norm": 0.05406171828508377,
+      "learning_rate": 0.0008482055464926591,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 22476800,
+      "step": 10400
+    },
+    {
+      "epoch": 1.697389885807504,
+      "grad_norm": 0.12532663345336914,
+      "learning_rate": 0.0008486133768352365,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 22488288,
+      "step": 10405
+    },
+    {
+      "epoch": 1.698205546492659,
+      "grad_norm": 0.23430512845516205,
+      "learning_rate": 0.000849021207177814,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 22499264,
+      "step": 10410
+    },
+    {
+      "epoch": 1.6990212071778141,
+      "grad_norm": 0.08874372392892838,
+      "learning_rate": 0.0008494290375203916,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 22510080,
+      "step": 10415
+    },
+    {
+      "epoch": 1.699836867862969,
+      "grad_norm": 0.1635916829109192,
+      "learning_rate": 0.000849836867862969,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 22520096,
+      "step": 10420
+    },
+    {
+      "epoch": 1.700652528548124,
+      "grad_norm": 0.07796313613653183,
+      "learning_rate": 0.0008502446982055465,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 22531168,
+      "step": 10425
+    },
+    {
+      "epoch": 1.701468189233279,
+      "grad_norm": 0.2718281149864197,
+      "learning_rate": 0.000850652528548124,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 22541600,
+      "step": 10430
+    },
+    {
+      "epoch": 1.7022838499184338,
+      "grad_norm": 0.17568756639957428,
+      "learning_rate": 0.0008510603588907014,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 22552864,
+      "step": 10435
+    },
+    {
+      "epoch": 1.7030995106035889,
+      "grad_norm": 0.006328089628368616,
+      "learning_rate": 0.000851468189233279,
+      "loss": 0.2101,
+      "num_input_tokens_seen": 22563776,
+      "step": 10440
+    },
+    {
+      "epoch": 1.703915171288744,
+      "grad_norm": 0.20163559913635254,
+      "learning_rate": 0.0008518760195758565,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 22575328,
+      "step": 10445
+    },
+    {
+      "epoch": 1.7047308319738987,
+      "grad_norm": 0.3907875418663025,
+      "learning_rate": 0.000852283849918434,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 22586240,
+      "step": 10450
+    },
+    {
+      "epoch": 1.7055464926590538,
+      "grad_norm": 0.010955499485135078,
+      "learning_rate": 0.0008526916802610114,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 22596512,
+      "step": 10455
+    },
+    {
+      "epoch": 1.7063621533442088,
+      "grad_norm": 0.4692709147930145,
+      "learning_rate": 0.0008530995106035889,
+      "loss": 0.279,
+      "num_input_tokens_seen": 22607200,
+      "step": 10460
+    },
+    {
+      "epoch": 1.7071778140293636,
+      "grad_norm": 0.17287231981754303,
+      "learning_rate": 0.0008535073409461665,
+      "loss": 0.0531,
+      "num_input_tokens_seen": 22618368,
+      "step": 10465
+    },
+    {
+      "epoch": 1.707993474714519,
+      "grad_norm": 0.022568654268980026,
+      "learning_rate": 0.0008539151712887438,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 22629312,
+      "step": 10470
+    },
+    {
+      "epoch": 1.7088091353996737,
+      "grad_norm": 0.09624893218278885,
+      "learning_rate": 0.0008543230016313214,
+      "loss": 0.1738,
+      "num_input_tokens_seen": 22641568,
+      "step": 10475
+    },
+    {
+      "epoch": 1.7096247960848288,
+      "grad_norm": 0.12691551446914673,
+      "learning_rate": 0.0008547308319738989,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 22652224,
+      "step": 10480
+    },
+    {
+      "epoch": 1.7104404567699838,
+      "grad_norm": 0.17793002724647522,
+      "learning_rate": 0.0008551386623164764,
+      "loss": 0.057,
+      "num_input_tokens_seen": 22662816,
+      "step": 10485
+    },
+    {
+      "epoch": 1.7112561174551386,
+      "grad_norm": 0.07302019745111465,
+      "learning_rate": 0.0008555464926590538,
+      "loss": 0.1733,
+      "num_input_tokens_seen": 22674368,
+      "step": 10490
+    },
+    {
+      "epoch": 1.7120717781402937,
+      "grad_norm": 0.15017388761043549,
+      "learning_rate": 0.0008559543230016313,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 22686528,
+      "step": 10495
+    },
+    {
+      "epoch": 1.7128874388254487,
+      "grad_norm": 0.2169235348701477,
+      "learning_rate": 0.0008563621533442089,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 22696384,
+      "step": 10500
+    },
+    {
+      "epoch": 1.7137030995106035,
+      "grad_norm": 0.12006626278162003,
+      "learning_rate": 0.0008567699836867863,
+      "loss": 0.2777,
+      "num_input_tokens_seen": 22707552,
+      "step": 10505
+    },
+    {
+      "epoch": 1.7145187601957586,
+      "grad_norm": 0.1256376951932907,
+      "learning_rate": 0.0008571778140293638,
+      "loss": 0.2857,
+      "num_input_tokens_seen": 22718496,
+      "step": 10510
+    },
+    {
+      "epoch": 1.7153344208809136,
+      "grad_norm": 0.24016325175762177,
+      "learning_rate": 0.0008575856443719413,
+      "loss": 0.2836,
+      "num_input_tokens_seen": 22729088,
+      "step": 10515
+    },
+    {
+      "epoch": 1.7161500815660684,
+      "grad_norm": 0.08173760026693344,
+      "learning_rate": 0.0008579934747145188,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 22738944,
+      "step": 10520
+    },
+    {
+      "epoch": 1.7169657422512234,
+      "grad_norm": 0.11104224622249603,
+      "learning_rate": 0.0008584013050570962,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 22749952,
+      "step": 10525
+    },
+    {
+      "epoch": 1.7177814029363785,
+      "grad_norm": 0.05892535671591759,
+      "learning_rate": 0.0008588091353996738,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 22759200,
+      "step": 10530
+    },
+    {
+      "epoch": 1.7185970636215333,
+      "grad_norm": 0.14461533725261688,
+      "learning_rate": 0.0008592169657422512,
+      "loss": 0.1721,
+      "num_input_tokens_seen": 22769632,
+      "step": 10535
+    },
+    {
+      "epoch": 1.7194127243066886,
+      "grad_norm": 0.05228950455784798,
+      "learning_rate": 0.0008596247960848287,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 22781056,
+      "step": 10540
+    },
+    {
+      "epoch": 1.7202283849918434,
+      "grad_norm": 0.29761654138565063,
+      "learning_rate": 0.0008600326264274062,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 22791776,
+      "step": 10545
+    },
+    {
+      "epoch": 1.7210440456769984,
+      "grad_norm": 0.018953580409288406,
+      "learning_rate": 0.0008604404567699837,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 22801952,
+      "step": 10550
+    },
+    {
+      "epoch": 1.7218597063621535,
+      "grad_norm": 0.05711786821484566,
+      "learning_rate": 0.0008608482871125613,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 22813024,
+      "step": 10555
+    },
+    {
+      "epoch": 1.7226753670473083,
+      "grad_norm": 0.08064857870340347,
+      "learning_rate": 0.0008612561174551386,
+      "loss": 0.1857,
+      "num_input_tokens_seen": 22823904,
+      "step": 10560
+    },
+    {
+      "epoch": 1.7234910277324633,
+      "grad_norm": 0.03695710375905037,
+      "learning_rate": 0.0008616639477977162,
+      "loss": 0.136,
+      "num_input_tokens_seen": 22834400,
+      "step": 10565
+    },
+    {
+      "epoch": 1.7243066884176184,
+      "grad_norm": 0.132895827293396,
+      "learning_rate": 0.0008620717781402937,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 22845856,
+      "step": 10570
+    },
+    {
+      "epoch": 1.7251223491027732,
+      "grad_norm": 0.07648682594299316,
+      "learning_rate": 0.0008624796084828711,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 22856608,
+      "step": 10575
+    },
+    {
+      "epoch": 1.7259380097879282,
+      "grad_norm": 0.2530839741230011,
+      "learning_rate": 0.0008628874388254486,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 22867168,
+      "step": 10580
+    },
+    {
+      "epoch": 1.7267536704730833,
+      "grad_norm": 0.14033333957195282,
+      "learning_rate": 0.0008632952691680261,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 22877312,
+      "step": 10585
+    },
+    {
+      "epoch": 1.727569331158238,
+      "grad_norm": 0.12076137959957123,
+      "learning_rate": 0.0008637030995106036,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 22888832,
+      "step": 10590
+    },
+    {
+      "epoch": 1.7283849918433931,
+      "grad_norm": 0.05201772227883339,
+      "learning_rate": 0.0008641109298531811,
+      "loss": 0.1281,
+      "num_input_tokens_seen": 22898464,
+      "step": 10595
+    },
+    {
+      "epoch": 1.7292006525285482,
+      "grad_norm": 0.05368548259139061,
+      "learning_rate": 0.0008645187601957585,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 22909568,
+      "step": 10600
+    },
+    {
+      "epoch": 1.730016313213703,
+      "grad_norm": 0.21361590921878815,
+      "learning_rate": 0.0008649265905383361,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 22920992,
+      "step": 10605
+    },
+    {
+      "epoch": 1.7308319738988582,
+      "grad_norm": 0.18085242807865143,
+      "learning_rate": 0.0008653344208809135,
+      "loss": 0.1765,
+      "num_input_tokens_seen": 22930880,
+      "step": 10610
+    },
+    {
+      "epoch": 1.731647634584013,
+      "grad_norm": 0.060455434024333954,
+      "learning_rate": 0.0008657422512234911,
+      "loss": 0.1894,
+      "num_input_tokens_seen": 22941568,
+      "step": 10615
+    },
+    {
+      "epoch": 1.7324632952691679,
+      "grad_norm": 0.12104543298482895,
+      "learning_rate": 0.0008661500815660686,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 22952576,
+      "step": 10620
+    },
+    {
+      "epoch": 1.7332789559543231,
+      "grad_norm": 0.16045480966567993,
+      "learning_rate": 0.0008665579119086459,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 22962144,
+      "step": 10625
+    },
+    {
+      "epoch": 1.734094616639478,
+      "grad_norm": 0.012985051609575748,
+      "learning_rate": 0.0008669657422512235,
+      "loss": 0.1631,
+      "num_input_tokens_seen": 22973312,
+      "step": 10630
+    },
+    {
+      "epoch": 1.734910277324633,
+      "grad_norm": 0.07617738097906113,
+      "learning_rate": 0.000867373572593801,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 22983424,
+      "step": 10635
+    },
+    {
+      "epoch": 1.735725938009788,
+      "grad_norm": 0.16659033298492432,
+      "learning_rate": 0.0008677814029363786,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 22992800,
+      "step": 10640
+    },
+    {
+      "epoch": 1.7365415986949428,
+      "grad_norm": 0.012401281856000423,
+      "learning_rate": 0.0008681892332789559,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 23003552,
+      "step": 10645
+    },
+    {
+      "epoch": 1.7373572593800979,
+      "grad_norm": 0.010529414750635624,
+      "learning_rate": 0.0008685970636215334,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 23014688,
+      "step": 10650
+    },
+    {
+      "epoch": 1.738172920065253,
+      "grad_norm": 0.006768247112631798,
+      "learning_rate": 0.000869004893964111,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 23025344,
+      "step": 10655
+    },
+    {
+      "epoch": 1.7389885807504077,
+      "grad_norm": 0.058623116463422775,
+      "learning_rate": 0.0008694127243066884,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 23035328,
+      "step": 10660
+    },
+    {
+      "epoch": 1.7398042414355628,
+      "grad_norm": 0.007725914474576712,
+      "learning_rate": 0.000869820554649266,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 23045504,
+      "step": 10665
+    },
+    {
+      "epoch": 1.7406199021207178,
+      "grad_norm": 0.34186941385269165,
+      "learning_rate": 0.0008702283849918434,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 23056736,
+      "step": 10670
+    },
+    {
+      "epoch": 1.7414355628058726,
+      "grad_norm": 0.47554755210876465,
+      "learning_rate": 0.0008706362153344209,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 23065760,
+      "step": 10675
+    },
+    {
+      "epoch": 1.7422512234910277,
+      "grad_norm": 0.206298828125,
+      "learning_rate": 0.0008710440456769984,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 23077376,
+      "step": 10680
+    },
+    {
+      "epoch": 1.7430668841761827,
+      "grad_norm": 0.016806311905384064,
+      "learning_rate": 0.0008714518760195759,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 23088736,
+      "step": 10685
+    },
+    {
+      "epoch": 1.7438825448613375,
+      "grad_norm": 0.05761105194687843,
+      "learning_rate": 0.0008718597063621533,
+      "loss": 0.2616,
+      "num_input_tokens_seen": 23101088,
+      "step": 10690
+    },
+    {
+      "epoch": 1.7446982055464928,
+      "grad_norm": 0.03953443840146065,
+      "learning_rate": 0.0008722675367047308,
+      "loss": 0.2475,
+      "num_input_tokens_seen": 23112576,
+      "step": 10695
+    },
+    {
+      "epoch": 1.7455138662316476,
+      "grad_norm": 0.36860281229019165,
+      "learning_rate": 0.0008726753670473083,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 23123744,
+      "step": 10700
+    },
+    {
+      "epoch": 1.7463295269168027,
+      "grad_norm": 0.23439127206802368,
+      "learning_rate": 0.0008730831973898859,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 23134784,
+      "step": 10705
+    },
+    {
+      "epoch": 1.7471451876019577,
+      "grad_norm": 0.04523128643631935,
+      "learning_rate": 0.0008734910277324634,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 23146240,
+      "step": 10710
+    },
+    {
+      "epoch": 1.7479608482871125,
+      "grad_norm": 0.2866004705429077,
+      "learning_rate": 0.0008738988580750407,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 23158208,
+      "step": 10715
+    },
+    {
+      "epoch": 1.7487765089722676,
+      "grad_norm": 0.0991467610001564,
+      "learning_rate": 0.0008743066884176183,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 23169280,
+      "step": 10720
+    },
+    {
+      "epoch": 1.7495921696574226,
+      "grad_norm": 0.05290234833955765,
+      "learning_rate": 0.0008747145187601958,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 23181728,
+      "step": 10725
+    },
+    {
+      "epoch": 1.7504078303425774,
+      "grad_norm": 0.2909699082374573,
+      "learning_rate": 0.0008751223491027733,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 23191328,
+      "step": 10730
+    },
+    {
+      "epoch": 1.7512234910277324,
+      "grad_norm": 0.08580849319696426,
+      "learning_rate": 0.0008755301794453507,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 23200832,
+      "step": 10735
+    },
+    {
+      "epoch": 1.7520391517128875,
+      "grad_norm": 0.3593541085720062,
+      "learning_rate": 0.0008759380097879282,
+      "loss": 0.2485,
+      "num_input_tokens_seen": 23211456,
+      "step": 10740
+    },
+    {
+      "epoch": 1.7528548123980423,
+      "grad_norm": 0.09344206005334854,
+      "learning_rate": 0.0008763458401305058,
+      "loss": 0.111,
+      "num_input_tokens_seen": 23223104,
+      "step": 10745
+    },
+    {
+      "epoch": 1.7536704730831973,
+      "grad_norm": 0.18612459301948547,
+      "learning_rate": 0.0008767536704730832,
+      "loss": 0.2546,
+      "num_input_tokens_seen": 23234752,
+      "step": 10750
+    },
+    {
+      "epoch": 1.7544861337683524,
+      "grad_norm": 0.4155328869819641,
+      "learning_rate": 0.0008771615008156608,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 23246944,
+      "step": 10755
+    },
+    {
+      "epoch": 1.7553017944535072,
+      "grad_norm": 0.02744222804903984,
+      "learning_rate": 0.0008775693311582382,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 23258848,
+      "step": 10760
+    },
+    {
+      "epoch": 1.7561174551386625,
+      "grad_norm": 0.060500990599393845,
+      "learning_rate": 0.0008779771615008156,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 23269056,
+      "step": 10765
+    },
+    {
+      "epoch": 1.7569331158238173,
+      "grad_norm": 0.06255891919136047,
+      "learning_rate": 0.0008783849918433932,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 23279328,
+      "step": 10770
+    },
+    {
+      "epoch": 1.7577487765089723,
+      "grad_norm": 0.05365055426955223,
+      "learning_rate": 0.0008787928221859707,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 23288192,
+      "step": 10775
+    },
+    {
+      "epoch": 1.7585644371941274,
+      "grad_norm": 0.02608959935605526,
+      "learning_rate": 0.0008792006525285482,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 23299232,
+      "step": 10780
+    },
+    {
+      "epoch": 1.7593800978792822,
+      "grad_norm": 0.0558866485953331,
+      "learning_rate": 0.0008796084828711256,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 23309536,
+      "step": 10785
+    },
+    {
+      "epoch": 1.7601957585644372,
+      "grad_norm": 0.09061188995838165,
+      "learning_rate": 0.0008800163132137031,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 23321120,
+      "step": 10790
+    },
+    {
+      "epoch": 1.7610114192495923,
+      "grad_norm": 0.025436315685510635,
+      "learning_rate": 0.0008804241435562807,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 23331904,
+      "step": 10795
+    },
+    {
+      "epoch": 1.761827079934747,
+      "grad_norm": 0.021344909444451332,
+      "learning_rate": 0.000880831973898858,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 23342016,
+      "step": 10800
+    },
+    {
+      "epoch": 1.7626427406199021,
+      "grad_norm": 0.23954921960830688,
+      "learning_rate": 0.0008812398042414356,
+      "loss": 0.2992,
+      "num_input_tokens_seen": 23352320,
+      "step": 10805
+    },
+    {
+      "epoch": 1.7634584013050572,
+      "grad_norm": 0.353021502494812,
+      "learning_rate": 0.0008816476345840131,
+      "loss": 0.2506,
+      "num_input_tokens_seen": 23363840,
+      "step": 10810
+    },
+    {
+      "epoch": 1.764274061990212,
+      "grad_norm": 0.2084723562002182,
+      "learning_rate": 0.0008820554649265906,
+      "loss": 0.2649,
+      "num_input_tokens_seen": 23375040,
+      "step": 10815
+    },
+    {
+      "epoch": 1.765089722675367,
+      "grad_norm": 0.07466694712638855,
+      "learning_rate": 0.000882463295269168,
+      "loss": 0.19,
+      "num_input_tokens_seen": 23386752,
+      "step": 10820
+    },
+    {
+      "epoch": 1.765905383360522,
+      "grad_norm": 0.08622830361127853,
+      "learning_rate": 0.0008828711256117455,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 23398496,
+      "step": 10825
+    },
+    {
+      "epoch": 1.7667210440456769,
+      "grad_norm": 0.168392151594162,
+      "learning_rate": 0.000883278955954323,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 23409984,
+      "step": 10830
+    },
+    {
+      "epoch": 1.7675367047308321,
+      "grad_norm": 0.18816818296909332,
+      "learning_rate": 0.0008836867862969005,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 23419968,
+      "step": 10835
+    },
+    {
+      "epoch": 1.768352365415987,
+      "grad_norm": 0.08224303275346756,
+      "learning_rate": 0.000884094616639478,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 23430720,
+      "step": 10840
+    },
+    {
+      "epoch": 1.7691680261011418,
+      "grad_norm": 0.07841552048921585,
+      "learning_rate": 0.0008845024469820555,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 23440960,
+      "step": 10845
+    },
+    {
+      "epoch": 1.769983686786297,
+      "grad_norm": 0.03823342174291611,
+      "learning_rate": 0.0008849102773246329,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 23451040,
+      "step": 10850
+    },
+    {
+      "epoch": 1.7707993474714518,
+      "grad_norm": 0.369051456451416,
+      "learning_rate": 0.0008853181076672104,
+      "loss": 0.2453,
+      "num_input_tokens_seen": 23461024,
+      "step": 10855
+    },
+    {
+      "epoch": 1.7716150081566069,
+      "grad_norm": 0.08475756645202637,
+      "learning_rate": 0.000885725938009788,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 23472192,
+      "step": 10860
+    },
+    {
+      "epoch": 1.772430668841762,
+      "grad_norm": 0.2269689291715622,
+      "learning_rate": 0.0008861337683523655,
+      "loss": 0.2801,
+      "num_input_tokens_seen": 23482624,
+      "step": 10865
+    },
+    {
+      "epoch": 1.7732463295269167,
+      "grad_norm": 0.10074033588171005,
+      "learning_rate": 0.0008865415986949429,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 23492928,
+      "step": 10870
+    },
+    {
+      "epoch": 1.7740619902120718,
+      "grad_norm": 0.04861301928758621,
+      "learning_rate": 0.0008869494290375204,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 23505312,
+      "step": 10875
+    },
+    {
+      "epoch": 1.7748776508972268,
+      "grad_norm": 0.05188162997364998,
+      "learning_rate": 0.0008873572593800979,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 23516608,
+      "step": 10880
+    },
+    {
+      "epoch": 1.7756933115823816,
+      "grad_norm": 0.21070732176303864,
+      "learning_rate": 0.0008877650897226754,
+      "loss": 0.2544,
+      "num_input_tokens_seen": 23527552,
+      "step": 10885
+    },
+    {
+      "epoch": 1.7765089722675367,
+      "grad_norm": 0.04607458412647247,
+      "learning_rate": 0.0008881729200652528,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 23537888,
+      "step": 10890
+    },
+    {
+      "epoch": 1.7773246329526917,
+      "grad_norm": 0.09887990355491638,
+      "learning_rate": 0.0008885807504078304,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 23548480,
+      "step": 10895
+    },
+    {
+      "epoch": 1.7781402936378465,
+      "grad_norm": 0.13077348470687866,
+      "learning_rate": 0.0008889885807504079,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 23560192,
+      "step": 10900
+    },
+    {
+      "epoch": 1.7789559543230016,
+      "grad_norm": 0.176055908203125,
+      "learning_rate": 0.0008893964110929853,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 23570432,
+      "step": 10905
+    },
+    {
+      "epoch": 1.7797716150081566,
+      "grad_norm": 0.2664521634578705,
+      "learning_rate": 0.0008898042414355628,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 23582080,
+      "step": 10910
+    },
+    {
+      "epoch": 1.7805872756933114,
+      "grad_norm": 0.17070364952087402,
+      "learning_rate": 0.0008902120717781403,
+      "loss": 0.1953,
+      "num_input_tokens_seen": 23592096,
+      "step": 10915
+    },
+    {
+      "epoch": 1.7814029363784667,
+      "grad_norm": 0.31275373697280884,
+      "learning_rate": 0.0008906199021207178,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 23603712,
+      "step": 10920
+    },
+    {
+      "epoch": 1.7822185970636215,
+      "grad_norm": 0.04737719148397446,
+      "learning_rate": 0.0008910277324632953,
+      "loss": 0.1324,
+      "num_input_tokens_seen": 23615168,
+      "step": 10925
+    },
+    {
+      "epoch": 1.7830342577487766,
+      "grad_norm": 0.0940323919057846,
+      "learning_rate": 0.0008914355628058728,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 23623936,
+      "step": 10930
+    },
+    {
+      "epoch": 1.7838499184339316,
+      "grad_norm": 0.23389218747615814,
+      "learning_rate": 0.0008918433931484503,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 23634656,
+      "step": 10935
+    },
+    {
+      "epoch": 1.7846655791190864,
+      "grad_norm": 0.16723588109016418,
+      "learning_rate": 0.0008922512234910277,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 23644992,
+      "step": 10940
+    },
+    {
+      "epoch": 1.7854812398042414,
+      "grad_norm": 0.3634952902793884,
+      "learning_rate": 0.0008926590538336053,
+      "loss": 0.2453,
+      "num_input_tokens_seen": 23656800,
+      "step": 10945
+    },
+    {
+      "epoch": 1.7862969004893965,
+      "grad_norm": 0.2302580624818802,
+      "learning_rate": 0.0008930668841761828,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 23668832,
+      "step": 10950
+    },
+    {
+      "epoch": 1.7871125611745513,
+      "grad_norm": 0.34366220235824585,
+      "learning_rate": 0.0008934747145187601,
+      "loss": 0.2055,
+      "num_input_tokens_seen": 23678464,
+      "step": 10955
+    },
+    {
+      "epoch": 1.7879282218597063,
+      "grad_norm": 0.041612409055233,
+      "learning_rate": 0.0008938825448613377,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 23689376,
+      "step": 10960
+    },
+    {
+      "epoch": 1.7887438825448614,
+      "grad_norm": 0.02797471545636654,
+      "learning_rate": 0.0008942903752039152,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 23700096,
+      "step": 10965
+    },
+    {
+      "epoch": 1.7895595432300162,
+      "grad_norm": 0.19312946498394012,
+      "learning_rate": 0.0008946982055464927,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 23711552,
+      "step": 10970
+    },
+    {
+      "epoch": 1.7903752039151712,
+      "grad_norm": 0.18493857979774475,
+      "learning_rate": 0.0008951060358890701,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 23722912,
+      "step": 10975
+    },
+    {
+      "epoch": 1.7911908646003263,
+      "grad_norm": 0.026496220380067825,
+      "learning_rate": 0.0008955138662316476,
+      "loss": 0.2482,
+      "num_input_tokens_seen": 23733248,
+      "step": 10980
+    },
+    {
+      "epoch": 1.792006525285481,
+      "grad_norm": 0.2228316068649292,
+      "learning_rate": 0.0008959216965742252,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 23744384,
+      "step": 10985
+    },
+    {
+      "epoch": 1.7928221859706364,
+      "grad_norm": 0.40756627917289734,
+      "learning_rate": 0.0008963295269168026,
+      "loss": 0.1965,
+      "num_input_tokens_seen": 23755040,
+      "step": 10990
+    },
+    {
+      "epoch": 1.7936378466557912,
+      "grad_norm": 0.30325761437416077,
+      "learning_rate": 0.0008967373572593801,
+      "loss": 0.1768,
+      "num_input_tokens_seen": 23766240,
+      "step": 10995
+    },
+    {
+      "epoch": 1.7944535073409462,
+      "grad_norm": 0.19416655600070953,
+      "learning_rate": 0.0008971451876019576,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 23777024,
+      "step": 11000
+    },
+    {
+      "epoch": 1.7952691680261013,
+      "grad_norm": 0.0678112730383873,
+      "learning_rate": 0.0008975530179445351,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 23789920,
+      "step": 11005
+    },
+    {
+      "epoch": 1.796084828711256,
+      "grad_norm": 0.2991323471069336,
+      "learning_rate": 0.0008979608482871126,
+      "loss": 0.1564,
+      "num_input_tokens_seen": 23801600,
+      "step": 11010
+    },
+    {
+      "epoch": 1.7969004893964111,
+      "grad_norm": 0.2331552803516388,
+      "learning_rate": 0.0008983686786296901,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 23812032,
+      "step": 11015
+    },
+    {
+      "epoch": 1.7977161500815662,
+      "grad_norm": 0.12368535250425339,
+      "learning_rate": 0.0008987765089722675,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 23822752,
+      "step": 11020
+    },
+    {
+      "epoch": 1.798531810766721,
+      "grad_norm": 0.2614479959011078,
+      "learning_rate": 0.000899184339314845,
+      "loss": 0.1571,
+      "num_input_tokens_seen": 23833024,
+      "step": 11025
+    },
+    {
+      "epoch": 1.799347471451876,
+      "grad_norm": 0.2386416345834732,
+      "learning_rate": 0.0008995921696574225,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 23843328,
+      "step": 11030
+    },
+    {
+      "epoch": 1.800163132137031,
+      "grad_norm": 0.04170841723680496,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 23853568,
+      "step": 11035
+    },
+    {
+      "epoch": 1.8009787928221859,
+      "grad_norm": 0.21823978424072266,
+      "learning_rate": 0.0009004078303425776,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 23864000,
+      "step": 11040
+    },
+    {
+      "epoch": 1.801794453507341,
+      "grad_norm": 0.1484844982624054,
+      "learning_rate": 0.0009008156606851549,
+      "loss": 0.1727,
+      "num_input_tokens_seen": 23875136,
+      "step": 11045
+    },
+    {
+      "epoch": 1.802610114192496,
+      "grad_norm": 0.09188838303089142,
+      "learning_rate": 0.0009012234910277325,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 23886784,
+      "step": 11050
+    },
+    {
+      "epoch": 1.8034257748776508,
+      "grad_norm": 0.06821305304765701,
+      "learning_rate": 0.00090163132137031,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 23897440,
+      "step": 11055
+    },
+    {
+      "epoch": 1.804241435562806,
+      "grad_norm": 0.08660285174846649,
+      "learning_rate": 0.0009020391517128875,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 23909248,
+      "step": 11060
+    },
+    {
+      "epoch": 1.8050570962479608,
+      "grad_norm": 0.10734372586011887,
+      "learning_rate": 0.0009024469820554649,
+      "loss": 0.075,
+      "num_input_tokens_seen": 23920224,
+      "step": 11065
+    },
+    {
+      "epoch": 1.8058727569331157,
+      "grad_norm": 0.009611149318516254,
+      "learning_rate": 0.0009028548123980424,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 23930048,
+      "step": 11070
+    },
+    {
+      "epoch": 1.806688417618271,
+      "grad_norm": 0.039050959050655365,
+      "learning_rate": 0.0009032626427406199,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 23940992,
+      "step": 11075
+    },
+    {
+      "epoch": 1.8075040783034257,
+      "grad_norm": 0.0733620673418045,
+      "learning_rate": 0.0009036704730831974,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 23952288,
+      "step": 11080
+    },
+    {
+      "epoch": 1.8083197389885808,
+      "grad_norm": 0.09018149226903915,
+      "learning_rate": 0.000904078303425775,
+      "loss": 0.085,
+      "num_input_tokens_seen": 23962848,
+      "step": 11085
+    },
+    {
+      "epoch": 1.8091353996737358,
+      "grad_norm": 0.005015532020479441,
+      "learning_rate": 0.0009044861337683524,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 23973504,
+      "step": 11090
+    },
+    {
+      "epoch": 1.8099510603588906,
+      "grad_norm": 0.11613103747367859,
+      "learning_rate": 0.0009048939641109298,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 23983840,
+      "step": 11095
+    },
+    {
+      "epoch": 1.8107667210440457,
+      "grad_norm": 0.14860443770885468,
+      "learning_rate": 0.0009053017944535074,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 23994720,
+      "step": 11100
+    },
+    {
+      "epoch": 1.8115823817292007,
+      "grad_norm": 0.6425272226333618,
+      "learning_rate": 0.0009057096247960849,
+      "loss": 0.277,
+      "num_input_tokens_seen": 24003488,
+      "step": 11105
+    },
+    {
+      "epoch": 1.8123980424143555,
+      "grad_norm": 0.22874023020267487,
+      "learning_rate": 0.0009061174551386622,
+      "loss": 0.19,
+      "num_input_tokens_seen": 24014336,
+      "step": 11110
+    },
+    {
+      "epoch": 1.8132137030995106,
+      "grad_norm": 0.15151821076869965,
+      "learning_rate": 0.0009065252854812398,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 24025600,
+      "step": 11115
+    },
+    {
+      "epoch": 1.8140293637846656,
+      "grad_norm": 0.11738032102584839,
+      "learning_rate": 0.0009069331158238173,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 24035392,
+      "step": 11120
+    },
+    {
+      "epoch": 1.8148450244698204,
+      "grad_norm": 0.6219301819801331,
+      "learning_rate": 0.0009073409461663949,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 24046080,
+      "step": 11125
+    },
+    {
+      "epoch": 1.8156606851549757,
+      "grad_norm": 0.08909933269023895,
+      "learning_rate": 0.0009077487765089722,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 24057536,
+      "step": 11130
+    },
+    {
+      "epoch": 1.8164763458401305,
+      "grad_norm": 0.04366849735379219,
+      "learning_rate": 0.0009081566068515497,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 24068736,
+      "step": 11135
+    },
+    {
+      "epoch": 1.8172920065252853,
+      "grad_norm": 0.11872971057891846,
+      "learning_rate": 0.0009085644371941273,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 24079360,
+      "step": 11140
+    },
+    {
+      "epoch": 1.8181076672104406,
+      "grad_norm": 0.3688180446624756,
+      "learning_rate": 0.0009089722675367047,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 24090656,
+      "step": 11145
+    },
+    {
+      "epoch": 1.8189233278955954,
+      "grad_norm": 0.01831037551164627,
+      "learning_rate": 0.0009093800978792823,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 24102336,
+      "step": 11150
+    },
+    {
+      "epoch": 1.8197389885807504,
+      "grad_norm": 0.0956871286034584,
+      "learning_rate": 0.0009097879282218597,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 24113120,
+      "step": 11155
+    },
+    {
+      "epoch": 1.8205546492659055,
+      "grad_norm": 0.04308653995394707,
+      "learning_rate": 0.0009101957585644372,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 24122688,
+      "step": 11160
+    },
+    {
+      "epoch": 1.8213703099510603,
+      "grad_norm": 0.21079613268375397,
+      "learning_rate": 0.0009106035889070147,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 24133984,
+      "step": 11165
+    },
+    {
+      "epoch": 1.8221859706362153,
+      "grad_norm": 0.01858745887875557,
+      "learning_rate": 0.0009110114192495922,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 24144928,
+      "step": 11170
+    },
+    {
+      "epoch": 1.8230016313213704,
+      "grad_norm": 0.0403125137090683,
+      "learning_rate": 0.0009114192495921697,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 24154240,
+      "step": 11175
+    },
+    {
+      "epoch": 1.8238172920065252,
+      "grad_norm": 0.027002638205885887,
+      "learning_rate": 0.0009118270799347471,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 24163584,
+      "step": 11180
+    },
+    {
+      "epoch": 1.8246329526916802,
+      "grad_norm": 0.042410269379615784,
+      "learning_rate": 0.0009122349102773246,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 24175136,
+      "step": 11185
+    },
+    {
+      "epoch": 1.8254486133768353,
+      "grad_norm": 0.12024813145399094,
+      "learning_rate": 0.0009126427406199022,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 24185856,
+      "step": 11190
+    },
+    {
+      "epoch": 1.82626427406199,
+      "grad_norm": 0.054859358817338943,
+      "learning_rate": 0.0009130505709624797,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 24197152,
+      "step": 11195
+    },
+    {
+      "epoch": 1.8270799347471451,
+      "grad_norm": 0.14947378635406494,
+      "learning_rate": 0.0009134584013050571,
+      "loss": 0.2348,
+      "num_input_tokens_seen": 24206720,
+      "step": 11200
+    },
+    {
+      "epoch": 1.8278955954323002,
+      "grad_norm": 0.01208100188523531,
+      "learning_rate": 0.0009138662316476346,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 24217696,
+      "step": 11205
+    },
+    {
+      "epoch": 1.828711256117455,
+      "grad_norm": 0.03552878648042679,
+      "learning_rate": 0.0009142740619902121,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 24229088,
+      "step": 11210
+    },
+    {
+      "epoch": 1.8295269168026103,
+      "grad_norm": 0.12704972922801971,
+      "learning_rate": 0.0009146818923327896,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 24240128,
+      "step": 11215
+    },
+    {
+      "epoch": 1.830342577487765,
+      "grad_norm": 0.049700263887643814,
+      "learning_rate": 0.000915089722675367,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 24251520,
+      "step": 11220
+    },
+    {
+      "epoch": 1.8311582381729201,
+      "grad_norm": 0.05248570069670677,
+      "learning_rate": 0.0009154975530179446,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 24262048,
+      "step": 11225
+    },
+    {
+      "epoch": 1.8319738988580752,
+      "grad_norm": 0.040520548820495605,
+      "learning_rate": 0.0009159053833605221,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 24272480,
+      "step": 11230
+    },
+    {
+      "epoch": 1.83278955954323,
+      "grad_norm": 0.123872309923172,
+      "learning_rate": 0.0009163132137030995,
+      "loss": 0.1531,
+      "num_input_tokens_seen": 24282848,
+      "step": 11235
+    },
+    {
+      "epoch": 1.833605220228385,
+      "grad_norm": 0.050551868975162506,
+      "learning_rate": 0.000916721044045677,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 24295072,
+      "step": 11240
+    },
+    {
+      "epoch": 1.83442088091354,
+      "grad_norm": 0.014776119962334633,
+      "learning_rate": 0.0009171288743882545,
+      "loss": 0.2557,
+      "num_input_tokens_seen": 24305920,
+      "step": 11245
+    },
+    {
+      "epoch": 1.8352365415986949,
+      "grad_norm": 0.08579311519861221,
+      "learning_rate": 0.0009175367047308319,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 24317056,
+      "step": 11250
+    },
+    {
+      "epoch": 1.83605220228385,
+      "grad_norm": 0.05025889351963997,
+      "learning_rate": 0.0009179445350734095,
+      "loss": 0.1928,
+      "num_input_tokens_seen": 24327488,
+      "step": 11255
+    },
+    {
+      "epoch": 1.836867862969005,
+      "grad_norm": 0.25533077120780945,
+      "learning_rate": 0.000918352365415987,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 24336896,
+      "step": 11260
+    },
+    {
+      "epoch": 1.8376835236541598,
+      "grad_norm": 0.14637209475040436,
+      "learning_rate": 0.0009187601957585645,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 24348864,
+      "step": 11265
+    },
+    {
+      "epoch": 1.8384991843393148,
+      "grad_norm": 0.02450774982571602,
+      "learning_rate": 0.0009191680261011419,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 24359520,
+      "step": 11270
+    },
+    {
+      "epoch": 1.8393148450244698,
+      "grad_norm": 0.1265328973531723,
+      "learning_rate": 0.0009195758564437194,
+      "loss": 0.128,
+      "num_input_tokens_seen": 24370304,
+      "step": 11275
+    },
+    {
+      "epoch": 1.8401305057096247,
+      "grad_norm": 0.06586892902851105,
+      "learning_rate": 0.000919983686786297,
+      "loss": 0.1629,
+      "num_input_tokens_seen": 24381312,
+      "step": 11280
+    },
+    {
+      "epoch": 1.84094616639478,
+      "grad_norm": 0.2524750530719757,
+      "learning_rate": 0.0009203915171288743,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 24391552,
+      "step": 11285
+    },
+    {
+      "epoch": 1.8417618270799347,
+      "grad_norm": 0.07396470755338669,
+      "learning_rate": 0.0009207993474714519,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 24402112,
+      "step": 11290
+    },
+    {
+      "epoch": 1.8425774877650896,
+      "grad_norm": 0.20884621143341064,
+      "learning_rate": 0.0009212071778140294,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 24413600,
+      "step": 11295
+    },
+    {
+      "epoch": 1.8433931484502448,
+      "grad_norm": 0.009276431985199451,
+      "learning_rate": 0.0009216150081566068,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 24423968,
+      "step": 11300
+    },
+    {
+      "epoch": 1.8442088091353996,
+      "grad_norm": 0.17926661670207977,
+      "learning_rate": 0.0009220228384991844,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 24434688,
+      "step": 11305
+    },
+    {
+      "epoch": 1.8450244698205547,
+      "grad_norm": 0.4188963770866394,
+      "learning_rate": 0.0009224306688417618,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 24444992,
+      "step": 11310
+    },
+    {
+      "epoch": 1.8458401305057097,
+      "grad_norm": 0.015882406383752823,
+      "learning_rate": 0.0009228384991843394,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 24456512,
+      "step": 11315
+    },
+    {
+      "epoch": 1.8466557911908645,
+      "grad_norm": 0.01852530613541603,
+      "learning_rate": 0.0009232463295269168,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 24467424,
+      "step": 11320
+    },
+    {
+      "epoch": 1.8474714518760196,
+      "grad_norm": 0.04548301175236702,
+      "learning_rate": 0.0009236541598694943,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 24478720,
+      "step": 11325
+    },
+    {
+      "epoch": 1.8482871125611746,
+      "grad_norm": 0.24560341238975525,
+      "learning_rate": 0.0009240619902120718,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 24489792,
+      "step": 11330
+    },
+    {
+      "epoch": 1.8491027732463294,
+      "grad_norm": 0.017956508323550224,
+      "learning_rate": 0.0009244698205546492,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 24501760,
+      "step": 11335
+    },
+    {
+      "epoch": 1.8499184339314845,
+      "grad_norm": 0.13720254600048065,
+      "learning_rate": 0.0009248776508972268,
+      "loss": 0.1975,
+      "num_input_tokens_seen": 24511584,
+      "step": 11340
+    },
+    {
+      "epoch": 1.8507340946166395,
+      "grad_norm": 0.03751807659864426,
+      "learning_rate": 0.0009252854812398043,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 24522432,
+      "step": 11345
+    },
+    {
+      "epoch": 1.8515497553017943,
+      "grad_norm": 0.310740202665329,
+      "learning_rate": 0.0009256933115823818,
+      "loss": 0.2647,
+      "num_input_tokens_seen": 24532544,
+      "step": 11350
+    },
+    {
+      "epoch": 1.8523654159869496,
+      "grad_norm": 0.13542063534259796,
+      "learning_rate": 0.0009261011419249592,
+      "loss": 0.1742,
+      "num_input_tokens_seen": 24543488,
+      "step": 11355
+    },
+    {
+      "epoch": 1.8531810766721044,
+      "grad_norm": 0.2352442741394043,
+      "learning_rate": 0.0009265089722675367,
+      "loss": 0.3112,
+      "num_input_tokens_seen": 24554080,
+      "step": 11360
+    },
+    {
+      "epoch": 1.8539967373572592,
+      "grad_norm": 0.08593737334012985,
+      "learning_rate": 0.0009269168026101143,
+      "loss": 0.081,
+      "num_input_tokens_seen": 24564992,
+      "step": 11365
+    },
+    {
+      "epoch": 1.8548123980424145,
+      "grad_norm": 0.07849381864070892,
+      "learning_rate": 0.0009273246329526917,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 24576608,
+      "step": 11370
+    },
+    {
+      "epoch": 1.8556280587275693,
+      "grad_norm": 0.0883590504527092,
+      "learning_rate": 0.0009277324632952691,
+      "loss": 0.134,
+      "num_input_tokens_seen": 24587872,
+      "step": 11375
+    },
+    {
+      "epoch": 1.8564437194127243,
+      "grad_norm": 0.037716735154390335,
+      "learning_rate": 0.0009281402936378467,
+      "loss": 0.1817,
+      "num_input_tokens_seen": 24599136,
+      "step": 11380
+    },
+    {
+      "epoch": 1.8572593800978794,
+      "grad_norm": 0.08465716242790222,
+      "learning_rate": 0.0009285481239804242,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 24610080,
+      "step": 11385
+    },
+    {
+      "epoch": 1.8580750407830342,
+      "grad_norm": 0.10003326833248138,
+      "learning_rate": 0.0009289559543230017,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 24621568,
+      "step": 11390
+    },
+    {
+      "epoch": 1.8588907014681892,
+      "grad_norm": 0.08781938254833221,
+      "learning_rate": 0.0009293637846655791,
+      "loss": 0.112,
+      "num_input_tokens_seen": 24632384,
+      "step": 11395
+    },
+    {
+      "epoch": 1.8597063621533443,
+      "grad_norm": 0.1371522694826126,
+      "learning_rate": 0.0009297716150081566,
+      "loss": 0.2002,
+      "num_input_tokens_seen": 24643648,
+      "step": 11400
+    },
+    {
+      "epoch": 1.860522022838499,
+      "grad_norm": 0.18471182882785797,
+      "learning_rate": 0.0009301794453507341,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 24655392,
+      "step": 11405
+    },
+    {
+      "epoch": 1.8613376835236541,
+      "grad_norm": 0.11153913289308548,
+      "learning_rate": 0.0009305872756933116,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 24666112,
+      "step": 11410
+    },
+    {
+      "epoch": 1.8621533442088092,
+      "grad_norm": 0.2752339243888855,
+      "learning_rate": 0.000930995106035889,
+      "loss": 0.3004,
+      "num_input_tokens_seen": 24677248,
+      "step": 11415
+    },
+    {
+      "epoch": 1.862969004893964,
+      "grad_norm": 0.11731915175914764,
+      "learning_rate": 0.0009314029363784666,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 24688192,
+      "step": 11420
+    },
+    {
+      "epoch": 1.863784665579119,
+      "grad_norm": 0.3206159770488739,
+      "learning_rate": 0.000931810766721044,
+      "loss": 0.1983,
+      "num_input_tokens_seen": 24699424,
+      "step": 11425
+    },
+    {
+      "epoch": 1.864600326264274,
+      "grad_norm": 0.19717612862586975,
+      "learning_rate": 0.0009322185970636216,
+      "loss": 0.2276,
+      "num_input_tokens_seen": 24709760,
+      "step": 11430
+    },
+    {
+      "epoch": 1.865415986949429,
+      "grad_norm": 0.06198367476463318,
+      "learning_rate": 0.0009326264274061991,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 24720064,
+      "step": 11435
+    },
+    {
+      "epoch": 1.8662316476345842,
+      "grad_norm": 0.14472417533397675,
+      "learning_rate": 0.0009330342577487764,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 24730912,
+      "step": 11440
+    },
+    {
+      "epoch": 1.867047308319739,
+      "grad_norm": 0.06060084328055382,
+      "learning_rate": 0.000933442088091354,
+      "loss": 0.045,
+      "num_input_tokens_seen": 24739808,
+      "step": 11445
+    },
+    {
+      "epoch": 1.867862969004894,
+      "grad_norm": 0.26887786388397217,
+      "learning_rate": 0.0009338499184339315,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 24750976,
+      "step": 11450
+    },
+    {
+      "epoch": 1.868678629690049,
+      "grad_norm": 0.07969934493303299,
+      "learning_rate": 0.0009342577487765091,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 24760672,
+      "step": 11455
+    },
+    {
+      "epoch": 1.8694942903752039,
+      "grad_norm": 0.025502964854240417,
+      "learning_rate": 0.0009346655791190864,
+      "loss": 0.083,
+      "num_input_tokens_seen": 24771968,
+      "step": 11460
+    },
+    {
+      "epoch": 1.870309951060359,
+      "grad_norm": 0.10868193954229355,
+      "learning_rate": 0.0009350734094616639,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 24783776,
+      "step": 11465
+    },
+    {
+      "epoch": 1.871125611745514,
+      "grad_norm": 0.03004133701324463,
+      "learning_rate": 0.0009354812398042415,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 24793472,
+      "step": 11470
+    },
+    {
+      "epoch": 1.8719412724306688,
+      "grad_norm": 0.12336234748363495,
+      "learning_rate": 0.0009358890701468189,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 24802912,
+      "step": 11475
+    },
+    {
+      "epoch": 1.8727569331158238,
+      "grad_norm": 0.07441865652799606,
+      "learning_rate": 0.0009362969004893965,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 24812416,
+      "step": 11480
+    },
+    {
+      "epoch": 1.8735725938009788,
+      "grad_norm": 0.08542287349700928,
+      "learning_rate": 0.0009367047308319739,
+      "loss": 0.2089,
+      "num_input_tokens_seen": 24823616,
+      "step": 11485
+    },
+    {
+      "epoch": 1.8743882544861337,
+      "grad_norm": 0.055280644446611404,
+      "learning_rate": 0.0009371125611745514,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 24834656,
+      "step": 11490
+    },
+    {
+      "epoch": 1.8752039151712887,
+      "grad_norm": 0.051045581698417664,
+      "learning_rate": 0.0009375203915171289,
+      "loss": 0.1889,
+      "num_input_tokens_seen": 24845600,
+      "step": 11495
+    },
+    {
+      "epoch": 1.8760195758564437,
+      "grad_norm": 0.1657111495733261,
+      "learning_rate": 0.0009379282218597064,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 24858208,
+      "step": 11500
+    },
+    {
+      "epoch": 1.8768352365415986,
+      "grad_norm": 0.2820875942707062,
+      "learning_rate": 0.000938336052202284,
+      "loss": 0.1677,
+      "num_input_tokens_seen": 24868416,
+      "step": 11505
+    },
+    {
+      "epoch": 1.8776508972267538,
+      "grad_norm": 0.07757575809955597,
+      "learning_rate": 0.0009387438825448613,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 24879616,
+      "step": 11510
+    },
+    {
+      "epoch": 1.8784665579119086,
+      "grad_norm": 0.0790976956486702,
+      "learning_rate": 0.0009391517128874388,
+      "loss": 0.09,
+      "num_input_tokens_seen": 24890336,
+      "step": 11515
+    },
+    {
+      "epoch": 1.8792822185970635,
+      "grad_norm": 0.2218760997056961,
+      "learning_rate": 0.0009395595432300164,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 24901760,
+      "step": 11520
+    },
+    {
+      "epoch": 1.8800978792822187,
+      "grad_norm": 0.03744116052985191,
+      "learning_rate": 0.0009399673735725939,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 24911520,
+      "step": 11525
+    },
+    {
+      "epoch": 1.8809135399673735,
+      "grad_norm": 0.16890190541744232,
+      "learning_rate": 0.0009403752039151713,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 24922016,
+      "step": 11530
+    },
+    {
+      "epoch": 1.8817292006525286,
+      "grad_norm": 0.031172795221209526,
+      "learning_rate": 0.0009407830342577488,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 24932832,
+      "step": 11535
+    },
+    {
+      "epoch": 1.8825448613376836,
+      "grad_norm": 0.03609168902039528,
+      "learning_rate": 0.0009411908646003263,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 24945632,
+      "step": 11540
+    },
+    {
+      "epoch": 1.8833605220228384,
+      "grad_norm": 0.4785745441913605,
+      "learning_rate": 0.0009415986949429038,
+      "loss": 0.3079,
+      "num_input_tokens_seen": 24954176,
+      "step": 11545
+    },
+    {
+      "epoch": 1.8841761827079935,
+      "grad_norm": 0.06320811808109283,
+      "learning_rate": 0.0009420065252854812,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 24964512,
+      "step": 11550
+    },
+    {
+      "epoch": 1.8849918433931485,
+      "grad_norm": 0.0489787794649601,
+      "learning_rate": 0.0009424143556280587,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 24976416,
+      "step": 11555
+    },
+    {
+      "epoch": 1.8858075040783033,
+      "grad_norm": 0.20213648676872253,
+      "learning_rate": 0.0009428221859706362,
+      "loss": 0.3237,
+      "num_input_tokens_seen": 24986656,
+      "step": 11560
+    },
+    {
+      "epoch": 1.8866231647634584,
+      "grad_norm": 0.14317026734352112,
+      "learning_rate": 0.0009432300163132137,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 24996384,
+      "step": 11565
+    },
+    {
+      "epoch": 1.8874388254486134,
+      "grad_norm": 0.04424556717276573,
+      "learning_rate": 0.0009436378466557913,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 25007808,
+      "step": 11570
+    },
+    {
+      "epoch": 1.8882544861337682,
+      "grad_norm": 0.08489039540290833,
+      "learning_rate": 0.0009440456769983687,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 25018816,
+      "step": 11575
+    },
+    {
+      "epoch": 1.8890701468189235,
+      "grad_norm": 0.30416834354400635,
+      "learning_rate": 0.0009444535073409461,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 25029472,
+      "step": 11580
+    },
+    {
+      "epoch": 1.8898858075040783,
+      "grad_norm": 0.031548064202070236,
+      "learning_rate": 0.0009448613376835237,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 25041280,
+      "step": 11585
+    },
+    {
+      "epoch": 1.8907014681892331,
+      "grad_norm": 0.05067252740263939,
+      "learning_rate": 0.0009452691680261012,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 25052256,
+      "step": 11590
+    },
+    {
+      "epoch": 1.8915171288743884,
+      "grad_norm": 0.18682821094989777,
+      "learning_rate": 0.0009456769983686786,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 25063328,
+      "step": 11595
+    },
+    {
+      "epoch": 1.8923327895595432,
+      "grad_norm": 0.04457815736532211,
+      "learning_rate": 0.0009460848287112561,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 25075296,
+      "step": 11600
+    },
+    {
+      "epoch": 1.8931484502446982,
+      "grad_norm": 0.09983167052268982,
+      "learning_rate": 0.0009464926590538336,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 25086144,
+      "step": 11605
+    },
+    {
+      "epoch": 1.8939641109298533,
+      "grad_norm": 0.19143344461917877,
+      "learning_rate": 0.0009469004893964112,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 25096736,
+      "step": 11610
+    },
+    {
+      "epoch": 1.894779771615008,
+      "grad_norm": 0.06157934293150902,
+      "learning_rate": 0.0009473083197389885,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 25107296,
+      "step": 11615
+    },
+    {
+      "epoch": 1.8955954323001631,
+      "grad_norm": 0.016641128808259964,
+      "learning_rate": 0.0009477161500815661,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 25118784,
+      "step": 11620
+    },
+    {
+      "epoch": 1.8964110929853182,
+      "grad_norm": 0.049104683101177216,
+      "learning_rate": 0.0009481239804241436,
+      "loss": 0.2264,
+      "num_input_tokens_seen": 25128448,
+      "step": 11625
+    },
+    {
+      "epoch": 1.897226753670473,
+      "grad_norm": 0.29125604033470154,
+      "learning_rate": 0.000948531810766721,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 25139040,
+      "step": 11630
+    },
+    {
+      "epoch": 1.898042414355628,
+      "grad_norm": 0.011295678094029427,
+      "learning_rate": 0.0009489396411092986,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 25149312,
+      "step": 11635
+    },
+    {
+      "epoch": 1.898858075040783,
+      "grad_norm": 0.27017614245414734,
+      "learning_rate": 0.000949347471451876,
+      "loss": 0.1949,
+      "num_input_tokens_seen": 25160544,
+      "step": 11640
+    },
+    {
+      "epoch": 1.899673735725938,
+      "grad_norm": 0.09900322556495667,
+      "learning_rate": 0.0009497553017944536,
+      "loss": 0.1791,
+      "num_input_tokens_seen": 25171168,
+      "step": 11645
+    },
+    {
+      "epoch": 1.900489396411093,
+      "grad_norm": 0.015560412779450417,
+      "learning_rate": 0.000950163132137031,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 25181920,
+      "step": 11650
+    },
+    {
+      "epoch": 1.901305057096248,
+      "grad_norm": 0.13649839162826538,
+      "learning_rate": 0.0009505709624796085,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 25192704,
+      "step": 11655
+    },
+    {
+      "epoch": 1.9021207177814028,
+      "grad_norm": 0.04336768016219139,
+      "learning_rate": 0.000950978792822186,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 25204544,
+      "step": 11660
+    },
+    {
+      "epoch": 1.902936378466558,
+      "grad_norm": 0.20540879666805267,
+      "learning_rate": 0.0009513866231647634,
+      "loss": 0.2157,
+      "num_input_tokens_seen": 25215488,
+      "step": 11665
+    },
+    {
+      "epoch": 1.9037520391517129,
+      "grad_norm": 0.31003397703170776,
+      "learning_rate": 0.000951794453507341,
+      "loss": 0.2263,
+      "num_input_tokens_seen": 25225824,
+      "step": 11670
+    },
+    {
+      "epoch": 1.904567699836868,
+      "grad_norm": 0.37362805008888245,
+      "learning_rate": 0.0009522022838499185,
+      "loss": 0.2027,
+      "num_input_tokens_seen": 25236096,
+      "step": 11675
+    },
+    {
+      "epoch": 1.905383360522023,
+      "grad_norm": 0.14676491916179657,
+      "learning_rate": 0.000952610114192496,
+      "loss": 0.219,
+      "num_input_tokens_seen": 25246656,
+      "step": 11680
+    },
+    {
+      "epoch": 1.9061990212071778,
+      "grad_norm": 0.2860686779022217,
+      "learning_rate": 0.0009530179445350734,
+      "loss": 0.2504,
+      "num_input_tokens_seen": 25258048,
+      "step": 11685
+    },
+    {
+      "epoch": 1.9070146818923328,
+      "grad_norm": 0.12542608380317688,
+      "learning_rate": 0.0009534257748776509,
+      "loss": 0.12,
+      "num_input_tokens_seen": 25269088,
+      "step": 11690
+    },
+    {
+      "epoch": 1.9078303425774878,
+      "grad_norm": 0.040885381400585175,
+      "learning_rate": 0.0009538336052202285,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 25280544,
+      "step": 11695
+    },
+    {
+      "epoch": 1.9086460032626427,
+      "grad_norm": 0.053815603256225586,
+      "learning_rate": 0.0009542414355628059,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 25288896,
+      "step": 11700
+    },
+    {
+      "epoch": 1.9094616639477977,
+      "grad_norm": 0.15390309691429138,
+      "learning_rate": 0.0009546492659053833,
+      "loss": 0.2707,
+      "num_input_tokens_seen": 25299200,
+      "step": 11705
+    },
+    {
+      "epoch": 1.9102773246329527,
+      "grad_norm": 0.046468086540699005,
+      "learning_rate": 0.0009550570962479609,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 25310240,
+      "step": 11710
+    },
+    {
+      "epoch": 1.9110929853181076,
+      "grad_norm": 0.11353089660406113,
+      "learning_rate": 0.0009554649265905384,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 25320992,
+      "step": 11715
+    },
+    {
+      "epoch": 1.9119086460032626,
+      "grad_norm": 0.04293264448642731,
+      "learning_rate": 0.0009558727569331158,
+      "loss": 0.0586,
+      "num_input_tokens_seen": 25333280,
+      "step": 11720
+    },
+    {
+      "epoch": 1.9127243066884176,
+      "grad_norm": 0.030097907409071922,
+      "learning_rate": 0.0009562805872756934,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 25344608,
+      "step": 11725
+    },
+    {
+      "epoch": 1.9135399673735725,
+      "grad_norm": 0.10203356295824051,
+      "learning_rate": 0.0009566884176182708,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 25355264,
+      "step": 11730
+    },
+    {
+      "epoch": 1.9143556280587277,
+      "grad_norm": 0.33191055059432983,
+      "learning_rate": 0.0009570962479608483,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 25365600,
+      "step": 11735
+    },
+    {
+      "epoch": 1.9151712887438825,
+      "grad_norm": 0.33127424120903015,
+      "learning_rate": 0.0009575040783034258,
+      "loss": 0.2759,
+      "num_input_tokens_seen": 25376416,
+      "step": 11740
+    },
+    {
+      "epoch": 1.9159869494290374,
+      "grad_norm": 0.2595071792602539,
+      "learning_rate": 0.0009579119086460033,
+      "loss": 0.2841,
+      "num_input_tokens_seen": 25387168,
+      "step": 11745
+    },
+    {
+      "epoch": 1.9168026101141926,
+      "grad_norm": 0.03523773327469826,
+      "learning_rate": 0.0009583197389885808,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 25399008,
+      "step": 11750
+    },
+    {
+      "epoch": 1.9176182707993474,
+      "grad_norm": 0.06833466142416,
+      "learning_rate": 0.0009587275693311582,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 25409952,
+      "step": 11755
+    },
+    {
+      "epoch": 1.9184339314845025,
+      "grad_norm": 0.10483044385910034,
+      "learning_rate": 0.0009591353996737358,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 25421984,
+      "step": 11760
+    },
+    {
+      "epoch": 1.9192495921696575,
+      "grad_norm": 0.04970962181687355,
+      "learning_rate": 0.0009595432300163133,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 25432416,
+      "step": 11765
+    },
+    {
+      "epoch": 1.9200652528548123,
+      "grad_norm": 0.16871914267539978,
+      "learning_rate": 0.0009599510603588906,
+      "loss": 0.3064,
+      "num_input_tokens_seen": 25444192,
+      "step": 11770
+    },
+    {
+      "epoch": 1.9208809135399674,
+      "grad_norm": 0.03458542376756668,
+      "learning_rate": 0.0009603588907014682,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 25455104,
+      "step": 11775
+    },
+    {
+      "epoch": 1.9216965742251224,
+      "grad_norm": 0.04260988160967827,
+      "learning_rate": 0.0009607667210440457,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 25465856,
+      "step": 11780
+    },
+    {
+      "epoch": 1.9225122349102772,
+      "grad_norm": 0.05124415084719658,
+      "learning_rate": 0.0009611745513866232,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 25476000,
+      "step": 11785
+    },
+    {
+      "epoch": 1.9233278955954323,
+      "grad_norm": 0.07688180357217789,
+      "learning_rate": 0.0009615823817292007,
+      "loss": 0.08,
+      "num_input_tokens_seen": 25488160,
+      "step": 11790
+    },
+    {
+      "epoch": 1.9241435562805873,
+      "grad_norm": 0.11089295148849487,
+      "learning_rate": 0.0009619902120717781,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 25499328,
+      "step": 11795
+    },
+    {
+      "epoch": 1.9249592169657421,
+      "grad_norm": 0.04999072477221489,
+      "learning_rate": 0.0009623980424143557,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 25510592,
+      "step": 11800
+    },
+    {
+      "epoch": 1.9257748776508974,
+      "grad_norm": 0.06794946640729904,
+      "learning_rate": 0.0009628058727569331,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 25521184,
+      "step": 11805
+    },
+    {
+      "epoch": 1.9265905383360522,
+      "grad_norm": 0.21613682806491852,
+      "learning_rate": 0.0009632137030995107,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 25532608,
+      "step": 11810
+    },
+    {
+      "epoch": 1.927406199021207,
+      "grad_norm": 0.034385792911052704,
+      "learning_rate": 0.0009636215334420881,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 25543936,
+      "step": 11815
+    },
+    {
+      "epoch": 1.9282218597063623,
+      "grad_norm": 0.19377191364765167,
+      "learning_rate": 0.0009640293637846655,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 25555104,
+      "step": 11820
+    },
+    {
+      "epoch": 1.929037520391517,
+      "grad_norm": 0.16980724036693573,
+      "learning_rate": 0.0009644371941272431,
+      "loss": 0.061,
+      "num_input_tokens_seen": 25565472,
+      "step": 11825
+    },
+    {
+      "epoch": 1.9298531810766721,
+      "grad_norm": 0.014253470115363598,
+      "learning_rate": 0.0009648450244698206,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 25576832,
+      "step": 11830
+    },
+    {
+      "epoch": 1.9306688417618272,
+      "grad_norm": 0.03056260570883751,
+      "learning_rate": 0.0009652528548123982,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 25588256,
+      "step": 11835
+    },
+    {
+      "epoch": 1.931484502446982,
+      "grad_norm": 0.2445419281721115,
+      "learning_rate": 0.0009656606851549755,
+      "loss": 0.274,
+      "num_input_tokens_seen": 25599072,
+      "step": 11840
+    },
+    {
+      "epoch": 1.932300163132137,
+      "grad_norm": 0.4470367729663849,
+      "learning_rate": 0.000966068515497553,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 25609696,
+      "step": 11845
+    },
+    {
+      "epoch": 1.933115823817292,
+      "grad_norm": 0.03975436091423035,
+      "learning_rate": 0.0009664763458401306,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 25621984,
+      "step": 11850
+    },
+    {
+      "epoch": 1.933931484502447,
+      "grad_norm": 0.035750702023506165,
+      "learning_rate": 0.000966884176182708,
+      "loss": 0.1447,
+      "num_input_tokens_seen": 25633024,
+      "step": 11855
+    },
+    {
+      "epoch": 1.934747145187602,
+      "grad_norm": 0.05805574357509613,
+      "learning_rate": 0.0009672920065252854,
+      "loss": 0.278,
+      "num_input_tokens_seen": 25644320,
+      "step": 11860
+    },
+    {
+      "epoch": 1.935562805872757,
+      "grad_norm": 0.246421679854393,
+      "learning_rate": 0.000967699836867863,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 25655456,
+      "step": 11865
+    },
+    {
+      "epoch": 1.9363784665579118,
+      "grad_norm": 0.1580600142478943,
+      "learning_rate": 0.0009681076672104405,
+      "loss": 0.1623,
+      "num_input_tokens_seen": 25666592,
+      "step": 11870
+    },
+    {
+      "epoch": 1.9371941272430668,
+      "grad_norm": 0.14604364335536957,
+      "learning_rate": 0.000968515497553018,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 25676800,
+      "step": 11875
+    },
+    {
+      "epoch": 1.9380097879282219,
+      "grad_norm": 0.10736247897148132,
+      "learning_rate": 0.0009689233278955954,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 25686560,
+      "step": 11880
+    },
+    {
+      "epoch": 1.9388254486133767,
+      "grad_norm": 0.15189337730407715,
+      "learning_rate": 0.0009693311582381729,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 25697120,
+      "step": 11885
+    },
+    {
+      "epoch": 1.939641109298532,
+      "grad_norm": 0.06999967247247696,
+      "learning_rate": 0.0009697389885807504,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 25708736,
+      "step": 11890
+    },
+    {
+      "epoch": 1.9404567699836868,
+      "grad_norm": 0.06257314234972,
+      "learning_rate": 0.0009701468189233279,
+      "loss": 0.1763,
+      "num_input_tokens_seen": 25720064,
+      "step": 11895
+    },
+    {
+      "epoch": 1.9412724306688418,
+      "grad_norm": 0.23246027529239655,
+      "learning_rate": 0.0009705546492659055,
+      "loss": 0.2333,
+      "num_input_tokens_seen": 25731616,
+      "step": 11900
+    },
+    {
+      "epoch": 1.9420880913539968,
+      "grad_norm": 0.2732833921909332,
+      "learning_rate": 0.0009709624796084829,
+      "loss": 0.1856,
+      "num_input_tokens_seen": 25743072,
+      "step": 11905
+    },
+    {
+      "epoch": 1.9429037520391517,
+      "grad_norm": 0.054060909897089005,
+      "learning_rate": 0.0009713703099510603,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 25753920,
+      "step": 11910
+    },
+    {
+      "epoch": 1.9437194127243067,
+      "grad_norm": 0.10430661588907242,
+      "learning_rate": 0.0009717781402936379,
+      "loss": 0.087,
+      "num_input_tokens_seen": 25764640,
+      "step": 11915
+    },
+    {
+      "epoch": 1.9445350734094617,
+      "grad_norm": 0.030959485098719597,
+      "learning_rate": 0.0009721859706362154,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 25777152,
+      "step": 11920
+    },
+    {
+      "epoch": 1.9453507340946166,
+      "grad_norm": 0.03141267970204353,
+      "learning_rate": 0.0009725938009787928,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 25787040,
+      "step": 11925
+    },
+    {
+      "epoch": 1.9461663947797716,
+      "grad_norm": 0.1135735735297203,
+      "learning_rate": 0.0009730016313213703,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 25796544,
+      "step": 11930
+    },
+    {
+      "epoch": 1.9469820554649266,
+      "grad_norm": 0.1543119102716446,
+      "learning_rate": 0.0009734094616639478,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 25807392,
+      "step": 11935
+    },
+    {
+      "epoch": 1.9477977161500815,
+      "grad_norm": 0.008437680080533028,
+      "learning_rate": 0.0009738172920065254,
+      "loss": 0.06,
+      "num_input_tokens_seen": 25817952,
+      "step": 11940
+    },
+    {
+      "epoch": 1.9486133768352365,
+      "grad_norm": 0.0668170228600502,
+      "learning_rate": 0.0009742251223491027,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 25829568,
+      "step": 11945
+    },
+    {
+      "epoch": 1.9494290375203915,
+      "grad_norm": 0.10054466128349304,
+      "learning_rate": 0.0009746329526916803,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 25840160,
+      "step": 11950
+    },
+    {
+      "epoch": 1.9502446982055464,
+      "grad_norm": 0.16265834867954254,
+      "learning_rate": 0.0009750407830342578,
+      "loss": 0.2625,
+      "num_input_tokens_seen": 25850816,
+      "step": 11955
+    },
+    {
+      "epoch": 1.9510603588907016,
+      "grad_norm": 0.32785764336586,
+      "learning_rate": 0.0009754486133768352,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 25862400,
+      "step": 11960
+    },
+    {
+      "epoch": 1.9518760195758564,
+      "grad_norm": 0.06142808124423027,
+      "learning_rate": 0.0009758564437194128,
+      "loss": 0.203,
+      "num_input_tokens_seen": 25872096,
+      "step": 11965
+    },
+    {
+      "epoch": 1.9526916802610113,
+      "grad_norm": 0.04707051441073418,
+      "learning_rate": 0.0009762642740619902,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 25884000,
+      "step": 11970
+    },
+    {
+      "epoch": 1.9535073409461665,
+      "grad_norm": 0.03933320939540863,
+      "learning_rate": 0.0009766721044045677,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 25895776,
+      "step": 11975
+    },
+    {
+      "epoch": 1.9543230016313213,
+      "grad_norm": 0.2816435992717743,
+      "learning_rate": 0.0009770799347471452,
+      "loss": 0.2767,
+      "num_input_tokens_seen": 25906624,
+      "step": 11980
+    },
+    {
+      "epoch": 1.9551386623164764,
+      "grad_norm": 0.2596624791622162,
+      "learning_rate": 0.0009774877650897227,
+      "loss": 0.1901,
+      "num_input_tokens_seen": 25918592,
+      "step": 11985
+    },
+    {
+      "epoch": 1.9559543230016314,
+      "grad_norm": 0.12683138251304626,
+      "learning_rate": 0.0009778955954323001,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 25929056,
+      "step": 11990
+    },
+    {
+      "epoch": 1.9567699836867862,
+      "grad_norm": 0.106838159263134,
+      "learning_rate": 0.0009783034257748776,
+      "loss": 0.1512,
+      "num_input_tokens_seen": 25938912,
+      "step": 11995
+    },
+    {
+      "epoch": 1.9575856443719413,
+      "grad_norm": 0.17070820927619934,
+      "learning_rate": 0.000978711256117455,
+      "loss": 0.1901,
+      "num_input_tokens_seen": 25948192,
+      "step": 12000
+    },
+    {
+      "epoch": 1.9584013050570963,
+      "grad_norm": 0.19078631699085236,
+      "learning_rate": 0.0009791190864600326,
+      "loss": 0.224,
+      "num_input_tokens_seen": 25959552,
+      "step": 12005
+    },
+    {
+      "epoch": 1.9592169657422511,
+      "grad_norm": 0.04365871846675873,
+      "learning_rate": 0.00097952691680261,
+      "loss": 0.2889,
+      "num_input_tokens_seen": 25971232,
+      "step": 12010
+    },
+    {
+      "epoch": 1.9600326264274062,
+      "grad_norm": 0.06310081481933594,
+      "learning_rate": 0.0009799347471451875,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 25982080,
+      "step": 12015
+    },
+    {
+      "epoch": 1.9608482871125612,
+      "grad_norm": 0.09681393951177597,
+      "learning_rate": 0.0009803425774877652,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 25993824,
+      "step": 12020
+    },
+    {
+      "epoch": 1.961663947797716,
+      "grad_norm": 0.06323209404945374,
+      "learning_rate": 0.0009807504078303427,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 26004512,
+      "step": 12025
+    },
+    {
+      "epoch": 1.9624796084828713,
+      "grad_norm": 0.10774081945419312,
+      "learning_rate": 0.00098115823817292,
+      "loss": 0.2355,
+      "num_input_tokens_seen": 26016064,
+      "step": 12030
+    },
+    {
+      "epoch": 1.963295269168026,
+      "grad_norm": 0.0556272454559803,
+      "learning_rate": 0.0009815660685154977,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 26027392,
+      "step": 12035
+    },
+    {
+      "epoch": 1.964110929853181,
+      "grad_norm": 0.007031048182398081,
+      "learning_rate": 0.0009819738988580751,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 26038112,
+      "step": 12040
+    },
+    {
+      "epoch": 1.9649265905383362,
+      "grad_norm": 0.24994535744190216,
+      "learning_rate": 0.0009823817292006526,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 26049792,
+      "step": 12045
+    },
+    {
+      "epoch": 1.965742251223491,
+      "grad_norm": 0.007116135209798813,
+      "learning_rate": 0.00098278955954323,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 26060352,
+      "step": 12050
+    },
+    {
+      "epoch": 1.966557911908646,
+      "grad_norm": 0.13843262195587158,
+      "learning_rate": 0.0009831973898858076,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 26071520,
+      "step": 12055
+    },
+    {
+      "epoch": 1.967373572593801,
+      "grad_norm": 0.047937799245119095,
+      "learning_rate": 0.000983605220228385,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 26082976,
+      "step": 12060
+    },
+    {
+      "epoch": 1.968189233278956,
+      "grad_norm": 0.21617697179317474,
+      "learning_rate": 0.0009840130505709625,
+      "loss": 0.1505,
+      "num_input_tokens_seen": 26092960,
+      "step": 12065
+    },
+    {
+      "epoch": 1.969004893964111,
+      "grad_norm": 0.1679522842168808,
+      "learning_rate": 0.00098442088091354,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 26103776,
+      "step": 12070
+    },
+    {
+      "epoch": 1.969820554649266,
+      "grad_norm": 0.09036083519458771,
+      "learning_rate": 0.0009848287112561175,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 26115040,
+      "step": 12075
+    },
+    {
+      "epoch": 1.9706362153344208,
+      "grad_norm": 0.03721405193209648,
+      "learning_rate": 0.000985236541598695,
+      "loss": 0.2005,
+      "num_input_tokens_seen": 26125952,
+      "step": 12080
+    },
+    {
+      "epoch": 1.9714518760195758,
+      "grad_norm": 0.040085360407829285,
+      "learning_rate": 0.0009856443719412724,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 26136512,
+      "step": 12085
+    },
+    {
+      "epoch": 1.9722675367047309,
+      "grad_norm": 0.16589096188545227,
+      "learning_rate": 0.00098605220228385,
+      "loss": 0.2404,
+      "num_input_tokens_seen": 26146944,
+      "step": 12090
+    },
+    {
+      "epoch": 1.9730831973898857,
+      "grad_norm": 0.11659594625234604,
+      "learning_rate": 0.0009864600326264274,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 26157920,
+      "step": 12095
+    },
+    {
+      "epoch": 1.9738988580750407,
+      "grad_norm": 0.16950438916683197,
+      "learning_rate": 0.0009868678629690048,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 26168864,
+      "step": 12100
+    },
+    {
+      "epoch": 1.9747145187601958,
+      "grad_norm": 0.09831640124320984,
+      "learning_rate": 0.0009872756933115823,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 26179968,
+      "step": 12105
+    },
+    {
+      "epoch": 1.9755301794453506,
+      "grad_norm": 0.21385249495506287,
+      "learning_rate": 0.00098768352365416,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 26192096,
+      "step": 12110
+    },
+    {
+      "epoch": 1.9763458401305058,
+      "grad_norm": 0.0602976493537426,
+      "learning_rate": 0.0009880913539967373,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 26202400,
+      "step": 12115
+    },
+    {
+      "epoch": 1.9771615008156607,
+      "grad_norm": 0.2599957287311554,
+      "learning_rate": 0.0009884991843393148,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 26212608,
+      "step": 12120
+    },
+    {
+      "epoch": 1.9779771615008157,
+      "grad_norm": 0.04638943821191788,
+      "learning_rate": 0.0009889070146818924,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 26222912,
+      "step": 12125
+    },
+    {
+      "epoch": 1.9787928221859707,
+      "grad_norm": 0.4077025353908539,
+      "learning_rate": 0.00098931484502447,
+      "loss": 0.2744,
+      "num_input_tokens_seen": 26233856,
+      "step": 12130
+    },
+    {
+      "epoch": 1.9796084828711256,
+      "grad_norm": 0.18510301411151886,
+      "learning_rate": 0.0009897226753670474,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 26242976,
+      "step": 12135
+    },
+    {
+      "epoch": 1.9804241435562806,
+      "grad_norm": 0.04004143178462982,
+      "learning_rate": 0.0009901305057096249,
+      "loss": 0.2139,
+      "num_input_tokens_seen": 26253600,
+      "step": 12140
+    },
+    {
+      "epoch": 1.9812398042414356,
+      "grad_norm": 0.16456164419651031,
+      "learning_rate": 0.0009905383360522024,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 26263296,
+      "step": 12145
+    },
+    {
+      "epoch": 1.9820554649265905,
+      "grad_norm": 0.05468539148569107,
+      "learning_rate": 0.0009909461663947798,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 26274656,
+      "step": 12150
+    },
+    {
+      "epoch": 1.9828711256117455,
+      "grad_norm": 0.11041852831840515,
+      "learning_rate": 0.0009913539967373573,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 26286368,
+      "step": 12155
+    },
+    {
+      "epoch": 1.9836867862969005,
+      "grad_norm": 0.1570504903793335,
+      "learning_rate": 0.0009917618270799348,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 26297792,
+      "step": 12160
+    },
+    {
+      "epoch": 1.9845024469820554,
+      "grad_norm": 0.02780609205365181,
+      "learning_rate": 0.0009921696574225123,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 26309024,
+      "step": 12165
+    },
+    {
+      "epoch": 1.9853181076672104,
+      "grad_norm": 0.0053548384457826614,
+      "learning_rate": 0.0009925774877650897,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 26319360,
+      "step": 12170
+    },
+    {
+      "epoch": 1.9861337683523654,
+      "grad_norm": 0.20225311815738678,
+      "learning_rate": 0.0009929853181076672,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 26328256,
+      "step": 12175
+    },
+    {
+      "epoch": 1.9869494290375203,
+      "grad_norm": 0.02028091996908188,
+      "learning_rate": 0.0009933931484502447,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 26339648,
+      "step": 12180
+    },
+    {
+      "epoch": 1.9877650897226755,
+      "grad_norm": 0.475198894739151,
+      "learning_rate": 0.0009938009787928222,
+      "loss": 0.1998,
+      "num_input_tokens_seen": 26350528,
+      "step": 12185
+    },
+    {
+      "epoch": 1.9885807504078303,
+      "grad_norm": 0.10536182671785355,
+      "learning_rate": 0.0009942088091353996,
+      "loss": 0.1896,
+      "num_input_tokens_seen": 26361568,
+      "step": 12190
+    },
+    {
+      "epoch": 1.9893964110929854,
+      "grad_norm": 0.06540945172309875,
+      "learning_rate": 0.0009946166394779771,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 26372832,
+      "step": 12195
+    },
+    {
+      "epoch": 1.9902120717781404,
+      "grad_norm": 0.010280012153089046,
+      "learning_rate": 0.0009950244698205548,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 26384000,
+      "step": 12200
+    },
+    {
+      "epoch": 1.9910277324632952,
+      "grad_norm": 0.2649214267730713,
+      "learning_rate": 0.000995432300163132,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 26395008,
+      "step": 12205
+    },
+    {
+      "epoch": 1.9918433931484503,
+      "grad_norm": 0.05911831930279732,
+      "learning_rate": 0.0009958401305057095,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 26406304,
+      "step": 12210
+    },
+    {
+      "epoch": 1.9926590538336053,
+      "grad_norm": 0.2364213466644287,
+      "learning_rate": 0.0009962479608482872,
+      "loss": 0.164,
+      "num_input_tokens_seen": 26416576,
+      "step": 12215
+    },
+    {
+      "epoch": 1.9934747145187601,
+      "grad_norm": 0.07283175736665726,
+      "learning_rate": 0.0009966557911908645,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 26426784,
+      "step": 12220
+    },
+    {
+      "epoch": 1.9942903752039152,
+      "grad_norm": 0.1471281498670578,
+      "learning_rate": 0.0009970636215334422,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 26436512,
+      "step": 12225
+    },
+    {
+      "epoch": 1.9951060358890702,
+      "grad_norm": 0.0576576367020607,
+      "learning_rate": 0.0009974714518760197,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 26446880,
+      "step": 12230
+    },
+    {
+      "epoch": 1.995921696574225,
+      "grad_norm": 0.016541773453354836,
+      "learning_rate": 0.0009978792822185971,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 26457984,
+      "step": 12235
+    },
+    {
+      "epoch": 1.99673735725938,
+      "grad_norm": 0.26312413811683655,
+      "learning_rate": 0.0009982871125611746,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 26469440,
+      "step": 12240
+    },
+    {
+      "epoch": 1.997553017944535,
+      "grad_norm": 0.027293941006064415,
+      "learning_rate": 0.000998694942903752,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 26479648,
+      "step": 12245
+    },
+    {
+      "epoch": 1.99836867862969,
+      "grad_norm": 0.1137554869055748,
+      "learning_rate": 0.0009991027732463296,
+      "loss": 0.1678,
+      "num_input_tokens_seen": 26489920,
+      "step": 12250
+    },
+    {
+      "epoch": 1.9991843393148452,
+      "grad_norm": 0.05962604284286499,
+      "learning_rate": 0.000999510603588907,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 26501248,
+      "step": 12255
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.03831448405981064,
+      "learning_rate": 0.0009999184339314845,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 26510112,
+      "step": 12260
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.13076965510845184,
+      "eval_runtime": 103.3641,
+      "eval_samples_per_second": 26.363,
+      "eval_steps_per_second": 6.598,
+      "num_input_tokens_seen": 26510112,
+      "step": 12260
+    },
+    {
+      "epoch": 2.000815660685155,
+      "grad_norm": 0.02669798582792282,
+      "learning_rate": 0.000999999996757397,
+      "loss": 0.0441,
+      "num_input_tokens_seen": 26521088,
+      "step": 12265
+    },
+    {
+      "epoch": 2.00163132137031,
+      "grad_norm": 0.09440121054649353,
+      "learning_rate": 0.0009999999835843226,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 26530976,
+      "step": 12270
+    },
+    {
+      "epoch": 2.002446982055465,
+      "grad_norm": 0.013201319612562656,
+      "learning_rate": 0.000999999960278114,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 26541536,
+      "step": 12275
+    },
+    {
+      "epoch": 2.0032626427406197,
+      "grad_norm": 0.3132156729698181,
+      "learning_rate": 0.000999999926838772,
+      "loss": 0.24,
+      "num_input_tokens_seen": 26551776,
+      "step": 12280
+    },
+    {
+      "epoch": 2.004078303425775,
+      "grad_norm": 0.3435702621936798,
+      "learning_rate": 0.0009999998832662972,
+      "loss": 0.2266,
+      "num_input_tokens_seen": 26562528,
+      "step": 12285
+    },
+    {
+      "epoch": 2.00489396411093,
+      "grad_norm": 0.07973910868167877,
+      "learning_rate": 0.0009999998295606907,
+      "loss": 0.1712,
+      "num_input_tokens_seen": 26572480,
+      "step": 12290
+    },
+    {
+      "epoch": 2.0057096247960846,
+      "grad_norm": 0.09572141617536545,
+      "learning_rate": 0.000999999765721953,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 26582400,
+      "step": 12295
+    },
+    {
+      "epoch": 2.00652528548124,
+      "grad_norm": 0.10497356951236725,
+      "learning_rate": 0.000999999691750086,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 26593248,
+      "step": 12300
+    },
+    {
+      "epoch": 2.0073409461663947,
+      "grad_norm": 0.021210532635450363,
+      "learning_rate": 0.0009999996076450908,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 26603616,
+      "step": 12305
+    },
+    {
+      "epoch": 2.00815660685155,
+      "grad_norm": 0.08911927789449692,
+      "learning_rate": 0.0009999995134069692,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 26614560,
+      "step": 12310
+    },
+    {
+      "epoch": 2.0089722675367048,
+      "grad_norm": 0.043773408979177475,
+      "learning_rate": 0.0009999994090357234,
+      "loss": 0.281,
+      "num_input_tokens_seen": 26624672,
+      "step": 12315
+    },
+    {
+      "epoch": 2.0097879282218596,
+      "grad_norm": 0.12832224369049072,
+      "learning_rate": 0.0009999992945313551,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 26635552,
+      "step": 12320
+    },
+    {
+      "epoch": 2.010603588907015,
+      "grad_norm": 0.078923799097538,
+      "learning_rate": 0.0009999991698938669,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 26645984,
+      "step": 12325
+    },
+    {
+      "epoch": 2.0114192495921697,
+      "grad_norm": 0.13948754966259003,
+      "learning_rate": 0.000999999035123261,
+      "loss": 0.2246,
+      "num_input_tokens_seen": 26656192,
+      "step": 12330
+    },
+    {
+      "epoch": 2.0122349102773245,
+      "grad_norm": 0.06741499155759811,
+      "learning_rate": 0.0009999988902195407,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 26667200,
+      "step": 12335
+    },
+    {
+      "epoch": 2.0130505709624797,
+      "grad_norm": 0.21579128503799438,
+      "learning_rate": 0.0009999987351827085,
+      "loss": 0.2156,
+      "num_input_tokens_seen": 26678080,
+      "step": 12340
+    },
+    {
+      "epoch": 2.0138662316476346,
+      "grad_norm": 0.045807160437107086,
+      "learning_rate": 0.0009999985700127674,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 26690272,
+      "step": 12345
+    },
+    {
+      "epoch": 2.0146818923327894,
+      "grad_norm": 0.06333373486995697,
+      "learning_rate": 0.0009999983947097213,
+      "loss": 0.104,
+      "num_input_tokens_seen": 26701408,
+      "step": 12350
+    },
+    {
+      "epoch": 2.0154975530179446,
+      "grad_norm": 0.16630201041698456,
+      "learning_rate": 0.0009999982092735733,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 26711680,
+      "step": 12355
+    },
+    {
+      "epoch": 2.0163132137030995,
+      "grad_norm": 0.1822613775730133,
+      "learning_rate": 0.0009999980137043274,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 26722336,
+      "step": 12360
+    },
+    {
+      "epoch": 2.0171288743882543,
+      "grad_norm": 0.073283351957798,
+      "learning_rate": 0.0009999978080019872,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 26732832,
+      "step": 12365
+    },
+    {
+      "epoch": 2.0179445350734095,
+      "grad_norm": 0.37038156390190125,
+      "learning_rate": 0.0009999975921665574,
+      "loss": 0.2476,
+      "num_input_tokens_seen": 26744608,
+      "step": 12370
+    },
+    {
+      "epoch": 2.0187601957585644,
+      "grad_norm": 0.020198166370391846,
+      "learning_rate": 0.000999997366198042,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 26755776,
+      "step": 12375
+    },
+    {
+      "epoch": 2.0195758564437196,
+      "grad_norm": 0.0995674729347229,
+      "learning_rate": 0.0009999971300964456,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 26765472,
+      "step": 12380
+    },
+    {
+      "epoch": 2.0203915171288744,
+      "grad_norm": 0.0052305120043456554,
+      "learning_rate": 0.0009999968838617732,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 26776224,
+      "step": 12385
+    },
+    {
+      "epoch": 2.0212071778140293,
+      "grad_norm": 0.12994590401649475,
+      "learning_rate": 0.0009999966274940296,
+      "loss": 0.2399,
+      "num_input_tokens_seen": 26787520,
+      "step": 12390
+    },
+    {
+      "epoch": 2.0220228384991845,
+      "grad_norm": 0.019414570182561874,
+      "learning_rate": 0.00099999636099322,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 26798048,
+      "step": 12395
+    },
+    {
+      "epoch": 2.0228384991843393,
+      "grad_norm": 0.2989323139190674,
+      "learning_rate": 0.0009999960843593498,
+      "loss": 0.2631,
+      "num_input_tokens_seen": 26808064,
+      "step": 12400
+    },
+    {
+      "epoch": 2.023654159869494,
+      "grad_norm": 0.03400423377752304,
+      "learning_rate": 0.0009999957975924249,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 26818304,
+      "step": 12405
+    },
+    {
+      "epoch": 2.0244698205546494,
+      "grad_norm": 0.03117789700627327,
+      "learning_rate": 0.0009999955006924507,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 26829632,
+      "step": 12410
+    },
+    {
+      "epoch": 2.0252854812398042,
+      "grad_norm": 0.01920362561941147,
+      "learning_rate": 0.0009999951936594334,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 26839264,
+      "step": 12415
+    },
+    {
+      "epoch": 2.026101141924959,
+      "grad_norm": 0.1514592468738556,
+      "learning_rate": 0.0009999948764933793,
+      "loss": 0.1578,
+      "num_input_tokens_seen": 26850688,
+      "step": 12420
+    },
+    {
+      "epoch": 2.0269168026101143,
+      "grad_norm": 0.023600779473781586,
+      "learning_rate": 0.0009999945491942946,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 26861376,
+      "step": 12425
+    },
+    {
+      "epoch": 2.027732463295269,
+      "grad_norm": 0.14419586956501007,
+      "learning_rate": 0.0009999942117621863,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 26872288,
+      "step": 12430
+    },
+    {
+      "epoch": 2.028548123980424,
+      "grad_norm": 0.04900144413113594,
+      "learning_rate": 0.0009999938641970607,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 26883360,
+      "step": 12435
+    },
+    {
+      "epoch": 2.029363784665579,
+      "grad_norm": 0.10072429478168488,
+      "learning_rate": 0.0009999935064989255,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 26894816,
+      "step": 12440
+    },
+    {
+      "epoch": 2.030179445350734,
+      "grad_norm": 0.024320529773831367,
+      "learning_rate": 0.0009999931386677873,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 26905344,
+      "step": 12445
+    },
+    {
+      "epoch": 2.0309951060358893,
+      "grad_norm": 0.15190035104751587,
+      "learning_rate": 0.000999992760703654,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 26916960,
+      "step": 12450
+    },
+    {
+      "epoch": 2.031810766721044,
+      "grad_norm": 0.1964467167854309,
+      "learning_rate": 0.000999992372606533,
+      "loss": 0.1,
+      "num_input_tokens_seen": 26926304,
+      "step": 12455
+    },
+    {
+      "epoch": 2.032626427406199,
+      "grad_norm": 0.12315433472394943,
+      "learning_rate": 0.0009999919743764324,
+      "loss": 0.2653,
+      "num_input_tokens_seen": 26935776,
+      "step": 12460
+    },
+    {
+      "epoch": 2.033442088091354,
+      "grad_norm": 0.18422943353652954,
+      "learning_rate": 0.00099999156601336,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 26945792,
+      "step": 12465
+    },
+    {
+      "epoch": 2.034257748776509,
+      "grad_norm": 0.296763151884079,
+      "learning_rate": 0.0009999911475173245,
+      "loss": 0.15,
+      "num_input_tokens_seen": 26958336,
+      "step": 12470
+    },
+    {
+      "epoch": 2.035073409461664,
+      "grad_norm": 0.16706916689872742,
+      "learning_rate": 0.000999990718888334,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 26969184,
+      "step": 12475
+    },
+    {
+      "epoch": 2.035889070146819,
+      "grad_norm": 0.08804943412542343,
+      "learning_rate": 0.0009999902801263974,
+      "loss": 0.1627,
+      "num_input_tokens_seen": 26979328,
+      "step": 12480
+    },
+    {
+      "epoch": 2.036704730831974,
+      "grad_norm": 0.08816880732774734,
+      "learning_rate": 0.0009999898312315232,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 26989920,
+      "step": 12485
+    },
+    {
+      "epoch": 2.0375203915171287,
+      "grad_norm": 0.021312927827239037,
+      "learning_rate": 0.000999989372203721,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 27000544,
+      "step": 12490
+    },
+    {
+      "epoch": 2.038336052202284,
+      "grad_norm": 0.0042571392841637135,
+      "learning_rate": 0.0009999889030429998,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 27011360,
+      "step": 12495
+    },
+    {
+      "epoch": 2.039151712887439,
+      "grad_norm": 0.09083344042301178,
+      "learning_rate": 0.0009999884237493692,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 27021312,
+      "step": 12500
+    },
+    {
+      "epoch": 2.0399673735725936,
+      "grad_norm": 0.028655050322413445,
+      "learning_rate": 0.000999987934322839,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 27032640,
+      "step": 12505
+    },
+    {
+      "epoch": 2.040783034257749,
+      "grad_norm": 0.047613725066185,
+      "learning_rate": 0.000999987434763419,
+      "loss": 0.1954,
+      "num_input_tokens_seen": 27043648,
+      "step": 12510
+    },
+    {
+      "epoch": 2.0415986949429037,
+      "grad_norm": 0.3595113158226013,
+      "learning_rate": 0.0009999869250711193,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 27055232,
+      "step": 12515
+    },
+    {
+      "epoch": 2.0424143556280585,
+      "grad_norm": 0.05471295118331909,
+      "learning_rate": 0.0009999864052459503,
+      "loss": 0.2655,
+      "num_input_tokens_seen": 27066464,
+      "step": 12520
+    },
+    {
+      "epoch": 2.0432300163132138,
+      "grad_norm": 0.14621756970882416,
+      "learning_rate": 0.0009999858752879228,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 27077888,
+      "step": 12525
+    },
+    {
+      "epoch": 2.0440456769983686,
+      "grad_norm": 0.09596377611160278,
+      "learning_rate": 0.0009999853351970469,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 27088064,
+      "step": 12530
+    },
+    {
+      "epoch": 2.044861337683524,
+      "grad_norm": 0.05375010520219803,
+      "learning_rate": 0.000999984784973334,
+      "loss": 0.2147,
+      "num_input_tokens_seen": 27099296,
+      "step": 12535
+    },
+    {
+      "epoch": 2.0456769983686787,
+      "grad_norm": 0.0923907533288002,
+      "learning_rate": 0.0009999842246167952,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 27110176,
+      "step": 12540
+    },
+    {
+      "epoch": 2.0464926590538335,
+      "grad_norm": 0.019899077713489532,
+      "learning_rate": 0.0009999836541274417,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 27120768,
+      "step": 12545
+    },
+    {
+      "epoch": 2.0473083197389887,
+      "grad_norm": 0.13260437548160553,
+      "learning_rate": 0.0009999830735052853,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 27131904,
+      "step": 12550
+    },
+    {
+      "epoch": 2.0481239804241436,
+      "grad_norm": 0.009612596593797207,
+      "learning_rate": 0.0009999824827503377,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 27142976,
+      "step": 12555
+    },
+    {
+      "epoch": 2.0489396411092984,
+      "grad_norm": 0.010959037579596043,
+      "learning_rate": 0.0009999818818626105,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 27154656,
+      "step": 12560
+    },
+    {
+      "epoch": 2.0497553017944536,
+      "grad_norm": 0.03808634728193283,
+      "learning_rate": 0.0009999812708421166,
+      "loss": 0.06,
+      "num_input_tokens_seen": 27165344,
+      "step": 12565
+    },
+    {
+      "epoch": 2.0505709624796085,
+      "grad_norm": 0.006856338586658239,
+      "learning_rate": 0.0009999806496888677,
+      "loss": 0.0447,
+      "num_input_tokens_seen": 27175104,
+      "step": 12570
+    },
+    {
+      "epoch": 2.0513866231647633,
+      "grad_norm": 0.10554108023643494,
+      "learning_rate": 0.0009999800184028766,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 27186528,
+      "step": 12575
+    },
+    {
+      "epoch": 2.0522022838499185,
+      "grad_norm": 0.0567990280687809,
+      "learning_rate": 0.0009999793769841564,
+      "loss": 0.165,
+      "num_input_tokens_seen": 27197664,
+      "step": 12580
+    },
+    {
+      "epoch": 2.0530179445350734,
+      "grad_norm": 0.0033737735357135534,
+      "learning_rate": 0.0009999787254327196,
+      "loss": 0.3187,
+      "num_input_tokens_seen": 27209440,
+      "step": 12585
+    },
+    {
+      "epoch": 2.053833605220228,
+      "grad_norm": 0.2872142791748047,
+      "learning_rate": 0.00099997806374858,
+      "loss": 0.229,
+      "num_input_tokens_seen": 27222464,
+      "step": 12590
+    },
+    {
+      "epoch": 2.0546492659053834,
+      "grad_norm": 0.1510654091835022,
+      "learning_rate": 0.0009999773919317505,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 27233664,
+      "step": 12595
+    },
+    {
+      "epoch": 2.0554649265905383,
+      "grad_norm": 0.1906013935804367,
+      "learning_rate": 0.000999976709982245,
+      "loss": 0.2621,
+      "num_input_tokens_seen": 27245632,
+      "step": 12600
+    },
+    {
+      "epoch": 2.0562805872756935,
+      "grad_norm": 0.10470928251743317,
+      "learning_rate": 0.000999976017900077,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 27255872,
+      "step": 12605
+    },
+    {
+      "epoch": 2.0570962479608483,
+      "grad_norm": 0.08966370671987534,
+      "learning_rate": 0.0009999753156852609,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 27266368,
+      "step": 12610
+    },
+    {
+      "epoch": 2.057911908646003,
+      "grad_norm": 0.12156267464160919,
+      "learning_rate": 0.0009999746033378105,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 27276960,
+      "step": 12615
+    },
+    {
+      "epoch": 2.0587275693311584,
+      "grad_norm": 0.2356519103050232,
+      "learning_rate": 0.0009999738808577408,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 27288416,
+      "step": 12620
+    },
+    {
+      "epoch": 2.0595432300163132,
+      "grad_norm": 0.12507210671901703,
+      "learning_rate": 0.000999973148245066,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 27300032,
+      "step": 12625
+    },
+    {
+      "epoch": 2.060358890701468,
+      "grad_norm": 0.20876716077327728,
+      "learning_rate": 0.000999972405499801,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 27310688,
+      "step": 12630
+    },
+    {
+      "epoch": 2.0611745513866233,
+      "grad_norm": 0.09181343019008636,
+      "learning_rate": 0.0009999716526219611,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 27323424,
+      "step": 12635
+    },
+    {
+      "epoch": 2.061990212071778,
+      "grad_norm": 0.134469673037529,
+      "learning_rate": 0.0009999708896115613,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 27333024,
+      "step": 12640
+    },
+    {
+      "epoch": 2.062805872756933,
+      "grad_norm": 0.06973686814308167,
+      "learning_rate": 0.0009999701164686173,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 27344512,
+      "step": 12645
+    },
+    {
+      "epoch": 2.063621533442088,
+      "grad_norm": 0.27596315741539,
+      "learning_rate": 0.0009999693331931446,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 27355328,
+      "step": 12650
+    },
+    {
+      "epoch": 2.064437194127243,
+      "grad_norm": 0.029866395518183708,
+      "learning_rate": 0.000999968539785159,
+      "loss": 0.189,
+      "num_input_tokens_seen": 27366688,
+      "step": 12655
+    },
+    {
+      "epoch": 2.065252854812398,
+      "grad_norm": 0.07480645924806595,
+      "learning_rate": 0.0009999677362446768,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 27377376,
+      "step": 12660
+    },
+    {
+      "epoch": 2.066068515497553,
+      "grad_norm": 0.11446642875671387,
+      "learning_rate": 0.000999966922571714,
+      "loss": 0.1362,
+      "num_input_tokens_seen": 27387328,
+      "step": 12665
+    },
+    {
+      "epoch": 2.066884176182708,
+      "grad_norm": 0.20092760026454926,
+      "learning_rate": 0.0009999660987662876,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 27399136,
+      "step": 12670
+    },
+    {
+      "epoch": 2.067699836867863,
+      "grad_norm": 0.48023906350135803,
+      "learning_rate": 0.0009999652648284136,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 27409984,
+      "step": 12675
+    },
+    {
+      "epoch": 2.068515497553018,
+      "grad_norm": 0.3658871352672577,
+      "learning_rate": 0.0009999644207581092,
+      "loss": 0.2625,
+      "num_input_tokens_seen": 27421088,
+      "step": 12680
+    },
+    {
+      "epoch": 2.069331158238173,
+      "grad_norm": 0.10626986622810364,
+      "learning_rate": 0.000999963566555392,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 27431648,
+      "step": 12685
+    },
+    {
+      "epoch": 2.070146818923328,
+      "grad_norm": 0.19185417890548706,
+      "learning_rate": 0.0009999627022202785,
+      "loss": 0.2449,
+      "num_input_tokens_seen": 27441440,
+      "step": 12690
+    },
+    {
+      "epoch": 2.070962479608483,
+      "grad_norm": 0.2664777338504791,
+      "learning_rate": 0.0009999618277527868,
+      "loss": 0.1815,
+      "num_input_tokens_seen": 27450496,
+      "step": 12695
+    },
+    {
+      "epoch": 2.0717781402936377,
+      "grad_norm": 0.0740237906575203,
+      "learning_rate": 0.0009999609431529345,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 27461248,
+      "step": 12700
+    },
+    {
+      "epoch": 2.072593800978793,
+      "grad_norm": 0.112830251455307,
+      "learning_rate": 0.0009999600484207392,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 27471104,
+      "step": 12705
+    },
+    {
+      "epoch": 2.073409461663948,
+      "grad_norm": 0.07632242888212204,
+      "learning_rate": 0.0009999591435562193,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 27481376,
+      "step": 12710
+    },
+    {
+      "epoch": 2.0742251223491026,
+      "grad_norm": 0.06909924000501633,
+      "learning_rate": 0.0009999582285593932,
+      "loss": 0.031,
+      "num_input_tokens_seen": 27491872,
+      "step": 12715
+    },
+    {
+      "epoch": 2.075040783034258,
+      "grad_norm": 0.046119239181280136,
+      "learning_rate": 0.0009999573034302793,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 27503712,
+      "step": 12720
+    },
+    {
+      "epoch": 2.0758564437194127,
+      "grad_norm": 0.0311514250934124,
+      "learning_rate": 0.0009999563681688964,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 27514720,
+      "step": 12725
+    },
+    {
+      "epoch": 2.0766721044045675,
+      "grad_norm": 0.030699364840984344,
+      "learning_rate": 0.0009999554227752634,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 27526016,
+      "step": 12730
+    },
+    {
+      "epoch": 2.0774877650897228,
+      "grad_norm": 0.16419100761413574,
+      "learning_rate": 0.0009999544672493997,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 27536160,
+      "step": 12735
+    },
+    {
+      "epoch": 2.0783034257748776,
+      "grad_norm": 0.08112215995788574,
+      "learning_rate": 0.0009999535015913243,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 27547296,
+      "step": 12740
+    },
+    {
+      "epoch": 2.0791190864600324,
+      "grad_norm": 0.04285610839724541,
+      "learning_rate": 0.0009999525258010571,
+      "loss": 0.26,
+      "num_input_tokens_seen": 27558688,
+      "step": 12745
+    },
+    {
+      "epoch": 2.0799347471451877,
+      "grad_norm": 0.05731838569045067,
+      "learning_rate": 0.0009999515398786177,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 27570144,
+      "step": 12750
+    },
+    {
+      "epoch": 2.0807504078303425,
+      "grad_norm": 0.02599678374826908,
+      "learning_rate": 0.000999950543824026,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 27581376,
+      "step": 12755
+    },
+    {
+      "epoch": 2.0815660685154977,
+      "grad_norm": 0.05650242790579796,
+      "learning_rate": 0.0009999495376373025,
+      "loss": 0.1582,
+      "num_input_tokens_seen": 27592480,
+      "step": 12760
+    },
+    {
+      "epoch": 2.0823817292006526,
+      "grad_norm": 0.10208354890346527,
+      "learning_rate": 0.0009999485213184672,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 27603584,
+      "step": 12765
+    },
+    {
+      "epoch": 2.0831973898858074,
+      "grad_norm": 0.06093911826610565,
+      "learning_rate": 0.000999947494867541,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 27615264,
+      "step": 12770
+    },
+    {
+      "epoch": 2.0840130505709626,
+      "grad_norm": 0.15886317193508148,
+      "learning_rate": 0.0009999464582845445,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 27624800,
+      "step": 12775
+    },
+    {
+      "epoch": 2.0848287112561175,
+      "grad_norm": 0.1170632541179657,
+      "learning_rate": 0.0009999454115694989,
+      "loss": 0.132,
+      "num_input_tokens_seen": 27635456,
+      "step": 12780
+    },
+    {
+      "epoch": 2.0856443719412723,
+      "grad_norm": 0.23480327427387238,
+      "learning_rate": 0.0009999443547224253,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 27646304,
+      "step": 12785
+    },
+    {
+      "epoch": 2.0864600326264275,
+      "grad_norm": 0.051176343113183975,
+      "learning_rate": 0.0009999432877433449,
+      "loss": 0.1447,
+      "num_input_tokens_seen": 27655456,
+      "step": 12790
+    },
+    {
+      "epoch": 2.0872756933115824,
+      "grad_norm": 0.11672715097665787,
+      "learning_rate": 0.0009999422106322798,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 27665632,
+      "step": 12795
+    },
+    {
+      "epoch": 2.088091353996737,
+      "grad_norm": 0.15267214179039001,
+      "learning_rate": 0.0009999411233892516,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 27677504,
+      "step": 12800
+    },
+    {
+      "epoch": 2.0889070146818924,
+      "grad_norm": 0.011678201146423817,
+      "learning_rate": 0.000999940026014282,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 27688768,
+      "step": 12805
+    },
+    {
+      "epoch": 2.0897226753670473,
+      "grad_norm": 0.06737668067216873,
+      "learning_rate": 0.000999938918507394,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 27699680,
+      "step": 12810
+    },
+    {
+      "epoch": 2.090538336052202,
+      "grad_norm": 0.03292597457766533,
+      "learning_rate": 0.0009999378008686093,
+      "loss": 0.1877,
+      "num_input_tokens_seen": 27709504,
+      "step": 12815
+    },
+    {
+      "epoch": 2.0913539967373573,
+      "grad_norm": 0.12016480416059494,
+      "learning_rate": 0.000999936673097951,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 27720704,
+      "step": 12820
+    },
+    {
+      "epoch": 2.092169657422512,
+      "grad_norm": 0.018072044476866722,
+      "learning_rate": 0.0009999355351954418,
+      "loss": 0.178,
+      "num_input_tokens_seen": 27730656,
+      "step": 12825
+    },
+    {
+      "epoch": 2.0929853181076674,
+      "grad_norm": 0.1713826060295105,
+      "learning_rate": 0.0009999343871611045,
+      "loss": 0.1951,
+      "num_input_tokens_seen": 27740864,
+      "step": 12830
+    },
+    {
+      "epoch": 2.0938009787928222,
+      "grad_norm": 0.10080626606941223,
+      "learning_rate": 0.000999933228994963,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 27751104,
+      "step": 12835
+    },
+    {
+      "epoch": 2.094616639477977,
+      "grad_norm": 0.10050133615732193,
+      "learning_rate": 0.00099993206069704,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 27761760,
+      "step": 12840
+    },
+    {
+      "epoch": 2.0954323001631323,
+      "grad_norm": 0.02649875171482563,
+      "learning_rate": 0.0009999308822673599,
+      "loss": 0.2457,
+      "num_input_tokens_seen": 27772864,
+      "step": 12845
+    },
+    {
+      "epoch": 2.096247960848287,
+      "grad_norm": 0.09067980200052261,
+      "learning_rate": 0.000999929693705946,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 27783936,
+      "step": 12850
+    },
+    {
+      "epoch": 2.097063621533442,
+      "grad_norm": 0.13061358034610748,
+      "learning_rate": 0.000999928495012823,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 27794368,
+      "step": 12855
+    },
+    {
+      "epoch": 2.097879282218597,
+      "grad_norm": 0.11418254673480988,
+      "learning_rate": 0.0009999272861880148,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 27804224,
+      "step": 12860
+    },
+    {
+      "epoch": 2.098694942903752,
+      "grad_norm": 0.1471940577030182,
+      "learning_rate": 0.0009999260672315456,
+      "loss": 0.1568,
+      "num_input_tokens_seen": 27815168,
+      "step": 12865
+    },
+    {
+      "epoch": 2.099510603588907,
+      "grad_norm": 0.45913568139076233,
+      "learning_rate": 0.0009999248381434406,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 27825088,
+      "step": 12870
+    },
+    {
+      "epoch": 2.100326264274062,
+      "grad_norm": 0.21608853340148926,
+      "learning_rate": 0.0009999235989237249,
+      "loss": 0.2859,
+      "num_input_tokens_seen": 27834880,
+      "step": 12875
+    },
+    {
+      "epoch": 2.101141924959217,
+      "grad_norm": 0.06812023371458054,
+      "learning_rate": 0.0009999223495724228,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 27845248,
+      "step": 12880
+    },
+    {
+      "epoch": 2.1019575856443717,
+      "grad_norm": 0.02336515672504902,
+      "learning_rate": 0.0009999210900895603,
+      "loss": 0.1676,
+      "num_input_tokens_seen": 27854144,
+      "step": 12885
+    },
+    {
+      "epoch": 2.102773246329527,
+      "grad_norm": 0.10959352552890778,
+      "learning_rate": 0.0009999198204751628,
+      "loss": 0.2141,
+      "num_input_tokens_seen": 27864000,
+      "step": 12890
+    },
+    {
+      "epoch": 2.103588907014682,
+      "grad_norm": 0.10948460549116135,
+      "learning_rate": 0.0009999185407292557,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 27873856,
+      "step": 12895
+    },
+    {
+      "epoch": 2.104404567699837,
+      "grad_norm": 0.05279287323355675,
+      "learning_rate": 0.0009999172508518654,
+      "loss": 0.0531,
+      "num_input_tokens_seen": 27885088,
+      "step": 12900
+    },
+    {
+      "epoch": 2.105220228384992,
+      "grad_norm": 0.11285223066806793,
+      "learning_rate": 0.0009999159508430177,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 27896256,
+      "step": 12905
+    },
+    {
+      "epoch": 2.1060358890701467,
+      "grad_norm": 0.12476310133934021,
+      "learning_rate": 0.000999914640702739,
+      "loss": 0.169,
+      "num_input_tokens_seen": 27905696,
+      "step": 12910
+    },
+    {
+      "epoch": 2.106851549755302,
+      "grad_norm": 0.21431344747543335,
+      "learning_rate": 0.000999913320431056,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 27915808,
+      "step": 12915
+    },
+    {
+      "epoch": 2.107667210440457,
+      "grad_norm": 0.04303182661533356,
+      "learning_rate": 0.0009999119900279956,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 27926528,
+      "step": 12920
+    },
+    {
+      "epoch": 2.1084828711256116,
+      "grad_norm": 0.029864931479096413,
+      "learning_rate": 0.0009999106494935843,
+      "loss": 0.162,
+      "num_input_tokens_seen": 27937120,
+      "step": 12925
+    },
+    {
+      "epoch": 2.109298531810767,
+      "grad_norm": 0.05805061757564545,
+      "learning_rate": 0.0009999092988278496,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 27947648,
+      "step": 12930
+    },
+    {
+      "epoch": 2.1101141924959217,
+      "grad_norm": 0.012730555608868599,
+      "learning_rate": 0.0009999079380308186,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 27958752,
+      "step": 12935
+    },
+    {
+      "epoch": 2.1109298531810765,
+      "grad_norm": 0.05740470066666603,
+      "learning_rate": 0.000999906567102519,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 27969248,
+      "step": 12940
+    },
+    {
+      "epoch": 2.1117455138662318,
+      "grad_norm": 0.2081340104341507,
+      "learning_rate": 0.0009999051860429791,
+      "loss": 0.2038,
+      "num_input_tokens_seen": 27980256,
+      "step": 12945
+    },
+    {
+      "epoch": 2.1125611745513866,
+      "grad_norm": 0.057117413729429245,
+      "learning_rate": 0.000999903794852226,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 27990016,
+      "step": 12950
+    },
+    {
+      "epoch": 2.1133768352365414,
+      "grad_norm": 0.03829582408070564,
+      "learning_rate": 0.0009999023935302886,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 28000928,
+      "step": 12955
+    },
+    {
+      "epoch": 2.1141924959216967,
+      "grad_norm": 0.05271393433213234,
+      "learning_rate": 0.000999900982077195,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 28009984,
+      "step": 12960
+    },
+    {
+      "epoch": 2.1150081566068515,
+      "grad_norm": 0.050736140459775925,
+      "learning_rate": 0.0009998995604929735,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 28022560,
+      "step": 12965
+    },
+    {
+      "epoch": 2.1158238172920063,
+      "grad_norm": 0.018366431817412376,
+      "learning_rate": 0.0009998981287776536,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 28032960,
+      "step": 12970
+    },
+    {
+      "epoch": 2.1166394779771616,
+      "grad_norm": 0.18964123725891113,
+      "learning_rate": 0.0009998966869312637,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 28044512,
+      "step": 12975
+    },
+    {
+      "epoch": 2.1174551386623164,
+      "grad_norm": 0.14065471291542053,
+      "learning_rate": 0.0009998952349538335,
+      "loss": 0.103,
+      "num_input_tokens_seen": 28055040,
+      "step": 12980
+    },
+    {
+      "epoch": 2.1182707993474716,
+      "grad_norm": 0.022199753671884537,
+      "learning_rate": 0.000999893772845392,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 28065952,
+      "step": 12985
+    },
+    {
+      "epoch": 2.1190864600326265,
+      "grad_norm": 0.06245112419128418,
+      "learning_rate": 0.0009998923006059692,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 28077280,
+      "step": 12990
+    },
+    {
+      "epoch": 2.1199021207177813,
+      "grad_norm": 0.08001261949539185,
+      "learning_rate": 0.0009998908182355948,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 28088448,
+      "step": 12995
+    },
+    {
+      "epoch": 2.1207177814029365,
+      "grad_norm": 0.04466702789068222,
+      "learning_rate": 0.0009998893257342986,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 28099584,
+      "step": 13000
+    },
+    {
+      "epoch": 2.1215334420880914,
+      "grad_norm": 0.0033461377024650574,
+      "learning_rate": 0.000999887823102111,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 28110496,
+      "step": 13005
+    },
+    {
+      "epoch": 2.122349102773246,
+      "grad_norm": 0.029360774904489517,
+      "learning_rate": 0.0009998863103390628,
+      "loss": 0.2003,
+      "num_input_tokens_seen": 28119616,
+      "step": 13010
+    },
+    {
+      "epoch": 2.1231647634584014,
+      "grad_norm": 0.047707974910736084,
+      "learning_rate": 0.0009998847874451843,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 28129664,
+      "step": 13015
+    },
+    {
+      "epoch": 2.1239804241435563,
+      "grad_norm": 0.39130014181137085,
+      "learning_rate": 0.0009998832544205064,
+      "loss": 0.273,
+      "num_input_tokens_seen": 28140576,
+      "step": 13020
+    },
+    {
+      "epoch": 2.124796084828711,
+      "grad_norm": 0.1589263379573822,
+      "learning_rate": 0.0009998817112650603,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 28150976,
+      "step": 13025
+    },
+    {
+      "epoch": 2.1256117455138663,
+      "grad_norm": 0.03926459699869156,
+      "learning_rate": 0.000999880157978877,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 28161728,
+      "step": 13030
+    },
+    {
+      "epoch": 2.126427406199021,
+      "grad_norm": 0.09237375855445862,
+      "learning_rate": 0.0009998785945619882,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 28172896,
+      "step": 13035
+    },
+    {
+      "epoch": 2.1272430668841764,
+      "grad_norm": 0.06005003675818443,
+      "learning_rate": 0.0009998770210144256,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 28181184,
+      "step": 13040
+    },
+    {
+      "epoch": 2.1280587275693312,
+      "grad_norm": 0.15633663535118103,
+      "learning_rate": 0.000999875437336221,
+      "loss": 0.1371,
+      "num_input_tokens_seen": 28191552,
+      "step": 13045
+    },
+    {
+      "epoch": 2.128874388254486,
+      "grad_norm": 0.12029604613780975,
+      "learning_rate": 0.0009998738435274064,
+      "loss": 0.194,
+      "num_input_tokens_seen": 28203168,
+      "step": 13050
+    },
+    {
+      "epoch": 2.1296900489396413,
+      "grad_norm": 0.10934768617153168,
+      "learning_rate": 0.0009998722395880145,
+      "loss": 0.056,
+      "num_input_tokens_seen": 28214720,
+      "step": 13055
+    },
+    {
+      "epoch": 2.130505709624796,
+      "grad_norm": 0.016308283433318138,
+      "learning_rate": 0.0009998706255180774,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 28225472,
+      "step": 13060
+    },
+    {
+      "epoch": 2.131321370309951,
+      "grad_norm": 0.35608285665512085,
+      "learning_rate": 0.0009998690013176279,
+      "loss": 0.2248,
+      "num_input_tokens_seen": 28235328,
+      "step": 13065
+    },
+    {
+      "epoch": 2.132137030995106,
+      "grad_norm": 0.29491209983825684,
+      "learning_rate": 0.0009998673669866988,
+      "loss": 0.3122,
+      "num_input_tokens_seen": 28246912,
+      "step": 13070
+    },
+    {
+      "epoch": 2.132952691680261,
+      "grad_norm": 0.09003280103206635,
+      "learning_rate": 0.0009998657225253236,
+      "loss": 0.2082,
+      "num_input_tokens_seen": 28258368,
+      "step": 13075
+    },
+    {
+      "epoch": 2.133768352365416,
+      "grad_norm": 0.11987301707267761,
+      "learning_rate": 0.0009998640679335354,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 28268544,
+      "step": 13080
+    },
+    {
+      "epoch": 2.134584013050571,
+      "grad_norm": 0.031110180541872978,
+      "learning_rate": 0.0009998624032113677,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 28280576,
+      "step": 13085
+    },
+    {
+      "epoch": 2.135399673735726,
+      "grad_norm": 0.11604081839323044,
+      "learning_rate": 0.0009998607283588543,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 28290944,
+      "step": 13090
+    },
+    {
+      "epoch": 2.1362153344208807,
+      "grad_norm": 0.09189382195472717,
+      "learning_rate": 0.000999859043376029,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 28302176,
+      "step": 13095
+    },
+    {
+      "epoch": 2.137030995106036,
+      "grad_norm": 0.026161260902881622,
+      "learning_rate": 0.0009998573482629264,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 28312864,
+      "step": 13100
+    },
+    {
+      "epoch": 2.137846655791191,
+      "grad_norm": 0.10673241317272186,
+      "learning_rate": 0.0009998556430195803,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 28323328,
+      "step": 13105
+    },
+    {
+      "epoch": 2.1386623164763456,
+      "grad_norm": 0.06484927237033844,
+      "learning_rate": 0.0009998539276460255,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 28335264,
+      "step": 13110
+    },
+    {
+      "epoch": 2.139477977161501,
+      "grad_norm": 0.08133813738822937,
+      "learning_rate": 0.0009998522021422967,
+      "loss": 0.2518,
+      "num_input_tokens_seen": 28346400,
+      "step": 13115
+    },
+    {
+      "epoch": 2.1402936378466557,
+      "grad_norm": 0.2059800624847412,
+      "learning_rate": 0.000999850466508429,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 28357888,
+      "step": 13120
+    },
+    {
+      "epoch": 2.141109298531811,
+      "grad_norm": 0.008014354854822159,
+      "learning_rate": 0.0009998487207444574,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 28369888,
+      "step": 13125
+    },
+    {
+      "epoch": 2.141924959216966,
+      "grad_norm": 0.0397895947098732,
+      "learning_rate": 0.0009998469648504174,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 28380736,
+      "step": 13130
+    },
+    {
+      "epoch": 2.1427406199021206,
+      "grad_norm": 0.05694444105029106,
+      "learning_rate": 0.0009998451988263444,
+      "loss": 0.238,
+      "num_input_tokens_seen": 28390816,
+      "step": 13135
+    },
+    {
+      "epoch": 2.143556280587276,
+      "grad_norm": 0.1789853572845459,
+      "learning_rate": 0.0009998434226722746,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 28402080,
+      "step": 13140
+    },
+    {
+      "epoch": 2.1443719412724307,
+      "grad_norm": 0.24429011344909668,
+      "learning_rate": 0.0009998416363882438,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 28412768,
+      "step": 13145
+    },
+    {
+      "epoch": 2.1451876019575855,
+      "grad_norm": 0.032388217747211456,
+      "learning_rate": 0.0009998398399742878,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 28425056,
+      "step": 13150
+    },
+    {
+      "epoch": 2.1460032626427408,
+      "grad_norm": 0.08640412241220474,
+      "learning_rate": 0.0009998380334304436,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 28436800,
+      "step": 13155
+    },
+    {
+      "epoch": 2.1468189233278956,
+      "grad_norm": 0.08437643945217133,
+      "learning_rate": 0.0009998362167567476,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 28447360,
+      "step": 13160
+    },
+    {
+      "epoch": 2.1476345840130504,
+      "grad_norm": 0.03582681342959404,
+      "learning_rate": 0.0009998343899532364,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 28457888,
+      "step": 13165
+    },
+    {
+      "epoch": 2.1484502446982057,
+      "grad_norm": 0.4298367202281952,
+      "learning_rate": 0.0009998325530199473,
+      "loss": 0.1974,
+      "num_input_tokens_seen": 28469472,
+      "step": 13170
+    },
+    {
+      "epoch": 2.1492659053833605,
+      "grad_norm": 0.034253429621458054,
+      "learning_rate": 0.0009998307059569174,
+      "loss": 0.2651,
+      "num_input_tokens_seen": 28479584,
+      "step": 13175
+    },
+    {
+      "epoch": 2.1500815660685153,
+      "grad_norm": 0.044094908982515335,
+      "learning_rate": 0.0009998288487641843,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 28491520,
+      "step": 13180
+    },
+    {
+      "epoch": 2.1508972267536706,
+      "grad_norm": 0.020100802183151245,
+      "learning_rate": 0.0009998269814417854,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 28501472,
+      "step": 13185
+    },
+    {
+      "epoch": 2.1517128874388254,
+      "grad_norm": 0.05620182305574417,
+      "learning_rate": 0.0009998251039897586,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 28512320,
+      "step": 13190
+    },
+    {
+      "epoch": 2.15252854812398,
+      "grad_norm": 0.27030977606773376,
+      "learning_rate": 0.000999823216408142,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 28523776,
+      "step": 13195
+    },
+    {
+      "epoch": 2.1533442088091355,
+      "grad_norm": 0.1298169493675232,
+      "learning_rate": 0.0009998213186969739,
+      "loss": 0.157,
+      "num_input_tokens_seen": 28534016,
+      "step": 13200
+    },
+    {
+      "epoch": 2.1541598694942903,
+      "grad_norm": 0.06606268137693405,
+      "learning_rate": 0.0009998194108562927,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 28544096,
+      "step": 13205
+    },
+    {
+      "epoch": 2.1549755301794455,
+      "grad_norm": 0.07334471493959427,
+      "learning_rate": 0.000999817492886137,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 28554912,
+      "step": 13210
+    },
+    {
+      "epoch": 2.1557911908646004,
+      "grad_norm": 0.08001653105020523,
+      "learning_rate": 0.000999815564786546,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 28564416,
+      "step": 13215
+    },
+    {
+      "epoch": 2.156606851549755,
+      "grad_norm": 0.09251904487609863,
+      "learning_rate": 0.0009998136265575582,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 28575328,
+      "step": 13220
+    },
+    {
+      "epoch": 2.1574225122349104,
+      "grad_norm": 0.16219399869441986,
+      "learning_rate": 0.0009998116781992133,
+      "loss": 0.176,
+      "num_input_tokens_seen": 28584992,
+      "step": 13225
+    },
+    {
+      "epoch": 2.1582381729200653,
+      "grad_norm": 0.1895899772644043,
+      "learning_rate": 0.0009998097197115507,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 28594720,
+      "step": 13230
+    },
+    {
+      "epoch": 2.15905383360522,
+      "grad_norm": 0.10811378061771393,
+      "learning_rate": 0.00099980775109461,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 28606560,
+      "step": 13235
+    },
+    {
+      "epoch": 2.1598694942903753,
+      "grad_norm": 0.006182703655213118,
+      "learning_rate": 0.0009998057723484312,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 28617312,
+      "step": 13240
+    },
+    {
+      "epoch": 2.16068515497553,
+      "grad_norm": 0.04205413907766342,
+      "learning_rate": 0.0009998037834730545,
+      "loss": 0.2351,
+      "num_input_tokens_seen": 28629696,
+      "step": 13245
+    },
+    {
+      "epoch": 2.161500815660685,
+      "grad_norm": 0.05634569004178047,
+      "learning_rate": 0.0009998017844685201,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 28640704,
+      "step": 13250
+    },
+    {
+      "epoch": 2.1623164763458402,
+      "grad_norm": 0.006111837457865477,
+      "learning_rate": 0.0009997997753348684,
+      "loss": 0.2064,
+      "num_input_tokens_seen": 28650432,
+      "step": 13255
+    },
+    {
+      "epoch": 2.163132137030995,
+      "grad_norm": 0.23091314733028412,
+      "learning_rate": 0.0009997977560721402,
+      "loss": 0.134,
+      "num_input_tokens_seen": 28662848,
+      "step": 13260
+    },
+    {
+      "epoch": 2.1639477977161503,
+      "grad_norm": 0.07334164530038834,
+      "learning_rate": 0.0009997957266803766,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 28673568,
+      "step": 13265
+    },
+    {
+      "epoch": 2.164763458401305,
+      "grad_norm": 0.0321493074297905,
+      "learning_rate": 0.0009997936871596182,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 28682784,
+      "step": 13270
+    },
+    {
+      "epoch": 2.16557911908646,
+      "grad_norm": 0.055742476135492325,
+      "learning_rate": 0.000999791637509907,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 28692480,
+      "step": 13275
+    },
+    {
+      "epoch": 2.166394779771615,
+      "grad_norm": 0.19681106507778168,
+      "learning_rate": 0.0009997895777312843,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 28702144,
+      "step": 13280
+    },
+    {
+      "epoch": 2.16721044045677,
+      "grad_norm": 0.059670474380254745,
+      "learning_rate": 0.0009997875078237915,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 28711072,
+      "step": 13285
+    },
+    {
+      "epoch": 2.168026101141925,
+      "grad_norm": 0.1475917249917984,
+      "learning_rate": 0.000999785427787471,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 28721504,
+      "step": 13290
+    },
+    {
+      "epoch": 2.16884176182708,
+      "grad_norm": 0.005357819609344006,
+      "learning_rate": 0.0009997833376223647,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 28733184,
+      "step": 13295
+    },
+    {
+      "epoch": 2.169657422512235,
+      "grad_norm": 0.25688982009887695,
+      "learning_rate": 0.000999781237328515,
+      "loss": 0.1804,
+      "num_input_tokens_seen": 28743584,
+      "step": 13300
+    },
+    {
+      "epoch": 2.1704730831973897,
+      "grad_norm": 0.15253715217113495,
+      "learning_rate": 0.0009997791269059646,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 28754432,
+      "step": 13305
+    },
+    {
+      "epoch": 2.171288743882545,
+      "grad_norm": 0.050005823373794556,
+      "learning_rate": 0.0009997770063547562,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 28764928,
+      "step": 13310
+    },
+    {
+      "epoch": 2.1721044045677,
+      "grad_norm": 0.09376704692840576,
+      "learning_rate": 0.0009997748756749327,
+      "loss": 0.053,
+      "num_input_tokens_seen": 28775648,
+      "step": 13315
+    },
+    {
+      "epoch": 2.1729200652528546,
+      "grad_norm": 0.1947200894355774,
+      "learning_rate": 0.0009997727348665373,
+      "loss": 0.07,
+      "num_input_tokens_seen": 28787040,
+      "step": 13320
+    },
+    {
+      "epoch": 2.17373572593801,
+      "grad_norm": 0.04367386922240257,
+      "learning_rate": 0.0009997705839296135,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 28798304,
+      "step": 13325
+    },
+    {
+      "epoch": 2.1745513866231647,
+      "grad_norm": 0.15603747963905334,
+      "learning_rate": 0.0009997684228642049,
+      "loss": 0.1732,
+      "num_input_tokens_seen": 28808608,
+      "step": 13330
+    },
+    {
+      "epoch": 2.1753670473083195,
+      "grad_norm": 0.052698567509651184,
+      "learning_rate": 0.0009997662516703552,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 28819520,
+      "step": 13335
+    },
+    {
+      "epoch": 2.176182707993475,
+      "grad_norm": 0.016307028010487556,
+      "learning_rate": 0.0009997640703481082,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 28830912,
+      "step": 13340
+    },
+    {
+      "epoch": 2.1769983686786296,
+      "grad_norm": 0.029360493645071983,
+      "learning_rate": 0.0009997618788975084,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 28842208,
+      "step": 13345
+    },
+    {
+      "epoch": 2.177814029363785,
+      "grad_norm": 0.061105113476514816,
+      "learning_rate": 0.0009997596773186,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 28852864,
+      "step": 13350
+    },
+    {
+      "epoch": 2.1786296900489397,
+      "grad_norm": 0.024250203743577003,
+      "learning_rate": 0.000999757465611428,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 28862400,
+      "step": 13355
+    },
+    {
+      "epoch": 2.1794453507340945,
+      "grad_norm": 0.22527538239955902,
+      "learning_rate": 0.000999755243776037,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 28872832,
+      "step": 13360
+    },
+    {
+      "epoch": 2.1802610114192498,
+      "grad_norm": 0.27681607007980347,
+      "learning_rate": 0.000999753011812472,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 28883008,
+      "step": 13365
+    },
+    {
+      "epoch": 2.1810766721044046,
+      "grad_norm": 0.020333116874098778,
+      "learning_rate": 0.000999750769720778,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 28894976,
+      "step": 13370
+    },
+    {
+      "epoch": 2.1818923327895594,
+      "grad_norm": 0.2983275055885315,
+      "learning_rate": 0.0009997485175010008,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 28905888,
+      "step": 13375
+    },
+    {
+      "epoch": 2.1827079934747147,
+      "grad_norm": 0.15638279914855957,
+      "learning_rate": 0.000999746255153186,
+      "loss": 0.1873,
+      "num_input_tokens_seen": 28916640,
+      "step": 13380
+    },
+    {
+      "epoch": 2.1835236541598695,
+      "grad_norm": 0.34206530451774597,
+      "learning_rate": 0.0009997439826773791,
+      "loss": 0.175,
+      "num_input_tokens_seen": 28927424,
+      "step": 13385
+    },
+    {
+      "epoch": 2.1843393148450243,
+      "grad_norm": 0.013786377385258675,
+      "learning_rate": 0.0009997417000736266,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 28938240,
+      "step": 13390
+    },
+    {
+      "epoch": 2.1851549755301796,
+      "grad_norm": 0.02515227347612381,
+      "learning_rate": 0.0009997394073419747,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 28948192,
+      "step": 13395
+    },
+    {
+      "epoch": 2.1859706362153344,
+      "grad_norm": 0.24523992836475372,
+      "learning_rate": 0.0009997371044824697,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 28958784,
+      "step": 13400
+    },
+    {
+      "epoch": 2.186786296900489,
+      "grad_norm": 0.011088637635111809,
+      "learning_rate": 0.0009997347914951582,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 28969568,
+      "step": 13405
+    },
+    {
+      "epoch": 2.1876019575856445,
+      "grad_norm": 0.21824337542057037,
+      "learning_rate": 0.0009997324683800872,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 28980096,
+      "step": 13410
+    },
+    {
+      "epoch": 2.1884176182707993,
+      "grad_norm": 0.07013077288866043,
+      "learning_rate": 0.0009997301351373038,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 28990752,
+      "step": 13415
+    },
+    {
+      "epoch": 2.189233278955954,
+      "grad_norm": 0.008021237328648567,
+      "learning_rate": 0.0009997277917668552,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 29001248,
+      "step": 13420
+    },
+    {
+      "epoch": 2.1900489396411094,
+      "grad_norm": 0.3219771087169647,
+      "learning_rate": 0.000999725438268789,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 29011520,
+      "step": 13425
+    },
+    {
+      "epoch": 2.190864600326264,
+      "grad_norm": 0.05944007635116577,
+      "learning_rate": 0.0009997230746431529,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 29022336,
+      "step": 13430
+    },
+    {
+      "epoch": 2.1916802610114194,
+      "grad_norm": 0.24976307153701782,
+      "learning_rate": 0.0009997207008899946,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 29034464,
+      "step": 13435
+    },
+    {
+      "epoch": 2.1924959216965743,
+      "grad_norm": 0.09191533923149109,
+      "learning_rate": 0.0009997183170093625,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 29045728,
+      "step": 13440
+    },
+    {
+      "epoch": 2.193311582381729,
+      "grad_norm": 0.01558864489197731,
+      "learning_rate": 0.000999715923001305,
+      "loss": 0.2273,
+      "num_input_tokens_seen": 29055392,
+      "step": 13445
+    },
+    {
+      "epoch": 2.1941272430668843,
+      "grad_norm": 0.03274226933717728,
+      "learning_rate": 0.00099971351886587,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 29066304,
+      "step": 13450
+    },
+    {
+      "epoch": 2.194942903752039,
+      "grad_norm": 0.08572755008935928,
+      "learning_rate": 0.0009997111046031067,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 29077344,
+      "step": 13455
+    },
+    {
+      "epoch": 2.195758564437194,
+      "grad_norm": 0.033109501004219055,
+      "learning_rate": 0.000999708680213064,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 29088672,
+      "step": 13460
+    },
+    {
+      "epoch": 2.1965742251223492,
+      "grad_norm": 0.15404462814331055,
+      "learning_rate": 0.000999706245695791,
+      "loss": 0.1834,
+      "num_input_tokens_seen": 29100224,
+      "step": 13465
+    },
+    {
+      "epoch": 2.197389885807504,
+      "grad_norm": 0.1067809909582138,
+      "learning_rate": 0.0009997038010513368,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 29110336,
+      "step": 13470
+    },
+    {
+      "epoch": 2.198205546492659,
+      "grad_norm": 0.3593546450138092,
+      "learning_rate": 0.0009997013462797514,
+      "loss": 0.1793,
+      "num_input_tokens_seen": 29121280,
+      "step": 13475
+    },
+    {
+      "epoch": 2.199021207177814,
+      "grad_norm": 0.13226577639579773,
+      "learning_rate": 0.000999698881381084,
+      "loss": 0.234,
+      "num_input_tokens_seen": 29133056,
+      "step": 13480
+    },
+    {
+      "epoch": 2.199836867862969,
+      "grad_norm": 0.037532739341259,
+      "learning_rate": 0.0009996964063553851,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 29144544,
+      "step": 13485
+    },
+    {
+      "epoch": 2.200652528548124,
+      "grad_norm": 0.03458193317055702,
+      "learning_rate": 0.0009996939212027045,
+      "loss": 0.126,
+      "num_input_tokens_seen": 29155936,
+      "step": 13490
+    },
+    {
+      "epoch": 2.201468189233279,
+      "grad_norm": 0.11294587701559067,
+      "learning_rate": 0.0009996914259230928,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 29166688,
+      "step": 13495
+    },
+    {
+      "epoch": 2.202283849918434,
+      "grad_norm": 0.1393410861492157,
+      "learning_rate": 0.0009996889205166003,
+      "loss": 0.124,
+      "num_input_tokens_seen": 29177568,
+      "step": 13500
+    },
+    {
+      "epoch": 2.203099510603589,
+      "grad_norm": 0.06924308836460114,
+      "learning_rate": 0.000999686404983278,
+      "loss": 0.1475,
+      "num_input_tokens_seen": 29187936,
+      "step": 13505
+    },
+    {
+      "epoch": 2.203915171288744,
+      "grad_norm": 0.023421689867973328,
+      "learning_rate": 0.0009996838793231771,
+      "loss": 0.155,
+      "num_input_tokens_seen": 29198208,
+      "step": 13510
+    },
+    {
+      "epoch": 2.2047308319738987,
+      "grad_norm": 0.1216554045677185,
+      "learning_rate": 0.0009996813435363481,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 29209248,
+      "step": 13515
+    },
+    {
+      "epoch": 2.205546492659054,
+      "grad_norm": 0.29664355516433716,
+      "learning_rate": 0.000999678797622843,
+      "loss": 0.2195,
+      "num_input_tokens_seen": 29220032,
+      "step": 13520
+    },
+    {
+      "epoch": 2.206362153344209,
+      "grad_norm": 0.22446954250335693,
+      "learning_rate": 0.000999676241582713,
+      "loss": 0.1816,
+      "num_input_tokens_seen": 29230432,
+      "step": 13525
+    },
+    {
+      "epoch": 2.2071778140293636,
+      "grad_norm": 0.077766552567482,
+      "learning_rate": 0.0009996736754160102,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 29241024,
+      "step": 13530
+    },
+    {
+      "epoch": 2.207993474714519,
+      "grad_norm": 0.12766964733600616,
+      "learning_rate": 0.0009996710991227865,
+      "loss": 0.1988,
+      "num_input_tokens_seen": 29252384,
+      "step": 13535
+    },
+    {
+      "epoch": 2.2088091353996737,
+      "grad_norm": 0.04737265780568123,
+      "learning_rate": 0.000999668512703094,
+      "loss": 0.13,
+      "num_input_tokens_seen": 29263648,
+      "step": 13540
+    },
+    {
+      "epoch": 2.2096247960848285,
+      "grad_norm": 0.1462884545326233,
+      "learning_rate": 0.0009996659161569852,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 29274016,
+      "step": 13545
+    },
+    {
+      "epoch": 2.210440456769984,
+      "grad_norm": 0.026576614007353783,
+      "learning_rate": 0.0009996633094845127,
+      "loss": 0.163,
+      "num_input_tokens_seen": 29284128,
+      "step": 13550
+    },
+    {
+      "epoch": 2.2112561174551386,
+      "grad_norm": 0.16052138805389404,
+      "learning_rate": 0.0009996606926857296,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 29294976,
+      "step": 13555
+    },
+    {
+      "epoch": 2.2120717781402934,
+      "grad_norm": 0.29137226939201355,
+      "learning_rate": 0.0009996580657606886,
+      "loss": 0.2453,
+      "num_input_tokens_seen": 29305696,
+      "step": 13560
+    },
+    {
+      "epoch": 2.2128874388254487,
+      "grad_norm": 0.14441095292568207,
+      "learning_rate": 0.0009996554287094428,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 29316000,
+      "step": 13565
+    },
+    {
+      "epoch": 2.2137030995106035,
+      "grad_norm": 0.10074219852685928,
+      "learning_rate": 0.0009996527815320463,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 29327872,
+      "step": 13570
+    },
+    {
+      "epoch": 2.2145187601957588,
+      "grad_norm": 0.043885741382837296,
+      "learning_rate": 0.000999650124228552,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 29338528,
+      "step": 13575
+    },
+    {
+      "epoch": 2.2153344208809136,
+      "grad_norm": 0.29121461510658264,
+      "learning_rate": 0.0009996474567990142,
+      "loss": 0.2077,
+      "num_input_tokens_seen": 29349568,
+      "step": 13580
+    },
+    {
+      "epoch": 2.2161500815660684,
+      "grad_norm": 0.026214681565761566,
+      "learning_rate": 0.0009996447792434868,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 29360544,
+      "step": 13585
+    },
+    {
+      "epoch": 2.2169657422512237,
+      "grad_norm": 0.11622193455696106,
+      "learning_rate": 0.000999642091562024,
+      "loss": 0.129,
+      "num_input_tokens_seen": 29371424,
+      "step": 13590
+    },
+    {
+      "epoch": 2.2177814029363785,
+      "grad_norm": 0.09396478533744812,
+      "learning_rate": 0.0009996393937546806,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 29382176,
+      "step": 13595
+    },
+    {
+      "epoch": 2.2185970636215333,
+      "grad_norm": 0.19870883226394653,
+      "learning_rate": 0.000999636685821511,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 29392672,
+      "step": 13600
+    },
+    {
+      "epoch": 2.2194127243066886,
+      "grad_norm": 0.013889658264815807,
+      "learning_rate": 0.0009996339677625702,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 29402816,
+      "step": 13605
+    },
+    {
+      "epoch": 2.2202283849918434,
+      "grad_norm": 0.20676304399967194,
+      "learning_rate": 0.000999631239577913,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 29415104,
+      "step": 13610
+    },
+    {
+      "epoch": 2.221044045676998,
+      "grad_norm": 0.3030164837837219,
+      "learning_rate": 0.000999628501267595,
+      "loss": 0.158,
+      "num_input_tokens_seen": 29425888,
+      "step": 13615
+    },
+    {
+      "epoch": 2.2218597063621535,
+      "grad_norm": 0.0975450873374939,
+      "learning_rate": 0.0009996257528316716,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 29436672,
+      "step": 13620
+    },
+    {
+      "epoch": 2.2226753670473083,
+      "grad_norm": 0.027641698718070984,
+      "learning_rate": 0.0009996229942701984,
+      "loss": 0.2582,
+      "num_input_tokens_seen": 29447744,
+      "step": 13625
+    },
+    {
+      "epoch": 2.223491027732463,
+      "grad_norm": 0.3274204730987549,
+      "learning_rate": 0.0009996202255832317,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 29458080,
+      "step": 13630
+    },
+    {
+      "epoch": 2.2243066884176184,
+      "grad_norm": 0.1280737817287445,
+      "learning_rate": 0.000999617446770827,
+      "loss": 0.1324,
+      "num_input_tokens_seen": 29468928,
+      "step": 13635
+    },
+    {
+      "epoch": 2.225122349102773,
+      "grad_norm": 0.027391565963625908,
+      "learning_rate": 0.0009996146578330409,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 29478624,
+      "step": 13640
+    },
+    {
+      "epoch": 2.225938009787928,
+      "grad_norm": 0.03806430846452713,
+      "learning_rate": 0.0009996118587699302,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 29489408,
+      "step": 13645
+    },
+    {
+      "epoch": 2.2267536704730833,
+      "grad_norm": 0.10042430460453033,
+      "learning_rate": 0.0009996090495815514,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 29498912,
+      "step": 13650
+    },
+    {
+      "epoch": 2.227569331158238,
+      "grad_norm": 0.2514718770980835,
+      "learning_rate": 0.000999606230267961,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 29509824,
+      "step": 13655
+    },
+    {
+      "epoch": 2.2283849918433933,
+      "grad_norm": 0.39634665846824646,
+      "learning_rate": 0.000999603400829217,
+      "loss": 0.2653,
+      "num_input_tokens_seen": 29521344,
+      "step": 13660
+    },
+    {
+      "epoch": 2.229200652528548,
+      "grad_norm": 0.3142750561237335,
+      "learning_rate": 0.0009996005612653762,
+      "loss": 0.1665,
+      "num_input_tokens_seen": 29533152,
+      "step": 13665
+    },
+    {
+      "epoch": 2.230016313213703,
+      "grad_norm": 0.06737440079450607,
+      "learning_rate": 0.000999597711576496,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 29543360,
+      "step": 13670
+    },
+    {
+      "epoch": 2.2308319738988582,
+      "grad_norm": 0.06384480744600296,
+      "learning_rate": 0.0009995948517626347,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 29555520,
+      "step": 13675
+    },
+    {
+      "epoch": 2.231647634584013,
+      "grad_norm": 0.057452812790870667,
+      "learning_rate": 0.0009995919818238496,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 29566528,
+      "step": 13680
+    },
+    {
+      "epoch": 2.232463295269168,
+      "grad_norm": 0.17521750926971436,
+      "learning_rate": 0.0009995891017601996,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 29578400,
+      "step": 13685
+    },
+    {
+      "epoch": 2.233278955954323,
+      "grad_norm": 0.017670799046754837,
+      "learning_rate": 0.0009995862115717426,
+      "loss": 0.116,
+      "num_input_tokens_seen": 29590528,
+      "step": 13690
+    },
+    {
+      "epoch": 2.234094616639478,
+      "grad_norm": 0.03287632763385773,
+      "learning_rate": 0.000999583311258537,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 29601856,
+      "step": 13695
+    },
+    {
+      "epoch": 2.2349102773246328,
+      "grad_norm": 0.12917554378509521,
+      "learning_rate": 0.000999580400820642,
+      "loss": 0.118,
+      "num_input_tokens_seen": 29613344,
+      "step": 13700
+    },
+    {
+      "epoch": 2.235725938009788,
+      "grad_norm": 0.060185208916664124,
+      "learning_rate": 0.0009995774802581165,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 29622656,
+      "step": 13705
+    },
+    {
+      "epoch": 2.236541598694943,
+      "grad_norm": 0.08099085092544556,
+      "learning_rate": 0.0009995745495710194,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 29633824,
+      "step": 13710
+    },
+    {
+      "epoch": 2.237357259380098,
+      "grad_norm": 0.015069660730659962,
+      "learning_rate": 0.0009995716087594104,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 29644608,
+      "step": 13715
+    },
+    {
+      "epoch": 2.238172920065253,
+      "grad_norm": 0.1912614107131958,
+      "learning_rate": 0.000999568657823349,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 29655648,
+      "step": 13720
+    },
+    {
+      "epoch": 2.2389885807504077,
+      "grad_norm": 0.07988587021827698,
+      "learning_rate": 0.000999565696762895,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 29666336,
+      "step": 13725
+    },
+    {
+      "epoch": 2.239804241435563,
+      "grad_norm": 0.10382115095853806,
+      "learning_rate": 0.0009995627255781083,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 29677792,
+      "step": 13730
+    },
+    {
+      "epoch": 2.240619902120718,
+      "grad_norm": 0.004169138614088297,
+      "learning_rate": 0.0009995597442690493,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 29687840,
+      "step": 13735
+    },
+    {
+      "epoch": 2.2414355628058726,
+      "grad_norm": 0.08007065951824188,
+      "learning_rate": 0.0009995567528357785,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 29698880,
+      "step": 13740
+    },
+    {
+      "epoch": 2.242251223491028,
+      "grad_norm": 0.04466477409005165,
+      "learning_rate": 0.0009995537512783562,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 29709408,
+      "step": 13745
+    },
+    {
+      "epoch": 2.2430668841761827,
+      "grad_norm": 0.003576258197426796,
+      "learning_rate": 0.0009995507395968435,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 29719712,
+      "step": 13750
+    },
+    {
+      "epoch": 2.2438825448613375,
+      "grad_norm": 0.2553325593471527,
+      "learning_rate": 0.0009995477177913014,
+      "loss": 0.2313,
+      "num_input_tokens_seen": 29730144,
+      "step": 13755
+    },
+    {
+      "epoch": 2.244698205546493,
+      "grad_norm": 0.10004813224077225,
+      "learning_rate": 0.0009995446858617908,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 29741408,
+      "step": 13760
+    },
+    {
+      "epoch": 2.2455138662316476,
+      "grad_norm": 0.08300987631082535,
+      "learning_rate": 0.0009995416438083736,
+      "loss": 0.169,
+      "num_input_tokens_seen": 29752736,
+      "step": 13765
+    },
+    {
+      "epoch": 2.2463295269168024,
+      "grad_norm": 0.11108089983463287,
+      "learning_rate": 0.0009995385916311112,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 29763680,
+      "step": 13770
+    },
+    {
+      "epoch": 2.2471451876019577,
+      "grad_norm": 0.21327409148216248,
+      "learning_rate": 0.0009995355293300656,
+      "loss": 0.1918,
+      "num_input_tokens_seen": 29773472,
+      "step": 13775
+    },
+    {
+      "epoch": 2.2479608482871125,
+      "grad_norm": 0.0419314019382,
+      "learning_rate": 0.0009995324569052988,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 29783776,
+      "step": 13780
+    },
+    {
+      "epoch": 2.2487765089722673,
+      "grad_norm": 0.06031573563814163,
+      "learning_rate": 0.000999529374356873,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 29794752,
+      "step": 13785
+    },
+    {
+      "epoch": 2.2495921696574226,
+      "grad_norm": 0.03626589849591255,
+      "learning_rate": 0.0009995262816848507,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 29805920,
+      "step": 13790
+    },
+    {
+      "epoch": 2.2504078303425774,
+      "grad_norm": 0.009249306283891201,
+      "learning_rate": 0.0009995231788892949,
+      "loss": 0.055,
+      "num_input_tokens_seen": 29817184,
+      "step": 13795
+    },
+    {
+      "epoch": 2.2512234910277327,
+      "grad_norm": 0.015564526431262493,
+      "learning_rate": 0.000999520065970268,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 29828448,
+      "step": 13800
+    },
+    {
+      "epoch": 2.2520391517128875,
+      "grad_norm": 0.13924640417099,
+      "learning_rate": 0.000999516942927833,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 29840512,
+      "step": 13805
+    },
+    {
+      "epoch": 2.2528548123980423,
+      "grad_norm": 0.09099038690328598,
+      "learning_rate": 0.0009995138097620537,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 29852608,
+      "step": 13810
+    },
+    {
+      "epoch": 2.2536704730831976,
+      "grad_norm": 0.2963365912437439,
+      "learning_rate": 0.0009995106664729934,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 29863488,
+      "step": 13815
+    },
+    {
+      "epoch": 2.2544861337683524,
+      "grad_norm": 0.11496601998806,
+      "learning_rate": 0.0009995075130607158,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 29874752,
+      "step": 13820
+    },
+    {
+      "epoch": 2.255301794453507,
+      "grad_norm": 0.09994488954544067,
+      "learning_rate": 0.0009995043495252848,
+      "loss": 0.2477,
+      "num_input_tokens_seen": 29886144,
+      "step": 13825
+    },
+    {
+      "epoch": 2.2561174551386625,
+      "grad_norm": 0.11016276478767395,
+      "learning_rate": 0.0009995011758667644,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 29896960,
+      "step": 13830
+    },
+    {
+      "epoch": 2.2569331158238173,
+      "grad_norm": 0.036299578845500946,
+      "learning_rate": 0.000999497992085219,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 29908096,
+      "step": 13835
+    },
+    {
+      "epoch": 2.257748776508972,
+      "grad_norm": 0.0857962816953659,
+      "learning_rate": 0.0009994947981807132,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 29918880,
+      "step": 13840
+    },
+    {
+      "epoch": 2.2585644371941274,
+      "grad_norm": 0.37297701835632324,
+      "learning_rate": 0.0009994915941533115,
+      "loss": 0.2363,
+      "num_input_tokens_seen": 29929152,
+      "step": 13845
+    },
+    {
+      "epoch": 2.259380097879282,
+      "grad_norm": 0.08345893025398254,
+      "learning_rate": 0.0009994883800030791,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 29938560,
+      "step": 13850
+    },
+    {
+      "epoch": 2.2601957585644374,
+      "grad_norm": 0.006022712681442499,
+      "learning_rate": 0.0009994851557300812,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 29948512,
+      "step": 13855
+    },
+    {
+      "epoch": 2.2610114192495923,
+      "grad_norm": 0.04013175144791603,
+      "learning_rate": 0.000999481921334383,
+      "loss": 0.2283,
+      "num_input_tokens_seen": 29958944,
+      "step": 13860
+    },
+    {
+      "epoch": 2.261827079934747,
+      "grad_norm": 0.07237616926431656,
+      "learning_rate": 0.0009994786768160496,
+      "loss": 0.2818,
+      "num_input_tokens_seen": 29970080,
+      "step": 13865
+    },
+    {
+      "epoch": 2.262642740619902,
+      "grad_norm": 0.1106957495212555,
+      "learning_rate": 0.0009994754221751474,
+      "loss": 0.087,
+      "num_input_tokens_seen": 29980256,
+      "step": 13870
+    },
+    {
+      "epoch": 2.263458401305057,
+      "grad_norm": 0.12279194593429565,
+      "learning_rate": 0.0009994721574117422,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 29991776,
+      "step": 13875
+    },
+    {
+      "epoch": 2.264274061990212,
+      "grad_norm": 0.09282184392213821,
+      "learning_rate": 0.0009994688825259001,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 30003232,
+      "step": 13880
+    },
+    {
+      "epoch": 2.2650897226753672,
+      "grad_norm": 0.036214679479599,
+      "learning_rate": 0.0009994655975176874,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 30013504,
+      "step": 13885
+    },
+    {
+      "epoch": 2.265905383360522,
+      "grad_norm": 0.19235451519489288,
+      "learning_rate": 0.0009994623023871709,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 30024256,
+      "step": 13890
+    },
+    {
+      "epoch": 2.266721044045677,
+      "grad_norm": 0.19567914307117462,
+      "learning_rate": 0.000999458997134417,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 30034656,
+      "step": 13895
+    },
+    {
+      "epoch": 2.267536704730832,
+      "grad_norm": 0.3461471199989319,
+      "learning_rate": 0.000999455681759493,
+      "loss": 0.2955,
+      "num_input_tokens_seen": 30045856,
+      "step": 13900
+    },
+    {
+      "epoch": 2.268352365415987,
+      "grad_norm": 0.10061849653720856,
+      "learning_rate": 0.0009994523562624662,
+      "loss": 0.2066,
+      "num_input_tokens_seen": 30056032,
+      "step": 13905
+    },
+    {
+      "epoch": 2.2691680261011418,
+      "grad_norm": 0.23414430022239685,
+      "learning_rate": 0.0009994490206434038,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 30067456,
+      "step": 13910
+    },
+    {
+      "epoch": 2.269983686786297,
+      "grad_norm": 0.16487205028533936,
+      "learning_rate": 0.000999445674902373,
+      "loss": 0.14,
+      "num_input_tokens_seen": 30078944,
+      "step": 13915
+    },
+    {
+      "epoch": 2.270799347471452,
+      "grad_norm": 0.1677953600883484,
+      "learning_rate": 0.0009994423190394423,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 30089536,
+      "step": 13920
+    },
+    {
+      "epoch": 2.2716150081566067,
+      "grad_norm": 0.10743577778339386,
+      "learning_rate": 0.0009994389530546795,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 30100256,
+      "step": 13925
+    },
+    {
+      "epoch": 2.272430668841762,
+      "grad_norm": 0.17737969756126404,
+      "learning_rate": 0.0009994355769481524,
+      "loss": 0.14,
+      "num_input_tokens_seen": 30110368,
+      "step": 13930
+    },
+    {
+      "epoch": 2.2732463295269167,
+      "grad_norm": 0.1521010547876358,
+      "learning_rate": 0.00099943219071993,
+      "loss": 0.2311,
+      "num_input_tokens_seen": 30122080,
+      "step": 13935
+    },
+    {
+      "epoch": 2.274061990212072,
+      "grad_norm": 0.12245091050863266,
+      "learning_rate": 0.0009994287943700807,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 30132736,
+      "step": 13940
+    },
+    {
+      "epoch": 2.274877650897227,
+      "grad_norm": 0.13133811950683594,
+      "learning_rate": 0.0009994253878986732,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 30142624,
+      "step": 13945
+    },
+    {
+      "epoch": 2.2756933115823816,
+      "grad_norm": 0.13661529123783112,
+      "learning_rate": 0.0009994219713057768,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 30153632,
+      "step": 13950
+    },
+    {
+      "epoch": 2.2765089722675365,
+      "grad_norm": 0.08187350630760193,
+      "learning_rate": 0.0009994185445914604,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 30165056,
+      "step": 13955
+    },
+    {
+      "epoch": 2.2773246329526917,
+      "grad_norm": 0.12019728869199753,
+      "learning_rate": 0.000999415107755794,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 30176480,
+      "step": 13960
+    },
+    {
+      "epoch": 2.2781402936378465,
+      "grad_norm": 0.04871026799082756,
+      "learning_rate": 0.0009994116607988464,
+      "loss": 0.2142,
+      "num_input_tokens_seen": 30187200,
+      "step": 13965
+    },
+    {
+      "epoch": 2.278955954323002,
+      "grad_norm": 0.03447539359331131,
+      "learning_rate": 0.0009994082037206881,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 30198336,
+      "step": 13970
+    },
+    {
+      "epoch": 2.2797716150081566,
+      "grad_norm": 0.09334293007850647,
+      "learning_rate": 0.0009994047365213892,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 30208416,
+      "step": 13975
+    },
+    {
+      "epoch": 2.2805872756933114,
+      "grad_norm": 0.07840663939714432,
+      "learning_rate": 0.0009994012592010196,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 30219424,
+      "step": 13980
+    },
+    {
+      "epoch": 2.2814029363784667,
+      "grad_norm": 0.24991539120674133,
+      "learning_rate": 0.00099939777175965,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 30229440,
+      "step": 13985
+    },
+    {
+      "epoch": 2.2822185970636215,
+      "grad_norm": 0.02840086817741394,
+      "learning_rate": 0.000999394274197351,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 30241088,
+      "step": 13990
+    },
+    {
+      "epoch": 2.2830342577487763,
+      "grad_norm": 0.11454634368419647,
+      "learning_rate": 0.0009993907665141934,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 30252672,
+      "step": 13995
+    },
+    {
+      "epoch": 2.2838499184339316,
+      "grad_norm": 0.43254274129867554,
+      "learning_rate": 0.0009993872487102486,
+      "loss": 0.1782,
+      "num_input_tokens_seen": 30263712,
+      "step": 14000
+    },
+    {
+      "epoch": 2.2846655791190864,
+      "grad_norm": 0.27640798687934875,
+      "learning_rate": 0.0009993837207855876,
+      "loss": 0.2381,
+      "num_input_tokens_seen": 30275200,
+      "step": 14005
+    },
+    {
+      "epoch": 2.2854812398042412,
+      "grad_norm": 0.36231812834739685,
+      "learning_rate": 0.000999380182740282,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 30286080,
+      "step": 14010
+    },
+    {
+      "epoch": 2.2862969004893965,
+      "grad_norm": 0.07490170747041702,
+      "learning_rate": 0.0009993766345744036,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 30297504,
+      "step": 14015
+    },
+    {
+      "epoch": 2.2871125611745513,
+      "grad_norm": 0.07344070076942444,
+      "learning_rate": 0.000999373076288024,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 30308704,
+      "step": 14020
+    },
+    {
+      "epoch": 2.2879282218597066,
+      "grad_norm": 0.027155442163348198,
+      "learning_rate": 0.0009993695078812156,
+      "loss": 0.064,
+      "num_input_tokens_seen": 30318208,
+      "step": 14025
+    },
+    {
+      "epoch": 2.2887438825448614,
+      "grad_norm": 0.04195243865251541,
+      "learning_rate": 0.0009993659293540506,
+      "loss": 0.3038,
+      "num_input_tokens_seen": 30328480,
+      "step": 14030
+    },
+    {
+      "epoch": 2.289559543230016,
+      "grad_norm": 0.05106004700064659,
+      "learning_rate": 0.0009993623407066016,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 30339200,
+      "step": 14035
+    },
+    {
+      "epoch": 2.2903752039151715,
+      "grad_norm": 0.032931577414274216,
+      "learning_rate": 0.0009993587419389412,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 30348864,
+      "step": 14040
+    },
+    {
+      "epoch": 2.2911908646003263,
+      "grad_norm": 0.1499442309141159,
+      "learning_rate": 0.0009993551330511423,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 30360064,
+      "step": 14045
+    },
+    {
+      "epoch": 2.292006525285481,
+      "grad_norm": 0.07077664136886597,
+      "learning_rate": 0.0009993515140432783,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 30371616,
+      "step": 14050
+    },
+    {
+      "epoch": 2.2928221859706364,
+      "grad_norm": 0.11122244596481323,
+      "learning_rate": 0.0009993478849154224,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 30382976,
+      "step": 14055
+    },
+    {
+      "epoch": 2.293637846655791,
+      "grad_norm": 0.016836611554026604,
+      "learning_rate": 0.0009993442456676482,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 30395040,
+      "step": 14060
+    },
+    {
+      "epoch": 2.294453507340946,
+      "grad_norm": 0.1562366485595703,
+      "learning_rate": 0.0009993405963000294,
+      "loss": 0.083,
+      "num_input_tokens_seen": 30405792,
+      "step": 14065
+    },
+    {
+      "epoch": 2.2952691680261013,
+      "grad_norm": 0.07218848168849945,
+      "learning_rate": 0.00099933693681264,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 30418272,
+      "step": 14070
+    },
+    {
+      "epoch": 2.296084828711256,
+      "grad_norm": 0.2335197776556015,
+      "learning_rate": 0.000999333267205554,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 30429472,
+      "step": 14075
+    },
+    {
+      "epoch": 2.2969004893964113,
+      "grad_norm": 0.0899466797709465,
+      "learning_rate": 0.000999329587478846,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 30439456,
+      "step": 14080
+    },
+    {
+      "epoch": 2.297716150081566,
+      "grad_norm": 0.14783619344234467,
+      "learning_rate": 0.0009993258976325903,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 30451168,
+      "step": 14085
+    },
+    {
+      "epoch": 2.298531810766721,
+      "grad_norm": 0.08867207169532776,
+      "learning_rate": 0.0009993221976668618,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 30461888,
+      "step": 14090
+    },
+    {
+      "epoch": 2.299347471451876,
+      "grad_norm": 0.09165129065513611,
+      "learning_rate": 0.0009993184875817357,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 30472128,
+      "step": 14095
+    },
+    {
+      "epoch": 2.300163132137031,
+      "grad_norm": 0.5241231918334961,
+      "learning_rate": 0.0009993147673772868,
+      "loss": 0.3387,
+      "num_input_tokens_seen": 30482624,
+      "step": 14100
+    },
+    {
+      "epoch": 2.300978792822186,
+      "grad_norm": 0.1067451611161232,
+      "learning_rate": 0.000999311037053591,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 30495104,
+      "step": 14105
+    },
+    {
+      "epoch": 2.301794453507341,
+      "grad_norm": 0.19375212490558624,
+      "learning_rate": 0.0009993072966107235,
+      "loss": 0.1801,
+      "num_input_tokens_seen": 30506368,
+      "step": 14110
+    },
+    {
+      "epoch": 2.302610114192496,
+      "grad_norm": 0.05557816103100777,
+      "learning_rate": 0.0009993035460487602,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 30516608,
+      "step": 14115
+    },
+    {
+      "epoch": 2.3034257748776508,
+      "grad_norm": 0.15730692446231842,
+      "learning_rate": 0.0009992997853677773,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 30526944,
+      "step": 14120
+    },
+    {
+      "epoch": 2.304241435562806,
+      "grad_norm": 0.07870891690254211,
+      "learning_rate": 0.0009992960145678506,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 30537216,
+      "step": 14125
+    },
+    {
+      "epoch": 2.305057096247961,
+      "grad_norm": 0.19272860884666443,
+      "learning_rate": 0.0009992922336490568,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 30547904,
+      "step": 14130
+    },
+    {
+      "epoch": 2.3058727569331157,
+      "grad_norm": 0.13096141815185547,
+      "learning_rate": 0.0009992884426114725,
+      "loss": 0.2245,
+      "num_input_tokens_seen": 30559328,
+      "step": 14135
+    },
+    {
+      "epoch": 2.306688417618271,
+      "grad_norm": 0.12387151271104813,
+      "learning_rate": 0.0009992846414551746,
+      "loss": 0.2344,
+      "num_input_tokens_seen": 30571424,
+      "step": 14140
+    },
+    {
+      "epoch": 2.3075040783034257,
+      "grad_norm": 0.06615098565816879,
+      "learning_rate": 0.00099928083018024,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 30582560,
+      "step": 14145
+    },
+    {
+      "epoch": 2.3083197389885806,
+      "grad_norm": 0.156528040766716,
+      "learning_rate": 0.000999277008786746,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 30593568,
+      "step": 14150
+    },
+    {
+      "epoch": 2.309135399673736,
+      "grad_norm": 0.0884905606508255,
+      "learning_rate": 0.0009992731772747701,
+      "loss": 0.188,
+      "num_input_tokens_seen": 30604704,
+      "step": 14155
+    },
+    {
+      "epoch": 2.3099510603588906,
+      "grad_norm": 0.1028173565864563,
+      "learning_rate": 0.0009992693356443898,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 30615200,
+      "step": 14160
+    },
+    {
+      "epoch": 2.310766721044046,
+      "grad_norm": 0.06769051402807236,
+      "learning_rate": 0.0009992654838956831,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 30626016,
+      "step": 14165
+    },
+    {
+      "epoch": 2.3115823817292007,
+      "grad_norm": 0.06213633716106415,
+      "learning_rate": 0.000999261622028728,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 30637056,
+      "step": 14170
+    },
+    {
+      "epoch": 2.3123980424143555,
+      "grad_norm": 0.1374928504228592,
+      "learning_rate": 0.0009992577500436027,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 30647616,
+      "step": 14175
+    },
+    {
+      "epoch": 2.3132137030995104,
+      "grad_norm": 0.027195928618311882,
+      "learning_rate": 0.0009992538679403857,
+      "loss": 0.1721,
+      "num_input_tokens_seen": 30658848,
+      "step": 14180
+    },
+    {
+      "epoch": 2.3140293637846656,
+      "grad_norm": 0.07334202527999878,
+      "learning_rate": 0.0009992499757191559,
+      "loss": 0.129,
+      "num_input_tokens_seen": 30669952,
+      "step": 14185
+    },
+    {
+      "epoch": 2.3148450244698204,
+      "grad_norm": 0.16840721666812897,
+      "learning_rate": 0.000999246073379992,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 30680576,
+      "step": 14190
+    },
+    {
+      "epoch": 2.3156606851549757,
+      "grad_norm": 0.006261528003960848,
+      "learning_rate": 0.0009992421609229729,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 30689984,
+      "step": 14195
+    },
+    {
+      "epoch": 2.3164763458401305,
+      "grad_norm": 0.11172261834144592,
+      "learning_rate": 0.0009992382383481782,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 30701696,
+      "step": 14200
+    },
+    {
+      "epoch": 2.3172920065252853,
+      "grad_norm": 0.21091987192630768,
+      "learning_rate": 0.0009992343056556873,
+      "loss": 0.1625,
+      "num_input_tokens_seen": 30712064,
+      "step": 14205
+    },
+    {
+      "epoch": 2.3181076672104406,
+      "grad_norm": 0.19095903635025024,
+      "learning_rate": 0.0009992303628455796,
+      "loss": 0.154,
+      "num_input_tokens_seen": 30723040,
+      "step": 14210
+    },
+    {
+      "epoch": 2.3189233278955954,
+      "grad_norm": 0.14958035945892334,
+      "learning_rate": 0.0009992264099179355,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 30734720,
+      "step": 14215
+    },
+    {
+      "epoch": 2.3197389885807502,
+      "grad_norm": 0.207402765750885,
+      "learning_rate": 0.000999222446872835,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 30747008,
+      "step": 14220
+    },
+    {
+      "epoch": 2.3205546492659055,
+      "grad_norm": 0.07774131745100021,
+      "learning_rate": 0.0009992184737103583,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 30757248,
+      "step": 14225
+    },
+    {
+      "epoch": 2.3213703099510603,
+      "grad_norm": 0.06501632183790207,
+      "learning_rate": 0.0009992144904305857,
+      "loss": 0.119,
+      "num_input_tokens_seen": 30768736,
+      "step": 14230
+    },
+    {
+      "epoch": 2.322185970636215,
+      "grad_norm": 0.19293227791786194,
+      "learning_rate": 0.0009992104970335982,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 30779264,
+      "step": 14235
+    },
+    {
+      "epoch": 2.3230016313213704,
+      "grad_norm": 0.32836616039276123,
+      "learning_rate": 0.0009992064935194767,
+      "loss": 0.2237,
+      "num_input_tokens_seen": 30790592,
+      "step": 14240
+    },
+    {
+      "epoch": 2.323817292006525,
+      "grad_norm": 0.04832938686013222,
+      "learning_rate": 0.0009992024798883025,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 30802208,
+      "step": 14245
+    },
+    {
+      "epoch": 2.3246329526916805,
+      "grad_norm": 0.20137490332126617,
+      "learning_rate": 0.0009991984561401566,
+      "loss": 0.1799,
+      "num_input_tokens_seen": 30812160,
+      "step": 14250
+    },
+    {
+      "epoch": 2.3254486133768353,
+      "grad_norm": 0.12982739508152008,
+      "learning_rate": 0.0009991944222751208,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 30823040,
+      "step": 14255
+    },
+    {
+      "epoch": 2.32626427406199,
+      "grad_norm": 0.11527493596076965,
+      "learning_rate": 0.0009991903782932765,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 30833760,
+      "step": 14260
+    },
+    {
+      "epoch": 2.3270799347471454,
+      "grad_norm": 0.009630398824810982,
+      "learning_rate": 0.0009991863241947062,
+      "loss": 0.1292,
+      "num_input_tokens_seen": 30845216,
+      "step": 14265
+    },
+    {
+      "epoch": 2.3278955954323,
+      "grad_norm": 0.2665800154209137,
+      "learning_rate": 0.0009991822599794916,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 30855200,
+      "step": 14270
+    },
+    {
+      "epoch": 2.328711256117455,
+      "grad_norm": 0.21644163131713867,
+      "learning_rate": 0.0009991781856477156,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 30865696,
+      "step": 14275
+    },
+    {
+      "epoch": 2.3295269168026103,
+      "grad_norm": 0.11290088295936584,
+      "learning_rate": 0.00099917410119946,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 30877472,
+      "step": 14280
+    },
+    {
+      "epoch": 2.330342577487765,
+      "grad_norm": 0.09280723333358765,
+      "learning_rate": 0.0009991700066348081,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 30887552,
+      "step": 14285
+    },
+    {
+      "epoch": 2.33115823817292,
+      "grad_norm": 0.04525647312402725,
+      "learning_rate": 0.000999165901953843,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 30898432,
+      "step": 14290
+    },
+    {
+      "epoch": 2.331973898858075,
+      "grad_norm": 0.1614445596933365,
+      "learning_rate": 0.0009991617871566473,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 30908000,
+      "step": 14295
+    },
+    {
+      "epoch": 2.33278955954323,
+      "grad_norm": 0.08257835358381271,
+      "learning_rate": 0.000999157662243305,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 30920256,
+      "step": 14300
+    },
+    {
+      "epoch": 2.3336052202283852,
+      "grad_norm": 0.010302538052201271,
+      "learning_rate": 0.0009991535272138995,
+      "loss": 0.3769,
+      "num_input_tokens_seen": 30931232,
+      "step": 14305
+    },
+    {
+      "epoch": 2.33442088091354,
+      "grad_norm": 0.05618816241621971,
+      "learning_rate": 0.0009991493820685142,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 30941536,
+      "step": 14310
+    },
+    {
+      "epoch": 2.335236541598695,
+      "grad_norm": 0.04763595759868622,
+      "learning_rate": 0.000999145226807234,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 30951872,
+      "step": 14315
+    },
+    {
+      "epoch": 2.3360522022838497,
+      "grad_norm": 0.028318610042333603,
+      "learning_rate": 0.000999141061430142,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 30961792,
+      "step": 14320
+    },
+    {
+      "epoch": 2.336867862969005,
+      "grad_norm": 0.20109055936336517,
+      "learning_rate": 0.0009991368859373236,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 30971968,
+      "step": 14325
+    },
+    {
+      "epoch": 2.3376835236541598,
+      "grad_norm": 0.057134952396154404,
+      "learning_rate": 0.0009991327003288626,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 30983456,
+      "step": 14330
+    },
+    {
+      "epoch": 2.338499184339315,
+      "grad_norm": 0.07061900943517685,
+      "learning_rate": 0.0009991285046048446,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 30994400,
+      "step": 14335
+    },
+    {
+      "epoch": 2.33931484502447,
+      "grad_norm": 0.06494476646184921,
+      "learning_rate": 0.0009991242987653541,
+      "loss": 0.2292,
+      "num_input_tokens_seen": 31005280,
+      "step": 14340
+    },
+    {
+      "epoch": 2.3401305057096247,
+      "grad_norm": 0.18833774328231812,
+      "learning_rate": 0.0009991200828104766,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 31015264,
+      "step": 14345
+    },
+    {
+      "epoch": 2.34094616639478,
+      "grad_norm": 0.06600786000490189,
+      "learning_rate": 0.0009991158567402973,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 31023776,
+      "step": 14350
+    },
+    {
+      "epoch": 2.3417618270799347,
+      "grad_norm": 0.3423004746437073,
+      "learning_rate": 0.0009991116205549022,
+      "loss": 0.3825,
+      "num_input_tokens_seen": 31035232,
+      "step": 14355
+    },
+    {
+      "epoch": 2.3425774877650896,
+      "grad_norm": 0.21730433404445648,
+      "learning_rate": 0.0009991073742543768,
+      "loss": 0.1815,
+      "num_input_tokens_seen": 31046688,
+      "step": 14360
+    },
+    {
+      "epoch": 2.343393148450245,
+      "grad_norm": 0.03402172401547432,
+      "learning_rate": 0.0009991031178388072,
+      "loss": 0.086,
+      "num_input_tokens_seen": 31056928,
+      "step": 14365
+    },
+    {
+      "epoch": 2.3442088091353996,
+      "grad_norm": 0.05237003415822983,
+      "learning_rate": 0.0009990988513082799,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 31067616,
+      "step": 14370
+    },
+    {
+      "epoch": 2.3450244698205545,
+      "grad_norm": 0.06425706297159195,
+      "learning_rate": 0.0009990945746628812,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 31079648,
+      "step": 14375
+    },
+    {
+      "epoch": 2.3458401305057097,
+      "grad_norm": 0.07050355523824692,
+      "learning_rate": 0.0009990902879026978,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 31091040,
+      "step": 14380
+    },
+    {
+      "epoch": 2.3466557911908645,
+      "grad_norm": 0.09159641712903976,
+      "learning_rate": 0.0009990859910278167,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 31101024,
+      "step": 14385
+    },
+    {
+      "epoch": 2.34747145187602,
+      "grad_norm": 0.17783799767494202,
+      "learning_rate": 0.0009990816840383247,
+      "loss": 0.113,
+      "num_input_tokens_seen": 31111520,
+      "step": 14390
+    },
+    {
+      "epoch": 2.3482871125611746,
+      "grad_norm": 0.12338680028915405,
+      "learning_rate": 0.0009990773669343092,
+      "loss": 0.136,
+      "num_input_tokens_seen": 31123680,
+      "step": 14395
+    },
+    {
+      "epoch": 2.3491027732463294,
+      "grad_norm": 0.08523198962211609,
+      "learning_rate": 0.0009990730397158578,
+      "loss": 0.1999,
+      "num_input_tokens_seen": 31132768,
+      "step": 14400
+    },
+    {
+      "epoch": 2.3499184339314847,
+      "grad_norm": 0.27966123819351196,
+      "learning_rate": 0.0009990687023830583,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 31144960,
+      "step": 14405
+    },
+    {
+      "epoch": 2.3507340946166395,
+      "grad_norm": 0.06837616860866547,
+      "learning_rate": 0.0009990643549359982,
+      "loss": 0.06,
+      "num_input_tokens_seen": 31155872,
+      "step": 14410
+    },
+    {
+      "epoch": 2.3515497553017943,
+      "grad_norm": 0.034586962312459946,
+      "learning_rate": 0.0009990599973747657,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 31166912,
+      "step": 14415
+    },
+    {
+      "epoch": 2.3523654159869496,
+      "grad_norm": 0.1494152545928955,
+      "learning_rate": 0.0009990556296994497,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 31177504,
+      "step": 14420
+    },
+    {
+      "epoch": 2.3531810766721044,
+      "grad_norm": 0.03763037547469139,
+      "learning_rate": 0.000999051251910138,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 31188576,
+      "step": 14425
+    },
+    {
+      "epoch": 2.3539967373572592,
+      "grad_norm": 0.05461564660072327,
+      "learning_rate": 0.0009990468640069196,
+      "loss": 0.085,
+      "num_input_tokens_seen": 31199136,
+      "step": 14430
+    },
+    {
+      "epoch": 2.3548123980424145,
+      "grad_norm": 0.02698604017496109,
+      "learning_rate": 0.0009990424659898833,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 31209408,
+      "step": 14435
+    },
+    {
+      "epoch": 2.3556280587275693,
+      "grad_norm": 0.05417114123702049,
+      "learning_rate": 0.0009990380578591186,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 31220128,
+      "step": 14440
+    },
+    {
+      "epoch": 2.356443719412724,
+      "grad_norm": 0.1396542489528656,
+      "learning_rate": 0.0009990336396147144,
+      "loss": 0.232,
+      "num_input_tokens_seen": 31230944,
+      "step": 14445
+    },
+    {
+      "epoch": 2.3572593800978794,
+      "grad_norm": 0.07993250340223312,
+      "learning_rate": 0.0009990292112567606,
+      "loss": 0.1641,
+      "num_input_tokens_seen": 31241888,
+      "step": 14450
+    },
+    {
+      "epoch": 2.358075040783034,
+      "grad_norm": 0.22863461077213287,
+      "learning_rate": 0.0009990247727853466,
+      "loss": 0.114,
+      "num_input_tokens_seen": 31252480,
+      "step": 14455
+    },
+    {
+      "epoch": 2.358890701468189,
+      "grad_norm": 0.039005108177661896,
+      "learning_rate": 0.0009990203242005626,
+      "loss": 0.1857,
+      "num_input_tokens_seen": 31263296,
+      "step": 14460
+    },
+    {
+      "epoch": 2.3597063621533443,
+      "grad_norm": 0.06166834011673927,
+      "learning_rate": 0.0009990158655024985,
+      "loss": 0.3229,
+      "num_input_tokens_seen": 31274880,
+      "step": 14465
+    },
+    {
+      "epoch": 2.360522022838499,
+      "grad_norm": 0.2376435250043869,
+      "learning_rate": 0.0009990113966912451,
+      "loss": 0.2014,
+      "num_input_tokens_seen": 31285600,
+      "step": 14470
+    },
+    {
+      "epoch": 2.3613376835236544,
+      "grad_norm": 0.17259903252124786,
+      "learning_rate": 0.0009990069177668926,
+      "loss": 0.1741,
+      "num_input_tokens_seen": 31296288,
+      "step": 14475
+    },
+    {
+      "epoch": 2.362153344208809,
+      "grad_norm": 0.06873729079961777,
+      "learning_rate": 0.0009990024287295318,
+      "loss": 0.1471,
+      "num_input_tokens_seen": 31307264,
+      "step": 14480
+    },
+    {
+      "epoch": 2.362969004893964,
+      "grad_norm": 0.042510055005550385,
+      "learning_rate": 0.000998997929579254,
+      "loss": 0.083,
+      "num_input_tokens_seen": 31317568,
+      "step": 14485
+    },
+    {
+      "epoch": 2.3637846655791193,
+      "grad_norm": 0.02149435691535473,
+      "learning_rate": 0.0009989934203161498,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 31329792,
+      "step": 14490
+    },
+    {
+      "epoch": 2.364600326264274,
+      "grad_norm": 0.07500947266817093,
+      "learning_rate": 0.0009989889009403112,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 31341824,
+      "step": 14495
+    },
+    {
+      "epoch": 2.365415986949429,
+      "grad_norm": 0.16817909479141235,
+      "learning_rate": 0.0009989843714518294,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 31354112,
+      "step": 14500
+    },
+    {
+      "epoch": 2.366231647634584,
+      "grad_norm": 0.12466907501220703,
+      "learning_rate": 0.0009989798318507962,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 31365664,
+      "step": 14505
+    },
+    {
+      "epoch": 2.367047308319739,
+      "grad_norm": 0.020459629595279694,
+      "learning_rate": 0.0009989752821373038,
+      "loss": 0.1951,
+      "num_input_tokens_seen": 31376864,
+      "step": 14510
+    },
+    {
+      "epoch": 2.367862969004894,
+      "grad_norm": 0.11784857511520386,
+      "learning_rate": 0.0009989707223114444,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 31386816,
+      "step": 14515
+    },
+    {
+      "epoch": 2.368678629690049,
+      "grad_norm": 0.008937754668295383,
+      "learning_rate": 0.0009989661523733102,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 31398368,
+      "step": 14520
+    },
+    {
+      "epoch": 2.369494290375204,
+      "grad_norm": 0.09518945962190628,
+      "learning_rate": 0.000998961572322994,
+      "loss": 0.3046,
+      "num_input_tokens_seen": 31408864,
+      "step": 14525
+    },
+    {
+      "epoch": 2.370309951060359,
+      "grad_norm": 0.061172470450401306,
+      "learning_rate": 0.0009989569821605886,
+      "loss": 0.2233,
+      "num_input_tokens_seen": 31420256,
+      "step": 14530
+    },
+    {
+      "epoch": 2.371125611745514,
+      "grad_norm": 0.12996791303157806,
+      "learning_rate": 0.0009989523818861867,
+      "loss": 0.2008,
+      "num_input_tokens_seen": 31430016,
+      "step": 14535
+    },
+    {
+      "epoch": 2.3719412724306688,
+      "grad_norm": 0.04465119168162346,
+      "learning_rate": 0.0009989477714998822,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 31440128,
+      "step": 14540
+    },
+    {
+      "epoch": 2.3727569331158236,
+      "grad_norm": 0.17468681931495667,
+      "learning_rate": 0.000998943151001768,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 31451872,
+      "step": 14545
+    },
+    {
+      "epoch": 2.373572593800979,
+      "grad_norm": 0.04149039462208748,
+      "learning_rate": 0.0009989385203919379,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 31463776,
+      "step": 14550
+    },
+    {
+      "epoch": 2.3743882544861337,
+      "grad_norm": 0.1784275621175766,
+      "learning_rate": 0.0009989338796704856,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 31475136,
+      "step": 14555
+    },
+    {
+      "epoch": 2.375203915171289,
+      "grad_norm": 0.06148466467857361,
+      "learning_rate": 0.0009989292288375053,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 31486176,
+      "step": 14560
+    },
+    {
+      "epoch": 2.3760195758564437,
+      "grad_norm": 0.054308172315359116,
+      "learning_rate": 0.0009989245678930915,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 31497504,
+      "step": 14565
+    },
+    {
+      "epoch": 2.3768352365415986,
+      "grad_norm": 0.23977619409561157,
+      "learning_rate": 0.0009989198968373381,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 31509664,
+      "step": 14570
+    },
+    {
+      "epoch": 2.377650897226754,
+      "grad_norm": 0.59047532081604,
+      "learning_rate": 0.0009989152156703403,
+      "loss": 0.1587,
+      "num_input_tokens_seen": 31520352,
+      "step": 14575
+    },
+    {
+      "epoch": 2.3784665579119086,
+      "grad_norm": 0.14900071918964386,
+      "learning_rate": 0.0009989105243921926,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 31530496,
+      "step": 14580
+    },
+    {
+      "epoch": 2.3792822185970635,
+      "grad_norm": 0.012715587392449379,
+      "learning_rate": 0.0009989058230029904,
+      "loss": 0.067,
+      "num_input_tokens_seen": 31540480,
+      "step": 14585
+    },
+    {
+      "epoch": 2.3800978792822187,
+      "grad_norm": 0.06799346208572388,
+      "learning_rate": 0.0009989011115028286,
+      "loss": 0.1453,
+      "num_input_tokens_seen": 31551808,
+      "step": 14590
+    },
+    {
+      "epoch": 2.3809135399673735,
+      "grad_norm": 0.01626054011285305,
+      "learning_rate": 0.0009988963898918029,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 31562752,
+      "step": 14595
+    },
+    {
+      "epoch": 2.3817292006525284,
+      "grad_norm": 0.0843578651547432,
+      "learning_rate": 0.000998891658170009,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 31573600,
+      "step": 14600
+    },
+    {
+      "epoch": 2.3825448613376836,
+      "grad_norm": 0.09764565527439117,
+      "learning_rate": 0.0009988869163375428,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 31584128,
+      "step": 14605
+    },
+    {
+      "epoch": 2.3833605220228384,
+      "grad_norm": 0.10026843100786209,
+      "learning_rate": 0.0009988821643945002,
+      "loss": 0.107,
+      "num_input_tokens_seen": 31594880,
+      "step": 14610
+    },
+    {
+      "epoch": 2.3841761827079937,
+      "grad_norm": 0.07060685753822327,
+      "learning_rate": 0.0009988774023409776,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 31605984,
+      "step": 14615
+    },
+    {
+      "epoch": 2.3849918433931485,
+      "grad_norm": 0.013278050348162651,
+      "learning_rate": 0.0009988726301770718,
+      "loss": 0.2176,
+      "num_input_tokens_seen": 31616960,
+      "step": 14620
+    },
+    {
+      "epoch": 2.3858075040783033,
+      "grad_norm": 0.05854358151555061,
+      "learning_rate": 0.0009988678479028793,
+      "loss": 0.025,
+      "num_input_tokens_seen": 31628896,
+      "step": 14625
+    },
+    {
+      "epoch": 2.3866231647634586,
+      "grad_norm": 0.27456170320510864,
+      "learning_rate": 0.000998863055518497,
+      "loss": 0.1917,
+      "num_input_tokens_seen": 31640480,
+      "step": 14630
+    },
+    {
+      "epoch": 2.3874388254486134,
+      "grad_norm": 0.016536332666873932,
+      "learning_rate": 0.0009988582530240217,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 31651392,
+      "step": 14635
+    },
+    {
+      "epoch": 2.3882544861337682,
+      "grad_norm": 0.09446101635694504,
+      "learning_rate": 0.0009988534404195516,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 31661472,
+      "step": 14640
+    },
+    {
+      "epoch": 2.3890701468189235,
+      "grad_norm": 0.5649963021278381,
+      "learning_rate": 0.000998848617705183,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 31672224,
+      "step": 14645
+    },
+    {
+      "epoch": 2.3898858075040783,
+      "grad_norm": 0.03826959431171417,
+      "learning_rate": 0.000998843784881015,
+      "loss": 0.2156,
+      "num_input_tokens_seen": 31683392,
+      "step": 14650
+    },
+    {
+      "epoch": 2.390701468189233,
+      "grad_norm": 0.12697307765483856,
+      "learning_rate": 0.0009988389419471446,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 31694720,
+      "step": 14655
+    },
+    {
+      "epoch": 2.3915171288743884,
+      "grad_norm": 0.10490674525499344,
+      "learning_rate": 0.0009988340889036701,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 31705024,
+      "step": 14660
+    },
+    {
+      "epoch": 2.392332789559543,
+      "grad_norm": 0.29427623748779297,
+      "learning_rate": 0.0009988292257506902,
+      "loss": 0.3219,
+      "num_input_tokens_seen": 31717440,
+      "step": 14665
+    },
+    {
+      "epoch": 2.393148450244698,
+      "grad_norm": 0.20007169246673584,
+      "learning_rate": 0.000998824352488303,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 31729632,
+      "step": 14670
+    },
+    {
+      "epoch": 2.3939641109298533,
+      "grad_norm": 0.19052647054195404,
+      "learning_rate": 0.0009988194691166077,
+      "loss": 0.155,
+      "num_input_tokens_seen": 31739648,
+      "step": 14675
+    },
+    {
+      "epoch": 2.394779771615008,
+      "grad_norm": 0.060261037200689316,
+      "learning_rate": 0.000998814575635703,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 31750944,
+      "step": 14680
+    },
+    {
+      "epoch": 2.395595432300163,
+      "grad_norm": 0.11980581283569336,
+      "learning_rate": 0.000998809672045688,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 31760416,
+      "step": 14685
+    },
+    {
+      "epoch": 2.396411092985318,
+      "grad_norm": 0.0499906986951828,
+      "learning_rate": 0.0009988047583466622,
+      "loss": 0.1829,
+      "num_input_tokens_seen": 31770336,
+      "step": 14690
+    },
+    {
+      "epoch": 2.397226753670473,
+      "grad_norm": 0.09711778163909912,
+      "learning_rate": 0.0009987998345387255,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 31782208,
+      "step": 14695
+    },
+    {
+      "epoch": 2.3980424143556283,
+      "grad_norm": 0.171736478805542,
+      "learning_rate": 0.000998794900621977,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 31792576,
+      "step": 14700
+    },
+    {
+      "epoch": 2.398858075040783,
+      "grad_norm": 0.27212202548980713,
+      "learning_rate": 0.0009987899565965172,
+      "loss": 0.104,
+      "num_input_tokens_seen": 31802656,
+      "step": 14705
+    },
+    {
+      "epoch": 2.399673735725938,
+      "grad_norm": 0.01339148823171854,
+      "learning_rate": 0.0009987850024624463,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 31812896,
+      "step": 14710
+    },
+    {
+      "epoch": 2.400489396411093,
+      "grad_norm": 0.05710975453257561,
+      "learning_rate": 0.0009987800382198647,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 31823872,
+      "step": 14715
+    },
+    {
+      "epoch": 2.401305057096248,
+      "grad_norm": 0.027438897639513016,
+      "learning_rate": 0.0009987750638688726,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 31835840,
+      "step": 14720
+    },
+    {
+      "epoch": 2.402120717781403,
+      "grad_norm": 0.011026641353964806,
+      "learning_rate": 0.000998770079409571,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 31847008,
+      "step": 14725
+    },
+    {
+      "epoch": 2.402936378466558,
+      "grad_norm": 0.15247893333435059,
+      "learning_rate": 0.0009987650848420613,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 31857888,
+      "step": 14730
+    },
+    {
+      "epoch": 2.403752039151713,
+      "grad_norm": 0.561492919921875,
+      "learning_rate": 0.0009987600801664442,
+      "loss": 0.2133,
+      "num_input_tokens_seen": 31867712,
+      "step": 14735
+    },
+    {
+      "epoch": 2.4045676998368677,
+      "grad_norm": 0.04680028185248375,
+      "learning_rate": 0.0009987550653828214,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 31878656,
+      "step": 14740
+    },
+    {
+      "epoch": 2.405383360522023,
+      "grad_norm": 0.018265612423419952,
+      "learning_rate": 0.0009987500404912946,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 31889792,
+      "step": 14745
+    },
+    {
+      "epoch": 2.4061990212071778,
+      "grad_norm": 0.09335828572511673,
+      "learning_rate": 0.0009987450054919655,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 31901216,
+      "step": 14750
+    },
+    {
+      "epoch": 2.407014681892333,
+      "grad_norm": 0.04732209071516991,
+      "learning_rate": 0.000998739960384936,
+      "loss": 0.1827,
+      "num_input_tokens_seen": 31912256,
+      "step": 14755
+    },
+    {
+      "epoch": 2.407830342577488,
+      "grad_norm": 0.07890065014362335,
+      "learning_rate": 0.0009987349051703088,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 31922336,
+      "step": 14760
+    },
+    {
+      "epoch": 2.4086460032626427,
+      "grad_norm": 0.20765246450901031,
+      "learning_rate": 0.0009987298398481859,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 31933664,
+      "step": 14765
+    },
+    {
+      "epoch": 2.4094616639477975,
+      "grad_norm": 0.1883508414030075,
+      "learning_rate": 0.00099872476441867,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 31945856,
+      "step": 14770
+    },
+    {
+      "epoch": 2.4102773246329527,
+      "grad_norm": 0.01676262356340885,
+      "learning_rate": 0.0009987196788818643,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 31955872,
+      "step": 14775
+    },
+    {
+      "epoch": 2.4110929853181076,
+      "grad_norm": 0.1437556892633438,
+      "learning_rate": 0.0009987145832378713,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 31965952,
+      "step": 14780
+    },
+    {
+      "epoch": 2.411908646003263,
+      "grad_norm": 0.082915298640728,
+      "learning_rate": 0.0009987094774867949,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 31977024,
+      "step": 14785
+    },
+    {
+      "epoch": 2.4127243066884176,
+      "grad_norm": 0.012319295667111874,
+      "learning_rate": 0.000998704361628738,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 31987232,
+      "step": 14790
+    },
+    {
+      "epoch": 2.4135399673735725,
+      "grad_norm": 0.027199752628803253,
+      "learning_rate": 0.000998699235663805,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 31997952,
+      "step": 14795
+    },
+    {
+      "epoch": 2.4143556280587277,
+      "grad_norm": 0.21190786361694336,
+      "learning_rate": 0.000998694099592099,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 32008480,
+      "step": 14800
+    },
+    {
+      "epoch": 2.4151712887438825,
+      "grad_norm": 0.16720622777938843,
+      "learning_rate": 0.0009986889534137245,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 32019360,
+      "step": 14805
+    },
+    {
+      "epoch": 2.4159869494290374,
+      "grad_norm": 0.4074651300907135,
+      "learning_rate": 0.0009986837971287857,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 32030752,
+      "step": 14810
+    },
+    {
+      "epoch": 2.4168026101141926,
+      "grad_norm": 0.14166052639484406,
+      "learning_rate": 0.0009986786307373873,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 32042688,
+      "step": 14815
+    },
+    {
+      "epoch": 2.4176182707993474,
+      "grad_norm": 0.04240216687321663,
+      "learning_rate": 0.0009986734542396336,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 32053184,
+      "step": 14820
+    },
+    {
+      "epoch": 2.4184339314845023,
+      "grad_norm": 0.024739380925893784,
+      "learning_rate": 0.0009986682676356299,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 32063840,
+      "step": 14825
+    },
+    {
+      "epoch": 2.4192495921696575,
+      "grad_norm": 0.060678571462631226,
+      "learning_rate": 0.000998663070925481,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 32075584,
+      "step": 14830
+    },
+    {
+      "epoch": 2.4200652528548123,
+      "grad_norm": 0.012930831871926785,
+      "learning_rate": 0.0009986578641092924,
+      "loss": 0.3656,
+      "num_input_tokens_seen": 32085504,
+      "step": 14835
+    },
+    {
+      "epoch": 2.4208809135399676,
+      "grad_norm": 0.03932429105043411,
+      "learning_rate": 0.0009986526471871698,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 32096992,
+      "step": 14840
+    },
+    {
+      "epoch": 2.4216965742251224,
+      "grad_norm": 0.131380096077919,
+      "learning_rate": 0.0009986474201592187,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 32107072,
+      "step": 14845
+    },
+    {
+      "epoch": 2.4225122349102772,
+      "grad_norm": 0.10655047744512558,
+      "learning_rate": 0.0009986421830255447,
+      "loss": 0.2237,
+      "num_input_tokens_seen": 32118560,
+      "step": 14850
+    },
+    {
+      "epoch": 2.4233278955954325,
+      "grad_norm": 0.2773621678352356,
+      "learning_rate": 0.0009986369357862545,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 32130080,
+      "step": 14855
+    },
+    {
+      "epoch": 2.4241435562805873,
+      "grad_norm": 0.06350556761026382,
+      "learning_rate": 0.0009986316784414543,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 32139456,
+      "step": 14860
+    },
+    {
+      "epoch": 2.424959216965742,
+      "grad_norm": 0.036143578588962555,
+      "learning_rate": 0.0009986264109912507,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 32151552,
+      "step": 14865
+    },
+    {
+      "epoch": 2.4257748776508974,
+      "grad_norm": 0.13741706311702728,
+      "learning_rate": 0.00099862113343575,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 32163456,
+      "step": 14870
+    },
+    {
+      "epoch": 2.426590538336052,
+      "grad_norm": 0.03913474828004837,
+      "learning_rate": 0.0009986158457750596,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 32173888,
+      "step": 14875
+    },
+    {
+      "epoch": 2.427406199021207,
+      "grad_norm": 0.01649622619152069,
+      "learning_rate": 0.0009986105480092866,
+      "loss": 0.1942,
+      "num_input_tokens_seen": 32185504,
+      "step": 14880
+    },
+    {
+      "epoch": 2.4282218597063623,
+      "grad_norm": 0.02170804888010025,
+      "learning_rate": 0.0009986052401385385,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 32195968,
+      "step": 14885
+    },
+    {
+      "epoch": 2.429037520391517,
+      "grad_norm": 0.0716899037361145,
+      "learning_rate": 0.0009985999221629224,
+      "loss": 0.2186,
+      "num_input_tokens_seen": 32205312,
+      "step": 14890
+    },
+    {
+      "epoch": 2.429853181076672,
+      "grad_norm": 0.02708481065928936,
+      "learning_rate": 0.0009985945940825464,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 32216576,
+      "step": 14895
+    },
+    {
+      "epoch": 2.430668841761827,
+      "grad_norm": 0.13017131388187408,
+      "learning_rate": 0.0009985892558975185,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 32227200,
+      "step": 14900
+    },
+    {
+      "epoch": 2.431484502446982,
+      "grad_norm": 0.04850441962480545,
+      "learning_rate": 0.0009985839076079469,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 32237152,
+      "step": 14905
+    },
+    {
+      "epoch": 2.432300163132137,
+      "grad_norm": 0.11114905774593353,
+      "learning_rate": 0.0009985785492139397,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 32247520,
+      "step": 14910
+    },
+    {
+      "epoch": 2.433115823817292,
+      "grad_norm": 0.07037919014692307,
+      "learning_rate": 0.0009985731807156057,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 32257632,
+      "step": 14915
+    },
+    {
+      "epoch": 2.433931484502447,
+      "grad_norm": 0.08659728616476059,
+      "learning_rate": 0.0009985678021130538,
+      "loss": 0.2184,
+      "num_input_tokens_seen": 32267808,
+      "step": 14920
+    },
+    {
+      "epoch": 2.434747145187602,
+      "grad_norm": 0.06102270260453224,
+      "learning_rate": 0.000998562413406393,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 32278752,
+      "step": 14925
+    },
+    {
+      "epoch": 2.435562805872757,
+      "grad_norm": 0.010404076427221298,
+      "learning_rate": 0.0009985570145957324,
+      "loss": 0.2626,
+      "num_input_tokens_seen": 32289696,
+      "step": 14930
+    },
+    {
+      "epoch": 2.436378466557912,
+      "grad_norm": 0.06372539699077606,
+      "learning_rate": 0.0009985516056811815,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 32299392,
+      "step": 14935
+    },
+    {
+      "epoch": 2.437194127243067,
+      "grad_norm": 0.07917524129152298,
+      "learning_rate": 0.0009985461866628496,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 32310592,
+      "step": 14940
+    },
+    {
+      "epoch": 2.438009787928222,
+      "grad_norm": 0.20440097153186798,
+      "learning_rate": 0.000998540757540847,
+      "loss": 0.1825,
+      "num_input_tokens_seen": 32319968,
+      "step": 14945
+    },
+    {
+      "epoch": 2.4388254486133767,
+      "grad_norm": 0.007162266410887241,
+      "learning_rate": 0.0009985353183152835,
+      "loss": 0.088,
+      "num_input_tokens_seen": 32330272,
+      "step": 14950
+    },
+    {
+      "epoch": 2.439641109298532,
+      "grad_norm": 0.11462079733610153,
+      "learning_rate": 0.0009985298689862692,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 32341376,
+      "step": 14955
+    },
+    {
+      "epoch": 2.4404567699836868,
+      "grad_norm": 0.07103787362575531,
+      "learning_rate": 0.0009985244095539149,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 32352704,
+      "step": 14960
+    },
+    {
+      "epoch": 2.4412724306688416,
+      "grad_norm": 0.11806105077266693,
+      "learning_rate": 0.0009985189400183306,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 32363616,
+      "step": 14965
+    },
+    {
+      "epoch": 2.442088091353997,
+      "grad_norm": 0.061703894287347794,
+      "learning_rate": 0.0009985134603796278,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 32372960,
+      "step": 14970
+    },
+    {
+      "epoch": 2.4429037520391517,
+      "grad_norm": 0.03348749130964279,
+      "learning_rate": 0.0009985079706379175,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 32383456,
+      "step": 14975
+    },
+    {
+      "epoch": 2.443719412724307,
+      "grad_norm": 0.03957496955990791,
+      "learning_rate": 0.0009985024707933107,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 32395136,
+      "step": 14980
+    },
+    {
+      "epoch": 2.4445350734094617,
+      "grad_norm": 0.06971059739589691,
+      "learning_rate": 0.0009984969608459186,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 32403744,
+      "step": 14985
+    },
+    {
+      "epoch": 2.4453507340946166,
+      "grad_norm": 0.07785134762525558,
+      "learning_rate": 0.0009984914407958536,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 32414848,
+      "step": 14990
+    },
+    {
+      "epoch": 2.4461663947797714,
+      "grad_norm": 0.15177929401397705,
+      "learning_rate": 0.000998485910643227,
+      "loss": 0.2226,
+      "num_input_tokens_seen": 32426112,
+      "step": 14995
+    },
+    {
+      "epoch": 2.4469820554649266,
+      "grad_norm": 0.1218811422586441,
+      "learning_rate": 0.000998480370388151,
+      "loss": 0.113,
+      "num_input_tokens_seen": 32436640,
+      "step": 15000
+    },
+    {
+      "epoch": 2.4477977161500815,
+      "grad_norm": 0.18148620426654816,
+      "learning_rate": 0.000998474820030738,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 32447584,
+      "step": 15005
+    },
+    {
+      "epoch": 2.4486133768352367,
+      "grad_norm": 0.1163652166724205,
+      "learning_rate": 0.0009984692595711004,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 32458272,
+      "step": 15010
+    },
+    {
+      "epoch": 2.4494290375203915,
+      "grad_norm": 0.034473199397325516,
+      "learning_rate": 0.0009984636890093509,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 32469152,
+      "step": 15015
+    },
+    {
+      "epoch": 2.4502446982055464,
+      "grad_norm": 0.13606807589530945,
+      "learning_rate": 0.0009984581083456023,
+      "loss": 0.14,
+      "num_input_tokens_seen": 32480576,
+      "step": 15020
+    },
+    {
+      "epoch": 2.4510603588907016,
+      "grad_norm": 0.16098394989967346,
+      "learning_rate": 0.000998452517579968,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 32490976,
+      "step": 15025
+    },
+    {
+      "epoch": 2.4518760195758564,
+      "grad_norm": 0.04360827058553696,
+      "learning_rate": 0.000998446916712561,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 32501216,
+      "step": 15030
+    },
+    {
+      "epoch": 2.4526916802610113,
+      "grad_norm": 0.10341744124889374,
+      "learning_rate": 0.0009984413057434948,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 32513120,
+      "step": 15035
+    },
+    {
+      "epoch": 2.4535073409461665,
+      "grad_norm": 0.15271392464637756,
+      "learning_rate": 0.0009984356846728835,
+      "loss": 0.2005,
+      "num_input_tokens_seen": 32524320,
+      "step": 15040
+    },
+    {
+      "epoch": 2.4543230016313213,
+      "grad_norm": 0.20539811253547668,
+      "learning_rate": 0.0009984300535008405,
+      "loss": 0.1879,
+      "num_input_tokens_seen": 32534208,
+      "step": 15045
+    },
+    {
+      "epoch": 2.455138662316476,
+      "grad_norm": 0.11480668932199478,
+      "learning_rate": 0.0009984244122274802,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 32545792,
+      "step": 15050
+    },
+    {
+      "epoch": 2.4559543230016314,
+      "grad_norm": 0.050684988498687744,
+      "learning_rate": 0.000998418760852917,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 32556576,
+      "step": 15055
+    },
+    {
+      "epoch": 2.4567699836867862,
+      "grad_norm": 0.014801833778619766,
+      "learning_rate": 0.0009984130993772652,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 32568000,
+      "step": 15060
+    },
+    {
+      "epoch": 2.4575856443719415,
+      "grad_norm": 0.009958263486623764,
+      "learning_rate": 0.0009984074278006397,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 32577472,
+      "step": 15065
+    },
+    {
+      "epoch": 2.4584013050570963,
+      "grad_norm": 0.3374749422073364,
+      "learning_rate": 0.0009984017461231553,
+      "loss": 0.1985,
+      "num_input_tokens_seen": 32588096,
+      "step": 15070
+    },
+    {
+      "epoch": 2.459216965742251,
+      "grad_norm": 0.07289399951696396,
+      "learning_rate": 0.0009983960543449276,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 32599328,
+      "step": 15075
+    },
+    {
+      "epoch": 2.4600326264274064,
+      "grad_norm": 0.11521682888269424,
+      "learning_rate": 0.0009983903524660711,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 32609216,
+      "step": 15080
+    },
+    {
+      "epoch": 2.460848287112561,
+      "grad_norm": 0.4067881107330322,
+      "learning_rate": 0.0009983846404867022,
+      "loss": 0.2918,
+      "num_input_tokens_seen": 32620416,
+      "step": 15085
+    },
+    {
+      "epoch": 2.461663947797716,
+      "grad_norm": 0.028215084224939346,
+      "learning_rate": 0.0009983789184069363,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 32631776,
+      "step": 15090
+    },
+    {
+      "epoch": 2.4624796084828713,
+      "grad_norm": 0.18957918882369995,
+      "learning_rate": 0.0009983731862268893,
+      "loss": 0.1796,
+      "num_input_tokens_seen": 32642304,
+      "step": 15095
+    },
+    {
+      "epoch": 2.463295269168026,
+      "grad_norm": 0.009655492380261421,
+      "learning_rate": 0.0009983674439466774,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 32653088,
+      "step": 15100
+    },
+    {
+      "epoch": 2.464110929853181,
+      "grad_norm": 0.06055706366896629,
+      "learning_rate": 0.000998361691566417,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 32662464,
+      "step": 15105
+    },
+    {
+      "epoch": 2.464926590538336,
+      "grad_norm": 0.03933952748775482,
+      "learning_rate": 0.0009983559290862247,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 32672992,
+      "step": 15110
+    },
+    {
+      "epoch": 2.465742251223491,
+      "grad_norm": 0.10756219178438187,
+      "learning_rate": 0.0009983501565062173,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 32684256,
+      "step": 15115
+    },
+    {
+      "epoch": 2.466557911908646,
+      "grad_norm": 0.04777355492115021,
+      "learning_rate": 0.000998344373826512,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 32694816,
+      "step": 15120
+    },
+    {
+      "epoch": 2.467373572593801,
+      "grad_norm": 0.3761058747768402,
+      "learning_rate": 0.0009983385810472256,
+      "loss": 0.3218,
+      "num_input_tokens_seen": 32705568,
+      "step": 15125
+    },
+    {
+      "epoch": 2.468189233278956,
+      "grad_norm": 0.19796237349510193,
+      "learning_rate": 0.0009983327781684756,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 32716128,
+      "step": 15130
+    },
+    {
+      "epoch": 2.4690048939641107,
+      "grad_norm": 0.016280511394143105,
+      "learning_rate": 0.0009983269651903798,
+      "loss": 0.1654,
+      "num_input_tokens_seen": 32728480,
+      "step": 15135
+    },
+    {
+      "epoch": 2.469820554649266,
+      "grad_norm": 0.11683381348848343,
+      "learning_rate": 0.0009983211421130558,
+      "loss": 0.2111,
+      "num_input_tokens_seen": 32738848,
+      "step": 15140
+    },
+    {
+      "epoch": 2.470636215334421,
+      "grad_norm": 0.12451004981994629,
+      "learning_rate": 0.0009983153089366218,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 32749728,
+      "step": 15145
+    },
+    {
+      "epoch": 2.471451876019576,
+      "grad_norm": 0.11421272903680801,
+      "learning_rate": 0.0009983094656611958,
+      "loss": 0.1476,
+      "num_input_tokens_seen": 32761824,
+      "step": 15150
+    },
+    {
+      "epoch": 2.472267536704731,
+      "grad_norm": 0.20336616039276123,
+      "learning_rate": 0.0009983036122868962,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 32773216,
+      "step": 15155
+    },
+    {
+      "epoch": 2.4730831973898857,
+      "grad_norm": 0.013980901800096035,
+      "learning_rate": 0.000998297748813842,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 32785344,
+      "step": 15160
+    },
+    {
+      "epoch": 2.473898858075041,
+      "grad_norm": 0.026078760623931885,
+      "learning_rate": 0.0009982918752421516,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 32795648,
+      "step": 15165
+    },
+    {
+      "epoch": 2.4747145187601958,
+      "grad_norm": 0.07515005022287369,
+      "learning_rate": 0.0009982859915719444,
+      "loss": 0.04,
+      "num_input_tokens_seen": 32806848,
+      "step": 15170
+    },
+    {
+      "epoch": 2.4755301794453506,
+      "grad_norm": 0.1675223857164383,
+      "learning_rate": 0.0009982800978033395,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 32819552,
+      "step": 15175
+    },
+    {
+      "epoch": 2.476345840130506,
+      "grad_norm": 0.020948603749275208,
+      "learning_rate": 0.000998274193936456,
+      "loss": 0.117,
+      "num_input_tokens_seen": 32830944,
+      "step": 15180
+    },
+    {
+      "epoch": 2.4771615008156607,
+      "grad_norm": 0.12657499313354492,
+      "learning_rate": 0.000998268279971414,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 32840512,
+      "step": 15185
+    },
+    {
+      "epoch": 2.4779771615008155,
+      "grad_norm": 0.2049468606710434,
+      "learning_rate": 0.0009982623559083332,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 32851424,
+      "step": 15190
+    },
+    {
+      "epoch": 2.4787928221859707,
+      "grad_norm": 0.19748122990131378,
+      "learning_rate": 0.0009982564217473338,
+      "loss": 0.183,
+      "num_input_tokens_seen": 32861856,
+      "step": 15195
+    },
+    {
+      "epoch": 2.4796084828711256,
+      "grad_norm": 0.35869279503822327,
+      "learning_rate": 0.000998250477488536,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 32873696,
+      "step": 15200
+    },
+    {
+      "epoch": 2.480424143556281,
+      "grad_norm": 0.03681536018848419,
+      "learning_rate": 0.0009982445231320597,
+      "loss": 0.2374,
+      "num_input_tokens_seen": 32883488,
+      "step": 15205
+    },
+    {
+      "epoch": 2.4812398042414356,
+      "grad_norm": 0.022419409826397896,
+      "learning_rate": 0.0009982385586780264,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 32894720,
+      "step": 15210
+    },
+    {
+      "epoch": 2.4820554649265905,
+      "grad_norm": 0.2048080563545227,
+      "learning_rate": 0.0009982325841265567,
+      "loss": 0.1677,
+      "num_input_tokens_seen": 32905696,
+      "step": 15215
+    },
+    {
+      "epoch": 2.4828711256117453,
+      "grad_norm": 0.04616566747426987,
+      "learning_rate": 0.0009982265994777717,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 32916704,
+      "step": 15220
+    },
+    {
+      "epoch": 2.4836867862969005,
+      "grad_norm": 0.04768180847167969,
+      "learning_rate": 0.0009982206047317926,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 32927392,
+      "step": 15225
+    },
+    {
+      "epoch": 2.4845024469820554,
+      "grad_norm": 0.034913014620542526,
+      "learning_rate": 0.0009982145998887406,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 32939232,
+      "step": 15230
+    },
+    {
+      "epoch": 2.4853181076672106,
+      "grad_norm": 0.12986132502555847,
+      "learning_rate": 0.000998208584948738,
+      "loss": 0.1679,
+      "num_input_tokens_seen": 32950144,
+      "step": 15235
+    },
+    {
+      "epoch": 2.4861337683523654,
+      "grad_norm": 0.06647571176290512,
+      "learning_rate": 0.0009982025599119062,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 32961184,
+      "step": 15240
+    },
+    {
+      "epoch": 2.4869494290375203,
+      "grad_norm": 0.08212022483348846,
+      "learning_rate": 0.0009981965247783677,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 32971584,
+      "step": 15245
+    },
+    {
+      "epoch": 2.4877650897226755,
+      "grad_norm": 0.05855432525277138,
+      "learning_rate": 0.0009981904795482446,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 32982496,
+      "step": 15250
+    },
+    {
+      "epoch": 2.4885807504078303,
+      "grad_norm": 2.2332639694213867,
+      "learning_rate": 0.0009981844242216594,
+      "loss": 0.2134,
+      "num_input_tokens_seen": 32992192,
+      "step": 15255
+    },
+    {
+      "epoch": 2.489396411092985,
+      "grad_norm": 0.030122999101877213,
+      "learning_rate": 0.0009981783587987348,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 33003136,
+      "step": 15260
+    },
+    {
+      "epoch": 2.4902120717781404,
+      "grad_norm": 0.09303940832614899,
+      "learning_rate": 0.0009981722832795937,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 33014592,
+      "step": 15265
+    },
+    {
+      "epoch": 2.4910277324632952,
+      "grad_norm": 0.019270701333880424,
+      "learning_rate": 0.0009981661976643595,
+      "loss": 0.1582,
+      "num_input_tokens_seen": 33025568,
+      "step": 15270
+    },
+    {
+      "epoch": 2.49184339314845,
+      "grad_norm": 0.16244956851005554,
+      "learning_rate": 0.0009981601019531552,
+      "loss": 0.1883,
+      "num_input_tokens_seen": 33037632,
+      "step": 15275
+    },
+    {
+      "epoch": 2.4926590538336053,
+      "grad_norm": 0.06669965386390686,
+      "learning_rate": 0.0009981539961461045,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 33047840,
+      "step": 15280
+    },
+    {
+      "epoch": 2.49347471451876,
+      "grad_norm": 0.027973853051662445,
+      "learning_rate": 0.000998147880243331,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 33057824,
+      "step": 15285
+    },
+    {
+      "epoch": 2.4942903752039154,
+      "grad_norm": 0.23098739981651306,
+      "learning_rate": 0.000998141754244959,
+      "loss": 0.2423,
+      "num_input_tokens_seen": 33069056,
+      "step": 15290
+    },
+    {
+      "epoch": 2.49510603588907,
+      "grad_norm": 0.06371300667524338,
+      "learning_rate": 0.0009981356181511124,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 33080352,
+      "step": 15295
+    },
+    {
+      "epoch": 2.495921696574225,
+      "grad_norm": 0.056606777012348175,
+      "learning_rate": 0.0009981294719619152,
+      "loss": 0.064,
+      "num_input_tokens_seen": 33090592,
+      "step": 15300
+    },
+    {
+      "epoch": 2.4967373572593803,
+      "grad_norm": 0.05140992999076843,
+      "learning_rate": 0.0009981233156774927,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 33102304,
+      "step": 15305
+    },
+    {
+      "epoch": 2.497553017944535,
+      "grad_norm": 0.101639524102211,
+      "learning_rate": 0.0009981171492979691,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 33112192,
+      "step": 15310
+    },
+    {
+      "epoch": 2.49836867862969,
+      "grad_norm": 0.012121300213038921,
+      "learning_rate": 0.0009981109728234698,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 33122336,
+      "step": 15315
+    },
+    {
+      "epoch": 2.499184339314845,
+      "grad_norm": 0.11129625886678696,
+      "learning_rate": 0.0009981047862541194,
+      "loss": 0.1776,
+      "num_input_tokens_seen": 33133376,
+      "step": 15320
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.2766715884208679,
+      "learning_rate": 0.0009980985895900439,
+      "loss": 0.2495,
+      "num_input_tokens_seen": 33145248,
+      "step": 15325
+    },
+    {
+      "epoch": 2.500815660685155,
+      "grad_norm": 0.091251902282238,
+      "learning_rate": 0.0009980923828313685,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 33156320,
+      "step": 15330
+    },
+    {
+      "epoch": 2.50163132137031,
+      "grad_norm": 0.025461995974183083,
+      "learning_rate": 0.000998086165978219,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 33165600,
+      "step": 15335
+    },
+    {
+      "epoch": 2.502446982055465,
+      "grad_norm": 0.028699345886707306,
+      "learning_rate": 0.0009980799390307215,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 33176992,
+      "step": 15340
+    },
+    {
+      "epoch": 2.50326264274062,
+      "grad_norm": 0.06483875215053558,
+      "learning_rate": 0.0009980737019890024,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 33188800,
+      "step": 15345
+    },
+    {
+      "epoch": 2.504078303425775,
+      "grad_norm": 0.2196149379014969,
+      "learning_rate": 0.0009980674548531877,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 33198784,
+      "step": 15350
+    },
+    {
+      "epoch": 2.50489396411093,
+      "grad_norm": 0.01191483624279499,
+      "learning_rate": 0.0009980611976234041,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 33210336,
+      "step": 15355
+    },
+    {
+      "epoch": 2.5057096247960846,
+      "grad_norm": 0.010378982871770859,
+      "learning_rate": 0.0009980549302997788,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 33221088,
+      "step": 15360
+    },
+    {
+      "epoch": 2.50652528548124,
+      "grad_norm": 0.05322907119989395,
+      "learning_rate": 0.000998048652882438,
+      "loss": 0.143,
+      "num_input_tokens_seen": 33231232,
+      "step": 15365
+    },
+    {
+      "epoch": 2.5073409461663947,
+      "grad_norm": 0.13478170335292816,
+      "learning_rate": 0.00099804236537151,
+      "loss": 0.1536,
+      "num_input_tokens_seen": 33243776,
+      "step": 15370
+    },
+    {
+      "epoch": 2.50815660685155,
+      "grad_norm": 0.07025640457868576,
+      "learning_rate": 0.0009980360677671214,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 33253632,
+      "step": 15375
+    },
+    {
+      "epoch": 2.5089722675367048,
+      "grad_norm": 0.08173404633998871,
+      "learning_rate": 0.0009980297600694,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 33264000,
+      "step": 15380
+    },
+    {
+      "epoch": 2.5097879282218596,
+      "grad_norm": 0.041357748210430145,
+      "learning_rate": 0.0009980234422784738,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 33275008,
+      "step": 15385
+    },
+    {
+      "epoch": 2.5106035889070144,
+      "grad_norm": 0.14917460083961487,
+      "learning_rate": 0.0009980171143944708,
+      "loss": 0.2091,
+      "num_input_tokens_seen": 33285632,
+      "step": 15390
+    },
+    {
+      "epoch": 2.5114192495921697,
+      "grad_norm": 0.0907067358493805,
+      "learning_rate": 0.000998010776417519,
+      "loss": 0.1932,
+      "num_input_tokens_seen": 33297376,
+      "step": 15395
+    },
+    {
+      "epoch": 2.5122349102773245,
+      "grad_norm": 0.060952670872211456,
+      "learning_rate": 0.0009980044283477473,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 33307712,
+      "step": 15400
+    },
+    {
+      "epoch": 2.5130505709624797,
+      "grad_norm": 0.2798716425895691,
+      "learning_rate": 0.000997998070185284,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 33318304,
+      "step": 15405
+    },
+    {
+      "epoch": 2.5138662316476346,
+      "grad_norm": 0.04096159338951111,
+      "learning_rate": 0.000997991701930258,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 33328544,
+      "step": 15410
+    },
+    {
+      "epoch": 2.5146818923327894,
+      "grad_norm": 0.053559333086013794,
+      "learning_rate": 0.0009979853235827984,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 33338016,
+      "step": 15415
+    },
+    {
+      "epoch": 2.5154975530179446,
+      "grad_norm": 0.06617650389671326,
+      "learning_rate": 0.0009979789351430347,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 33346496,
+      "step": 15420
+    },
+    {
+      "epoch": 2.5163132137030995,
+      "grad_norm": 0.05221320688724518,
+      "learning_rate": 0.0009979725366110958,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 33356448,
+      "step": 15425
+    },
+    {
+      "epoch": 2.5171288743882547,
+      "grad_norm": 0.030037062242627144,
+      "learning_rate": 0.0009979661279871119,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 33366432,
+      "step": 15430
+    },
+    {
+      "epoch": 2.5179445350734095,
+      "grad_norm": 0.11865063011646271,
+      "learning_rate": 0.0009979597092712128,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 33377344,
+      "step": 15435
+    },
+    {
+      "epoch": 2.5187601957585644,
+      "grad_norm": 0.08982488512992859,
+      "learning_rate": 0.0009979532804635283,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 33387776,
+      "step": 15440
+    },
+    {
+      "epoch": 2.519575856443719,
+      "grad_norm": 0.0816715732216835,
+      "learning_rate": 0.000997946841564189,
+      "loss": 0.1627,
+      "num_input_tokens_seen": 33398208,
+      "step": 15445
+    },
+    {
+      "epoch": 2.5203915171288744,
+      "grad_norm": 0.0918974056839943,
+      "learning_rate": 0.0009979403925733253,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 33408864,
+      "step": 15450
+    },
+    {
+      "epoch": 2.5212071778140293,
+      "grad_norm": 0.0044286069460213184,
+      "learning_rate": 0.0009979339334910678,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 33419040,
+      "step": 15455
+    },
+    {
+      "epoch": 2.5220228384991845,
+      "grad_norm": 0.05251329392194748,
+      "learning_rate": 0.0009979274643175473,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 33430048,
+      "step": 15460
+    },
+    {
+      "epoch": 2.5228384991843393,
+      "grad_norm": 0.3440323770046234,
+      "learning_rate": 0.0009979209850528954,
+      "loss": 0.1986,
+      "num_input_tokens_seen": 33440288,
+      "step": 15465
+    },
+    {
+      "epoch": 2.523654159869494,
+      "grad_norm": 0.1386038362979889,
+      "learning_rate": 0.0009979144956972427,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 33451616,
+      "step": 15470
+    },
+    {
+      "epoch": 2.5244698205546494,
+      "grad_norm": 0.0037523547653108835,
+      "learning_rate": 0.0009979079962507214,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 33463520,
+      "step": 15475
+    },
+    {
+      "epoch": 2.5252854812398042,
+      "grad_norm": 0.05357692763209343,
+      "learning_rate": 0.0009979014867134628,
+      "loss": 0.116,
+      "num_input_tokens_seen": 33474272,
+      "step": 15480
+    },
+    {
+      "epoch": 2.5261011419249595,
+      "grad_norm": 0.13688050210475922,
+      "learning_rate": 0.000997894967085599,
+      "loss": 0.128,
+      "num_input_tokens_seen": 33485024,
+      "step": 15485
+    },
+    {
+      "epoch": 2.5269168026101143,
+      "grad_norm": 0.13154840469360352,
+      "learning_rate": 0.000997888437367262,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 33494912,
+      "step": 15490
+    },
+    {
+      "epoch": 2.527732463295269,
+      "grad_norm": 0.0538487546145916,
+      "learning_rate": 0.0009978818975585843,
+      "loss": 0.1917,
+      "num_input_tokens_seen": 33506560,
+      "step": 15495
+    },
+    {
+      "epoch": 2.528548123980424,
+      "grad_norm": 0.048410579562187195,
+      "learning_rate": 0.0009978753476596982,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 33518752,
+      "step": 15500
+    },
+    {
+      "epoch": 2.529363784665579,
+      "grad_norm": 0.2545541226863861,
+      "learning_rate": 0.0009978687876707366,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 33529856,
+      "step": 15505
+    },
+    {
+      "epoch": 2.530179445350734,
+      "grad_norm": 0.21288903057575226,
+      "learning_rate": 0.0009978622175918323,
+      "loss": 0.2061,
+      "num_input_tokens_seen": 33540896,
+      "step": 15510
+    },
+    {
+      "epoch": 2.5309951060358893,
+      "grad_norm": 0.06659834831953049,
+      "learning_rate": 0.0009978556374231188,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 33552224,
+      "step": 15515
+    },
+    {
+      "epoch": 2.531810766721044,
+      "grad_norm": 0.056002382189035416,
+      "learning_rate": 0.0009978490471647292,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 33562176,
+      "step": 15520
+    },
+    {
+      "epoch": 2.532626427406199,
+      "grad_norm": 0.026309235021471977,
+      "learning_rate": 0.000997842446816797,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 33573984,
+      "step": 15525
+    },
+    {
+      "epoch": 2.5334420880913537,
+      "grad_norm": 0.13522249460220337,
+      "learning_rate": 0.0009978358363794562,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 33584032,
+      "step": 15530
+    },
+    {
+      "epoch": 2.534257748776509,
+      "grad_norm": 0.35306116938591003,
+      "learning_rate": 0.0009978292158528406,
+      "loss": 0.1917,
+      "num_input_tokens_seen": 33595744,
+      "step": 15535
+    },
+    {
+      "epoch": 2.535073409461664,
+      "grad_norm": 0.1873067319393158,
+      "learning_rate": 0.0009978225852370843,
+      "loss": 0.2297,
+      "num_input_tokens_seen": 33606304,
+      "step": 15540
+    },
+    {
+      "epoch": 2.535889070146819,
+      "grad_norm": 0.0513768270611763,
+      "learning_rate": 0.000997815944532322,
+      "loss": 0.1684,
+      "num_input_tokens_seen": 33616224,
+      "step": 15545
+    },
+    {
+      "epoch": 2.536704730831974,
+      "grad_norm": 0.30809465050697327,
+      "learning_rate": 0.0009978092937386878,
+      "loss": 0.1936,
+      "num_input_tokens_seen": 33628000,
+      "step": 15550
+    },
+    {
+      "epoch": 2.5375203915171287,
+      "grad_norm": 0.10597193241119385,
+      "learning_rate": 0.0009978026328563167,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 33639296,
+      "step": 15555
+    },
+    {
+      "epoch": 2.538336052202284,
+      "grad_norm": 0.0677858367562294,
+      "learning_rate": 0.0009977959618853438,
+      "loss": 0.3077,
+      "num_input_tokens_seen": 33650496,
+      "step": 15560
+    },
+    {
+      "epoch": 2.539151712887439,
+      "grad_norm": 0.09901798516511917,
+      "learning_rate": 0.0009977892808259044,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 33659712,
+      "step": 15565
+    },
+    {
+      "epoch": 2.539967373572594,
+      "grad_norm": 0.10196952521800995,
+      "learning_rate": 0.0009977825896781336,
+      "loss": 0.2513,
+      "num_input_tokens_seen": 33670656,
+      "step": 15570
+    },
+    {
+      "epoch": 2.540783034257749,
+      "grad_norm": 0.1093427911400795,
+      "learning_rate": 0.0009977758884421673,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 33682176,
+      "step": 15575
+    },
+    {
+      "epoch": 2.5415986949429037,
+      "grad_norm": 0.08146216720342636,
+      "learning_rate": 0.000997769177118141,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 33693280,
+      "step": 15580
+    },
+    {
+      "epoch": 2.5424143556280585,
+      "grad_norm": 0.02189205028116703,
+      "learning_rate": 0.0009977624557061908,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 33704032,
+      "step": 15585
+    },
+    {
+      "epoch": 2.5432300163132138,
+      "grad_norm": 0.039141327142715454,
+      "learning_rate": 0.000997755724206453,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 33715168,
+      "step": 15590
+    },
+    {
+      "epoch": 2.5440456769983686,
+      "grad_norm": 0.08967316895723343,
+      "learning_rate": 0.0009977489826190641,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 33724896,
+      "step": 15595
+    },
+    {
+      "epoch": 2.544861337683524,
+      "grad_norm": 0.18973685801029205,
+      "learning_rate": 0.0009977422309441605,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 33735904,
+      "step": 15600
+    },
+    {
+      "epoch": 2.5456769983686787,
+      "grad_norm": 0.011004339903593063,
+      "learning_rate": 0.0009977354691818794,
+      "loss": 0.3357,
+      "num_input_tokens_seen": 33746752,
+      "step": 15605
+    },
+    {
+      "epoch": 2.5464926590538335,
+      "grad_norm": 0.089126817882061,
+      "learning_rate": 0.0009977286973323575,
+      "loss": 0.1619,
+      "num_input_tokens_seen": 33757056,
+      "step": 15610
+    },
+    {
+      "epoch": 2.5473083197389887,
+      "grad_norm": 0.10468865931034088,
+      "learning_rate": 0.000997721915395732,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 33767616,
+      "step": 15615
+    },
+    {
+      "epoch": 2.5481239804241436,
+      "grad_norm": 0.1721217781305313,
+      "learning_rate": 0.0009977151233721406,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 33777152,
+      "step": 15620
+    },
+    {
+      "epoch": 2.5489396411092984,
+      "grad_norm": 0.09493706375360489,
+      "learning_rate": 0.0009977083212617207,
+      "loss": 0.2463,
+      "num_input_tokens_seen": 33787904,
+      "step": 15625
+    },
+    {
+      "epoch": 2.5497553017944536,
+      "grad_norm": 0.2843787968158722,
+      "learning_rate": 0.0009977015090646105,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 33798464,
+      "step": 15630
+    },
+    {
+      "epoch": 2.5505709624796085,
+      "grad_norm": 0.02873399294912815,
+      "learning_rate": 0.0009976946867809476,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 33809824,
+      "step": 15635
+    },
+    {
+      "epoch": 2.5513866231647633,
+      "grad_norm": 0.0776677280664444,
+      "learning_rate": 0.0009976878544108705,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 33819936,
+      "step": 15640
+    },
+    {
+      "epoch": 2.5522022838499185,
+      "grad_norm": 0.05906492844223976,
+      "learning_rate": 0.000997681011954518,
+      "loss": 0.1859,
+      "num_input_tokens_seen": 33830784,
+      "step": 15645
+    },
+    {
+      "epoch": 2.5530179445350734,
+      "grad_norm": 0.08871506154537201,
+      "learning_rate": 0.0009976741594120281,
+      "loss": 0.078,
+      "num_input_tokens_seen": 33842272,
+      "step": 15650
+    },
+    {
+      "epoch": 2.5538336052202286,
+      "grad_norm": 0.172580748796463,
+      "learning_rate": 0.00099766729678354,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 33853184,
+      "step": 15655
+    },
+    {
+      "epoch": 2.5546492659053834,
+      "grad_norm": 0.2699727416038513,
+      "learning_rate": 0.0009976604240691932,
+      "loss": 0.181,
+      "num_input_tokens_seen": 33865248,
+      "step": 15660
+    },
+    {
+      "epoch": 2.5554649265905383,
+      "grad_norm": 0.2737541198730469,
+      "learning_rate": 0.0009976535412691261,
+      "loss": 0.2657,
+      "num_input_tokens_seen": 33876544,
+      "step": 15665
+    },
+    {
+      "epoch": 2.556280587275693,
+      "grad_norm": 0.056653060019016266,
+      "learning_rate": 0.0009976466483834789,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 33886816,
+      "step": 15670
+    },
+    {
+      "epoch": 2.5570962479608483,
+      "grad_norm": 0.060865480452775955,
+      "learning_rate": 0.0009976397454123911,
+      "loss": 0.3578,
+      "num_input_tokens_seen": 33897728,
+      "step": 15675
+    },
+    {
+      "epoch": 2.557911908646003,
+      "grad_norm": 0.1835509091615677,
+      "learning_rate": 0.0009976328323560025,
+      "loss": 0.067,
+      "num_input_tokens_seen": 33907936,
+      "step": 15680
+    },
+    {
+      "epoch": 2.5587275693311584,
+      "grad_norm": 0.07976268976926804,
+      "learning_rate": 0.0009976259092144533,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 33917280,
+      "step": 15685
+    },
+    {
+      "epoch": 2.5595432300163132,
+      "grad_norm": 0.05880413204431534,
+      "learning_rate": 0.0009976189759878836,
+      "loss": 0.148,
+      "num_input_tokens_seen": 33928896,
+      "step": 15690
+    },
+    {
+      "epoch": 2.560358890701468,
+      "grad_norm": 0.04047093167901039,
+      "learning_rate": 0.0009976120326764342,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 33939008,
+      "step": 15695
+    },
+    {
+      "epoch": 2.5611745513866233,
+      "grad_norm": 0.036515820771455765,
+      "learning_rate": 0.0009976050792802457,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 33950048,
+      "step": 15700
+    },
+    {
+      "epoch": 2.561990212071778,
+      "grad_norm": 0.03752981126308441,
+      "learning_rate": 0.000997598115799459,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 33960992,
+      "step": 15705
+    },
+    {
+      "epoch": 2.5628058727569334,
+      "grad_norm": 0.1627136617898941,
+      "learning_rate": 0.0009975911422342152,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 33972288,
+      "step": 15710
+    },
+    {
+      "epoch": 2.563621533442088,
+      "grad_norm": 0.16130013763904572,
+      "learning_rate": 0.0009975841585846558,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 33983264,
+      "step": 15715
+    },
+    {
+      "epoch": 2.564437194127243,
+      "grad_norm": 0.05317399650812149,
+      "learning_rate": 0.000997577164850922,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 33993152,
+      "step": 15720
+    },
+    {
+      "epoch": 2.565252854812398,
+      "grad_norm": 0.14853844046592712,
+      "learning_rate": 0.000997570161033156,
+      "loss": 0.071,
+      "num_input_tokens_seen": 34003296,
+      "step": 15725
+    },
+    {
+      "epoch": 2.566068515497553,
+      "grad_norm": 0.07281967252492905,
+      "learning_rate": 0.0009975631471314992,
+      "loss": 0.1886,
+      "num_input_tokens_seen": 34015168,
+      "step": 15730
+    },
+    {
+      "epoch": 2.566884176182708,
+      "grad_norm": 0.053378649055957794,
+      "learning_rate": 0.0009975561231460942,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 34024128,
+      "step": 15735
+    },
+    {
+      "epoch": 2.567699836867863,
+      "grad_norm": 0.29613426327705383,
+      "learning_rate": 0.000997549089077083,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 34033888,
+      "step": 15740
+    },
+    {
+      "epoch": 2.568515497553018,
+      "grad_norm": 0.14543229341506958,
+      "learning_rate": 0.0009975420449246084,
+      "loss": 0.2044,
+      "num_input_tokens_seen": 34044128,
+      "step": 15745
+    },
+    {
+      "epoch": 2.569331158238173,
+      "grad_norm": 0.019933458417654037,
+      "learning_rate": 0.0009975349906888131,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 34055520,
+      "step": 15750
+    },
+    {
+      "epoch": 2.5701468189233276,
+      "grad_norm": 0.06531205028295517,
+      "learning_rate": 0.00099752792636984,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 34066048,
+      "step": 15755
+    },
+    {
+      "epoch": 2.570962479608483,
+      "grad_norm": 0.14804935455322266,
+      "learning_rate": 0.0009975208519678324,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 34077632,
+      "step": 15760
+    },
+    {
+      "epoch": 2.5717781402936377,
+      "grad_norm": 0.12645001709461212,
+      "learning_rate": 0.0009975137674829335,
+      "loss": 0.2039,
+      "num_input_tokens_seen": 34088384,
+      "step": 15765
+    },
+    {
+      "epoch": 2.572593800978793,
+      "grad_norm": 0.0323776975274086,
+      "learning_rate": 0.000997506672915287,
+      "loss": 0.04,
+      "num_input_tokens_seen": 34098880,
+      "step": 15770
+    },
+    {
+      "epoch": 2.573409461663948,
+      "grad_norm": 0.025035852566361427,
+      "learning_rate": 0.0009974995682650368,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 34109952,
+      "step": 15775
+    },
+    {
+      "epoch": 2.5742251223491026,
+      "grad_norm": 0.13843075931072235,
+      "learning_rate": 0.0009974924535323265,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 34120576,
+      "step": 15780
+    },
+    {
+      "epoch": 2.575040783034258,
+      "grad_norm": 0.2659997045993805,
+      "learning_rate": 0.0009974853287173006,
+      "loss": 0.1793,
+      "num_input_tokens_seen": 34131168,
+      "step": 15785
+    },
+    {
+      "epoch": 2.5758564437194127,
+      "grad_norm": 0.045313864946365356,
+      "learning_rate": 0.0009974781938201034,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 34141984,
+      "step": 15790
+    },
+    {
+      "epoch": 2.576672104404568,
+      "grad_norm": 0.23315565288066864,
+      "learning_rate": 0.0009974710488408795,
+      "loss": 0.1438,
+      "num_input_tokens_seen": 34153056,
+      "step": 15795
+    },
+    {
+      "epoch": 2.5774877650897228,
+      "grad_norm": 0.10043656826019287,
+      "learning_rate": 0.0009974638937797736,
+      "loss": 0.165,
+      "num_input_tokens_seen": 34163424,
+      "step": 15800
+    },
+    {
+      "epoch": 2.5783034257748776,
+      "grad_norm": 0.05951232835650444,
+      "learning_rate": 0.000997456728636931,
+      "loss": 0.2315,
+      "num_input_tokens_seen": 34175712,
+      "step": 15805
+    },
+    {
+      "epoch": 2.5791190864600324,
+      "grad_norm": 1.1597989797592163,
+      "learning_rate": 0.0009974495534124967,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 34186784,
+      "step": 15810
+    },
+    {
+      "epoch": 2.5799347471451877,
+      "grad_norm": 0.058770764619112015,
+      "learning_rate": 0.000997442368106616,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 34196224,
+      "step": 15815
+    },
+    {
+      "epoch": 2.5807504078303425,
+      "grad_norm": 0.23356138169765472,
+      "learning_rate": 0.0009974351727194347,
+      "loss": 0.1931,
+      "num_input_tokens_seen": 34206720,
+      "step": 15820
+    },
+    {
+      "epoch": 2.5815660685154977,
+      "grad_norm": 0.02992885187268257,
+      "learning_rate": 0.0009974279672510986,
+      "loss": 0.107,
+      "num_input_tokens_seen": 34217120,
+      "step": 15825
+    },
+    {
+      "epoch": 2.5823817292006526,
+      "grad_norm": 0.2092907577753067,
+      "learning_rate": 0.0009974207517017537,
+      "loss": 0.1395,
+      "num_input_tokens_seen": 34226592,
+      "step": 15830
+    },
+    {
+      "epoch": 2.5831973898858074,
+      "grad_norm": 0.046701934188604355,
+      "learning_rate": 0.0009974135260715465,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 34237440,
+      "step": 15835
+    },
+    {
+      "epoch": 2.5840130505709626,
+      "grad_norm": 0.1012524962425232,
+      "learning_rate": 0.0009974062903606229,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 34248896,
+      "step": 15840
+    },
+    {
+      "epoch": 2.5848287112561175,
+      "grad_norm": 0.19864198565483093,
+      "learning_rate": 0.0009973990445691298,
+      "loss": 0.1758,
+      "num_input_tokens_seen": 34260512,
+      "step": 15845
+    },
+    {
+      "epoch": 2.5856443719412723,
+      "grad_norm": 0.14162364602088928,
+      "learning_rate": 0.0009973917886972143,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 34271104,
+      "step": 15850
+    },
+    {
+      "epoch": 2.5864600326264275,
+      "grad_norm": 0.1076699048280716,
+      "learning_rate": 0.000997384522745023,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 34281472,
+      "step": 15855
+    },
+    {
+      "epoch": 2.5872756933115824,
+      "grad_norm": 0.05362573638558388,
+      "learning_rate": 0.0009973772467127035,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 34293216,
+      "step": 15860
+    },
+    {
+      "epoch": 2.588091353996737,
+      "grad_norm": 0.028096288442611694,
+      "learning_rate": 0.000997369960600403,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 34304448,
+      "step": 15865
+    },
+    {
+      "epoch": 2.5889070146818924,
+      "grad_norm": 0.06138193607330322,
+      "learning_rate": 0.0009973626644082694,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 34316352,
+      "step": 15870
+    },
+    {
+      "epoch": 2.5897226753670473,
+      "grad_norm": 0.05653262510895729,
+      "learning_rate": 0.0009973553581364503,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 34326688,
+      "step": 15875
+    },
+    {
+      "epoch": 2.5905383360522025,
+      "grad_norm": 0.10075034201145172,
+      "learning_rate": 0.0009973480417850942,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 34338848,
+      "step": 15880
+    },
+    {
+      "epoch": 2.5913539967373573,
+      "grad_norm": 0.10138165205717087,
+      "learning_rate": 0.0009973407153543489,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 34349472,
+      "step": 15885
+    },
+    {
+      "epoch": 2.592169657422512,
+      "grad_norm": 0.12078166007995605,
+      "learning_rate": 0.0009973333788443632,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 34359712,
+      "step": 15890
+    },
+    {
+      "epoch": 2.592985318107667,
+      "grad_norm": 0.056835684925317764,
+      "learning_rate": 0.0009973260322552855,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 34371136,
+      "step": 15895
+    },
+    {
+      "epoch": 2.5938009787928222,
+      "grad_norm": 0.2918012738227844,
+      "learning_rate": 0.000997318675587265,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 34381120,
+      "step": 15900
+    },
+    {
+      "epoch": 2.594616639477977,
+      "grad_norm": 0.04708686098456383,
+      "learning_rate": 0.0009973113088404507,
+      "loss": 0.1877,
+      "num_input_tokens_seen": 34392384,
+      "step": 15905
+    },
+    {
+      "epoch": 2.5954323001631323,
+      "grad_norm": 0.024804405868053436,
+      "learning_rate": 0.0009973039320149916,
+      "loss": 0.128,
+      "num_input_tokens_seen": 34402688,
+      "step": 15910
+    },
+    {
+      "epoch": 2.596247960848287,
+      "grad_norm": 0.12013711035251617,
+      "learning_rate": 0.0009972965451110376,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 34413280,
+      "step": 15915
+    },
+    {
+      "epoch": 2.597063621533442,
+      "grad_norm": 0.030978182330727577,
+      "learning_rate": 0.0009972891481287382,
+      "loss": 0.124,
+      "num_input_tokens_seen": 34424224,
+      "step": 15920
+    },
+    {
+      "epoch": 2.597879282218597,
+      "grad_norm": 0.03300139680504799,
+      "learning_rate": 0.0009972817410682433,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 34433888,
+      "step": 15925
+    },
+    {
+      "epoch": 2.598694942903752,
+      "grad_norm": 0.009529628790915012,
+      "learning_rate": 0.0009972743239297032,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 34444576,
+      "step": 15930
+    },
+    {
+      "epoch": 2.5995106035889073,
+      "grad_norm": 0.21190616488456726,
+      "learning_rate": 0.000997266896713268,
+      "loss": 0.123,
+      "num_input_tokens_seen": 34455232,
+      "step": 15935
+    },
+    {
+      "epoch": 2.600326264274062,
+      "grad_norm": 0.1390226036310196,
+      "learning_rate": 0.0009972594594190884,
+      "loss": 0.2094,
+      "num_input_tokens_seen": 34465792,
+      "step": 15940
+    },
+    {
+      "epoch": 2.601141924959217,
+      "grad_norm": 0.046548616141080856,
+      "learning_rate": 0.0009972520120473149,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 34477024,
+      "step": 15945
+    },
+    {
+      "epoch": 2.6019575856443717,
+      "grad_norm": 0.053153183311223984,
+      "learning_rate": 0.0009972445545980988,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 34487808,
+      "step": 15950
+    },
+    {
+      "epoch": 2.602773246329527,
+      "grad_norm": 0.016847344115376472,
+      "learning_rate": 0.0009972370870715908,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 34498848,
+      "step": 15955
+    },
+    {
+      "epoch": 2.603588907014682,
+      "grad_norm": 0.05434371903538704,
+      "learning_rate": 0.0009972296094679426,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 34509664,
+      "step": 15960
+    },
+    {
+      "epoch": 2.604404567699837,
+      "grad_norm": 0.02624763920903206,
+      "learning_rate": 0.0009972221217873054,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 34518720,
+      "step": 15965
+    },
+    {
+      "epoch": 2.605220228384992,
+      "grad_norm": 0.03936131298542023,
+      "learning_rate": 0.0009972146240298312,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 34530272,
+      "step": 15970
+    },
+    {
+      "epoch": 2.6060358890701467,
+      "grad_norm": 0.06856126338243484,
+      "learning_rate": 0.000997207116195672,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 34541152,
+      "step": 15975
+    },
+    {
+      "epoch": 2.6068515497553015,
+      "grad_norm": 0.18589448928833008,
+      "learning_rate": 0.0009971995982849795,
+      "loss": 0.1929,
+      "num_input_tokens_seen": 34551872,
+      "step": 15980
+    },
+    {
+      "epoch": 2.607667210440457,
+      "grad_norm": 0.1637170910835266,
+      "learning_rate": 0.0009971920702979066,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 34563168,
+      "step": 15985
+    },
+    {
+      "epoch": 2.6084828711256116,
+      "grad_norm": 0.25298258662223816,
+      "learning_rate": 0.000997184532234606,
+      "loss": 0.2414,
+      "num_input_tokens_seen": 34572832,
+      "step": 15990
+    },
+    {
+      "epoch": 2.609298531810767,
+      "grad_norm": 0.10075201094150543,
+      "learning_rate": 0.0009971769840952296,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 34584704,
+      "step": 15995
+    },
+    {
+      "epoch": 2.6101141924959217,
+      "grad_norm": 0.03244736045598984,
+      "learning_rate": 0.0009971694258799312,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 34594912,
+      "step": 16000
+    },
+    {
+      "epoch": 2.6109298531810765,
+      "grad_norm": 0.10081294924020767,
+      "learning_rate": 0.0009971618575888637,
+      "loss": 0.1658,
+      "num_input_tokens_seen": 34604480,
+      "step": 16005
+    },
+    {
+      "epoch": 2.6117455138662318,
+      "grad_norm": 0.010015531443059444,
+      "learning_rate": 0.0009971542792221802,
+      "loss": 0.1819,
+      "num_input_tokens_seen": 34615072,
+      "step": 16010
+    },
+    {
+      "epoch": 2.6125611745513866,
+      "grad_norm": 0.15907056629657745,
+      "learning_rate": 0.000997146690780035,
+      "loss": 0.104,
+      "num_input_tokens_seen": 34626016,
+      "step": 16015
+    },
+    {
+      "epoch": 2.613376835236542,
+      "grad_norm": 0.03764641657471657,
+      "learning_rate": 0.000997139092262581,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 34637600,
+      "step": 16020
+    },
+    {
+      "epoch": 2.6141924959216967,
+      "grad_norm": 0.03706960752606392,
+      "learning_rate": 0.0009971314836699728,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 34648736,
+      "step": 16025
+    },
+    {
+      "epoch": 2.6150081566068515,
+      "grad_norm": 0.03933669254183769,
+      "learning_rate": 0.0009971238650023644,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 34658528,
+      "step": 16030
+    },
+    {
+      "epoch": 2.6158238172920063,
+      "grad_norm": 0.07986725121736526,
+      "learning_rate": 0.0009971162362599102,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 34669088,
+      "step": 16035
+    },
+    {
+      "epoch": 2.6166394779771616,
+      "grad_norm": 0.29692548513412476,
+      "learning_rate": 0.000997108597442765,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 34681632,
+      "step": 16040
+    },
+    {
+      "epoch": 2.6174551386623164,
+      "grad_norm": 0.10401139408349991,
+      "learning_rate": 0.000997100948551083,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 34692768,
+      "step": 16045
+    },
+    {
+      "epoch": 2.6182707993474716,
+      "grad_norm": 0.04141692817211151,
+      "learning_rate": 0.0009970932895850201,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 34702656,
+      "step": 16050
+    },
+    {
+      "epoch": 2.6190864600326265,
+      "grad_norm": 0.017853064462542534,
+      "learning_rate": 0.000997085620544731,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 34713248,
+      "step": 16055
+    },
+    {
+      "epoch": 2.6199021207177813,
+      "grad_norm": 0.018851248547434807,
+      "learning_rate": 0.0009970779414303712,
+      "loss": 0.2701,
+      "num_input_tokens_seen": 34723808,
+      "step": 16060
+    },
+    {
+      "epoch": 2.6207177814029365,
+      "grad_norm": 0.06940672546625137,
+      "learning_rate": 0.0009970702522420962,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 34735616,
+      "step": 16065
+    },
+    {
+      "epoch": 2.6215334420880914,
+      "grad_norm": 0.2243514209985733,
+      "learning_rate": 0.000997062552980062,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 34746048,
+      "step": 16070
+    },
+    {
+      "epoch": 2.622349102773246,
+      "grad_norm": 0.1178874745965004,
+      "learning_rate": 0.0009970548436444248,
+      "loss": 0.07,
+      "num_input_tokens_seen": 34755488,
+      "step": 16075
+    },
+    {
+      "epoch": 2.6231647634584014,
+      "grad_norm": 0.03382722660899162,
+      "learning_rate": 0.0009970471242353406,
+      "loss": 0.1779,
+      "num_input_tokens_seen": 34766048,
+      "step": 16080
+    },
+    {
+      "epoch": 2.6239804241435563,
+      "grad_norm": 0.017402131110429764,
+      "learning_rate": 0.0009970393947529657,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 34776992,
+      "step": 16085
+    },
+    {
+      "epoch": 2.624796084828711,
+      "grad_norm": 0.1997496634721756,
+      "learning_rate": 0.0009970316551974568,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 34788640,
+      "step": 16090
+    },
+    {
+      "epoch": 2.6256117455138663,
+      "grad_norm": 0.032988984137773514,
+      "learning_rate": 0.0009970239055689712,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 34797536,
+      "step": 16095
+    },
+    {
+      "epoch": 2.626427406199021,
+      "grad_norm": 0.063567616045475,
+      "learning_rate": 0.0009970161458676655,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 34809152,
+      "step": 16100
+    },
+    {
+      "epoch": 2.6272430668841764,
+      "grad_norm": 0.11862125992774963,
+      "learning_rate": 0.000997008376093697,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 34820160,
+      "step": 16105
+    },
+    {
+      "epoch": 2.6280587275693312,
+      "grad_norm": 0.1909906566143036,
+      "learning_rate": 0.0009970005962472233,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 34833312,
+      "step": 16110
+    },
+    {
+      "epoch": 2.628874388254486,
+      "grad_norm": 0.22565732896327972,
+      "learning_rate": 0.0009969928063284022,
+      "loss": 0.1844,
+      "num_input_tokens_seen": 34842368,
+      "step": 16115
+    },
+    {
+      "epoch": 2.629690048939641,
+      "grad_norm": 0.04123775288462639,
+      "learning_rate": 0.0009969850063373913,
+      "loss": 0.197,
+      "num_input_tokens_seen": 34852320,
+      "step": 16120
+    },
+    {
+      "epoch": 2.630505709624796,
+      "grad_norm": 0.038814183324575424,
+      "learning_rate": 0.0009969771962743488,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 34863680,
+      "step": 16125
+    },
+    {
+      "epoch": 2.631321370309951,
+      "grad_norm": 0.007476178463548422,
+      "learning_rate": 0.0009969693761394326,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 34874880,
+      "step": 16130
+    },
+    {
+      "epoch": 2.632137030995106,
+      "grad_norm": 0.11543486267328262,
+      "learning_rate": 0.000996961545932802,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 34884192,
+      "step": 16135
+    },
+    {
+      "epoch": 2.632952691680261,
+      "grad_norm": 0.038836341351270676,
+      "learning_rate": 0.0009969537056546151,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 34894688,
+      "step": 16140
+    },
+    {
+      "epoch": 2.633768352365416,
+      "grad_norm": 0.062395110726356506,
+      "learning_rate": 0.000996945855305031,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 34904256,
+      "step": 16145
+    },
+    {
+      "epoch": 2.634584013050571,
+      "grad_norm": 0.06816502660512924,
+      "learning_rate": 0.0009969379948842085,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 34916864,
+      "step": 16150
+    },
+    {
+      "epoch": 2.635399673735726,
+      "grad_norm": 0.028660116717219353,
+      "learning_rate": 0.0009969301243923073,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 34927200,
+      "step": 16155
+    },
+    {
+      "epoch": 2.636215334420881,
+      "grad_norm": 0.054395247250795364,
+      "learning_rate": 0.0009969222438294867,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 34938656,
+      "step": 16160
+    },
+    {
+      "epoch": 2.637030995106036,
+      "grad_norm": 0.12486924231052399,
+      "learning_rate": 0.0009969143531959063,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 34949600,
+      "step": 16165
+    },
+    {
+      "epoch": 2.637846655791191,
+      "grad_norm": 0.017010482028126717,
+      "learning_rate": 0.0009969064524917265,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 34961696,
+      "step": 16170
+    },
+    {
+      "epoch": 2.6386623164763456,
+      "grad_norm": 0.009399576112627983,
+      "learning_rate": 0.000996898541717107,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 34972320,
+      "step": 16175
+    },
+    {
+      "epoch": 2.639477977161501,
+      "grad_norm": 0.2002403438091278,
+      "learning_rate": 0.0009968906208722077,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 34983744,
+      "step": 16180
+    },
+    {
+      "epoch": 2.6402936378466557,
+      "grad_norm": 0.0805182009935379,
+      "learning_rate": 0.00099688268995719,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 34994880,
+      "step": 16185
+    },
+    {
+      "epoch": 2.641109298531811,
+      "grad_norm": 0.14909473061561584,
+      "learning_rate": 0.0009968747489722141,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 35004928,
+      "step": 16190
+    },
+    {
+      "epoch": 2.641924959216966,
+      "grad_norm": 0.2769220471382141,
+      "learning_rate": 0.0009968667979174412,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 35015136,
+      "step": 16195
+    },
+    {
+      "epoch": 2.6427406199021206,
+      "grad_norm": 0.2111338973045349,
+      "learning_rate": 0.0009968588367930324,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 35024736,
+      "step": 16200
+    },
+    {
+      "epoch": 2.6435562805872754,
+      "grad_norm": 0.003953300416469574,
+      "learning_rate": 0.0009968508655991489,
+      "loss": 0.2273,
+      "num_input_tokens_seen": 35035872,
+      "step": 16205
+    },
+    {
+      "epoch": 2.6443719412724307,
+      "grad_norm": 0.03729906305670738,
+      "learning_rate": 0.0009968428843359523,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 35047424,
+      "step": 16210
+    },
+    {
+      "epoch": 2.6451876019575855,
+      "grad_norm": 0.2112385332584381,
+      "learning_rate": 0.0009968348930036043,
+      "loss": 0.097,
+      "num_input_tokens_seen": 35057696,
+      "step": 16215
+    },
+    {
+      "epoch": 2.6460032626427408,
+      "grad_norm": 0.12490873783826828,
+      "learning_rate": 0.000996826891602267,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 35069440,
+      "step": 16220
+    },
+    {
+      "epoch": 2.6468189233278956,
+      "grad_norm": 0.03835887461900711,
+      "learning_rate": 0.0009968188801321024,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 35080064,
+      "step": 16225
+    },
+    {
+      "epoch": 2.6476345840130504,
+      "grad_norm": 0.12459404021501541,
+      "learning_rate": 0.000996810858593273,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 35090944,
+      "step": 16230
+    },
+    {
+      "epoch": 2.6484502446982057,
+      "grad_norm": 0.21367542445659637,
+      "learning_rate": 0.000996802826985941,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 35100896,
+      "step": 16235
+    },
+    {
+      "epoch": 2.6492659053833605,
+      "grad_norm": 0.03609883412718773,
+      "learning_rate": 0.0009967947853102698,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 35111488,
+      "step": 16240
+    },
+    {
+      "epoch": 2.6500815660685157,
+      "grad_norm": 0.010214082896709442,
+      "learning_rate": 0.000996786733566422,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 35123360,
+      "step": 16245
+    },
+    {
+      "epoch": 2.6508972267536706,
+      "grad_norm": 0.11889711022377014,
+      "learning_rate": 0.0009967786717545609,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 35133952,
+      "step": 16250
+    },
+    {
+      "epoch": 2.6517128874388254,
+      "grad_norm": 0.4400777220726013,
+      "learning_rate": 0.0009967705998748496,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 35144800,
+      "step": 16255
+    },
+    {
+      "epoch": 2.65252854812398,
+      "grad_norm": 0.023491906002163887,
+      "learning_rate": 0.000996762517927452,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 35154624,
+      "step": 16260
+    },
+    {
+      "epoch": 2.6533442088091355,
+      "grad_norm": 0.2003888189792633,
+      "learning_rate": 0.0009967544259125317,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 35163648,
+      "step": 16265
+    },
+    {
+      "epoch": 2.6541598694942903,
+      "grad_norm": 0.19598814845085144,
+      "learning_rate": 0.000996746323830253,
+      "loss": 0.2184,
+      "num_input_tokens_seen": 35174976,
+      "step": 16270
+    },
+    {
+      "epoch": 2.6549755301794455,
+      "grad_norm": 0.050365347415208817,
+      "learning_rate": 0.0009967382116807797,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 35186432,
+      "step": 16275
+    },
+    {
+      "epoch": 2.6557911908646004,
+      "grad_norm": 0.05750131234526634,
+      "learning_rate": 0.0009967300894642764,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 35196896,
+      "step": 16280
+    },
+    {
+      "epoch": 2.656606851549755,
+      "grad_norm": 0.04523392394185066,
+      "learning_rate": 0.0009967219571809076,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 35207360,
+      "step": 16285
+    },
+    {
+      "epoch": 2.6574225122349104,
+      "grad_norm": 0.0062296329997479916,
+      "learning_rate": 0.0009967138148308384,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 35217664,
+      "step": 16290
+    },
+    {
+      "epoch": 2.6582381729200653,
+      "grad_norm": 0.0448344424366951,
+      "learning_rate": 0.0009967056624142336,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 35228128,
+      "step": 16295
+    },
+    {
+      "epoch": 2.65905383360522,
+      "grad_norm": 0.046069227159023285,
+      "learning_rate": 0.0009966974999312584,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 35237728,
+      "step": 16300
+    },
+    {
+      "epoch": 2.6598694942903753,
+      "grad_norm": 0.04713843762874603,
+      "learning_rate": 0.000996689327382078,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 35247968,
+      "step": 16305
+    },
+    {
+      "epoch": 2.66068515497553,
+      "grad_norm": 0.088753342628479,
+      "learning_rate": 0.0009966811447668586,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 35258496,
+      "step": 16310
+    },
+    {
+      "epoch": 2.661500815660685,
+      "grad_norm": 0.23398029804229736,
+      "learning_rate": 0.0009966729520857658,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 35268448,
+      "step": 16315
+    },
+    {
+      "epoch": 2.6623164763458402,
+      "grad_norm": 0.02539239078760147,
+      "learning_rate": 0.0009966647493389654,
+      "loss": 0.2314,
+      "num_input_tokens_seen": 35279680,
+      "step": 16320
+    },
+    {
+      "epoch": 2.663132137030995,
+      "grad_norm": 0.05267626419663429,
+      "learning_rate": 0.0009966565365266238,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 35290080,
+      "step": 16325
+    },
+    {
+      "epoch": 2.6639477977161503,
+      "grad_norm": 0.01566062681376934,
+      "learning_rate": 0.0009966483136489073,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 35301760,
+      "step": 16330
+    },
+    {
+      "epoch": 2.664763458401305,
+      "grad_norm": 0.06919416785240173,
+      "learning_rate": 0.0009966400807059827,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 35313376,
+      "step": 16335
+    },
+    {
+      "epoch": 2.66557911908646,
+      "grad_norm": 0.04618493840098381,
+      "learning_rate": 0.000996631837698017,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 35323968,
+      "step": 16340
+    },
+    {
+      "epoch": 2.6663947797716148,
+      "grad_norm": 0.2246595174074173,
+      "learning_rate": 0.000996623584625177,
+      "loss": 0.3272,
+      "num_input_tokens_seen": 35334592,
+      "step": 16345
+    },
+    {
+      "epoch": 2.66721044045677,
+      "grad_norm": 0.02475031651556492,
+      "learning_rate": 0.00099661532148763,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 35346208,
+      "step": 16350
+    },
+    {
+      "epoch": 2.668026101141925,
+      "grad_norm": 0.1650330275297165,
+      "learning_rate": 0.0009966070482855436,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 35357696,
+      "step": 16355
+    },
+    {
+      "epoch": 2.66884176182708,
+      "grad_norm": 0.0800071507692337,
+      "learning_rate": 0.0009965987650190852,
+      "loss": 0.2077,
+      "num_input_tokens_seen": 35368640,
+      "step": 16360
+    },
+    {
+      "epoch": 2.669657422512235,
+      "grad_norm": 0.03208388015627861,
+      "learning_rate": 0.000996590471688423,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 35380480,
+      "step": 16365
+    },
+    {
+      "epoch": 2.6704730831973897,
+      "grad_norm": 0.15314123034477234,
+      "learning_rate": 0.000996582168293725,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 35393344,
+      "step": 16370
+    },
+    {
+      "epoch": 2.671288743882545,
+      "grad_norm": 0.20598310232162476,
+      "learning_rate": 0.0009965738548351592,
+      "loss": 0.1603,
+      "num_input_tokens_seen": 35402656,
+      "step": 16375
+    },
+    {
+      "epoch": 2.6721044045677,
+      "grad_norm": 0.06572859734296799,
+      "learning_rate": 0.0009965655313128945,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 35413920,
+      "step": 16380
+    },
+    {
+      "epoch": 2.672920065252855,
+      "grad_norm": 0.10475694388151169,
+      "learning_rate": 0.0009965571977270994,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 35422688,
+      "step": 16385
+    },
+    {
+      "epoch": 2.67373572593801,
+      "grad_norm": 0.0855659693479538,
+      "learning_rate": 0.0009965488540779426,
+      "loss": 0.1929,
+      "num_input_tokens_seen": 35432896,
+      "step": 16390
+    },
+    {
+      "epoch": 2.6745513866231647,
+      "grad_norm": 0.0473497100174427,
+      "learning_rate": 0.0009965405003655933,
+      "loss": 0.052,
+      "num_input_tokens_seen": 35443328,
+      "step": 16395
+    },
+    {
+      "epoch": 2.6753670473083195,
+      "grad_norm": 0.040079183876514435,
+      "learning_rate": 0.000996532136590221,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 35452992,
+      "step": 16400
+    },
+    {
+      "epoch": 2.676182707993475,
+      "grad_norm": 0.1019391268491745,
+      "learning_rate": 0.000996523762751995,
+      "loss": 0.15,
+      "num_input_tokens_seen": 35464544,
+      "step": 16405
+    },
+    {
+      "epoch": 2.6769983686786296,
+      "grad_norm": 0.038980767130851746,
+      "learning_rate": 0.000996515378851085,
+      "loss": 0.1345,
+      "num_input_tokens_seen": 35475488,
+      "step": 16410
+    },
+    {
+      "epoch": 2.677814029363785,
+      "grad_norm": 0.12611663341522217,
+      "learning_rate": 0.0009965069848876609,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 35486272,
+      "step": 16415
+    },
+    {
+      "epoch": 2.6786296900489397,
+      "grad_norm": 0.2920730412006378,
+      "learning_rate": 0.000996498580861893,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 35497312,
+      "step": 16420
+    },
+    {
+      "epoch": 2.6794453507340945,
+      "grad_norm": 0.2523801624774933,
+      "learning_rate": 0.0009964901667739517,
+      "loss": 0.2546,
+      "num_input_tokens_seen": 35506624,
+      "step": 16425
+    },
+    {
+      "epoch": 2.6802610114192493,
+      "grad_norm": 0.4290613532066345,
+      "learning_rate": 0.000996481742624007,
+      "loss": 0.2409,
+      "num_input_tokens_seen": 35516352,
+      "step": 16430
+    },
+    {
+      "epoch": 2.6810766721044046,
+      "grad_norm": 0.029356911778450012,
+      "learning_rate": 0.00099647330841223,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 35527392,
+      "step": 16435
+    },
+    {
+      "epoch": 2.6818923327895594,
+      "grad_norm": 0.10720787197351456,
+      "learning_rate": 0.0009964648641387918,
+      "loss": 0.2365,
+      "num_input_tokens_seen": 35537888,
+      "step": 16440
+    },
+    {
+      "epoch": 2.6827079934747147,
+      "grad_norm": 0.026292763650417328,
+      "learning_rate": 0.000996456409803863,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 35547680,
+      "step": 16445
+    },
+    {
+      "epoch": 2.6835236541598695,
+      "grad_norm": 0.030141742900013924,
+      "learning_rate": 0.0009964479454076156,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 35557920,
+      "step": 16450
+    },
+    {
+      "epoch": 2.6843393148450243,
+      "grad_norm": 0.09774786978960037,
+      "learning_rate": 0.0009964394709502207,
+      "loss": 0.1538,
+      "num_input_tokens_seen": 35568064,
+      "step": 16455
+    },
+    {
+      "epoch": 2.6851549755301796,
+      "grad_norm": 0.03949353098869324,
+      "learning_rate": 0.0009964309864318502,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 35579200,
+      "step": 16460
+    },
+    {
+      "epoch": 2.6859706362153344,
+      "grad_norm": 0.0355185829102993,
+      "learning_rate": 0.0009964224918526758,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 35588928,
+      "step": 16465
+    },
+    {
+      "epoch": 2.6867862969004896,
+      "grad_norm": 0.03025023639202118,
+      "learning_rate": 0.0009964139872128699,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 35600576,
+      "step": 16470
+    },
+    {
+      "epoch": 2.6876019575856445,
+      "grad_norm": 0.23995541036128998,
+      "learning_rate": 0.000996405472512605,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 35611296,
+      "step": 16475
+    },
+    {
+      "epoch": 2.6884176182707993,
+      "grad_norm": 0.26141855120658875,
+      "learning_rate": 0.0009963969477520531,
+      "loss": 0.1881,
+      "num_input_tokens_seen": 35622592,
+      "step": 16480
+    },
+    {
+      "epoch": 2.689233278955954,
+      "grad_norm": 0.244488924741745,
+      "learning_rate": 0.0009963884129313876,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 35632704,
+      "step": 16485
+    },
+    {
+      "epoch": 2.6900489396411094,
+      "grad_norm": 0.0766143873333931,
+      "learning_rate": 0.0009963798680507811,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 35644000,
+      "step": 16490
+    },
+    {
+      "epoch": 2.690864600326264,
+      "grad_norm": 0.02519366890192032,
+      "learning_rate": 0.0009963713131104068,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 35653632,
+      "step": 16495
+    },
+    {
+      "epoch": 2.6916802610114194,
+      "grad_norm": 0.07979767769575119,
+      "learning_rate": 0.0009963627481104384,
+      "loss": 0.1554,
+      "num_input_tokens_seen": 35664704,
+      "step": 16500
+    },
+    {
+      "epoch": 2.6924959216965743,
+      "grad_norm": 0.1658993363380432,
+      "learning_rate": 0.000996354173051049,
+      "loss": 0.1786,
+      "num_input_tokens_seen": 35674944,
+      "step": 16505
+    },
+    {
+      "epoch": 2.693311582381729,
+      "grad_norm": 0.12059544771909714,
+      "learning_rate": 0.0009963455879324129,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 35685856,
+      "step": 16510
+    },
+    {
+      "epoch": 2.6941272430668843,
+      "grad_norm": 0.1469067484140396,
+      "learning_rate": 0.0009963369927547035,
+      "loss": 0.092,
+      "num_input_tokens_seen": 35697376,
+      "step": 16515
+    },
+    {
+      "epoch": 2.694942903752039,
+      "grad_norm": 0.12039193511009216,
+      "learning_rate": 0.0009963283875180952,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 35709184,
+      "step": 16520
+    },
+    {
+      "epoch": 2.695758564437194,
+      "grad_norm": 0.03307841345667839,
+      "learning_rate": 0.0009963197722227628,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 35719168,
+      "step": 16525
+    },
+    {
+      "epoch": 2.6965742251223492,
+      "grad_norm": 0.13452056050300598,
+      "learning_rate": 0.0009963111468688805,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 35729184,
+      "step": 16530
+    },
+    {
+      "epoch": 2.697389885807504,
+      "grad_norm": 0.024676907807588577,
+      "learning_rate": 0.000996302511456623,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 35739968,
+      "step": 16535
+    },
+    {
+      "epoch": 2.698205546492659,
+      "grad_norm": 0.12530513107776642,
+      "learning_rate": 0.0009962938659861657,
+      "loss": 0.142,
+      "num_input_tokens_seen": 35752384,
+      "step": 16540
+    },
+    {
+      "epoch": 2.699021207177814,
+      "grad_norm": 0.20160333812236786,
+      "learning_rate": 0.0009962852104576836,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 35762976,
+      "step": 16545
+    },
+    {
+      "epoch": 2.699836867862969,
+      "grad_norm": 0.02842654101550579,
+      "learning_rate": 0.0009962765448713522,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 35773536,
+      "step": 16550
+    },
+    {
+      "epoch": 2.700652528548124,
+      "grad_norm": 0.010374743491411209,
+      "learning_rate": 0.000996267869227347,
+      "loss": 0.2177,
+      "num_input_tokens_seen": 35784480,
+      "step": 16555
+    },
+    {
+      "epoch": 2.701468189233279,
+      "grad_norm": 0.04730985313653946,
+      "learning_rate": 0.0009962591835258436,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 35794720,
+      "step": 16560
+    },
+    {
+      "epoch": 2.702283849918434,
+      "grad_norm": 0.14314627647399902,
+      "learning_rate": 0.0009962504877670186,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 35805280,
+      "step": 16565
+    },
+    {
+      "epoch": 2.7030995106035887,
+      "grad_norm": 0.01593198999762535,
+      "learning_rate": 0.0009962417819510479,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 35814752,
+      "step": 16570
+    },
+    {
+      "epoch": 2.703915171288744,
+      "grad_norm": 0.022026842460036278,
+      "learning_rate": 0.0009962330660781078,
+      "loss": 0.11,
+      "num_input_tokens_seen": 35825344,
+      "step": 16575
+    },
+    {
+      "epoch": 2.7047308319738987,
+      "grad_norm": 0.07531365007162094,
+      "learning_rate": 0.0009962243401483752,
+      "loss": 0.313,
+      "num_input_tokens_seen": 35835840,
+      "step": 16580
+    },
+    {
+      "epoch": 2.705546492659054,
+      "grad_norm": 0.0568210706114769,
+      "learning_rate": 0.000996215604162027,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 35845856,
+      "step": 16585
+    },
+    {
+      "epoch": 2.706362153344209,
+      "grad_norm": 0.038479603826999664,
+      "learning_rate": 0.0009962068581192399,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 35856928,
+      "step": 16590
+    },
+    {
+      "epoch": 2.7071778140293636,
+      "grad_norm": 0.03605350852012634,
+      "learning_rate": 0.0009961981020201913,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 35867232,
+      "step": 16595
+    },
+    {
+      "epoch": 2.707993474714519,
+      "grad_norm": 0.12278129905462265,
+      "learning_rate": 0.0009961893358650586,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 35878272,
+      "step": 16600
+    },
+    {
+      "epoch": 2.7088091353996737,
+      "grad_norm": 0.031820762902498245,
+      "learning_rate": 0.00099618055965402,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 35889088,
+      "step": 16605
+    },
+    {
+      "epoch": 2.709624796084829,
+      "grad_norm": 0.15299761295318604,
+      "learning_rate": 0.0009961717733872524,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 35899328,
+      "step": 16610
+    },
+    {
+      "epoch": 2.710440456769984,
+      "grad_norm": 0.08476471900939941,
+      "learning_rate": 0.0009961629770649347,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 35911008,
+      "step": 16615
+    },
+    {
+      "epoch": 2.7112561174551386,
+      "grad_norm": 0.1937631070613861,
+      "learning_rate": 0.0009961541706872447,
+      "loss": 0.2569,
+      "num_input_tokens_seen": 35921440,
+      "step": 16620
+    },
+    {
+      "epoch": 2.7120717781402934,
+      "grad_norm": 0.03174687549471855,
+      "learning_rate": 0.000996145354254361,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 35933792,
+      "step": 16625
+    },
+    {
+      "epoch": 2.7128874388254487,
+      "grad_norm": 0.021128924563527107,
+      "learning_rate": 0.0009961365277664624,
+      "loss": 0.2715,
+      "num_input_tokens_seen": 35945920,
+      "step": 16630
+    },
+    {
+      "epoch": 2.7137030995106035,
+      "grad_norm": 0.06190233677625656,
+      "learning_rate": 0.0009961276912237276,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 35957536,
+      "step": 16635
+    },
+    {
+      "epoch": 2.7145187601957588,
+      "grad_norm": 0.25115782022476196,
+      "learning_rate": 0.0009961188446263357,
+      "loss": 0.2473,
+      "num_input_tokens_seen": 35968512,
+      "step": 16640
+    },
+    {
+      "epoch": 2.7153344208809136,
+      "grad_norm": 0.08620987087488174,
+      "learning_rate": 0.0009961099879744661,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 35977760,
+      "step": 16645
+    },
+    {
+      "epoch": 2.7161500815660684,
+      "grad_norm": 0.16655907034873962,
+      "learning_rate": 0.0009961011212682982,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 35989056,
+      "step": 16650
+    },
+    {
+      "epoch": 2.7169657422512232,
+      "grad_norm": 0.038287725299596786,
+      "learning_rate": 0.0009960922445080118,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 36000096,
+      "step": 16655
+    },
+    {
+      "epoch": 2.7177814029363785,
+      "grad_norm": 0.021945785731077194,
+      "learning_rate": 0.0009960833576937867,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 36010624,
+      "step": 16660
+    },
+    {
+      "epoch": 2.7185970636215333,
+      "grad_norm": 0.0757167786359787,
+      "learning_rate": 0.000996074460825803,
+      "loss": 0.081,
+      "num_input_tokens_seen": 36022144,
+      "step": 16665
+    },
+    {
+      "epoch": 2.7194127243066886,
+      "grad_norm": 0.15707460045814514,
+      "learning_rate": 0.0009960655539042412,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 36033216,
+      "step": 16670
+    },
+    {
+      "epoch": 2.7202283849918434,
+      "grad_norm": 0.08880306780338287,
+      "learning_rate": 0.0009960566369292814,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 36044224,
+      "step": 16675
+    },
+    {
+      "epoch": 2.721044045676998,
+      "grad_norm": 0.04351628199219704,
+      "learning_rate": 0.0009960477099011048,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 36056768,
+      "step": 16680
+    },
+    {
+      "epoch": 2.7218597063621535,
+      "grad_norm": 0.010717559605836868,
+      "learning_rate": 0.000996038772819892,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 36067584,
+      "step": 16685
+    },
+    {
+      "epoch": 2.7226753670473083,
+      "grad_norm": 0.02620554156601429,
+      "learning_rate": 0.0009960298256858238,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 36078528,
+      "step": 16690
+    },
+    {
+      "epoch": 2.7234910277324635,
+      "grad_norm": 0.02566135860979557,
+      "learning_rate": 0.0009960208684990824,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 36090400,
+      "step": 16695
+    },
+    {
+      "epoch": 2.7243066884176184,
+      "grad_norm": 0.21687543392181396,
+      "learning_rate": 0.0009960119012598489,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 36101792,
+      "step": 16700
+    },
+    {
+      "epoch": 2.725122349102773,
+      "grad_norm": 0.19889047741889954,
+      "learning_rate": 0.0009960029239683046,
+      "loss": 0.3088,
+      "num_input_tokens_seen": 36112160,
+      "step": 16705
+    },
+    {
+      "epoch": 2.725938009787928,
+      "grad_norm": 0.14541514217853546,
+      "learning_rate": 0.000995993936624632,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 36123232,
+      "step": 16710
+    },
+    {
+      "epoch": 2.7267536704730833,
+      "grad_norm": 0.12091077119112015,
+      "learning_rate": 0.000995984939229013,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 36135232,
+      "step": 16715
+    },
+    {
+      "epoch": 2.727569331158238,
+      "grad_norm": 0.02517981454730034,
+      "learning_rate": 0.0009959759317816302,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 36147104,
+      "step": 16720
+    },
+    {
+      "epoch": 2.7283849918433933,
+      "grad_norm": 0.03287290409207344,
+      "learning_rate": 0.0009959669142826659,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 36158144,
+      "step": 16725
+    },
+    {
+      "epoch": 2.729200652528548,
+      "grad_norm": 0.04140019416809082,
+      "learning_rate": 0.0009959578867323028,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 36168416,
+      "step": 16730
+    },
+    {
+      "epoch": 2.730016313213703,
+      "grad_norm": 0.07255889475345612,
+      "learning_rate": 0.000995948849130724,
+      "loss": 0.111,
+      "num_input_tokens_seen": 36179488,
+      "step": 16735
+    },
+    {
+      "epoch": 2.7308319738988582,
+      "grad_norm": 0.04503436014056206,
+      "learning_rate": 0.0009959398014781128,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 36190336,
+      "step": 16740
+    },
+    {
+      "epoch": 2.731647634584013,
+      "grad_norm": 0.08020366728305817,
+      "learning_rate": 0.000995930743774652,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 36201280,
+      "step": 16745
+    },
+    {
+      "epoch": 2.732463295269168,
+      "grad_norm": 0.029173359274864197,
+      "learning_rate": 0.0009959216760205257,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 36211904,
+      "step": 16750
+    },
+    {
+      "epoch": 2.733278955954323,
+      "grad_norm": 0.14357851445674896,
+      "learning_rate": 0.0009959125982159176,
+      "loss": 0.2048,
+      "num_input_tokens_seen": 36222912,
+      "step": 16755
+    },
+    {
+      "epoch": 2.734094616639478,
+      "grad_norm": 0.17278997600078583,
+      "learning_rate": 0.0009959035103610115,
+      "loss": 0.1939,
+      "num_input_tokens_seen": 36234176,
+      "step": 16760
+    },
+    {
+      "epoch": 2.7349102773246328,
+      "grad_norm": 0.09782871603965759,
+      "learning_rate": 0.0009958944124559919,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 36244480,
+      "step": 16765
+    },
+    {
+      "epoch": 2.735725938009788,
+      "grad_norm": 0.16363048553466797,
+      "learning_rate": 0.0009958853045010426,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 36255520,
+      "step": 16770
+    },
+    {
+      "epoch": 2.736541598694943,
+      "grad_norm": 0.050788093358278275,
+      "learning_rate": 0.0009958761864963487,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 36265952,
+      "step": 16775
+    },
+    {
+      "epoch": 2.737357259380098,
+      "grad_norm": 0.08968115597963333,
+      "learning_rate": 0.0009958670584420948,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 36277248,
+      "step": 16780
+    },
+    {
+      "epoch": 2.738172920065253,
+      "grad_norm": 0.06076105311512947,
+      "learning_rate": 0.000995857920338466,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 36287424,
+      "step": 16785
+    },
+    {
+      "epoch": 2.7389885807504077,
+      "grad_norm": 0.19070397317409515,
+      "learning_rate": 0.0009958487721856474,
+      "loss": 0.1682,
+      "num_input_tokens_seen": 36297632,
+      "step": 16790
+    },
+    {
+      "epoch": 2.7398042414355626,
+      "grad_norm": 0.002982828998938203,
+      "learning_rate": 0.0009958396139838242,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 36307008,
+      "step": 16795
+    },
+    {
+      "epoch": 2.740619902120718,
+      "grad_norm": 0.015070038847625256,
+      "learning_rate": 0.0009958304457331822,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 36317952,
+      "step": 16800
+    },
+    {
+      "epoch": 2.7414355628058726,
+      "grad_norm": 0.19135338068008423,
+      "learning_rate": 0.0009958212674339075,
+      "loss": 0.059,
+      "num_input_tokens_seen": 36328128,
+      "step": 16805
+    },
+    {
+      "epoch": 2.742251223491028,
+      "grad_norm": 0.045779090374708176,
+      "learning_rate": 0.0009958120790861855,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 36337440,
+      "step": 16810
+    },
+    {
+      "epoch": 2.7430668841761827,
+      "grad_norm": 0.15114933252334595,
+      "learning_rate": 0.000995802880690203,
+      "loss": 0.1546,
+      "num_input_tokens_seen": 36347776,
+      "step": 16815
+    },
+    {
+      "epoch": 2.7438825448613375,
+      "grad_norm": 0.014411961659789085,
+      "learning_rate": 0.000995793672246146,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 36359360,
+      "step": 16820
+    },
+    {
+      "epoch": 2.744698205546493,
+      "grad_norm": 0.011926224455237389,
+      "learning_rate": 0.0009957844537542013,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 36370560,
+      "step": 16825
+    },
+    {
+      "epoch": 2.7455138662316476,
+      "grad_norm": 0.16889113187789917,
+      "learning_rate": 0.0009957752252145557,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 36381024,
+      "step": 16830
+    },
+    {
+      "epoch": 2.746329526916803,
+      "grad_norm": 0.042039863765239716,
+      "learning_rate": 0.0009957659866273963,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 36392224,
+      "step": 16835
+    },
+    {
+      "epoch": 2.7471451876019577,
+      "grad_norm": 0.013748877681791782,
+      "learning_rate": 0.0009957567379929103,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 36402880,
+      "step": 16840
+    },
+    {
+      "epoch": 2.7479608482871125,
+      "grad_norm": 0.05248915031552315,
+      "learning_rate": 0.0009957474793112848,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 36412288,
+      "step": 16845
+    },
+    {
+      "epoch": 2.7487765089722673,
+      "grad_norm": 0.030665088444948196,
+      "learning_rate": 0.0009957382105827079,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 36422976,
+      "step": 16850
+    },
+    {
+      "epoch": 2.7495921696574226,
+      "grad_norm": 0.009233402088284492,
+      "learning_rate": 0.0009957289318073674,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 36433984,
+      "step": 16855
+    },
+    {
+      "epoch": 2.7504078303425774,
+      "grad_norm": 0.18588995933532715,
+      "learning_rate": 0.000995719642985451,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 36444640,
+      "step": 16860
+    },
+    {
+      "epoch": 2.7512234910277327,
+      "grad_norm": 0.04793168231844902,
+      "learning_rate": 0.0009957103441171472,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 36456256,
+      "step": 16865
+    },
+    {
+      "epoch": 2.7520391517128875,
+      "grad_norm": 0.0442626029253006,
+      "learning_rate": 0.0009957010352026447,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 36467456,
+      "step": 16870
+    },
+    {
+      "epoch": 2.7528548123980423,
+      "grad_norm": 0.07995634526014328,
+      "learning_rate": 0.0009956917162421317,
+      "loss": 0.1783,
+      "num_input_tokens_seen": 36477472,
+      "step": 16875
+    },
+    {
+      "epoch": 2.753670473083197,
+      "grad_norm": 0.025483250617980957,
+      "learning_rate": 0.0009956823872357972,
+      "loss": 0.222,
+      "num_input_tokens_seen": 36489728,
+      "step": 16880
+    },
+    {
+      "epoch": 2.7544861337683524,
+      "grad_norm": 0.07462822645902634,
+      "learning_rate": 0.0009956730481838303,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 36500384,
+      "step": 16885
+    },
+    {
+      "epoch": 2.755301794453507,
+      "grad_norm": 0.029625002294778824,
+      "learning_rate": 0.0009956636990864202,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 36512192,
+      "step": 16890
+    },
+    {
+      "epoch": 2.7561174551386625,
+      "grad_norm": 0.04722673445940018,
+      "learning_rate": 0.0009956543399437569,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 36521600,
+      "step": 16895
+    },
+    {
+      "epoch": 2.7569331158238173,
+      "grad_norm": 0.009356287308037281,
+      "learning_rate": 0.0009956449707560291,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 36532192,
+      "step": 16900
+    },
+    {
+      "epoch": 2.757748776508972,
+      "grad_norm": 0.023361343890428543,
+      "learning_rate": 0.0009956355915234274,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 36542816,
+      "step": 16905
+    },
+    {
+      "epoch": 2.7585644371941274,
+      "grad_norm": 0.12797385454177856,
+      "learning_rate": 0.0009956262022461416,
+      "loss": 0.223,
+      "num_input_tokens_seen": 36553344,
+      "step": 16910
+    },
+    {
+      "epoch": 2.759380097879282,
+      "grad_norm": 0.18771253526210785,
+      "learning_rate": 0.0009956168029243621,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 36564320,
+      "step": 16915
+    },
+    {
+      "epoch": 2.7601957585644374,
+      "grad_norm": 0.039339229464530945,
+      "learning_rate": 0.0009956073935582794,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 36575744,
+      "step": 16920
+    },
+    {
+      "epoch": 2.7610114192495923,
+      "grad_norm": 0.16050797700881958,
+      "learning_rate": 0.000995597974148084,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 36587328,
+      "step": 16925
+    },
+    {
+      "epoch": 2.761827079934747,
+      "grad_norm": 0.04854540526866913,
+      "learning_rate": 0.0009955885446939672,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 36598304,
+      "step": 16930
+    },
+    {
+      "epoch": 2.762642740619902,
+      "grad_norm": 0.03333837911486626,
+      "learning_rate": 0.0009955791051961195,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 36609856,
+      "step": 16935
+    },
+    {
+      "epoch": 2.763458401305057,
+      "grad_norm": 0.015216774307191372,
+      "learning_rate": 0.000995569655654733,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 36619648,
+      "step": 16940
+    },
+    {
+      "epoch": 2.764274061990212,
+      "grad_norm": 0.04915167763829231,
+      "learning_rate": 0.0009955601960699983,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 36629440,
+      "step": 16945
+    },
+    {
+      "epoch": 2.7650897226753672,
+      "grad_norm": 0.07696164399385452,
+      "learning_rate": 0.0009955507264421079,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 36640224,
+      "step": 16950
+    },
+    {
+      "epoch": 2.765905383360522,
+      "grad_norm": 0.17016223073005676,
+      "learning_rate": 0.0009955412467712531,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 36652288,
+      "step": 16955
+    },
+    {
+      "epoch": 2.766721044045677,
+      "grad_norm": 0.07087530940771103,
+      "learning_rate": 0.0009955317570576265,
+      "loss": 0.024,
+      "num_input_tokens_seen": 36663776,
+      "step": 16960
+    },
+    {
+      "epoch": 2.767536704730832,
+      "grad_norm": 0.015933789312839508,
+      "learning_rate": 0.0009955222573014202,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 36674560,
+      "step": 16965
+    },
+    {
+      "epoch": 2.768352365415987,
+      "grad_norm": 0.05921601876616478,
+      "learning_rate": 0.0009955127475028266,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 36685664,
+      "step": 16970
+    },
+    {
+      "epoch": 2.7691680261011418,
+      "grad_norm": 0.03298629820346832,
+      "learning_rate": 0.0009955032276620388,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 36697568,
+      "step": 16975
+    },
+    {
+      "epoch": 2.769983686786297,
+      "grad_norm": 0.08991827815771103,
+      "learning_rate": 0.0009954936977792492,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 36708288,
+      "step": 16980
+    },
+    {
+      "epoch": 2.770799347471452,
+      "grad_norm": 0.04772263765335083,
+      "learning_rate": 0.0009954841578546515,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 36718976,
+      "step": 16985
+    },
+    {
+      "epoch": 2.7716150081566067,
+      "grad_norm": 0.32339712977409363,
+      "learning_rate": 0.0009954746078884387,
+      "loss": 0.1995,
+      "num_input_tokens_seen": 36730688,
+      "step": 16990
+    },
+    {
+      "epoch": 2.772430668841762,
+      "grad_norm": 0.10802032053470612,
+      "learning_rate": 0.0009954650478808042,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 36741120,
+      "step": 16995
+    },
+    {
+      "epoch": 2.7732463295269167,
+      "grad_norm": 0.006154247093945742,
+      "learning_rate": 0.0009954554778319423,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 36751904,
+      "step": 17000
+    },
+    {
+      "epoch": 2.774061990212072,
+      "grad_norm": 0.0152150709182024,
+      "learning_rate": 0.0009954458977420465,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 36761952,
+      "step": 17005
+    },
+    {
+      "epoch": 2.774877650897227,
+      "grad_norm": 0.0315382294356823,
+      "learning_rate": 0.000995436307611311,
+      "loss": 0.1436,
+      "num_input_tokens_seen": 36772800,
+      "step": 17010
+    },
+    {
+      "epoch": 2.7756933115823816,
+      "grad_norm": 0.13253070414066315,
+      "learning_rate": 0.0009954267074399302,
+      "loss": 0.1868,
+      "num_input_tokens_seen": 36783168,
+      "step": 17015
+    },
+    {
+      "epoch": 2.7765089722675365,
+      "grad_norm": 0.052694886922836304,
+      "learning_rate": 0.0009954170972280988,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 36794464,
+      "step": 17020
+    },
+    {
+      "epoch": 2.7773246329526917,
+      "grad_norm": 0.011267283000051975,
+      "learning_rate": 0.0009954074769760112,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 36805344,
+      "step": 17025
+    },
+    {
+      "epoch": 2.7781402936378465,
+      "grad_norm": 0.031975969672203064,
+      "learning_rate": 0.0009953978466838629,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 36816192,
+      "step": 17030
+    },
+    {
+      "epoch": 2.778955954323002,
+      "grad_norm": 0.20794735848903656,
+      "learning_rate": 0.0009953882063518486,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 36827968,
+      "step": 17035
+    },
+    {
+      "epoch": 2.7797716150081566,
+      "grad_norm": 0.013200036250054836,
+      "learning_rate": 0.000995378555980164,
+      "loss": 0.1362,
+      "num_input_tokens_seen": 36839392,
+      "step": 17040
+    },
+    {
+      "epoch": 2.7805872756933114,
+      "grad_norm": 0.3909376859664917,
+      "learning_rate": 0.0009953688955690045,
+      "loss": 0.2137,
+      "num_input_tokens_seen": 36850208,
+      "step": 17045
+    },
+    {
+      "epoch": 2.7814029363784667,
+      "grad_norm": 0.09196203947067261,
+      "learning_rate": 0.0009953592251185658,
+      "loss": 0.136,
+      "num_input_tokens_seen": 36861504,
+      "step": 17050
+    },
+    {
+      "epoch": 2.7822185970636215,
+      "grad_norm": 0.03299575299024582,
+      "learning_rate": 0.000995349544629044,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 36871616,
+      "step": 17055
+    },
+    {
+      "epoch": 2.7830342577487768,
+      "grad_norm": 0.0684279352426529,
+      "learning_rate": 0.0009953398541006353,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 36882816,
+      "step": 17060
+    },
+    {
+      "epoch": 2.7838499184339316,
+      "grad_norm": 0.06969677656888962,
+      "learning_rate": 0.0009953301535335361,
+      "loss": 0.211,
+      "num_input_tokens_seen": 36894208,
+      "step": 17065
+    },
+    {
+      "epoch": 2.7846655791190864,
+      "grad_norm": 0.05764150246977806,
+      "learning_rate": 0.000995320442927943,
+      "loss": 0.2221,
+      "num_input_tokens_seen": 36906560,
+      "step": 17070
+    },
+    {
+      "epoch": 2.7854812398042412,
+      "grad_norm": 0.03223137930035591,
+      "learning_rate": 0.0009953107222840528,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 36916672,
+      "step": 17075
+    },
+    {
+      "epoch": 2.7862969004893965,
+      "grad_norm": 0.1956624835729599,
+      "learning_rate": 0.0009953009916020624,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 36927776,
+      "step": 17080
+    },
+    {
+      "epoch": 2.7871125611745513,
+      "grad_norm": 0.042754679918289185,
+      "learning_rate": 0.0009952912508821691,
+      "loss": 0.1977,
+      "num_input_tokens_seen": 36939392,
+      "step": 17085
+    },
+    {
+      "epoch": 2.7879282218597066,
+      "grad_norm": 0.061387669295072556,
+      "learning_rate": 0.0009952815001245702,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 36951168,
+      "step": 17090
+    },
+    {
+      "epoch": 2.7887438825448614,
+      "grad_norm": 0.03364640846848488,
+      "learning_rate": 0.0009952717393294636,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 36962112,
+      "step": 17095
+    },
+    {
+      "epoch": 2.789559543230016,
+      "grad_norm": 0.1411299854516983,
+      "learning_rate": 0.0009952619684970468,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 36973184,
+      "step": 17100
+    },
+    {
+      "epoch": 2.790375203915171,
+      "grad_norm": 0.02755509875714779,
+      "learning_rate": 0.0009952521876275178,
+      "loss": 0.1578,
+      "num_input_tokens_seen": 36983232,
+      "step": 17105
+    },
+    {
+      "epoch": 2.7911908646003263,
+      "grad_norm": 0.043589744716882706,
+      "learning_rate": 0.0009952423967210752,
+      "loss": 0.1919,
+      "num_input_tokens_seen": 36993824,
+      "step": 17110
+    },
+    {
+      "epoch": 2.792006525285481,
+      "grad_norm": 0.032452911138534546,
+      "learning_rate": 0.0009952325957779168,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 37005248,
+      "step": 17115
+    },
+    {
+      "epoch": 2.7928221859706364,
+      "grad_norm": 0.11344970762729645,
+      "learning_rate": 0.0009952227847982418,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 37015808,
+      "step": 17120
+    },
+    {
+      "epoch": 2.793637846655791,
+      "grad_norm": 0.010948172770440578,
+      "learning_rate": 0.000995212963782249,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 37026176,
+      "step": 17125
+    },
+    {
+      "epoch": 2.794453507340946,
+      "grad_norm": 0.05834111198782921,
+      "learning_rate": 0.000995203132730137,
+      "loss": 0.1682,
+      "num_input_tokens_seen": 37036864,
+      "step": 17130
+    },
+    {
+      "epoch": 2.7952691680261013,
+      "grad_norm": 0.12609679996967316,
+      "learning_rate": 0.0009951932916421053,
+      "loss": 0.2157,
+      "num_input_tokens_seen": 37046688,
+      "step": 17135
+    },
+    {
+      "epoch": 2.796084828711256,
+      "grad_norm": 0.017100023105740547,
+      "learning_rate": 0.0009951834405183535,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 37056992,
+      "step": 17140
+    },
+    {
+      "epoch": 2.7969004893964113,
+      "grad_norm": 0.17199130356311798,
+      "learning_rate": 0.0009951735793590811,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 37068064,
+      "step": 17145
+    },
+    {
+      "epoch": 2.797716150081566,
+      "grad_norm": 0.0340568870306015,
+      "learning_rate": 0.0009951637081644879,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 37078752,
+      "step": 17150
+    },
+    {
+      "epoch": 2.798531810766721,
+      "grad_norm": 0.10646383464336395,
+      "learning_rate": 0.000995153826934774,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 37089984,
+      "step": 17155
+    },
+    {
+      "epoch": 2.799347471451876,
+      "grad_norm": 0.17747409641742706,
+      "learning_rate": 0.0009951439356701394,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 37100320,
+      "step": 17160
+    },
+    {
+      "epoch": 2.800163132137031,
+      "grad_norm": 0.2767079770565033,
+      "learning_rate": 0.0009951340343707852,
+      "loss": 0.3425,
+      "num_input_tokens_seen": 37111648,
+      "step": 17165
+    },
+    {
+      "epoch": 2.800978792822186,
+      "grad_norm": 0.02862684801220894,
+      "learning_rate": 0.0009951241230369114,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 37121376,
+      "step": 17170
+    },
+    {
+      "epoch": 2.801794453507341,
+      "grad_norm": 0.07905431091785431,
+      "learning_rate": 0.0009951142016687193,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 37131008,
+      "step": 17175
+    },
+    {
+      "epoch": 2.802610114192496,
+      "grad_norm": 0.06610142439603806,
+      "learning_rate": 0.0009951042702664099,
+      "loss": 0.2177,
+      "num_input_tokens_seen": 37141664,
+      "step": 17180
+    },
+    {
+      "epoch": 2.8034257748776508,
+      "grad_norm": 0.041321273893117905,
+      "learning_rate": 0.0009950943288301842,
+      "loss": 0.055,
+      "num_input_tokens_seen": 37153344,
+      "step": 17185
+    },
+    {
+      "epoch": 2.804241435562806,
+      "grad_norm": 0.1373293399810791,
+      "learning_rate": 0.0009950843773602438,
+      "loss": 0.2467,
+      "num_input_tokens_seen": 37163840,
+      "step": 17190
+    },
+    {
+      "epoch": 2.805057096247961,
+      "grad_norm": 0.08510863035917282,
+      "learning_rate": 0.0009950744158567905,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 37175008,
+      "step": 17195
+    },
+    {
+      "epoch": 2.8058727569331157,
+      "grad_norm": 0.039745964109897614,
+      "learning_rate": 0.0009950644443200262,
+      "loss": 0.102,
+      "num_input_tokens_seen": 37185888,
+      "step": 17200
+    },
+    {
+      "epoch": 2.806688417618271,
+      "grad_norm": 0.03634534031152725,
+      "learning_rate": 0.0009950544627501529,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 37196864,
+      "step": 17205
+    },
+    {
+      "epoch": 2.8075040783034257,
+      "grad_norm": 0.004250263329595327,
+      "learning_rate": 0.0009950444711473727,
+      "loss": 0.1475,
+      "num_input_tokens_seen": 37208608,
+      "step": 17210
+    },
+    {
+      "epoch": 2.8083197389885806,
+      "grad_norm": 0.07612774521112442,
+      "learning_rate": 0.0009950344695118885,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 37218464,
+      "step": 17215
+    },
+    {
+      "epoch": 2.809135399673736,
+      "grad_norm": 0.05913073569536209,
+      "learning_rate": 0.0009950244578439027,
+      "loss": 0.108,
+      "num_input_tokens_seen": 37229536,
+      "step": 17220
+    },
+    {
+      "epoch": 2.8099510603588906,
+      "grad_norm": 0.06495174020528793,
+      "learning_rate": 0.0009950144361436182,
+      "loss": 0.2674,
+      "num_input_tokens_seen": 37239744,
+      "step": 17225
+    },
+    {
+      "epoch": 2.810766721044046,
+      "grad_norm": 0.04763927310705185,
+      "learning_rate": 0.0009950044044112383,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 37250912,
+      "step": 17230
+    },
+    {
+      "epoch": 2.8115823817292007,
+      "grad_norm": 0.23130439221858978,
+      "learning_rate": 0.000994994362646966,
+      "loss": 0.1877,
+      "num_input_tokens_seen": 37261920,
+      "step": 17235
+    },
+    {
+      "epoch": 2.8123980424143555,
+      "grad_norm": 0.084737628698349,
+      "learning_rate": 0.0009949843108510053,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 37273184,
+      "step": 17240
+    },
+    {
+      "epoch": 2.8132137030995104,
+      "grad_norm": 0.030352629721164703,
+      "learning_rate": 0.0009949742490235594,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 37284992,
+      "step": 17245
+    },
+    {
+      "epoch": 2.8140293637846656,
+      "grad_norm": 0.08658528327941895,
+      "learning_rate": 0.0009949641771648324,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 37295872,
+      "step": 17250
+    },
+    {
+      "epoch": 2.8148450244698204,
+      "grad_norm": 0.10219324380159378,
+      "learning_rate": 0.0009949540952750285,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 37305696,
+      "step": 17255
+    },
+    {
+      "epoch": 2.8156606851549757,
+      "grad_norm": 0.015360584482550621,
+      "learning_rate": 0.000994944003354352,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 37315712,
+      "step": 17260
+    },
+    {
+      "epoch": 2.8164763458401305,
+      "grad_norm": 0.11603693664073944,
+      "learning_rate": 0.0009949339014030075,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 37325856,
+      "step": 17265
+    },
+    {
+      "epoch": 2.8172920065252853,
+      "grad_norm": 0.09709656238555908,
+      "learning_rate": 0.0009949237894211994,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 37336160,
+      "step": 17270
+    },
+    {
+      "epoch": 2.8181076672104406,
+      "grad_norm": 0.07709289342164993,
+      "learning_rate": 0.000994913667409133,
+      "loss": 0.024,
+      "num_input_tokens_seen": 37346912,
+      "step": 17275
+    },
+    {
+      "epoch": 2.8189233278955954,
+      "grad_norm": 0.015501154586672783,
+      "learning_rate": 0.0009949035353670132,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 37357184,
+      "step": 17280
+    },
+    {
+      "epoch": 2.8197389885807507,
+      "grad_norm": 0.15367379784584045,
+      "learning_rate": 0.0009948933932950456,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 37367232,
+      "step": 17285
+    },
+    {
+      "epoch": 2.8205546492659055,
+      "grad_norm": 0.10089415311813354,
+      "learning_rate": 0.0009948832411934352,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 37378848,
+      "step": 17290
+    },
+    {
+      "epoch": 2.8213703099510603,
+      "grad_norm": 0.2953617572784424,
+      "learning_rate": 0.0009948730790623884,
+      "loss": 0.2016,
+      "num_input_tokens_seen": 37389760,
+      "step": 17295
+    },
+    {
+      "epoch": 2.822185970636215,
+      "grad_norm": 0.13659532368183136,
+      "learning_rate": 0.0009948629069021107,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 37400512,
+      "step": 17300
+    },
+    {
+      "epoch": 2.8230016313213704,
+      "grad_norm": 0.04431614279747009,
+      "learning_rate": 0.0009948527247128085,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 37409408,
+      "step": 17305
+    },
+    {
+      "epoch": 2.823817292006525,
+      "grad_norm": 0.022543810307979584,
+      "learning_rate": 0.0009948425324946882,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 37419456,
+      "step": 17310
+    },
+    {
+      "epoch": 2.8246329526916805,
+      "grad_norm": 0.16338996589183807,
+      "learning_rate": 0.0009948323302479561,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 37430336,
+      "step": 17315
+    },
+    {
+      "epoch": 2.8254486133768353,
+      "grad_norm": 0.06958018243312836,
+      "learning_rate": 0.000994822117972819,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 37441856,
+      "step": 17320
+    },
+    {
+      "epoch": 2.82626427406199,
+      "grad_norm": 0.08969177305698395,
+      "learning_rate": 0.000994811895669484,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 37451808,
+      "step": 17325
+    },
+    {
+      "epoch": 2.827079934747145,
+      "grad_norm": 0.04363901913166046,
+      "learning_rate": 0.0009948016633381583,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 37462784,
+      "step": 17330
+    },
+    {
+      "epoch": 2.8278955954323,
+      "grad_norm": 0.018658151850104332,
+      "learning_rate": 0.0009947914209790492,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 37474592,
+      "step": 17335
+    },
+    {
+      "epoch": 2.828711256117455,
+      "grad_norm": 0.01596796326339245,
+      "learning_rate": 0.0009947811685923642,
+      "loss": 0.1768,
+      "num_input_tokens_seen": 37484000,
+      "step": 17340
+    },
+    {
+      "epoch": 2.8295269168026103,
+      "grad_norm": 0.061537813395261765,
+      "learning_rate": 0.0009947709061783113,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 37493856,
+      "step": 17345
+    },
+    {
+      "epoch": 2.830342577487765,
+      "grad_norm": 0.06127791479229927,
+      "learning_rate": 0.000994760633737098,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 37504736,
+      "step": 17350
+    },
+    {
+      "epoch": 2.83115823817292,
+      "grad_norm": 0.06189500913023949,
+      "learning_rate": 0.0009947503512689332,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 37515744,
+      "step": 17355
+    },
+    {
+      "epoch": 2.831973898858075,
+      "grad_norm": 0.14593607187271118,
+      "learning_rate": 0.0009947400587740245,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 37526240,
+      "step": 17360
+    },
+    {
+      "epoch": 2.83278955954323,
+      "grad_norm": 0.11315637826919556,
+      "learning_rate": 0.0009947297562525811,
+      "loss": 0.131,
+      "num_input_tokens_seen": 37537088,
+      "step": 17365
+    },
+    {
+      "epoch": 2.8336052202283852,
+      "grad_norm": 0.006786394864320755,
+      "learning_rate": 0.0009947194437048116,
+      "loss": 0.1604,
+      "num_input_tokens_seen": 37548352,
+      "step": 17370
+    },
+    {
+      "epoch": 2.83442088091354,
+      "grad_norm": 0.16215111315250397,
+      "learning_rate": 0.000994709121130925,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 37560128,
+      "step": 17375
+    },
+    {
+      "epoch": 2.835236541598695,
+      "grad_norm": 0.05200238898396492,
+      "learning_rate": 0.0009946987885311304,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 37571264,
+      "step": 17380
+    },
+    {
+      "epoch": 2.8360522022838497,
+      "grad_norm": 0.049134548753499985,
+      "learning_rate": 0.0009946884459056374,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 37580992,
+      "step": 17385
+    },
+    {
+      "epoch": 2.836867862969005,
+      "grad_norm": 0.08593729138374329,
+      "learning_rate": 0.0009946780932546552,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 37591488,
+      "step": 17390
+    },
+    {
+      "epoch": 2.8376835236541598,
+      "grad_norm": 0.2163233906030655,
+      "learning_rate": 0.0009946677305783943,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 37603200,
+      "step": 17395
+    },
+    {
+      "epoch": 2.838499184339315,
+      "grad_norm": 0.05750100314617157,
+      "learning_rate": 0.000994657357877064,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 37614944,
+      "step": 17400
+    },
+    {
+      "epoch": 2.83931484502447,
+      "grad_norm": 0.02084900252521038,
+      "learning_rate": 0.0009946469751508748,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 37624960,
+      "step": 17405
+    },
+    {
+      "epoch": 2.8401305057096247,
+      "grad_norm": 0.08458512276411057,
+      "learning_rate": 0.0009946365824000374,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 37636352,
+      "step": 17410
+    },
+    {
+      "epoch": 2.84094616639478,
+      "grad_norm": 0.045834679156541824,
+      "learning_rate": 0.000994626179624762,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 37647872,
+      "step": 17415
+    },
+    {
+      "epoch": 2.8417618270799347,
+      "grad_norm": 0.14066869020462036,
+      "learning_rate": 0.0009946157668252597,
+      "loss": 0.098,
+      "num_input_tokens_seen": 37659040,
+      "step": 17420
+    },
+    {
+      "epoch": 2.8425774877650896,
+      "grad_norm": 0.08382485061883926,
+      "learning_rate": 0.0009946053440017413,
+      "loss": 0.2024,
+      "num_input_tokens_seen": 37669088,
+      "step": 17425
+    },
+    {
+      "epoch": 2.843393148450245,
+      "grad_norm": 0.0480208620429039,
+      "learning_rate": 0.000994594911154418,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 37680768,
+      "step": 17430
+    },
+    {
+      "epoch": 2.8442088091353996,
+      "grad_norm": 0.15396052598953247,
+      "learning_rate": 0.0009945844682835018,
+      "loss": 0.2609,
+      "num_input_tokens_seen": 37692416,
+      "step": 17435
+    },
+    {
+      "epoch": 2.8450244698205545,
+      "grad_norm": 0.3378278315067291,
+      "learning_rate": 0.0009945740153892036,
+      "loss": 0.2769,
+      "num_input_tokens_seen": 37702080,
+      "step": 17440
+    },
+    {
+      "epoch": 2.8458401305057097,
+      "grad_norm": 0.04631584882736206,
+      "learning_rate": 0.0009945635524717359,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 37712480,
+      "step": 17445
+    },
+    {
+      "epoch": 2.8466557911908645,
+      "grad_norm": 0.01898629404604435,
+      "learning_rate": 0.00099455307953131,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 37724032,
+      "step": 17450
+    },
+    {
+      "epoch": 2.84747145187602,
+      "grad_norm": 0.0465041846036911,
+      "learning_rate": 0.0009945425965681388,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 37734272,
+      "step": 17455
+    },
+    {
+      "epoch": 2.8482871125611746,
+      "grad_norm": 0.027010783553123474,
+      "learning_rate": 0.0009945321035824343,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 37745760,
+      "step": 17460
+    },
+    {
+      "epoch": 2.8491027732463294,
+      "grad_norm": 0.1783338189125061,
+      "learning_rate": 0.0009945216005744096,
+      "loss": 0.3157,
+      "num_input_tokens_seen": 37756160,
+      "step": 17465
+    },
+    {
+      "epoch": 2.8499184339314843,
+      "grad_norm": 0.024316715076565742,
+      "learning_rate": 0.0009945110875442774,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 37768224,
+      "step": 17470
+    },
+    {
+      "epoch": 2.8507340946166395,
+      "grad_norm": 0.02121208980679512,
+      "learning_rate": 0.0009945005644922504,
+      "loss": 0.125,
+      "num_input_tokens_seen": 37778880,
+      "step": 17475
+    },
+    {
+      "epoch": 2.8515497553017943,
+      "grad_norm": 0.0659647062420845,
+      "learning_rate": 0.0009944900314185422,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 37790944,
+      "step": 17480
+    },
+    {
+      "epoch": 2.8523654159869496,
+      "grad_norm": 0.02814595028758049,
+      "learning_rate": 0.0009944794883233663,
+      "loss": 0.1876,
+      "num_input_tokens_seen": 37801792,
+      "step": 17485
+    },
+    {
+      "epoch": 2.8531810766721044,
+      "grad_norm": 0.053324826061725616,
+      "learning_rate": 0.0009944689352069363,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 37813504,
+      "step": 17490
+    },
+    {
+      "epoch": 2.8539967373572592,
+      "grad_norm": 0.10937617719173431,
+      "learning_rate": 0.000994458372069466,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 37823136,
+      "step": 17495
+    },
+    {
+      "epoch": 2.8548123980424145,
+      "grad_norm": 0.04137161374092102,
+      "learning_rate": 0.0009944477989111695,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 37833568,
+      "step": 17500
+    },
+    {
+      "epoch": 2.8556280587275693,
+      "grad_norm": 0.03246806561946869,
+      "learning_rate": 0.0009944372157322612,
+      "loss": 0.0449,
+      "num_input_tokens_seen": 37845120,
+      "step": 17505
+    },
+    {
+      "epoch": 2.8564437194127246,
+      "grad_norm": 0.21855475008487701,
+      "learning_rate": 0.0009944266225329552,
+      "loss": 0.2053,
+      "num_input_tokens_seen": 37854368,
+      "step": 17510
+    },
+    {
+      "epoch": 2.8572593800978794,
+      "grad_norm": 0.21136105060577393,
+      "learning_rate": 0.0009944160193134668,
+      "loss": 0.1399,
+      "num_input_tokens_seen": 37865568,
+      "step": 17515
+    },
+    {
+      "epoch": 2.858075040783034,
+      "grad_norm": 0.11021832376718521,
+      "learning_rate": 0.0009944054060740104,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 37876128,
+      "step": 17520
+    },
+    {
+      "epoch": 2.858890701468189,
+      "grad_norm": 0.32767796516418457,
+      "learning_rate": 0.0009943947828148013,
+      "loss": 0.1833,
+      "num_input_tokens_seen": 37887040,
+      "step": 17525
+    },
+    {
+      "epoch": 2.8597063621533443,
+      "grad_norm": 0.0583861842751503,
+      "learning_rate": 0.0009943841495360546,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 37897088,
+      "step": 17530
+    },
+    {
+      "epoch": 2.860522022838499,
+      "grad_norm": 0.10598666220903397,
+      "learning_rate": 0.0009943735062379862,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 37908096,
+      "step": 17535
+    },
+    {
+      "epoch": 2.8613376835236544,
+      "grad_norm": 0.10326528549194336,
+      "learning_rate": 0.0009943628529208114,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 37918432,
+      "step": 17540
+    },
+    {
+      "epoch": 2.862153344208809,
+      "grad_norm": 0.07112540304660797,
+      "learning_rate": 0.0009943521895847461,
+      "loss": 0.114,
+      "num_input_tokens_seen": 37928320,
+      "step": 17545
+    },
+    {
+      "epoch": 2.862969004893964,
+      "grad_norm": 0.25001704692840576,
+      "learning_rate": 0.0009943415162300066,
+      "loss": 0.1949,
+      "num_input_tokens_seen": 37939520,
+      "step": 17550
+    },
+    {
+      "epoch": 2.863784665579119,
+      "grad_norm": 0.05746942013502121,
+      "learning_rate": 0.0009943308328568094,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 37949728,
+      "step": 17555
+    },
+    {
+      "epoch": 2.864600326264274,
+      "grad_norm": 0.12497828155755997,
+      "learning_rate": 0.0009943201394653706,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 37961248,
+      "step": 17560
+    },
+    {
+      "epoch": 2.865415986949429,
+      "grad_norm": 0.04214569926261902,
+      "learning_rate": 0.0009943094360559072,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 37972320,
+      "step": 17565
+    },
+    {
+      "epoch": 2.866231647634584,
+      "grad_norm": 0.01726198010146618,
+      "learning_rate": 0.0009942987226286358,
+      "loss": 0.082,
+      "num_input_tokens_seen": 37983520,
+      "step": 17570
+    },
+    {
+      "epoch": 2.867047308319739,
+      "grad_norm": 0.006213213782757521,
+      "learning_rate": 0.0009942879991837739,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 37995104,
+      "step": 17575
+    },
+    {
+      "epoch": 2.867862969004894,
+      "grad_norm": 0.07860016822814941,
+      "learning_rate": 0.0009942772657215385,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 38006240,
+      "step": 17580
+    },
+    {
+      "epoch": 2.868678629690049,
+      "grad_norm": 0.19524259865283966,
+      "learning_rate": 0.0009942665222421475,
+      "loss": 0.2527,
+      "num_input_tokens_seen": 38017504,
+      "step": 17585
+    },
+    {
+      "epoch": 2.869494290375204,
+      "grad_norm": 0.021658936515450478,
+      "learning_rate": 0.0009942557687458182,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 38029248,
+      "step": 17590
+    },
+    {
+      "epoch": 2.870309951060359,
+      "grad_norm": 0.0713447779417038,
+      "learning_rate": 0.0009942450052327688,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 38039424,
+      "step": 17595
+    },
+    {
+      "epoch": 2.871125611745514,
+      "grad_norm": 0.09926056861877441,
+      "learning_rate": 0.0009942342317032172,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 38048608,
+      "step": 17600
+    },
+    {
+      "epoch": 2.8719412724306688,
+      "grad_norm": 0.023149937391281128,
+      "learning_rate": 0.000994223448157382,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 38060000,
+      "step": 17605
+    },
+    {
+      "epoch": 2.8727569331158236,
+      "grad_norm": 0.07217232882976532,
+      "learning_rate": 0.000994212654595482,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 38070848,
+      "step": 17610
+    },
+    {
+      "epoch": 2.873572593800979,
+      "grad_norm": 0.20313020050525665,
+      "learning_rate": 0.0009942018510177351,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 38082016,
+      "step": 17615
+    },
+    {
+      "epoch": 2.8743882544861337,
+      "grad_norm": 0.15015803277492523,
+      "learning_rate": 0.000994191037424361,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 38092672,
+      "step": 17620
+    },
+    {
+      "epoch": 2.875203915171289,
+      "grad_norm": 0.0243154838681221,
+      "learning_rate": 0.0009941802138155786,
+      "loss": 0.1759,
+      "num_input_tokens_seen": 38103328,
+      "step": 17625
+    },
+    {
+      "epoch": 2.8760195758564437,
+      "grad_norm": 0.03959393873810768,
+      "learning_rate": 0.0009941693801916074,
+      "loss": 0.2552,
+      "num_input_tokens_seen": 38114464,
+      "step": 17630
+    },
+    {
+      "epoch": 2.8768352365415986,
+      "grad_norm": 0.13363416492938995,
+      "learning_rate": 0.0009941585365526666,
+      "loss": 0.2813,
+      "num_input_tokens_seen": 38124800,
+      "step": 17635
+    },
+    {
+      "epoch": 2.877650897226754,
+      "grad_norm": 0.0363851822912693,
+      "learning_rate": 0.0009941476828989762,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 38135456,
+      "step": 17640
+    },
+    {
+      "epoch": 2.8784665579119086,
+      "grad_norm": 0.0372467003762722,
+      "learning_rate": 0.0009941368192307562,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 38146432,
+      "step": 17645
+    },
+    {
+      "epoch": 2.8792822185970635,
+      "grad_norm": 0.06116746738553047,
+      "learning_rate": 0.0009941259455482267,
+      "loss": 0.1476,
+      "num_input_tokens_seen": 38157952,
+      "step": 17650
+    },
+    {
+      "epoch": 2.8800978792822187,
+      "grad_norm": 0.028371773660182953,
+      "learning_rate": 0.0009941150618516079,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 38168224,
+      "step": 17655
+    },
+    {
+      "epoch": 2.8809135399673735,
+      "grad_norm": 0.10169167071580887,
+      "learning_rate": 0.0009941041681411206,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 38179104,
+      "step": 17660
+    },
+    {
+      "epoch": 2.8817292006525284,
+      "grad_norm": 0.022912686690688133,
+      "learning_rate": 0.0009940932644169858,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 38189536,
+      "step": 17665
+    },
+    {
+      "epoch": 2.8825448613376836,
+      "grad_norm": 0.10834155231714249,
+      "learning_rate": 0.000994082350679424,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 38200480,
+      "step": 17670
+    },
+    {
+      "epoch": 2.8833605220228384,
+      "grad_norm": 0.021890873089432716,
+      "learning_rate": 0.0009940714269286565,
+      "loss": 0.168,
+      "num_input_tokens_seen": 38211872,
+      "step": 17675
+    },
+    {
+      "epoch": 2.8841761827079937,
+      "grad_norm": 0.05110299587249756,
+      "learning_rate": 0.000994060493164905,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 38223680,
+      "step": 17680
+    },
+    {
+      "epoch": 2.8849918433931485,
+      "grad_norm": 0.036153409630060196,
+      "learning_rate": 0.0009940495493883906,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 38234464,
+      "step": 17685
+    },
+    {
+      "epoch": 2.8858075040783033,
+      "grad_norm": 0.16665154695510864,
+      "learning_rate": 0.0009940385955993353,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 38245952,
+      "step": 17690
+    },
+    {
+      "epoch": 2.886623164763458,
+      "grad_norm": 0.18631958961486816,
+      "learning_rate": 0.0009940276317979611,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 38256640,
+      "step": 17695
+    },
+    {
+      "epoch": 2.8874388254486134,
+      "grad_norm": 0.028646018356084824,
+      "learning_rate": 0.0009940166579844906,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 38267136,
+      "step": 17700
+    },
+    {
+      "epoch": 2.8882544861337682,
+      "grad_norm": 0.2977273166179657,
+      "learning_rate": 0.0009940056741591455,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 38277056,
+      "step": 17705
+    },
+    {
+      "epoch": 2.8890701468189235,
+      "grad_norm": 0.01933087781071663,
+      "learning_rate": 0.0009939946803221487,
+      "loss": 0.1755,
+      "num_input_tokens_seen": 38287936,
+      "step": 17710
+    },
+    {
+      "epoch": 2.8898858075040783,
+      "grad_norm": 0.09155084192752838,
+      "learning_rate": 0.000993983676473723,
+      "loss": 0.1827,
+      "num_input_tokens_seen": 38299040,
+      "step": 17715
+    },
+    {
+      "epoch": 2.890701468189233,
+      "grad_norm": 0.04351414740085602,
+      "learning_rate": 0.0009939726626140917,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 38309696,
+      "step": 17720
+    },
+    {
+      "epoch": 2.8915171288743884,
+      "grad_norm": 0.15587954223155975,
+      "learning_rate": 0.0009939616387434776,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 38321568,
+      "step": 17725
+    },
+    {
+      "epoch": 2.892332789559543,
+      "grad_norm": 0.08067210018634796,
+      "learning_rate": 0.0009939506048621044,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 38331392,
+      "step": 17730
+    },
+    {
+      "epoch": 2.8931484502446985,
+      "grad_norm": 0.3965483605861664,
+      "learning_rate": 0.0009939395609701953,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 38340800,
+      "step": 17735
+    },
+    {
+      "epoch": 2.8939641109298533,
+      "grad_norm": 0.06495457887649536,
+      "learning_rate": 0.0009939285070679745,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 38351296,
+      "step": 17740
+    },
+    {
+      "epoch": 2.894779771615008,
+      "grad_norm": 0.10801254212856293,
+      "learning_rate": 0.000993917443155666,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 38362304,
+      "step": 17745
+    },
+    {
+      "epoch": 2.895595432300163,
+      "grad_norm": 0.006482311058789492,
+      "learning_rate": 0.0009939063692334937,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 38372064,
+      "step": 17750
+    },
+    {
+      "epoch": 2.896411092985318,
+      "grad_norm": 0.11562133580446243,
+      "learning_rate": 0.0009938952853016825,
+      "loss": 0.1764,
+      "num_input_tokens_seen": 38382272,
+      "step": 17755
+    },
+    {
+      "epoch": 2.897226753670473,
+      "grad_norm": 0.0724702775478363,
+      "learning_rate": 0.0009938841913604568,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 38392384,
+      "step": 17760
+    },
+    {
+      "epoch": 2.8980424143556283,
+      "grad_norm": 0.029041165485978127,
+      "learning_rate": 0.0009938730874100412,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 38403200,
+      "step": 17765
+    },
+    {
+      "epoch": 2.898858075040783,
+      "grad_norm": 0.025574803352355957,
+      "learning_rate": 0.0009938619734506612,
+      "loss": 0.2273,
+      "num_input_tokens_seen": 38413408,
+      "step": 17770
+    },
+    {
+      "epoch": 2.899673735725938,
+      "grad_norm": 0.012726670131087303,
+      "learning_rate": 0.0009938508494825417,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 38423904,
+      "step": 17775
+    },
+    {
+      "epoch": 2.9004893964110927,
+      "grad_norm": 0.023426564410328865,
+      "learning_rate": 0.0009938397155059083,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 38435584,
+      "step": 17780
+    },
+    {
+      "epoch": 2.901305057096248,
+      "grad_norm": 0.1236015111207962,
+      "learning_rate": 0.0009938285715209866,
+      "loss": 0.1968,
+      "num_input_tokens_seen": 38446272,
+      "step": 17785
+    },
+    {
+      "epoch": 2.902120717781403,
+      "grad_norm": 0.11476442217826843,
+      "learning_rate": 0.0009938174175280023,
+      "loss": 0.1609,
+      "num_input_tokens_seen": 38457312,
+      "step": 17790
+    },
+    {
+      "epoch": 2.902936378466558,
+      "grad_norm": 0.20464342832565308,
+      "learning_rate": 0.0009938062535271817,
+      "loss": 0.1929,
+      "num_input_tokens_seen": 38467616,
+      "step": 17795
+    },
+    {
+      "epoch": 2.903752039151713,
+      "grad_norm": 0.18224021792411804,
+      "learning_rate": 0.0009937950795187508,
+      "loss": 0.1864,
+      "num_input_tokens_seen": 38478528,
+      "step": 17800
+    },
+    {
+      "epoch": 2.9045676998368677,
+      "grad_norm": 0.07501034438610077,
+      "learning_rate": 0.0009937838955029362,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 38490208,
+      "step": 17805
+    },
+    {
+      "epoch": 2.905383360522023,
+      "grad_norm": 0.020777180790901184,
+      "learning_rate": 0.0009937727014799646,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 38500672,
+      "step": 17810
+    },
+    {
+      "epoch": 2.9061990212071778,
+      "grad_norm": 0.11070007085800171,
+      "learning_rate": 0.0009937614974500628,
+      "loss": 0.1563,
+      "num_input_tokens_seen": 38511296,
+      "step": 17815
+    },
+    {
+      "epoch": 2.907014681892333,
+      "grad_norm": 0.031207676976919174,
+      "learning_rate": 0.000993750283413458,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 38521344,
+      "step": 17820
+    },
+    {
+      "epoch": 2.907830342577488,
+      "grad_norm": 0.012583895586431026,
+      "learning_rate": 0.0009937390593703773,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 38531296,
+      "step": 17825
+    },
+    {
+      "epoch": 2.9086460032626427,
+      "grad_norm": 0.10093329101800919,
+      "learning_rate": 0.000993727825321048,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 38542912,
+      "step": 17830
+    },
+    {
+      "epoch": 2.9094616639477975,
+      "grad_norm": 0.13077743351459503,
+      "learning_rate": 0.0009937165812656983,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 38554848,
+      "step": 17835
+    },
+    {
+      "epoch": 2.9102773246329527,
+      "grad_norm": 0.021879076957702637,
+      "learning_rate": 0.0009937053272045554,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 38565280,
+      "step": 17840
+    },
+    {
+      "epoch": 2.9110929853181076,
+      "grad_norm": 0.035172972828149796,
+      "learning_rate": 0.000993694063137848,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 38575168,
+      "step": 17845
+    },
+    {
+      "epoch": 2.911908646003263,
+      "grad_norm": 0.27714836597442627,
+      "learning_rate": 0.000993682789065804,
+      "loss": 0.1276,
+      "num_input_tokens_seen": 38586624,
+      "step": 17850
+    },
+    {
+      "epoch": 2.9127243066884176,
+      "grad_norm": 0.010750222019851208,
+      "learning_rate": 0.0009936715049886522,
+      "loss": 0.1634,
+      "num_input_tokens_seen": 38596896,
+      "step": 17855
+    },
+    {
+      "epoch": 2.9135399673735725,
+      "grad_norm": 0.08408083766698837,
+      "learning_rate": 0.0009936602109066209,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 38609152,
+      "step": 17860
+    },
+    {
+      "epoch": 2.9143556280587277,
+      "grad_norm": 0.07528946548700333,
+      "learning_rate": 0.0009936489068199392,
+      "loss": 0.071,
+      "num_input_tokens_seen": 38619776,
+      "step": 17865
+    },
+    {
+      "epoch": 2.9151712887438825,
+      "grad_norm": 0.05108056589961052,
+      "learning_rate": 0.0009936375927288362,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 38630752,
+      "step": 17870
+    },
+    {
+      "epoch": 2.9159869494290374,
+      "grad_norm": 0.08132991939783096,
+      "learning_rate": 0.000993626268633541,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 38642112,
+      "step": 17875
+    },
+    {
+      "epoch": 2.9168026101141926,
+      "grad_norm": 0.031875815242528915,
+      "learning_rate": 0.0009936149345342834,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 38652096,
+      "step": 17880
+    },
+    {
+      "epoch": 2.9176182707993474,
+      "grad_norm": 0.08545435965061188,
+      "learning_rate": 0.000993603590431293,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 38663456,
+      "step": 17885
+    },
+    {
+      "epoch": 2.9184339314845023,
+      "grad_norm": 0.015088371001183987,
+      "learning_rate": 0.0009935922363247995,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 38674368,
+      "step": 17890
+    },
+    {
+      "epoch": 2.9192495921696575,
+      "grad_norm": 0.0254862941801548,
+      "learning_rate": 0.0009935808722150333,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 38685888,
+      "step": 17895
+    },
+    {
+      "epoch": 2.9200652528548123,
+      "grad_norm": 0.017295166850090027,
+      "learning_rate": 0.0009935694981022245,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 38697408,
+      "step": 17900
+    },
+    {
+      "epoch": 2.9208809135399676,
+      "grad_norm": 0.06552346795797348,
+      "learning_rate": 0.0009935581139866039,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 38707616,
+      "step": 17905
+    },
+    {
+      "epoch": 2.9216965742251224,
+      "grad_norm": 0.02178419567644596,
+      "learning_rate": 0.0009935467198684015,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 38719840,
+      "step": 17910
+    },
+    {
+      "epoch": 2.9225122349102772,
+      "grad_norm": 0.0072307041846215725,
+      "learning_rate": 0.0009935353157478493,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 38732064,
+      "step": 17915
+    },
+    {
+      "epoch": 2.923327895595432,
+      "grad_norm": 0.09286753833293915,
+      "learning_rate": 0.0009935239016251776,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 38743808,
+      "step": 17920
+    },
+    {
+      "epoch": 2.9241435562805873,
+      "grad_norm": 0.023326946422457695,
+      "learning_rate": 0.0009935124775006178,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 38755264,
+      "step": 17925
+    },
+    {
+      "epoch": 2.924959216965742,
+      "grad_norm": 0.32947757840156555,
+      "learning_rate": 0.0009935010433744017,
+      "loss": 0.1625,
+      "num_input_tokens_seen": 38766944,
+      "step": 17930
+    },
+    {
+      "epoch": 2.9257748776508974,
+      "grad_norm": 0.06605410575866699,
+      "learning_rate": 0.000993489599246761,
+      "loss": 0.1863,
+      "num_input_tokens_seen": 38778304,
+      "step": 17935
+    },
+    {
+      "epoch": 2.926590538336052,
+      "grad_norm": 0.13709475100040436,
+      "learning_rate": 0.0009934781451179273,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 38790816,
+      "step": 17940
+    },
+    {
+      "epoch": 2.927406199021207,
+      "grad_norm": 0.2378200739622116,
+      "learning_rate": 0.000993466680988133,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 38801088,
+      "step": 17945
+    },
+    {
+      "epoch": 2.9282218597063623,
+      "grad_norm": 0.036661747843027115,
+      "learning_rate": 0.0009934552068576105,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 38811296,
+      "step": 17950
+    },
+    {
+      "epoch": 2.929037520391517,
+      "grad_norm": 0.018623948097229004,
+      "learning_rate": 0.0009934437227265924,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 38822048,
+      "step": 17955
+    },
+    {
+      "epoch": 2.9298531810766724,
+      "grad_norm": 0.15882422029972076,
+      "learning_rate": 0.0009934322285953111,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 38831968,
+      "step": 17960
+    },
+    {
+      "epoch": 2.930668841761827,
+      "grad_norm": 0.0032852909062057734,
+      "learning_rate": 0.0009934207244639997,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 38841440,
+      "step": 17965
+    },
+    {
+      "epoch": 2.931484502446982,
+      "grad_norm": 0.2479127198457718,
+      "learning_rate": 0.0009934092103328915,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 38851168,
+      "step": 17970
+    },
+    {
+      "epoch": 2.932300163132137,
+      "grad_norm": 0.010026328265666962,
+      "learning_rate": 0.0009933976862022196,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 38862848,
+      "step": 17975
+    },
+    {
+      "epoch": 2.933115823817292,
+      "grad_norm": 0.014436143450438976,
+      "learning_rate": 0.0009933861520722176,
+      "loss": 0.066,
+      "num_input_tokens_seen": 38874176,
+      "step": 17980
+    },
+    {
+      "epoch": 2.933931484502447,
+      "grad_norm": 0.028659898787736893,
+      "learning_rate": 0.0009933746079431195,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 38885056,
+      "step": 17985
+    },
+    {
+      "epoch": 2.934747145187602,
+      "grad_norm": 0.02407947927713394,
+      "learning_rate": 0.000993363053815159,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 38895968,
+      "step": 17990
+    },
+    {
+      "epoch": 2.935562805872757,
+      "grad_norm": 0.1150076687335968,
+      "learning_rate": 0.0009933514896885705,
+      "loss": 0.2417,
+      "num_input_tokens_seen": 38907584,
+      "step": 17995
+    },
+    {
+      "epoch": 2.936378466557912,
+      "grad_norm": 0.15142081677913666,
+      "learning_rate": 0.000993339915563588,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 38919296,
+      "step": 18000
+    },
+    {
+      "epoch": 2.9371941272430666,
+      "grad_norm": 0.36399489641189575,
+      "learning_rate": 0.0009933283314404462,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 38930016,
+      "step": 18005
+    },
+    {
+      "epoch": 2.938009787928222,
+      "grad_norm": 0.17013728618621826,
+      "learning_rate": 0.0009933167373193802,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 38941056,
+      "step": 18010
+    },
+    {
+      "epoch": 2.9388254486133767,
+      "grad_norm": 0.1846058964729309,
+      "learning_rate": 0.0009933051332006245,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 38952480,
+      "step": 18015
+    },
+    {
+      "epoch": 2.939641109298532,
+      "grad_norm": 0.006210431456565857,
+      "learning_rate": 0.0009932935190844145,
+      "loss": 0.038,
+      "num_input_tokens_seen": 38962272,
+      "step": 18020
+    },
+    {
+      "epoch": 2.9404567699836868,
+      "grad_norm": 0.243395134806633,
+      "learning_rate": 0.0009932818949709855,
+      "loss": 0.2279,
+      "num_input_tokens_seen": 38971712,
+      "step": 18025
+    },
+    {
+      "epoch": 2.9412724306688416,
+      "grad_norm": 0.24012702703475952,
+      "learning_rate": 0.0009932702608605733,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 38982688,
+      "step": 18030
+    },
+    {
+      "epoch": 2.942088091353997,
+      "grad_norm": 0.024320699274539948,
+      "learning_rate": 0.0009932586167534134,
+      "loss": 0.138,
+      "num_input_tokens_seen": 38993152,
+      "step": 18035
+    },
+    {
+      "epoch": 2.9429037520391517,
+      "grad_norm": 0.23949933052062988,
+      "learning_rate": 0.0009932469626497418,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 39004640,
+      "step": 18040
+    },
+    {
+      "epoch": 2.943719412724307,
+      "grad_norm": 0.1403769850730896,
+      "learning_rate": 0.000993235298549795,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 39015040,
+      "step": 18045
+    },
+    {
+      "epoch": 2.9445350734094617,
+      "grad_norm": 0.42424431443214417,
+      "learning_rate": 0.0009932236244538089,
+      "loss": 0.217,
+      "num_input_tokens_seen": 39025792,
+      "step": 18050
+    },
+    {
+      "epoch": 2.9453507340946166,
+      "grad_norm": 0.2443961650133133,
+      "learning_rate": 0.0009932119403620206,
+      "loss": 0.1784,
+      "num_input_tokens_seen": 39036512,
+      "step": 18055
+    },
+    {
+      "epoch": 2.9461663947797714,
+      "grad_norm": 0.1767474114894867,
+      "learning_rate": 0.0009932002462746665,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 39048224,
+      "step": 18060
+    },
+    {
+      "epoch": 2.9469820554649266,
+      "grad_norm": 0.1322534829378128,
+      "learning_rate": 0.0009931885421919837,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 39060288,
+      "step": 18065
+    },
+    {
+      "epoch": 2.9477977161500815,
+      "grad_norm": 0.07639496773481369,
+      "learning_rate": 0.0009931768281142095,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 39071360,
+      "step": 18070
+    },
+    {
+      "epoch": 2.9486133768352367,
+      "grad_norm": 0.22929255664348602,
+      "learning_rate": 0.0009931651040415812,
+      "loss": 0.2103,
+      "num_input_tokens_seen": 39082336,
+      "step": 18075
+    },
+    {
+      "epoch": 2.9494290375203915,
+      "grad_norm": 0.10765232890844345,
+      "learning_rate": 0.0009931533699743364,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 39093984,
+      "step": 18080
+    },
+    {
+      "epoch": 2.9502446982055464,
+      "grad_norm": 0.08604505658149719,
+      "learning_rate": 0.000993141625912713,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 39104992,
+      "step": 18085
+    },
+    {
+      "epoch": 2.9510603588907016,
+      "grad_norm": 0.42062729597091675,
+      "learning_rate": 0.0009931298718569492,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 39115840,
+      "step": 18090
+    },
+    {
+      "epoch": 2.9518760195758564,
+      "grad_norm": 0.1661776304244995,
+      "learning_rate": 0.0009931181078072827,
+      "loss": 0.1415,
+      "num_input_tokens_seen": 39126784,
+      "step": 18095
+    },
+    {
+      "epoch": 2.9526916802610113,
+      "grad_norm": 0.030810121446847916,
+      "learning_rate": 0.0009931063337639521,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 39136448,
+      "step": 18100
+    },
+    {
+      "epoch": 2.9535073409461665,
+      "grad_norm": 0.12106618285179138,
+      "learning_rate": 0.0009930945497271964,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 39146688,
+      "step": 18105
+    },
+    {
+      "epoch": 2.9543230016313213,
+      "grad_norm": 0.07541876286268234,
+      "learning_rate": 0.0009930827556972539,
+      "loss": 0.233,
+      "num_input_tokens_seen": 39157568,
+      "step": 18110
+    },
+    {
+      "epoch": 2.955138662316476,
+      "grad_norm": 0.25600165128707886,
+      "learning_rate": 0.0009930709516743639,
+      "loss": 0.162,
+      "num_input_tokens_seen": 39168960,
+      "step": 18115
+    },
+    {
+      "epoch": 2.9559543230016314,
+      "grad_norm": 0.02245187573134899,
+      "learning_rate": 0.0009930591376587654,
+      "loss": 0.2354,
+      "num_input_tokens_seen": 39178848,
+      "step": 18120
+    },
+    {
+      "epoch": 2.9567699836867862,
+      "grad_norm": 0.21825523674488068,
+      "learning_rate": 0.0009930473136506982,
+      "loss": 0.1749,
+      "num_input_tokens_seen": 39190432,
+      "step": 18125
+    },
+    {
+      "epoch": 2.9575856443719415,
+      "grad_norm": 0.10119245946407318,
+      "learning_rate": 0.0009930354796504018,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 39200896,
+      "step": 18130
+    },
+    {
+      "epoch": 2.9584013050570963,
+      "grad_norm": 0.021194253116846085,
+      "learning_rate": 0.0009930236356581158,
+      "loss": 0.2261,
+      "num_input_tokens_seen": 39211872,
+      "step": 18135
+    },
+    {
+      "epoch": 2.959216965742251,
+      "grad_norm": 0.06642644107341766,
+      "learning_rate": 0.0009930117816740803,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 39221472,
+      "step": 18140
+    },
+    {
+      "epoch": 2.960032626427406,
+      "grad_norm": 0.014469392597675323,
+      "learning_rate": 0.0009929999176985355,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 39232832,
+      "step": 18145
+    },
+    {
+      "epoch": 2.960848287112561,
+      "grad_norm": 0.15131227672100067,
+      "learning_rate": 0.0009929880437317222,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 39243264,
+      "step": 18150
+    },
+    {
+      "epoch": 2.961663947797716,
+      "grad_norm": 0.16809213161468506,
+      "learning_rate": 0.0009929761597738808,
+      "loss": 0.3091,
+      "num_input_tokens_seen": 39254784,
+      "step": 18155
+    },
+    {
+      "epoch": 2.9624796084828713,
+      "grad_norm": 0.07613056898117065,
+      "learning_rate": 0.000992964265825252,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 39264608,
+      "step": 18160
+    },
+    {
+      "epoch": 2.963295269168026,
+      "grad_norm": 0.1471426635980606,
+      "learning_rate": 0.0009929523618860772,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 39274880,
+      "step": 18165
+    },
+    {
+      "epoch": 2.964110929853181,
+      "grad_norm": 0.18869291245937347,
+      "learning_rate": 0.000992940447956597,
+      "loss": 0.2073,
+      "num_input_tokens_seen": 39285696,
+      "step": 18170
+    },
+    {
+      "epoch": 2.964926590538336,
+      "grad_norm": 0.0686211809515953,
+      "learning_rate": 0.000992928524037054,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 39297728,
+      "step": 18175
+    },
+    {
+      "epoch": 2.965742251223491,
+      "grad_norm": 0.09575016796588898,
+      "learning_rate": 0.0009929165901276884,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 39309248,
+      "step": 18180
+    },
+    {
+      "epoch": 2.9665579119086463,
+      "grad_norm": 0.03930651396512985,
+      "learning_rate": 0.000992904646228743,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 39318848,
+      "step": 18185
+    },
+    {
+      "epoch": 2.967373572593801,
+      "grad_norm": 0.018661662936210632,
+      "learning_rate": 0.00099289269234046,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 39329504,
+      "step": 18190
+    },
+    {
+      "epoch": 2.968189233278956,
+      "grad_norm": 0.17350107431411743,
+      "learning_rate": 0.000992880728463081,
+      "loss": 0.1852,
+      "num_input_tokens_seen": 39339744,
+      "step": 18195
+    },
+    {
+      "epoch": 2.9690048939641107,
+      "grad_norm": 0.3067820072174072,
+      "learning_rate": 0.0009928687545968486,
+      "loss": 0.1869,
+      "num_input_tokens_seen": 39349600,
+      "step": 18200
+    },
+    {
+      "epoch": 2.969820554649266,
+      "grad_norm": 0.24880094826221466,
+      "learning_rate": 0.0009928567707420059,
+      "loss": 0.213,
+      "num_input_tokens_seen": 39360480,
+      "step": 18205
+    },
+    {
+      "epoch": 2.970636215334421,
+      "grad_norm": 0.05344460904598236,
+      "learning_rate": 0.0009928447768987956,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 39371168,
+      "step": 18210
+    },
+    {
+      "epoch": 2.971451876019576,
+      "grad_norm": 0.06595193594694138,
+      "learning_rate": 0.0009928327730674604,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 39382272,
+      "step": 18215
+    },
+    {
+      "epoch": 2.972267536704731,
+      "grad_norm": 0.07218914479017258,
+      "learning_rate": 0.000992820759248244,
+      "loss": 0.2494,
+      "num_input_tokens_seen": 39392544,
+      "step": 18220
+    },
+    {
+      "epoch": 2.9730831973898857,
+      "grad_norm": 0.23639288544654846,
+      "learning_rate": 0.00099280873544139,
+      "loss": 0.2001,
+      "num_input_tokens_seen": 39401760,
+      "step": 18225
+    },
+    {
+      "epoch": 2.9738988580750405,
+      "grad_norm": 0.1368018090724945,
+      "learning_rate": 0.0009927967016471414,
+      "loss": 0.1813,
+      "num_input_tokens_seen": 39411904,
+      "step": 18230
+    },
+    {
+      "epoch": 2.9747145187601958,
+      "grad_norm": 0.029314961284399033,
+      "learning_rate": 0.0009927846578657426,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 39422368,
+      "step": 18235
+    },
+    {
+      "epoch": 2.9755301794453506,
+      "grad_norm": 0.07671564072370529,
+      "learning_rate": 0.0009927726040974377,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 39432672,
+      "step": 18240
+    },
+    {
+      "epoch": 2.976345840130506,
+      "grad_norm": 0.01595219224691391,
+      "learning_rate": 0.0009927605403424707,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 39442944,
+      "step": 18245
+    },
+    {
+      "epoch": 2.9771615008156607,
+      "grad_norm": 0.26665130257606506,
+      "learning_rate": 0.0009927484666010862,
+      "loss": 0.3434,
+      "num_input_tokens_seen": 39453920,
+      "step": 18250
+    },
+    {
+      "epoch": 2.9779771615008155,
+      "grad_norm": 0.01717739924788475,
+      "learning_rate": 0.000992736382873529,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 39464768,
+      "step": 18255
+    },
+    {
+      "epoch": 2.9787928221859707,
+      "grad_norm": 0.08836905658245087,
+      "learning_rate": 0.000992724289160044,
+      "loss": 0.123,
+      "num_input_tokens_seen": 39476544,
+      "step": 18260
+    },
+    {
+      "epoch": 2.9796084828711256,
+      "grad_norm": 0.18800336122512817,
+      "learning_rate": 0.000992712185460876,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 39487008,
+      "step": 18265
+    },
+    {
+      "epoch": 2.980424143556281,
+      "grad_norm": 0.21052786707878113,
+      "learning_rate": 0.0009927000717762707,
+      "loss": 0.2213,
+      "num_input_tokens_seen": 39497408,
+      "step": 18270
+    },
+    {
+      "epoch": 2.9812398042414356,
+      "grad_norm": 0.0330355167388916,
+      "learning_rate": 0.0009926879481064734,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 39506400,
+      "step": 18275
+    },
+    {
+      "epoch": 2.9820554649265905,
+      "grad_norm": 0.04376707971096039,
+      "learning_rate": 0.0009926758144517297,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 39517376,
+      "step": 18280
+    },
+    {
+      "epoch": 2.9828711256117453,
+      "grad_norm": 0.03611741214990616,
+      "learning_rate": 0.000992663670812286,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 39528096,
+      "step": 18285
+    },
+    {
+      "epoch": 2.9836867862969005,
+      "grad_norm": 0.10370776802301407,
+      "learning_rate": 0.0009926515171883874,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 39539552,
+      "step": 18290
+    },
+    {
+      "epoch": 2.9845024469820554,
+      "grad_norm": 0.006939777173101902,
+      "learning_rate": 0.0009926393535802812,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 39550560,
+      "step": 18295
+    },
+    {
+      "epoch": 2.9853181076672106,
+      "grad_norm": 0.042476359754800797,
+      "learning_rate": 0.0009926271799882134,
+      "loss": 0.1941,
+      "num_input_tokens_seen": 39561728,
+      "step": 18300
+    },
+    {
+      "epoch": 2.9861337683523654,
+      "grad_norm": 0.042153820395469666,
+      "learning_rate": 0.000992614996412431,
+      "loss": 0.1872,
+      "num_input_tokens_seen": 39572608,
+      "step": 18305
+    },
+    {
+      "epoch": 2.9869494290375203,
+      "grad_norm": 0.1687641739845276,
+      "learning_rate": 0.0009926028028531808,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 39583008,
+      "step": 18310
+    },
+    {
+      "epoch": 2.9877650897226755,
+      "grad_norm": 0.09225862473249435,
+      "learning_rate": 0.0009925905993107098,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 39594688,
+      "step": 18315
+    },
+    {
+      "epoch": 2.9885807504078303,
+      "grad_norm": 0.3248561918735504,
+      "learning_rate": 0.0009925783857852653,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 39605920,
+      "step": 18320
+    },
+    {
+      "epoch": 2.9893964110929856,
+      "grad_norm": 0.019485827535390854,
+      "learning_rate": 0.0009925661622770953,
+      "loss": 0.2786,
+      "num_input_tokens_seen": 39617088,
+      "step": 18325
+    },
+    {
+      "epoch": 2.9902120717781404,
+      "grad_norm": 0.09611544013023376,
+      "learning_rate": 0.0009925539287864466,
+      "loss": 0.1963,
+      "num_input_tokens_seen": 39627232,
+      "step": 18330
+    },
+    {
+      "epoch": 2.9910277324632952,
+      "grad_norm": 0.09955920279026031,
+      "learning_rate": 0.000992541685313568,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 39637600,
+      "step": 18335
+    },
+    {
+      "epoch": 2.99184339314845,
+      "grad_norm": 0.017093650996685028,
+      "learning_rate": 0.0009925294318587075,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 39648192,
+      "step": 18340
+    },
+    {
+      "epoch": 2.9926590538336053,
+      "grad_norm": 0.02634618431329727,
+      "learning_rate": 0.000992517168422113,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 39658464,
+      "step": 18345
+    },
+    {
+      "epoch": 2.99347471451876,
+      "grad_norm": 0.043731238692998886,
+      "learning_rate": 0.0009925048950040333,
+      "loss": 0.175,
+      "num_input_tokens_seen": 39668800,
+      "step": 18350
+    },
+    {
+      "epoch": 2.9942903752039154,
+      "grad_norm": 0.027921607717871666,
+      "learning_rate": 0.000992492611604717,
+      "loss": 0.108,
+      "num_input_tokens_seen": 39680224,
+      "step": 18355
+    },
+    {
+      "epoch": 2.99510603588907,
+      "grad_norm": 0.07438381016254425,
+      "learning_rate": 0.0009924803182244134,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 39691584,
+      "step": 18360
+    },
+    {
+      "epoch": 2.995921696574225,
+      "grad_norm": 0.13787518441677094,
+      "learning_rate": 0.0009924680148633714,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 39702816,
+      "step": 18365
+    },
+    {
+      "epoch": 2.99673735725938,
+      "grad_norm": 0.009611738845705986,
+      "learning_rate": 0.0009924557015218401,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 39713504,
+      "step": 18370
+    },
+    {
+      "epoch": 2.997553017944535,
+      "grad_norm": 0.1483236849308014,
+      "learning_rate": 0.0009924433782000695,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 39724320,
+      "step": 18375
+    },
+    {
+      "epoch": 2.99836867862969,
+      "grad_norm": 0.015144513919949532,
+      "learning_rate": 0.000992431044898309,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 39735648,
+      "step": 18380
+    },
+    {
+      "epoch": 2.999184339314845,
+      "grad_norm": 0.2547537684440613,
+      "learning_rate": 0.0009924187016168086,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 39745408,
+      "step": 18385
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.01212351769208908,
+      "learning_rate": 0.0009924063483558187,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 39755376,
+      "step": 18390
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.12335383147001266,
+      "eval_runtime": 103.2218,
+      "eval_samples_per_second": 26.399,
+      "eval_steps_per_second": 6.607,
+      "num_input_tokens_seen": 39755376,
+      "step": 18390
+    },
+    {
+      "epoch": 3.000815660685155,
+      "grad_norm": 0.014516279101371765,
+      "learning_rate": 0.0009923939851155896,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 39765936,
+      "step": 18395
+    },
+    {
+      "epoch": 3.00163132137031,
+      "grad_norm": 0.01939479261636734,
+      "learning_rate": 0.0009923816118963715,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 39777104,
+      "step": 18400
+    },
+    {
+      "epoch": 3.002446982055465,
+      "grad_norm": 0.276183158159256,
+      "learning_rate": 0.0009923692286984156,
+      "loss": 0.3429,
+      "num_input_tokens_seen": 39787280,
+      "step": 18405
+    },
+    {
+      "epoch": 3.0032626427406197,
+      "grad_norm": 0.021763058379292488,
+      "learning_rate": 0.0009923568355219726,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 39797328,
+      "step": 18410
+    },
+    {
+      "epoch": 3.004078303425775,
+      "grad_norm": 0.033986590802669525,
+      "learning_rate": 0.0009923444323672937,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 39809424,
+      "step": 18415
+    },
+    {
+      "epoch": 3.00489396411093,
+      "grad_norm": 0.12651905417442322,
+      "learning_rate": 0.0009923320192346302,
+      "loss": 0.162,
+      "num_input_tokens_seen": 39820464,
+      "step": 18420
+    },
+    {
+      "epoch": 3.0057096247960846,
+      "grad_norm": 0.07450538873672485,
+      "learning_rate": 0.000992319596124234,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 39831152,
+      "step": 18425
+    },
+    {
+      "epoch": 3.00652528548124,
+      "grad_norm": 0.13451939821243286,
+      "learning_rate": 0.0009923071630363563,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 39842480,
+      "step": 18430
+    },
+    {
+      "epoch": 3.0073409461663947,
+      "grad_norm": 0.014959607273340225,
+      "learning_rate": 0.0009922947199712496,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 39852240,
+      "step": 18435
+    },
+    {
+      "epoch": 3.00815660685155,
+      "grad_norm": 0.38718149065971375,
+      "learning_rate": 0.0009922822669291658,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 39863440,
+      "step": 18440
+    },
+    {
+      "epoch": 3.0089722675367048,
+      "grad_norm": 0.020501941442489624,
+      "learning_rate": 0.0009922698039103574,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 39874032,
+      "step": 18445
+    },
+    {
+      "epoch": 3.0097879282218596,
+      "grad_norm": 0.07462462037801743,
+      "learning_rate": 0.000992257330915077,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 39885392,
+      "step": 18450
+    },
+    {
+      "epoch": 3.010603588907015,
+      "grad_norm": 0.030257759615778923,
+      "learning_rate": 0.0009922448479435773,
+      "loss": 0.2009,
+      "num_input_tokens_seen": 39896272,
+      "step": 18455
+    },
+    {
+      "epoch": 3.0114192495921697,
+      "grad_norm": 0.07138212770223618,
+      "learning_rate": 0.0009922323549961113,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 39907664,
+      "step": 18460
+    },
+    {
+      "epoch": 3.0122349102773245,
+      "grad_norm": 0.035266272723674774,
+      "learning_rate": 0.000992219852072932,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 39918992,
+      "step": 18465
+    },
+    {
+      "epoch": 3.0130505709624797,
+      "grad_norm": 0.13974876701831818,
+      "learning_rate": 0.0009922073391742932,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 39929424,
+      "step": 18470
+    },
+    {
+      "epoch": 3.0138662316476346,
+      "grad_norm": 0.23525859415531158,
+      "learning_rate": 0.0009921948163004483,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 39939856,
+      "step": 18475
+    },
+    {
+      "epoch": 3.0146818923327894,
+      "grad_norm": 0.06922031193971634,
+      "learning_rate": 0.000992182283451651,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 39949392,
+      "step": 18480
+    },
+    {
+      "epoch": 3.0154975530179446,
+      "grad_norm": 0.007163001224398613,
+      "learning_rate": 0.0009921697406281554,
+      "loss": 0.1979,
+      "num_input_tokens_seen": 39959056,
+      "step": 18485
+    },
+    {
+      "epoch": 3.0163132137030995,
+      "grad_norm": 0.008242499083280563,
+      "learning_rate": 0.0009921571878302154,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 39969360,
+      "step": 18490
+    },
+    {
+      "epoch": 3.0171288743882543,
+      "grad_norm": 0.04228367283940315,
+      "learning_rate": 0.0009921446250580857,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 39979664,
+      "step": 18495
+    },
+    {
+      "epoch": 3.0179445350734095,
+      "grad_norm": 0.03732677921652794,
+      "learning_rate": 0.000992132052312021,
+      "loss": 0.2385,
+      "num_input_tokens_seen": 39990480,
+      "step": 18500
+    },
+    {
+      "epoch": 3.0187601957585644,
+      "grad_norm": 0.12380467355251312,
+      "learning_rate": 0.000992119469592276,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 40000976,
+      "step": 18505
+    },
+    {
+      "epoch": 3.0195758564437196,
+      "grad_norm": 0.18119105696678162,
+      "learning_rate": 0.0009921068768991056,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 40011472,
+      "step": 18510
+    },
+    {
+      "epoch": 3.0203915171288744,
+      "grad_norm": 0.12756581604480743,
+      "learning_rate": 0.0009920942742327648,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 40022096,
+      "step": 18515
+    },
+    {
+      "epoch": 3.0212071778140293,
+      "grad_norm": 0.03765145689249039,
+      "learning_rate": 0.0009920816615935095,
+      "loss": 0.1434,
+      "num_input_tokens_seen": 40032848,
+      "step": 18520
+    },
+    {
+      "epoch": 3.0220228384991845,
+      "grad_norm": 0.009554882533848286,
+      "learning_rate": 0.000992069038981595,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 40043856,
+      "step": 18525
+    },
+    {
+      "epoch": 3.0228384991843393,
+      "grad_norm": 0.04768422991037369,
+      "learning_rate": 0.0009920564063972772,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 40053648,
+      "step": 18530
+    },
+    {
+      "epoch": 3.023654159869494,
+      "grad_norm": 0.24854423105716705,
+      "learning_rate": 0.0009920437638408122,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 40064944,
+      "step": 18535
+    },
+    {
+      "epoch": 3.0244698205546494,
+      "grad_norm": 0.20471757650375366,
+      "learning_rate": 0.000992031111312456,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 40075536,
+      "step": 18540
+    },
+    {
+      "epoch": 3.0252854812398042,
+      "grad_norm": 0.04740242287516594,
+      "learning_rate": 0.0009920184488124654,
+      "loss": 0.2227,
+      "num_input_tokens_seen": 40085712,
+      "step": 18545
+    },
+    {
+      "epoch": 3.026101141924959,
+      "grad_norm": 0.01797325722873211,
+      "learning_rate": 0.0009920057763410962,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 40096688,
+      "step": 18550
+    },
+    {
+      "epoch": 3.0269168026101143,
+      "grad_norm": 0.07381663471460342,
+      "learning_rate": 0.0009919930938986064,
+      "loss": 0.1917,
+      "num_input_tokens_seen": 40107440,
+      "step": 18555
+    },
+    {
+      "epoch": 3.027732463295269,
+      "grad_norm": 0.21422551572322845,
+      "learning_rate": 0.000991980401485252,
+      "loss": 0.103,
+      "num_input_tokens_seen": 40119216,
+      "step": 18560
+    },
+    {
+      "epoch": 3.028548123980424,
+      "grad_norm": 0.21496577560901642,
+      "learning_rate": 0.000991967699101291,
+      "loss": 0.109,
+      "num_input_tokens_seen": 40130672,
+      "step": 18565
+    },
+    {
+      "epoch": 3.029363784665579,
+      "grad_norm": 0.04606503248214722,
+      "learning_rate": 0.00099195498674698,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 40142032,
+      "step": 18570
+    },
+    {
+      "epoch": 3.030179445350734,
+      "grad_norm": 0.00870492309331894,
+      "learning_rate": 0.0009919422644225776,
+      "loss": 0.11,
+      "num_input_tokens_seen": 40152528,
+      "step": 18575
+    },
+    {
+      "epoch": 3.0309951060358893,
+      "grad_norm": 0.023363051936030388,
+      "learning_rate": 0.0009919295321283409,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 40162064,
+      "step": 18580
+    },
+    {
+      "epoch": 3.031810766721044,
+      "grad_norm": 0.08522692322731018,
+      "learning_rate": 0.0009919167898645282,
+      "loss": 0.116,
+      "num_input_tokens_seen": 40173872,
+      "step": 18585
+    },
+    {
+      "epoch": 3.032626427406199,
+      "grad_norm": 0.014564625918865204,
+      "learning_rate": 0.0009919040376313976,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 40184976,
+      "step": 18590
+    },
+    {
+      "epoch": 3.033442088091354,
+      "grad_norm": 0.09863422065973282,
+      "learning_rate": 0.0009918912754292078,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 40196720,
+      "step": 18595
+    },
+    {
+      "epoch": 3.034257748776509,
+      "grad_norm": 0.168905109167099,
+      "learning_rate": 0.0009918785032582173,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 40207344,
+      "step": 18600
+    },
+    {
+      "epoch": 3.035073409461664,
+      "grad_norm": 0.07370392233133316,
+      "learning_rate": 0.000991865721118685,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 40219632,
+      "step": 18605
+    },
+    {
+      "epoch": 3.035889070146819,
+      "grad_norm": 0.12834832072257996,
+      "learning_rate": 0.0009918529290108696,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 40230896,
+      "step": 18610
+    },
+    {
+      "epoch": 3.036704730831974,
+      "grad_norm": 0.18769440054893494,
+      "learning_rate": 0.000991840126935031,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 40241264,
+      "step": 18615
+    },
+    {
+      "epoch": 3.0375203915171287,
+      "grad_norm": 0.029713381081819534,
+      "learning_rate": 0.000991827314891428,
+      "loss": 0.1725,
+      "num_input_tokens_seen": 40252272,
+      "step": 18620
+    },
+    {
+      "epoch": 3.038336052202284,
+      "grad_norm": 0.25868767499923706,
+      "learning_rate": 0.0009918144928803205,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 40262768,
+      "step": 18625
+    },
+    {
+      "epoch": 3.039151712887439,
+      "grad_norm": 0.02136482112109661,
+      "learning_rate": 0.0009918016609019686,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 40273552,
+      "step": 18630
+    },
+    {
+      "epoch": 3.0399673735725936,
+      "grad_norm": 0.19516494870185852,
+      "learning_rate": 0.0009917888189566323,
+      "loss": 0.2173,
+      "num_input_tokens_seen": 40283664,
+      "step": 18635
+    },
+    {
+      "epoch": 3.040783034257749,
+      "grad_norm": 0.005416174419224262,
+      "learning_rate": 0.0009917759670445712,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 40293904,
+      "step": 18640
+    },
+    {
+      "epoch": 3.0415986949429037,
+      "grad_norm": 0.0065343305468559265,
+      "learning_rate": 0.0009917631051660468,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 40304912,
+      "step": 18645
+    },
+    {
+      "epoch": 3.0424143556280585,
+      "grad_norm": 0.034539107233285904,
+      "learning_rate": 0.0009917502333213189,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 40315856,
+      "step": 18650
+    },
+    {
+      "epoch": 3.0432300163132138,
+      "grad_norm": 0.008732376620173454,
+      "learning_rate": 0.0009917373515106486,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 40325936,
+      "step": 18655
+    },
+    {
+      "epoch": 3.0440456769983686,
+      "grad_norm": 0.1251506805419922,
+      "learning_rate": 0.0009917244597342973,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 40336880,
+      "step": 18660
+    },
+    {
+      "epoch": 3.044861337683524,
+      "grad_norm": 0.009798316285014153,
+      "learning_rate": 0.000991711557992526,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 40347568,
+      "step": 18665
+    },
+    {
+      "epoch": 3.0456769983686787,
+      "grad_norm": 0.015984924510121346,
+      "learning_rate": 0.000991698646285596,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 40358736,
+      "step": 18670
+    },
+    {
+      "epoch": 3.0464926590538335,
+      "grad_norm": 0.37127813696861267,
+      "learning_rate": 0.0009916857246137693,
+      "loss": 0.2148,
+      "num_input_tokens_seen": 40370480,
+      "step": 18675
+    },
+    {
+      "epoch": 3.0473083197389887,
+      "grad_norm": 0.16755881905555725,
+      "learning_rate": 0.0009916727929773078,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 40380336,
+      "step": 18680
+    },
+    {
+      "epoch": 3.0481239804241436,
+      "grad_norm": 0.04090609401464462,
+      "learning_rate": 0.0009916598513764732,
+      "loss": 0.122,
+      "num_input_tokens_seen": 40391824,
+      "step": 18685
+    },
+    {
+      "epoch": 3.0489396411092984,
+      "grad_norm": 0.05720209330320358,
+      "learning_rate": 0.0009916468998115281,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 40403088,
+      "step": 18690
+    },
+    {
+      "epoch": 3.0497553017944536,
+      "grad_norm": 0.1086057499051094,
+      "learning_rate": 0.000991633938282735,
+      "loss": 0.1968,
+      "num_input_tokens_seen": 40414480,
+      "step": 18695
+    },
+    {
+      "epoch": 3.0505709624796085,
+      "grad_norm": 0.032246749848127365,
+      "learning_rate": 0.0009916209667903562,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 40425968,
+      "step": 18700
+    },
+    {
+      "epoch": 3.0513866231647633,
+      "grad_norm": 0.03548622503876686,
+      "learning_rate": 0.0009916079853346548,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 40436912,
+      "step": 18705
+    },
+    {
+      "epoch": 3.0522022838499185,
+      "grad_norm": 0.06208382919430733,
+      "learning_rate": 0.0009915949939158942,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 40447472,
+      "step": 18710
+    },
+    {
+      "epoch": 3.0530179445350734,
+      "grad_norm": 0.010785914957523346,
+      "learning_rate": 0.0009915819925343373,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 40458192,
+      "step": 18715
+    },
+    {
+      "epoch": 3.053833605220228,
+      "grad_norm": 0.01436684001237154,
+      "learning_rate": 0.0009915689811902477,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 40468016,
+      "step": 18720
+    },
+    {
+      "epoch": 3.0546492659053834,
+      "grad_norm": 0.2570911943912506,
+      "learning_rate": 0.000991555959883889,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 40478448,
+      "step": 18725
+    },
+    {
+      "epoch": 3.0554649265905383,
+      "grad_norm": 0.012195185758173466,
+      "learning_rate": 0.0009915429286155254,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 40489488,
+      "step": 18730
+    },
+    {
+      "epoch": 3.0562805872756935,
+      "grad_norm": 0.007231024093925953,
+      "learning_rate": 0.0009915298873854207,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 40499888,
+      "step": 18735
+    },
+    {
+      "epoch": 3.0570962479608483,
+      "grad_norm": 0.054103195667266846,
+      "learning_rate": 0.0009915168361938392,
+      "loss": 0.1771,
+      "num_input_tokens_seen": 40509744,
+      "step": 18740
+    },
+    {
+      "epoch": 3.057911908646003,
+      "grad_norm": 0.22565001249313354,
+      "learning_rate": 0.0009915037750410456,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 40520176,
+      "step": 18745
+    },
+    {
+      "epoch": 3.0587275693311584,
+      "grad_norm": 0.1788310408592224,
+      "learning_rate": 0.0009914907039273045,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 40530896,
+      "step": 18750
+    },
+    {
+      "epoch": 3.0595432300163132,
+      "grad_norm": 0.03100595623254776,
+      "learning_rate": 0.0009914776228528805,
+      "loss": 0.3058,
+      "num_input_tokens_seen": 40541456,
+      "step": 18755
+    },
+    {
+      "epoch": 3.060358890701468,
+      "grad_norm": 0.3577895164489746,
+      "learning_rate": 0.0009914645318180393,
+      "loss": 0.1918,
+      "num_input_tokens_seen": 40552912,
+      "step": 18760
+    },
+    {
+      "epoch": 3.0611745513866233,
+      "grad_norm": 0.12759797275066376,
+      "learning_rate": 0.0009914514308230458,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 40563824,
+      "step": 18765
+    },
+    {
+      "epoch": 3.061990212071778,
+      "grad_norm": 0.08027143776416779,
+      "learning_rate": 0.0009914383198681657,
+      "loss": 0.044,
+      "num_input_tokens_seen": 40575120,
+      "step": 18770
+    },
+    {
+      "epoch": 3.062805872756933,
+      "grad_norm": 0.20178310573101044,
+      "learning_rate": 0.0009914251989536645,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 40586448,
+      "step": 18775
+    },
+    {
+      "epoch": 3.063621533442088,
+      "grad_norm": 0.043073415756225586,
+      "learning_rate": 0.0009914120680798082,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 40597936,
+      "step": 18780
+    },
+    {
+      "epoch": 3.064437194127243,
+      "grad_norm": 0.14184482395648956,
+      "learning_rate": 0.000991398927246863,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 40607984,
+      "step": 18785
+    },
+    {
+      "epoch": 3.065252854812398,
+      "grad_norm": 0.07433011382818222,
+      "learning_rate": 0.000991385776455095,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 40618928,
+      "step": 18790
+    },
+    {
+      "epoch": 3.066068515497553,
+      "grad_norm": 0.030221259221434593,
+      "learning_rate": 0.0009913726157047712,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 40628432,
+      "step": 18795
+    },
+    {
+      "epoch": 3.066884176182708,
+      "grad_norm": 0.015028982423245907,
+      "learning_rate": 0.0009913594449961576,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 40639920,
+      "step": 18800
+    },
+    {
+      "epoch": 3.067699836867863,
+      "grad_norm": 0.08033467084169388,
+      "learning_rate": 0.0009913462643295217,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 40651120,
+      "step": 18805
+    },
+    {
+      "epoch": 3.068515497553018,
+      "grad_norm": 0.1094004362821579,
+      "learning_rate": 0.0009913330737051304,
+      "loss": 0.221,
+      "num_input_tokens_seen": 40661008,
+      "step": 18810
+    },
+    {
+      "epoch": 3.069331158238173,
+      "grad_norm": 0.1347908228635788,
+      "learning_rate": 0.0009913198731232513,
+      "loss": 0.123,
+      "num_input_tokens_seen": 40671920,
+      "step": 18815
+    },
+    {
+      "epoch": 3.070146818923328,
+      "grad_norm": 0.04396280273795128,
+      "learning_rate": 0.0009913066625841513,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 40681552,
+      "step": 18820
+    },
+    {
+      "epoch": 3.070962479608483,
+      "grad_norm": 0.01838274672627449,
+      "learning_rate": 0.0009912934420880988,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 40692368,
+      "step": 18825
+    },
+    {
+      "epoch": 3.0717781402936377,
+      "grad_norm": 0.007258755154907703,
+      "learning_rate": 0.0009912802116353613,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 40701392,
+      "step": 18830
+    },
+    {
+      "epoch": 3.072593800978793,
+      "grad_norm": 0.10661440342664719,
+      "learning_rate": 0.0009912669712262073,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 40712272,
+      "step": 18835
+    },
+    {
+      "epoch": 3.073409461663948,
+      "grad_norm": 0.10035596787929535,
+      "learning_rate": 0.0009912537208609047,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 40724496,
+      "step": 18840
+    },
+    {
+      "epoch": 3.0742251223491026,
+      "grad_norm": 0.009967050515115261,
+      "learning_rate": 0.0009912404605397222,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 40734928,
+      "step": 18845
+    },
+    {
+      "epoch": 3.075040783034258,
+      "grad_norm": 0.13334870338439941,
+      "learning_rate": 0.0009912271902629288,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 40744240,
+      "step": 18850
+    },
+    {
+      "epoch": 3.0758564437194127,
+      "grad_norm": 0.13278226554393768,
+      "learning_rate": 0.000991213910030793,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 40754096,
+      "step": 18855
+    },
+    {
+      "epoch": 3.0766721044045675,
+      "grad_norm": 0.22139577567577362,
+      "learning_rate": 0.0009912006198435843,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 40765328,
+      "step": 18860
+    },
+    {
+      "epoch": 3.0774877650897228,
+      "grad_norm": 0.00508854491636157,
+      "learning_rate": 0.000991187319701572,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 40776304,
+      "step": 18865
+    },
+    {
+      "epoch": 3.0783034257748776,
+      "grad_norm": 0.31696730852127075,
+      "learning_rate": 0.0009911740096050252,
+      "loss": 0.1645,
+      "num_input_tokens_seen": 40787376,
+      "step": 18870
+    },
+    {
+      "epoch": 3.0791190864600324,
+      "grad_norm": 0.08231733739376068,
+      "learning_rate": 0.0009911606895542143,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 40798032,
+      "step": 18875
+    },
+    {
+      "epoch": 3.0799347471451877,
+      "grad_norm": 0.2622213363647461,
+      "learning_rate": 0.0009911473595494089,
+      "loss": 0.109,
+      "num_input_tokens_seen": 40809456,
+      "step": 18880
+    },
+    {
+      "epoch": 3.0807504078303425,
+      "grad_norm": 0.026339467614889145,
+      "learning_rate": 0.0009911340195908791,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 40819184,
+      "step": 18885
+    },
+    {
+      "epoch": 3.0815660685154977,
+      "grad_norm": 0.022269627079367638,
+      "learning_rate": 0.0009911206696788955,
+      "loss": 0.096,
+      "num_input_tokens_seen": 40831088,
+      "step": 18890
+    },
+    {
+      "epoch": 3.0823817292006526,
+      "grad_norm": 0.13229554891586304,
+      "learning_rate": 0.0009911073098137285,
+      "loss": 0.113,
+      "num_input_tokens_seen": 40842160,
+      "step": 18895
+    },
+    {
+      "epoch": 3.0831973898858074,
+      "grad_norm": 0.15041932463645935,
+      "learning_rate": 0.0009910939399956488,
+      "loss": 0.2426,
+      "num_input_tokens_seen": 40852304,
+      "step": 18900
+    },
+    {
+      "epoch": 3.0840130505709626,
+      "grad_norm": 0.10796932131052017,
+      "learning_rate": 0.0009910805602249273,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 40864816,
+      "step": 18905
+    },
+    {
+      "epoch": 3.0848287112561175,
+      "grad_norm": 0.30564913153648376,
+      "learning_rate": 0.0009910671705018353,
+      "loss": 0.151,
+      "num_input_tokens_seen": 40875632,
+      "step": 18910
+    },
+    {
+      "epoch": 3.0856443719412723,
+      "grad_norm": 0.08066358417272568,
+      "learning_rate": 0.000991053770826644,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 40886896,
+      "step": 18915
+    },
+    {
+      "epoch": 3.0864600326264275,
+      "grad_norm": 0.07252980023622513,
+      "learning_rate": 0.0009910403611996252,
+      "loss": 0.2728,
+      "num_input_tokens_seen": 40897744,
+      "step": 18920
+    },
+    {
+      "epoch": 3.0872756933115824,
+      "grad_norm": 0.046622633934020996,
+      "learning_rate": 0.0009910269416210508,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 40907184,
+      "step": 18925
+    },
+    {
+      "epoch": 3.088091353996737,
+      "grad_norm": 0.13025681674480438,
+      "learning_rate": 0.0009910135120911924,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 40918160,
+      "step": 18930
+    },
+    {
+      "epoch": 3.0889070146818924,
+      "grad_norm": 0.06960994750261307,
+      "learning_rate": 0.0009910000726103222,
+      "loss": 0.2516,
+      "num_input_tokens_seen": 40927856,
+      "step": 18935
+    },
+    {
+      "epoch": 3.0897226753670473,
+      "grad_norm": 0.1453385353088379,
+      "learning_rate": 0.0009909866231787125,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 40939088,
+      "step": 18940
+    },
+    {
+      "epoch": 3.090538336052202,
+      "grad_norm": 0.07813244313001633,
+      "learning_rate": 0.0009909731637966362,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 40949008,
+      "step": 18945
+    },
+    {
+      "epoch": 3.0913539967373573,
+      "grad_norm": 0.1851913183927536,
+      "learning_rate": 0.0009909596944643658,
+      "loss": 0.1805,
+      "num_input_tokens_seen": 40959984,
+      "step": 18950
+    },
+    {
+      "epoch": 3.092169657422512,
+      "grad_norm": 0.04275398701429367,
+      "learning_rate": 0.0009909462151821745,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 40971024,
+      "step": 18955
+    },
+    {
+      "epoch": 3.0929853181076674,
+      "grad_norm": 0.0939917117357254,
+      "learning_rate": 0.0009909327259503351,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 40984112,
+      "step": 18960
+    },
+    {
+      "epoch": 3.0938009787928222,
+      "grad_norm": 0.006666467059403658,
+      "learning_rate": 0.0009909192267691215,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 40995504,
+      "step": 18965
+    },
+    {
+      "epoch": 3.094616639477977,
+      "grad_norm": 0.008724762126803398,
+      "learning_rate": 0.000990905717638807,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 41006960,
+      "step": 18970
+    },
+    {
+      "epoch": 3.0954323001631323,
+      "grad_norm": 0.02470196783542633,
+      "learning_rate": 0.000990892198559665,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 41017104,
+      "step": 18975
+    },
+    {
+      "epoch": 3.096247960848287,
+      "grad_norm": 0.21092841029167175,
+      "learning_rate": 0.0009908786695319702,
+      "loss": 0.114,
+      "num_input_tokens_seen": 41028368,
+      "step": 18980
+    },
+    {
+      "epoch": 3.097063621533442,
+      "grad_norm": 0.04528717324137688,
+      "learning_rate": 0.0009908651305559964,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 41038960,
+      "step": 18985
+    },
+    {
+      "epoch": 3.097879282218597,
+      "grad_norm": 0.10174711793661118,
+      "learning_rate": 0.000990851581632018,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 41049008,
+      "step": 18990
+    },
+    {
+      "epoch": 3.098694942903752,
+      "grad_norm": 0.42217883467674255,
+      "learning_rate": 0.0009908380227603094,
+      "loss": 0.2884,
+      "num_input_tokens_seen": 41060400,
+      "step": 18995
+    },
+    {
+      "epoch": 3.099510603588907,
+      "grad_norm": 0.020816409960389137,
+      "learning_rate": 0.000990824453941146,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 41072112,
+      "step": 19000
+    },
+    {
+      "epoch": 3.100326264274062,
+      "grad_norm": 0.035774942487478256,
+      "learning_rate": 0.000990810875174802,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 41083664,
+      "step": 19005
+    },
+    {
+      "epoch": 3.101141924959217,
+      "grad_norm": 0.015757689252495766,
+      "learning_rate": 0.0009907972864615531,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 41093232,
+      "step": 19010
+    },
+    {
+      "epoch": 3.1019575856443717,
+      "grad_norm": 0.12344611436128616,
+      "learning_rate": 0.0009907836878016746,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 41105328,
+      "step": 19015
+    },
+    {
+      "epoch": 3.102773246329527,
+      "grad_norm": 0.08110906928777695,
+      "learning_rate": 0.000990770079195442,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 41115504,
+      "step": 19020
+    },
+    {
+      "epoch": 3.103588907014682,
+      "grad_norm": 0.07154972851276398,
+      "learning_rate": 0.0009907564606431315,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 41126480,
+      "step": 19025
+    },
+    {
+      "epoch": 3.104404567699837,
+      "grad_norm": 0.007094620727002621,
+      "learning_rate": 0.0009907428321450182,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 41138512,
+      "step": 19030
+    },
+    {
+      "epoch": 3.105220228384992,
+      "grad_norm": 0.02809945121407509,
+      "learning_rate": 0.0009907291937013792,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 41150224,
+      "step": 19035
+    },
+    {
+      "epoch": 3.1060358890701467,
+      "grad_norm": 0.06788235157728195,
+      "learning_rate": 0.0009907155453124906,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 41161392,
+      "step": 19040
+    },
+    {
+      "epoch": 3.106851549755302,
+      "grad_norm": 0.01055830903351307,
+      "learning_rate": 0.0009907018869786289,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 41172592,
+      "step": 19045
+    },
+    {
+      "epoch": 3.107667210440457,
+      "grad_norm": 0.07226168364286423,
+      "learning_rate": 0.0009906882187000708,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 41183792,
+      "step": 19050
+    },
+    {
+      "epoch": 3.1084828711256116,
+      "grad_norm": 0.008402747102081776,
+      "learning_rate": 0.0009906745404770936,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 41192880,
+      "step": 19055
+    },
+    {
+      "epoch": 3.109298531810767,
+      "grad_norm": 0.015082316473126411,
+      "learning_rate": 0.0009906608523099743,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 41202768,
+      "step": 19060
+    },
+    {
+      "epoch": 3.1101141924959217,
+      "grad_norm": 0.0037719886749982834,
+      "learning_rate": 0.0009906471541989905,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 41213552,
+      "step": 19065
+    },
+    {
+      "epoch": 3.1109298531810765,
+      "grad_norm": 0.2002812772989273,
+      "learning_rate": 0.0009906334461444195,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 41223920,
+      "step": 19070
+    },
+    {
+      "epoch": 3.1117455138662318,
+      "grad_norm": 0.05566996708512306,
+      "learning_rate": 0.0009906197281465395,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 41235440,
+      "step": 19075
+    },
+    {
+      "epoch": 3.1125611745513866,
+      "grad_norm": 0.09809504449367523,
+      "learning_rate": 0.0009906060002056283,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 41247184,
+      "step": 19080
+    },
+    {
+      "epoch": 3.1133768352365414,
+      "grad_norm": 0.05056000500917435,
+      "learning_rate": 0.000990592262321964,
+      "loss": 0.2402,
+      "num_input_tokens_seen": 41257552,
+      "step": 19085
+    },
+    {
+      "epoch": 3.1141924959216967,
+      "grad_norm": 0.22058925032615662,
+      "learning_rate": 0.0009905785144958253,
+      "loss": 0.2654,
+      "num_input_tokens_seen": 41268496,
+      "step": 19090
+    },
+    {
+      "epoch": 3.1150081566068515,
+      "grad_norm": 0.2546690106391907,
+      "learning_rate": 0.0009905647567274905,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 41278640,
+      "step": 19095
+    },
+    {
+      "epoch": 3.1158238172920063,
+      "grad_norm": 0.11807727813720703,
+      "learning_rate": 0.0009905509890172385,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 41288976,
+      "step": 19100
+    },
+    {
+      "epoch": 3.1166394779771616,
+      "grad_norm": 0.06996791809797287,
+      "learning_rate": 0.0009905372113653487,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 41300912,
+      "step": 19105
+    },
+    {
+      "epoch": 3.1174551386623164,
+      "grad_norm": 0.1596715748310089,
+      "learning_rate": 0.0009905234237721,
+      "loss": 0.3419,
+      "num_input_tokens_seen": 41311088,
+      "step": 19110
+    },
+    {
+      "epoch": 3.1182707993474716,
+      "grad_norm": 0.03004053235054016,
+      "learning_rate": 0.0009905096262377716,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 41321488,
+      "step": 19115
+    },
+    {
+      "epoch": 3.1190864600326265,
+      "grad_norm": 0.16573455929756165,
+      "learning_rate": 0.0009904958187626433,
+      "loss": 0.1674,
+      "num_input_tokens_seen": 41333008,
+      "step": 19120
+    },
+    {
+      "epoch": 3.1199021207177813,
+      "grad_norm": 0.10211943089962006,
+      "learning_rate": 0.0009904820013469952,
+      "loss": 0.2155,
+      "num_input_tokens_seen": 41343920,
+      "step": 19125
+    },
+    {
+      "epoch": 3.1207177814029365,
+      "grad_norm": 0.08475879579782486,
+      "learning_rate": 0.0009904681739911073,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 41353488,
+      "step": 19130
+    },
+    {
+      "epoch": 3.1215334420880914,
+      "grad_norm": 0.2866770923137665,
+      "learning_rate": 0.0009904543366952593,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 41364112,
+      "step": 19135
+    },
+    {
+      "epoch": 3.122349102773246,
+      "grad_norm": 0.033991675823926926,
+      "learning_rate": 0.0009904404894597323,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 41375664,
+      "step": 19140
+    },
+    {
+      "epoch": 3.1231647634584014,
+      "grad_norm": 0.009995969012379646,
+      "learning_rate": 0.0009904266322848063,
+      "loss": 0.043,
+      "num_input_tokens_seen": 41387440,
+      "step": 19145
+    },
+    {
+      "epoch": 3.1239804241435563,
+      "grad_norm": 0.05611064285039902,
+      "learning_rate": 0.0009904127651707627,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 41399664,
+      "step": 19150
+    },
+    {
+      "epoch": 3.124796084828711,
+      "grad_norm": 0.07509331405162811,
+      "learning_rate": 0.000990398888117882,
+      "loss": 0.2621,
+      "num_input_tokens_seen": 41409296,
+      "step": 19155
+    },
+    {
+      "epoch": 3.1256117455138663,
+      "grad_norm": 0.14326560497283936,
+      "learning_rate": 0.0009903850011264458,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 41421008,
+      "step": 19160
+    },
+    {
+      "epoch": 3.126427406199021,
+      "grad_norm": 0.1420290321111679,
+      "learning_rate": 0.0009903711041967357,
+      "loss": 0.1972,
+      "num_input_tokens_seen": 41431984,
+      "step": 19165
+    },
+    {
+      "epoch": 3.1272430668841764,
+      "grad_norm": 0.018591681495308876,
+      "learning_rate": 0.000990357197329033,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 41442768,
+      "step": 19170
+    },
+    {
+      "epoch": 3.1280587275693312,
+      "grad_norm": 0.017070859670639038,
+      "learning_rate": 0.0009903432805236194,
+      "loss": 0.05,
+      "num_input_tokens_seen": 41452240,
+      "step": 19175
+    },
+    {
+      "epoch": 3.128874388254486,
+      "grad_norm": 0.22679705917835236,
+      "learning_rate": 0.0009903293537807773,
+      "loss": 0.2145,
+      "num_input_tokens_seen": 41463696,
+      "step": 19180
+    },
+    {
+      "epoch": 3.1296900489396413,
+      "grad_norm": 0.10408644378185272,
+      "learning_rate": 0.0009903154171007889,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 41474608,
+      "step": 19185
+    },
+    {
+      "epoch": 3.130505709624796,
+      "grad_norm": 0.00605523819103837,
+      "learning_rate": 0.0009903014704839366,
+      "loss": 0.067,
+      "num_input_tokens_seen": 41485968,
+      "step": 19190
+    },
+    {
+      "epoch": 3.131321370309951,
+      "grad_norm": 0.11108432710170746,
+      "learning_rate": 0.000990287513930503,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 41496688,
+      "step": 19195
+    },
+    {
+      "epoch": 3.132137030995106,
+      "grad_norm": 0.004489239305257797,
+      "learning_rate": 0.000990273547440771,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 41507824,
+      "step": 19200
+    },
+    {
+      "epoch": 3.132952691680261,
+      "grad_norm": 0.0032085098791867495,
+      "learning_rate": 0.0009902595710150233,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 41519440,
+      "step": 19205
+    },
+    {
+      "epoch": 3.133768352365416,
+      "grad_norm": 0.004664691165089607,
+      "learning_rate": 0.0009902455846535437,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 41530768,
+      "step": 19210
+    },
+    {
+      "epoch": 3.134584013050571,
+      "grad_norm": 0.2081509232521057,
+      "learning_rate": 0.0009902315883566152,
+      "loss": 0.2124,
+      "num_input_tokens_seen": 41541808,
+      "step": 19215
+    },
+    {
+      "epoch": 3.135399673735726,
+      "grad_norm": 0.055930253118276596,
+      "learning_rate": 0.000990217582124522,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 41552400,
+      "step": 19220
+    },
+    {
+      "epoch": 3.1362153344208807,
+      "grad_norm": 0.023356657475233078,
+      "learning_rate": 0.0009902035659575474,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 41562416,
+      "step": 19225
+    },
+    {
+      "epoch": 3.137030995106036,
+      "grad_norm": 0.010270596481859684,
+      "learning_rate": 0.0009901895398559757,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 41574000,
+      "step": 19230
+    },
+    {
+      "epoch": 3.137846655791191,
+      "grad_norm": 0.06142498180270195,
+      "learning_rate": 0.0009901755038200912,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 41584400,
+      "step": 19235
+    },
+    {
+      "epoch": 3.1386623164763456,
+      "grad_norm": 0.059650782495737076,
+      "learning_rate": 0.0009901614578501782,
+      "loss": 0.1603,
+      "num_input_tokens_seen": 41596656,
+      "step": 19240
+    },
+    {
+      "epoch": 3.139477977161501,
+      "grad_norm": 0.056524645537137985,
+      "learning_rate": 0.0009901474019465215,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 41606960,
+      "step": 19245
+    },
+    {
+      "epoch": 3.1402936378466557,
+      "grad_norm": 0.038970183581113815,
+      "learning_rate": 0.0009901333361094057,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 41617936,
+      "step": 19250
+    },
+    {
+      "epoch": 3.141109298531811,
+      "grad_norm": 0.3043142855167389,
+      "learning_rate": 0.0009901192603391162,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 41628720,
+      "step": 19255
+    },
+    {
+      "epoch": 3.141924959216966,
+      "grad_norm": 0.2813945710659027,
+      "learning_rate": 0.0009901051746359381,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 41639408,
+      "step": 19260
+    },
+    {
+      "epoch": 3.1427406199021206,
+      "grad_norm": 0.024280589073896408,
+      "learning_rate": 0.0009900910790001571,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 41650128,
+      "step": 19265
+    },
+    {
+      "epoch": 3.143556280587276,
+      "grad_norm": 0.25504744052886963,
+      "learning_rate": 0.0009900769734320586,
+      "loss": 0.1879,
+      "num_input_tokens_seen": 41661168,
+      "step": 19270
+    },
+    {
+      "epoch": 3.1443719412724307,
+      "grad_norm": 0.08303016424179077,
+      "learning_rate": 0.0009900628579319283,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 41672656,
+      "step": 19275
+    },
+    {
+      "epoch": 3.1451876019575855,
+      "grad_norm": 0.04942861944437027,
+      "learning_rate": 0.0009900487325000527,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 41684176,
+      "step": 19280
+    },
+    {
+      "epoch": 3.1460032626427408,
+      "grad_norm": 0.40202391147613525,
+      "learning_rate": 0.0009900345971367178,
+      "loss": 0.1924,
+      "num_input_tokens_seen": 41694896,
+      "step": 19285
+    },
+    {
+      "epoch": 3.1468189233278956,
+      "grad_norm": 0.013745547272264957,
+      "learning_rate": 0.00099002045184221,
+      "loss": 0.08,
+      "num_input_tokens_seen": 41705840,
+      "step": 19290
+    },
+    {
+      "epoch": 3.1476345840130504,
+      "grad_norm": 0.23511438071727753,
+      "learning_rate": 0.0009900062966168163,
+      "loss": 0.1777,
+      "num_input_tokens_seen": 41717104,
+      "step": 19295
+    },
+    {
+      "epoch": 3.1484502446982057,
+      "grad_norm": 0.5526800155639648,
+      "learning_rate": 0.0009899921314608232,
+      "loss": 0.1843,
+      "num_input_tokens_seen": 41727632,
+      "step": 19300
+    },
+    {
+      "epoch": 3.1492659053833605,
+      "grad_norm": 0.022193720564246178,
+      "learning_rate": 0.0009899779563745182,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 41738608,
+      "step": 19305
+    },
+    {
+      "epoch": 3.1500815660685153,
+      "grad_norm": 0.4144640564918518,
+      "learning_rate": 0.0009899637713581882,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 41749072,
+      "step": 19310
+    },
+    {
+      "epoch": 3.1508972267536706,
+      "grad_norm": 0.060778357088565826,
+      "learning_rate": 0.0009899495764121207,
+      "loss": 0.2802,
+      "num_input_tokens_seen": 41760400,
+      "step": 19315
+    },
+    {
+      "epoch": 3.1517128874388254,
+      "grad_norm": 0.17989078164100647,
+      "learning_rate": 0.0009899353715366037,
+      "loss": 0.1911,
+      "num_input_tokens_seen": 41771184,
+      "step": 19320
+    },
+    {
+      "epoch": 3.15252854812398,
+      "grad_norm": 0.025782205164432526,
+      "learning_rate": 0.0009899211567319247,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 41782896,
+      "step": 19325
+    },
+    {
+      "epoch": 3.1533442088091355,
+      "grad_norm": 0.016936376690864563,
+      "learning_rate": 0.000989906931998372,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 41793616,
+      "step": 19330
+    },
+    {
+      "epoch": 3.1541598694942903,
+      "grad_norm": 0.035956088453531265,
+      "learning_rate": 0.000989892697336234,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 41806000,
+      "step": 19335
+    },
+    {
+      "epoch": 3.1549755301794455,
+      "grad_norm": 0.06265423446893692,
+      "learning_rate": 0.0009898784527457988,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 41816016,
+      "step": 19340
+    },
+    {
+      "epoch": 3.1557911908646004,
+      "grad_norm": 0.048211682587862015,
+      "learning_rate": 0.0009898641982273553,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 41826320,
+      "step": 19345
+    },
+    {
+      "epoch": 3.156606851549755,
+      "grad_norm": 0.10827599465847015,
+      "learning_rate": 0.0009898499337811925,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 41837328,
+      "step": 19350
+    },
+    {
+      "epoch": 3.1574225122349104,
+      "grad_norm": 0.012927313335239887,
+      "learning_rate": 0.0009898356594075992,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 41847856,
+      "step": 19355
+    },
+    {
+      "epoch": 3.1582381729200653,
+      "grad_norm": 0.08092676848173141,
+      "learning_rate": 0.0009898213751068652,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 41858288,
+      "step": 19360
+    },
+    {
+      "epoch": 3.15905383360522,
+      "grad_norm": 0.12177547812461853,
+      "learning_rate": 0.0009898070808792795,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 41868496,
+      "step": 19365
+    },
+    {
+      "epoch": 3.1598694942903753,
+      "grad_norm": 0.064247727394104,
+      "learning_rate": 0.0009897927767251319,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 41879312,
+      "step": 19370
+    },
+    {
+      "epoch": 3.16068515497553,
+      "grad_norm": 0.05906981602311134,
+      "learning_rate": 0.0009897784626447122,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 41890736,
+      "step": 19375
+    },
+    {
+      "epoch": 3.161500815660685,
+      "grad_norm": 0.010267877951264381,
+      "learning_rate": 0.0009897641386383106,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 41902704,
+      "step": 19380
+    },
+    {
+      "epoch": 3.1623164763458402,
+      "grad_norm": 0.006765549536794424,
+      "learning_rate": 0.0009897498047062177,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 41913200,
+      "step": 19385
+    },
+    {
+      "epoch": 3.163132137030995,
+      "grad_norm": 0.035863492637872696,
+      "learning_rate": 0.0009897354608487234,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 41923792,
+      "step": 19390
+    },
+    {
+      "epoch": 3.1639477977161503,
+      "grad_norm": 0.004194718785583973,
+      "learning_rate": 0.000989721107066119,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 41934960,
+      "step": 19395
+    },
+    {
+      "epoch": 3.164763458401305,
+      "grad_norm": 0.010995978489518166,
+      "learning_rate": 0.000989706743358695,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 41945904,
+      "step": 19400
+    },
+    {
+      "epoch": 3.16557911908646,
+      "grad_norm": 0.28057172894477844,
+      "learning_rate": 0.0009896923697267426,
+      "loss": 0.252,
+      "num_input_tokens_seen": 41957488,
+      "step": 19405
+    },
+    {
+      "epoch": 3.166394779771615,
+      "grad_norm": 0.09755899012088776,
+      "learning_rate": 0.0009896779861705532,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 41968784,
+      "step": 19410
+    },
+    {
+      "epoch": 3.16721044045677,
+      "grad_norm": 0.04553823918104172,
+      "learning_rate": 0.000989663592690418,
+      "loss": 0.2561,
+      "num_input_tokens_seen": 41980048,
+      "step": 19415
+    },
+    {
+      "epoch": 3.168026101141925,
+      "grad_norm": 0.05321956053376198,
+      "learning_rate": 0.0009896491892866291,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 41989904,
+      "step": 19420
+    },
+    {
+      "epoch": 3.16884176182708,
+      "grad_norm": 0.24264544248580933,
+      "learning_rate": 0.0009896347759594782,
+      "loss": 0.2203,
+      "num_input_tokens_seen": 42000432,
+      "step": 19425
+    },
+    {
+      "epoch": 3.169657422512235,
+      "grad_norm": 0.10809178650379181,
+      "learning_rate": 0.0009896203527092573,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 42010576,
+      "step": 19430
+    },
+    {
+      "epoch": 3.1704730831973897,
+      "grad_norm": 0.046370748430490494,
+      "learning_rate": 0.000989605919536259,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 42023536,
+      "step": 19435
+    },
+    {
+      "epoch": 3.171288743882545,
+      "grad_norm": 0.02008720114827156,
+      "learning_rate": 0.0009895914764407755,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 42035792,
+      "step": 19440
+    },
+    {
+      "epoch": 3.1721044045677,
+      "grad_norm": 0.12499675899744034,
+      "learning_rate": 0.0009895770234230996,
+      "loss": 0.052,
+      "num_input_tokens_seen": 42045968,
+      "step": 19445
+    },
+    {
+      "epoch": 3.1729200652528546,
+      "grad_norm": 0.02297365851700306,
+      "learning_rate": 0.0009895625604835244,
+      "loss": 0.1416,
+      "num_input_tokens_seen": 42057616,
+      "step": 19450
+    },
+    {
+      "epoch": 3.17373572593801,
+      "grad_norm": 0.02101576328277588,
+      "learning_rate": 0.0009895480876223428,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 42067536,
+      "step": 19455
+    },
+    {
+      "epoch": 3.1745513866231647,
+      "grad_norm": 0.05291339010000229,
+      "learning_rate": 0.000989533604839848,
+      "loss": 0.101,
+      "num_input_tokens_seen": 42079024,
+      "step": 19460
+    },
+    {
+      "epoch": 3.1753670473083195,
+      "grad_norm": 0.03308214247226715,
+      "learning_rate": 0.0009895191121363338,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 42090864,
+      "step": 19465
+    },
+    {
+      "epoch": 3.176182707993475,
+      "grad_norm": 0.007731168996542692,
+      "learning_rate": 0.0009895046095120938,
+      "loss": 0.026,
+      "num_input_tokens_seen": 42101776,
+      "step": 19470
+    },
+    {
+      "epoch": 3.1769983686786296,
+      "grad_norm": 0.016055205836892128,
+      "learning_rate": 0.0009894900969674221,
+      "loss": 0.1852,
+      "num_input_tokens_seen": 42112752,
+      "step": 19475
+    },
+    {
+      "epoch": 3.177814029363785,
+      "grad_norm": 0.02115645818412304,
+      "learning_rate": 0.0009894755745026124,
+      "loss": 0.2081,
+      "num_input_tokens_seen": 42125072,
+      "step": 19480
+    },
+    {
+      "epoch": 3.1786296900489397,
+      "grad_norm": 0.0125564094632864,
+      "learning_rate": 0.0009894610421179594,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 42136368,
+      "step": 19485
+    },
+    {
+      "epoch": 3.1794453507340945,
+      "grad_norm": 0.00938443560153246,
+      "learning_rate": 0.0009894464998137572,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 42146576,
+      "step": 19490
+    },
+    {
+      "epoch": 3.1802610114192498,
+      "grad_norm": 0.2912297546863556,
+      "learning_rate": 0.000989431947590301,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 42157680,
+      "step": 19495
+    },
+    {
+      "epoch": 3.1810766721044046,
+      "grad_norm": 0.08204010128974915,
+      "learning_rate": 0.0009894173854478854,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 42168720,
+      "step": 19500
+    },
+    {
+      "epoch": 3.1818923327895594,
+      "grad_norm": 0.041957221925258636,
+      "learning_rate": 0.0009894028133868055,
+      "loss": 0.1634,
+      "num_input_tokens_seen": 42179376,
+      "step": 19505
+    },
+    {
+      "epoch": 3.1827079934747147,
+      "grad_norm": 0.2277340292930603,
+      "learning_rate": 0.000989388231407357,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 42190416,
+      "step": 19510
+    },
+    {
+      "epoch": 3.1835236541598695,
+      "grad_norm": 0.1018163338303566,
+      "learning_rate": 0.000989373639509835,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 42200752,
+      "step": 19515
+    },
+    {
+      "epoch": 3.1843393148450243,
+      "grad_norm": 0.023954367265105247,
+      "learning_rate": 0.0009893590376945354,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 42210352,
+      "step": 19520
+    },
+    {
+      "epoch": 3.1851549755301796,
+      "grad_norm": 0.18598498404026031,
+      "learning_rate": 0.000989344425961754,
+      "loss": 0.2032,
+      "num_input_tokens_seen": 42222256,
+      "step": 19525
+    },
+    {
+      "epoch": 3.1859706362153344,
+      "grad_norm": 0.2285570353269577,
+      "learning_rate": 0.000989329804311787,
+      "loss": 0.1581,
+      "num_input_tokens_seen": 42234320,
+      "step": 19530
+    },
+    {
+      "epoch": 3.186786296900489,
+      "grad_norm": 0.03166361153125763,
+      "learning_rate": 0.000989315172744931,
+      "loss": 0.231,
+      "num_input_tokens_seen": 42244688,
+      "step": 19535
+    },
+    {
+      "epoch": 3.1876019575856445,
+      "grad_norm": 0.253466933965683,
+      "learning_rate": 0.0009893005312614823,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 42254736,
+      "step": 19540
+    },
+    {
+      "epoch": 3.1884176182707993,
+      "grad_norm": 0.016121881082654,
+      "learning_rate": 0.0009892858798617374,
+      "loss": 0.073,
+      "num_input_tokens_seen": 42266992,
+      "step": 19545
+    },
+    {
+      "epoch": 3.189233278955954,
+      "grad_norm": 0.10315223783254623,
+      "learning_rate": 0.0009892712185459935,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 42277968,
+      "step": 19550
+    },
+    {
+      "epoch": 3.1900489396411094,
+      "grad_norm": 0.2475394308567047,
+      "learning_rate": 0.0009892565473145476,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 42289680,
+      "step": 19555
+    },
+    {
+      "epoch": 3.190864600326264,
+      "grad_norm": 0.037393637001514435,
+      "learning_rate": 0.0009892418661676973,
+      "loss": 0.127,
+      "num_input_tokens_seen": 42299696,
+      "step": 19560
+    },
+    {
+      "epoch": 3.1916802610114194,
+      "grad_norm": 0.019417136907577515,
+      "learning_rate": 0.0009892271751057399,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 42309968,
+      "step": 19565
+    },
+    {
+      "epoch": 3.1924959216965743,
+      "grad_norm": 0.23461590707302094,
+      "learning_rate": 0.000989212474128973,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 42319952,
+      "step": 19570
+    },
+    {
+      "epoch": 3.193311582381729,
+      "grad_norm": 0.2393941581249237,
+      "learning_rate": 0.0009891977632376949,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 42330704,
+      "step": 19575
+    },
+    {
+      "epoch": 3.1941272430668843,
+      "grad_norm": 0.11234183609485626,
+      "learning_rate": 0.0009891830424322034,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 42340944,
+      "step": 19580
+    },
+    {
+      "epoch": 3.194942903752039,
+      "grad_norm": 0.00959884561598301,
+      "learning_rate": 0.000989168311712797,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 42351696,
+      "step": 19585
+    },
+    {
+      "epoch": 3.195758564437194,
+      "grad_norm": 0.04411447048187256,
+      "learning_rate": 0.0009891535710797744,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 42363728,
+      "step": 19590
+    },
+    {
+      "epoch": 3.1965742251223492,
+      "grad_norm": 0.1372920125722885,
+      "learning_rate": 0.0009891388205334338,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 42374992,
+      "step": 19595
+    },
+    {
+      "epoch": 3.197389885807504,
+      "grad_norm": 0.0299091674387455,
+      "learning_rate": 0.0009891240600740747,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 42385232,
+      "step": 19600
+    },
+    {
+      "epoch": 3.198205546492659,
+      "grad_norm": 0.012968046590685844,
+      "learning_rate": 0.000989109289701996,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 42396176,
+      "step": 19605
+    },
+    {
+      "epoch": 3.199021207177814,
+      "grad_norm": 0.2268250286579132,
+      "learning_rate": 0.000989094509417497,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 42407632,
+      "step": 19610
+    },
+    {
+      "epoch": 3.199836867862969,
+      "grad_norm": 0.025382978841662407,
+      "learning_rate": 0.0009890797192208774,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 42417776,
+      "step": 19615
+    },
+    {
+      "epoch": 3.200652528548124,
+      "grad_norm": 0.07793654501438141,
+      "learning_rate": 0.0009890649191124368,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 42428400,
+      "step": 19620
+    },
+    {
+      "epoch": 3.201468189233279,
+      "grad_norm": 0.11532403528690338,
+      "learning_rate": 0.000989050109092475,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 42440176,
+      "step": 19625
+    },
+    {
+      "epoch": 3.202283849918434,
+      "grad_norm": 0.15272283554077148,
+      "learning_rate": 0.0009890352891612927,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 42451632,
+      "step": 19630
+    },
+    {
+      "epoch": 3.203099510603589,
+      "grad_norm": 0.06868071109056473,
+      "learning_rate": 0.0009890204593191896,
+      "loss": 0.1599,
+      "num_input_tokens_seen": 42462672,
+      "step": 19635
+    },
+    {
+      "epoch": 3.203915171288744,
+      "grad_norm": 0.17394308745861053,
+      "learning_rate": 0.0009890056195664668,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 42473040,
+      "step": 19640
+    },
+    {
+      "epoch": 3.2047308319738987,
+      "grad_norm": 0.060149114578962326,
+      "learning_rate": 0.0009889907699034246,
+      "loss": 0.045,
+      "num_input_tokens_seen": 42484816,
+      "step": 19645
+    },
+    {
+      "epoch": 3.205546492659054,
+      "grad_norm": 0.015076788142323494,
+      "learning_rate": 0.000988975910330364,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 42495216,
+      "step": 19650
+    },
+    {
+      "epoch": 3.206362153344209,
+      "grad_norm": 0.088878333568573,
+      "learning_rate": 0.0009889610408475864,
+      "loss": 0.19,
+      "num_input_tokens_seen": 42506160,
+      "step": 19655
+    },
+    {
+      "epoch": 3.2071778140293636,
+      "grad_norm": 0.15855666995048523,
+      "learning_rate": 0.000988946161455393,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 42516336,
+      "step": 19660
+    },
+    {
+      "epoch": 3.207993474714519,
+      "grad_norm": 0.02387774921953678,
+      "learning_rate": 0.0009889312721540855,
+      "loss": 0.077,
+      "num_input_tokens_seen": 42525776,
+      "step": 19665
+    },
+    {
+      "epoch": 3.2088091353996737,
+      "grad_norm": 0.05558675155043602,
+      "learning_rate": 0.0009889163729439653,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 42536624,
+      "step": 19670
+    },
+    {
+      "epoch": 3.2096247960848285,
+      "grad_norm": 0.0066003985702991486,
+      "learning_rate": 0.0009889014638253346,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 42547216,
+      "step": 19675
+    },
+    {
+      "epoch": 3.210440456769984,
+      "grad_norm": 0.16620665788650513,
+      "learning_rate": 0.0009888865447984956,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 42557328,
+      "step": 19680
+    },
+    {
+      "epoch": 3.2112561174551386,
+      "grad_norm": 0.05774753913283348,
+      "learning_rate": 0.0009888716158637505,
+      "loss": 0.068,
+      "num_input_tokens_seen": 42568016,
+      "step": 19685
+    },
+    {
+      "epoch": 3.2120717781402934,
+      "grad_norm": 0.02686813473701477,
+      "learning_rate": 0.000988856677021402,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 42580240,
+      "step": 19690
+    },
+    {
+      "epoch": 3.2128874388254487,
+      "grad_norm": 0.018097640946507454,
+      "learning_rate": 0.0009888417282717529,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 42590928,
+      "step": 19695
+    },
+    {
+      "epoch": 3.2137030995106035,
+      "grad_norm": 0.002314778044819832,
+      "learning_rate": 0.000988826769615106,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 42602384,
+      "step": 19700
+    },
+    {
+      "epoch": 3.2145187601957588,
+      "grad_norm": 0.0739186555147171,
+      "learning_rate": 0.0009888118010517642,
+      "loss": 0.2168,
+      "num_input_tokens_seen": 42612240,
+      "step": 19705
+    },
+    {
+      "epoch": 3.2153344208809136,
+      "grad_norm": 0.054093651473522186,
+      "learning_rate": 0.0009887968225820315,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 42624336,
+      "step": 19710
+    },
+    {
+      "epoch": 3.2161500815660684,
+      "grad_norm": 0.07303130626678467,
+      "learning_rate": 0.0009887818342062106,
+      "loss": 0.1457,
+      "num_input_tokens_seen": 42634672,
+      "step": 19715
+    },
+    {
+      "epoch": 3.2169657422512237,
+      "grad_norm": 0.07583710551261902,
+      "learning_rate": 0.0009887668359246063,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 42646032,
+      "step": 19720
+    },
+    {
+      "epoch": 3.2177814029363785,
+      "grad_norm": 0.1961059272289276,
+      "learning_rate": 0.0009887518277375217,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 42656848,
+      "step": 19725
+    },
+    {
+      "epoch": 3.2185970636215333,
+      "grad_norm": 0.01787407509982586,
+      "learning_rate": 0.0009887368096452617,
+      "loss": 0.036,
+      "num_input_tokens_seen": 42666800,
+      "step": 19730
+    },
+    {
+      "epoch": 3.2194127243066886,
+      "grad_norm": 0.1734134703874588,
+      "learning_rate": 0.0009887217816481298,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 42678032,
+      "step": 19735
+    },
+    {
+      "epoch": 3.2202283849918434,
+      "grad_norm": 0.13812491297721863,
+      "learning_rate": 0.0009887067437464312,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 42687984,
+      "step": 19740
+    },
+    {
+      "epoch": 3.221044045676998,
+      "grad_norm": 0.17805027961730957,
+      "learning_rate": 0.0009886916959404703,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 42698896,
+      "step": 19745
+    },
+    {
+      "epoch": 3.2218597063621535,
+      "grad_norm": 0.012442238628864288,
+      "learning_rate": 0.0009886766382305526,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 42709040,
+      "step": 19750
+    },
+    {
+      "epoch": 3.2226753670473083,
+      "grad_norm": 0.2859947085380554,
+      "learning_rate": 0.0009886615706169825,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 42719088,
+      "step": 19755
+    },
+    {
+      "epoch": 3.223491027732463,
+      "grad_norm": 0.037967607378959656,
+      "learning_rate": 0.0009886464931000661,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 42729616,
+      "step": 19760
+    },
+    {
+      "epoch": 3.2243066884176184,
+      "grad_norm": 0.006067187059670687,
+      "learning_rate": 0.0009886314056801084,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 42740592,
+      "step": 19765
+    },
+    {
+      "epoch": 3.225122349102773,
+      "grad_norm": 0.2507992386817932,
+      "learning_rate": 0.0009886163083574154,
+      "loss": 0.1842,
+      "num_input_tokens_seen": 42751376,
+      "step": 19770
+    },
+    {
+      "epoch": 3.225938009787928,
+      "grad_norm": 0.006261878181248903,
+      "learning_rate": 0.000988601201132293,
+      "loss": 0.141,
+      "num_input_tokens_seen": 42763312,
+      "step": 19775
+    },
+    {
+      "epoch": 3.2267536704730833,
+      "grad_norm": 0.004393375013023615,
+      "learning_rate": 0.0009885860840050478,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 42774896,
+      "step": 19780
+    },
+    {
+      "epoch": 3.227569331158238,
+      "grad_norm": 0.041983719915151596,
+      "learning_rate": 0.0009885709569759852,
+      "loss": 0.107,
+      "num_input_tokens_seen": 42786992,
+      "step": 19785
+    },
+    {
+      "epoch": 3.2283849918433933,
+      "grad_norm": 0.03765320032835007,
+      "learning_rate": 0.0009885558200454128,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 42797776,
+      "step": 19790
+    },
+    {
+      "epoch": 3.229200652528548,
+      "grad_norm": 0.06044596806168556,
+      "learning_rate": 0.0009885406732136367,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 42808848,
+      "step": 19795
+    },
+    {
+      "epoch": 3.230016313213703,
+      "grad_norm": 0.1069084033370018,
+      "learning_rate": 0.0009885255164809644,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 42820784,
+      "step": 19800
+    },
+    {
+      "epoch": 3.2308319738988582,
+      "grad_norm": 0.14403347671031952,
+      "learning_rate": 0.0009885103498477026,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 42832208,
+      "step": 19805
+    },
+    {
+      "epoch": 3.231647634584013,
+      "grad_norm": 0.10448440164327621,
+      "learning_rate": 0.0009884951733141586,
+      "loss": 0.2749,
+      "num_input_tokens_seen": 42843312,
+      "step": 19810
+    },
+    {
+      "epoch": 3.232463295269168,
+      "grad_norm": 0.24592241644859314,
+      "learning_rate": 0.0009884799868806406,
+      "loss": 0.1802,
+      "num_input_tokens_seen": 42854736,
+      "step": 19815
+    },
+    {
+      "epoch": 3.233278955954323,
+      "grad_norm": 0.046691689640283585,
+      "learning_rate": 0.000988464790547456,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 42864656,
+      "step": 19820
+    },
+    {
+      "epoch": 3.234094616639478,
+      "grad_norm": 0.053699150681495667,
+      "learning_rate": 0.0009884495843149124,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 42875344,
+      "step": 19825
+    },
+    {
+      "epoch": 3.2349102773246328,
+      "grad_norm": 0.04752179607748985,
+      "learning_rate": 0.0009884343681833185,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 42885712,
+      "step": 19830
+    },
+    {
+      "epoch": 3.235725938009788,
+      "grad_norm": 0.03858195245265961,
+      "learning_rate": 0.0009884191421529825,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 42898352,
+      "step": 19835
+    },
+    {
+      "epoch": 3.236541598694943,
+      "grad_norm": 0.10333125293254852,
+      "learning_rate": 0.000988403906224213,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 42908496,
+      "step": 19840
+    },
+    {
+      "epoch": 3.237357259380098,
+      "grad_norm": 0.18015356361865997,
+      "learning_rate": 0.0009883886603973188,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 42919280,
+      "step": 19845
+    },
+    {
+      "epoch": 3.238172920065253,
+      "grad_norm": 0.07732725888490677,
+      "learning_rate": 0.0009883734046726086,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 42930160,
+      "step": 19850
+    },
+    {
+      "epoch": 3.2389885807504077,
+      "grad_norm": 0.09112097322940826,
+      "learning_rate": 0.0009883581390503922,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 42941616,
+      "step": 19855
+    },
+    {
+      "epoch": 3.239804241435563,
+      "grad_norm": 0.16242296993732452,
+      "learning_rate": 0.0009883428635309784,
+      "loss": 0.1832,
+      "num_input_tokens_seen": 42952240,
+      "step": 19860
+    },
+    {
+      "epoch": 3.240619902120718,
+      "grad_norm": 0.14074952900409698,
+      "learning_rate": 0.0009883275781146768,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 42962672,
+      "step": 19865
+    },
+    {
+      "epoch": 3.2414355628058726,
+      "grad_norm": 0.14547309279441833,
+      "learning_rate": 0.0009883122828017977,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 42974800,
+      "step": 19870
+    },
+    {
+      "epoch": 3.242251223491028,
+      "grad_norm": 0.13024355471134186,
+      "learning_rate": 0.0009882969775926505,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 42985648,
+      "step": 19875
+    },
+    {
+      "epoch": 3.2430668841761827,
+      "grad_norm": 0.022221842780709267,
+      "learning_rate": 0.0009882816624875454,
+      "loss": 0.019,
+      "num_input_tokens_seen": 42995824,
+      "step": 19880
+    },
+    {
+      "epoch": 3.2438825448613375,
+      "grad_norm": 0.04413722828030586,
+      "learning_rate": 0.0009882663374867933,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 43007248,
+      "step": 19885
+    },
+    {
+      "epoch": 3.244698205546493,
+      "grad_norm": 0.022984053939580917,
+      "learning_rate": 0.0009882510025907042,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 43018512,
+      "step": 19890
+    },
+    {
+      "epoch": 3.2455138662316476,
+      "grad_norm": 0.08174191415309906,
+      "learning_rate": 0.0009882356577995894,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 43028368,
+      "step": 19895
+    },
+    {
+      "epoch": 3.2463295269168024,
+      "grad_norm": 0.11336220800876617,
+      "learning_rate": 0.0009882203031137595,
+      "loss": 0.042,
+      "num_input_tokens_seen": 43039120,
+      "step": 19900
+    },
+    {
+      "epoch": 3.2471451876019577,
+      "grad_norm": 0.181237131357193,
+      "learning_rate": 0.000988204938533526,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 43049936,
+      "step": 19905
+    },
+    {
+      "epoch": 3.2479608482871125,
+      "grad_norm": 0.14684025943279266,
+      "learning_rate": 0.0009881895640591997,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 43061808,
+      "step": 19910
+    },
+    {
+      "epoch": 3.2487765089722673,
+      "grad_norm": 0.028737680986523628,
+      "learning_rate": 0.0009881741796910928,
+      "loss": 0.078,
+      "num_input_tokens_seen": 43073456,
+      "step": 19915
+    },
+    {
+      "epoch": 3.2495921696574226,
+      "grad_norm": 0.17885787785053253,
+      "learning_rate": 0.0009881587854295168,
+      "loss": 0.2179,
+      "num_input_tokens_seen": 43084688,
+      "step": 19920
+    },
+    {
+      "epoch": 3.2504078303425774,
+      "grad_norm": 0.038553569465875626,
+      "learning_rate": 0.0009881433812747838,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 43095504,
+      "step": 19925
+    },
+    {
+      "epoch": 3.2512234910277327,
+      "grad_norm": 0.02528173290193081,
+      "learning_rate": 0.000988127967227206,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 43105648,
+      "step": 19930
+    },
+    {
+      "epoch": 3.2520391517128875,
+      "grad_norm": 0.021175552159547806,
+      "learning_rate": 0.0009881125432870956,
+      "loss": 0.1676,
+      "num_input_tokens_seen": 43117264,
+      "step": 19935
+    },
+    {
+      "epoch": 3.2528548123980423,
+      "grad_norm": 0.07172536849975586,
+      "learning_rate": 0.0009880971094547652,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 43128016,
+      "step": 19940
+    },
+    {
+      "epoch": 3.2536704730831976,
+      "grad_norm": 0.14829133450984955,
+      "learning_rate": 0.0009880816657305278,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 43139920,
+      "step": 19945
+    },
+    {
+      "epoch": 3.2544861337683524,
+      "grad_norm": 0.08503178507089615,
+      "learning_rate": 0.0009880662121146964,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 43149808,
+      "step": 19950
+    },
+    {
+      "epoch": 3.255301794453507,
+      "grad_norm": 0.06452854722738266,
+      "learning_rate": 0.0009880507486075838,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 43160944,
+      "step": 19955
+    },
+    {
+      "epoch": 3.2561174551386625,
+      "grad_norm": 0.06388487666845322,
+      "learning_rate": 0.0009880352752095038,
+      "loss": 0.035,
+      "num_input_tokens_seen": 43170032,
+      "step": 19960
+    },
+    {
+      "epoch": 3.2569331158238173,
+      "grad_norm": 0.14313308894634247,
+      "learning_rate": 0.0009880197919207698,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 43179920,
+      "step": 19965
+    },
+    {
+      "epoch": 3.257748776508972,
+      "grad_norm": 0.0758235901594162,
+      "learning_rate": 0.0009880042987416957,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 43190736,
+      "step": 19970
+    },
+    {
+      "epoch": 3.2585644371941274,
+      "grad_norm": 0.0018469083588570356,
+      "learning_rate": 0.0009879887956725953,
+      "loss": 0.3477,
+      "num_input_tokens_seen": 43201648,
+      "step": 19975
+    },
+    {
+      "epoch": 3.259380097879282,
+      "grad_norm": 0.09347787499427795,
+      "learning_rate": 0.0009879732827137828,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 43211984,
+      "step": 19980
+    },
+    {
+      "epoch": 3.2601957585644374,
+      "grad_norm": 0.16566364467144012,
+      "learning_rate": 0.0009879577598655728,
+      "loss": 0.3083,
+      "num_input_tokens_seen": 43223120,
+      "step": 19985
+    },
+    {
+      "epoch": 3.2610114192495923,
+      "grad_norm": 0.10149620473384857,
+      "learning_rate": 0.0009879422271282798,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 43233840,
+      "step": 19990
+    },
+    {
+      "epoch": 3.261827079934747,
+      "grad_norm": 0.07267143577337265,
+      "learning_rate": 0.0009879266845022187,
+      "loss": 0.1318,
+      "num_input_tokens_seen": 43245200,
+      "step": 19995
+    },
+    {
+      "epoch": 3.262642740619902,
+      "grad_norm": 0.1777501404285431,
+      "learning_rate": 0.0009879111319877041,
+      "loss": 0.112,
+      "num_input_tokens_seen": 43256944,
+      "step": 20000
+    },
+    {
+      "epoch": 3.263458401305057,
+      "grad_norm": 0.04019446298480034,
+      "learning_rate": 0.0009878955695850516,
+      "loss": 0.1542,
+      "num_input_tokens_seen": 43268432,
+      "step": 20005
+    },
+    {
+      "epoch": 3.264274061990212,
+      "grad_norm": 0.07024483382701874,
+      "learning_rate": 0.0009878799972945762,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 43279792,
+      "step": 20010
+    },
+    {
+      "epoch": 3.2650897226753672,
+      "grad_norm": 0.11250631511211395,
+      "learning_rate": 0.000987864415116594,
+      "loss": 0.169,
+      "num_input_tokens_seen": 43290288,
+      "step": 20015
+    },
+    {
+      "epoch": 3.265905383360522,
+      "grad_norm": 0.1379203498363495,
+      "learning_rate": 0.0009878488230514206,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 43299920,
+      "step": 20020
+    },
+    {
+      "epoch": 3.266721044045677,
+      "grad_norm": 0.17190445959568024,
+      "learning_rate": 0.0009878332210993717,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 43311248,
+      "step": 20025
+    },
+    {
+      "epoch": 3.267536704730832,
+      "grad_norm": 0.28690385818481445,
+      "learning_rate": 0.0009878176092607638,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 43320976,
+      "step": 20030
+    },
+    {
+      "epoch": 3.268352365415987,
+      "grad_norm": 0.08246587961912155,
+      "learning_rate": 0.0009878019875359132,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 43331440,
+      "step": 20035
+    },
+    {
+      "epoch": 3.2691680261011418,
+      "grad_norm": 0.039607934653759,
+      "learning_rate": 0.0009877863559251366,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 43343024,
+      "step": 20040
+    },
+    {
+      "epoch": 3.269983686786297,
+      "grad_norm": 0.017975594848394394,
+      "learning_rate": 0.0009877707144287505,
+      "loss": 0.0499,
+      "num_input_tokens_seen": 43353840,
+      "step": 20045
+    },
+    {
+      "epoch": 3.270799347471452,
+      "grad_norm": 0.0691947340965271,
+      "learning_rate": 0.0009877550630470722,
+      "loss": 0.049,
+      "num_input_tokens_seen": 43364656,
+      "step": 20050
+    },
+    {
+      "epoch": 3.2716150081566067,
+      "grad_norm": 0.3025503158569336,
+      "learning_rate": 0.000987739401780419,
+      "loss": 0.24,
+      "num_input_tokens_seen": 43375920,
+      "step": 20055
+    },
+    {
+      "epoch": 3.272430668841762,
+      "grad_norm": 0.022506562992930412,
+      "learning_rate": 0.0009877237306291076,
+      "loss": 0.155,
+      "num_input_tokens_seen": 43386608,
+      "step": 20060
+    },
+    {
+      "epoch": 3.2732463295269167,
+      "grad_norm": 0.12372944504022598,
+      "learning_rate": 0.0009877080495934564,
+      "loss": 0.0375,
+      "num_input_tokens_seen": 43397840,
+      "step": 20065
+    },
+    {
+      "epoch": 3.274061990212072,
+      "grad_norm": 0.03336038067936897,
+      "learning_rate": 0.0009876923586737828,
+      "loss": 0.1941,
+      "num_input_tokens_seen": 43409136,
+      "step": 20070
+    },
+    {
+      "epoch": 3.274877650897227,
+      "grad_norm": 0.05050639435648918,
+      "learning_rate": 0.000987676657870405,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 43418864,
+      "step": 20075
+    },
+    {
+      "epoch": 3.2756933115823816,
+      "grad_norm": 0.0558999739587307,
+      "learning_rate": 0.0009876609471836408,
+      "loss": 0.1609,
+      "num_input_tokens_seen": 43430032,
+      "step": 20080
+    },
+    {
+      "epoch": 3.2765089722675365,
+      "grad_norm": 0.02081811986863613,
+      "learning_rate": 0.000987645226613809,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 43441712,
+      "step": 20085
+    },
+    {
+      "epoch": 3.2773246329526917,
+      "grad_norm": 0.09108427911996841,
+      "learning_rate": 0.0009876294961612283,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 43453200,
+      "step": 20090
+    },
+    {
+      "epoch": 3.2781402936378465,
+      "grad_norm": 0.059019628912210464,
+      "learning_rate": 0.0009876137558262168,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 43464368,
+      "step": 20095
+    },
+    {
+      "epoch": 3.278955954323002,
+      "grad_norm": 0.049325328320264816,
+      "learning_rate": 0.0009875980056090943,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 43475280,
+      "step": 20100
+    },
+    {
+      "epoch": 3.2797716150081566,
+      "grad_norm": 0.12276256829500198,
+      "learning_rate": 0.0009875822455101795,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 43485904,
+      "step": 20105
+    },
+    {
+      "epoch": 3.2805872756933114,
+      "grad_norm": 0.2100994735956192,
+      "learning_rate": 0.000987566475529792,
+      "loss": 0.123,
+      "num_input_tokens_seen": 43496720,
+      "step": 20110
+    },
+    {
+      "epoch": 3.2814029363784667,
+      "grad_norm": 0.018480392172932625,
+      "learning_rate": 0.0009875506956682513,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 43508080,
+      "step": 20115
+    },
+    {
+      "epoch": 3.2822185970636215,
+      "grad_norm": 0.06958062946796417,
+      "learning_rate": 0.0009875349059258773,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 43519280,
+      "step": 20120
+    },
+    {
+      "epoch": 3.2830342577487763,
+      "grad_norm": 0.22425442934036255,
+      "learning_rate": 0.00098751910630299,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 43529552,
+      "step": 20125
+    },
+    {
+      "epoch": 3.2838499184339316,
+      "grad_norm": 0.014040003530681133,
+      "learning_rate": 0.0009875032967999096,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 43541008,
+      "step": 20130
+    },
+    {
+      "epoch": 3.2846655791190864,
+      "grad_norm": 0.2088811844587326,
+      "learning_rate": 0.0009874874774169562,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 43551152,
+      "step": 20135
+    },
+    {
+      "epoch": 3.2854812398042412,
+      "grad_norm": 0.1166122779250145,
+      "learning_rate": 0.0009874716481544509,
+      "loss": 0.226,
+      "num_input_tokens_seen": 43562672,
+      "step": 20140
+    },
+    {
+      "epoch": 3.2862969004893965,
+      "grad_norm": 0.1853681206703186,
+      "learning_rate": 0.0009874558090127142,
+      "loss": 0.1362,
+      "num_input_tokens_seen": 43572944,
+      "step": 20145
+    },
+    {
+      "epoch": 3.2871125611745513,
+      "grad_norm": 0.07401765882968903,
+      "learning_rate": 0.0009874399599920669,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 43585072,
+      "step": 20150
+    },
+    {
+      "epoch": 3.2879282218597066,
+      "grad_norm": 0.04394443705677986,
+      "learning_rate": 0.0009874241010928307,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 43595920,
+      "step": 20155
+    },
+    {
+      "epoch": 3.2887438825448614,
+      "grad_norm": 0.10552657395601273,
+      "learning_rate": 0.0009874082323153266,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 43605232,
+      "step": 20160
+    },
+    {
+      "epoch": 3.289559543230016,
+      "grad_norm": 0.041619252413511276,
+      "learning_rate": 0.0009873923536598765,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 43616624,
+      "step": 20165
+    },
+    {
+      "epoch": 3.2903752039151715,
+      "grad_norm": 0.16440622508525848,
+      "learning_rate": 0.000987376465126802,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 43627504,
+      "step": 20170
+    },
+    {
+      "epoch": 3.2911908646003263,
+      "grad_norm": 0.016031792387366295,
+      "learning_rate": 0.0009873605667164252,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 43637776,
+      "step": 20175
+    },
+    {
+      "epoch": 3.292006525285481,
+      "grad_norm": 0.24192920327186584,
+      "learning_rate": 0.0009873446584290682,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 43648784,
+      "step": 20180
+    },
+    {
+      "epoch": 3.2928221859706364,
+      "grad_norm": 0.01155361719429493,
+      "learning_rate": 0.0009873287402650535,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 43658800,
+      "step": 20185
+    },
+    {
+      "epoch": 3.293637846655791,
+      "grad_norm": 0.017669612541794777,
+      "learning_rate": 0.0009873128122247035,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 43669936,
+      "step": 20190
+    },
+    {
+      "epoch": 3.294453507340946,
+      "grad_norm": 0.04354847967624664,
+      "learning_rate": 0.0009872968743083414,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 43680976,
+      "step": 20195
+    },
+    {
+      "epoch": 3.2952691680261013,
+      "grad_norm": 0.05074286088347435,
+      "learning_rate": 0.0009872809265162898,
+      "loss": 0.1438,
+      "num_input_tokens_seen": 43692112,
+      "step": 20200
+    },
+    {
+      "epoch": 3.296084828711256,
+      "grad_norm": 0.024301722645759583,
+      "learning_rate": 0.000987264968848872,
+      "loss": 0.1897,
+      "num_input_tokens_seen": 43702224,
+      "step": 20205
+    },
+    {
+      "epoch": 3.2969004893964113,
+      "grad_norm": 0.11771446466445923,
+      "learning_rate": 0.0009872490013064117,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 43712720,
+      "step": 20210
+    },
+    {
+      "epoch": 3.297716150081566,
+      "grad_norm": 0.07622315734624863,
+      "learning_rate": 0.000987233023889232,
+      "loss": 0.2055,
+      "num_input_tokens_seen": 43724176,
+      "step": 20215
+    },
+    {
+      "epoch": 3.298531810766721,
+      "grad_norm": 0.06392424553632736,
+      "learning_rate": 0.000987217036597657,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 43734032,
+      "step": 20220
+    },
+    {
+      "epoch": 3.299347471451876,
+      "grad_norm": 0.10581985116004944,
+      "learning_rate": 0.000987201039432011,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 43744304,
+      "step": 20225
+    },
+    {
+      "epoch": 3.300163132137031,
+      "grad_norm": 0.012859735637903214,
+      "learning_rate": 0.0009871850323926177,
+      "loss": 0.115,
+      "num_input_tokens_seen": 43755888,
+      "step": 20230
+    },
+    {
+      "epoch": 3.300978792822186,
+      "grad_norm": 0.03773471340537071,
+      "learning_rate": 0.0009871690154798017,
+      "loss": 0.1641,
+      "num_input_tokens_seen": 43767056,
+      "step": 20235
+    },
+    {
+      "epoch": 3.301794453507341,
+      "grad_norm": 0.03229673206806183,
+      "learning_rate": 0.0009871529886938874,
+      "loss": 0.15,
+      "num_input_tokens_seen": 43778480,
+      "step": 20240
+    },
+    {
+      "epoch": 3.302610114192496,
+      "grad_norm": 0.11208148300647736,
+      "learning_rate": 0.0009871369520352,
+      "loss": 0.093,
+      "num_input_tokens_seen": 43788624,
+      "step": 20245
+    },
+    {
+      "epoch": 3.3034257748776508,
+      "grad_norm": 0.07075408846139908,
+      "learning_rate": 0.0009871209055040643,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 43799216,
+      "step": 20250
+    },
+    {
+      "epoch": 3.304241435562806,
+      "grad_norm": 0.008634911850094795,
+      "learning_rate": 0.0009871048491008052,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 43810480,
+      "step": 20255
+    },
+    {
+      "epoch": 3.305057096247961,
+      "grad_norm": 0.028035888448357582,
+      "learning_rate": 0.0009870887828257486,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 43820688,
+      "step": 20260
+    },
+    {
+      "epoch": 3.3058727569331157,
+      "grad_norm": 0.05893208459019661,
+      "learning_rate": 0.00098707270667922,
+      "loss": 0.1905,
+      "num_input_tokens_seen": 43830256,
+      "step": 20265
+    },
+    {
+      "epoch": 3.306688417618271,
+      "grad_norm": 0.11259466409683228,
+      "learning_rate": 0.000987056620661545,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 43841360,
+      "step": 20270
+    },
+    {
+      "epoch": 3.3075040783034257,
+      "grad_norm": 0.23528766632080078,
+      "learning_rate": 0.0009870405247730497,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 43852848,
+      "step": 20275
+    },
+    {
+      "epoch": 3.3083197389885806,
+      "grad_norm": 0.0631113052368164,
+      "learning_rate": 0.0009870244190140602,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 43863600,
+      "step": 20280
+    },
+    {
+      "epoch": 3.309135399673736,
+      "grad_norm": 0.018527382984757423,
+      "learning_rate": 0.000987008303384903,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 43874512,
+      "step": 20285
+    },
+    {
+      "epoch": 3.3099510603588906,
+      "grad_norm": 0.07803243398666382,
+      "learning_rate": 0.000986992177885905,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 43885808,
+      "step": 20290
+    },
+    {
+      "epoch": 3.310766721044046,
+      "grad_norm": 0.054975420236587524,
+      "learning_rate": 0.0009869760425173927,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 43896816,
+      "step": 20295
+    },
+    {
+      "epoch": 3.3115823817292007,
+      "grad_norm": 0.0050786943174898624,
+      "learning_rate": 0.000986959897279693,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 43908368,
+      "step": 20300
+    },
+    {
+      "epoch": 3.3123980424143555,
+      "grad_norm": 0.2176738679409027,
+      "learning_rate": 0.0009869437421731332,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 43918992,
+      "step": 20305
+    },
+    {
+      "epoch": 3.3132137030995104,
+      "grad_norm": 0.1001739352941513,
+      "learning_rate": 0.0009869275771980405,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 43930256,
+      "step": 20310
+    },
+    {
+      "epoch": 3.3140293637846656,
+      "grad_norm": 0.14070114493370056,
+      "learning_rate": 0.000986911402354743,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 43941168,
+      "step": 20315
+    },
+    {
+      "epoch": 3.3148450244698204,
+      "grad_norm": 0.1104494109749794,
+      "learning_rate": 0.0009868952176435683,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 43952368,
+      "step": 20320
+    },
+    {
+      "epoch": 3.3156606851549757,
+      "grad_norm": 0.02809176966547966,
+      "learning_rate": 0.0009868790230648443,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 43963632,
+      "step": 20325
+    },
+    {
+      "epoch": 3.3164763458401305,
+      "grad_norm": 0.0439760759472847,
+      "learning_rate": 0.0009868628186188993,
+      "loss": 0.091,
+      "num_input_tokens_seen": 43975024,
+      "step": 20330
+    },
+    {
+      "epoch": 3.3172920065252853,
+      "grad_norm": 0.012558380141854286,
+      "learning_rate": 0.0009868466043060616,
+      "loss": 0.0471,
+      "num_input_tokens_seen": 43986608,
+      "step": 20335
+    },
+    {
+      "epoch": 3.3181076672104406,
+      "grad_norm": 0.016795523464679718,
+      "learning_rate": 0.00098683038012666,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 43997968,
+      "step": 20340
+    },
+    {
+      "epoch": 3.3189233278955954,
+      "grad_norm": 0.05473247915506363,
+      "learning_rate": 0.0009868141460810226,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 44010032,
+      "step": 20345
+    },
+    {
+      "epoch": 3.3197389885807502,
+      "grad_norm": 0.03609495982527733,
+      "learning_rate": 0.0009867979021694795,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 44021104,
+      "step": 20350
+    },
+    {
+      "epoch": 3.3205546492659055,
+      "grad_norm": 0.101466603577137,
+      "learning_rate": 0.0009867816483923593,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 44031952,
+      "step": 20355
+    },
+    {
+      "epoch": 3.3213703099510603,
+      "grad_norm": 0.34413954615592957,
+      "learning_rate": 0.0009867653847499913,
+      "loss": 0.1781,
+      "num_input_tokens_seen": 44042704,
+      "step": 20360
+    },
+    {
+      "epoch": 3.322185970636215,
+      "grad_norm": 0.04273676499724388,
+      "learning_rate": 0.0009867491112427055,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 44052592,
+      "step": 20365
+    },
+    {
+      "epoch": 3.3230016313213704,
+      "grad_norm": 0.35218381881713867,
+      "learning_rate": 0.0009867328278708313,
+      "loss": 0.276,
+      "num_input_tokens_seen": 44065328,
+      "step": 20370
+    },
+    {
+      "epoch": 3.323817292006525,
+      "grad_norm": 0.229897141456604,
+      "learning_rate": 0.0009867165346346988,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 44077552,
+      "step": 20375
+    },
+    {
+      "epoch": 3.3246329526916805,
+      "grad_norm": 0.04176846519112587,
+      "learning_rate": 0.0009867002315346383,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 44088752,
+      "step": 20380
+    },
+    {
+      "epoch": 3.3254486133768353,
+      "grad_norm": 0.17083647847175598,
+      "learning_rate": 0.0009866839185709805,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 44099376,
+      "step": 20385
+    },
+    {
+      "epoch": 3.32626427406199,
+      "grad_norm": 0.1816277652978897,
+      "learning_rate": 0.0009866675957440553,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 44109488,
+      "step": 20390
+    },
+    {
+      "epoch": 3.3270799347471454,
+      "grad_norm": 0.06937110424041748,
+      "learning_rate": 0.0009866512630541942,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 44119568,
+      "step": 20395
+    },
+    {
+      "epoch": 3.3278955954323,
+      "grad_norm": 0.1718575358390808,
+      "learning_rate": 0.0009866349205017277,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 44130000,
+      "step": 20400
+    },
+    {
+      "epoch": 3.328711256117455,
+      "grad_norm": 0.1907864212989807,
+      "learning_rate": 0.0009866185680869873,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 44140208,
+      "step": 20405
+    },
+    {
+      "epoch": 3.3295269168026103,
+      "grad_norm": 0.01826365478336811,
+      "learning_rate": 0.0009866022058103042,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 44150160,
+      "step": 20410
+    },
+    {
+      "epoch": 3.330342577487765,
+      "grad_norm": 0.018938470631837845,
+      "learning_rate": 0.0009865858336720102,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 44161008,
+      "step": 20415
+    },
+    {
+      "epoch": 3.33115823817292,
+      "grad_norm": 0.1174740418791771,
+      "learning_rate": 0.000986569451672437,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 44170768,
+      "step": 20420
+    },
+    {
+      "epoch": 3.331973898858075,
+      "grad_norm": 0.24229373037815094,
+      "learning_rate": 0.0009865530598119163,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 44180080,
+      "step": 20425
+    },
+    {
+      "epoch": 3.33278955954323,
+      "grad_norm": 0.00437184190377593,
+      "learning_rate": 0.000986536658090781,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 44191216,
+      "step": 20430
+    },
+    {
+      "epoch": 3.3336052202283852,
+      "grad_norm": 0.035282671451568604,
+      "learning_rate": 0.0009865202465093631,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 44201584,
+      "step": 20435
+    },
+    {
+      "epoch": 3.33442088091354,
+      "grad_norm": 0.0404328852891922,
+      "learning_rate": 0.000986503825067995,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 44213840,
+      "step": 20440
+    },
+    {
+      "epoch": 3.335236541598695,
+      "grad_norm": 0.1707407385110855,
+      "learning_rate": 0.0009864873937670098,
+      "loss": 0.145,
+      "num_input_tokens_seen": 44224944,
+      "step": 20445
+    },
+    {
+      "epoch": 3.3360522022838497,
+      "grad_norm": 0.0483018197119236,
+      "learning_rate": 0.0009864709526067404,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 44235536,
+      "step": 20450
+    },
+    {
+      "epoch": 3.336867862969005,
+      "grad_norm": 0.069381944835186,
+      "learning_rate": 0.0009864545015875199,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 44245776,
+      "step": 20455
+    },
+    {
+      "epoch": 3.3376835236541598,
+      "grad_norm": 0.012071680277585983,
+      "learning_rate": 0.000986438040709682,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 44255472,
+      "step": 20460
+    },
+    {
+      "epoch": 3.338499184339315,
+      "grad_norm": 0.2652641534805298,
+      "learning_rate": 0.00098642156997356,
+      "loss": 0.2206,
+      "num_input_tokens_seen": 44266000,
+      "step": 20465
+    },
+    {
+      "epoch": 3.33931484502447,
+      "grad_norm": 0.04244496300816536,
+      "learning_rate": 0.0009864050893794878,
+      "loss": 0.2189,
+      "num_input_tokens_seen": 44276624,
+      "step": 20470
+    },
+    {
+      "epoch": 3.3401305057096247,
+      "grad_norm": 0.11729129403829575,
+      "learning_rate": 0.0009863885989277994,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 44287472,
+      "step": 20475
+    },
+    {
+      "epoch": 3.34094616639478,
+      "grad_norm": 0.04826750606298447,
+      "learning_rate": 0.0009863720986188291,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 44296944,
+      "step": 20480
+    },
+    {
+      "epoch": 3.3417618270799347,
+      "grad_norm": 0.2376585453748703,
+      "learning_rate": 0.0009863555884529114,
+      "loss": 0.1758,
+      "num_input_tokens_seen": 44307952,
+      "step": 20485
+    },
+    {
+      "epoch": 3.3425774877650896,
+      "grad_norm": 0.08156166970729828,
+      "learning_rate": 0.0009863390684303804,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 44318640,
+      "step": 20490
+    },
+    {
+      "epoch": 3.343393148450245,
+      "grad_norm": 0.12889395654201508,
+      "learning_rate": 0.0009863225385515714,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 44329008,
+      "step": 20495
+    },
+    {
+      "epoch": 3.3442088091353996,
+      "grad_norm": 0.0919957235455513,
+      "learning_rate": 0.000986305998816819,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 44340304,
+      "step": 20500
+    },
+    {
+      "epoch": 3.3450244698205545,
+      "grad_norm": 0.1220528781414032,
+      "learning_rate": 0.000986289449226459,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 44351664,
+      "step": 20505
+    },
+    {
+      "epoch": 3.3458401305057097,
+      "grad_norm": 0.020937541499733925,
+      "learning_rate": 0.000986272889780826,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 44362448,
+      "step": 20510
+    },
+    {
+      "epoch": 3.3466557911908645,
+      "grad_norm": 0.01079709641635418,
+      "learning_rate": 0.000986256320480256,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 44373712,
+      "step": 20515
+    },
+    {
+      "epoch": 3.34747145187602,
+      "grad_norm": 0.09133608639240265,
+      "learning_rate": 0.0009862397413250852,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 44384496,
+      "step": 20520
+    },
+    {
+      "epoch": 3.3482871125611746,
+      "grad_norm": 0.11672952771186829,
+      "learning_rate": 0.0009862231523156489,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 44395952,
+      "step": 20525
+    },
+    {
+      "epoch": 3.3491027732463294,
+      "grad_norm": 0.08248498290777206,
+      "learning_rate": 0.0009862065534522837,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 44407792,
+      "step": 20530
+    },
+    {
+      "epoch": 3.3499184339314847,
+      "grad_norm": 0.08188489824533463,
+      "learning_rate": 0.000986189944735326,
+      "loss": 0.1545,
+      "num_input_tokens_seen": 44419568,
+      "step": 20535
+    },
+    {
+      "epoch": 3.3507340946166395,
+      "grad_norm": 0.08767145872116089,
+      "learning_rate": 0.000986173326165112,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 44429872,
+      "step": 20540
+    },
+    {
+      "epoch": 3.3515497553017943,
+      "grad_norm": 0.21928314864635468,
+      "learning_rate": 0.000986156697741979,
+      "loss": 0.3474,
+      "num_input_tokens_seen": 44442160,
+      "step": 20545
+    },
+    {
+      "epoch": 3.3523654159869496,
+      "grad_norm": 0.01372506469488144,
+      "learning_rate": 0.0009861400594662637,
+      "loss": 0.2471,
+      "num_input_tokens_seen": 44452336,
+      "step": 20550
+    },
+    {
+      "epoch": 3.3531810766721044,
+      "grad_norm": 0.1195288896560669,
+      "learning_rate": 0.0009861234113383035,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 44464112,
+      "step": 20555
+    },
+    {
+      "epoch": 3.3539967373572592,
+      "grad_norm": 0.01491206232458353,
+      "learning_rate": 0.0009861067533584356,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 44475024,
+      "step": 20560
+    },
+    {
+      "epoch": 3.3548123980424145,
+      "grad_norm": 0.02331310696899891,
+      "learning_rate": 0.0009860900855269976,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 44486128,
+      "step": 20565
+    },
+    {
+      "epoch": 3.3556280587275693,
+      "grad_norm": 0.10006996989250183,
+      "learning_rate": 0.0009860734078443276,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 44495568,
+      "step": 20570
+    },
+    {
+      "epoch": 3.356443719412724,
+      "grad_norm": 0.06204470619559288,
+      "learning_rate": 0.0009860567203107632,
+      "loss": 0.1667,
+      "num_input_tokens_seen": 44506064,
+      "step": 20575
+    },
+    {
+      "epoch": 3.3572593800978794,
+      "grad_norm": 0.029366256669163704,
+      "learning_rate": 0.0009860400229266427,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 44517808,
+      "step": 20580
+    },
+    {
+      "epoch": 3.358075040783034,
+      "grad_norm": 0.04264573007822037,
+      "learning_rate": 0.0009860233156923047,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 44529104,
+      "step": 20585
+    },
+    {
+      "epoch": 3.358890701468189,
+      "grad_norm": 0.056957364082336426,
+      "learning_rate": 0.0009860065986080876,
+      "loss": 0.195,
+      "num_input_tokens_seen": 44540432,
+      "step": 20590
+    },
+    {
+      "epoch": 3.3597063621533443,
+      "grad_norm": 0.06419949233531952,
+      "learning_rate": 0.00098598987167433,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 44550128,
+      "step": 20595
+    },
+    {
+      "epoch": 3.360522022838499,
+      "grad_norm": 0.11103334277868271,
+      "learning_rate": 0.0009859731348913713,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 44560880,
+      "step": 20600
+    },
+    {
+      "epoch": 3.3613376835236544,
+      "grad_norm": 0.054705556482076645,
+      "learning_rate": 0.0009859563882595507,
+      "loss": 0.1947,
+      "num_input_tokens_seen": 44571216,
+      "step": 20605
+    },
+    {
+      "epoch": 3.362153344208809,
+      "grad_norm": 0.16497164964675903,
+      "learning_rate": 0.0009859396317792074,
+      "loss": 0.2826,
+      "num_input_tokens_seen": 44581776,
+      "step": 20610
+    },
+    {
+      "epoch": 3.362969004893964,
+      "grad_norm": 0.016342537477612495,
+      "learning_rate": 0.0009859228654506807,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 44591600,
+      "step": 20615
+    },
+    {
+      "epoch": 3.3637846655791193,
+      "grad_norm": 0.029464807361364365,
+      "learning_rate": 0.0009859060892743108,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 44602544,
+      "step": 20620
+    },
+    {
+      "epoch": 3.364600326264274,
+      "grad_norm": 0.15060758590698242,
+      "learning_rate": 0.0009858893032504378,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 44613584,
+      "step": 20625
+    },
+    {
+      "epoch": 3.365415986949429,
+      "grad_norm": 0.014383463189005852,
+      "learning_rate": 0.0009858725073794016,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 44623248,
+      "step": 20630
+    },
+    {
+      "epoch": 3.366231647634584,
+      "grad_norm": 0.020124254748225212,
+      "learning_rate": 0.0009858557016615423,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 44633232,
+      "step": 20635
+    },
+    {
+      "epoch": 3.367047308319739,
+      "grad_norm": 0.16115230321884155,
+      "learning_rate": 0.0009858388860972012,
+      "loss": 0.1436,
+      "num_input_tokens_seen": 44644016,
+      "step": 20640
+    },
+    {
+      "epoch": 3.367862969004894,
+      "grad_norm": 0.013520710170269012,
+      "learning_rate": 0.0009858220606867188,
+      "loss": 0.022,
+      "num_input_tokens_seen": 44654672,
+      "step": 20645
+    },
+    {
+      "epoch": 3.368678629690049,
+      "grad_norm": 0.009846985340118408,
+      "learning_rate": 0.000985805225430436,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 44666768,
+      "step": 20650
+    },
+    {
+      "epoch": 3.369494290375204,
+      "grad_norm": 0.089094378054142,
+      "learning_rate": 0.0009857883803286937,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 44677520,
+      "step": 20655
+    },
+    {
+      "epoch": 3.370309951060359,
+      "grad_norm": 0.1536937952041626,
+      "learning_rate": 0.0009857715253818338,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 44688080,
+      "step": 20660
+    },
+    {
+      "epoch": 3.371125611745514,
+      "grad_norm": 0.07965698093175888,
+      "learning_rate": 0.000985754660590198,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 44698288,
+      "step": 20665
+    },
+    {
+      "epoch": 3.3719412724306688,
+      "grad_norm": 0.028182541951537132,
+      "learning_rate": 0.0009857377859541275,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 44710160,
+      "step": 20670
+    },
+    {
+      "epoch": 3.3727569331158236,
+      "grad_norm": 0.10902436077594757,
+      "learning_rate": 0.0009857209014739645,
+      "loss": 0.0584,
+      "num_input_tokens_seen": 44720592,
+      "step": 20675
+    },
+    {
+      "epoch": 3.373572593800979,
+      "grad_norm": 0.07185492664575577,
+      "learning_rate": 0.0009857040071500512,
+      "loss": 0.171,
+      "num_input_tokens_seen": 44731024,
+      "step": 20680
+    },
+    {
+      "epoch": 3.3743882544861337,
+      "grad_norm": 0.051205482333898544,
+      "learning_rate": 0.0009856871029827303,
+      "loss": 0.1979,
+      "num_input_tokens_seen": 44742352,
+      "step": 20685
+    },
+    {
+      "epoch": 3.375203915171289,
+      "grad_norm": 0.02235202118754387,
+      "learning_rate": 0.0009856701889723438,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 44751856,
+      "step": 20690
+    },
+    {
+      "epoch": 3.3760195758564437,
+      "grad_norm": 0.10820963233709335,
+      "learning_rate": 0.0009856532651192351,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 44763728,
+      "step": 20695
+    },
+    {
+      "epoch": 3.3768352365415986,
+      "grad_norm": 0.11374247819185257,
+      "learning_rate": 0.0009856363314237468,
+      "loss": 0.1476,
+      "num_input_tokens_seen": 44775440,
+      "step": 20700
+    },
+    {
+      "epoch": 3.377650897226754,
+      "grad_norm": 0.014920140616595745,
+      "learning_rate": 0.0009856193878862221,
+      "loss": 0.1563,
+      "num_input_tokens_seen": 44787472,
+      "step": 20705
+    },
+    {
+      "epoch": 3.3784665579119086,
+      "grad_norm": 0.1235361248254776,
+      "learning_rate": 0.0009856024345070045,
+      "loss": 0.158,
+      "num_input_tokens_seen": 44799056,
+      "step": 20710
+    },
+    {
+      "epoch": 3.3792822185970635,
+      "grad_norm": 0.00849025510251522,
+      "learning_rate": 0.0009855854712864376,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 44810672,
+      "step": 20715
+    },
+    {
+      "epoch": 3.3800978792822187,
+      "grad_norm": 0.2491769641637802,
+      "learning_rate": 0.000985568498224865,
+      "loss": 0.246,
+      "num_input_tokens_seen": 44822224,
+      "step": 20720
+    },
+    {
+      "epoch": 3.3809135399673735,
+      "grad_norm": 0.03148525208234787,
+      "learning_rate": 0.0009855515153226308,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 44832496,
+      "step": 20725
+    },
+    {
+      "epoch": 3.3817292006525284,
+      "grad_norm": 0.17702309787273407,
+      "learning_rate": 0.0009855345225800792,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 44840464,
+      "step": 20730
+    },
+    {
+      "epoch": 3.3825448613376836,
+      "grad_norm": 0.11792438477277756,
+      "learning_rate": 0.0009855175199975546,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 44850768,
+      "step": 20735
+    },
+    {
+      "epoch": 3.3833605220228384,
+      "grad_norm": 0.046677011996507645,
+      "learning_rate": 0.0009855005075754015,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 44861904,
+      "step": 20740
+    },
+    {
+      "epoch": 3.3841761827079937,
+      "grad_norm": 0.09238780289888382,
+      "learning_rate": 0.0009854834853139647,
+      "loss": 0.2265,
+      "num_input_tokens_seen": 44871984,
+      "step": 20745
+    },
+    {
+      "epoch": 3.3849918433931485,
+      "grad_norm": 0.09034372121095657,
+      "learning_rate": 0.0009854664532135892,
+      "loss": 0.226,
+      "num_input_tokens_seen": 44882960,
+      "step": 20750
+    },
+    {
+      "epoch": 3.3858075040783033,
+      "grad_norm": 0.16702663898468018,
+      "learning_rate": 0.0009854494112746203,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 44894640,
+      "step": 20755
+    },
+    {
+      "epoch": 3.3866231647634586,
+      "grad_norm": 0.055394161492586136,
+      "learning_rate": 0.000985432359497403,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 44906128,
+      "step": 20760
+    },
+    {
+      "epoch": 3.3874388254486134,
+      "grad_norm": 0.013766895048320293,
+      "learning_rate": 0.0009854152978822834,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 44915824,
+      "step": 20765
+    },
+    {
+      "epoch": 3.3882544861337682,
+      "grad_norm": 0.2671952545642853,
+      "learning_rate": 0.0009853982264296068,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 44925840,
+      "step": 20770
+    },
+    {
+      "epoch": 3.3890701468189235,
+      "grad_norm": 0.012830116786062717,
+      "learning_rate": 0.0009853811451397195,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 44936592,
+      "step": 20775
+    },
+    {
+      "epoch": 3.3898858075040783,
+      "grad_norm": 0.01821967586874962,
+      "learning_rate": 0.0009853640540129674,
+      "loss": 0.205,
+      "num_input_tokens_seen": 44947600,
+      "step": 20780
+    },
+    {
+      "epoch": 3.390701468189233,
+      "grad_norm": 0.11865301430225372,
+      "learning_rate": 0.0009853469530496971,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 44957968,
+      "step": 20785
+    },
+    {
+      "epoch": 3.3915171288743884,
+      "grad_norm": 0.21843115985393524,
+      "learning_rate": 0.000985329842250255,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 44970032,
+      "step": 20790
+    },
+    {
+      "epoch": 3.392332789559543,
+      "grad_norm": 0.004521653056144714,
+      "learning_rate": 0.000985312721614988,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 44980400,
+      "step": 20795
+    },
+    {
+      "epoch": 3.393148450244698,
+      "grad_norm": 0.17764700949192047,
+      "learning_rate": 0.0009852955911442431,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 44990480,
+      "step": 20800
+    },
+    {
+      "epoch": 3.3939641109298533,
+      "grad_norm": 0.04476391151547432,
+      "learning_rate": 0.0009852784508383673,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 45001584,
+      "step": 20805
+    },
+    {
+      "epoch": 3.394779771615008,
+      "grad_norm": 0.32288724184036255,
+      "learning_rate": 0.0009852613006977081,
+      "loss": 0.2153,
+      "num_input_tokens_seen": 45012720,
+      "step": 20810
+    },
+    {
+      "epoch": 3.395595432300163,
+      "grad_norm": 0.012930216267704964,
+      "learning_rate": 0.0009852441407226132,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 45022832,
+      "step": 20815
+    },
+    {
+      "epoch": 3.396411092985318,
+      "grad_norm": 0.09052237868309021,
+      "learning_rate": 0.00098522697091343,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 45033648,
+      "step": 20820
+    },
+    {
+      "epoch": 3.397226753670473,
+      "grad_norm": 0.02524031139910221,
+      "learning_rate": 0.0009852097912705067,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 45044592,
+      "step": 20825
+    },
+    {
+      "epoch": 3.3980424143556283,
+      "grad_norm": 0.015985824167728424,
+      "learning_rate": 0.0009851926017941917,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 45055056,
+      "step": 20830
+    },
+    {
+      "epoch": 3.398858075040783,
+      "grad_norm": 0.023439688608050346,
+      "learning_rate": 0.0009851754024848328,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 45065840,
+      "step": 20835
+    },
+    {
+      "epoch": 3.399673735725938,
+      "grad_norm": 0.07412150502204895,
+      "learning_rate": 0.0009851581933427792,
+      "loss": 0.186,
+      "num_input_tokens_seen": 45077200,
+      "step": 20840
+    },
+    {
+      "epoch": 3.400489396411093,
+      "grad_norm": 0.01010909117758274,
+      "learning_rate": 0.000985140974368379,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 45088432,
+      "step": 20845
+    },
+    {
+      "epoch": 3.401305057096248,
+      "grad_norm": 0.0620625801384449,
+      "learning_rate": 0.0009851237455619818,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 45099248,
+      "step": 20850
+    },
+    {
+      "epoch": 3.402120717781403,
+      "grad_norm": 0.054616160690784454,
+      "learning_rate": 0.0009851065069239361,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 45109968,
+      "step": 20855
+    },
+    {
+      "epoch": 3.402936378466558,
+      "grad_norm": 0.053330112248659134,
+      "learning_rate": 0.0009850892584545921,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 45121840,
+      "step": 20860
+    },
+    {
+      "epoch": 3.403752039151713,
+      "grad_norm": 0.12266937643289566,
+      "learning_rate": 0.0009850720001542985,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 45132720,
+      "step": 20865
+    },
+    {
+      "epoch": 3.4045676998368677,
+      "grad_norm": 0.02327810972929001,
+      "learning_rate": 0.0009850547320234058,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 45143472,
+      "step": 20870
+    },
+    {
+      "epoch": 3.405383360522023,
+      "grad_norm": 0.006088678725063801,
+      "learning_rate": 0.0009850374540622633,
+      "loss": 0.026,
+      "num_input_tokens_seen": 45153744,
+      "step": 20875
+    },
+    {
+      "epoch": 3.4061990212071778,
+      "grad_norm": 0.005732911638915539,
+      "learning_rate": 0.0009850201662712217,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 45163920,
+      "step": 20880
+    },
+    {
+      "epoch": 3.407014681892333,
+      "grad_norm": 0.013120281510055065,
+      "learning_rate": 0.0009850028686506313,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 45174928,
+      "step": 20885
+    },
+    {
+      "epoch": 3.407830342577488,
+      "grad_norm": 0.014896417036652565,
+      "learning_rate": 0.000984985561200842,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 45185488,
+      "step": 20890
+    },
+    {
+      "epoch": 3.4086460032626427,
+      "grad_norm": 0.14158938825130463,
+      "learning_rate": 0.0009849682439222055,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 45197200,
+      "step": 20895
+    },
+    {
+      "epoch": 3.4094616639477975,
+      "grad_norm": 0.2206645905971527,
+      "learning_rate": 0.000984950916815072,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 45207600,
+      "step": 20900
+    },
+    {
+      "epoch": 3.4102773246329527,
+      "grad_norm": 0.015935998409986496,
+      "learning_rate": 0.0009849335798797932,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 45218800,
+      "step": 20905
+    },
+    {
+      "epoch": 3.4110929853181076,
+      "grad_norm": 0.006892753764986992,
+      "learning_rate": 0.0009849162331167201,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 45230224,
+      "step": 20910
+    },
+    {
+      "epoch": 3.411908646003263,
+      "grad_norm": 0.35190969705581665,
+      "learning_rate": 0.0009848988765262044,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 45241840,
+      "step": 20915
+    },
+    {
+      "epoch": 3.4127243066884176,
+      "grad_norm": 0.3081585764884949,
+      "learning_rate": 0.0009848815101085977,
+      "loss": 0.1927,
+      "num_input_tokens_seen": 45254032,
+      "step": 20920
+    },
+    {
+      "epoch": 3.4135399673735725,
+      "grad_norm": 0.008788962848484516,
+      "learning_rate": 0.0009848641338642524,
+      "loss": 0.1713,
+      "num_input_tokens_seen": 45263696,
+      "step": 20925
+    },
+    {
+      "epoch": 3.4143556280587277,
+      "grad_norm": 0.004804656840860844,
+      "learning_rate": 0.00098484674779352,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 45275120,
+      "step": 20930
+    },
+    {
+      "epoch": 3.4151712887438825,
+      "grad_norm": 0.09571245312690735,
+      "learning_rate": 0.0009848293518967533,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 45285744,
+      "step": 20935
+    },
+    {
+      "epoch": 3.4159869494290374,
+      "grad_norm": 0.05200956016778946,
+      "learning_rate": 0.0009848119461743049,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 45295760,
+      "step": 20940
+    },
+    {
+      "epoch": 3.4168026101141926,
+      "grad_norm": 0.16579431295394897,
+      "learning_rate": 0.000984794530626527,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 45306288,
+      "step": 20945
+    },
+    {
+      "epoch": 3.4176182707993474,
+      "grad_norm": 0.11425749212503433,
+      "learning_rate": 0.0009847771052537732,
+      "loss": 0.074,
+      "num_input_tokens_seen": 45318352,
+      "step": 20950
+    },
+    {
+      "epoch": 3.4184339314845023,
+      "grad_norm": 0.057450488209724426,
+      "learning_rate": 0.0009847596700563966,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 45328368,
+      "step": 20955
+    },
+    {
+      "epoch": 3.4192495921696575,
+      "grad_norm": 0.09544433653354645,
+      "learning_rate": 0.00098474222503475,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 45339920,
+      "step": 20960
+    },
+    {
+      "epoch": 3.4200652528548123,
+      "grad_norm": 0.08446510136127472,
+      "learning_rate": 0.0009847247701891874,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 45351632,
+      "step": 20965
+    },
+    {
+      "epoch": 3.4208809135399676,
+      "grad_norm": 0.03102685697376728,
+      "learning_rate": 0.0009847073055200624,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 45362224,
+      "step": 20970
+    },
+    {
+      "epoch": 3.4216965742251224,
+      "grad_norm": 0.030437711626291275,
+      "learning_rate": 0.0009846898310277288,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 45373488,
+      "step": 20975
+    },
+    {
+      "epoch": 3.4225122349102772,
+      "grad_norm": 0.04457832872867584,
+      "learning_rate": 0.000984672346712541,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 45384560,
+      "step": 20980
+    },
+    {
+      "epoch": 3.4233278955954325,
+      "grad_norm": 0.04948972165584564,
+      "learning_rate": 0.0009846548525748533,
+      "loss": 0.07,
+      "num_input_tokens_seen": 45394256,
+      "step": 20985
+    },
+    {
+      "epoch": 3.4241435562805873,
+      "grad_norm": 0.0155490068718791,
+      "learning_rate": 0.0009846373486150201,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 45405936,
+      "step": 20990
+    },
+    {
+      "epoch": 3.424959216965742,
+      "grad_norm": 0.054467808455228806,
+      "learning_rate": 0.0009846198348333964,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 45415696,
+      "step": 20995
+    },
+    {
+      "epoch": 3.4257748776508974,
+      "grad_norm": 0.023017987608909607,
+      "learning_rate": 0.0009846023112303369,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 45426800,
+      "step": 21000
+    },
+    {
+      "epoch": 3.426590538336052,
+      "grad_norm": 0.036964334547519684,
+      "learning_rate": 0.0009845847778061968,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 45437168,
+      "step": 21005
+    },
+    {
+      "epoch": 3.427406199021207,
+      "grad_norm": 0.23528705537319183,
+      "learning_rate": 0.0009845672345613313,
+      "loss": 0.2005,
+      "num_input_tokens_seen": 45447888,
+      "step": 21010
+    },
+    {
+      "epoch": 3.4282218597063623,
+      "grad_norm": 0.22169376909732819,
+      "learning_rate": 0.0009845496814960962,
+      "loss": 0.1643,
+      "num_input_tokens_seen": 45459568,
+      "step": 21015
+    },
+    {
+      "epoch": 3.429037520391517,
+      "grad_norm": 0.00393277732655406,
+      "learning_rate": 0.0009845321186108468,
+      "loss": 0.083,
+      "num_input_tokens_seen": 45470768,
+      "step": 21020
+    },
+    {
+      "epoch": 3.429853181076672,
+      "grad_norm": 0.11375081539154053,
+      "learning_rate": 0.0009845145459059397,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 45481456,
+      "step": 21025
+    },
+    {
+      "epoch": 3.430668841761827,
+      "grad_norm": 0.007324701175093651,
+      "learning_rate": 0.0009844969633817306,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 45492592,
+      "step": 21030
+    },
+    {
+      "epoch": 3.431484502446982,
+      "grad_norm": 0.031020818278193474,
+      "learning_rate": 0.000984479371038576,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 45503792,
+      "step": 21035
+    },
+    {
+      "epoch": 3.432300163132137,
+      "grad_norm": 0.015361804515123367,
+      "learning_rate": 0.0009844617688768323,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 45514800,
+      "step": 21040
+    },
+    {
+      "epoch": 3.433115823817292,
+      "grad_norm": 0.04145984724164009,
+      "learning_rate": 0.000984444156896856,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 45525168,
+      "step": 21045
+    },
+    {
+      "epoch": 3.433931484502447,
+      "grad_norm": 0.05199075862765312,
+      "learning_rate": 0.0009844265350990047,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 45536080,
+      "step": 21050
+    },
+    {
+      "epoch": 3.434747145187602,
+      "grad_norm": 0.19810503721237183,
+      "learning_rate": 0.000984408903483635,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 45545808,
+      "step": 21055
+    },
+    {
+      "epoch": 3.435562805872757,
+      "grad_norm": 0.009147719480097294,
+      "learning_rate": 0.0009843912620511042,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 45557232,
+      "step": 21060
+    },
+    {
+      "epoch": 3.436378466557912,
+      "grad_norm": 0.0113412756472826,
+      "learning_rate": 0.00098437361080177,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 45568336,
+      "step": 21065
+    },
+    {
+      "epoch": 3.437194127243067,
+      "grad_norm": 0.014199744910001755,
+      "learning_rate": 0.0009843559497359903,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 45578544,
+      "step": 21070
+    },
+    {
+      "epoch": 3.438009787928222,
+      "grad_norm": 0.03397858887910843,
+      "learning_rate": 0.0009843382788541227,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 45590608,
+      "step": 21075
+    },
+    {
+      "epoch": 3.4388254486133767,
+      "grad_norm": 0.20899049937725067,
+      "learning_rate": 0.0009843205981565253,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 45600048,
+      "step": 21080
+    },
+    {
+      "epoch": 3.439641109298532,
+      "grad_norm": 0.07323971390724182,
+      "learning_rate": 0.0009843029076435567,
+      "loss": 0.1632,
+      "num_input_tokens_seen": 45608944,
+      "step": 21085
+    },
+    {
+      "epoch": 3.4404567699836868,
+      "grad_norm": 0.022303447127342224,
+      "learning_rate": 0.0009842852073155754,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 45618832,
+      "step": 21090
+    },
+    {
+      "epoch": 3.4412724306688416,
+      "grad_norm": 0.23006023466587067,
+      "learning_rate": 0.00098426749717294,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 45628144,
+      "step": 21095
+    },
+    {
+      "epoch": 3.442088091353997,
+      "grad_norm": 0.0528857558965683,
+      "learning_rate": 0.0009842497772160092,
+      "loss": 0.1934,
+      "num_input_tokens_seen": 45638480,
+      "step": 21100
+    },
+    {
+      "epoch": 3.4429037520391517,
+      "grad_norm": 0.057266563177108765,
+      "learning_rate": 0.0009842320474451427,
+      "loss": 0.081,
+      "num_input_tokens_seen": 45649648,
+      "step": 21105
+    },
+    {
+      "epoch": 3.443719412724307,
+      "grad_norm": 0.041887782514095306,
+      "learning_rate": 0.0009842143078606991,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 45661168,
+      "step": 21110
+    },
+    {
+      "epoch": 3.4445350734094617,
+      "grad_norm": 0.0473744235932827,
+      "learning_rate": 0.0009841965584630385,
+      "loss": 0.115,
+      "num_input_tokens_seen": 45672432,
+      "step": 21115
+    },
+    {
+      "epoch": 3.4453507340946166,
+      "grad_norm": 0.1000686064362526,
+      "learning_rate": 0.0009841787992525203,
+      "loss": 0.2541,
+      "num_input_tokens_seen": 45683472,
+      "step": 21120
+    },
+    {
+      "epoch": 3.4461663947797714,
+      "grad_norm": 0.029857605695724487,
+      "learning_rate": 0.0009841610302295048,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 45694704,
+      "step": 21125
+    },
+    {
+      "epoch": 3.4469820554649266,
+      "grad_norm": 0.2285618633031845,
+      "learning_rate": 0.0009841432513943516,
+      "loss": 0.1447,
+      "num_input_tokens_seen": 45705168,
+      "step": 21130
+    },
+    {
+      "epoch": 3.4477977161500815,
+      "grad_norm": 0.09792362153530121,
+      "learning_rate": 0.0009841254627474213,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 45715792,
+      "step": 21135
+    },
+    {
+      "epoch": 3.4486133768352367,
+      "grad_norm": 0.054127782583236694,
+      "learning_rate": 0.000984107664289074,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 45726576,
+      "step": 21140
+    },
+    {
+      "epoch": 3.4494290375203915,
+      "grad_norm": 0.011056124232709408,
+      "learning_rate": 0.0009840898560196712,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 45737520,
+      "step": 21145
+    },
+    {
+      "epoch": 3.4502446982055464,
+      "grad_norm": 0.1722433865070343,
+      "learning_rate": 0.000984072037939573,
+      "loss": 0.14,
+      "num_input_tokens_seen": 45748176,
+      "step": 21150
+    },
+    {
+      "epoch": 3.4510603588907016,
+      "grad_norm": 0.014301082119345665,
+      "learning_rate": 0.000984054210049141,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 45758864,
+      "step": 21155
+    },
+    {
+      "epoch": 3.4518760195758564,
+      "grad_norm": 0.017598386853933334,
+      "learning_rate": 0.0009840363723487365,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 45769744,
+      "step": 21160
+    },
+    {
+      "epoch": 3.4526916802610113,
+      "grad_norm": 0.21228720247745514,
+      "learning_rate": 0.0009840185248387208,
+      "loss": 0.2491,
+      "num_input_tokens_seen": 45780400,
+      "step": 21165
+    },
+    {
+      "epoch": 3.4535073409461665,
+      "grad_norm": 0.11573278903961182,
+      "learning_rate": 0.0009840006675194558,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 45790416,
+      "step": 21170
+    },
+    {
+      "epoch": 3.4543230016313213,
+      "grad_norm": 0.05527227371931076,
+      "learning_rate": 0.000983982800391303,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 45801392,
+      "step": 21175
+    },
+    {
+      "epoch": 3.455138662316476,
+      "grad_norm": 0.06245320290327072,
+      "learning_rate": 0.0009839649234546248,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 45812464,
+      "step": 21180
+    },
+    {
+      "epoch": 3.4559543230016314,
+      "grad_norm": 0.05715889483690262,
+      "learning_rate": 0.0009839470367097836,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 45823056,
+      "step": 21185
+    },
+    {
+      "epoch": 3.4567699836867862,
+      "grad_norm": 0.02741180546581745,
+      "learning_rate": 0.0009839291401571417,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 45832336,
+      "step": 21190
+    },
+    {
+      "epoch": 3.4575856443719415,
+      "grad_norm": 0.009015440940856934,
+      "learning_rate": 0.0009839112337970619,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 45842864,
+      "step": 21195
+    },
+    {
+      "epoch": 3.4584013050570963,
+      "grad_norm": 0.22681792080402374,
+      "learning_rate": 0.0009838933176299072,
+      "loss": 0.2291,
+      "num_input_tokens_seen": 45854192,
+      "step": 21200
+    },
+    {
+      "epoch": 3.459216965742251,
+      "grad_norm": 0.03709195926785469,
+      "learning_rate": 0.0009838753916560404,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 45865296,
+      "step": 21205
+    },
+    {
+      "epoch": 3.4600326264274064,
+      "grad_norm": 0.0438421331346035,
+      "learning_rate": 0.000983857455875825,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 45876336,
+      "step": 21210
+    },
+    {
+      "epoch": 3.460848287112561,
+      "grad_norm": 0.056209295988082886,
+      "learning_rate": 0.0009838395102896244,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 45886768,
+      "step": 21215
+    },
+    {
+      "epoch": 3.461663947797716,
+      "grad_norm": 0.07024645805358887,
+      "learning_rate": 0.0009838215548978024,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 45896688,
+      "step": 21220
+    },
+    {
+      "epoch": 3.4624796084828713,
+      "grad_norm": 0.011782780289649963,
+      "learning_rate": 0.0009838035897007226,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 45908496,
+      "step": 21225
+    },
+    {
+      "epoch": 3.463295269168026,
+      "grad_norm": 0.007954503409564495,
+      "learning_rate": 0.0009837856146987496,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 45920144,
+      "step": 21230
+    },
+    {
+      "epoch": 3.464110929853181,
+      "grad_norm": 0.01540245022624731,
+      "learning_rate": 0.0009837676298922473,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 45930480,
+      "step": 21235
+    },
+    {
+      "epoch": 3.464926590538336,
+      "grad_norm": 0.008227720856666565,
+      "learning_rate": 0.0009837496352815803,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 45942416,
+      "step": 21240
+    },
+    {
+      "epoch": 3.465742251223491,
+      "grad_norm": 0.025327688083052635,
+      "learning_rate": 0.000983731630867113,
+      "loss": 0.1903,
+      "num_input_tokens_seen": 45953616,
+      "step": 21245
+    },
+    {
+      "epoch": 3.466557911908646,
+      "grad_norm": 0.022125469520688057,
+      "learning_rate": 0.0009837136166492109,
+      "loss": 0.1485,
+      "num_input_tokens_seen": 45965584,
+      "step": 21250
+    },
+    {
+      "epoch": 3.467373572593801,
+      "grad_norm": 0.2036154568195343,
+      "learning_rate": 0.0009836955926282385,
+      "loss": 0.1585,
+      "num_input_tokens_seen": 45977424,
+      "step": 21255
+    },
+    {
+      "epoch": 3.468189233278956,
+      "grad_norm": 0.061766836792230606,
+      "learning_rate": 0.0009836775588045613,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 45988752,
+      "step": 21260
+    },
+    {
+      "epoch": 3.4690048939641107,
+      "grad_norm": 0.08904801309108734,
+      "learning_rate": 0.0009836595151785448,
+      "loss": 0.1983,
+      "num_input_tokens_seen": 45999184,
+      "step": 21265
+    },
+    {
+      "epoch": 3.469820554649266,
+      "grad_norm": 0.04244118183851242,
+      "learning_rate": 0.0009836414617505548,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 46010544,
+      "step": 21270
+    },
+    {
+      "epoch": 3.470636215334421,
+      "grad_norm": 0.07451055198907852,
+      "learning_rate": 0.000983623398520957,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 46021360,
+      "step": 21275
+    },
+    {
+      "epoch": 3.471451876019576,
+      "grad_norm": 0.15908612310886383,
+      "learning_rate": 0.0009836053254901173,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 46030640,
+      "step": 21280
+    },
+    {
+      "epoch": 3.472267536704731,
+      "grad_norm": 0.15909342467784882,
+      "learning_rate": 0.0009835872426584024,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 46041200,
+      "step": 21285
+    },
+    {
+      "epoch": 3.4730831973898857,
+      "grad_norm": 0.2042553573846817,
+      "learning_rate": 0.0009835691500261784,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 46052208,
+      "step": 21290
+    },
+    {
+      "epoch": 3.473898858075041,
+      "grad_norm": 0.06767347455024719,
+      "learning_rate": 0.0009835510475938124,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 46063536,
+      "step": 21295
+    },
+    {
+      "epoch": 3.4747145187601958,
+      "grad_norm": 0.017927464097738266,
+      "learning_rate": 0.0009835329353616708,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 46075024,
+      "step": 21300
+    },
+    {
+      "epoch": 3.4755301794453506,
+      "grad_norm": 0.23534156382083893,
+      "learning_rate": 0.000983514813330121,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 46084432,
+      "step": 21305
+    },
+    {
+      "epoch": 3.476345840130506,
+      "grad_norm": 0.1075979694724083,
+      "learning_rate": 0.00098349668149953,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 46095504,
+      "step": 21310
+    },
+    {
+      "epoch": 3.4771615008156607,
+      "grad_norm": 0.02730988711118698,
+      "learning_rate": 0.0009834785398702653,
+      "loss": 0.024,
+      "num_input_tokens_seen": 46105520,
+      "step": 21315
+    },
+    {
+      "epoch": 3.4779771615008155,
+      "grad_norm": 0.158670112490654,
+      "learning_rate": 0.0009834603884426947,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 46115344,
+      "step": 21320
+    },
+    {
+      "epoch": 3.4787928221859707,
+      "grad_norm": 0.008138585835695267,
+      "learning_rate": 0.000983442227217186,
+      "loss": 0.1815,
+      "num_input_tokens_seen": 46124784,
+      "step": 21325
+    },
+    {
+      "epoch": 3.4796084828711256,
+      "grad_norm": 0.12669169902801514,
+      "learning_rate": 0.0009834240561941072,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 46135856,
+      "step": 21330
+    },
+    {
+      "epoch": 3.480424143556281,
+      "grad_norm": 0.06928084045648575,
+      "learning_rate": 0.000983405875373827,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 46146960,
+      "step": 21335
+    },
+    {
+      "epoch": 3.4812398042414356,
+      "grad_norm": 0.05004847049713135,
+      "learning_rate": 0.0009833876847567132,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 46158544,
+      "step": 21340
+    },
+    {
+      "epoch": 3.4820554649265905,
+      "grad_norm": 0.2124181091785431,
+      "learning_rate": 0.0009833694843431346,
+      "loss": 0.109,
+      "num_input_tokens_seen": 46168336,
+      "step": 21345
+    },
+    {
+      "epoch": 3.4828711256117453,
+      "grad_norm": 0.20705543458461761,
+      "learning_rate": 0.0009833512741334604,
+      "loss": 0.2405,
+      "num_input_tokens_seen": 46178128,
+      "step": 21350
+    },
+    {
+      "epoch": 3.4836867862969005,
+      "grad_norm": 0.13747872412204742,
+      "learning_rate": 0.0009833330541280595,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 46188144,
+      "step": 21355
+    },
+    {
+      "epoch": 3.4845024469820554,
+      "grad_norm": 0.05297991633415222,
+      "learning_rate": 0.0009833148243273012,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 46198768,
+      "step": 21360
+    },
+    {
+      "epoch": 3.4853181076672106,
+      "grad_norm": 0.11282984167337418,
+      "learning_rate": 0.0009832965847315547,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 46209360,
+      "step": 21365
+    },
+    {
+      "epoch": 3.4861337683523654,
+      "grad_norm": 0.06479454785585403,
+      "learning_rate": 0.00098327833534119,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 46219792,
+      "step": 21370
+    },
+    {
+      "epoch": 3.4869494290375203,
+      "grad_norm": 0.03795412927865982,
+      "learning_rate": 0.0009832600761565764,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 46229424,
+      "step": 21375
+    },
+    {
+      "epoch": 3.4877650897226755,
+      "grad_norm": 0.017168574035167694,
+      "learning_rate": 0.0009832418071780845,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 46240656,
+      "step": 21380
+    },
+    {
+      "epoch": 3.4885807504078303,
+      "grad_norm": 0.05710841342806816,
+      "learning_rate": 0.0009832235284060842,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 46251312,
+      "step": 21385
+    },
+    {
+      "epoch": 3.489396411092985,
+      "grad_norm": 0.1470293253660202,
+      "learning_rate": 0.0009832052398409464,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 46262832,
+      "step": 21390
+    },
+    {
+      "epoch": 3.4902120717781404,
+      "grad_norm": 0.015464311465620995,
+      "learning_rate": 0.000983186941483041,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 46273616,
+      "step": 21395
+    },
+    {
+      "epoch": 3.4910277324632952,
+      "grad_norm": 0.0574021190404892,
+      "learning_rate": 0.0009831686333327397,
+      "loss": 0.154,
+      "num_input_tokens_seen": 46285456,
+      "step": 21400
+    },
+    {
+      "epoch": 3.49184339314845,
+      "grad_norm": 0.04269903153181076,
+      "learning_rate": 0.0009831503153904127,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 46296848,
+      "step": 21405
+    },
+    {
+      "epoch": 3.4926590538336053,
+      "grad_norm": 0.5759614706039429,
+      "learning_rate": 0.000983131987656432,
+      "loss": 0.2359,
+      "num_input_tokens_seen": 46308400,
+      "step": 21410
+    },
+    {
+      "epoch": 3.49347471451876,
+      "grad_norm": 0.02763795293867588,
+      "learning_rate": 0.0009831136501311684,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 46319312,
+      "step": 21415
+    },
+    {
+      "epoch": 3.4942903752039154,
+      "grad_norm": 0.26870211958885193,
+      "learning_rate": 0.000983095302814994,
+      "loss": 0.2007,
+      "num_input_tokens_seen": 46331184,
+      "step": 21420
+    },
+    {
+      "epoch": 3.49510603588907,
+      "grad_norm": 0.10838611423969269,
+      "learning_rate": 0.0009830769457082804,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 46341264,
+      "step": 21425
+    },
+    {
+      "epoch": 3.495921696574225,
+      "grad_norm": 0.325128972530365,
+      "learning_rate": 0.0009830585788113994,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 46352432,
+      "step": 21430
+    },
+    {
+      "epoch": 3.4967373572593803,
+      "grad_norm": 0.09117142111063004,
+      "learning_rate": 0.0009830402021247238,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 46363280,
+      "step": 21435
+    },
+    {
+      "epoch": 3.497553017944535,
+      "grad_norm": 0.09155073761940002,
+      "learning_rate": 0.0009830218156486256,
+      "loss": 0.2447,
+      "num_input_tokens_seen": 46372848,
+      "step": 21440
+    },
+    {
+      "epoch": 3.49836867862969,
+      "grad_norm": 0.022856619209051132,
+      "learning_rate": 0.0009830034193834777,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 46384976,
+      "step": 21445
+    },
+    {
+      "epoch": 3.499184339314845,
+      "grad_norm": 0.4519825279712677,
+      "learning_rate": 0.0009829850133296527,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 46396560,
+      "step": 21450
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 0.06419207900762558,
+      "learning_rate": 0.0009829665974875237,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 46407472,
+      "step": 21455
+    },
+    {
+      "epoch": 3.500815660685155,
+      "grad_norm": 0.19768834114074707,
+      "learning_rate": 0.0009829481718574638,
+      "loss": 0.1633,
+      "num_input_tokens_seen": 46417872,
+      "step": 21460
+    },
+    {
+      "epoch": 3.50163132137031,
+      "grad_norm": 0.04964315891265869,
+      "learning_rate": 0.0009829297364398466,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 46428432,
+      "step": 21465
+    },
+    {
+      "epoch": 3.502446982055465,
+      "grad_norm": 0.020760485902428627,
+      "learning_rate": 0.0009829112912350456,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 46439856,
+      "step": 21470
+    },
+    {
+      "epoch": 3.50326264274062,
+      "grad_norm": 0.020568421110510826,
+      "learning_rate": 0.000982892836243435,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 46451376,
+      "step": 21475
+    },
+    {
+      "epoch": 3.504078303425775,
+      "grad_norm": 0.04842434450984001,
+      "learning_rate": 0.000982874371465388,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 46461456,
+      "step": 21480
+    },
+    {
+      "epoch": 3.50489396411093,
+      "grad_norm": 0.09125185012817383,
+      "learning_rate": 0.0009828558969012795,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 46471600,
+      "step": 21485
+    },
+    {
+      "epoch": 3.5057096247960846,
+      "grad_norm": 0.02235431969165802,
+      "learning_rate": 0.0009828374125514837,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 46482224,
+      "step": 21490
+    },
+    {
+      "epoch": 3.50652528548124,
+      "grad_norm": 0.22898629307746887,
+      "learning_rate": 0.0009828189184163752,
+      "loss": 0.382,
+      "num_input_tokens_seen": 46492496,
+      "step": 21495
+    },
+    {
+      "epoch": 3.5073409461663947,
+      "grad_norm": 0.15465903282165527,
+      "learning_rate": 0.0009828004144963288,
+      "loss": 0.1664,
+      "num_input_tokens_seen": 46503120,
+      "step": 21500
+    },
+    {
+      "epoch": 3.50815660685155,
+      "grad_norm": 0.03542419150471687,
+      "learning_rate": 0.0009827819007917195,
+      "loss": 0.2168,
+      "num_input_tokens_seen": 46513680,
+      "step": 21505
+    },
+    {
+      "epoch": 3.5089722675367048,
+      "grad_norm": 0.127181276679039,
+      "learning_rate": 0.0009827633773029228,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 46523632,
+      "step": 21510
+    },
+    {
+      "epoch": 3.5097879282218596,
+      "grad_norm": 0.039647456258535385,
+      "learning_rate": 0.0009827448440303135,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 46534352,
+      "step": 21515
+    },
+    {
+      "epoch": 3.5106035889070144,
+      "grad_norm": 0.024184754118323326,
+      "learning_rate": 0.0009827263009742678,
+      "loss": 0.1848,
+      "num_input_tokens_seen": 46547056,
+      "step": 21520
+    },
+    {
+      "epoch": 3.5114192495921697,
+      "grad_norm": 0.054916176944971085,
+      "learning_rate": 0.000982707748135161,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 46557648,
+      "step": 21525
+    },
+    {
+      "epoch": 3.5122349102773245,
+      "grad_norm": 0.25888592004776,
+      "learning_rate": 0.0009826891855133693,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 46567888,
+      "step": 21530
+    },
+    {
+      "epoch": 3.5130505709624797,
+      "grad_norm": 0.25864580273628235,
+      "learning_rate": 0.000982670613109269,
+      "loss": 0.1325,
+      "num_input_tokens_seen": 46578096,
+      "step": 21535
+    },
+    {
+      "epoch": 3.5138662316476346,
+      "grad_norm": 0.1897091567516327,
+      "learning_rate": 0.0009826520309232365,
+      "loss": 0.2476,
+      "num_input_tokens_seen": 46589104,
+      "step": 21540
+    },
+    {
+      "epoch": 3.5146818923327894,
+      "grad_norm": 0.10447441786527634,
+      "learning_rate": 0.0009826334389556482,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 46600080,
+      "step": 21545
+    },
+    {
+      "epoch": 3.5154975530179446,
+      "grad_norm": 0.023850787431001663,
+      "learning_rate": 0.000982614837206881,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 46610096,
+      "step": 21550
+    },
+    {
+      "epoch": 3.5163132137030995,
+      "grad_norm": 0.036812786012887955,
+      "learning_rate": 0.000982596225677312,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 46620688,
+      "step": 21555
+    },
+    {
+      "epoch": 3.5171288743882547,
+      "grad_norm": 0.16952641308307648,
+      "learning_rate": 0.0009825776043673182,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 46631824,
+      "step": 21560
+    },
+    {
+      "epoch": 3.5179445350734095,
+      "grad_norm": 0.024134181439876556,
+      "learning_rate": 0.000982558973277277,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 46642832,
+      "step": 21565
+    },
+    {
+      "epoch": 3.5187601957585644,
+      "grad_norm": 0.1285693347454071,
+      "learning_rate": 0.0009825403324075662,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 46653456,
+      "step": 21570
+    },
+    {
+      "epoch": 3.519575856443719,
+      "grad_norm": 0.009325760416686535,
+      "learning_rate": 0.0009825216817585633,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 46665136,
+      "step": 21575
+    },
+    {
+      "epoch": 3.5203915171288744,
+      "grad_norm": 0.1657373160123825,
+      "learning_rate": 0.0009825030213306463,
+      "loss": 0.1963,
+      "num_input_tokens_seen": 46674544,
+      "step": 21580
+    },
+    {
+      "epoch": 3.5212071778140293,
+      "grad_norm": 0.10782121121883392,
+      "learning_rate": 0.0009824843511241936,
+      "loss": 0.117,
+      "num_input_tokens_seen": 46685264,
+      "step": 21585
+    },
+    {
+      "epoch": 3.5220228384991845,
+      "grad_norm": 0.11278649419546127,
+      "learning_rate": 0.0009824656711395834,
+      "loss": 0.2149,
+      "num_input_tokens_seen": 46696528,
+      "step": 21590
+    },
+    {
+      "epoch": 3.5228384991843393,
+      "grad_norm": 0.11115585267543793,
+      "learning_rate": 0.0009824469813771945,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 46708176,
+      "step": 21595
+    },
+    {
+      "epoch": 3.523654159869494,
+      "grad_norm": 0.030352916568517685,
+      "learning_rate": 0.0009824282818374052,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 46717328,
+      "step": 21600
+    },
+    {
+      "epoch": 3.5244698205546494,
+      "grad_norm": 0.07619695365428925,
+      "learning_rate": 0.000982409572520595,
+      "loss": 0.2937,
+      "num_input_tokens_seen": 46727568,
+      "step": 21605
+    },
+    {
+      "epoch": 3.5252854812398042,
+      "grad_norm": 0.08703344315290451,
+      "learning_rate": 0.0009823908534271426,
+      "loss": 0.2221,
+      "num_input_tokens_seen": 46738928,
+      "step": 21610
+    },
+    {
+      "epoch": 3.5261011419249595,
+      "grad_norm": 0.07479031383991241,
+      "learning_rate": 0.0009823721245574278,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 46748752,
+      "step": 21615
+    },
+    {
+      "epoch": 3.5269168026101143,
+      "grad_norm": 0.04100106284022331,
+      "learning_rate": 0.0009823533859118299,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 46760240,
+      "step": 21620
+    },
+    {
+      "epoch": 3.527732463295269,
+      "grad_norm": 0.08685865998268127,
+      "learning_rate": 0.0009823346374907287,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 46769936,
+      "step": 21625
+    },
+    {
+      "epoch": 3.528548123980424,
+      "grad_norm": 0.03426363319158554,
+      "learning_rate": 0.000982315879294504,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 46779888,
+      "step": 21630
+    },
+    {
+      "epoch": 3.529363784665579,
+      "grad_norm": 0.1270504593849182,
+      "learning_rate": 0.0009822971113235366,
+      "loss": 0.1797,
+      "num_input_tokens_seen": 46791504,
+      "step": 21635
+    },
+    {
+      "epoch": 3.530179445350734,
+      "grad_norm": 0.10011230409145355,
+      "learning_rate": 0.0009822783335782061,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 46802096,
+      "step": 21640
+    },
+    {
+      "epoch": 3.5309951060358893,
+      "grad_norm": 0.11784350126981735,
+      "learning_rate": 0.0009822595460588935,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 46813616,
+      "step": 21645
+    },
+    {
+      "epoch": 3.531810766721044,
+      "grad_norm": 0.23490601778030396,
+      "learning_rate": 0.0009822407487659792,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 46824816,
+      "step": 21650
+    },
+    {
+      "epoch": 3.532626427406199,
+      "grad_norm": 0.14736691117286682,
+      "learning_rate": 0.0009822219416998445,
+      "loss": 0.2027,
+      "num_input_tokens_seen": 46835536,
+      "step": 21655
+    },
+    {
+      "epoch": 3.5334420880913537,
+      "grad_norm": 0.20881640911102295,
+      "learning_rate": 0.0009822031248608704,
+      "loss": 0.2451,
+      "num_input_tokens_seen": 46847280,
+      "step": 21660
+    },
+    {
+      "epoch": 3.534257748776509,
+      "grad_norm": 0.06078454852104187,
+      "learning_rate": 0.0009821842982494383,
+      "loss": 0.085,
+      "num_input_tokens_seen": 46859152,
+      "step": 21665
+    },
+    {
+      "epoch": 3.535073409461664,
+      "grad_norm": 0.03408531844615936,
+      "learning_rate": 0.0009821654618659297,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 46869584,
+      "step": 21670
+    },
+    {
+      "epoch": 3.535889070146819,
+      "grad_norm": 0.06222820654511452,
+      "learning_rate": 0.0009821466157107263,
+      "loss": 0.208,
+      "num_input_tokens_seen": 46880432,
+      "step": 21675
+    },
+    {
+      "epoch": 3.536704730831974,
+      "grad_norm": 0.09785876423120499,
+      "learning_rate": 0.0009821277597842101,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 46890768,
+      "step": 21680
+    },
+    {
+      "epoch": 3.5375203915171287,
+      "grad_norm": 0.010254275985062122,
+      "learning_rate": 0.0009821088940867632,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 46902352,
+      "step": 21685
+    },
+    {
+      "epoch": 3.538336052202284,
+      "grad_norm": 0.07269848138093948,
+      "learning_rate": 0.0009820900186187681,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 46912816,
+      "step": 21690
+    },
+    {
+      "epoch": 3.539151712887439,
+      "grad_norm": 0.06444855034351349,
+      "learning_rate": 0.0009820711333806068,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 46923888,
+      "step": 21695
+    },
+    {
+      "epoch": 3.539967373572594,
+      "grad_norm": 0.04911039397120476,
+      "learning_rate": 0.000982052238372663,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 46934832,
+      "step": 21700
+    },
+    {
+      "epoch": 3.540783034257749,
+      "grad_norm": 0.19150716066360474,
+      "learning_rate": 0.0009820333335953187,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 46944784,
+      "step": 21705
+    },
+    {
+      "epoch": 3.5415986949429037,
+      "grad_norm": 0.18624483048915863,
+      "learning_rate": 0.0009820144190489574,
+      "loss": 0.1731,
+      "num_input_tokens_seen": 46955376,
+      "step": 21710
+    },
+    {
+      "epoch": 3.5424143556280585,
+      "grad_norm": 0.010764437727630138,
+      "learning_rate": 0.0009819954947339624,
+      "loss": 0.1629,
+      "num_input_tokens_seen": 46964944,
+      "step": 21715
+    },
+    {
+      "epoch": 3.5432300163132138,
+      "grad_norm": 0.07276313006877899,
+      "learning_rate": 0.0009819765606507173,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 46974960,
+      "step": 21720
+    },
+    {
+      "epoch": 3.5440456769983686,
+      "grad_norm": 0.09438583999872208,
+      "learning_rate": 0.0009819576167996058,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 46986416,
+      "step": 21725
+    },
+    {
+      "epoch": 3.544861337683524,
+      "grad_norm": 0.005585776641964912,
+      "learning_rate": 0.000981938663181012,
+      "loss": 0.1781,
+      "num_input_tokens_seen": 46996240,
+      "step": 21730
+    },
+    {
+      "epoch": 3.5456769983686787,
+      "grad_norm": 0.08937297016382217,
+      "learning_rate": 0.0009819196997953195,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 47007472,
+      "step": 21735
+    },
+    {
+      "epoch": 3.5464926590538335,
+      "grad_norm": 0.026922032237052917,
+      "learning_rate": 0.000981900726642913,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 47018128,
+      "step": 21740
+    },
+    {
+      "epoch": 3.5473083197389887,
+      "grad_norm": 0.017074687406420708,
+      "learning_rate": 0.0009818817437241768,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 47029456,
+      "step": 21745
+    },
+    {
+      "epoch": 3.5481239804241436,
+      "grad_norm": 0.03096526488661766,
+      "learning_rate": 0.000981862751039496,
+      "loss": 0.1789,
+      "num_input_tokens_seen": 47039792,
+      "step": 21750
+    },
+    {
+      "epoch": 3.5489396411092984,
+      "grad_norm": 0.06783930957317352,
+      "learning_rate": 0.000981843748589255,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 47050032,
+      "step": 21755
+    },
+    {
+      "epoch": 3.5497553017944536,
+      "grad_norm": 0.08572400361299515,
+      "learning_rate": 0.0009818247363738396,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 47060336,
+      "step": 21760
+    },
+    {
+      "epoch": 3.5505709624796085,
+      "grad_norm": 0.08011411875486374,
+      "learning_rate": 0.0009818057143936344,
+      "loss": 0.104,
+      "num_input_tokens_seen": 47070160,
+      "step": 21765
+    },
+    {
+      "epoch": 3.5513866231647633,
+      "grad_norm": 0.029326729476451874,
+      "learning_rate": 0.000981786682649025,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 47081008,
+      "step": 21770
+    },
+    {
+      "epoch": 3.5522022838499185,
+      "grad_norm": 0.008124127052724361,
+      "learning_rate": 0.0009817676411403976,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 47091088,
+      "step": 21775
+    },
+    {
+      "epoch": 3.5530179445350734,
+      "grad_norm": 0.10163454711437225,
+      "learning_rate": 0.0009817485898681378,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 47102384,
+      "step": 21780
+    },
+    {
+      "epoch": 3.5538336052202286,
+      "grad_norm": 0.04621696472167969,
+      "learning_rate": 0.0009817295288326315,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 47114064,
+      "step": 21785
+    },
+    {
+      "epoch": 3.5546492659053834,
+      "grad_norm": 0.09239888191223145,
+      "learning_rate": 0.0009817104580342653,
+      "loss": 0.103,
+      "num_input_tokens_seen": 47123824,
+      "step": 21790
+    },
+    {
+      "epoch": 3.5554649265905383,
+      "grad_norm": 0.017387012019753456,
+      "learning_rate": 0.0009816913774734254,
+      "loss": 0.048,
+      "num_input_tokens_seen": 47136432,
+      "step": 21795
+    },
+    {
+      "epoch": 3.556280587275693,
+      "grad_norm": 0.00779850734397769,
+      "learning_rate": 0.0009816722871504987,
+      "loss": 0.025,
+      "num_input_tokens_seen": 47148496,
+      "step": 21800
+    },
+    {
+      "epoch": 3.5570962479608483,
+      "grad_norm": 0.00785167794674635,
+      "learning_rate": 0.0009816531870658722,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 47159600,
+      "step": 21805
+    },
+    {
+      "epoch": 3.557911908646003,
+      "grad_norm": 0.03706509619951248,
+      "learning_rate": 0.0009816340772199328,
+      "loss": 0.1361,
+      "num_input_tokens_seen": 47170224,
+      "step": 21810
+    },
+    {
+      "epoch": 3.5587275693311584,
+      "grad_norm": 0.04010167345404625,
+      "learning_rate": 0.0009816149576130678,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 47181360,
+      "step": 21815
+    },
+    {
+      "epoch": 3.5595432300163132,
+      "grad_norm": 0.04599921405315399,
+      "learning_rate": 0.0009815958282456648,
+      "loss": 0.2459,
+      "num_input_tokens_seen": 47192176,
+      "step": 21820
+    },
+    {
+      "epoch": 3.560358890701468,
+      "grad_norm": 0.037334144115448,
+      "learning_rate": 0.0009815766891181112,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 47201616,
+      "step": 21825
+    },
+    {
+      "epoch": 3.5611745513866233,
+      "grad_norm": 0.10492201894521713,
+      "learning_rate": 0.0009815575402307953,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 47211280,
+      "step": 21830
+    },
+    {
+      "epoch": 3.561990212071778,
+      "grad_norm": 0.0777861624956131,
+      "learning_rate": 0.0009815383815841047,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 47221968,
+      "step": 21835
+    },
+    {
+      "epoch": 3.5628058727569334,
+      "grad_norm": 0.08785879611968994,
+      "learning_rate": 0.0009815192131784282,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 47233136,
+      "step": 21840
+    },
+    {
+      "epoch": 3.563621533442088,
+      "grad_norm": 0.009797224774956703,
+      "learning_rate": 0.0009815000350141539,
+      "loss": 0.1732,
+      "num_input_tokens_seen": 47242672,
+      "step": 21845
+    },
+    {
+      "epoch": 3.564437194127243,
+      "grad_norm": 0.02497190050780773,
+      "learning_rate": 0.0009814808470916705,
+      "loss": 0.1779,
+      "num_input_tokens_seen": 47253552,
+      "step": 21850
+    },
+    {
+      "epoch": 3.565252854812398,
+      "grad_norm": 0.08281011134386063,
+      "learning_rate": 0.0009814616494113668,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 47265680,
+      "step": 21855
+    },
+    {
+      "epoch": 3.566068515497553,
+      "grad_norm": 0.03524525463581085,
+      "learning_rate": 0.0009814424419736323,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 47277200,
+      "step": 21860
+    },
+    {
+      "epoch": 3.566884176182708,
+      "grad_norm": 0.022290315479040146,
+      "learning_rate": 0.0009814232247788556,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 47288240,
+      "step": 21865
+    },
+    {
+      "epoch": 3.567699836867863,
+      "grad_norm": 0.03501790761947632,
+      "learning_rate": 0.0009814039978274269,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 47297808,
+      "step": 21870
+    },
+    {
+      "epoch": 3.568515497553018,
+      "grad_norm": 0.06423972547054291,
+      "learning_rate": 0.0009813847611197352,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 47308304,
+      "step": 21875
+    },
+    {
+      "epoch": 3.569331158238173,
+      "grad_norm": 0.16512851417064667,
+      "learning_rate": 0.0009813655146561709,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 47320080,
+      "step": 21880
+    },
+    {
+      "epoch": 3.5701468189233276,
+      "grad_norm": 0.1547977477312088,
+      "learning_rate": 0.0009813462584371236,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 47331952,
+      "step": 21885
+    },
+    {
+      "epoch": 3.570962479608483,
+      "grad_norm": 0.10016020387411118,
+      "learning_rate": 0.0009813269924629838,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 47342864,
+      "step": 21890
+    },
+    {
+      "epoch": 3.5717781402936377,
+      "grad_norm": 0.12822580337524414,
+      "learning_rate": 0.000981307716734142,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 47353296,
+      "step": 21895
+    },
+    {
+      "epoch": 3.572593800978793,
+      "grad_norm": 0.14780253171920776,
+      "learning_rate": 0.0009812884312509883,
+      "loss": 0.132,
+      "num_input_tokens_seen": 47364720,
+      "step": 21900
+    },
+    {
+      "epoch": 3.573409461663948,
+      "grad_norm": 0.0791921615600586,
+      "learning_rate": 0.0009812691360139144,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 47375920,
+      "step": 21905
+    },
+    {
+      "epoch": 3.5742251223491026,
+      "grad_norm": 0.005884220823645592,
+      "learning_rate": 0.000981249831023311,
+      "loss": 0.1976,
+      "num_input_tokens_seen": 47388144,
+      "step": 21910
+    },
+    {
+      "epoch": 3.575040783034258,
+      "grad_norm": 0.052293986082077026,
+      "learning_rate": 0.000981230516279569,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 47398640,
+      "step": 21915
+    },
+    {
+      "epoch": 3.5758564437194127,
+      "grad_norm": 0.047704145312309265,
+      "learning_rate": 0.0009812111917830801,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 47410000,
+      "step": 21920
+    },
+    {
+      "epoch": 3.576672104404568,
+      "grad_norm": 0.12634558975696564,
+      "learning_rate": 0.000981191857534236,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 47419824,
+      "step": 21925
+    },
+    {
+      "epoch": 3.5774877650897228,
+      "grad_norm": 0.27708667516708374,
+      "learning_rate": 0.0009811725135334287,
+      "loss": 0.2807,
+      "num_input_tokens_seen": 47431120,
+      "step": 21930
+    },
+    {
+      "epoch": 3.5783034257748776,
+      "grad_norm": 0.05823507532477379,
+      "learning_rate": 0.0009811531597810497,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 47441232,
+      "step": 21935
+    },
+    {
+      "epoch": 3.5791190864600324,
+      "grad_norm": 0.034099794924259186,
+      "learning_rate": 0.0009811337962774916,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 47451504,
+      "step": 21940
+    },
+    {
+      "epoch": 3.5799347471451877,
+      "grad_norm": 0.1668100655078888,
+      "learning_rate": 0.0009811144230231468,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 47463472,
+      "step": 21945
+    },
+    {
+      "epoch": 3.5807504078303425,
+      "grad_norm": 0.013046424835920334,
+      "learning_rate": 0.0009810950400184078,
+      "loss": 0.145,
+      "num_input_tokens_seen": 47474416,
+      "step": 21950
+    },
+    {
+      "epoch": 3.5815660685154977,
+      "grad_norm": 0.05839097872376442,
+      "learning_rate": 0.0009810756472636677,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 47486000,
+      "step": 21955
+    },
+    {
+      "epoch": 3.5823817292006526,
+      "grad_norm": 0.026946526020765305,
+      "learning_rate": 0.000981056244759319,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 47496464,
+      "step": 21960
+    },
+    {
+      "epoch": 3.5831973898858074,
+      "grad_norm": 0.02627391740679741,
+      "learning_rate": 0.0009810368325057555,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 47506800,
+      "step": 21965
+    },
+    {
+      "epoch": 3.5840130505709626,
+      "grad_norm": 0.01618942618370056,
+      "learning_rate": 0.0009810174105033703,
+      "loss": 0.1714,
+      "num_input_tokens_seen": 47517008,
+      "step": 21970
+    },
+    {
+      "epoch": 3.5848287112561175,
+      "grad_norm": 0.05231276527047157,
+      "learning_rate": 0.000980997978752557,
+      "loss": 0.1563,
+      "num_input_tokens_seen": 47528176,
+      "step": 21975
+    },
+    {
+      "epoch": 3.5856443719412723,
+      "grad_norm": 0.08935698866844177,
+      "learning_rate": 0.0009809785372537094,
+      "loss": 0.1748,
+      "num_input_tokens_seen": 47539248,
+      "step": 21980
+    },
+    {
+      "epoch": 3.5864600326264275,
+      "grad_norm": 0.015321357175707817,
+      "learning_rate": 0.0009809590860072217,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 47549712,
+      "step": 21985
+    },
+    {
+      "epoch": 3.5872756933115824,
+      "grad_norm": 0.08399423211812973,
+      "learning_rate": 0.0009809396250134881,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 47560432,
+      "step": 21990
+    },
+    {
+      "epoch": 3.588091353996737,
+      "grad_norm": 0.06792002171278,
+      "learning_rate": 0.0009809201542729028,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 47572112,
+      "step": 21995
+    },
+    {
+      "epoch": 3.5889070146818924,
+      "grad_norm": 0.008914710953831673,
+      "learning_rate": 0.0009809006737858603,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 47583184,
+      "step": 22000
+    },
+    {
+      "epoch": 3.5897226753670473,
+      "grad_norm": 0.004703295882791281,
+      "learning_rate": 0.0009808811835527557,
+      "loss": 0.1542,
+      "num_input_tokens_seen": 47594544,
+      "step": 22005
+    },
+    {
+      "epoch": 3.5905383360522025,
+      "grad_norm": 0.029907135292887688,
+      "learning_rate": 0.000980861683573984,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 47605136,
+      "step": 22010
+    },
+    {
+      "epoch": 3.5913539967373573,
+      "grad_norm": 0.23002728819847107,
+      "learning_rate": 0.00098084217384994,
+      "loss": 0.137,
+      "num_input_tokens_seen": 47615440,
+      "step": 22015
+    },
+    {
+      "epoch": 3.592169657422512,
+      "grad_norm": 0.06879785656929016,
+      "learning_rate": 0.0009808226543810198,
+      "loss": 0.05,
+      "num_input_tokens_seen": 47626128,
+      "step": 22020
+    },
+    {
+      "epoch": 3.592985318107667,
+      "grad_norm": 0.10355670005083084,
+      "learning_rate": 0.0009808031251676182,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 47636784,
+      "step": 22025
+    },
+    {
+      "epoch": 3.5938009787928222,
+      "grad_norm": 0.020710989832878113,
+      "learning_rate": 0.0009807835862101313,
+      "loss": 0.1934,
+      "num_input_tokens_seen": 47648624,
+      "step": 22030
+    },
+    {
+      "epoch": 3.594616639477977,
+      "grad_norm": 0.21865439414978027,
+      "learning_rate": 0.0009807640375089552,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 47659344,
+      "step": 22035
+    },
+    {
+      "epoch": 3.5954323001631323,
+      "grad_norm": 0.047853246331214905,
+      "learning_rate": 0.000980744479064486,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 47670064,
+      "step": 22040
+    },
+    {
+      "epoch": 3.596247960848287,
+      "grad_norm": 0.013760424219071865,
+      "learning_rate": 0.00098072491087712,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 47681264,
+      "step": 22045
+    },
+    {
+      "epoch": 3.597063621533442,
+      "grad_norm": 0.17822307348251343,
+      "learning_rate": 0.0009807053329472539,
+      "loss": 0.3183,
+      "num_input_tokens_seen": 47692304,
+      "step": 22050
+    },
+    {
+      "epoch": 3.597879282218597,
+      "grad_norm": 0.15463876724243164,
+      "learning_rate": 0.0009806857452752844,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 47703600,
+      "step": 22055
+    },
+    {
+      "epoch": 3.598694942903752,
+      "grad_norm": 0.025757692754268646,
+      "learning_rate": 0.0009806661478616084,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 47713520,
+      "step": 22060
+    },
+    {
+      "epoch": 3.5995106035889073,
+      "grad_norm": 0.026838814839720726,
+      "learning_rate": 0.000980646540706623,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 47723600,
+      "step": 22065
+    },
+    {
+      "epoch": 3.600326264274062,
+      "grad_norm": 0.021702522411942482,
+      "learning_rate": 0.0009806269238107261,
+      "loss": 0.1855,
+      "num_input_tokens_seen": 47733808,
+      "step": 22070
+    },
+    {
+      "epoch": 3.601141924959217,
+      "grad_norm": 0.06848857551813126,
+      "learning_rate": 0.0009806072971743148,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 47745296,
+      "step": 22075
+    },
+    {
+      "epoch": 3.6019575856443717,
+      "grad_norm": 0.03980998322367668,
+      "learning_rate": 0.000980587660797787,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 47754736,
+      "step": 22080
+    },
+    {
+      "epoch": 3.602773246329527,
+      "grad_norm": 0.01532980240881443,
+      "learning_rate": 0.00098056801468154,
+      "loss": 0.0586,
+      "num_input_tokens_seen": 47766160,
+      "step": 22085
+    },
+    {
+      "epoch": 3.603588907014682,
+      "grad_norm": 0.010872176848351955,
+      "learning_rate": 0.0009805483588259732,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 47777904,
+      "step": 22090
+    },
+    {
+      "epoch": 3.604404567699837,
+      "grad_norm": 0.04009169712662697,
+      "learning_rate": 0.000980528693231484,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 47789328,
+      "step": 22095
+    },
+    {
+      "epoch": 3.605220228384992,
+      "grad_norm": 0.010094402357935905,
+      "learning_rate": 0.0009805090178984712,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 47799472,
+      "step": 22100
+    },
+    {
+      "epoch": 3.6060358890701467,
+      "grad_norm": 0.06072307005524635,
+      "learning_rate": 0.0009804893328273336,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 47811248,
+      "step": 22105
+    },
+    {
+      "epoch": 3.6068515497553015,
+      "grad_norm": 0.05516495928168297,
+      "learning_rate": 0.0009804696380184704,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 47823152,
+      "step": 22110
+    },
+    {
+      "epoch": 3.607667210440457,
+      "grad_norm": 0.2074514776468277,
+      "learning_rate": 0.0009804499334722801,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 47834448,
+      "step": 22115
+    },
+    {
+      "epoch": 3.6084828711256116,
+      "grad_norm": 0.01784053072333336,
+      "learning_rate": 0.0009804302191891625,
+      "loss": 0.1881,
+      "num_input_tokens_seen": 47845360,
+      "step": 22120
+    },
+    {
+      "epoch": 3.609298531810767,
+      "grad_norm": 0.005364630371332169,
+      "learning_rate": 0.0009804104951695173,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 47854736,
+      "step": 22125
+    },
+    {
+      "epoch": 3.6101141924959217,
+      "grad_norm": 0.2547522187232971,
+      "learning_rate": 0.0009803907614137435,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 47866864,
+      "step": 22130
+    },
+    {
+      "epoch": 3.6109298531810765,
+      "grad_norm": 0.0751950666308403,
+      "learning_rate": 0.0009803710179222419,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 47877456,
+      "step": 22135
+    },
+    {
+      "epoch": 3.6117455138662318,
+      "grad_norm": 0.002935384400188923,
+      "learning_rate": 0.000980351264695412,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 47889392,
+      "step": 22140
+    },
+    {
+      "epoch": 3.6125611745513866,
+      "grad_norm": 0.026649711653590202,
+      "learning_rate": 0.0009803315017336545,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 47900016,
+      "step": 22145
+    },
+    {
+      "epoch": 3.613376835236542,
+      "grad_norm": 0.020435314625501633,
+      "learning_rate": 0.0009803117290373697,
+      "loss": 0.185,
+      "num_input_tokens_seen": 47910416,
+      "step": 22150
+    },
+    {
+      "epoch": 3.6141924959216967,
+      "grad_norm": 0.15744924545288086,
+      "learning_rate": 0.0009802919466069585,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 47921584,
+      "step": 22155
+    },
+    {
+      "epoch": 3.6150081566068515,
+      "grad_norm": 0.16279421746730804,
+      "learning_rate": 0.0009802721544428215,
+      "loss": 0.2165,
+      "num_input_tokens_seen": 47932016,
+      "step": 22160
+    },
+    {
+      "epoch": 3.6158238172920063,
+      "grad_norm": 0.0843036100268364,
+      "learning_rate": 0.0009802523525453601,
+      "loss": 0.2297,
+      "num_input_tokens_seen": 47942864,
+      "step": 22165
+    },
+    {
+      "epoch": 3.6166394779771616,
+      "grad_norm": 0.18664637207984924,
+      "learning_rate": 0.0009802325409149757,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 47953968,
+      "step": 22170
+    },
+    {
+      "epoch": 3.6174551386623164,
+      "grad_norm": 0.00876756850630045,
+      "learning_rate": 0.0009802127195520697,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 47964688,
+      "step": 22175
+    },
+    {
+      "epoch": 3.6182707993474716,
+      "grad_norm": 0.015477425418794155,
+      "learning_rate": 0.0009801928884570434,
+      "loss": 0.0471,
+      "num_input_tokens_seen": 47974992,
+      "step": 22180
+    },
+    {
+      "epoch": 3.6190864600326265,
+      "grad_norm": 0.07113178819417953,
+      "learning_rate": 0.0009801730476302992,
+      "loss": 0.1995,
+      "num_input_tokens_seen": 47984688,
+      "step": 22185
+    },
+    {
+      "epoch": 3.6199021207177813,
+      "grad_norm": 0.13852275907993317,
+      "learning_rate": 0.000980153197072239,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 47995792,
+      "step": 22190
+    },
+    {
+      "epoch": 3.6207177814029365,
+      "grad_norm": 0.09939780831336975,
+      "learning_rate": 0.0009801333367832651,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 48005424,
+      "step": 22195
+    },
+    {
+      "epoch": 3.6215334420880914,
+      "grad_norm": 0.07844390720129013,
+      "learning_rate": 0.0009801134667637803,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 48016368,
+      "step": 22200
+    },
+    {
+      "epoch": 3.622349102773246,
+      "grad_norm": 0.16363392770290375,
+      "learning_rate": 0.0009800935870141868,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 48027568,
+      "step": 22205
+    },
+    {
+      "epoch": 3.6231647634584014,
+      "grad_norm": 0.08116459101438522,
+      "learning_rate": 0.0009800736975348878,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 48039056,
+      "step": 22210
+    },
+    {
+      "epoch": 3.6239804241435563,
+      "grad_norm": 0.025155600160360336,
+      "learning_rate": 0.0009800537983262862,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 48049936,
+      "step": 22215
+    },
+    {
+      "epoch": 3.624796084828711,
+      "grad_norm": 0.11358506232500076,
+      "learning_rate": 0.0009800338893887857,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 48061232,
+      "step": 22220
+    },
+    {
+      "epoch": 3.6256117455138663,
+      "grad_norm": 0.16867463290691376,
+      "learning_rate": 0.000980013970722789,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 48072336,
+      "step": 22225
+    },
+    {
+      "epoch": 3.626427406199021,
+      "grad_norm": 0.12615631520748138,
+      "learning_rate": 0.0009799940423287005,
+      "loss": 0.188,
+      "num_input_tokens_seen": 48083792,
+      "step": 22230
+    },
+    {
+      "epoch": 3.6272430668841764,
+      "grad_norm": 0.027677416801452637,
+      "learning_rate": 0.000979974104206924,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 48094512,
+      "step": 22235
+    },
+    {
+      "epoch": 3.6280587275693312,
+      "grad_norm": 0.038241248577833176,
+      "learning_rate": 0.0009799541563578632,
+      "loss": 0.1908,
+      "num_input_tokens_seen": 48106416,
+      "step": 22240
+    },
+    {
+      "epoch": 3.628874388254486,
+      "grad_norm": 0.04931412637233734,
+      "learning_rate": 0.0009799341987819224,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 48117840,
+      "step": 22245
+    },
+    {
+      "epoch": 3.629690048939641,
+      "grad_norm": 0.028640341013669968,
+      "learning_rate": 0.0009799142314795065,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 48127888,
+      "step": 22250
+    },
+    {
+      "epoch": 3.630505709624796,
+      "grad_norm": 0.03567443788051605,
+      "learning_rate": 0.0009798942544510198,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 48137200,
+      "step": 22255
+    },
+    {
+      "epoch": 3.631321370309951,
+      "grad_norm": 0.06819088757038116,
+      "learning_rate": 0.000979874267696867,
+      "loss": 0.057,
+      "num_input_tokens_seen": 48147632,
+      "step": 22260
+    },
+    {
+      "epoch": 3.632137030995106,
+      "grad_norm": 0.1777115911245346,
+      "learning_rate": 0.0009798542712174537,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 48158064,
+      "step": 22265
+    },
+    {
+      "epoch": 3.632952691680261,
+      "grad_norm": 0.013221224769949913,
+      "learning_rate": 0.0009798342650131845,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 48168176,
+      "step": 22270
+    },
+    {
+      "epoch": 3.633768352365416,
+      "grad_norm": 0.09064479172229767,
+      "learning_rate": 0.0009798142490844656,
+      "loss": 0.2523,
+      "num_input_tokens_seen": 48179472,
+      "step": 22275
+    },
+    {
+      "epoch": 3.634584013050571,
+      "grad_norm": 0.09441931545734406,
+      "learning_rate": 0.0009797942234317022,
+      "loss": 0.1527,
+      "num_input_tokens_seen": 48189232,
+      "step": 22280
+    },
+    {
+      "epoch": 3.635399673735726,
+      "grad_norm": 0.1492157280445099,
+      "learning_rate": 0.0009797741880553,
+      "loss": 0.3185,
+      "num_input_tokens_seen": 48200496,
+      "step": 22285
+    },
+    {
+      "epoch": 3.636215334420881,
+      "grad_norm": 0.12546101212501526,
+      "learning_rate": 0.0009797541429556653,
+      "loss": 0.2057,
+      "num_input_tokens_seen": 48211280,
+      "step": 22290
+    },
+    {
+      "epoch": 3.637030995106036,
+      "grad_norm": 0.027052100747823715,
+      "learning_rate": 0.0009797340881332044,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 48221872,
+      "step": 22295
+    },
+    {
+      "epoch": 3.637846655791191,
+      "grad_norm": 0.04728303104639053,
+      "learning_rate": 0.0009797140235883236,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 48233616,
+      "step": 22300
+    },
+    {
+      "epoch": 3.6386623164763456,
+      "grad_norm": 0.10751637816429138,
+      "learning_rate": 0.0009796939493214294,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 48244976,
+      "step": 22305
+    },
+    {
+      "epoch": 3.639477977161501,
+      "grad_norm": 0.17382705211639404,
+      "learning_rate": 0.000979673865332929,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 48256016,
+      "step": 22310
+    },
+    {
+      "epoch": 3.6402936378466557,
+      "grad_norm": 0.0284186452627182,
+      "learning_rate": 0.0009796537716232289,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 48267632,
+      "step": 22315
+    },
+    {
+      "epoch": 3.641109298531811,
+      "grad_norm": 0.028015002608299255,
+      "learning_rate": 0.000979633668192737,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 48278544,
+      "step": 22320
+    },
+    {
+      "epoch": 3.641924959216966,
+      "grad_norm": 0.026279503479599953,
+      "learning_rate": 0.0009796135550418602,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 48289616,
+      "step": 22325
+    },
+    {
+      "epoch": 3.6427406199021206,
+      "grad_norm": 0.07529424875974655,
+      "learning_rate": 0.0009795934321710062,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 48300400,
+      "step": 22330
+    },
+    {
+      "epoch": 3.6435562805872754,
+      "grad_norm": 0.0067391046322882175,
+      "learning_rate": 0.0009795732995805829,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 48310448,
+      "step": 22335
+    },
+    {
+      "epoch": 3.6443719412724307,
+      "grad_norm": 0.24121522903442383,
+      "learning_rate": 0.0009795531572709983,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 48320688,
+      "step": 22340
+    },
+    {
+      "epoch": 3.6451876019575855,
+      "grad_norm": 0.06484576314687729,
+      "learning_rate": 0.0009795330052426608,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 48331376,
+      "step": 22345
+    },
+    {
+      "epoch": 3.6460032626427408,
+      "grad_norm": 0.05939403548836708,
+      "learning_rate": 0.0009795128434959785,
+      "loss": 0.1592,
+      "num_input_tokens_seen": 48342288,
+      "step": 22350
+    },
+    {
+      "epoch": 3.6468189233278956,
+      "grad_norm": 0.06702617555856705,
+      "learning_rate": 0.00097949267203136,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 48351440,
+      "step": 22355
+    },
+    {
+      "epoch": 3.6476345840130504,
+      "grad_norm": 0.04426341503858566,
+      "learning_rate": 0.0009794724908492143,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 48363632,
+      "step": 22360
+    },
+    {
+      "epoch": 3.6484502446982057,
+      "grad_norm": 0.0624653585255146,
+      "learning_rate": 0.0009794522999499503,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 48374512,
+      "step": 22365
+    },
+    {
+      "epoch": 3.6492659053833605,
+      "grad_norm": 0.10191851109266281,
+      "learning_rate": 0.0009794320993339772,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 48385232,
+      "step": 22370
+    },
+    {
+      "epoch": 3.6500815660685157,
+      "grad_norm": 0.2434154897928238,
+      "learning_rate": 0.0009794118890017046,
+      "loss": 0.1618,
+      "num_input_tokens_seen": 48396304,
+      "step": 22375
+    },
+    {
+      "epoch": 3.6508972267536706,
+      "grad_norm": 0.1698484867811203,
+      "learning_rate": 0.0009793916689535417,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 48406384,
+      "step": 22380
+    },
+    {
+      "epoch": 3.6517128874388254,
+      "grad_norm": 0.12525101006031036,
+      "learning_rate": 0.0009793714391898984,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 48416944,
+      "step": 22385
+    },
+    {
+      "epoch": 3.65252854812398,
+      "grad_norm": 0.14747369289398193,
+      "learning_rate": 0.000979351199711185,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 48426928,
+      "step": 22390
+    },
+    {
+      "epoch": 3.6533442088091355,
+      "grad_norm": 0.14484144747257233,
+      "learning_rate": 0.0009793309505178112,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 48437264,
+      "step": 22395
+    },
+    {
+      "epoch": 3.6541598694942903,
+      "grad_norm": 0.03382772579789162,
+      "learning_rate": 0.000979310691610188,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 48446160,
+      "step": 22400
+    },
+    {
+      "epoch": 3.6549755301794455,
+      "grad_norm": 0.06506810337305069,
+      "learning_rate": 0.0009792904229887253,
+      "loss": 0.102,
+      "num_input_tokens_seen": 48456944,
+      "step": 22405
+    },
+    {
+      "epoch": 3.6557911908646004,
+      "grad_norm": 0.2006702721118927,
+      "learning_rate": 0.0009792701446538342,
+      "loss": 0.2902,
+      "num_input_tokens_seen": 48468464,
+      "step": 22410
+    },
+    {
+      "epoch": 3.656606851549755,
+      "grad_norm": 0.04025622457265854,
+      "learning_rate": 0.0009792498566059255,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 48478864,
+      "step": 22415
+    },
+    {
+      "epoch": 3.6574225122349104,
+      "grad_norm": 0.04909409210085869,
+      "learning_rate": 0.0009792295588454106,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 48489456,
+      "step": 22420
+    },
+    {
+      "epoch": 3.6582381729200653,
+      "grad_norm": 0.2315702885389328,
+      "learning_rate": 0.0009792092513727006,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 48500496,
+      "step": 22425
+    },
+    {
+      "epoch": 3.65905383360522,
+      "grad_norm": 0.059401609003543854,
+      "learning_rate": 0.0009791889341882075,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 48511888,
+      "step": 22430
+    },
+    {
+      "epoch": 3.6598694942903753,
+      "grad_norm": 0.1892523616552353,
+      "learning_rate": 0.0009791686072923424,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 48522160,
+      "step": 22435
+    },
+    {
+      "epoch": 3.66068515497553,
+      "grad_norm": 0.006050454918295145,
+      "learning_rate": 0.0009791482706855178,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 48532272,
+      "step": 22440
+    },
+    {
+      "epoch": 3.661500815660685,
+      "grad_norm": 0.0315130352973938,
+      "learning_rate": 0.0009791279243681456,
+      "loss": 0.1565,
+      "num_input_tokens_seen": 48543120,
+      "step": 22445
+    },
+    {
+      "epoch": 3.6623164763458402,
+      "grad_norm": 0.015598422847688198,
+      "learning_rate": 0.0009791075683406383,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 48553648,
+      "step": 22450
+    },
+    {
+      "epoch": 3.663132137030995,
+      "grad_norm": 0.08075518906116486,
+      "learning_rate": 0.0009790872026034082,
+      "loss": 0.1476,
+      "num_input_tokens_seen": 48564240,
+      "step": 22455
+    },
+    {
+      "epoch": 3.6639477977161503,
+      "grad_norm": 0.035409845411777496,
+      "learning_rate": 0.0009790668271568684,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 48574320,
+      "step": 22460
+    },
+    {
+      "epoch": 3.664763458401305,
+      "grad_norm": 0.25173941254615784,
+      "learning_rate": 0.0009790464420014312,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 48584784,
+      "step": 22465
+    },
+    {
+      "epoch": 3.66557911908646,
+      "grad_norm": 0.056600235402584076,
+      "learning_rate": 0.0009790260471375105,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 48595440,
+      "step": 22470
+    },
+    {
+      "epoch": 3.6663947797716148,
+      "grad_norm": 0.12601543962955475,
+      "learning_rate": 0.0009790056425655193,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 48607920,
+      "step": 22475
+    },
+    {
+      "epoch": 3.66721044045677,
+      "grad_norm": 0.044781044125556946,
+      "learning_rate": 0.0009789852282858708,
+      "loss": 0.1691,
+      "num_input_tokens_seen": 48619696,
+      "step": 22480
+    },
+    {
+      "epoch": 3.668026101141925,
+      "grad_norm": 0.05876341462135315,
+      "learning_rate": 0.0009789648042989793,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 48630544,
+      "step": 22485
+    },
+    {
+      "epoch": 3.66884176182708,
+      "grad_norm": 0.007882521487772465,
+      "learning_rate": 0.0009789443706052583,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 48641072,
+      "step": 22490
+    },
+    {
+      "epoch": 3.669657422512235,
+      "grad_norm": 0.010897364467382431,
+      "learning_rate": 0.000978923927205122,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 48651792,
+      "step": 22495
+    },
+    {
+      "epoch": 3.6704730831973897,
+      "grad_norm": 0.04307050630450249,
+      "learning_rate": 0.0009789034740989848,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 48661296,
+      "step": 22500
+    },
+    {
+      "epoch": 3.671288743882545,
+      "grad_norm": 0.4440848231315613,
+      "learning_rate": 0.0009788830112872611,
+      "loss": 0.099,
+      "num_input_tokens_seen": 48671312,
+      "step": 22505
+    },
+    {
+      "epoch": 3.6721044045677,
+      "grad_norm": 0.22522272169589996,
+      "learning_rate": 0.0009788625387703658,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 48681680,
+      "step": 22510
+    },
+    {
+      "epoch": 3.672920065252855,
+      "grad_norm": 0.23165500164031982,
+      "learning_rate": 0.0009788420565487136,
+      "loss": 0.2092,
+      "num_input_tokens_seen": 48692912,
+      "step": 22515
+    },
+    {
+      "epoch": 3.67373572593801,
+      "grad_norm": 0.07002677768468857,
+      "learning_rate": 0.0009788215646227196,
+      "loss": 0.2015,
+      "num_input_tokens_seen": 48704912,
+      "step": 22520
+    },
+    {
+      "epoch": 3.6745513866231647,
+      "grad_norm": 0.09665162861347198,
+      "learning_rate": 0.0009788010629927992,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 48713232,
+      "step": 22525
+    },
+    {
+      "epoch": 3.6753670473083195,
+      "grad_norm": 0.038766391575336456,
+      "learning_rate": 0.000978780551659368,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 48724976,
+      "step": 22530
+    },
+    {
+      "epoch": 3.676182707993475,
+      "grad_norm": 0.05711549147963524,
+      "learning_rate": 0.0009787600306228415,
+      "loss": 0.2448,
+      "num_input_tokens_seen": 48736624,
+      "step": 22535
+    },
+    {
+      "epoch": 3.6769983686786296,
+      "grad_norm": 0.09710178524255753,
+      "learning_rate": 0.0009787394998836355,
+      "loss": 0.0471,
+      "num_input_tokens_seen": 48747696,
+      "step": 22540
+    },
+    {
+      "epoch": 3.677814029363785,
+      "grad_norm": 0.2320680022239685,
+      "learning_rate": 0.0009787189594421663,
+      "loss": 0.117,
+      "num_input_tokens_seen": 48759632,
+      "step": 22545
+    },
+    {
+      "epoch": 3.6786296900489397,
+      "grad_norm": 0.08304693549871445,
+      "learning_rate": 0.00097869840929885,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 48771152,
+      "step": 22550
+    },
+    {
+      "epoch": 3.6794453507340945,
+      "grad_norm": 0.13316458463668823,
+      "learning_rate": 0.0009786778494541033,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 48783312,
+      "step": 22555
+    },
+    {
+      "epoch": 3.6802610114192493,
+      "grad_norm": 0.009458227083086967,
+      "learning_rate": 0.0009786572799083426,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 48795728,
+      "step": 22560
+    },
+    {
+      "epoch": 3.6810766721044046,
+      "grad_norm": 0.1085597574710846,
+      "learning_rate": 0.000978636700661985,
+      "loss": 0.1794,
+      "num_input_tokens_seen": 48807152,
+      "step": 22565
+    },
+    {
+      "epoch": 3.6818923327895594,
+      "grad_norm": 0.11425057798624039,
+      "learning_rate": 0.0009786161117154475,
+      "loss": 0.1324,
+      "num_input_tokens_seen": 48817072,
+      "step": 22570
+    },
+    {
+      "epoch": 3.6827079934747147,
+      "grad_norm": 0.011296875774860382,
+      "learning_rate": 0.0009785955130691471,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 48828080,
+      "step": 22575
+    },
+    {
+      "epoch": 3.6835236541598695,
+      "grad_norm": 0.027069205418229103,
+      "learning_rate": 0.0009785749047235017,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 48838192,
+      "step": 22580
+    },
+    {
+      "epoch": 3.6843393148450243,
+      "grad_norm": 0.043377745896577835,
+      "learning_rate": 0.0009785542866789288,
+      "loss": 0.04,
+      "num_input_tokens_seen": 48849904,
+      "step": 22585
+    },
+    {
+      "epoch": 3.6851549755301796,
+      "grad_norm": 0.017865043133497238,
+      "learning_rate": 0.000978533658935846,
+      "loss": 0.3016,
+      "num_input_tokens_seen": 48861200,
+      "step": 22590
+    },
+    {
+      "epoch": 3.6859706362153344,
+      "grad_norm": 0.11259305477142334,
+      "learning_rate": 0.0009785130214946716,
+      "loss": 0.09,
+      "num_input_tokens_seen": 48871760,
+      "step": 22595
+    },
+    {
+      "epoch": 3.6867862969004896,
+      "grad_norm": 0.023715078830718994,
+      "learning_rate": 0.0009784923743558238,
+      "loss": 0.0522,
+      "num_input_tokens_seen": 48882128,
+      "step": 22600
+    },
+    {
+      "epoch": 3.6876019575856445,
+      "grad_norm": 0.021904323250055313,
+      "learning_rate": 0.000978471717519721,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 48891824,
+      "step": 22605
+    },
+    {
+      "epoch": 3.6884176182707993,
+      "grad_norm": 0.13719536364078522,
+      "learning_rate": 0.0009784510509867818,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 48903888,
+      "step": 22610
+    },
+    {
+      "epoch": 3.689233278955954,
+      "grad_norm": 0.08701768517494202,
+      "learning_rate": 0.0009784303747574254,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 48914480,
+      "step": 22615
+    },
+    {
+      "epoch": 3.6900489396411094,
+      "grad_norm": 0.13661521673202515,
+      "learning_rate": 0.0009784096888320703,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 48925680,
+      "step": 22620
+    },
+    {
+      "epoch": 3.690864600326264,
+      "grad_norm": 0.009991122409701347,
+      "learning_rate": 0.000978388993211136,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 48937072,
+      "step": 22625
+    },
+    {
+      "epoch": 3.6916802610114194,
+      "grad_norm": 0.08614683896303177,
+      "learning_rate": 0.0009783682878950416,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 48948240,
+      "step": 22630
+    },
+    {
+      "epoch": 3.6924959216965743,
+      "grad_norm": 0.10593032091856003,
+      "learning_rate": 0.0009783475728842074,
+      "loss": 0.1475,
+      "num_input_tokens_seen": 48958320,
+      "step": 22635
+    },
+    {
+      "epoch": 3.693311582381729,
+      "grad_norm": 0.20387686789035797,
+      "learning_rate": 0.0009783268481790527,
+      "loss": 0.1945,
+      "num_input_tokens_seen": 48969840,
+      "step": 22640
+    },
+    {
+      "epoch": 3.6941272430668843,
+      "grad_norm": 0.059103433042764664,
+      "learning_rate": 0.0009783061137799975,
+      "loss": 0.124,
+      "num_input_tokens_seen": 48981744,
+      "step": 22645
+    },
+    {
+      "epoch": 3.694942903752039,
+      "grad_norm": 0.08534158766269684,
+      "learning_rate": 0.000978285369687462,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 48992368,
+      "step": 22650
+    },
+    {
+      "epoch": 3.695758564437194,
+      "grad_norm": 0.025781484320759773,
+      "learning_rate": 0.000978264615901867,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 49003120,
+      "step": 22655
+    },
+    {
+      "epoch": 3.6965742251223492,
+      "grad_norm": 0.19997680187225342,
+      "learning_rate": 0.0009782438524236327,
+      "loss": 0.1823,
+      "num_input_tokens_seen": 49014256,
+      "step": 22660
+    },
+    {
+      "epoch": 3.697389885807504,
+      "grad_norm": 0.03971175104379654,
+      "learning_rate": 0.00097822307925318,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 49025232,
+      "step": 22665
+    },
+    {
+      "epoch": 3.698205546492659,
+      "grad_norm": 0.32710427045822144,
+      "learning_rate": 0.00097820229639093,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 49036176,
+      "step": 22670
+    },
+    {
+      "epoch": 3.699021207177814,
+      "grad_norm": 0.1855972707271576,
+      "learning_rate": 0.0009781815038373042,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 49046832,
+      "step": 22675
+    },
+    {
+      "epoch": 3.699836867862969,
+      "grad_norm": 0.028964513912796974,
+      "learning_rate": 0.000978160701592723,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 49057264,
+      "step": 22680
+    },
+    {
+      "epoch": 3.700652528548124,
+      "grad_norm": 0.04488237202167511,
+      "learning_rate": 0.000978139889657609,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 49068592,
+      "step": 22685
+    },
+    {
+      "epoch": 3.701468189233279,
+      "grad_norm": 0.00563571834936738,
+      "learning_rate": 0.0009781190680323833,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 49078640,
+      "step": 22690
+    },
+    {
+      "epoch": 3.702283849918434,
+      "grad_norm": 0.10360507667064667,
+      "learning_rate": 0.0009780982367174683,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 49089616,
+      "step": 22695
+    },
+    {
+      "epoch": 3.7030995106035887,
+      "grad_norm": 0.1571696400642395,
+      "learning_rate": 0.000978077395713286,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 49099312,
+      "step": 22700
+    },
+    {
+      "epoch": 3.703915171288744,
+      "grad_norm": 0.04751509800553322,
+      "learning_rate": 0.0009780565450202587,
+      "loss": 0.1661,
+      "num_input_tokens_seen": 49111056,
+      "step": 22705
+    },
+    {
+      "epoch": 3.7047308319738987,
+      "grad_norm": 0.2686530351638794,
+      "learning_rate": 0.0009780356846388091,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 49122352,
+      "step": 22710
+    },
+    {
+      "epoch": 3.705546492659054,
+      "grad_norm": 0.11259738355875015,
+      "learning_rate": 0.00097801481456936,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 49133136,
+      "step": 22715
+    },
+    {
+      "epoch": 3.706362153344209,
+      "grad_norm": 0.1789553016424179,
+      "learning_rate": 0.0009779939348123342,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 49143952,
+      "step": 22720
+    },
+    {
+      "epoch": 3.7071778140293636,
+      "grad_norm": 0.01377193909138441,
+      "learning_rate": 0.000977973045368155,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 49154864,
+      "step": 22725
+    },
+    {
+      "epoch": 3.707993474714519,
+      "grad_norm": 0.1669149249792099,
+      "learning_rate": 0.0009779521462372457,
+      "loss": 0.1535,
+      "num_input_tokens_seen": 49166192,
+      "step": 22730
+    },
+    {
+      "epoch": 3.7088091353996737,
+      "grad_norm": 0.010271217674016953,
+      "learning_rate": 0.0009779312374200298,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 49177136,
+      "step": 22735
+    },
+    {
+      "epoch": 3.709624796084829,
+      "grad_norm": 0.11398719996213913,
+      "learning_rate": 0.0009779103189169309,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 49187440,
+      "step": 22740
+    },
+    {
+      "epoch": 3.710440456769984,
+      "grad_norm": 0.07981985062360764,
+      "learning_rate": 0.0009778893907283733,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 49199056,
+      "step": 22745
+    },
+    {
+      "epoch": 3.7112561174551386,
+      "grad_norm": 0.25845813751220703,
+      "learning_rate": 0.000977868452854781,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 49208720,
+      "step": 22750
+    },
+    {
+      "epoch": 3.7120717781402934,
+      "grad_norm": 0.15199466049671173,
+      "learning_rate": 0.000977847505296578,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 49219056,
+      "step": 22755
+    },
+    {
+      "epoch": 3.7128874388254487,
+      "grad_norm": 0.14639122784137726,
+      "learning_rate": 0.0009778265480541895,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 49229232,
+      "step": 22760
+    },
+    {
+      "epoch": 3.7137030995106035,
+      "grad_norm": 0.011554457247257233,
+      "learning_rate": 0.0009778055811280396,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 49241456,
+      "step": 22765
+    },
+    {
+      "epoch": 3.7145187601957588,
+      "grad_norm": 0.009976423345506191,
+      "learning_rate": 0.0009777846045185535,
+      "loss": 0.1987,
+      "num_input_tokens_seen": 49252144,
+      "step": 22770
+    },
+    {
+      "epoch": 3.7153344208809136,
+      "grad_norm": 0.07433804869651794,
+      "learning_rate": 0.0009777636182261562,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 49262416,
+      "step": 22775
+    },
+    {
+      "epoch": 3.7161500815660684,
+      "grad_norm": 0.02024008147418499,
+      "learning_rate": 0.0009777426222512733,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 49274224,
+      "step": 22780
+    },
+    {
+      "epoch": 3.7169657422512232,
+      "grad_norm": 0.09279941767454147,
+      "learning_rate": 0.0009777216165943298,
+      "loss": 0.1684,
+      "num_input_tokens_seen": 49284656,
+      "step": 22785
+    },
+    {
+      "epoch": 3.7177814029363785,
+      "grad_norm": 0.07832145690917969,
+      "learning_rate": 0.0009777006012557522,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 49294896,
+      "step": 22790
+    },
+    {
+      "epoch": 3.7185970636215333,
+      "grad_norm": 0.06239181011915207,
+      "learning_rate": 0.0009776795762359654,
+      "loss": 0.164,
+      "num_input_tokens_seen": 49305200,
+      "step": 22795
+    },
+    {
+      "epoch": 3.7194127243066886,
+      "grad_norm": 0.05114758387207985,
+      "learning_rate": 0.0009776585415353963,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 49316080,
+      "step": 22800
+    },
+    {
+      "epoch": 3.7202283849918434,
+      "grad_norm": 0.017731616273522377,
+      "learning_rate": 0.0009776374971544708,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 49327024,
+      "step": 22805
+    },
+    {
+      "epoch": 3.721044045676998,
+      "grad_norm": 0.06036202982068062,
+      "learning_rate": 0.0009776164430936153,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 49338224,
+      "step": 22810
+    },
+    {
+      "epoch": 3.7218597063621535,
+      "grad_norm": 0.013572810217738152,
+      "learning_rate": 0.000977595379353257,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 49349936,
+      "step": 22815
+    },
+    {
+      "epoch": 3.7226753670473083,
+      "grad_norm": 0.015775786712765694,
+      "learning_rate": 0.0009775743059338223,
+      "loss": 0.122,
+      "num_input_tokens_seen": 49361200,
+      "step": 22820
+    },
+    {
+      "epoch": 3.7234910277324635,
+      "grad_norm": 0.030214644968509674,
+      "learning_rate": 0.0009775532228357385,
+      "loss": 0.3579,
+      "num_input_tokens_seen": 49372976,
+      "step": 22825
+    },
+    {
+      "epoch": 3.7243066884176184,
+      "grad_norm": 0.041531722992658615,
+      "learning_rate": 0.0009775321300594328,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 49383824,
+      "step": 22830
+    },
+    {
+      "epoch": 3.725122349102773,
+      "grad_norm": 0.08106119930744171,
+      "learning_rate": 0.0009775110276053327,
+      "loss": 0.1839,
+      "num_input_tokens_seen": 49395504,
+      "step": 22835
+    },
+    {
+      "epoch": 3.725938009787928,
+      "grad_norm": 0.020309995859861374,
+      "learning_rate": 0.000977489915473866,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 49404176,
+      "step": 22840
+    },
+    {
+      "epoch": 3.7267536704730833,
+      "grad_norm": 0.04128960520029068,
+      "learning_rate": 0.0009774687936654602,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 49413776,
+      "step": 22845
+    },
+    {
+      "epoch": 3.727569331158238,
+      "grad_norm": 0.024078309535980225,
+      "learning_rate": 0.0009774476621805437,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 49424848,
+      "step": 22850
+    },
+    {
+      "epoch": 3.7283849918433933,
+      "grad_norm": 0.0830194428563118,
+      "learning_rate": 0.0009774265210195446,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 49436880,
+      "step": 22855
+    },
+    {
+      "epoch": 3.729200652528548,
+      "grad_norm": 0.16092805564403534,
+      "learning_rate": 0.0009774053701828913,
+      "loss": 0.2289,
+      "num_input_tokens_seen": 49448048,
+      "step": 22860
+    },
+    {
+      "epoch": 3.730016313213703,
+      "grad_norm": 0.20131917297840118,
+      "learning_rate": 0.0009773842096710127,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 49458544,
+      "step": 22865
+    },
+    {
+      "epoch": 3.7308319738988582,
+      "grad_norm": 0.21859797835350037,
+      "learning_rate": 0.0009773630394843374,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 49467344,
+      "step": 22870
+    },
+    {
+      "epoch": 3.731647634584013,
+      "grad_norm": 0.18565644323825836,
+      "learning_rate": 0.0009773418596232945,
+      "loss": 0.1809,
+      "num_input_tokens_seen": 49478064,
+      "step": 22875
+    },
+    {
+      "epoch": 3.732463295269168,
+      "grad_norm": 0.051977213472127914,
+      "learning_rate": 0.0009773206700883135,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 49488464,
+      "step": 22880
+    },
+    {
+      "epoch": 3.733278955954323,
+      "grad_norm": 0.027007022872567177,
+      "learning_rate": 0.0009772994708798232,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 49501264,
+      "step": 22885
+    },
+    {
+      "epoch": 3.734094616639478,
+      "grad_norm": 0.19858905673027039,
+      "learning_rate": 0.000977278261998254,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 49511408,
+      "step": 22890
+    },
+    {
+      "epoch": 3.7349102773246328,
+      "grad_norm": 0.09167278558015823,
+      "learning_rate": 0.0009772570434440353,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 49522896,
+      "step": 22895
+    },
+    {
+      "epoch": 3.735725938009788,
+      "grad_norm": 0.03391212224960327,
+      "learning_rate": 0.000977235815217597,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 49535120,
+      "step": 22900
+    },
+    {
+      "epoch": 3.736541598694943,
+      "grad_norm": 0.0225540641695261,
+      "learning_rate": 0.0009772145773193695,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 49546448,
+      "step": 22905
+    },
+    {
+      "epoch": 3.737357259380098,
+      "grad_norm": 0.06987614184617996,
+      "learning_rate": 0.0009771933297497831,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 49557488,
+      "step": 22910
+    },
+    {
+      "epoch": 3.738172920065253,
+      "grad_norm": 0.04545498266816139,
+      "learning_rate": 0.0009771720725092687,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 49567088,
+      "step": 22915
+    },
+    {
+      "epoch": 3.7389885807504077,
+      "grad_norm": 0.015980003401637077,
+      "learning_rate": 0.000977150805598257,
+      "loss": 0.2011,
+      "num_input_tokens_seen": 49578544,
+      "step": 22920
+    },
+    {
+      "epoch": 3.7398042414355626,
+      "grad_norm": 0.12308619171380997,
+      "learning_rate": 0.0009771295290171788,
+      "loss": 0.1587,
+      "num_input_tokens_seen": 49590000,
+      "step": 22925
+    },
+    {
+      "epoch": 3.740619902120718,
+      "grad_norm": 0.022953316569328308,
+      "learning_rate": 0.0009771082427664655,
+      "loss": 0.3003,
+      "num_input_tokens_seen": 49601328,
+      "step": 22930
+    },
+    {
+      "epoch": 3.7414355628058726,
+      "grad_norm": 0.020980946719646454,
+      "learning_rate": 0.0009770869468465483,
+      "loss": 0.066,
+      "num_input_tokens_seen": 49613264,
+      "step": 22935
+    },
+    {
+      "epoch": 3.742251223491028,
+      "grad_norm": 0.08716975897550583,
+      "learning_rate": 0.000977065641257859,
+      "loss": 0.117,
+      "num_input_tokens_seen": 49622352,
+      "step": 22940
+    },
+    {
+      "epoch": 3.7430668841761827,
+      "grad_norm": 0.2300471067428589,
+      "learning_rate": 0.000977044326000829,
+      "loss": 0.3114,
+      "num_input_tokens_seen": 49633264,
+      "step": 22945
+    },
+    {
+      "epoch": 3.7438825448613375,
+      "grad_norm": 0.08867449313402176,
+      "learning_rate": 0.0009770230010758907,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 49644432,
+      "step": 22950
+    },
+    {
+      "epoch": 3.744698205546493,
+      "grad_norm": 0.19246956706047058,
+      "learning_rate": 0.0009770016664834762,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 49656432,
+      "step": 22955
+    },
+    {
+      "epoch": 3.7455138662316476,
+      "grad_norm": 0.021392393857240677,
+      "learning_rate": 0.000976980322224018,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 49667600,
+      "step": 22960
+    },
+    {
+      "epoch": 3.746329526916803,
+      "grad_norm": 0.22876377403736115,
+      "learning_rate": 0.0009769589682979481,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 49678576,
+      "step": 22965
+    },
+    {
+      "epoch": 3.7471451876019577,
+      "grad_norm": 0.12781397998332977,
+      "learning_rate": 0.0009769376047056998,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 49689296,
+      "step": 22970
+    },
+    {
+      "epoch": 3.7479608482871125,
+      "grad_norm": 0.17140617966651917,
+      "learning_rate": 0.0009769162314477058,
+      "loss": 0.2144,
+      "num_input_tokens_seen": 49700208,
+      "step": 22975
+    },
+    {
+      "epoch": 3.7487765089722673,
+      "grad_norm": 0.013391259126365185,
+      "learning_rate": 0.0009768948485243997,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 49711696,
+      "step": 22980
+    },
+    {
+      "epoch": 3.7495921696574226,
+      "grad_norm": 0.04102994501590729,
+      "learning_rate": 0.0009768734559362142,
+      "loss": 0.1631,
+      "num_input_tokens_seen": 49721904,
+      "step": 22985
+    },
+    {
+      "epoch": 3.7504078303425774,
+      "grad_norm": 0.08313404023647308,
+      "learning_rate": 0.0009768520536835832,
+      "loss": 0.2573,
+      "num_input_tokens_seen": 49733328,
+      "step": 22990
+    },
+    {
+      "epoch": 3.7512234910277327,
+      "grad_norm": 0.21866433322429657,
+      "learning_rate": 0.0009768306417669405,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 49744560,
+      "step": 22995
+    },
+    {
+      "epoch": 3.7520391517128875,
+      "grad_norm": 0.027432316914200783,
+      "learning_rate": 0.00097680922018672,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 49756944,
+      "step": 23000
+    },
+    {
+      "epoch": 3.7528548123980423,
+      "grad_norm": 0.03837420046329498,
+      "learning_rate": 0.0009767877889433555,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 49765776,
+      "step": 23005
+    },
+    {
+      "epoch": 3.753670473083197,
+      "grad_norm": 0.09529531747102737,
+      "learning_rate": 0.0009767663480372817,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 49776400,
+      "step": 23010
+    },
+    {
+      "epoch": 3.7544861337683524,
+      "grad_norm": 0.10651466995477676,
+      "learning_rate": 0.0009767448974689332,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 49787408,
+      "step": 23015
+    },
+    {
+      "epoch": 3.755301794453507,
+      "grad_norm": 0.02113129198551178,
+      "learning_rate": 0.0009767234372387444,
+      "loss": 0.1721,
+      "num_input_tokens_seen": 49797456,
+      "step": 23020
+    },
+    {
+      "epoch": 3.7561174551386625,
+      "grad_norm": 0.14945995807647705,
+      "learning_rate": 0.0009767019673471505,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 49809328,
+      "step": 23025
+    },
+    {
+      "epoch": 3.7569331158238173,
+      "grad_norm": 0.021181615069508553,
+      "learning_rate": 0.0009766804877945864,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 49819664,
+      "step": 23030
+    },
+    {
+      "epoch": 3.757748776508972,
+      "grad_norm": 0.07378098368644714,
+      "learning_rate": 0.0009766589985814875,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 49831088,
+      "step": 23035
+    },
+    {
+      "epoch": 3.7585644371941274,
+      "grad_norm": 0.011933263391256332,
+      "learning_rate": 0.0009766374997082893,
+      "loss": 0.138,
+      "num_input_tokens_seen": 49842864,
+      "step": 23040
+    },
+    {
+      "epoch": 3.759380097879282,
+      "grad_norm": 0.07167614996433258,
+      "learning_rate": 0.0009766159911754277,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 49852848,
+      "step": 23045
+    },
+    {
+      "epoch": 3.7601957585644374,
+      "grad_norm": 0.012339459732174873,
+      "learning_rate": 0.0009765944729833382,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 49863088,
+      "step": 23050
+    },
+    {
+      "epoch": 3.7610114192495923,
+      "grad_norm": 0.1635027825832367,
+      "learning_rate": 0.0009765729451324573,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 49873840,
+      "step": 23055
+    },
+    {
+      "epoch": 3.761827079934747,
+      "grad_norm": 0.1554376184940338,
+      "learning_rate": 0.000976551407623221,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 49883888,
+      "step": 23060
+    },
+    {
+      "epoch": 3.762642740619902,
+      "grad_norm": 0.011004294268786907,
+      "learning_rate": 0.0009765298604560657,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 49894448,
+      "step": 23065
+    },
+    {
+      "epoch": 3.763458401305057,
+      "grad_norm": 0.014040950685739517,
+      "learning_rate": 0.0009765083036314284,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 49904400,
+      "step": 23070
+    },
+    {
+      "epoch": 3.764274061990212,
+      "grad_norm": 0.017209839075803757,
+      "learning_rate": 0.0009764867371497459,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 49915184,
+      "step": 23075
+    },
+    {
+      "epoch": 3.7650897226753672,
+      "grad_norm": 0.24092888832092285,
+      "learning_rate": 0.000976465161011455,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 49926128,
+      "step": 23080
+    },
+    {
+      "epoch": 3.765905383360522,
+      "grad_norm": 0.10889220982789993,
+      "learning_rate": 0.0009764435752169933,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 49936432,
+      "step": 23085
+    },
+    {
+      "epoch": 3.766721044045677,
+      "grad_norm": 0.0978965014219284,
+      "learning_rate": 0.0009764219797667982,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 49947760,
+      "step": 23090
+    },
+    {
+      "epoch": 3.767536704730832,
+      "grad_norm": 0.3926611542701721,
+      "learning_rate": 0.0009764003746613073,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 49958704,
+      "step": 23095
+    },
+    {
+      "epoch": 3.768352365415987,
+      "grad_norm": 0.2822864055633545,
+      "learning_rate": 0.0009763787599009583,
+      "loss": 0.1521,
+      "num_input_tokens_seen": 49970064,
+      "step": 23100
+    },
+    {
+      "epoch": 3.7691680261011418,
+      "grad_norm": 0.014437035657465458,
+      "learning_rate": 0.0009763571354861895,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 49980976,
+      "step": 23105
+    },
+    {
+      "epoch": 3.769983686786297,
+      "grad_norm": 0.17819297313690186,
+      "learning_rate": 0.0009763355014174391,
+      "loss": 0.2183,
+      "num_input_tokens_seen": 49991024,
+      "step": 23110
+    },
+    {
+      "epoch": 3.770799347471452,
+      "grad_norm": 0.016189444810152054,
+      "learning_rate": 0.0009763138576951454,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 50001680,
+      "step": 23115
+    },
+    {
+      "epoch": 3.7716150081566067,
+      "grad_norm": 0.03998810052871704,
+      "learning_rate": 0.0009762922043197471,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 50012112,
+      "step": 23120
+    },
+    {
+      "epoch": 3.772430668841762,
+      "grad_norm": 0.02609841711819172,
+      "learning_rate": 0.0009762705412916831,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 50022768,
+      "step": 23125
+    },
+    {
+      "epoch": 3.7732463295269167,
+      "grad_norm": 0.006209354382008314,
+      "learning_rate": 0.0009762488686113924,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 50034320,
+      "step": 23130
+    },
+    {
+      "epoch": 3.774061990212072,
+      "grad_norm": 0.04003912955522537,
+      "learning_rate": 0.0009762271862793143,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 50044304,
+      "step": 23135
+    },
+    {
+      "epoch": 3.774877650897227,
+      "grad_norm": 0.021071631461381912,
+      "learning_rate": 0.000976205494295888,
+      "loss": 0.1904,
+      "num_input_tokens_seen": 50052976,
+      "step": 23140
+    },
+    {
+      "epoch": 3.7756933115823816,
+      "grad_norm": 0.07991696894168854,
+      "learning_rate": 0.0009761837926615533,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 50064624,
+      "step": 23145
+    },
+    {
+      "epoch": 3.7765089722675365,
+      "grad_norm": 0.0656970888376236,
+      "learning_rate": 0.00097616208137675,
+      "loss": 0.1568,
+      "num_input_tokens_seen": 50075696,
+      "step": 23150
+    },
+    {
+      "epoch": 3.7773246329526917,
+      "grad_norm": 0.22373802959918976,
+      "learning_rate": 0.000976140360441918,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 50086096,
+      "step": 23155
+    },
+    {
+      "epoch": 3.7781402936378465,
+      "grad_norm": 0.034465014934539795,
+      "learning_rate": 0.0009761186298574975,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 50097520,
+      "step": 23160
+    },
+    {
+      "epoch": 3.778955954323002,
+      "grad_norm": 0.041891466826200485,
+      "learning_rate": 0.0009760968896239291,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 50108880,
+      "step": 23165
+    },
+    {
+      "epoch": 3.7797716150081566,
+      "grad_norm": 0.06839856505393982,
+      "learning_rate": 0.0009760751397416532,
+      "loss": 0.089,
+      "num_input_tokens_seen": 50119504,
+      "step": 23170
+    },
+    {
+      "epoch": 3.7805872756933114,
+      "grad_norm": 0.014309341087937355,
+      "learning_rate": 0.0009760533802111107,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 50130640,
+      "step": 23175
+    },
+    {
+      "epoch": 3.7814029363784667,
+      "grad_norm": 0.15914183855056763,
+      "learning_rate": 0.0009760316110327426,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 50141616,
+      "step": 23180
+    },
+    {
+      "epoch": 3.7822185970636215,
+      "grad_norm": 0.3128720223903656,
+      "learning_rate": 0.00097600983220699,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 50152336,
+      "step": 23185
+    },
+    {
+      "epoch": 3.7830342577487768,
+      "grad_norm": 0.09936369210481644,
+      "learning_rate": 0.0009759880437342941,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 50163088,
+      "step": 23190
+    },
+    {
+      "epoch": 3.7838499184339316,
+      "grad_norm": 0.2154925912618637,
+      "learning_rate": 0.0009759662456150967,
+      "loss": 0.1918,
+      "num_input_tokens_seen": 50173648,
+      "step": 23195
+    },
+    {
+      "epoch": 3.7846655791190864,
+      "grad_norm": 0.01144491694867611,
+      "learning_rate": 0.0009759444378498397,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 50184816,
+      "step": 23200
+    },
+    {
+      "epoch": 3.7854812398042412,
+      "grad_norm": 0.014319537207484245,
+      "learning_rate": 0.0009759226204389646,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 50196560,
+      "step": 23205
+    },
+    {
+      "epoch": 3.7862969004893965,
+      "grad_norm": 0.025292597711086273,
+      "learning_rate": 0.0009759007933829141,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 50207824,
+      "step": 23210
+    },
+    {
+      "epoch": 3.7871125611745513,
+      "grad_norm": 0.08496753871440887,
+      "learning_rate": 0.0009758789566821302,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 50219216,
+      "step": 23215
+    },
+    {
+      "epoch": 3.7879282218597066,
+      "grad_norm": 0.012534767389297485,
+      "learning_rate": 0.0009758571103370556,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 50229648,
+      "step": 23220
+    },
+    {
+      "epoch": 3.7887438825448614,
+      "grad_norm": 0.048558078706264496,
+      "learning_rate": 0.000975835254348133,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 50240368,
+      "step": 23225
+    },
+    {
+      "epoch": 3.789559543230016,
+      "grad_norm": 0.038768526166677475,
+      "learning_rate": 0.0009758133887158053,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 50251312,
+      "step": 23230
+    },
+    {
+      "epoch": 3.790375203915171,
+      "grad_norm": 0.011934944428503513,
+      "learning_rate": 0.0009757915134405155,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 50262320,
+      "step": 23235
+    },
+    {
+      "epoch": 3.7911908646003263,
+      "grad_norm": 0.02086496911942959,
+      "learning_rate": 0.0009757696285227073,
+      "loss": 0.1667,
+      "num_input_tokens_seen": 50272080,
+      "step": 23240
+    },
+    {
+      "epoch": 3.792006525285481,
+      "grad_norm": 0.01079615205526352,
+      "learning_rate": 0.000975747733962824,
+      "loss": 0.0395,
+      "num_input_tokens_seen": 50283056,
+      "step": 23245
+    },
+    {
+      "epoch": 3.7928221859706364,
+      "grad_norm": 0.005180465057492256,
+      "learning_rate": 0.0009757258297613095,
+      "loss": 0.2372,
+      "num_input_tokens_seen": 50294800,
+      "step": 23250
+    },
+    {
+      "epoch": 3.793637846655791,
+      "grad_norm": 0.11687880754470825,
+      "learning_rate": 0.0009757039159186072,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 50306512,
+      "step": 23255
+    },
+    {
+      "epoch": 3.794453507340946,
+      "grad_norm": 0.12655872106552124,
+      "learning_rate": 0.0009756819924351618,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 50316912,
+      "step": 23260
+    },
+    {
+      "epoch": 3.7952691680261013,
+      "grad_norm": 0.20242717862129211,
+      "learning_rate": 0.0009756600593114174,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 50328496,
+      "step": 23265
+    },
+    {
+      "epoch": 3.796084828711256,
+      "grad_norm": 0.01801212504506111,
+      "learning_rate": 0.0009756381165478183,
+      "loss": 0.2224,
+      "num_input_tokens_seen": 50338128,
+      "step": 23270
+    },
+    {
+      "epoch": 3.7969004893964113,
+      "grad_norm": 0.08773397654294968,
+      "learning_rate": 0.0009756161641448095,
+      "loss": 0.1753,
+      "num_input_tokens_seen": 50349328,
+      "step": 23275
+    },
+    {
+      "epoch": 3.797716150081566,
+      "grad_norm": 0.18493768572807312,
+      "learning_rate": 0.0009755942021028356,
+      "loss": 0.2975,
+      "num_input_tokens_seen": 50361232,
+      "step": 23280
+    },
+    {
+      "epoch": 3.798531810766721,
+      "grad_norm": 0.2676745355129242,
+      "learning_rate": 0.0009755722304223422,
+      "loss": 0.2993,
+      "num_input_tokens_seen": 50371632,
+      "step": 23285
+    },
+    {
+      "epoch": 3.799347471451876,
+      "grad_norm": 0.08383552730083466,
+      "learning_rate": 0.000975550249103774,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 50381616,
+      "step": 23290
+    },
+    {
+      "epoch": 3.800163132137031,
+      "grad_norm": 0.03349275887012482,
+      "learning_rate": 0.0009755282581475768,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 50392816,
+      "step": 23295
+    },
+    {
+      "epoch": 3.800978792822186,
+      "grad_norm": 0.12421400845050812,
+      "learning_rate": 0.0009755062575541962,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 50403280,
+      "step": 23300
+    },
+    {
+      "epoch": 3.801794453507341,
+      "grad_norm": 0.075412318110466,
+      "learning_rate": 0.000975484247324078,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 50414480,
+      "step": 23305
+    },
+    {
+      "epoch": 3.802610114192496,
+      "grad_norm": 0.16242346167564392,
+      "learning_rate": 0.0009754622274576684,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 50424368,
+      "step": 23310
+    },
+    {
+      "epoch": 3.8034257748776508,
+      "grad_norm": 0.29253003001213074,
+      "learning_rate": 0.0009754401979554136,
+      "loss": 0.2353,
+      "num_input_tokens_seen": 50434608,
+      "step": 23315
+    },
+    {
+      "epoch": 3.804241435562806,
+      "grad_norm": 0.03192012012004852,
+      "learning_rate": 0.00097541815881776,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 50445552,
+      "step": 23320
+    },
+    {
+      "epoch": 3.805057096247961,
+      "grad_norm": 0.03622366860508919,
+      "learning_rate": 0.0009753961100451544,
+      "loss": 0.1547,
+      "num_input_tokens_seen": 50456240,
+      "step": 23325
+    },
+    {
+      "epoch": 3.8058727569331157,
+      "grad_norm": 0.007690200116485357,
+      "learning_rate": 0.0009753740516380433,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 50466160,
+      "step": 23330
+    },
+    {
+      "epoch": 3.806688417618271,
+      "grad_norm": 0.01823308691382408,
+      "learning_rate": 0.0009753519835968743,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 50475024,
+      "step": 23335
+    },
+    {
+      "epoch": 3.8075040783034257,
+      "grad_norm": 0.03313617780804634,
+      "learning_rate": 0.0009753299059220941,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 50487600,
+      "step": 23340
+    },
+    {
+      "epoch": 3.8083197389885806,
+      "grad_norm": 0.08058440685272217,
+      "learning_rate": 0.0009753078186141506,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 50497488,
+      "step": 23345
+    },
+    {
+      "epoch": 3.809135399673736,
+      "grad_norm": 0.0680818036198616,
+      "learning_rate": 0.0009752857216734909,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 50508336,
+      "step": 23350
+    },
+    {
+      "epoch": 3.8099510603588906,
+      "grad_norm": 0.22939538955688477,
+      "learning_rate": 0.0009752636151005633,
+      "loss": 0.1434,
+      "num_input_tokens_seen": 50518192,
+      "step": 23355
+    },
+    {
+      "epoch": 3.810766721044046,
+      "grad_norm": 0.02211681194603443,
+      "learning_rate": 0.0009752414988958156,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 50529200,
+      "step": 23360
+    },
+    {
+      "epoch": 3.8115823817292007,
+      "grad_norm": 0.2066287249326706,
+      "learning_rate": 0.000975219373059696,
+      "loss": 0.2095,
+      "num_input_tokens_seen": 50539920,
+      "step": 23365
+    },
+    {
+      "epoch": 3.8123980424143555,
+      "grad_norm": 0.07064596563577652,
+      "learning_rate": 0.000975197237592653,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 50550416,
+      "step": 23370
+    },
+    {
+      "epoch": 3.8132137030995104,
+      "grad_norm": 0.01532050408422947,
+      "learning_rate": 0.000975175092495135,
+      "loss": 0.1925,
+      "num_input_tokens_seen": 50561808,
+      "step": 23375
+    },
+    {
+      "epoch": 3.8140293637846656,
+      "grad_norm": 0.02331993728876114,
+      "learning_rate": 0.0009751529377675911,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 50571792,
+      "step": 23380
+    },
+    {
+      "epoch": 3.8148450244698204,
+      "grad_norm": 0.166970893740654,
+      "learning_rate": 0.00097513077341047,
+      "loss": 0.1895,
+      "num_input_tokens_seen": 50583280,
+      "step": 23385
+    },
+    {
+      "epoch": 3.8156606851549757,
+      "grad_norm": 0.20115573704242706,
+      "learning_rate": 0.0009751085994242212,
+      "loss": 0.18,
+      "num_input_tokens_seen": 50593872,
+      "step": 23390
+    },
+    {
+      "epoch": 3.8164763458401305,
+      "grad_norm": 0.0661921575665474,
+      "learning_rate": 0.0009750864158092938,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 50603600,
+      "step": 23395
+    },
+    {
+      "epoch": 3.8172920065252853,
+      "grad_norm": 0.17341428995132446,
+      "learning_rate": 0.0009750642225661375,
+      "loss": 0.1361,
+      "num_input_tokens_seen": 50614608,
+      "step": 23400
+    },
+    {
+      "epoch": 3.8181076672104406,
+      "grad_norm": 0.05718767270445824,
+      "learning_rate": 0.0009750420196952021,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 50625552,
+      "step": 23405
+    },
+    {
+      "epoch": 3.8189233278955954,
+      "grad_norm": 0.014998821541666985,
+      "learning_rate": 0.0009750198071969376,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 50636176,
+      "step": 23410
+    },
+    {
+      "epoch": 3.8197389885807507,
+      "grad_norm": 0.016761574894189835,
+      "learning_rate": 0.0009749975850717941,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 50647408,
+      "step": 23415
+    },
+    {
+      "epoch": 3.8205546492659055,
+      "grad_norm": 0.023346178233623505,
+      "learning_rate": 0.0009749753533202218,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 50658896,
+      "step": 23420
+    },
+    {
+      "epoch": 3.8213703099510603,
+      "grad_norm": 0.09524130076169968,
+      "learning_rate": 0.0009749531119426716,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 50670160,
+      "step": 23425
+    },
+    {
+      "epoch": 3.822185970636215,
+      "grad_norm": 0.04625507444143295,
+      "learning_rate": 0.000974930860939594,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 50680240,
+      "step": 23430
+    },
+    {
+      "epoch": 3.8230016313213704,
+      "grad_norm": 0.10155382752418518,
+      "learning_rate": 0.0009749086003114399,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 50691376,
+      "step": 23435
+    },
+    {
+      "epoch": 3.823817292006525,
+      "grad_norm": 0.05376620218157768,
+      "learning_rate": 0.0009748863300586605,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 50701808,
+      "step": 23440
+    },
+    {
+      "epoch": 3.8246329526916805,
+      "grad_norm": 0.014472625218331814,
+      "learning_rate": 0.0009748640501817074,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 50712592,
+      "step": 23445
+    },
+    {
+      "epoch": 3.8254486133768353,
+      "grad_norm": 0.022697031497955322,
+      "learning_rate": 0.0009748417606810319,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 50723088,
+      "step": 23450
+    },
+    {
+      "epoch": 3.82626427406199,
+      "grad_norm": 0.25425323843955994,
+      "learning_rate": 0.0009748194615570857,
+      "loss": 0.217,
+      "num_input_tokens_seen": 50733328,
+      "step": 23455
+    },
+    {
+      "epoch": 3.827079934747145,
+      "grad_norm": 0.10280811786651611,
+      "learning_rate": 0.0009747971528103207,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 50744976,
+      "step": 23460
+    },
+    {
+      "epoch": 3.8278955954323,
+      "grad_norm": 0.12097106873989105,
+      "learning_rate": 0.0009747748344411891,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 50755952,
+      "step": 23465
+    },
+    {
+      "epoch": 3.828711256117455,
+      "grad_norm": 0.15204603970050812,
+      "learning_rate": 0.0009747525064501433,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 50766480,
+      "step": 23470
+    },
+    {
+      "epoch": 3.8295269168026103,
+      "grad_norm": 0.027186892926692963,
+      "learning_rate": 0.0009747301688376355,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 50777808,
+      "step": 23475
+    },
+    {
+      "epoch": 3.830342577487765,
+      "grad_norm": 0.03366658836603165,
+      "learning_rate": 0.0009747078216041187,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 50789552,
+      "step": 23480
+    },
+    {
+      "epoch": 3.83115823817292,
+      "grad_norm": 0.25274983048439026,
+      "learning_rate": 0.0009746854647500457,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 50799920,
+      "step": 23485
+    },
+    {
+      "epoch": 3.831973898858075,
+      "grad_norm": 0.006881623528897762,
+      "learning_rate": 0.0009746630982758695,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 50811792,
+      "step": 23490
+    },
+    {
+      "epoch": 3.83278955954323,
+      "grad_norm": 0.002175088506191969,
+      "learning_rate": 0.0009746407221820435,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 50822960,
+      "step": 23495
+    },
+    {
+      "epoch": 3.8336052202283852,
+      "grad_norm": 0.37563708424568176,
+      "learning_rate": 0.0009746183364690212,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 50833328,
+      "step": 23500
+    },
+    {
+      "epoch": 3.83442088091354,
+      "grad_norm": 0.058402448892593384,
+      "learning_rate": 0.0009745959411372561,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 50844144,
+      "step": 23505
+    },
+    {
+      "epoch": 3.835236541598695,
+      "grad_norm": 0.23560450971126556,
+      "learning_rate": 0.0009745735361872023,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 50855440,
+      "step": 23510
+    },
+    {
+      "epoch": 3.8360522022838497,
+      "grad_norm": 0.13727842271327972,
+      "learning_rate": 0.0009745511216193137,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 50866288,
+      "step": 23515
+    },
+    {
+      "epoch": 3.836867862969005,
+      "grad_norm": 0.031131109222769737,
+      "learning_rate": 0.0009745286974340445,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 50877360,
+      "step": 23520
+    },
+    {
+      "epoch": 3.8376835236541598,
+      "grad_norm": 0.0038565329741686583,
+      "learning_rate": 0.0009745062636318495,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 50889424,
+      "step": 23525
+    },
+    {
+      "epoch": 3.838499184339315,
+      "grad_norm": 0.13137976825237274,
+      "learning_rate": 0.0009744838202131829,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 50900560,
+      "step": 23530
+    },
+    {
+      "epoch": 3.83931484502447,
+      "grad_norm": 0.0036349627189338207,
+      "learning_rate": 0.0009744613671784999,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 50910256,
+      "step": 23535
+    },
+    {
+      "epoch": 3.8401305057096247,
+      "grad_norm": 0.07140156626701355,
+      "learning_rate": 0.0009744389045282554,
+      "loss": 0.1406,
+      "num_input_tokens_seen": 50920208,
+      "step": 23540
+    },
+    {
+      "epoch": 3.84094616639478,
+      "grad_norm": 0.06446415930986404,
+      "learning_rate": 0.0009744164322629046,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 50930832,
+      "step": 23545
+    },
+    {
+      "epoch": 3.8417618270799347,
+      "grad_norm": 0.055119890719652176,
+      "learning_rate": 0.0009743939503829027,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 50942064,
+      "step": 23550
+    },
+    {
+      "epoch": 3.8425774877650896,
+      "grad_norm": 0.18346649408340454,
+      "learning_rate": 0.0009743714588887059,
+      "loss": 0.377,
+      "num_input_tokens_seen": 50953008,
+      "step": 23555
+    },
+    {
+      "epoch": 3.843393148450245,
+      "grad_norm": 0.22450843453407288,
+      "learning_rate": 0.0009743489577807696,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 50964720,
+      "step": 23560
+    },
+    {
+      "epoch": 3.8442088091353996,
+      "grad_norm": 0.015807831659913063,
+      "learning_rate": 0.0009743264470595499,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 50975088,
+      "step": 23565
+    },
+    {
+      "epoch": 3.8450244698205545,
+      "grad_norm": 0.10449165105819702,
+      "learning_rate": 0.0009743039267255031,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 50984912,
+      "step": 23570
+    },
+    {
+      "epoch": 3.8458401305057097,
+      "grad_norm": 0.005697912070900202,
+      "learning_rate": 0.0009742813967790855,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 50996304,
+      "step": 23575
+    },
+    {
+      "epoch": 3.8466557911908645,
+      "grad_norm": 0.06416153907775879,
+      "learning_rate": 0.0009742588572207538,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 51007376,
+      "step": 23580
+    },
+    {
+      "epoch": 3.84747145187602,
+      "grad_norm": 0.10796103626489639,
+      "learning_rate": 0.0009742363080509647,
+      "loss": 0.1991,
+      "num_input_tokens_seen": 51018736,
+      "step": 23585
+    },
+    {
+      "epoch": 3.8482871125611746,
+      "grad_norm": 0.012265535071492195,
+      "learning_rate": 0.000974213749270175,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 51029648,
+      "step": 23590
+    },
+    {
+      "epoch": 3.8491027732463294,
+      "grad_norm": 0.0124428141862154,
+      "learning_rate": 0.0009741911808788422,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 51041104,
+      "step": 23595
+    },
+    {
+      "epoch": 3.8499184339314843,
+      "grad_norm": 0.005789014510810375,
+      "learning_rate": 0.0009741686028774236,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 51052432,
+      "step": 23600
+    },
+    {
+      "epoch": 3.8507340946166395,
+      "grad_norm": 0.05271648243069649,
+      "learning_rate": 0.0009741460152663768,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 51063440,
+      "step": 23605
+    },
+    {
+      "epoch": 3.8515497553017943,
+      "grad_norm": 0.008030619472265244,
+      "learning_rate": 0.0009741234180461593,
+      "loss": 0.1906,
+      "num_input_tokens_seen": 51074864,
+      "step": 23610
+    },
+    {
+      "epoch": 3.8523654159869496,
+      "grad_norm": 0.1799931675195694,
+      "learning_rate": 0.0009741008112172293,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 51084848,
+      "step": 23615
+    },
+    {
+      "epoch": 3.8531810766721044,
+      "grad_norm": 0.24197715520858765,
+      "learning_rate": 0.0009740781947800452,
+      "loss": 0.2887,
+      "num_input_tokens_seen": 51095312,
+      "step": 23620
+    },
+    {
+      "epoch": 3.8539967373572592,
+      "grad_norm": 0.06715114414691925,
+      "learning_rate": 0.0009740555687350648,
+      "loss": 0.078,
+      "num_input_tokens_seen": 51106800,
+      "step": 23625
+    },
+    {
+      "epoch": 3.8548123980424145,
+      "grad_norm": 0.05898895114660263,
+      "learning_rate": 0.0009740329330827471,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 51117648,
+      "step": 23630
+    },
+    {
+      "epoch": 3.8556280587275693,
+      "grad_norm": 0.13618339598178864,
+      "learning_rate": 0.0009740102878235505,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 51129200,
+      "step": 23635
+    },
+    {
+      "epoch": 3.8564437194127246,
+      "grad_norm": 0.22078992426395416,
+      "learning_rate": 0.0009739876329579343,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 51140080,
+      "step": 23640
+    },
+    {
+      "epoch": 3.8572593800978794,
+      "grad_norm": 0.25214922428131104,
+      "learning_rate": 0.0009739649684863572,
+      "loss": 0.1807,
+      "num_input_tokens_seen": 51151440,
+      "step": 23645
+    },
+    {
+      "epoch": 3.858075040783034,
+      "grad_norm": 0.032653022557497025,
+      "learning_rate": 0.0009739422944092789,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 51162896,
+      "step": 23650
+    },
+    {
+      "epoch": 3.858890701468189,
+      "grad_norm": 0.06532101333141327,
+      "learning_rate": 0.0009739196107271586,
+      "loss": 0.109,
+      "num_input_tokens_seen": 51173232,
+      "step": 23655
+    },
+    {
+      "epoch": 3.8597063621533443,
+      "grad_norm": 0.09505137801170349,
+      "learning_rate": 0.0009738969174404562,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 51184336,
+      "step": 23660
+    },
+    {
+      "epoch": 3.860522022838499,
+      "grad_norm": 0.023910559713840485,
+      "learning_rate": 0.0009738742145496318,
+      "loss": 0.18,
+      "num_input_tokens_seen": 51195280,
+      "step": 23665
+    },
+    {
+      "epoch": 3.8613376835236544,
+      "grad_norm": 0.05344879627227783,
+      "learning_rate": 0.000973851502055145,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 51204976,
+      "step": 23670
+    },
+    {
+      "epoch": 3.862153344208809,
+      "grad_norm": 0.16817040741443634,
+      "learning_rate": 0.0009738287799574565,
+      "loss": 0.1508,
+      "num_input_tokens_seen": 51217328,
+      "step": 23675
+    },
+    {
+      "epoch": 3.862969004893964,
+      "grad_norm": 0.07454685121774673,
+      "learning_rate": 0.0009738060482570268,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 51228400,
+      "step": 23680
+    },
+    {
+      "epoch": 3.863784665579119,
+      "grad_norm": 0.1946832686662674,
+      "learning_rate": 0.0009737833069543163,
+      "loss": 0.1932,
+      "num_input_tokens_seen": 51238640,
+      "step": 23685
+    },
+    {
+      "epoch": 3.864600326264274,
+      "grad_norm": 0.2734370231628418,
+      "learning_rate": 0.0009737605560497862,
+      "loss": 0.2889,
+      "num_input_tokens_seen": 51249136,
+      "step": 23690
+    },
+    {
+      "epoch": 3.865415986949429,
+      "grad_norm": 0.07125987857580185,
+      "learning_rate": 0.0009737377955438973,
+      "loss": 0.051,
+      "num_input_tokens_seen": 51260112,
+      "step": 23695
+    },
+    {
+      "epoch": 3.866231647634584,
+      "grad_norm": 0.03408673778176308,
+      "learning_rate": 0.000973715025437111,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 51269616,
+      "step": 23700
+    },
+    {
+      "epoch": 3.867047308319739,
+      "grad_norm": 0.06401803344488144,
+      "learning_rate": 0.0009736922457298889,
+      "loss": 0.131,
+      "num_input_tokens_seen": 51280624,
+      "step": 23705
+    },
+    {
+      "epoch": 3.867862969004894,
+      "grad_norm": 0.03508564084768295,
+      "learning_rate": 0.0009736694564226924,
+      "loss": 0.13,
+      "num_input_tokens_seen": 51291952,
+      "step": 23710
+    },
+    {
+      "epoch": 3.868678629690049,
+      "grad_norm": 0.23152831196784973,
+      "learning_rate": 0.0009736466575159835,
+      "loss": 0.1823,
+      "num_input_tokens_seen": 51302672,
+      "step": 23715
+    },
+    {
+      "epoch": 3.869494290375204,
+      "grad_norm": 0.008906074799597263,
+      "learning_rate": 0.0009736238490102243,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 51312848,
+      "step": 23720
+    },
+    {
+      "epoch": 3.870309951060359,
+      "grad_norm": 0.008829626254737377,
+      "learning_rate": 0.0009736010309058769,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 51323376,
+      "step": 23725
+    },
+    {
+      "epoch": 3.871125611745514,
+      "grad_norm": 0.11298642307519913,
+      "learning_rate": 0.0009735782032034038,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 51334192,
+      "step": 23730
+    },
+    {
+      "epoch": 3.8719412724306688,
+      "grad_norm": 0.1311386078596115,
+      "learning_rate": 0.0009735553659032674,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 51345072,
+      "step": 23735
+    },
+    {
+      "epoch": 3.8727569331158236,
+      "grad_norm": 0.09266921132802963,
+      "learning_rate": 0.000973532519005931,
+      "loss": 0.049,
+      "num_input_tokens_seen": 51355280,
+      "step": 23740
+    },
+    {
+      "epoch": 3.873572593800979,
+      "grad_norm": 0.015555300749838352,
+      "learning_rate": 0.0009735096625118574,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 51366608,
+      "step": 23745
+    },
+    {
+      "epoch": 3.8743882544861337,
+      "grad_norm": 0.04085804149508476,
+      "learning_rate": 0.0009734867964215099,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 51377488,
+      "step": 23750
+    },
+    {
+      "epoch": 3.875203915171289,
+      "grad_norm": 0.16222117841243744,
+      "learning_rate": 0.0009734639207353516,
+      "loss": 0.1495,
+      "num_input_tokens_seen": 51389168,
+      "step": 23755
+    },
+    {
+      "epoch": 3.8760195758564437,
+      "grad_norm": 0.06792500615119934,
+      "learning_rate": 0.0009734410354538464,
+      "loss": 0.205,
+      "num_input_tokens_seen": 51400368,
+      "step": 23760
+    },
+    {
+      "epoch": 3.8768352365415986,
+      "grad_norm": 0.10864797234535217,
+      "learning_rate": 0.0009734181405774581,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 51410288,
+      "step": 23765
+    },
+    {
+      "epoch": 3.877650897226754,
+      "grad_norm": 0.013939526863396168,
+      "learning_rate": 0.0009733952361066505,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 51420432,
+      "step": 23770
+    },
+    {
+      "epoch": 3.8784665579119086,
+      "grad_norm": 0.07833394408226013,
+      "learning_rate": 0.0009733723220418877,
+      "loss": 0.3111,
+      "num_input_tokens_seen": 51429968,
+      "step": 23775
+    },
+    {
+      "epoch": 3.8792822185970635,
+      "grad_norm": 0.007237799931317568,
+      "learning_rate": 0.0009733493983836345,
+      "loss": 0.0471,
+      "num_input_tokens_seen": 51439312,
+      "step": 23780
+    },
+    {
+      "epoch": 3.8800978792822187,
+      "grad_norm": 0.09092199802398682,
+      "learning_rate": 0.0009733264651323553,
+      "loss": 0.1733,
+      "num_input_tokens_seen": 51449808,
+      "step": 23785
+    },
+    {
+      "epoch": 3.8809135399673735,
+      "grad_norm": 0.015112137421965599,
+      "learning_rate": 0.0009733035222885149,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 51460496,
+      "step": 23790
+    },
+    {
+      "epoch": 3.8817292006525284,
+      "grad_norm": 0.0755823478102684,
+      "learning_rate": 0.000973280569852578,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 51469424,
+      "step": 23795
+    },
+    {
+      "epoch": 3.8825448613376836,
+      "grad_norm": 0.14067342877388,
+      "learning_rate": 0.00097325760782501,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 51480656,
+      "step": 23800
+    },
+    {
+      "epoch": 3.8833605220228384,
+      "grad_norm": 0.03899535536766052,
+      "learning_rate": 0.0009732346362062763,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 51491696,
+      "step": 23805
+    },
+    {
+      "epoch": 3.8841761827079937,
+      "grad_norm": 0.0993603765964508,
+      "learning_rate": 0.0009732116549968421,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 51501584,
+      "step": 23810
+    },
+    {
+      "epoch": 3.8849918433931485,
+      "grad_norm": 0.19096675515174866,
+      "learning_rate": 0.0009731886641971737,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 51512080,
+      "step": 23815
+    },
+    {
+      "epoch": 3.8858075040783033,
+      "grad_norm": 0.24470771849155426,
+      "learning_rate": 0.0009731656638077367,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 51522640,
+      "step": 23820
+    },
+    {
+      "epoch": 3.886623164763458,
+      "grad_norm": 0.16861572861671448,
+      "learning_rate": 0.0009731426538289971,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 51534288,
+      "step": 23825
+    },
+    {
+      "epoch": 3.8874388254486134,
+      "grad_norm": 0.10015416890382767,
+      "learning_rate": 0.0009731196342614214,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 51544720,
+      "step": 23830
+    },
+    {
+      "epoch": 3.8882544861337682,
+      "grad_norm": 0.16817638278007507,
+      "learning_rate": 0.0009730966051054763,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 51555376,
+      "step": 23835
+    },
+    {
+      "epoch": 3.8890701468189235,
+      "grad_norm": 0.10419394820928574,
+      "learning_rate": 0.0009730735663616281,
+      "loss": 0.2183,
+      "num_input_tokens_seen": 51567568,
+      "step": 23840
+    },
+    {
+      "epoch": 3.8898858075040783,
+      "grad_norm": 0.15064406394958496,
+      "learning_rate": 0.0009730505180303441,
+      "loss": 0.201,
+      "num_input_tokens_seen": 51578384,
+      "step": 23845
+    },
+    {
+      "epoch": 3.890701468189233,
+      "grad_norm": 0.22134579718112946,
+      "learning_rate": 0.0009730274601120913,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 51588656,
+      "step": 23850
+    },
+    {
+      "epoch": 3.8915171288743884,
+      "grad_norm": 0.1771828681230545,
+      "learning_rate": 0.0009730043926073369,
+      "loss": 0.1495,
+      "num_input_tokens_seen": 51600112,
+      "step": 23855
+    },
+    {
+      "epoch": 3.892332789559543,
+      "grad_norm": 0.08342130482196808,
+      "learning_rate": 0.0009729813155165484,
+      "loss": 0.171,
+      "num_input_tokens_seen": 51610864,
+      "step": 23860
+    },
+    {
+      "epoch": 3.8931484502446985,
+      "grad_norm": 0.046608809381723404,
+      "learning_rate": 0.0009729582288401934,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 51621616,
+      "step": 23865
+    },
+    {
+      "epoch": 3.8939641109298533,
+      "grad_norm": 0.15302029252052307,
+      "learning_rate": 0.0009729351325787402,
+      "loss": 0.1561,
+      "num_input_tokens_seen": 51633264,
+      "step": 23870
+    },
+    {
+      "epoch": 3.894779771615008,
+      "grad_norm": 0.04558643698692322,
+      "learning_rate": 0.0009729120267326564,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 51643056,
+      "step": 23875
+    },
+    {
+      "epoch": 3.895595432300163,
+      "grad_norm": 0.032037895172834396,
+      "learning_rate": 0.0009728889113024103,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 51653200,
+      "step": 23880
+    },
+    {
+      "epoch": 3.896411092985318,
+      "grad_norm": 0.022089485079050064,
+      "learning_rate": 0.0009728657862884707,
+      "loss": 0.102,
+      "num_input_tokens_seen": 51664048,
+      "step": 23885
+    },
+    {
+      "epoch": 3.897226753670473,
+      "grad_norm": 0.044861339032649994,
+      "learning_rate": 0.0009728426516913061,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 51674448,
+      "step": 23890
+    },
+    {
+      "epoch": 3.8980424143556283,
+      "grad_norm": 0.04996919259428978,
+      "learning_rate": 0.0009728195075113851,
+      "loss": 0.075,
+      "num_input_tokens_seen": 51683440,
+      "step": 23895
+    },
+    {
+      "epoch": 3.898858075040783,
+      "grad_norm": 0.03168988600373268,
+      "learning_rate": 0.000972796353749177,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 51693552,
+      "step": 23900
+    },
+    {
+      "epoch": 3.899673735725938,
+      "grad_norm": 0.06277398020029068,
+      "learning_rate": 0.0009727731904051513,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 51704048,
+      "step": 23905
+    },
+    {
+      "epoch": 3.9004893964110927,
+      "grad_norm": 0.413730651140213,
+      "learning_rate": 0.0009727500174797769,
+      "loss": 0.2979,
+      "num_input_tokens_seen": 51713264,
+      "step": 23910
+    },
+    {
+      "epoch": 3.901305057096248,
+      "grad_norm": 0.02978765405714512,
+      "learning_rate": 0.0009727268349735237,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 51724304,
+      "step": 23915
+    },
+    {
+      "epoch": 3.902120717781403,
+      "grad_norm": 0.03769057244062424,
+      "learning_rate": 0.0009727036428868616,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 51734832,
+      "step": 23920
+    },
+    {
+      "epoch": 3.902936378466558,
+      "grad_norm": 0.12522292137145996,
+      "learning_rate": 0.0009726804412202604,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 51745584,
+      "step": 23925
+    },
+    {
+      "epoch": 3.903752039151713,
+      "grad_norm": 0.056543026119470596,
+      "learning_rate": 0.0009726572299741904,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 51755856,
+      "step": 23930
+    },
+    {
+      "epoch": 3.9045676998368677,
+      "grad_norm": 0.19713228940963745,
+      "learning_rate": 0.0009726340091491221,
+      "loss": 0.2008,
+      "num_input_tokens_seen": 51766704,
+      "step": 23935
+    },
+    {
+      "epoch": 3.905383360522023,
+      "grad_norm": 0.05433223396539688,
+      "learning_rate": 0.000972610778745526,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 51778288,
+      "step": 23940
+    },
+    {
+      "epoch": 3.9061990212071778,
+      "grad_norm": 0.10950616747140884,
+      "learning_rate": 0.0009725875387638729,
+      "loss": 0.1825,
+      "num_input_tokens_seen": 51788464,
+      "step": 23945
+    },
+    {
+      "epoch": 3.907014681892333,
+      "grad_norm": 0.03161918371915817,
+      "learning_rate": 0.0009725642892046339,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 51798480,
+      "step": 23950
+    },
+    {
+      "epoch": 3.907830342577488,
+      "grad_norm": 0.05995155870914459,
+      "learning_rate": 0.00097254103006828,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 51808912,
+      "step": 23955
+    },
+    {
+      "epoch": 3.9086460032626427,
+      "grad_norm": 0.1624925136566162,
+      "learning_rate": 0.0009725177613552827,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 51819600,
+      "step": 23960
+    },
+    {
+      "epoch": 3.9094616639477975,
+      "grad_norm": 0.10385416448116302,
+      "learning_rate": 0.0009724944830661135,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 51831824,
+      "step": 23965
+    },
+    {
+      "epoch": 3.9102773246329527,
+      "grad_norm": 0.11179591715335846,
+      "learning_rate": 0.0009724711952012442,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 51842256,
+      "step": 23970
+    },
+    {
+      "epoch": 3.9110929853181076,
+      "grad_norm": 0.35106027126312256,
+      "learning_rate": 0.0009724478977611469,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 51853840,
+      "step": 23975
+    },
+    {
+      "epoch": 3.911908646003263,
+      "grad_norm": 0.047677185386419296,
+      "learning_rate": 0.0009724245907462934,
+      "loss": 0.3742,
+      "num_input_tokens_seen": 51864464,
+      "step": 23980
+    },
+    {
+      "epoch": 3.9127243066884176,
+      "grad_norm": 0.05719529092311859,
+      "learning_rate": 0.0009724012741571563,
+      "loss": 0.2108,
+      "num_input_tokens_seen": 51874224,
+      "step": 23985
+    },
+    {
+      "epoch": 3.9135399673735725,
+      "grad_norm": 0.14676021039485931,
+      "learning_rate": 0.000972377947994208,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 51886064,
+      "step": 23990
+    },
+    {
+      "epoch": 3.9143556280587277,
+      "grad_norm": 0.026104595512151718,
+      "learning_rate": 0.0009723546122579217,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 51896880,
+      "step": 23995
+    },
+    {
+      "epoch": 3.9151712887438825,
+      "grad_norm": 0.07807918637990952,
+      "learning_rate": 0.0009723312669487696,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 51907952,
+      "step": 24000
+    },
+    {
+      "epoch": 3.9159869494290374,
+      "grad_norm": 0.11770875006914139,
+      "learning_rate": 0.0009723079120672254,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 51918352,
+      "step": 24005
+    },
+    {
+      "epoch": 3.9168026101141926,
+      "grad_norm": 0.09638605266809464,
+      "learning_rate": 0.0009722845476137621,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 51928976,
+      "step": 24010
+    },
+    {
+      "epoch": 3.9176182707993474,
+      "grad_norm": 0.02468789368867874,
+      "learning_rate": 0.0009722611735888532,
+      "loss": 0.188,
+      "num_input_tokens_seen": 51940656,
+      "step": 24015
+    },
+    {
+      "epoch": 3.9184339314845023,
+      "grad_norm": 0.09898632019758224,
+      "learning_rate": 0.0009722377899929727,
+      "loss": 0.053,
+      "num_input_tokens_seen": 51951600,
+      "step": 24020
+    },
+    {
+      "epoch": 3.9192495921696575,
+      "grad_norm": 0.010132327675819397,
+      "learning_rate": 0.0009722143968265942,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 51962608,
+      "step": 24025
+    },
+    {
+      "epoch": 3.9200652528548123,
+      "grad_norm": 0.07563593238592148,
+      "learning_rate": 0.0009721909940901918,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 51972816,
+      "step": 24030
+    },
+    {
+      "epoch": 3.9208809135399676,
+      "grad_norm": 0.01588386856019497,
+      "learning_rate": 0.0009721675817842402,
+      "loss": 0.1785,
+      "num_input_tokens_seen": 51983824,
+      "step": 24035
+    },
+    {
+      "epoch": 3.9216965742251224,
+      "grad_norm": 0.06717728078365326,
+      "learning_rate": 0.0009721441599092133,
+      "loss": 0.177,
+      "num_input_tokens_seen": 51995120,
+      "step": 24040
+    },
+    {
+      "epoch": 3.9225122349102772,
+      "grad_norm": 0.1424424946308136,
+      "learning_rate": 0.0009721207284655862,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 52004400,
+      "step": 24045
+    },
+    {
+      "epoch": 3.923327895595432,
+      "grad_norm": 0.027268648147583008,
+      "learning_rate": 0.0009720972874538334,
+      "loss": 0.1578,
+      "num_input_tokens_seen": 52014896,
+      "step": 24050
+    },
+    {
+      "epoch": 3.9241435562805873,
+      "grad_norm": 0.019477305933833122,
+      "learning_rate": 0.0009720738368744304,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 52026160,
+      "step": 24055
+    },
+    {
+      "epoch": 3.924959216965742,
+      "grad_norm": 0.035887766629457474,
+      "learning_rate": 0.0009720503767278522,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 52036784,
+      "step": 24060
+    },
+    {
+      "epoch": 3.9257748776508974,
+      "grad_norm": 0.11439003050327301,
+      "learning_rate": 0.0009720269070145742,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 52046512,
+      "step": 24065
+    },
+    {
+      "epoch": 3.926590538336052,
+      "grad_norm": 0.29793015122413635,
+      "learning_rate": 0.000972003427735072,
+      "loss": 0.1544,
+      "num_input_tokens_seen": 52055664,
+      "step": 24070
+    },
+    {
+      "epoch": 3.927406199021207,
+      "grad_norm": 0.23559176921844482,
+      "learning_rate": 0.0009719799388898219,
+      "loss": 0.1592,
+      "num_input_tokens_seen": 52065424,
+      "step": 24075
+    },
+    {
+      "epoch": 3.9282218597063623,
+      "grad_norm": 0.02124435268342495,
+      "learning_rate": 0.0009719564404792993,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 52074288,
+      "step": 24080
+    },
+    {
+      "epoch": 3.929037520391517,
+      "grad_norm": 0.10373537242412567,
+      "learning_rate": 0.0009719329325039807,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 52086064,
+      "step": 24085
+    },
+    {
+      "epoch": 3.9298531810766724,
+      "grad_norm": 0.18443343043327332,
+      "learning_rate": 0.0009719094149643426,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 52096560,
+      "step": 24090
+    },
+    {
+      "epoch": 3.930668841761827,
+      "grad_norm": 0.10123252868652344,
+      "learning_rate": 0.0009718858878608617,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 52107280,
+      "step": 24095
+    },
+    {
+      "epoch": 3.931484502446982,
+      "grad_norm": 0.20112597942352295,
+      "learning_rate": 0.0009718623511940145,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 52118064,
+      "step": 24100
+    },
+    {
+      "epoch": 3.932300163132137,
+      "grad_norm": 0.01606622524559498,
+      "learning_rate": 0.0009718388049642781,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 52129104,
+      "step": 24105
+    },
+    {
+      "epoch": 3.933115823817292,
+      "grad_norm": 0.08770886808633804,
+      "learning_rate": 0.00097181524917213,
+      "loss": 0.041,
+      "num_input_tokens_seen": 52139600,
+      "step": 24110
+    },
+    {
+      "epoch": 3.933931484502447,
+      "grad_norm": 0.005683081690222025,
+      "learning_rate": 0.0009717916838180471,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 52149744,
+      "step": 24115
+    },
+    {
+      "epoch": 3.934747145187602,
+      "grad_norm": 0.06411273777484894,
+      "learning_rate": 0.0009717681089025073,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 52160592,
+      "step": 24120
+    },
+    {
+      "epoch": 3.935562805872757,
+      "grad_norm": 0.08481893688440323,
+      "learning_rate": 0.0009717445244259882,
+      "loss": 0.052,
+      "num_input_tokens_seen": 52170576,
+      "step": 24125
+    },
+    {
+      "epoch": 3.936378466557912,
+      "grad_norm": 0.1713237464427948,
+      "learning_rate": 0.0009717209303889679,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 52181264,
+      "step": 24130
+    },
+    {
+      "epoch": 3.9371941272430666,
+      "grad_norm": 0.10465515404939651,
+      "learning_rate": 0.0009716973267919246,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 52192432,
+      "step": 24135
+    },
+    {
+      "epoch": 3.938009787928222,
+      "grad_norm": 0.25784167647361755,
+      "learning_rate": 0.0009716737136353365,
+      "loss": 0.2222,
+      "num_input_tokens_seen": 52202896,
+      "step": 24140
+    },
+    {
+      "epoch": 3.9388254486133767,
+      "grad_norm": 0.03767762333154678,
+      "learning_rate": 0.0009716500909196824,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 52214608,
+      "step": 24145
+    },
+    {
+      "epoch": 3.939641109298532,
+      "grad_norm": 0.0148626072332263,
+      "learning_rate": 0.0009716264586454406,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 52226224,
+      "step": 24150
+    },
+    {
+      "epoch": 3.9404567699836868,
+      "grad_norm": 0.1550069898366928,
+      "learning_rate": 0.0009716028168130906,
+      "loss": 0.224,
+      "num_input_tokens_seen": 52237072,
+      "step": 24155
+    },
+    {
+      "epoch": 3.9412724306688416,
+      "grad_norm": 0.013852902688086033,
+      "learning_rate": 0.000971579165423111,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 52247696,
+      "step": 24160
+    },
+    {
+      "epoch": 3.942088091353997,
+      "grad_norm": 0.03343448415398598,
+      "learning_rate": 0.0009715555044759815,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 52259120,
+      "step": 24165
+    },
+    {
+      "epoch": 3.9429037520391517,
+      "grad_norm": 0.03657007962465286,
+      "learning_rate": 0.0009715318339721814,
+      "loss": 0.2922,
+      "num_input_tokens_seen": 52269136,
+      "step": 24170
+    },
+    {
+      "epoch": 3.943719412724307,
+      "grad_norm": 0.1288510113954544,
+      "learning_rate": 0.0009715081539121908,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 52280560,
+      "step": 24175
+    },
+    {
+      "epoch": 3.9445350734094617,
+      "grad_norm": 0.07137199491262436,
+      "learning_rate": 0.0009714844642964891,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 52289072,
+      "step": 24180
+    },
+    {
+      "epoch": 3.9453507340946166,
+      "grad_norm": 0.04436810687184334,
+      "learning_rate": 0.0009714607651255565,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 52301264,
+      "step": 24185
+    },
+    {
+      "epoch": 3.9461663947797714,
+      "grad_norm": 0.037092193961143494,
+      "learning_rate": 0.0009714370563998736,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 52311760,
+      "step": 24190
+    },
+    {
+      "epoch": 3.9469820554649266,
+      "grad_norm": 0.03281337395310402,
+      "learning_rate": 0.0009714133381199205,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 52322160,
+      "step": 24195
+    },
+    {
+      "epoch": 3.9477977161500815,
+      "grad_norm": 0.09527835249900818,
+      "learning_rate": 0.0009713896102861782,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 52331760,
+      "step": 24200
+    },
+    {
+      "epoch": 3.9486133768352367,
+      "grad_norm": 0.13394109904766083,
+      "learning_rate": 0.0009713658728991274,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 52342512,
+      "step": 24205
+    },
+    {
+      "epoch": 3.9494290375203915,
+      "grad_norm": 0.1500953584909439,
+      "learning_rate": 0.0009713421259592493,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 52352784,
+      "step": 24210
+    },
+    {
+      "epoch": 3.9502446982055464,
+      "grad_norm": 0.1007457748055458,
+      "learning_rate": 0.0009713183694670249,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 52363920,
+      "step": 24215
+    },
+    {
+      "epoch": 3.9510603588907016,
+      "grad_norm": 0.020904328674077988,
+      "learning_rate": 0.000971294603422936,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 52373904,
+      "step": 24220
+    },
+    {
+      "epoch": 3.9518760195758564,
+      "grad_norm": 0.17763468623161316,
+      "learning_rate": 0.000971270827827464,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 52383152,
+      "step": 24225
+    },
+    {
+      "epoch": 3.9526916802610113,
+      "grad_norm": 0.003645398421213031,
+      "learning_rate": 0.0009712470426810909,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 52393968,
+      "step": 24230
+    },
+    {
+      "epoch": 3.9535073409461665,
+      "grad_norm": 0.004083213862031698,
+      "learning_rate": 0.0009712232479842986,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 52404368,
+      "step": 24235
+    },
+    {
+      "epoch": 3.9543230016313213,
+      "grad_norm": 0.08057636767625809,
+      "learning_rate": 0.0009711994437375693,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 52415824,
+      "step": 24240
+    },
+    {
+      "epoch": 3.955138662316476,
+      "grad_norm": 0.06122511997818947,
+      "learning_rate": 0.0009711756299413856,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 52426576,
+      "step": 24245
+    },
+    {
+      "epoch": 3.9559543230016314,
+      "grad_norm": 0.014753523282706738,
+      "learning_rate": 0.0009711518065962302,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 52437456,
+      "step": 24250
+    },
+    {
+      "epoch": 3.9567699836867862,
+      "grad_norm": 0.2708718180656433,
+      "learning_rate": 0.0009711279737025856,
+      "loss": 0.1888,
+      "num_input_tokens_seen": 52448720,
+      "step": 24255
+    },
+    {
+      "epoch": 3.9575856443719415,
+      "grad_norm": 0.18782684206962585,
+      "learning_rate": 0.0009711041312609349,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 52459024,
+      "step": 24260
+    },
+    {
+      "epoch": 3.9584013050570963,
+      "grad_norm": 0.017271332442760468,
+      "learning_rate": 0.0009710802792717613,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 52469872,
+      "step": 24265
+    },
+    {
+      "epoch": 3.959216965742251,
+      "grad_norm": 0.13320668041706085,
+      "learning_rate": 0.0009710564177355483,
+      "loss": 0.1292,
+      "num_input_tokens_seen": 52481264,
+      "step": 24270
+    },
+    {
+      "epoch": 3.960032626427406,
+      "grad_norm": 0.06218891963362694,
+      "learning_rate": 0.0009710325466527794,
+      "loss": 0.054,
+      "num_input_tokens_seen": 52492240,
+      "step": 24275
+    },
+    {
+      "epoch": 3.960848287112561,
+      "grad_norm": 0.002708859508857131,
+      "learning_rate": 0.0009710086660239386,
+      "loss": 0.105,
+      "num_input_tokens_seen": 52502320,
+      "step": 24280
+    },
+    {
+      "epoch": 3.961663947797716,
+      "grad_norm": 0.004188997205346823,
+      "learning_rate": 0.0009709847758495094,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 52512336,
+      "step": 24285
+    },
+    {
+      "epoch": 3.9624796084828713,
+      "grad_norm": 0.009143562987446785,
+      "learning_rate": 0.0009709608761299763,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 52522192,
+      "step": 24290
+    },
+    {
+      "epoch": 3.963295269168026,
+      "grad_norm": 0.10898889601230621,
+      "learning_rate": 0.0009709369668658237,
+      "loss": 0.084,
+      "num_input_tokens_seen": 52532144,
+      "step": 24295
+    },
+    {
+      "epoch": 3.964110929853181,
+      "grad_norm": 0.061856959015131,
+      "learning_rate": 0.0009709130480575359,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 52543824,
+      "step": 24300
+    },
+    {
+      "epoch": 3.964926590538336,
+      "grad_norm": 0.16867460310459137,
+      "learning_rate": 0.0009708891197055978,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 52553552,
+      "step": 24305
+    },
+    {
+      "epoch": 3.965742251223491,
+      "grad_norm": 0.03134358301758766,
+      "learning_rate": 0.0009708651818104943,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 52564528,
+      "step": 24310
+    },
+    {
+      "epoch": 3.9665579119086463,
+      "grad_norm": 0.0166754350066185,
+      "learning_rate": 0.0009708412343727106,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 52574160,
+      "step": 24315
+    },
+    {
+      "epoch": 3.967373572593801,
+      "grad_norm": 0.014139552600681782,
+      "learning_rate": 0.000970817277392732,
+      "loss": 0.2645,
+      "num_input_tokens_seen": 52584368,
+      "step": 24320
+    },
+    {
+      "epoch": 3.968189233278956,
+      "grad_norm": 0.20456832647323608,
+      "learning_rate": 0.000970793310871044,
+      "loss": 0.1731,
+      "num_input_tokens_seen": 52595664,
+      "step": 24325
+    },
+    {
+      "epoch": 3.9690048939641107,
+      "grad_norm": 0.05795443058013916,
+      "learning_rate": 0.0009707693348081323,
+      "loss": 0.1666,
+      "num_input_tokens_seen": 52607472,
+      "step": 24330
+    },
+    {
+      "epoch": 3.969820554649266,
+      "grad_norm": 0.031290389597415924,
+      "learning_rate": 0.0009707453492044829,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 52618864,
+      "step": 24335
+    },
+    {
+      "epoch": 3.970636215334421,
+      "grad_norm": 0.0793827474117279,
+      "learning_rate": 0.0009707213540605817,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 52628656,
+      "step": 24340
+    },
+    {
+      "epoch": 3.971451876019576,
+      "grad_norm": 0.055470243096351624,
+      "learning_rate": 0.0009706973493769152,
+      "loss": 0.1762,
+      "num_input_tokens_seen": 52638832,
+      "step": 24345
+    },
+    {
+      "epoch": 3.972267536704731,
+      "grad_norm": 0.05963335558772087,
+      "learning_rate": 0.0009706733351539696,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 52648400,
+      "step": 24350
+    },
+    {
+      "epoch": 3.9730831973898857,
+      "grad_norm": 0.08069650828838348,
+      "learning_rate": 0.0009706493113922318,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 52659216,
+      "step": 24355
+    },
+    {
+      "epoch": 3.9738988580750405,
+      "grad_norm": 0.08950478583574295,
+      "learning_rate": 0.000970625278092189,
+      "loss": 0.1453,
+      "num_input_tokens_seen": 52669680,
+      "step": 24360
+    },
+    {
+      "epoch": 3.9747145187601958,
+      "grad_norm": 0.1317376345396042,
+      "learning_rate": 0.0009706012352543276,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 52681008,
+      "step": 24365
+    },
+    {
+      "epoch": 3.9755301794453506,
+      "grad_norm": 0.014402917586266994,
+      "learning_rate": 0.0009705771828791353,
+      "loss": 0.1912,
+      "num_input_tokens_seen": 52691312,
+      "step": 24370
+    },
+    {
+      "epoch": 3.976345840130506,
+      "grad_norm": 0.09558943659067154,
+      "learning_rate": 0.0009705531209670993,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 52701712,
+      "step": 24375
+    },
+    {
+      "epoch": 3.9771615008156607,
+      "grad_norm": 0.020290644839406013,
+      "learning_rate": 0.0009705290495187073,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 52713648,
+      "step": 24380
+    },
+    {
+      "epoch": 3.9779771615008155,
+      "grad_norm": 0.03894273191690445,
+      "learning_rate": 0.0009705049685344474,
+      "loss": 0.1819,
+      "num_input_tokens_seen": 52724656,
+      "step": 24385
+    },
+    {
+      "epoch": 3.9787928221859707,
+      "grad_norm": 0.017061561346054077,
+      "learning_rate": 0.0009704808780148074,
+      "loss": 0.1858,
+      "num_input_tokens_seen": 52735824,
+      "step": 24390
+    },
+    {
+      "epoch": 3.9796084828711256,
+      "grad_norm": 0.08352766185998917,
+      "learning_rate": 0.0009704567779602754,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 52747344,
+      "step": 24395
+    },
+    {
+      "epoch": 3.980424143556281,
+      "grad_norm": 0.08225654065608978,
+      "learning_rate": 0.0009704326683713402,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 52758320,
+      "step": 24400
+    },
+    {
+      "epoch": 3.9812398042414356,
+      "grad_norm": 0.143769770860672,
+      "learning_rate": 0.00097040854924849,
+      "loss": 0.1,
+      "num_input_tokens_seen": 52768752,
+      "step": 24405
+    },
+    {
+      "epoch": 3.9820554649265905,
+      "grad_norm": 0.03472739830613136,
+      "learning_rate": 0.0009703844205922139,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 52779376,
+      "step": 24410
+    },
+    {
+      "epoch": 3.9828711256117453,
+      "grad_norm": 0.07649330794811249,
+      "learning_rate": 0.0009703602824030007,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 52790064,
+      "step": 24415
+    },
+    {
+      "epoch": 3.9836867862969005,
+      "grad_norm": 0.15564045310020447,
+      "learning_rate": 0.0009703361346813398,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 52800080,
+      "step": 24420
+    },
+    {
+      "epoch": 3.9845024469820554,
+      "grad_norm": 0.006799460854381323,
+      "learning_rate": 0.0009703119774277205,
+      "loss": 0.1825,
+      "num_input_tokens_seen": 52811632,
+      "step": 24425
+    },
+    {
+      "epoch": 3.9853181076672106,
+      "grad_norm": 0.08229997754096985,
+      "learning_rate": 0.0009702878106426321,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 52822192,
+      "step": 24430
+    },
+    {
+      "epoch": 3.9861337683523654,
+      "grad_norm": 0.14275634288787842,
+      "learning_rate": 0.0009702636343265649,
+      "loss": 0.085,
+      "num_input_tokens_seen": 52833168,
+      "step": 24435
+    },
+    {
+      "epoch": 3.9869494290375203,
+      "grad_norm": 0.08394118398427963,
+      "learning_rate": 0.0009702394484800084,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 52843024,
+      "step": 24440
+    },
+    {
+      "epoch": 3.9877650897226755,
+      "grad_norm": 0.09326915442943573,
+      "learning_rate": 0.000970215253103453,
+      "loss": 0.1826,
+      "num_input_tokens_seen": 52852528,
+      "step": 24445
+    },
+    {
+      "epoch": 3.9885807504078303,
+      "grad_norm": 0.13007716834545135,
+      "learning_rate": 0.0009701910481973889,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 52862288,
+      "step": 24450
+    },
+    {
+      "epoch": 3.9893964110929856,
+      "grad_norm": 0.10196779668331146,
+      "learning_rate": 0.0009701668337623069,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 52873584,
+      "step": 24455
+    },
+    {
+      "epoch": 3.9902120717781404,
+      "grad_norm": 0.15357103943824768,
+      "learning_rate": 0.0009701426097986974,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 52883856,
+      "step": 24460
+    },
+    {
+      "epoch": 3.9910277324632952,
+      "grad_norm": 0.11803940683603287,
+      "learning_rate": 0.0009701183763070516,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 52895120,
+      "step": 24465
+    },
+    {
+      "epoch": 3.99184339314845,
+      "grad_norm": 0.1026521846652031,
+      "learning_rate": 0.0009700941332878605,
+      "loss": 0.134,
+      "num_input_tokens_seen": 52905648,
+      "step": 24470
+    },
+    {
+      "epoch": 3.9926590538336053,
+      "grad_norm": 0.04510059580206871,
+      "learning_rate": 0.0009700698807416153,
+      "loss": 0.082,
+      "num_input_tokens_seen": 52917168,
+      "step": 24475
+    },
+    {
+      "epoch": 3.99347471451876,
+      "grad_norm": 0.029394259676337242,
+      "learning_rate": 0.0009700456186688078,
+      "loss": 0.1809,
+      "num_input_tokens_seen": 52928208,
+      "step": 24480
+    },
+    {
+      "epoch": 3.9942903752039154,
+      "grad_norm": 0.13904544711112976,
+      "learning_rate": 0.0009700213470699295,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 52939088,
+      "step": 24485
+    },
+    {
+      "epoch": 3.99510603588907,
+      "grad_norm": 0.06425957381725311,
+      "learning_rate": 0.0009699970659454723,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 52949008,
+      "step": 24490
+    },
+    {
+      "epoch": 3.995921696574225,
+      "grad_norm": 0.009191847406327724,
+      "learning_rate": 0.0009699727752959284,
+      "loss": 0.1855,
+      "num_input_tokens_seen": 52959600,
+      "step": 24495
+    },
+    {
+      "epoch": 3.99673735725938,
+      "grad_norm": 0.20780709385871887,
+      "learning_rate": 0.00096994847512179,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 52969488,
+      "step": 24500
+    },
+    {
+      "epoch": 3.997553017944535,
+      "grad_norm": 0.05502910912036896,
+      "learning_rate": 0.0009699241654235495,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 52980848,
+      "step": 24505
+    },
+    {
+      "epoch": 3.99836867862969,
+      "grad_norm": 0.06313939392566681,
+      "learning_rate": 0.0009698998462016997,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 52991600,
+      "step": 24510
+    },
+    {
+      "epoch": 3.999184339314845,
+      "grad_norm": 0.10375002026557922,
+      "learning_rate": 0.0009698755174567333,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 53001680,
+      "step": 24515
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.1650952696800232,
+      "learning_rate": 0.0009698511791891435,
+      "loss": 0.2173,
+      "num_input_tokens_seen": 53010912,
+      "step": 24520
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.12605686485767365,
+      "eval_runtime": 103.1538,
+      "eval_samples_per_second": 26.417,
+      "eval_steps_per_second": 6.611,
+      "num_input_tokens_seen": 53010912,
+      "step": 24520
+    },
+    {
+      "epoch": 4.000815660685155,
+      "grad_norm": 0.02118796855211258,
+      "learning_rate": 0.0009698268313994236,
+      "loss": 0.044,
+      "num_input_tokens_seen": 53022112,
+      "step": 24525
+    },
+    {
+      "epoch": 4.00163132137031,
+      "grad_norm": 0.07317659258842468,
+      "learning_rate": 0.0009698024740880668,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 53033056,
+      "step": 24530
+    },
+    {
+      "epoch": 4.002446982055465,
+      "grad_norm": 0.15030977129936218,
+      "learning_rate": 0.0009697781072555672,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 53043904,
+      "step": 24535
+    },
+    {
+      "epoch": 4.00326264274062,
+      "grad_norm": 0.11619038134813309,
+      "learning_rate": 0.0009697537309024181,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 53054080,
+      "step": 24540
+    },
+    {
+      "epoch": 4.004078303425775,
+      "grad_norm": 0.026329301297664642,
+      "learning_rate": 0.0009697293450291136,
+      "loss": 0.19,
+      "num_input_tokens_seen": 53064256,
+      "step": 24545
+    },
+    {
+      "epoch": 4.00489396411093,
+      "grad_norm": 0.01354842260479927,
+      "learning_rate": 0.0009697049496361481,
+      "loss": 0.125,
+      "num_input_tokens_seen": 53075200,
+      "step": 24550
+    },
+    {
+      "epoch": 4.005709624796085,
+      "grad_norm": 0.008432844653725624,
+      "learning_rate": 0.000969680544724016,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 53086496,
+      "step": 24555
+    },
+    {
+      "epoch": 4.006525285481239,
+      "grad_norm": 0.13896256685256958,
+      "learning_rate": 0.0009696561302932117,
+      "loss": 0.1721,
+      "num_input_tokens_seen": 53097216,
+      "step": 24560
+    },
+    {
+      "epoch": 4.007340946166395,
+      "grad_norm": 0.012351407669484615,
+      "learning_rate": 0.0009696317063442303,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 53108160,
+      "step": 24565
+    },
+    {
+      "epoch": 4.00815660685155,
+      "grad_norm": 0.04247596859931946,
+      "learning_rate": 0.0009696072728775664,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 53119520,
+      "step": 24570
+    },
+    {
+      "epoch": 4.008972267536705,
+      "grad_norm": 0.03004402108490467,
+      "learning_rate": 0.0009695828298937155,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 53130976,
+      "step": 24575
+    },
+    {
+      "epoch": 4.00978792822186,
+      "grad_norm": 0.023356273770332336,
+      "learning_rate": 0.0009695583773931728,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 53141504,
+      "step": 24580
+    },
+    {
+      "epoch": 4.010603588907014,
+      "grad_norm": 0.06728272885084152,
+      "learning_rate": 0.000969533915376434,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 53151360,
+      "step": 24585
+    },
+    {
+      "epoch": 4.011419249592169,
+      "grad_norm": 0.0781501904129982,
+      "learning_rate": 0.0009695094438439947,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 53163008,
+      "step": 24590
+    },
+    {
+      "epoch": 4.012234910277325,
+      "grad_norm": 0.00982770137488842,
+      "learning_rate": 0.000969484962796351,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 53175200,
+      "step": 24595
+    },
+    {
+      "epoch": 4.01305057096248,
+      "grad_norm": 0.009649750776588917,
+      "learning_rate": 0.0009694604722339987,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 53185952,
+      "step": 24600
+    },
+    {
+      "epoch": 4.013866231647635,
+      "grad_norm": 0.038069020956754684,
+      "learning_rate": 0.0009694359721574345,
+      "loss": 0.2128,
+      "num_input_tokens_seen": 53196704,
+      "step": 24605
+    },
+    {
+      "epoch": 4.014681892332789,
+      "grad_norm": 0.0761687308549881,
+      "learning_rate": 0.0009694114625671548,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 53206272,
+      "step": 24610
+    },
+    {
+      "epoch": 4.015497553017944,
+      "grad_norm": 0.02528243139386177,
+      "learning_rate": 0.0009693869434636564,
+      "loss": 0.1686,
+      "num_input_tokens_seen": 53217248,
+      "step": 24615
+    },
+    {
+      "epoch": 4.0163132137031,
+      "grad_norm": 0.1863255798816681,
+      "learning_rate": 0.000969362414847436,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 53226176,
+      "step": 24620
+    },
+    {
+      "epoch": 4.017128874388255,
+      "grad_norm": 0.19547618925571442,
+      "learning_rate": 0.0009693378767189909,
+      "loss": 0.2296,
+      "num_input_tokens_seen": 53236096,
+      "step": 24625
+    },
+    {
+      "epoch": 4.0179445350734095,
+      "grad_norm": 0.05746988207101822,
+      "learning_rate": 0.0009693133290788184,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 53246496,
+      "step": 24630
+    },
+    {
+      "epoch": 4.018760195758564,
+      "grad_norm": 0.04920806735754013,
+      "learning_rate": 0.0009692887719274159,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 53257792,
+      "step": 24635
+    },
+    {
+      "epoch": 4.019575856443719,
+      "grad_norm": 0.04692168906331062,
+      "learning_rate": 0.0009692642052652811,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 53269312,
+      "step": 24640
+    },
+    {
+      "epoch": 4.020391517128874,
+      "grad_norm": 0.03407781943678856,
+      "learning_rate": 0.0009692396290929118,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 53278944,
+      "step": 24645
+    },
+    {
+      "epoch": 4.02120717781403,
+      "grad_norm": 0.019528646022081375,
+      "learning_rate": 0.0009692150434108061,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 53290656,
+      "step": 24650
+    },
+    {
+      "epoch": 4.0220228384991845,
+      "grad_norm": 0.04901457577943802,
+      "learning_rate": 0.0009691904482194625,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 53300736,
+      "step": 24655
+    },
+    {
+      "epoch": 4.022838499184339,
+      "grad_norm": 0.06730242073535919,
+      "learning_rate": 0.000969165843519379,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 53312032,
+      "step": 24660
+    },
+    {
+      "epoch": 4.023654159869494,
+      "grad_norm": 0.26630842685699463,
+      "learning_rate": 0.0009691412293110546,
+      "loss": 0.2011,
+      "num_input_tokens_seen": 53323616,
+      "step": 24665
+    },
+    {
+      "epoch": 4.024469820554649,
+      "grad_norm": 0.0840611532330513,
+      "learning_rate": 0.0009691166055949881,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 53334848,
+      "step": 24670
+    },
+    {
+      "epoch": 4.025285481239805,
+      "grad_norm": 0.020203417167067528,
+      "learning_rate": 0.0009690919723716785,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 53346208,
+      "step": 24675
+    },
+    {
+      "epoch": 4.0261011419249595,
+      "grad_norm": 0.08350825309753418,
+      "learning_rate": 0.000969067329641625,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 53355520,
+      "step": 24680
+    },
+    {
+      "epoch": 4.026916802610114,
+      "grad_norm": 0.05830421671271324,
+      "learning_rate": 0.000969042677405327,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 53366144,
+      "step": 24685
+    },
+    {
+      "epoch": 4.027732463295269,
+      "grad_norm": 0.03297814726829529,
+      "learning_rate": 0.0009690180156632839,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 53377568,
+      "step": 24690
+    },
+    {
+      "epoch": 4.028548123980424,
+      "grad_norm": 0.015535816550254822,
+      "learning_rate": 0.000968993344415996,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 53388320,
+      "step": 24695
+    },
+    {
+      "epoch": 4.029363784665579,
+      "grad_norm": 0.05832860991358757,
+      "learning_rate": 0.0009689686636639629,
+      "loss": 0.1678,
+      "num_input_tokens_seen": 53398880,
+      "step": 24700
+    },
+    {
+      "epoch": 4.0301794453507345,
+      "grad_norm": 0.1182079017162323,
+      "learning_rate": 0.000968943973407685,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 53409376,
+      "step": 24705
+    },
+    {
+      "epoch": 4.030995106035889,
+      "grad_norm": 0.018100082874298096,
+      "learning_rate": 0.0009689192736476624,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 53420736,
+      "step": 24710
+    },
+    {
+      "epoch": 4.031810766721044,
+      "grad_norm": 0.1703413426876068,
+      "learning_rate": 0.000968894564384396,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 53431264,
+      "step": 24715
+    },
+    {
+      "epoch": 4.032626427406199,
+      "grad_norm": 0.03496500477194786,
+      "learning_rate": 0.0009688698456183863,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 53441504,
+      "step": 24720
+    },
+    {
+      "epoch": 4.033442088091354,
+      "grad_norm": 0.018825236707925797,
+      "learning_rate": 0.0009688451173501345,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 53451616,
+      "step": 24725
+    },
+    {
+      "epoch": 4.034257748776509,
+      "grad_norm": 0.07746203988790512,
+      "learning_rate": 0.0009688203795801415,
+      "loss": 0.2134,
+      "num_input_tokens_seen": 53463456,
+      "step": 24730
+    },
+    {
+      "epoch": 4.035073409461664,
+      "grad_norm": 0.01029142364859581,
+      "learning_rate": 0.0009687956323089088,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 53474624,
+      "step": 24735
+    },
+    {
+      "epoch": 4.035889070146819,
+      "grad_norm": 0.06122157722711563,
+      "learning_rate": 0.000968770875536938,
+      "loss": 0.4163,
+      "num_input_tokens_seen": 53486304,
+      "step": 24740
+    },
+    {
+      "epoch": 4.036704730831974,
+      "grad_norm": 0.2235114872455597,
+      "learning_rate": 0.0009687461092647308,
+      "loss": 0.2131,
+      "num_input_tokens_seen": 53497152,
+      "step": 24745
+    },
+    {
+      "epoch": 4.037520391517129,
+      "grad_norm": 0.09703657776117325,
+      "learning_rate": 0.0009687213334927888,
+      "loss": 0.2333,
+      "num_input_tokens_seen": 53508704,
+      "step": 24750
+    },
+    {
+      "epoch": 4.0383360522022835,
+      "grad_norm": 0.15249381959438324,
+      "learning_rate": 0.0009686965482216145,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 53519776,
+      "step": 24755
+    },
+    {
+      "epoch": 4.039151712887439,
+      "grad_norm": 0.13171689212322235,
+      "learning_rate": 0.00096867175345171,
+      "loss": 0.1609,
+      "num_input_tokens_seen": 53529952,
+      "step": 24760
+    },
+    {
+      "epoch": 4.039967373572594,
+      "grad_norm": 0.0511307455599308,
+      "learning_rate": 0.0009686469491835779,
+      "loss": 0.157,
+      "num_input_tokens_seen": 53541440,
+      "step": 24765
+    },
+    {
+      "epoch": 4.040783034257749,
+      "grad_norm": 0.11280439794063568,
+      "learning_rate": 0.0009686221354177209,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 53551008,
+      "step": 24770
+    },
+    {
+      "epoch": 4.041598694942904,
+      "grad_norm": 0.08131375908851624,
+      "learning_rate": 0.0009685973121546417,
+      "loss": 0.0589,
+      "num_input_tokens_seen": 53560832,
+      "step": 24775
+    },
+    {
+      "epoch": 4.0424143556280585,
+      "grad_norm": 0.07098285108804703,
+      "learning_rate": 0.0009685724793948436,
+      "loss": 0.1964,
+      "num_input_tokens_seen": 53571264,
+      "step": 24780
+    },
+    {
+      "epoch": 4.043230016313213,
+      "grad_norm": 0.04006614908576012,
+      "learning_rate": 0.0009685476371388298,
+      "loss": 0.0495,
+      "num_input_tokens_seen": 53582272,
+      "step": 24785
+    },
+    {
+      "epoch": 4.044045676998369,
+      "grad_norm": 0.07132290303707123,
+      "learning_rate": 0.0009685227853871037,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 53592992,
+      "step": 24790
+    },
+    {
+      "epoch": 4.044861337683524,
+      "grad_norm": 0.02085905708372593,
+      "learning_rate": 0.000968497924140169,
+      "loss": 0.0274,
+      "num_input_tokens_seen": 53603712,
+      "step": 24795
+    },
+    {
+      "epoch": 4.045676998368679,
+      "grad_norm": 0.04866085574030876,
+      "learning_rate": 0.0009684730533985296,
+      "loss": 0.062,
+      "num_input_tokens_seen": 53613984,
+      "step": 24800
+    },
+    {
+      "epoch": 4.0464926590538335,
+      "grad_norm": 0.314547061920166,
+      "learning_rate": 0.0009684481731626895,
+      "loss": 0.2072,
+      "num_input_tokens_seen": 53625024,
+      "step": 24805
+    },
+    {
+      "epoch": 4.047308319738988,
+      "grad_norm": 0.016428275033831596,
+      "learning_rate": 0.0009684232834331528,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 53636192,
+      "step": 24810
+    },
+    {
+      "epoch": 4.048123980424143,
+      "grad_norm": 0.23308736085891724,
+      "learning_rate": 0.000968398384210424,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 53645984,
+      "step": 24815
+    },
+    {
+      "epoch": 4.048939641109299,
+      "grad_norm": 0.03797006979584694,
+      "learning_rate": 0.0009683734754950078,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 53655968,
+      "step": 24820
+    },
+    {
+      "epoch": 4.049755301794454,
+      "grad_norm": 0.05711853504180908,
+      "learning_rate": 0.0009683485572874089,
+      "loss": 0.107,
+      "num_input_tokens_seen": 53667232,
+      "step": 24825
+    },
+    {
+      "epoch": 4.0505709624796085,
+      "grad_norm": 0.07612357288599014,
+      "learning_rate": 0.0009683236295881324,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 53678336,
+      "step": 24830
+    },
+    {
+      "epoch": 4.051386623164763,
+      "grad_norm": 0.09866306930780411,
+      "learning_rate": 0.0009682986923976834,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 53688896,
+      "step": 24835
+    },
+    {
+      "epoch": 4.052202283849918,
+      "grad_norm": 0.20437058806419373,
+      "learning_rate": 0.0009682737457165673,
+      "loss": 0.2586,
+      "num_input_tokens_seen": 53699008,
+      "step": 24840
+    },
+    {
+      "epoch": 4.053017944535074,
+      "grad_norm": 0.03260158374905586,
+      "learning_rate": 0.0009682487895452898,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 53709888,
+      "step": 24845
+    },
+    {
+      "epoch": 4.053833605220229,
+      "grad_norm": 0.016189221292734146,
+      "learning_rate": 0.0009682238238843565,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 53720896,
+      "step": 24850
+    },
+    {
+      "epoch": 4.054649265905383,
+      "grad_norm": 0.09101825207471848,
+      "learning_rate": 0.0009681988487342735,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 53731360,
+      "step": 24855
+    },
+    {
+      "epoch": 4.055464926590538,
+      "grad_norm": 0.015849553048610687,
+      "learning_rate": 0.0009681738640955466,
+      "loss": 0.1559,
+      "num_input_tokens_seen": 53742848,
+      "step": 24860
+    },
+    {
+      "epoch": 4.056280587275693,
+      "grad_norm": 0.21268007159233093,
+      "learning_rate": 0.0009681488699686827,
+      "loss": 0.2324,
+      "num_input_tokens_seen": 53753856,
+      "step": 24865
+    },
+    {
+      "epoch": 4.057096247960848,
+      "grad_norm": 0.02260478027164936,
+      "learning_rate": 0.000968123866354188,
+      "loss": 0.051,
+      "num_input_tokens_seen": 53762304,
+      "step": 24870
+    },
+    {
+      "epoch": 4.057911908646004,
+      "grad_norm": 0.056082677096128464,
+      "learning_rate": 0.0009680988532525693,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 53773664,
+      "step": 24875
+    },
+    {
+      "epoch": 4.058727569331158,
+      "grad_norm": 0.06552215665578842,
+      "learning_rate": 0.0009680738306643335,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 53784576,
+      "step": 24880
+    },
+    {
+      "epoch": 4.059543230016313,
+      "grad_norm": 0.04463575780391693,
+      "learning_rate": 0.0009680487985899878,
+      "loss": 0.153,
+      "num_input_tokens_seen": 53796096,
+      "step": 24885
+    },
+    {
+      "epoch": 4.060358890701468,
+      "grad_norm": 0.012880692258477211,
+      "learning_rate": 0.0009680237570300392,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 53807552,
+      "step": 24890
+    },
+    {
+      "epoch": 4.061174551386623,
+      "grad_norm": 0.0764424279332161,
+      "learning_rate": 0.0009679987059849956,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 53818272,
+      "step": 24895
+    },
+    {
+      "epoch": 4.061990212071779,
+      "grad_norm": 0.23426131904125214,
+      "learning_rate": 0.0009679736454553645,
+      "loss": 0.095,
+      "num_input_tokens_seen": 53829696,
+      "step": 24900
+    },
+    {
+      "epoch": 4.062805872756933,
+      "grad_norm": 0.16571703553199768,
+      "learning_rate": 0.0009679485754416538,
+      "loss": 0.19,
+      "num_input_tokens_seen": 53841024,
+      "step": 24905
+    },
+    {
+      "epoch": 4.063621533442088,
+      "grad_norm": 0.04391804337501526,
+      "learning_rate": 0.0009679234959443717,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 53850816,
+      "step": 24910
+    },
+    {
+      "epoch": 4.064437194127243,
+      "grad_norm": 0.09299265593290329,
+      "learning_rate": 0.0009678984069640262,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 53861344,
+      "step": 24915
+    },
+    {
+      "epoch": 4.065252854812398,
+      "grad_norm": 0.13993260264396667,
+      "learning_rate": 0.000967873308501126,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 53872384,
+      "step": 24920
+    },
+    {
+      "epoch": 4.066068515497553,
+      "grad_norm": 0.01173485815525055,
+      "learning_rate": 0.0009678482005561795,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 53884160,
+      "step": 24925
+    },
+    {
+      "epoch": 4.066884176182708,
+      "grad_norm": 0.015828793868422508,
+      "learning_rate": 0.0009678230831296959,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 53892320,
+      "step": 24930
+    },
+    {
+      "epoch": 4.067699836867863,
+      "grad_norm": 0.1745096892118454,
+      "learning_rate": 0.000967797956222184,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 53901920,
+      "step": 24935
+    },
+    {
+      "epoch": 4.068515497553018,
+      "grad_norm": 0.06484830379486084,
+      "learning_rate": 0.000967772819834153,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 53911968,
+      "step": 24940
+    },
+    {
+      "epoch": 4.069331158238173,
+      "grad_norm": 0.22511164844036102,
+      "learning_rate": 0.0009677476739661124,
+      "loss": 0.1797,
+      "num_input_tokens_seen": 53923520,
+      "step": 24945
+    },
+    {
+      "epoch": 4.070146818923328,
+      "grad_norm": 0.013632331043481827,
+      "learning_rate": 0.0009677225186185719,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 53934400,
+      "step": 24950
+    },
+    {
+      "epoch": 4.0709624796084825,
+      "grad_norm": 0.23946814239025116,
+      "learning_rate": 0.0009676973537920411,
+      "loss": 0.2613,
+      "num_input_tokens_seen": 53945696,
+      "step": 24955
+    },
+    {
+      "epoch": 4.071778140293638,
+      "grad_norm": 0.20356135070323944,
+      "learning_rate": 0.0009676721794870302,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 53955488,
+      "step": 24960
+    },
+    {
+      "epoch": 4.072593800978793,
+      "grad_norm": 0.2573193907737732,
+      "learning_rate": 0.0009676469957040492,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 53965792,
+      "step": 24965
+    },
+    {
+      "epoch": 4.073409461663948,
+      "grad_norm": 0.04237401485443115,
+      "learning_rate": 0.0009676218024436087,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 53976352,
+      "step": 24970
+    },
+    {
+      "epoch": 4.074225122349103,
+      "grad_norm": 0.03187128156423569,
+      "learning_rate": 0.0009675965997062192,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 53987744,
+      "step": 24975
+    },
+    {
+      "epoch": 4.075040783034257,
+      "grad_norm": 0.14574794471263885,
+      "learning_rate": 0.0009675713874923912,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 53999136,
+      "step": 24980
+    },
+    {
+      "epoch": 4.075856443719413,
+      "grad_norm": 0.005596504081040621,
+      "learning_rate": 0.0009675461658026361,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 54010112,
+      "step": 24985
+    },
+    {
+      "epoch": 4.076672104404568,
+      "grad_norm": 0.04081597551703453,
+      "learning_rate": 0.0009675209346374647,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 54020992,
+      "step": 24990
+    },
+    {
+      "epoch": 4.077487765089723,
+      "grad_norm": 0.16552519798278809,
+      "learning_rate": 0.0009674956939973885,
+      "loss": 0.078,
+      "num_input_tokens_seen": 54031488,
+      "step": 24995
+    },
+    {
+      "epoch": 4.078303425774878,
+      "grad_norm": 0.17626450955867767,
+      "learning_rate": 0.0009674704438829189,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 54043104,
+      "step": 25000
+    },
+    {
+      "epoch": 4.079119086460032,
+      "grad_norm": 0.22518527507781982,
+      "learning_rate": 0.0009674451842945679,
+      "loss": 0.1335,
+      "num_input_tokens_seen": 54052096,
+      "step": 25005
+    },
+    {
+      "epoch": 4.079934747145187,
+      "grad_norm": 0.06224973499774933,
+      "learning_rate": 0.0009674199152328472,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 54062400,
+      "step": 25010
+    },
+    {
+      "epoch": 4.080750407830343,
+      "grad_norm": 0.032965682446956635,
+      "learning_rate": 0.0009673946366982689,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 54073120,
+      "step": 25015
+    },
+    {
+      "epoch": 4.081566068515498,
+      "grad_norm": 0.05587991327047348,
+      "learning_rate": 0.0009673693486913453,
+      "loss": 0.036,
+      "num_input_tokens_seen": 54083296,
+      "step": 25020
+    },
+    {
+      "epoch": 4.082381729200653,
+      "grad_norm": 0.052622903138399124,
+      "learning_rate": 0.000967344051212589,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 54093728,
+      "step": 25025
+    },
+    {
+      "epoch": 4.083197389885807,
+      "grad_norm": 0.058794185519218445,
+      "learning_rate": 0.0009673187442625126,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 54104512,
+      "step": 25030
+    },
+    {
+      "epoch": 4.084013050570962,
+      "grad_norm": 0.4008449912071228,
+      "learning_rate": 0.0009672934278416292,
+      "loss": 0.0552,
+      "num_input_tokens_seen": 54116256,
+      "step": 25035
+    },
+    {
+      "epoch": 4.084828711256117,
+      "grad_norm": 0.04696516692638397,
+      "learning_rate": 0.0009672681019504514,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 54126496,
+      "step": 25040
+    },
+    {
+      "epoch": 4.085644371941273,
+      "grad_norm": 0.006844913586974144,
+      "learning_rate": 0.0009672427665894929,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 54138656,
+      "step": 25045
+    },
+    {
+      "epoch": 4.0864600326264275,
+      "grad_norm": 0.01937456987798214,
+      "learning_rate": 0.0009672174217592671,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 54150336,
+      "step": 25050
+    },
+    {
+      "epoch": 4.087275693311582,
+      "grad_norm": 0.06921794265508652,
+      "learning_rate": 0.0009671920674602874,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 54161376,
+      "step": 25055
+    },
+    {
+      "epoch": 4.088091353996737,
+      "grad_norm": 0.3637893795967102,
+      "learning_rate": 0.0009671667036930678,
+      "loss": 0.049,
+      "num_input_tokens_seen": 54171104,
+      "step": 25060
+    },
+    {
+      "epoch": 4.088907014681892,
+      "grad_norm": 0.07828755676746368,
+      "learning_rate": 0.0009671413304581224,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 54182592,
+      "step": 25065
+    },
+    {
+      "epoch": 4.089722675367048,
+      "grad_norm": 0.11320872604846954,
+      "learning_rate": 0.0009671159477559652,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 54194048,
+      "step": 25070
+    },
+    {
+      "epoch": 4.0905383360522025,
+      "grad_norm": 0.06699980795383453,
+      "learning_rate": 0.0009670905555871108,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 54204896,
+      "step": 25075
+    },
+    {
+      "epoch": 4.091353996737357,
+      "grad_norm": 0.10126443952322006,
+      "learning_rate": 0.0009670651539520737,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 54216288,
+      "step": 25080
+    },
+    {
+      "epoch": 4.092169657422512,
+      "grad_norm": 0.09108009189367294,
+      "learning_rate": 0.0009670397428513688,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 54226976,
+      "step": 25085
+    },
+    {
+      "epoch": 4.092985318107667,
+      "grad_norm": 0.008087173104286194,
+      "learning_rate": 0.000967014322285511,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 54236928,
+      "step": 25090
+    },
+    {
+      "epoch": 4.093800978792822,
+      "grad_norm": 0.24143271148204803,
+      "learning_rate": 0.0009669888922550154,
+      "loss": 0.185,
+      "num_input_tokens_seen": 54247712,
+      "step": 25095
+    },
+    {
+      "epoch": 4.0946166394779775,
+      "grad_norm": 0.01384643279016018,
+      "learning_rate": 0.0009669634527603977,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 54258144,
+      "step": 25100
+    },
+    {
+      "epoch": 4.095432300163132,
+      "grad_norm": 0.062448494136333466,
+      "learning_rate": 0.000966938003802173,
+      "loss": 0.1463,
+      "num_input_tokens_seen": 54268448,
+      "step": 25105
+    },
+    {
+      "epoch": 4.096247960848287,
+      "grad_norm": 0.2051960825920105,
+      "learning_rate": 0.0009669125453808573,
+      "loss": 0.1625,
+      "num_input_tokens_seen": 54280736,
+      "step": 25110
+    },
+    {
+      "epoch": 4.097063621533442,
+      "grad_norm": 0.2943427562713623,
+      "learning_rate": 0.0009668870774969668,
+      "loss": 0.1793,
+      "num_input_tokens_seen": 54291968,
+      "step": 25115
+    },
+    {
+      "epoch": 4.097879282218597,
+      "grad_norm": 0.036557041108608246,
+      "learning_rate": 0.0009668616001510173,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 54303712,
+      "step": 25120
+    },
+    {
+      "epoch": 4.0986949429037525,
+      "grad_norm": 0.20468497276306152,
+      "learning_rate": 0.0009668361133435252,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 54314880,
+      "step": 25125
+    },
+    {
+      "epoch": 4.099510603588907,
+      "grad_norm": 0.1012115404009819,
+      "learning_rate": 0.0009668106170750071,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 54325376,
+      "step": 25130
+    },
+    {
+      "epoch": 4.100326264274062,
+      "grad_norm": 0.11558778584003448,
+      "learning_rate": 0.0009667851113459795,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 54335968,
+      "step": 25135
+    },
+    {
+      "epoch": 4.101141924959217,
+      "grad_norm": 0.23821662366390228,
+      "learning_rate": 0.0009667595961569595,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 54346400,
+      "step": 25140
+    },
+    {
+      "epoch": 4.101957585644372,
+      "grad_norm": 0.013337861746549606,
+      "learning_rate": 0.0009667340715084641,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 54357280,
+      "step": 25145
+    },
+    {
+      "epoch": 4.102773246329527,
+      "grad_norm": 0.027568155899643898,
+      "learning_rate": 0.0009667085374010107,
+      "loss": 0.203,
+      "num_input_tokens_seen": 54368416,
+      "step": 25150
+    },
+    {
+      "epoch": 4.103588907014682,
+      "grad_norm": 0.13918833434581757,
+      "learning_rate": 0.0009666829938351169,
+      "loss": 0.1497,
+      "num_input_tokens_seen": 54378720,
+      "step": 25155
+    },
+    {
+      "epoch": 4.104404567699837,
+      "grad_norm": 0.005044138990342617,
+      "learning_rate": 0.0009666574408113,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 54389280,
+      "step": 25160
+    },
+    {
+      "epoch": 4.105220228384992,
+      "grad_norm": 0.007398922927677631,
+      "learning_rate": 0.0009666318783300782,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 54399520,
+      "step": 25165
+    },
+    {
+      "epoch": 4.106035889070147,
+      "grad_norm": 0.027200058102607727,
+      "learning_rate": 0.0009666063063919693,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 54410016,
+      "step": 25170
+    },
+    {
+      "epoch": 4.1068515497553015,
+      "grad_norm": 0.0715019479393959,
+      "learning_rate": 0.0009665807249974917,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 54420480,
+      "step": 25175
+    },
+    {
+      "epoch": 4.107667210440456,
+      "grad_norm": 0.2523505985736847,
+      "learning_rate": 0.0009665551341471639,
+      "loss": 0.078,
+      "num_input_tokens_seen": 54429856,
+      "step": 25180
+    },
+    {
+      "epoch": 4.108482871125612,
+      "grad_norm": 0.07486454397439957,
+      "learning_rate": 0.0009665295338415044,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 54439392,
+      "step": 25185
+    },
+    {
+      "epoch": 4.109298531810767,
+      "grad_norm": 0.02025793120265007,
+      "learning_rate": 0.0009665039240810319,
+      "loss": 0.1363,
+      "num_input_tokens_seen": 54451168,
+      "step": 25190
+    },
+    {
+      "epoch": 4.110114192495922,
+      "grad_norm": 0.2634422183036804,
+      "learning_rate": 0.0009664783048662658,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 54462304,
+      "step": 25195
+    },
+    {
+      "epoch": 4.1109298531810765,
+      "grad_norm": 0.17543160915374756,
+      "learning_rate": 0.0009664526761977249,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 54473216,
+      "step": 25200
+    },
+    {
+      "epoch": 4.111745513866231,
+      "grad_norm": 0.04653778672218323,
+      "learning_rate": 0.0009664270380759289,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 54484224,
+      "step": 25205
+    },
+    {
+      "epoch": 4.112561174551387,
+      "grad_norm": 0.09117867797613144,
+      "learning_rate": 0.0009664013905013971,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 54495904,
+      "step": 25210
+    },
+    {
+      "epoch": 4.113376835236542,
+      "grad_norm": 0.24651305377483368,
+      "learning_rate": 0.0009663757334746497,
+      "loss": 0.2096,
+      "num_input_tokens_seen": 54506240,
+      "step": 25215
+    },
+    {
+      "epoch": 4.114192495921697,
+      "grad_norm": 0.017522353678941727,
+      "learning_rate": 0.0009663500669962063,
+      "loss": 0.016,
+      "num_input_tokens_seen": 54517632,
+      "step": 25220
+    },
+    {
+      "epoch": 4.1150081566068515,
+      "grad_norm": 0.021647047251462936,
+      "learning_rate": 0.0009663243910665872,
+      "loss": 0.056,
+      "num_input_tokens_seen": 54527040,
+      "step": 25225
+    },
+    {
+      "epoch": 4.115823817292006,
+      "grad_norm": 0.008239752613008022,
+      "learning_rate": 0.0009662987056863128,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 54537728,
+      "step": 25230
+    },
+    {
+      "epoch": 4.116639477977161,
+      "grad_norm": 0.27086710929870605,
+      "learning_rate": 0.0009662730108559034,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 54547968,
+      "step": 25235
+    },
+    {
+      "epoch": 4.117455138662317,
+      "grad_norm": 0.1596733182668686,
+      "learning_rate": 0.0009662473065758801,
+      "loss": 0.1615,
+      "num_input_tokens_seen": 54558176,
+      "step": 25240
+    },
+    {
+      "epoch": 4.118270799347472,
+      "grad_norm": 0.21179279685020447,
+      "learning_rate": 0.0009662215928467636,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 54568928,
+      "step": 25245
+    },
+    {
+      "epoch": 4.1190864600326265,
+      "grad_norm": 0.018240327015519142,
+      "learning_rate": 0.000966195869669075,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 54579232,
+      "step": 25250
+    },
+    {
+      "epoch": 4.119902120717781,
+      "grad_norm": 0.2262805551290512,
+      "learning_rate": 0.0009661701370433358,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 54589600,
+      "step": 25255
+    },
+    {
+      "epoch": 4.120717781402936,
+      "grad_norm": 0.008236533030867577,
+      "learning_rate": 0.0009661443949700674,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 54600832,
+      "step": 25260
+    },
+    {
+      "epoch": 4.121533442088092,
+      "grad_norm": 0.2041776180267334,
+      "learning_rate": 0.0009661186434497915,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 54612416,
+      "step": 25265
+    },
+    {
+      "epoch": 4.122349102773247,
+      "grad_norm": 0.11392532289028168,
+      "learning_rate": 0.0009660928824830299,
+      "loss": 0.1556,
+      "num_input_tokens_seen": 54623328,
+      "step": 25270
+    },
+    {
+      "epoch": 4.123164763458401,
+      "grad_norm": 0.023981567472219467,
+      "learning_rate": 0.0009660671120703048,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 54634752,
+      "step": 25275
+    },
+    {
+      "epoch": 4.123980424143556,
+      "grad_norm": 0.030910201370716095,
+      "learning_rate": 0.0009660413322121384,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 54644288,
+      "step": 25280
+    },
+    {
+      "epoch": 4.124796084828711,
+      "grad_norm": 0.0698685273528099,
+      "learning_rate": 0.0009660155429090531,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 54655232,
+      "step": 25285
+    },
+    {
+      "epoch": 4.125611745513866,
+      "grad_norm": 0.24555733799934387,
+      "learning_rate": 0.0009659897441615717,
+      "loss": 0.1784,
+      "num_input_tokens_seen": 54666336,
+      "step": 25290
+    },
+    {
+      "epoch": 4.126427406199022,
+      "grad_norm": 0.003053902881219983,
+      "learning_rate": 0.000965963935970217,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 54676448,
+      "step": 25295
+    },
+    {
+      "epoch": 4.127243066884176,
+      "grad_norm": 0.4340955317020416,
+      "learning_rate": 0.0009659381183355121,
+      "loss": 0.2067,
+      "num_input_tokens_seen": 54688032,
+      "step": 25300
+    },
+    {
+      "epoch": 4.128058727569331,
+      "grad_norm": 0.008606837131083012,
+      "learning_rate": 0.0009659122912579801,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 54698528,
+      "step": 25305
+    },
+    {
+      "epoch": 4.128874388254486,
+      "grad_norm": 0.18576228618621826,
+      "learning_rate": 0.0009658864547381445,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 54709440,
+      "step": 25310
+    },
+    {
+      "epoch": 4.129690048939641,
+      "grad_norm": 0.03524043411016464,
+      "learning_rate": 0.0009658606087765288,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 54719424,
+      "step": 25315
+    },
+    {
+      "epoch": 4.130505709624796,
+      "grad_norm": 0.03319951519370079,
+      "learning_rate": 0.0009658347533736569,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 54729728,
+      "step": 25320
+    },
+    {
+      "epoch": 4.131321370309951,
+      "grad_norm": 0.2569403052330017,
+      "learning_rate": 0.0009658088885300528,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 54740608,
+      "step": 25325
+    },
+    {
+      "epoch": 4.132137030995106,
+      "grad_norm": 0.2813706696033478,
+      "learning_rate": 0.0009657830142462406,
+      "loss": 0.4054,
+      "num_input_tokens_seen": 54749856,
+      "step": 25330
+    },
+    {
+      "epoch": 4.132952691680261,
+      "grad_norm": 0.016006600111722946,
+      "learning_rate": 0.0009657571305227449,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 54760864,
+      "step": 25335
+    },
+    {
+      "epoch": 4.133768352365416,
+      "grad_norm": 0.28111621737480164,
+      "learning_rate": 0.0009657312373600899,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 54772832,
+      "step": 25340
+    },
+    {
+      "epoch": 4.134584013050571,
+      "grad_norm": 0.05557915195822716,
+      "learning_rate": 0.0009657053347588005,
+      "loss": 0.114,
+      "num_input_tokens_seen": 54783616,
+      "step": 25345
+    },
+    {
+      "epoch": 4.135399673735726,
+      "grad_norm": 0.09768980741500854,
+      "learning_rate": 0.0009656794227194019,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 54793888,
+      "step": 25350
+    },
+    {
+      "epoch": 4.136215334420881,
+      "grad_norm": 0.06314717233181,
+      "learning_rate": 0.0009656535012424189,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 54805600,
+      "step": 25355
+    },
+    {
+      "epoch": 4.137030995106036,
+      "grad_norm": 0.1482965648174286,
+      "learning_rate": 0.000965627570328377,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 54817120,
+      "step": 25360
+    },
+    {
+      "epoch": 4.137846655791191,
+      "grad_norm": 0.03432433307170868,
+      "learning_rate": 0.0009656016299778017,
+      "loss": 0.1857,
+      "num_input_tokens_seen": 54829344,
+      "step": 25365
+    },
+    {
+      "epoch": 4.138662316476346,
+      "grad_norm": 0.08786375820636749,
+      "learning_rate": 0.0009655756801912188,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 54838976,
+      "step": 25370
+    },
+    {
+      "epoch": 4.1394779771615005,
+      "grad_norm": 0.20477358996868134,
+      "learning_rate": 0.000965549720969154,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 54849408,
+      "step": 25375
+    },
+    {
+      "epoch": 4.140293637846656,
+      "grad_norm": 0.24416247010231018,
+      "learning_rate": 0.0009655237523121336,
+      "loss": 0.1572,
+      "num_input_tokens_seen": 54860032,
+      "step": 25380
+    },
+    {
+      "epoch": 4.141109298531811,
+      "grad_norm": 0.08682450652122498,
+      "learning_rate": 0.0009654977742206837,
+      "loss": 0.089,
+      "num_input_tokens_seen": 54871168,
+      "step": 25385
+    },
+    {
+      "epoch": 4.141924959216966,
+      "grad_norm": 0.15808038413524628,
+      "learning_rate": 0.000965471786695331,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 54880800,
+      "step": 25390
+    },
+    {
+      "epoch": 4.142740619902121,
+      "grad_norm": 0.3128909766674042,
+      "learning_rate": 0.0009654457897366021,
+      "loss": 0.2258,
+      "num_input_tokens_seen": 54890464,
+      "step": 25395
+    },
+    {
+      "epoch": 4.143556280587275,
+      "grad_norm": 0.021523917093873024,
+      "learning_rate": 0.0009654197833450235,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 54901344,
+      "step": 25400
+    },
+    {
+      "epoch": 4.14437194127243,
+      "grad_norm": 0.17342549562454224,
+      "learning_rate": 0.0009653937675211229,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 54912800,
+      "step": 25405
+    },
+    {
+      "epoch": 4.145187601957586,
+      "grad_norm": 0.037385955452919006,
+      "learning_rate": 0.000965367742265427,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 54923872,
+      "step": 25410
+    },
+    {
+      "epoch": 4.146003262642741,
+      "grad_norm": 0.017450451850891113,
+      "learning_rate": 0.0009653417075784635,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 54934112,
+      "step": 25415
+    },
+    {
+      "epoch": 4.146818923327896,
+      "grad_norm": 0.010421866551041603,
+      "learning_rate": 0.0009653156634607601,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 54944064,
+      "step": 25420
+    },
+    {
+      "epoch": 4.14763458401305,
+      "grad_norm": 0.022267503663897514,
+      "learning_rate": 0.0009652896099128443,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 54953920,
+      "step": 25425
+    },
+    {
+      "epoch": 4.148450244698205,
+      "grad_norm": 0.024997280910611153,
+      "learning_rate": 0.0009652635469352443,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 54963968,
+      "step": 25430
+    },
+    {
+      "epoch": 4.149265905383361,
+      "grad_norm": 0.050787921994924545,
+      "learning_rate": 0.0009652374745284884,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 54975008,
+      "step": 25435
+    },
+    {
+      "epoch": 4.150081566068516,
+      "grad_norm": 0.00542342197149992,
+      "learning_rate": 0.0009652113926931048,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 54986336,
+      "step": 25440
+    },
+    {
+      "epoch": 4.150897226753671,
+      "grad_norm": 0.006053715944290161,
+      "learning_rate": 0.0009651853014296223,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 54996384,
+      "step": 25445
+    },
+    {
+      "epoch": 4.151712887438825,
+      "grad_norm": 0.09369000047445297,
+      "learning_rate": 0.0009651592007385694,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 55006688,
+      "step": 25450
+    },
+    {
+      "epoch": 4.15252854812398,
+      "grad_norm": 0.0828031525015831,
+      "learning_rate": 0.0009651330906204752,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 55018496,
+      "step": 25455
+    },
+    {
+      "epoch": 4.153344208809135,
+      "grad_norm": 0.015311665832996368,
+      "learning_rate": 0.0009651069710758689,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 55028416,
+      "step": 25460
+    },
+    {
+      "epoch": 4.154159869494291,
+      "grad_norm": 0.022664785385131836,
+      "learning_rate": 0.0009650808421052798,
+      "loss": 0.1705,
+      "num_input_tokens_seen": 55039232,
+      "step": 25465
+    },
+    {
+      "epoch": 4.1549755301794455,
+      "grad_norm": 0.20808342099189758,
+      "learning_rate": 0.0009650547037092374,
+      "loss": 0.1587,
+      "num_input_tokens_seen": 55051168,
+      "step": 25470
+    },
+    {
+      "epoch": 4.1557911908646,
+      "grad_norm": 0.016271889209747314,
+      "learning_rate": 0.0009650285558882715,
+      "loss": 0.2009,
+      "num_input_tokens_seen": 55061216,
+      "step": 25475
+    },
+    {
+      "epoch": 4.156606851549755,
+      "grad_norm": 0.2235141098499298,
+      "learning_rate": 0.0009650023986429119,
+      "loss": 0.073,
+      "num_input_tokens_seen": 55071968,
+      "step": 25480
+    },
+    {
+      "epoch": 4.15742251223491,
+      "grad_norm": 0.11861073225736618,
+      "learning_rate": 0.000964976231973689,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 55081824,
+      "step": 25485
+    },
+    {
+      "epoch": 4.158238172920065,
+      "grad_norm": 0.025952542200684547,
+      "learning_rate": 0.0009649500558811328,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 55094208,
+      "step": 25490
+    },
+    {
+      "epoch": 4.1590538336052205,
+      "grad_norm": 0.03323453292250633,
+      "learning_rate": 0.0009649238703657739,
+      "loss": 0.2475,
+      "num_input_tokens_seen": 55104608,
+      "step": 25495
+    },
+    {
+      "epoch": 4.159869494290375,
+      "grad_norm": 0.18540321290493011,
+      "learning_rate": 0.0009648976754281429,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 55115168,
+      "step": 25500
+    },
+    {
+      "epoch": 4.16068515497553,
+      "grad_norm": 0.025260310620069504,
+      "learning_rate": 0.0009648714710687708,
+      "loss": 0.328,
+      "num_input_tokens_seen": 55125920,
+      "step": 25505
+    },
+    {
+      "epoch": 4.161500815660685,
+      "grad_norm": 0.13722355663776398,
+      "learning_rate": 0.0009648452572881885,
+      "loss": 0.2166,
+      "num_input_tokens_seen": 55135936,
+      "step": 25510
+    },
+    {
+      "epoch": 4.16231647634584,
+      "grad_norm": 0.138593390583992,
+      "learning_rate": 0.0009648190340869274,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 55147136,
+      "step": 25515
+    },
+    {
+      "epoch": 4.1631321370309955,
+      "grad_norm": 0.05859887972474098,
+      "learning_rate": 0.000964792801465519,
+      "loss": 0.1762,
+      "num_input_tokens_seen": 55158432,
+      "step": 25520
+    },
+    {
+      "epoch": 4.16394779771615,
+      "grad_norm": 0.12412280589342117,
+      "learning_rate": 0.0009647665594244947,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 55169728,
+      "step": 25525
+    },
+    {
+      "epoch": 4.164763458401305,
+      "grad_norm": 0.1191917136311531,
+      "learning_rate": 0.0009647403079643866,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 55180640,
+      "step": 25530
+    },
+    {
+      "epoch": 4.16557911908646,
+      "grad_norm": 0.06216058135032654,
+      "learning_rate": 0.0009647140470857267,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 55191616,
+      "step": 25535
+    },
+    {
+      "epoch": 4.166394779771615,
+      "grad_norm": 0.14134946465492249,
+      "learning_rate": 0.0009646877767890469,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 55203392,
+      "step": 25540
+    },
+    {
+      "epoch": 4.16721044045677,
+      "grad_norm": 0.06047775596380234,
+      "learning_rate": 0.00096466149707488,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 55214912,
+      "step": 25545
+    },
+    {
+      "epoch": 4.168026101141925,
+      "grad_norm": 0.06157161295413971,
+      "learning_rate": 0.0009646352079437582,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 55225248,
+      "step": 25550
+    },
+    {
+      "epoch": 4.16884176182708,
+      "grad_norm": 0.018876446411013603,
+      "learning_rate": 0.0009646089093962145,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 55234688,
+      "step": 25555
+    },
+    {
+      "epoch": 4.169657422512235,
+      "grad_norm": 0.07278304547071457,
+      "learning_rate": 0.0009645826014327819,
+      "loss": 0.1574,
+      "num_input_tokens_seen": 55245760,
+      "step": 25560
+    },
+    {
+      "epoch": 4.17047308319739,
+      "grad_norm": 0.21307507157325745,
+      "learning_rate": 0.0009645562840539935,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 55256416,
+      "step": 25565
+    },
+    {
+      "epoch": 4.171288743882545,
+      "grad_norm": 0.03809243068099022,
+      "learning_rate": 0.0009645299572603827,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 55267392,
+      "step": 25570
+    },
+    {
+      "epoch": 4.1721044045677,
+      "grad_norm": 0.0994822233915329,
+      "learning_rate": 0.000964503621052483,
+      "loss": 0.2607,
+      "num_input_tokens_seen": 55278304,
+      "step": 25575
+    },
+    {
+      "epoch": 4.172920065252855,
+      "grad_norm": 0.3972223103046417,
+      "learning_rate": 0.0009644772754308281,
+      "loss": 0.2883,
+      "num_input_tokens_seen": 55288992,
+      "step": 25580
+    },
+    {
+      "epoch": 4.17373572593801,
+      "grad_norm": 0.08899694681167603,
+      "learning_rate": 0.0009644509203959522,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 55299232,
+      "step": 25585
+    },
+    {
+      "epoch": 4.174551386623165,
+      "grad_norm": 0.11821216344833374,
+      "learning_rate": 0.0009644245559483891,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 55309600,
+      "step": 25590
+    },
+    {
+      "epoch": 4.1753670473083195,
+      "grad_norm": 0.014808449894189835,
+      "learning_rate": 0.0009643981820886731,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 55320032,
+      "step": 25595
+    },
+    {
+      "epoch": 4.176182707993474,
+      "grad_norm": 0.032600466161966324,
+      "learning_rate": 0.0009643717988173389,
+      "loss": 0.1385,
+      "num_input_tokens_seen": 55327904,
+      "step": 25600
+    },
+    {
+      "epoch": 4.17699836867863,
+      "grad_norm": 0.1723560392856598,
+      "learning_rate": 0.0009643454061349211,
+      "loss": 0.2089,
+      "num_input_tokens_seen": 55337824,
+      "step": 25605
+    },
+    {
+      "epoch": 4.177814029363785,
+      "grad_norm": 0.012177304364740849,
+      "learning_rate": 0.0009643190040419545,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 55349536,
+      "step": 25610
+    },
+    {
+      "epoch": 4.17862969004894,
+      "grad_norm": 0.05429260432720184,
+      "learning_rate": 0.0009642925925389743,
+      "loss": 0.2556,
+      "num_input_tokens_seen": 55360672,
+      "step": 25615
+    },
+    {
+      "epoch": 4.1794453507340945,
+      "grad_norm": 0.05302607640624046,
+      "learning_rate": 0.0009642661716265156,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 55370656,
+      "step": 25620
+    },
+    {
+      "epoch": 4.180261011419249,
+      "grad_norm": 0.07791854441165924,
+      "learning_rate": 0.0009642397413051142,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 55380704,
+      "step": 25625
+    },
+    {
+      "epoch": 4.181076672104404,
+      "grad_norm": 0.03771020844578743,
+      "learning_rate": 0.0009642133015753054,
+      "loss": 0.121,
+      "num_input_tokens_seen": 55393024,
+      "step": 25630
+    },
+    {
+      "epoch": 4.18189233278956,
+      "grad_norm": 0.06244561821222305,
+      "learning_rate": 0.0009641868524376252,
+      "loss": 0.078,
+      "num_input_tokens_seen": 55404736,
+      "step": 25635
+    },
+    {
+      "epoch": 4.182707993474715,
+      "grad_norm": 0.15027554333209991,
+      "learning_rate": 0.0009641603938926093,
+      "loss": 0.067,
+      "num_input_tokens_seen": 55415072,
+      "step": 25640
+    },
+    {
+      "epoch": 4.1835236541598695,
+      "grad_norm": 0.03861184045672417,
+      "learning_rate": 0.0009641339259407946,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 55425888,
+      "step": 25645
+    },
+    {
+      "epoch": 4.184339314845024,
+      "grad_norm": 0.015195484273135662,
+      "learning_rate": 0.0009641074485827168,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 55436224,
+      "step": 25650
+    },
+    {
+      "epoch": 4.185154975530179,
+      "grad_norm": 0.08453787118196487,
+      "learning_rate": 0.0009640809618189129,
+      "loss": 0.16,
+      "num_input_tokens_seen": 55447392,
+      "step": 25655
+    },
+    {
+      "epoch": 4.185970636215335,
+      "grad_norm": 0.16250330209732056,
+      "learning_rate": 0.0009640544656499197,
+      "loss": 0.1534,
+      "num_input_tokens_seen": 55457472,
+      "step": 25660
+    },
+    {
+      "epoch": 4.18678629690049,
+      "grad_norm": 0.0841694101691246,
+      "learning_rate": 0.0009640279600762738,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 55468448,
+      "step": 25665
+    },
+    {
+      "epoch": 4.1876019575856445,
+      "grad_norm": 0.020344849675893784,
+      "learning_rate": 0.0009640014450985129,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 55478016,
+      "step": 25670
+    },
+    {
+      "epoch": 4.188417618270799,
+      "grad_norm": 0.062538743019104,
+      "learning_rate": 0.0009639749207171739,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 55488672,
+      "step": 25675
+    },
+    {
+      "epoch": 4.189233278955954,
+      "grad_norm": 0.04574638605117798,
+      "learning_rate": 0.0009639483869327946,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 55499232,
+      "step": 25680
+    },
+    {
+      "epoch": 4.190048939641109,
+      "grad_norm": 0.03264615312218666,
+      "learning_rate": 0.0009639218437459125,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 55509120,
+      "step": 25685
+    },
+    {
+      "epoch": 4.190864600326265,
+      "grad_norm": 0.1373731940984726,
+      "learning_rate": 0.000963895291157066,
+      "loss": 0.2198,
+      "num_input_tokens_seen": 55520544,
+      "step": 25690
+    },
+    {
+      "epoch": 4.191680261011419,
+      "grad_norm": 0.008453291840851307,
+      "learning_rate": 0.0009638687291667927,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 55531136,
+      "step": 25695
+    },
+    {
+      "epoch": 4.192495921696574,
+      "grad_norm": 0.17602114379405975,
+      "learning_rate": 0.0009638421577756313,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 55541440,
+      "step": 25700
+    },
+    {
+      "epoch": 4.193311582381729,
+      "grad_norm": 0.25807738304138184,
+      "learning_rate": 0.0009638155769841201,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 55552992,
+      "step": 25705
+    },
+    {
+      "epoch": 4.194127243066884,
+      "grad_norm": 0.10710060596466064,
+      "learning_rate": 0.0009637889867927978,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 55564000,
+      "step": 25710
+    },
+    {
+      "epoch": 4.19494290375204,
+      "grad_norm": 0.013491766527295113,
+      "learning_rate": 0.0009637623872022034,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 55574880,
+      "step": 25715
+    },
+    {
+      "epoch": 4.195758564437194,
+      "grad_norm": 0.1762889325618744,
+      "learning_rate": 0.0009637357782128758,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 55585920,
+      "step": 25720
+    },
+    {
+      "epoch": 4.196574225122349,
+      "grad_norm": 0.014259211719036102,
+      "learning_rate": 0.0009637091598253544,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 55595456,
+      "step": 25725
+    },
+    {
+      "epoch": 4.197389885807504,
+      "grad_norm": 0.030640989542007446,
+      "learning_rate": 0.0009636825320401787,
+      "loss": 0.1722,
+      "num_input_tokens_seen": 55606592,
+      "step": 25730
+    },
+    {
+      "epoch": 4.198205546492659,
+      "grad_norm": 0.03938770666718483,
+      "learning_rate": 0.0009636558948578882,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 55617184,
+      "step": 25735
+    },
+    {
+      "epoch": 4.199021207177814,
+      "grad_norm": 0.09662085026502609,
+      "learning_rate": 0.0009636292482790229,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 55627584,
+      "step": 25740
+    },
+    {
+      "epoch": 4.199836867862969,
+      "grad_norm": 0.09255876392126083,
+      "learning_rate": 0.0009636025923041227,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 55638336,
+      "step": 25745
+    },
+    {
+      "epoch": 4.200652528548124,
+      "grad_norm": 0.21851196885108948,
+      "learning_rate": 0.0009635759269337276,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 55648480,
+      "step": 25750
+    },
+    {
+      "epoch": 4.201468189233279,
+      "grad_norm": 0.22205887734889984,
+      "learning_rate": 0.0009635492521683785,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 55658368,
+      "step": 25755
+    },
+    {
+      "epoch": 4.202283849918434,
+      "grad_norm": 0.00717106182128191,
+      "learning_rate": 0.0009635225680086157,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 55669344,
+      "step": 25760
+    },
+    {
+      "epoch": 4.203099510603589,
+      "grad_norm": 0.06024621054530144,
+      "learning_rate": 0.00096349587445498,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 55680832,
+      "step": 25765
+    },
+    {
+      "epoch": 4.2039151712887435,
+      "grad_norm": 0.00822582095861435,
+      "learning_rate": 0.0009634691715080124,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 55692416,
+      "step": 25770
+    },
+    {
+      "epoch": 4.204730831973899,
+      "grad_norm": 0.033295344561338425,
+      "learning_rate": 0.0009634424591682542,
+      "loss": 0.2381,
+      "num_input_tokens_seen": 55702752,
+      "step": 25775
+    },
+    {
+      "epoch": 4.205546492659054,
+      "grad_norm": 0.00885600782930851,
+      "learning_rate": 0.0009634157374362466,
+      "loss": 0.1732,
+      "num_input_tokens_seen": 55715680,
+      "step": 25780
+    },
+    {
+      "epoch": 4.206362153344209,
+      "grad_norm": 0.037626128643751144,
+      "learning_rate": 0.0009633890063125313,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 55727008,
+      "step": 25785
+    },
+    {
+      "epoch": 4.207177814029364,
+      "grad_norm": 0.01951495371758938,
+      "learning_rate": 0.0009633622657976498,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 55738272,
+      "step": 25790
+    },
+    {
+      "epoch": 4.2079934747145185,
+      "grad_norm": 0.01373792253434658,
+      "learning_rate": 0.0009633355158921441,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 55748416,
+      "step": 25795
+    },
+    {
+      "epoch": 4.208809135399674,
+      "grad_norm": 0.09148267656564713,
+      "learning_rate": 0.0009633087565965564,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 55758336,
+      "step": 25800
+    },
+    {
+      "epoch": 4.209624796084829,
+      "grad_norm": 0.10780200362205505,
+      "learning_rate": 0.0009632819879114291,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 55768032,
+      "step": 25805
+    },
+    {
+      "epoch": 4.210440456769984,
+      "grad_norm": 0.19272269308567047,
+      "learning_rate": 0.0009632552098373045,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 55777728,
+      "step": 25810
+    },
+    {
+      "epoch": 4.211256117455139,
+      "grad_norm": 0.0974721908569336,
+      "learning_rate": 0.0009632284223747255,
+      "loss": 0.1946,
+      "num_input_tokens_seen": 55787808,
+      "step": 25815
+    },
+    {
+      "epoch": 4.212071778140293,
+      "grad_norm": 0.01590495929121971,
+      "learning_rate": 0.0009632016255242348,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 55798528,
+      "step": 25820
+    },
+    {
+      "epoch": 4.212887438825448,
+      "grad_norm": 0.0683855265378952,
+      "learning_rate": 0.0009631748192863756,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 55807552,
+      "step": 25825
+    },
+    {
+      "epoch": 4.213703099510604,
+      "grad_norm": 0.030019963160157204,
+      "learning_rate": 0.0009631480036616911,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 55819296,
+      "step": 25830
+    },
+    {
+      "epoch": 4.214518760195759,
+      "grad_norm": 0.16835179924964905,
+      "learning_rate": 0.0009631211786507248,
+      "loss": 0.3311,
+      "num_input_tokens_seen": 55830048,
+      "step": 25835
+    },
+    {
+      "epoch": 4.215334420880914,
+      "grad_norm": 0.2539372146129608,
+      "learning_rate": 0.0009630943442540202,
+      "loss": 0.1926,
+      "num_input_tokens_seen": 55841408,
+      "step": 25840
+    },
+    {
+      "epoch": 4.216150081566068,
+      "grad_norm": 0.023150641471147537,
+      "learning_rate": 0.0009630675004721212,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 55852160,
+      "step": 25845
+    },
+    {
+      "epoch": 4.216965742251223,
+      "grad_norm": 0.18378613889217377,
+      "learning_rate": 0.000963040647305572,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 55861984,
+      "step": 25850
+    },
+    {
+      "epoch": 4.217781402936378,
+      "grad_norm": 0.0326051265001297,
+      "learning_rate": 0.0009630137847549166,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 55872800,
+      "step": 25855
+    },
+    {
+      "epoch": 4.218597063621534,
+      "grad_norm": 0.030857285484671593,
+      "learning_rate": 0.0009629869128206997,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 55884512,
+      "step": 25860
+    },
+    {
+      "epoch": 4.219412724306689,
+      "grad_norm": 0.07170385867357254,
+      "learning_rate": 0.0009629600315034652,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 55897024,
+      "step": 25865
+    },
+    {
+      "epoch": 4.220228384991843,
+      "grad_norm": 0.020618334412574768,
+      "learning_rate": 0.0009629331408037588,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 55907520,
+      "step": 25870
+    },
+    {
+      "epoch": 4.221044045676998,
+      "grad_norm": 0.10644153505563736,
+      "learning_rate": 0.0009629062407221248,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 55917280,
+      "step": 25875
+    },
+    {
+      "epoch": 4.221859706362153,
+      "grad_norm": 0.04173273965716362,
+      "learning_rate": 0.0009628793312591086,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 55928832,
+      "step": 25880
+    },
+    {
+      "epoch": 4.222675367047309,
+      "grad_norm": 0.06491757184267044,
+      "learning_rate": 0.0009628524124152555,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 55939904,
+      "step": 25885
+    },
+    {
+      "epoch": 4.2234910277324635,
+      "grad_norm": 0.009601933881640434,
+      "learning_rate": 0.0009628254841911113,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 55951968,
+      "step": 25890
+    },
+    {
+      "epoch": 4.224306688417618,
+      "grad_norm": 0.02336297743022442,
+      "learning_rate": 0.0009627985465872214,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 55962240,
+      "step": 25895
+    },
+    {
+      "epoch": 4.225122349102773,
+      "grad_norm": 0.0032236254774034023,
+      "learning_rate": 0.0009627715996041319,
+      "loss": 0.06,
+      "num_input_tokens_seen": 55973216,
+      "step": 25900
+    },
+    {
+      "epoch": 4.225938009787928,
+      "grad_norm": 0.006209230981767178,
+      "learning_rate": 0.0009627446432423888,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 55984544,
+      "step": 25905
+    },
+    {
+      "epoch": 4.226753670473083,
+      "grad_norm": 0.010295428335666656,
+      "learning_rate": 0.0009627176775025385,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 55995616,
+      "step": 25910
+    },
+    {
+      "epoch": 4.2275693311582385,
+      "grad_norm": 0.007961004041135311,
+      "learning_rate": 0.0009626907023851275,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 56006752,
+      "step": 25915
+    },
+    {
+      "epoch": 4.228384991843393,
+      "grad_norm": 0.16366617381572723,
+      "learning_rate": 0.0009626637178907024,
+      "loss": 0.1335,
+      "num_input_tokens_seen": 56017280,
+      "step": 25920
+    },
+    {
+      "epoch": 4.229200652528548,
+      "grad_norm": 0.024116847664117813,
+      "learning_rate": 0.0009626367240198101,
+      "loss": 0.1689,
+      "num_input_tokens_seen": 56027904,
+      "step": 25925
+    },
+    {
+      "epoch": 4.230016313213703,
+      "grad_norm": 0.11132140457630157,
+      "learning_rate": 0.0009626097207729978,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 56038752,
+      "step": 25930
+    },
+    {
+      "epoch": 4.230831973898858,
+      "grad_norm": 0.016673635691404343,
+      "learning_rate": 0.0009625827081508125,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 56048832,
+      "step": 25935
+    },
+    {
+      "epoch": 4.231647634584013,
+      "grad_norm": 0.06682579219341278,
+      "learning_rate": 0.000962555686153802,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 56060800,
+      "step": 25940
+    },
+    {
+      "epoch": 4.232463295269168,
+      "grad_norm": 0.017317702993750572,
+      "learning_rate": 0.0009625286547825136,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 56071808,
+      "step": 25945
+    },
+    {
+      "epoch": 4.233278955954323,
+      "grad_norm": 0.012221962213516235,
+      "learning_rate": 0.0009625016140374952,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 56082336,
+      "step": 25950
+    },
+    {
+      "epoch": 4.234094616639478,
+      "grad_norm": 0.07057840377092361,
+      "learning_rate": 0.0009624745639192949,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 56093120,
+      "step": 25955
+    },
+    {
+      "epoch": 4.234910277324633,
+      "grad_norm": 0.011993489228188992,
+      "learning_rate": 0.0009624475044284609,
+      "loss": 0.1421,
+      "num_input_tokens_seen": 56104320,
+      "step": 25960
+    },
+    {
+      "epoch": 4.235725938009788,
+      "grad_norm": 0.24318675696849823,
+      "learning_rate": 0.0009624204355655416,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 56115136,
+      "step": 25965
+    },
+    {
+      "epoch": 4.236541598694943,
+      "grad_norm": 0.21818304061889648,
+      "learning_rate": 0.0009623933573310855,
+      "loss": 0.2945,
+      "num_input_tokens_seen": 56125696,
+      "step": 25970
+    },
+    {
+      "epoch": 4.237357259380098,
+      "grad_norm": 0.1993371695280075,
+      "learning_rate": 0.0009623662697256414,
+      "loss": 0.3022,
+      "num_input_tokens_seen": 56136832,
+      "step": 25975
+    },
+    {
+      "epoch": 4.238172920065253,
+      "grad_norm": 0.29056215286254883,
+      "learning_rate": 0.0009623391727497584,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 56147296,
+      "step": 25980
+    },
+    {
+      "epoch": 4.238988580750408,
+      "grad_norm": 0.04809493198990822,
+      "learning_rate": 0.0009623120664039855,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 56156896,
+      "step": 25985
+    },
+    {
+      "epoch": 4.239804241435563,
+      "grad_norm": 0.01413186639547348,
+      "learning_rate": 0.000962284950688872,
+      "loss": 0.1441,
+      "num_input_tokens_seen": 56166720,
+      "step": 25990
+    },
+    {
+      "epoch": 4.240619902120717,
+      "grad_norm": 0.1408049762248993,
+      "learning_rate": 0.0009622578256049675,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 56177888,
+      "step": 25995
+    },
+    {
+      "epoch": 4.241435562805873,
+      "grad_norm": 0.09817873686552048,
+      "learning_rate": 0.0009622306911528219,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 56188160,
+      "step": 26000
+    },
+    {
+      "epoch": 4.242251223491028,
+      "grad_norm": 0.02216365560889244,
+      "learning_rate": 0.0009622035473329848,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 56198688,
+      "step": 26005
+    },
+    {
+      "epoch": 4.243066884176183,
+      "grad_norm": 0.08225827664136887,
+      "learning_rate": 0.0009621763941460067,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 56210144,
+      "step": 26010
+    },
+    {
+      "epoch": 4.2438825448613375,
+      "grad_norm": 0.035414330661296844,
+      "learning_rate": 0.0009621492315924375,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 56220928,
+      "step": 26015
+    },
+    {
+      "epoch": 4.244698205546492,
+      "grad_norm": 0.22662504017353058,
+      "learning_rate": 0.0009621220596728278,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 56232032,
+      "step": 26020
+    },
+    {
+      "epoch": 4.245513866231648,
+      "grad_norm": 0.016972634941339493,
+      "learning_rate": 0.0009620948783877285,
+      "loss": 0.118,
+      "num_input_tokens_seen": 56242624,
+      "step": 26025
+    },
+    {
+      "epoch": 4.246329526916803,
+      "grad_norm": 0.07601569592952728,
+      "learning_rate": 0.0009620676877376902,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 56253600,
+      "step": 26030
+    },
+    {
+      "epoch": 4.247145187601958,
+      "grad_norm": 0.05941057205200195,
+      "learning_rate": 0.000962040487723264,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 56264992,
+      "step": 26035
+    },
+    {
+      "epoch": 4.2479608482871125,
+      "grad_norm": 0.09792166948318481,
+      "learning_rate": 0.0009620132783450011,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 56275232,
+      "step": 26040
+    },
+    {
+      "epoch": 4.248776508972267,
+      "grad_norm": 0.05090722069144249,
+      "learning_rate": 0.0009619860596034531,
+      "loss": 0.1732,
+      "num_input_tokens_seen": 56287776,
+      "step": 26045
+    },
+    {
+      "epoch": 4.249592169657422,
+      "grad_norm": 0.021216444671154022,
+      "learning_rate": 0.0009619588314991716,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 56298784,
+      "step": 26050
+    },
+    {
+      "epoch": 4.250407830342578,
+      "grad_norm": 0.15228860080242157,
+      "learning_rate": 0.0009619315940327082,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 56309088,
+      "step": 26055
+    },
+    {
+      "epoch": 4.251223491027733,
+      "grad_norm": 0.02385716140270233,
+      "learning_rate": 0.0009619043472046151,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 56320832,
+      "step": 26060
+    },
+    {
+      "epoch": 4.2520391517128875,
+      "grad_norm": 0.01335175335407257,
+      "learning_rate": 0.0009618770910154444,
+      "loss": 0.1649,
+      "num_input_tokens_seen": 56331360,
+      "step": 26065
+    },
+    {
+      "epoch": 4.252854812398042,
+      "grad_norm": 0.07662574201822281,
+      "learning_rate": 0.0009618498254657486,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 56342944,
+      "step": 26070
+    },
+    {
+      "epoch": 4.253670473083197,
+      "grad_norm": 0.10685458034276962,
+      "learning_rate": 0.00096182255055608,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 56354432,
+      "step": 26075
+    },
+    {
+      "epoch": 4.254486133768353,
+      "grad_norm": 0.2515588104724884,
+      "learning_rate": 0.0009617952662869918,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 56365696,
+      "step": 26080
+    },
+    {
+      "epoch": 4.255301794453508,
+      "grad_norm": 0.016076816245913506,
+      "learning_rate": 0.0009617679726590366,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 56377376,
+      "step": 26085
+    },
+    {
+      "epoch": 4.2561174551386625,
+      "grad_norm": 0.048764199018478394,
+      "learning_rate": 0.0009617406696727676,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 56388064,
+      "step": 26090
+    },
+    {
+      "epoch": 4.256933115823817,
+      "grad_norm": 0.16464506089687347,
+      "learning_rate": 0.0009617133573287382,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 56399488,
+      "step": 26095
+    },
+    {
+      "epoch": 4.257748776508972,
+      "grad_norm": 0.08378614485263824,
+      "learning_rate": 0.0009616860356275019,
+      "loss": 0.1784,
+      "num_input_tokens_seen": 56411104,
+      "step": 26100
+    },
+    {
+      "epoch": 4.258564437194127,
+      "grad_norm": 0.09539467096328735,
+      "learning_rate": 0.0009616587045696124,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 56422496,
+      "step": 26105
+    },
+    {
+      "epoch": 4.259380097879283,
+      "grad_norm": 0.02436433918774128,
+      "learning_rate": 0.0009616313641556235,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 56432512,
+      "step": 26110
+    },
+    {
+      "epoch": 4.260195758564437,
+      "grad_norm": 0.0581025667488575,
+      "learning_rate": 0.0009616040143860896,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 56442816,
+      "step": 26115
+    },
+    {
+      "epoch": 4.261011419249592,
+      "grad_norm": 0.02602909319102764,
+      "learning_rate": 0.0009615766552615645,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 56454080,
+      "step": 26120
+    },
+    {
+      "epoch": 4.261827079934747,
+      "grad_norm": 0.1946924775838852,
+      "learning_rate": 0.0009615492867826032,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 56464352,
+      "step": 26125
+    },
+    {
+      "epoch": 4.262642740619902,
+      "grad_norm": 0.1757528930902481,
+      "learning_rate": 0.00096152190894976,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 56476416,
+      "step": 26130
+    },
+    {
+      "epoch": 4.263458401305057,
+      "grad_norm": 0.21124711632728577,
+      "learning_rate": 0.0009614945217635897,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 56487360,
+      "step": 26135
+    },
+    {
+      "epoch": 4.264274061990212,
+      "grad_norm": 0.17990908026695251,
+      "learning_rate": 0.0009614671252246476,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 56499008,
+      "step": 26140
+    },
+    {
+      "epoch": 4.265089722675367,
+      "grad_norm": 0.1713842749595642,
+      "learning_rate": 0.0009614397193334887,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 56511040,
+      "step": 26145
+    },
+    {
+      "epoch": 4.265905383360522,
+      "grad_norm": 0.27467039227485657,
+      "learning_rate": 0.0009614123040906686,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 56522240,
+      "step": 26150
+    },
+    {
+      "epoch": 4.266721044045677,
+      "grad_norm": 0.00788316410034895,
+      "learning_rate": 0.0009613848794967428,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 56532960,
+      "step": 26155
+    },
+    {
+      "epoch": 4.267536704730832,
+      "grad_norm": 0.18166938424110413,
+      "learning_rate": 0.0009613574455522671,
+      "loss": 0.2217,
+      "num_input_tokens_seen": 56543488,
+      "step": 26160
+    },
+    {
+      "epoch": 4.268352365415987,
+      "grad_norm": 0.16838808357715607,
+      "learning_rate": 0.0009613300022577974,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 56553536,
+      "step": 26165
+    },
+    {
+      "epoch": 4.269168026101142,
+      "grad_norm": 0.028545338660478592,
+      "learning_rate": 0.00096130254961389,
+      "loss": 0.0584,
+      "num_input_tokens_seen": 56563648,
+      "step": 26170
+    },
+    {
+      "epoch": 4.269983686786297,
+      "grad_norm": 0.01613200642168522,
+      "learning_rate": 0.0009612750876211014,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 56575136,
+      "step": 26175
+    },
+    {
+      "epoch": 4.270799347471452,
+      "grad_norm": 0.10914766043424606,
+      "learning_rate": 0.0009612476162799878,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 56586720,
+      "step": 26180
+    },
+    {
+      "epoch": 4.271615008156607,
+      "grad_norm": 0.24682168662548065,
+      "learning_rate": 0.0009612201355911061,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 56597984,
+      "step": 26185
+    },
+    {
+      "epoch": 4.2724306688417615,
+      "grad_norm": 0.004787517245858908,
+      "learning_rate": 0.0009611926455550135,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 56608736,
+      "step": 26190
+    },
+    {
+      "epoch": 4.273246329526917,
+      "grad_norm": 0.024321412667632103,
+      "learning_rate": 0.0009611651461722666,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 56620128,
+      "step": 26195
+    },
+    {
+      "epoch": 4.274061990212072,
+      "grad_norm": 0.014418189413845539,
+      "learning_rate": 0.0009611376374434231,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 56631008,
+      "step": 26200
+    },
+    {
+      "epoch": 4.274877650897227,
+      "grad_norm": 0.021421290934085846,
+      "learning_rate": 0.0009611101193690403,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 56642112,
+      "step": 26205
+    },
+    {
+      "epoch": 4.275693311582382,
+      "grad_norm": 0.2636556625366211,
+      "learning_rate": 0.0009610825919496761,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 56652192,
+      "step": 26210
+    },
+    {
+      "epoch": 4.2765089722675365,
+      "grad_norm": 0.09782522916793823,
+      "learning_rate": 0.0009610550551858881,
+      "loss": 0.058,
+      "num_input_tokens_seen": 56663488,
+      "step": 26215
+    },
+    {
+      "epoch": 4.277324632952691,
+      "grad_norm": 0.019692903384566307,
+      "learning_rate": 0.0009610275090782347,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 56673408,
+      "step": 26220
+    },
+    {
+      "epoch": 4.278140293637847,
+      "grad_norm": 0.19901689887046814,
+      "learning_rate": 0.0009609999536272738,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 56683968,
+      "step": 26225
+    },
+    {
+      "epoch": 4.278955954323002,
+      "grad_norm": 0.18883618712425232,
+      "learning_rate": 0.0009609723888335641,
+      "loss": 0.2123,
+      "num_input_tokens_seen": 56694016,
+      "step": 26230
+    },
+    {
+      "epoch": 4.279771615008157,
+      "grad_norm": 0.06648790836334229,
+      "learning_rate": 0.0009609448146976642,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 56704096,
+      "step": 26235
+    },
+    {
+      "epoch": 4.280587275693311,
+      "grad_norm": 0.07960224896669388,
+      "learning_rate": 0.0009609172312201328,
+      "loss": 0.2726,
+      "num_input_tokens_seen": 56712768,
+      "step": 26240
+    },
+    {
+      "epoch": 4.281402936378466,
+      "grad_norm": 0.04163384810090065,
+      "learning_rate": 0.000960889638401529,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 56723776,
+      "step": 26245
+    },
+    {
+      "epoch": 4.282218597063622,
+      "grad_norm": 0.10396461188793182,
+      "learning_rate": 0.0009608620362424121,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 56733696,
+      "step": 26250
+    },
+    {
+      "epoch": 4.283034257748777,
+      "grad_norm": 0.024622034281492233,
+      "learning_rate": 0.0009608344247433412,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 56745216,
+      "step": 26255
+    },
+    {
+      "epoch": 4.283849918433932,
+      "grad_norm": 0.16428062319755554,
+      "learning_rate": 0.0009608068039048763,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 56754656,
+      "step": 26260
+    },
+    {
+      "epoch": 4.284665579119086,
+      "grad_norm": 0.05322808027267456,
+      "learning_rate": 0.0009607791737275769,
+      "loss": 0.036,
+      "num_input_tokens_seen": 56765408,
+      "step": 26265
+    },
+    {
+      "epoch": 4.285481239804241,
+      "grad_norm": 0.10171199589967728,
+      "learning_rate": 0.0009607515342120028,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 56776384,
+      "step": 26270
+    },
+    {
+      "epoch": 4.286296900489396,
+      "grad_norm": 0.053133487701416016,
+      "learning_rate": 0.0009607238853587144,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 56788320,
+      "step": 26275
+    },
+    {
+      "epoch": 4.287112561174552,
+      "grad_norm": 0.09317631274461746,
+      "learning_rate": 0.0009606962271682722,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 56799552,
+      "step": 26280
+    },
+    {
+      "epoch": 4.287928221859707,
+      "grad_norm": 0.09496995061635971,
+      "learning_rate": 0.0009606685596412364,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 56810048,
+      "step": 26285
+    },
+    {
+      "epoch": 4.288743882544861,
+      "grad_norm": 0.17305903136730194,
+      "learning_rate": 0.0009606408827781679,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 56820736,
+      "step": 26290
+    },
+    {
+      "epoch": 4.289559543230016,
+      "grad_norm": 0.12145748734474182,
+      "learning_rate": 0.0009606131965796274,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 56831808,
+      "step": 26295
+    },
+    {
+      "epoch": 4.290375203915171,
+      "grad_norm": 0.015286357142031193,
+      "learning_rate": 0.0009605855010461761,
+      "loss": 0.1748,
+      "num_input_tokens_seen": 56842816,
+      "step": 26300
+    },
+    {
+      "epoch": 4.291190864600326,
+      "grad_norm": 0.1779191792011261,
+      "learning_rate": 0.0009605577961783756,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 56853440,
+      "step": 26305
+    },
+    {
+      "epoch": 4.2920065252854815,
+      "grad_norm": 0.16392691433429718,
+      "learning_rate": 0.0009605300819767869,
+      "loss": 0.1803,
+      "num_input_tokens_seen": 56864192,
+      "step": 26310
+    },
+    {
+      "epoch": 4.292822185970636,
+      "grad_norm": 0.027073819190263748,
+      "learning_rate": 0.000960502358441972,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 56872800,
+      "step": 26315
+    },
+    {
+      "epoch": 4.293637846655791,
+      "grad_norm": 0.09286334365606308,
+      "learning_rate": 0.0009604746255744925,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 56882688,
+      "step": 26320
+    },
+    {
+      "epoch": 4.294453507340946,
+      "grad_norm": 0.1313088983297348,
+      "learning_rate": 0.0009604468833749105,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 56893152,
+      "step": 26325
+    },
+    {
+      "epoch": 4.295269168026101,
+      "grad_norm": 0.20351779460906982,
+      "learning_rate": 0.0009604191318437885,
+      "loss": 0.1661,
+      "num_input_tokens_seen": 56904128,
+      "step": 26330
+    },
+    {
+      "epoch": 4.2960848287112565,
+      "grad_norm": 0.056847669184207916,
+      "learning_rate": 0.0009603913709816886,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 56915136,
+      "step": 26335
+    },
+    {
+      "epoch": 4.296900489396411,
+      "grad_norm": 0.04496561363339424,
+      "learning_rate": 0.0009603636007891735,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 56926208,
+      "step": 26340
+    },
+    {
+      "epoch": 4.297716150081566,
+      "grad_norm": 0.13187801837921143,
+      "learning_rate": 0.0009603358212668061,
+      "loss": 0.1805,
+      "num_input_tokens_seen": 56935520,
+      "step": 26345
+    },
+    {
+      "epoch": 4.298531810766721,
+      "grad_norm": 0.01551650557667017,
+      "learning_rate": 0.0009603080324151492,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 56946560,
+      "step": 26350
+    },
+    {
+      "epoch": 4.299347471451876,
+      "grad_norm": 0.22867026925086975,
+      "learning_rate": 0.0009602802342347661,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 56957120,
+      "step": 26355
+    },
+    {
+      "epoch": 4.300163132137031,
+      "grad_norm": 0.17811556160449982,
+      "learning_rate": 0.0009602524267262203,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 56970368,
+      "step": 26360
+    },
+    {
+      "epoch": 4.300978792822186,
+      "grad_norm": 0.09705094248056412,
+      "learning_rate": 0.0009602246098900749,
+      "loss": 0.1768,
+      "num_input_tokens_seen": 56980672,
+      "step": 26365
+    },
+    {
+      "epoch": 4.301794453507341,
+      "grad_norm": 0.04232777655124664,
+      "learning_rate": 0.0009601967837268941,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 56991232,
+      "step": 26370
+    },
+    {
+      "epoch": 4.302610114192496,
+      "grad_norm": 0.33170196413993835,
+      "learning_rate": 0.0009601689482372417,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 57002112,
+      "step": 26375
+    },
+    {
+      "epoch": 4.303425774877651,
+      "grad_norm": 0.03127500042319298,
+      "learning_rate": 0.0009601411034216818,
+      "loss": 0.056,
+      "num_input_tokens_seen": 57011936,
+      "step": 26380
+    },
+    {
+      "epoch": 4.304241435562806,
+      "grad_norm": 0.19058465957641602,
+      "learning_rate": 0.0009601132492807787,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 57022432,
+      "step": 26385
+    },
+    {
+      "epoch": 4.30505709624796,
+      "grad_norm": 0.016696345061063766,
+      "learning_rate": 0.000960085385815097,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 57032896,
+      "step": 26390
+    },
+    {
+      "epoch": 4.305872756933116,
+      "grad_norm": 0.07727955281734467,
+      "learning_rate": 0.0009600575130252012,
+      "loss": 0.0479,
+      "num_input_tokens_seen": 57042880,
+      "step": 26395
+    },
+    {
+      "epoch": 4.306688417618271,
+      "grad_norm": 0.17325547337532043,
+      "learning_rate": 0.0009600296309116563,
+      "loss": 0.16,
+      "num_input_tokens_seen": 57053280,
+      "step": 26400
+    },
+    {
+      "epoch": 4.307504078303426,
+      "grad_norm": 0.2629067301750183,
+      "learning_rate": 0.0009600017394750274,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 57063456,
+      "step": 26405
+    },
+    {
+      "epoch": 4.308319738988581,
+      "grad_norm": 0.1544959545135498,
+      "learning_rate": 0.0009599738387158794,
+      "loss": 0.09,
+      "num_input_tokens_seen": 57074496,
+      "step": 26410
+    },
+    {
+      "epoch": 4.309135399673735,
+      "grad_norm": 0.007932339794933796,
+      "learning_rate": 0.0009599459286347783,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 57085696,
+      "step": 26415
+    },
+    {
+      "epoch": 4.309951060358891,
+      "grad_norm": 0.008668801747262478,
+      "learning_rate": 0.0009599180092322894,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 57095648,
+      "step": 26420
+    },
+    {
+      "epoch": 4.310766721044046,
+      "grad_norm": 0.030321603640913963,
+      "learning_rate": 0.0009598900805089786,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 57107168,
+      "step": 26425
+    },
+    {
+      "epoch": 4.311582381729201,
+      "grad_norm": 0.0036541877780109644,
+      "learning_rate": 0.0009598621424654119,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 57118016,
+      "step": 26430
+    },
+    {
+      "epoch": 4.3123980424143555,
+      "grad_norm": 0.011160695925354958,
+      "learning_rate": 0.0009598341951021557,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 57129632,
+      "step": 26435
+    },
+    {
+      "epoch": 4.31321370309951,
+      "grad_norm": 0.08019030094146729,
+      "learning_rate": 0.0009598062384197759,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 57140576,
+      "step": 26440
+    },
+    {
+      "epoch": 4.314029363784665,
+      "grad_norm": 0.025762809440493584,
+      "learning_rate": 0.0009597782724188395,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 57151712,
+      "step": 26445
+    },
+    {
+      "epoch": 4.314845024469821,
+      "grad_norm": 0.058879684656858444,
+      "learning_rate": 0.0009597502970999132,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 57162272,
+      "step": 26450
+    },
+    {
+      "epoch": 4.315660685154976,
+      "grad_norm": 0.04242071136832237,
+      "learning_rate": 0.0009597223124635639,
+      "loss": 0.014,
+      "num_input_tokens_seen": 57173952,
+      "step": 26455
+    },
+    {
+      "epoch": 4.3164763458401305,
+      "grad_norm": 0.07131559401750565,
+      "learning_rate": 0.0009596943185103586,
+      "loss": 0.175,
+      "num_input_tokens_seen": 57184000,
+      "step": 26460
+    },
+    {
+      "epoch": 4.317292006525285,
+      "grad_norm": 0.15778687596321106,
+      "learning_rate": 0.0009596663152408648,
+      "loss": 0.1615,
+      "num_input_tokens_seen": 57195264,
+      "step": 26465
+    },
+    {
+      "epoch": 4.31810766721044,
+      "grad_norm": 0.02540893293917179,
+      "learning_rate": 0.0009596383026556501,
+      "loss": 0.063,
+      "num_input_tokens_seen": 57205056,
+      "step": 26470
+    },
+    {
+      "epoch": 4.318923327895595,
+      "grad_norm": 0.10403016209602356,
+      "learning_rate": 0.000959610280755282,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 57215296,
+      "step": 26475
+    },
+    {
+      "epoch": 4.319738988580751,
+      "grad_norm": 0.18612545728683472,
+      "learning_rate": 0.0009595822495403286,
+      "loss": 0.183,
+      "num_input_tokens_seen": 57225632,
+      "step": 26480
+    },
+    {
+      "epoch": 4.3205546492659055,
+      "grad_norm": 0.022068077698349953,
+      "learning_rate": 0.0009595542090113579,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 57237504,
+      "step": 26485
+    },
+    {
+      "epoch": 4.32137030995106,
+      "grad_norm": 0.12466895580291748,
+      "learning_rate": 0.0009595261591689381,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 57249696,
+      "step": 26490
+    },
+    {
+      "epoch": 4.322185970636215,
+      "grad_norm": 0.006654700729995966,
+      "learning_rate": 0.0009594981000136377,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 57259232,
+      "step": 26495
+    },
+    {
+      "epoch": 4.32300163132137,
+      "grad_norm": 0.028172895312309265,
+      "learning_rate": 0.0009594700315460254,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 57269408,
+      "step": 26500
+    },
+    {
+      "epoch": 4.323817292006526,
+      "grad_norm": 0.013215692713856697,
+      "learning_rate": 0.0009594419537666701,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 57280352,
+      "step": 26505
+    },
+    {
+      "epoch": 4.3246329526916805,
+      "grad_norm": 0.03416256979107857,
+      "learning_rate": 0.0009594138666761407,
+      "loss": 0.1872,
+      "num_input_tokens_seen": 57289248,
+      "step": 26510
+    },
+    {
+      "epoch": 4.325448613376835,
+      "grad_norm": 0.1410515457391739,
+      "learning_rate": 0.0009593857702750065,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 57298720,
+      "step": 26515
+    },
+    {
+      "epoch": 4.32626427406199,
+      "grad_norm": 0.038631804287433624,
+      "learning_rate": 0.0009593576645638369,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 57310016,
+      "step": 26520
+    },
+    {
+      "epoch": 4.327079934747145,
+      "grad_norm": 0.07176709920167923,
+      "learning_rate": 0.0009593295495432015,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 57321216,
+      "step": 26525
+    },
+    {
+      "epoch": 4.327895595432301,
+      "grad_norm": 0.017286749556660652,
+      "learning_rate": 0.00095930142521367,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 57330240,
+      "step": 26530
+    },
+    {
+      "epoch": 4.328711256117455,
+      "grad_norm": 0.005593335721641779,
+      "learning_rate": 0.0009592732915758127,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 57341344,
+      "step": 26535
+    },
+    {
+      "epoch": 4.32952691680261,
+      "grad_norm": 0.2700396180152893,
+      "learning_rate": 0.0009592451486301991,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 57352736,
+      "step": 26540
+    },
+    {
+      "epoch": 4.330342577487765,
+      "grad_norm": 0.0752822533249855,
+      "learning_rate": 0.0009592169963774004,
+      "loss": 0.055,
+      "num_input_tokens_seen": 57363200,
+      "step": 26545
+    },
+    {
+      "epoch": 4.33115823817292,
+      "grad_norm": 0.011770925484597683,
+      "learning_rate": 0.0009591888348179865,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 57373952,
+      "step": 26550
+    },
+    {
+      "epoch": 4.331973898858075,
+      "grad_norm": 0.07157646864652634,
+      "learning_rate": 0.0009591606639525283,
+      "loss": 0.0491,
+      "num_input_tokens_seen": 57384000,
+      "step": 26555
+    },
+    {
+      "epoch": 4.33278955954323,
+      "grad_norm": 0.03235434740781784,
+      "learning_rate": 0.0009591324837815969,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 57394432,
+      "step": 26560
+    },
+    {
+      "epoch": 4.333605220228385,
+      "grad_norm": 0.18330805003643036,
+      "learning_rate": 0.0009591042943057631,
+      "loss": 0.1976,
+      "num_input_tokens_seen": 57405088,
+      "step": 26565
+    },
+    {
+      "epoch": 4.33442088091354,
+      "grad_norm": 0.013964567333459854,
+      "learning_rate": 0.0009590760955255985,
+      "loss": 0.035,
+      "num_input_tokens_seen": 57416608,
+      "step": 26570
+    },
+    {
+      "epoch": 4.335236541598695,
+      "grad_norm": 0.0749783143401146,
+      "learning_rate": 0.0009590478874416744,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 57427744,
+      "step": 26575
+    },
+    {
+      "epoch": 4.33605220228385,
+      "grad_norm": 0.19421903789043427,
+      "learning_rate": 0.0009590196700545626,
+      "loss": 0.2615,
+      "num_input_tokens_seen": 57438112,
+      "step": 26580
+    },
+    {
+      "epoch": 4.3368678629690045,
+      "grad_norm": 0.08299185335636139,
+      "learning_rate": 0.0009589914433648347,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 57448896,
+      "step": 26585
+    },
+    {
+      "epoch": 4.33768352365416,
+      "grad_norm": 0.11819956451654434,
+      "learning_rate": 0.000958963207373063,
+      "loss": 0.055,
+      "num_input_tokens_seen": 57460160,
+      "step": 26590
+    },
+    {
+      "epoch": 4.338499184339315,
+      "grad_norm": 0.05758635699748993,
+      "learning_rate": 0.0009589349620798197,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 57470656,
+      "step": 26595
+    },
+    {
+      "epoch": 4.33931484502447,
+      "grad_norm": 0.010048212483525276,
+      "learning_rate": 0.0009589067074856772,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 57481504,
+      "step": 26600
+    },
+    {
+      "epoch": 4.340130505709625,
+      "grad_norm": 0.009367452003061771,
+      "learning_rate": 0.0009588784435912082,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 57491520,
+      "step": 26605
+    },
+    {
+      "epoch": 4.3409461663947795,
+      "grad_norm": 0.21798332035541534,
+      "learning_rate": 0.0009588501703969852,
+      "loss": 0.1723,
+      "num_input_tokens_seen": 57501344,
+      "step": 26610
+    },
+    {
+      "epoch": 4.341761827079935,
+      "grad_norm": 0.013095865026116371,
+      "learning_rate": 0.0009588218879035815,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 57513120,
+      "step": 26615
+    },
+    {
+      "epoch": 4.34257748776509,
+      "grad_norm": 0.04659920558333397,
+      "learning_rate": 0.0009587935961115701,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 57523584,
+      "step": 26620
+    },
+    {
+      "epoch": 4.343393148450245,
+      "grad_norm": 0.4134010374546051,
+      "learning_rate": 0.0009587652950215247,
+      "loss": 0.2004,
+      "num_input_tokens_seen": 57534080,
+      "step": 26625
+    },
+    {
+      "epoch": 4.3442088091354,
+      "grad_norm": 0.022348370403051376,
+      "learning_rate": 0.0009587369846340184,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 57545632,
+      "step": 26630
+    },
+    {
+      "epoch": 4.3450244698205545,
+      "grad_norm": 0.10105215013027191,
+      "learning_rate": 0.000958708664949625,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 57556832,
+      "step": 26635
+    },
+    {
+      "epoch": 4.345840130505709,
+      "grad_norm": 0.023678358644247055,
+      "learning_rate": 0.0009586803359689189,
+      "loss": 0.128,
+      "num_input_tokens_seen": 57567552,
+      "step": 26640
+    },
+    {
+      "epoch": 4.346655791190865,
+      "grad_norm": 0.019319554790854454,
+      "learning_rate": 0.0009586519976924739,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 57579424,
+      "step": 26645
+    },
+    {
+      "epoch": 4.34747145187602,
+      "grad_norm": 0.24461629986763,
+      "learning_rate": 0.0009586236501208642,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 57590400,
+      "step": 26650
+    },
+    {
+      "epoch": 4.348287112561175,
+      "grad_norm": 0.0134728467091918,
+      "learning_rate": 0.0009585952932546644,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 57599648,
+      "step": 26655
+    },
+    {
+      "epoch": 4.349102773246329,
+      "grad_norm": 0.08431003242731094,
+      "learning_rate": 0.0009585669270944493,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 57611168,
+      "step": 26660
+    },
+    {
+      "epoch": 4.349918433931484,
+      "grad_norm": 0.19880840182304382,
+      "learning_rate": 0.0009585385516407936,
+      "loss": 0.1469,
+      "num_input_tokens_seen": 57622048,
+      "step": 26665
+    },
+    {
+      "epoch": 4.350734094616639,
+      "grad_norm": 0.01987231895327568,
+      "learning_rate": 0.0009585101668942726,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 57632832,
+      "step": 26670
+    },
+    {
+      "epoch": 4.351549755301795,
+      "grad_norm": 0.025066286325454712,
+      "learning_rate": 0.0009584817728554613,
+      "loss": 0.1467,
+      "num_input_tokens_seen": 57644480,
+      "step": 26675
+    },
+    {
+      "epoch": 4.35236541598695,
+      "grad_norm": 0.04371904954314232,
+      "learning_rate": 0.0009584533695249353,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 57654464,
+      "step": 26680
+    },
+    {
+      "epoch": 4.353181076672104,
+      "grad_norm": 0.008882477879524231,
+      "learning_rate": 0.0009584249569032701,
+      "loss": 0.1217,
+      "num_input_tokens_seen": 57664672,
+      "step": 26685
+    },
+    {
+      "epoch": 4.353996737357259,
+      "grad_norm": 0.02217107079923153,
+      "learning_rate": 0.0009583965349910417,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 57675360,
+      "step": 26690
+    },
+    {
+      "epoch": 4.354812398042414,
+      "grad_norm": 0.05907650664448738,
+      "learning_rate": 0.0009583681037888259,
+      "loss": 0.1975,
+      "num_input_tokens_seen": 57686624,
+      "step": 26695
+    },
+    {
+      "epoch": 4.35562805872757,
+      "grad_norm": 0.07159577310085297,
+      "learning_rate": 0.0009583396632971991,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 57698048,
+      "step": 26700
+    },
+    {
+      "epoch": 4.356443719412725,
+      "grad_norm": 0.12222054600715637,
+      "learning_rate": 0.0009583112135167376,
+      "loss": 0.3591,
+      "num_input_tokens_seen": 57709216,
+      "step": 26705
+    },
+    {
+      "epoch": 4.357259380097879,
+      "grad_norm": 0.016294648870825768,
+      "learning_rate": 0.0009582827544480177,
+      "loss": 0.1798,
+      "num_input_tokens_seen": 57719488,
+      "step": 26710
+    },
+    {
+      "epoch": 4.358075040783034,
+      "grad_norm": 0.02656223438680172,
+      "learning_rate": 0.0009582542860916166,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 57731040,
+      "step": 26715
+    },
+    {
+      "epoch": 4.358890701468189,
+      "grad_norm": 0.21412135660648346,
+      "learning_rate": 0.000958225808448111,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 57741728,
+      "step": 26720
+    },
+    {
+      "epoch": 4.359706362153344,
+      "grad_norm": 0.06581278145313263,
+      "learning_rate": 0.0009581973215180782,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 57752128,
+      "step": 26725
+    },
+    {
+      "epoch": 4.3605220228384995,
+      "grad_norm": 0.06512191146612167,
+      "learning_rate": 0.0009581688253020952,
+      "loss": 0.142,
+      "num_input_tokens_seen": 57762944,
+      "step": 26730
+    },
+    {
+      "epoch": 4.361337683523654,
+      "grad_norm": 0.059873901307582855,
+      "learning_rate": 0.00095814031980074,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 57775296,
+      "step": 26735
+    },
+    {
+      "epoch": 4.362153344208809,
+      "grad_norm": 0.2084333449602127,
+      "learning_rate": 0.0009581118050145898,
+      "loss": 0.3417,
+      "num_input_tokens_seen": 57786368,
+      "step": 26740
+    },
+    {
+      "epoch": 4.362969004893964,
+      "grad_norm": 0.19248606264591217,
+      "learning_rate": 0.0009580832809442228,
+      "loss": 0.1961,
+      "num_input_tokens_seen": 57797312,
+      "step": 26745
+    },
+    {
+      "epoch": 4.363784665579119,
+      "grad_norm": 0.03354114666581154,
+      "learning_rate": 0.000958054747590217,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 57808896,
+      "step": 26750
+    },
+    {
+      "epoch": 4.364600326264274,
+      "grad_norm": 0.04537074267864227,
+      "learning_rate": 0.0009580262049531508,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 57819744,
+      "step": 26755
+    },
+    {
+      "epoch": 4.365415986949429,
+      "grad_norm": 0.10104655474424362,
+      "learning_rate": 0.0009579976530336023,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 57830944,
+      "step": 26760
+    },
+    {
+      "epoch": 4.366231647634584,
+      "grad_norm": 0.07620599120855331,
+      "learning_rate": 0.0009579690918321504,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 57841920,
+      "step": 26765
+    },
+    {
+      "epoch": 4.367047308319739,
+      "grad_norm": 0.03413588926196098,
+      "learning_rate": 0.0009579405213493739,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 57853056,
+      "step": 26770
+    },
+    {
+      "epoch": 4.367862969004894,
+      "grad_norm": 0.14624758064746857,
+      "learning_rate": 0.0009579119415858518,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 57863552,
+      "step": 26775
+    },
+    {
+      "epoch": 4.368678629690049,
+      "grad_norm": 0.042857468128204346,
+      "learning_rate": 0.0009578833525421633,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 57872992,
+      "step": 26780
+    },
+    {
+      "epoch": 4.369494290375204,
+      "grad_norm": 0.058174289762973785,
+      "learning_rate": 0.0009578547542188878,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 57884224,
+      "step": 26785
+    },
+    {
+      "epoch": 4.370309951060359,
+      "grad_norm": 0.11993542313575745,
+      "learning_rate": 0.0009578261466166049,
+      "loss": 0.104,
+      "num_input_tokens_seen": 57895712,
+      "step": 26790
+    },
+    {
+      "epoch": 4.371125611745514,
+      "grad_norm": 0.03129759058356285,
+      "learning_rate": 0.0009577975297358943,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 57907328,
+      "step": 26795
+    },
+    {
+      "epoch": 4.371941272430669,
+      "grad_norm": 0.08179029077291489,
+      "learning_rate": 0.0009577689035773359,
+      "loss": 0.1652,
+      "num_input_tokens_seen": 57918464,
+      "step": 26800
+    },
+    {
+      "epoch": 4.372756933115824,
+      "grad_norm": 0.08137882500886917,
+      "learning_rate": 0.0009577402681415102,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 57929088,
+      "step": 26805
+    },
+    {
+      "epoch": 4.373572593800978,
+      "grad_norm": 0.04663487523794174,
+      "learning_rate": 0.0009577116234289971,
+      "loss": 0.2543,
+      "num_input_tokens_seen": 57941248,
+      "step": 26810
+    },
+    {
+      "epoch": 4.374388254486134,
+      "grad_norm": 0.04174930229783058,
+      "learning_rate": 0.0009576829694403772,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 57951968,
+      "step": 26815
+    },
+    {
+      "epoch": 4.375203915171289,
+      "grad_norm": 0.21580137312412262,
+      "learning_rate": 0.0009576543061762315,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 57961568,
+      "step": 26820
+    },
+    {
+      "epoch": 4.376019575856444,
+      "grad_norm": 0.23943717777729034,
+      "learning_rate": 0.0009576256336371407,
+      "loss": 0.137,
+      "num_input_tokens_seen": 57972832,
+      "step": 26825
+    },
+    {
+      "epoch": 4.376835236541599,
+      "grad_norm": 0.061017557978630066,
+      "learning_rate": 0.0009575969518236857,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 57982816,
+      "step": 26830
+    },
+    {
+      "epoch": 4.377650897226753,
+      "grad_norm": 0.08061721920967102,
+      "learning_rate": 0.0009575682607364482,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 57994784,
+      "step": 26835
+    },
+    {
+      "epoch": 4.378466557911908,
+      "grad_norm": 0.04571057856082916,
+      "learning_rate": 0.0009575395603760095,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 58006208,
+      "step": 26840
+    },
+    {
+      "epoch": 4.379282218597064,
+      "grad_norm": 0.02869790978729725,
+      "learning_rate": 0.000957510850742951,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 58016256,
+      "step": 26845
+    },
+    {
+      "epoch": 4.380097879282219,
+      "grad_norm": 0.10976076126098633,
+      "learning_rate": 0.0009574821318378547,
+      "loss": 0.134,
+      "num_input_tokens_seen": 58027680,
+      "step": 26850
+    },
+    {
+      "epoch": 4.3809135399673735,
+      "grad_norm": 0.06502792984247208,
+      "learning_rate": 0.0009574534036613028,
+      "loss": 0.1922,
+      "num_input_tokens_seen": 58038496,
+      "step": 26855
+    },
+    {
+      "epoch": 4.381729200652528,
+      "grad_norm": 0.2433139979839325,
+      "learning_rate": 0.0009574246662138772,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 58047776,
+      "step": 26860
+    },
+    {
+      "epoch": 4.382544861337683,
+      "grad_norm": 0.124003104865551,
+      "learning_rate": 0.0009573959194961604,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 58058112,
+      "step": 26865
+    },
+    {
+      "epoch": 4.383360522022839,
+      "grad_norm": 0.048630520701408386,
+      "learning_rate": 0.0009573671635087352,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 58068608,
+      "step": 26870
+    },
+    {
+      "epoch": 4.384176182707994,
+      "grad_norm": 0.03981039673089981,
+      "learning_rate": 0.0009573383982521841,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 58079680,
+      "step": 26875
+    },
+    {
+      "epoch": 4.3849918433931485,
+      "grad_norm": 0.04121852666139603,
+      "learning_rate": 0.0009573096237270903,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 58090176,
+      "step": 26880
+    },
+    {
+      "epoch": 4.385807504078303,
+      "grad_norm": 0.2329862415790558,
+      "learning_rate": 0.0009572808399340368,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 58101472,
+      "step": 26885
+    },
+    {
+      "epoch": 4.386623164763458,
+      "grad_norm": 0.08368705213069916,
+      "learning_rate": 0.000957252046873607,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 58112576,
+      "step": 26890
+    },
+    {
+      "epoch": 4.387438825448613,
+      "grad_norm": 0.0444665402173996,
+      "learning_rate": 0.0009572232445463843,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 58122976,
+      "step": 26895
+    },
+    {
+      "epoch": 4.388254486133769,
+      "grad_norm": 0.02356015332043171,
+      "learning_rate": 0.0009571944329529526,
+      "loss": 0.058,
+      "num_input_tokens_seen": 58134368,
+      "step": 26900
+    },
+    {
+      "epoch": 4.3890701468189235,
+      "grad_norm": 0.002911847084760666,
+      "learning_rate": 0.0009571656120938956,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 58145312,
+      "step": 26905
+    },
+    {
+      "epoch": 4.389885807504078,
+      "grad_norm": 0.24054285883903503,
+      "learning_rate": 0.0009571367819697978,
+      "loss": 0.2026,
+      "num_input_tokens_seen": 58155680,
+      "step": 26910
+    },
+    {
+      "epoch": 4.390701468189233,
+      "grad_norm": 0.027164777740836143,
+      "learning_rate": 0.000957107942581243,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 58164960,
+      "step": 26915
+    },
+    {
+      "epoch": 4.391517128874388,
+      "grad_norm": 0.08999812602996826,
+      "learning_rate": 0.0009570790939288159,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 58174624,
+      "step": 26920
+    },
+    {
+      "epoch": 4.392332789559543,
+      "grad_norm": 0.4166439473628998,
+      "learning_rate": 0.0009570502360131011,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 58185344,
+      "step": 26925
+    },
+    {
+      "epoch": 4.3931484502446985,
+      "grad_norm": 0.03616182506084442,
+      "learning_rate": 0.0009570213688346833,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 58196416,
+      "step": 26930
+    },
+    {
+      "epoch": 4.393964110929853,
+      "grad_norm": 0.6690056920051575,
+      "learning_rate": 0.000956992492394148,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 58206592,
+      "step": 26935
+    },
+    {
+      "epoch": 4.394779771615008,
+      "grad_norm": 0.14354459941387177,
+      "learning_rate": 0.00095696360669208,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 58217568,
+      "step": 26940
+    },
+    {
+      "epoch": 4.395595432300163,
+      "grad_norm": 0.32492372393608093,
+      "learning_rate": 0.0009569347117290647,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 58227552,
+      "step": 26945
+    },
+    {
+      "epoch": 4.396411092985318,
+      "grad_norm": 0.01738920249044895,
+      "learning_rate": 0.0009569058075056878,
+      "loss": 0.054,
+      "num_input_tokens_seen": 58239040,
+      "step": 26950
+    },
+    {
+      "epoch": 4.397226753670473,
+      "grad_norm": 0.011106864549219608,
+      "learning_rate": 0.0009568768940225352,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 58250304,
+      "step": 26955
+    },
+    {
+      "epoch": 4.398042414355628,
+      "grad_norm": 0.3137091398239136,
+      "learning_rate": 0.0009568479712801926,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 58262144,
+      "step": 26960
+    },
+    {
+      "epoch": 4.398858075040783,
+      "grad_norm": 0.022524043917655945,
+      "learning_rate": 0.0009568190392792464,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 58272736,
+      "step": 26965
+    },
+    {
+      "epoch": 4.399673735725938,
+      "grad_norm": 0.03002866730093956,
+      "learning_rate": 0.000956790098020283,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 58283040,
+      "step": 26970
+    },
+    {
+      "epoch": 4.400489396411093,
+      "grad_norm": 0.17999090254306793,
+      "learning_rate": 0.0009567611475038886,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 58294432,
+      "step": 26975
+    },
+    {
+      "epoch": 4.401305057096248,
+      "grad_norm": 0.0031778549309819937,
+      "learning_rate": 0.0009567321877306501,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 58303328,
+      "step": 26980
+    },
+    {
+      "epoch": 4.402120717781403,
+      "grad_norm": 0.0474659726023674,
+      "learning_rate": 0.0009567032187011546,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 58314752,
+      "step": 26985
+    },
+    {
+      "epoch": 4.402936378466558,
+      "grad_norm": 0.06852079182863235,
+      "learning_rate": 0.0009566742404159887,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 58325024,
+      "step": 26990
+    },
+    {
+      "epoch": 4.403752039151713,
+      "grad_norm": 0.0092054707929492,
+      "learning_rate": 0.0009566452528757402,
+      "loss": 0.1629,
+      "num_input_tokens_seen": 58334464,
+      "step": 26995
+    },
+    {
+      "epoch": 4.404567699836868,
+      "grad_norm": 0.003914583474397659,
+      "learning_rate": 0.0009566162560809963,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 58345312,
+      "step": 27000
+    },
+    {
+      "epoch": 4.4053833605220225,
+      "grad_norm": 0.16951356828212738,
+      "learning_rate": 0.0009565872500323447,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 58355424,
+      "step": 27005
+    },
+    {
+      "epoch": 4.406199021207178,
+      "grad_norm": 0.0581197664141655,
+      "learning_rate": 0.0009565582347303733,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 58366304,
+      "step": 27010
+    },
+    {
+      "epoch": 4.407014681892333,
+      "grad_norm": 0.02101009152829647,
+      "learning_rate": 0.00095652921017567,
+      "loss": 0.061,
+      "num_input_tokens_seen": 58377376,
+      "step": 27015
+    },
+    {
+      "epoch": 4.407830342577488,
+      "grad_norm": 0.08173485100269318,
+      "learning_rate": 0.0009565001763688233,
+      "loss": 0.1788,
+      "num_input_tokens_seen": 58387424,
+      "step": 27020
+    },
+    {
+      "epoch": 4.408646003262643,
+      "grad_norm": 0.1883484423160553,
+      "learning_rate": 0.0009564711333104213,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 58398880,
+      "step": 27025
+    },
+    {
+      "epoch": 4.4094616639477975,
+      "grad_norm": 0.10336413234472275,
+      "learning_rate": 0.0009564420810010526,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 58410464,
+      "step": 27030
+    },
+    {
+      "epoch": 4.410277324632952,
+      "grad_norm": 0.03497812896966934,
+      "learning_rate": 0.0009564130194413061,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 58422560,
+      "step": 27035
+    },
+    {
+      "epoch": 4.411092985318108,
+      "grad_norm": 0.008337237872183323,
+      "learning_rate": 0.0009563839486317709,
+      "loss": 0.1733,
+      "num_input_tokens_seen": 58432576,
+      "step": 27040
+    },
+    {
+      "epoch": 4.411908646003263,
+      "grad_norm": 0.12369904667139053,
+      "learning_rate": 0.000956354868573036,
+      "loss": 0.1701,
+      "num_input_tokens_seen": 58443488,
+      "step": 27045
+    },
+    {
+      "epoch": 4.412724306688418,
+      "grad_norm": 0.1232222467660904,
+      "learning_rate": 0.0009563257792656908,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 58454560,
+      "step": 27050
+    },
+    {
+      "epoch": 4.4135399673735725,
+      "grad_norm": 0.23827281594276428,
+      "learning_rate": 0.0009562966807103246,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 58465568,
+      "step": 27055
+    },
+    {
+      "epoch": 4.414355628058727,
+      "grad_norm": 0.06323964148759842,
+      "learning_rate": 0.0009562675729075274,
+      "loss": 0.037,
+      "num_input_tokens_seen": 58477056,
+      "step": 27060
+    },
+    {
+      "epoch": 4.415171288743883,
+      "grad_norm": 0.17134052515029907,
+      "learning_rate": 0.0009562384558578891,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 58487904,
+      "step": 27065
+    },
+    {
+      "epoch": 4.415986949429038,
+      "grad_norm": 0.06725971400737762,
+      "learning_rate": 0.0009562093295619996,
+      "loss": 0.2767,
+      "num_input_tokens_seen": 58500384,
+      "step": 27070
+    },
+    {
+      "epoch": 4.416802610114193,
+      "grad_norm": 0.014682374894618988,
+      "learning_rate": 0.0009561801940204493,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 58511104,
+      "step": 27075
+    },
+    {
+      "epoch": 4.417618270799347,
+      "grad_norm": 0.005113726481795311,
+      "learning_rate": 0.0009561510492338287,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 58522528,
+      "step": 27080
+    },
+    {
+      "epoch": 4.418433931484502,
+      "grad_norm": 0.051373984664678574,
+      "learning_rate": 0.0009561218952027286,
+      "loss": 0.1983,
+      "num_input_tokens_seen": 58533184,
+      "step": 27085
+    },
+    {
+      "epoch": 4.419249592169657,
+      "grad_norm": 0.09865567088127136,
+      "learning_rate": 0.0009560927319277395,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 58543328,
+      "step": 27090
+    },
+    {
+      "epoch": 4.420065252854813,
+      "grad_norm": 0.12814849615097046,
+      "learning_rate": 0.0009560635594094524,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 58554784,
+      "step": 27095
+    },
+    {
+      "epoch": 4.420880913539968,
+      "grad_norm": 0.26408764719963074,
+      "learning_rate": 0.000956034377648459,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 58565280,
+      "step": 27100
+    },
+    {
+      "epoch": 4.421696574225122,
+      "grad_norm": 0.08768882602453232,
+      "learning_rate": 0.0009560051866453503,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 58575456,
+      "step": 27105
+    },
+    {
+      "epoch": 4.422512234910277,
+      "grad_norm": 0.020314859226346016,
+      "learning_rate": 0.000955975986400718,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 58586176,
+      "step": 27110
+    },
+    {
+      "epoch": 4.423327895595432,
+      "grad_norm": 0.12767770886421204,
+      "learning_rate": 0.000955946776915154,
+      "loss": 0.1762,
+      "num_input_tokens_seen": 58596864,
+      "step": 27115
+    },
+    {
+      "epoch": 4.424143556280587,
+      "grad_norm": 0.009916570968925953,
+      "learning_rate": 0.00095591755818925,
+      "loss": 0.1992,
+      "num_input_tokens_seen": 58607680,
+      "step": 27120
+    },
+    {
+      "epoch": 4.424959216965743,
+      "grad_norm": 0.05374537780880928,
+      "learning_rate": 0.0009558883302235984,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 58618400,
+      "step": 27125
+    },
+    {
+      "epoch": 4.425774877650897,
+      "grad_norm": 0.03968321159482002,
+      "learning_rate": 0.0009558590930187913,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 58629152,
+      "step": 27130
+    },
+    {
+      "epoch": 4.426590538336052,
+      "grad_norm": 0.05687025561928749,
+      "learning_rate": 0.0009558298465754216,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 58639744,
+      "step": 27135
+    },
+    {
+      "epoch": 4.427406199021207,
+      "grad_norm": 0.022792354226112366,
+      "learning_rate": 0.0009558005908940816,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 58649536,
+      "step": 27140
+    },
+    {
+      "epoch": 4.428221859706362,
+      "grad_norm": 0.1321583092212677,
+      "learning_rate": 0.0009557713259753647,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 58660384,
+      "step": 27145
+    },
+    {
+      "epoch": 4.4290375203915175,
+      "grad_norm": 0.022462155669927597,
+      "learning_rate": 0.0009557420518198634,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 58671136,
+      "step": 27150
+    },
+    {
+      "epoch": 4.429853181076672,
+      "grad_norm": 0.2902876138687134,
+      "learning_rate": 0.0009557127684281714,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 58683424,
+      "step": 27155
+    },
+    {
+      "epoch": 4.430668841761827,
+      "grad_norm": 0.02551012486219406,
+      "learning_rate": 0.000955683475800882,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 58693600,
+      "step": 27160
+    },
+    {
+      "epoch": 4.431484502446982,
+      "grad_norm": 0.10253246873617172,
+      "learning_rate": 0.0009556541739385889,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 58704064,
+      "step": 27165
+    },
+    {
+      "epoch": 4.432300163132137,
+      "grad_norm": 0.218844935297966,
+      "learning_rate": 0.000955624862841886,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 58713632,
+      "step": 27170
+    },
+    {
+      "epoch": 4.433115823817292,
+      "grad_norm": 0.2918366491794586,
+      "learning_rate": 0.0009555955425113672,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 58724352,
+      "step": 27175
+    },
+    {
+      "epoch": 4.433931484502447,
+      "grad_norm": 0.06699206680059433,
+      "learning_rate": 0.0009555662129476266,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 58735392,
+      "step": 27180
+    },
+    {
+      "epoch": 4.434747145187602,
+      "grad_norm": 0.046586476266384125,
+      "learning_rate": 0.0009555368741512589,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 58744928,
+      "step": 27185
+    },
+    {
+      "epoch": 4.435562805872757,
+      "grad_norm": 0.041165731847286224,
+      "learning_rate": 0.0009555075261228586,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 58755520,
+      "step": 27190
+    },
+    {
+      "epoch": 4.436378466557912,
+      "grad_norm": 0.013963720761239529,
+      "learning_rate": 0.0009554781688630204,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 58765984,
+      "step": 27195
+    },
+    {
+      "epoch": 4.437194127243067,
+      "grad_norm": 0.20940876007080078,
+      "learning_rate": 0.0009554488023723394,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 58777760,
+      "step": 27200
+    },
+    {
+      "epoch": 4.438009787928221,
+      "grad_norm": 0.08399229496717453,
+      "learning_rate": 0.0009554194266514105,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 58789152,
+      "step": 27205
+    },
+    {
+      "epoch": 4.438825448613377,
+      "grad_norm": 0.013586705550551414,
+      "learning_rate": 0.0009553900417008292,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 58800096,
+      "step": 27210
+    },
+    {
+      "epoch": 4.439641109298532,
+      "grad_norm": 0.2480028122663498,
+      "learning_rate": 0.000955360647521191,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 58809472,
+      "step": 27215
+    },
+    {
+      "epoch": 4.440456769983687,
+      "grad_norm": 0.019358092918992043,
+      "learning_rate": 0.0009553312441130916,
+      "loss": 0.1742,
+      "num_input_tokens_seen": 58820672,
+      "step": 27220
+    },
+    {
+      "epoch": 4.441272430668842,
+      "grad_norm": 0.01376861147582531,
+      "learning_rate": 0.0009553018314771269,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 58831360,
+      "step": 27225
+    },
+    {
+      "epoch": 4.442088091353996,
+      "grad_norm": 0.2584722340106964,
+      "learning_rate": 0.0009552724096138931,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 58841664,
+      "step": 27230
+    },
+    {
+      "epoch": 4.442903752039152,
+      "grad_norm": 0.0029593873769044876,
+      "learning_rate": 0.0009552429785239863,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 58852736,
+      "step": 27235
+    },
+    {
+      "epoch": 4.443719412724307,
+      "grad_norm": 0.2969488501548767,
+      "learning_rate": 0.0009552135382080029,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 58863520,
+      "step": 27240
+    },
+    {
+      "epoch": 4.444535073409462,
+      "grad_norm": 0.21504615247249603,
+      "learning_rate": 0.0009551840886665398,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 58874080,
+      "step": 27245
+    },
+    {
+      "epoch": 4.445350734094617,
+      "grad_norm": 0.019169187173247337,
+      "learning_rate": 0.0009551546299001938,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 58884864,
+      "step": 27250
+    },
+    {
+      "epoch": 4.446166394779771,
+      "grad_norm": 0.05577266216278076,
+      "learning_rate": 0.0009551251619095616,
+      "loss": 0.2479,
+      "num_input_tokens_seen": 58895904,
+      "step": 27255
+    },
+    {
+      "epoch": 4.446982055464926,
+      "grad_norm": 0.06436615437269211,
+      "learning_rate": 0.0009550956846952408,
+      "loss": 0.2503,
+      "num_input_tokens_seen": 58905984,
+      "step": 27260
+    },
+    {
+      "epoch": 4.447797716150082,
+      "grad_norm": 0.014609013684093952,
+      "learning_rate": 0.0009550661982578286,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 58917536,
+      "step": 27265
+    },
+    {
+      "epoch": 4.448613376835237,
+      "grad_norm": 0.09037666767835617,
+      "learning_rate": 0.0009550367025979225,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 58928224,
+      "step": 27270
+    },
+    {
+      "epoch": 4.4494290375203915,
+      "grad_norm": 0.020922953262925148,
+      "learning_rate": 0.0009550071977161203,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 58939488,
+      "step": 27275
+    },
+    {
+      "epoch": 4.450244698205546,
+      "grad_norm": 0.053212665021419525,
+      "learning_rate": 0.0009549776836130202,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 58951520,
+      "step": 27280
+    },
+    {
+      "epoch": 4.451060358890701,
+      "grad_norm": 0.04497351124882698,
+      "learning_rate": 0.0009549481602892201,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 58962048,
+      "step": 27285
+    },
+    {
+      "epoch": 4.451876019575856,
+      "grad_norm": 0.2501903176307678,
+      "learning_rate": 0.0009549186277453184,
+      "loss": 0.1667,
+      "num_input_tokens_seen": 58973696,
+      "step": 27290
+    },
+    {
+      "epoch": 4.452691680261012,
+      "grad_norm": 0.7072194218635559,
+      "learning_rate": 0.0009548890859819138,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 58983840,
+      "step": 27295
+    },
+    {
+      "epoch": 4.4535073409461665,
+      "grad_norm": 0.06406120955944061,
+      "learning_rate": 0.0009548595349996045,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 58993952,
+      "step": 27300
+    },
+    {
+      "epoch": 4.454323001631321,
+      "grad_norm": 0.038360778242349625,
+      "learning_rate": 0.0009548299747989897,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 59004576,
+      "step": 27305
+    },
+    {
+      "epoch": 4.455138662316476,
+      "grad_norm": 0.019249223172664642,
+      "learning_rate": 0.0009548004053806686,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 59014464,
+      "step": 27310
+    },
+    {
+      "epoch": 4.455954323001631,
+      "grad_norm": 0.16556453704833984,
+      "learning_rate": 0.0009547708267452403,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 59024352,
+      "step": 27315
+    },
+    {
+      "epoch": 4.456769983686787,
+      "grad_norm": 0.11377817392349243,
+      "learning_rate": 0.0009547412388933042,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 59035488,
+      "step": 27320
+    },
+    {
+      "epoch": 4.4575856443719415,
+      "grad_norm": 0.019814448431134224,
+      "learning_rate": 0.0009547116418254601,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 59047072,
+      "step": 27325
+    },
+    {
+      "epoch": 4.458401305057096,
+      "grad_norm": 0.11277088522911072,
+      "learning_rate": 0.0009546820355423077,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 59058144,
+      "step": 27330
+    },
+    {
+      "epoch": 4.459216965742251,
+      "grad_norm": 0.005291223991662264,
+      "learning_rate": 0.0009546524200444471,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 59068576,
+      "step": 27335
+    },
+    {
+      "epoch": 4.460032626427406,
+      "grad_norm": 0.023128168657422066,
+      "learning_rate": 0.0009546227953324784,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 59079808,
+      "step": 27340
+    },
+    {
+      "epoch": 4.460848287112561,
+      "grad_norm": 0.3094649016857147,
+      "learning_rate": 0.000954593161407002,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 59090432,
+      "step": 27345
+    },
+    {
+      "epoch": 4.4616639477977165,
+      "grad_norm": 0.07266154885292053,
+      "learning_rate": 0.0009545635182686185,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 59100736,
+      "step": 27350
+    },
+    {
+      "epoch": 4.462479608482871,
+      "grad_norm": 0.20185202360153198,
+      "learning_rate": 0.0009545338659179286,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 59111776,
+      "step": 27355
+    },
+    {
+      "epoch": 4.463295269168026,
+      "grad_norm": 0.05168718472123146,
+      "learning_rate": 0.0009545042043555334,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 59123936,
+      "step": 27360
+    },
+    {
+      "epoch": 4.464110929853181,
+      "grad_norm": 0.017242785543203354,
+      "learning_rate": 0.000954474533582034,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 59135200,
+      "step": 27365
+    },
+    {
+      "epoch": 4.464926590538336,
+      "grad_norm": 0.03838271647691727,
+      "learning_rate": 0.0009544448535980315,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 59146592,
+      "step": 27370
+    },
+    {
+      "epoch": 4.465742251223491,
+      "grad_norm": 0.0059380610473454,
+      "learning_rate": 0.0009544151644041275,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 59157472,
+      "step": 27375
+    },
+    {
+      "epoch": 4.466557911908646,
+      "grad_norm": 0.05592265725135803,
+      "learning_rate": 0.0009543854660009237,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 59169216,
+      "step": 27380
+    },
+    {
+      "epoch": 4.467373572593801,
+      "grad_norm": 0.027988268062472343,
+      "learning_rate": 0.0009543557583890221,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 59180800,
+      "step": 27385
+    },
+    {
+      "epoch": 4.468189233278956,
+      "grad_norm": 0.5290764570236206,
+      "learning_rate": 0.0009543260415690247,
+      "loss": 0.2604,
+      "num_input_tokens_seen": 59192736,
+      "step": 27390
+    },
+    {
+      "epoch": 4.469004893964111,
+      "grad_norm": 0.3840823173522949,
+      "learning_rate": 0.0009542963155415336,
+      "loss": 0.3098,
+      "num_input_tokens_seen": 59202208,
+      "step": 27395
+    },
+    {
+      "epoch": 4.4698205546492655,
+      "grad_norm": 0.09972764551639557,
+      "learning_rate": 0.0009542665803071515,
+      "loss": 0.117,
+      "num_input_tokens_seen": 59213312,
+      "step": 27400
+    },
+    {
+      "epoch": 4.470636215334421,
+      "grad_norm": 0.028418170288205147,
+      "learning_rate": 0.0009542368358664806,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 59223936,
+      "step": 27405
+    },
+    {
+      "epoch": 4.471451876019576,
+      "grad_norm": 0.005448495969176292,
+      "learning_rate": 0.0009542070822201244,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 59234176,
+      "step": 27410
+    },
+    {
+      "epoch": 4.472267536704731,
+      "grad_norm": 0.02386247180402279,
+      "learning_rate": 0.0009541773193686851,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 59245952,
+      "step": 27415
+    },
+    {
+      "epoch": 4.473083197389886,
+      "grad_norm": 0.016697218641638756,
+      "learning_rate": 0.0009541475473127664,
+      "loss": 0.2068,
+      "num_input_tokens_seen": 59257216,
+      "step": 27420
+    },
+    {
+      "epoch": 4.4738988580750405,
+      "grad_norm": 0.02813301980495453,
+      "learning_rate": 0.0009541177660529715,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 59267936,
+      "step": 27425
+    },
+    {
+      "epoch": 4.474714518760196,
+      "grad_norm": 0.1297505646944046,
+      "learning_rate": 0.0009540879755899041,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 59279232,
+      "step": 27430
+    },
+    {
+      "epoch": 4.475530179445351,
+      "grad_norm": 0.12573681771755219,
+      "learning_rate": 0.0009540581759241676,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 59288800,
+      "step": 27435
+    },
+    {
+      "epoch": 4.476345840130506,
+      "grad_norm": 0.2438529133796692,
+      "learning_rate": 0.0009540283670563663,
+      "loss": 0.2941,
+      "num_input_tokens_seen": 59299904,
+      "step": 27440
+    },
+    {
+      "epoch": 4.477161500815661,
+      "grad_norm": 0.08795158565044403,
+      "learning_rate": 0.0009539985489871041,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 59310592,
+      "step": 27445
+    },
+    {
+      "epoch": 4.4779771615008155,
+      "grad_norm": 0.08853715658187866,
+      "learning_rate": 0.0009539687217169855,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 59320768,
+      "step": 27450
+    },
+    {
+      "epoch": 4.47879282218597,
+      "grad_norm": 0.1433527171611786,
+      "learning_rate": 0.0009539388852466146,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 59332992,
+      "step": 27455
+    },
+    {
+      "epoch": 4.479608482871126,
+      "grad_norm": 0.04177452251315117,
+      "learning_rate": 0.0009539090395765966,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 59342944,
+      "step": 27460
+    },
+    {
+      "epoch": 4.480424143556281,
+      "grad_norm": 0.0390019528567791,
+      "learning_rate": 0.000953879184707536,
+      "loss": 0.1618,
+      "num_input_tokens_seen": 59354016,
+      "step": 27465
+    },
+    {
+      "epoch": 4.481239804241436,
+      "grad_norm": 0.06062839925289154,
+      "learning_rate": 0.0009538493206400378,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 59364064,
+      "step": 27470
+    },
+    {
+      "epoch": 4.4820554649265905,
+      "grad_norm": 0.10372152924537659,
+      "learning_rate": 0.0009538194473747077,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 59374336,
+      "step": 27475
+    },
+    {
+      "epoch": 4.482871125611745,
+      "grad_norm": 0.1782025396823883,
+      "learning_rate": 0.0009537895649121504,
+      "loss": 0.069,
+      "num_input_tokens_seen": 59385056,
+      "step": 27480
+    },
+    {
+      "epoch": 4.4836867862969,
+      "grad_norm": 0.044130004942417145,
+      "learning_rate": 0.0009537596732529721,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 59393952,
+      "step": 27485
+    },
+    {
+      "epoch": 4.484502446982056,
+      "grad_norm": 0.20328426361083984,
+      "learning_rate": 0.0009537297723977784,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 59405824,
+      "step": 27490
+    },
+    {
+      "epoch": 4.485318107667211,
+      "grad_norm": 0.17632223665714264,
+      "learning_rate": 0.0009536998623471752,
+      "loss": 0.1787,
+      "num_input_tokens_seen": 59415968,
+      "step": 27495
+    },
+    {
+      "epoch": 4.486133768352365,
+      "grad_norm": 0.2297552525997162,
+      "learning_rate": 0.0009536699431017688,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 59426336,
+      "step": 27500
+    },
+    {
+      "epoch": 4.48694942903752,
+      "grad_norm": 0.0059665110893547535,
+      "learning_rate": 0.0009536400146621653,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 59436864,
+      "step": 27505
+    },
+    {
+      "epoch": 4.487765089722675,
+      "grad_norm": 0.20988836884498596,
+      "learning_rate": 0.0009536100770289717,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 59448128,
+      "step": 27510
+    },
+    {
+      "epoch": 4.488580750407831,
+      "grad_norm": 0.008611970581114292,
+      "learning_rate": 0.0009535801302027942,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 59458432,
+      "step": 27515
+    },
+    {
+      "epoch": 4.489396411092986,
+      "grad_norm": 0.21014344692230225,
+      "learning_rate": 0.0009535501741842401,
+      "loss": 0.2112,
+      "num_input_tokens_seen": 59468160,
+      "step": 27520
+    },
+    {
+      "epoch": 4.49021207177814,
+      "grad_norm": 0.02096942998468876,
+      "learning_rate": 0.0009535202089739162,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 59478144,
+      "step": 27525
+    },
+    {
+      "epoch": 4.491027732463295,
+      "grad_norm": 0.004998327232897282,
+      "learning_rate": 0.0009534902345724301,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 59489792,
+      "step": 27530
+    },
+    {
+      "epoch": 4.49184339314845,
+      "grad_norm": 0.016319639980793,
+      "learning_rate": 0.000953460250980389,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 59501376,
+      "step": 27535
+    },
+    {
+      "epoch": 4.492659053833605,
+      "grad_norm": 0.47428780794143677,
+      "learning_rate": 0.0009534302581984007,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 59511936,
+      "step": 27540
+    },
+    {
+      "epoch": 4.493474714518761,
+      "grad_norm": 0.07189547270536423,
+      "learning_rate": 0.000953400256227073,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 59522912,
+      "step": 27545
+    },
+    {
+      "epoch": 4.494290375203915,
+      "grad_norm": 0.008183644153177738,
+      "learning_rate": 0.0009533702450670138,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 59533632,
+      "step": 27550
+    },
+    {
+      "epoch": 4.49510603588907,
+      "grad_norm": 0.013985889032483101,
+      "learning_rate": 0.0009533402247188317,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 59545024,
+      "step": 27555
+    },
+    {
+      "epoch": 4.495921696574225,
+      "grad_norm": 0.011940013617277145,
+      "learning_rate": 0.0009533101951831347,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 59555616,
+      "step": 27560
+    },
+    {
+      "epoch": 4.49673735725938,
+      "grad_norm": 0.006115328054875135,
+      "learning_rate": 0.0009532801564605315,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 59567136,
+      "step": 27565
+    },
+    {
+      "epoch": 4.497553017944535,
+      "grad_norm": 0.16617755591869354,
+      "learning_rate": 0.000953250108551631,
+      "loss": 0.2774,
+      "num_input_tokens_seen": 59580000,
+      "step": 27570
+    },
+    {
+      "epoch": 4.49836867862969,
+      "grad_norm": 0.05506671965122223,
+      "learning_rate": 0.0009532200514570419,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 59591008,
+      "step": 27575
+    },
+    {
+      "epoch": 4.499184339314845,
+      "grad_norm": 0.008953276090323925,
+      "learning_rate": 0.0009531899851773737,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 59601920,
+      "step": 27580
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.11161115020513535,
+      "learning_rate": 0.0009531599097132354,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 59611968,
+      "step": 27585
+    },
+    {
+      "epoch": 4.500815660685155,
+      "grad_norm": 0.015438306145370007,
+      "learning_rate": 0.0009531298250652367,
+      "loss": 0.046,
+      "num_input_tokens_seen": 59623328,
+      "step": 27590
+    },
+    {
+      "epoch": 4.50163132137031,
+      "grad_norm": 0.018507203087210655,
+      "learning_rate": 0.0009530997312339873,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 59634208,
+      "step": 27595
+    },
+    {
+      "epoch": 4.502446982055465,
+      "grad_norm": 0.24117828905582428,
+      "learning_rate": 0.000953069628220097,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 59645472,
+      "step": 27600
+    },
+    {
+      "epoch": 4.50326264274062,
+      "grad_norm": 0.06984904408454895,
+      "learning_rate": 0.0009530395160241759,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 59656960,
+      "step": 27605
+    },
+    {
+      "epoch": 4.504078303425775,
+      "grad_norm": 0.011626221239566803,
+      "learning_rate": 0.0009530093946468343,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 59668224,
+      "step": 27610
+    },
+    {
+      "epoch": 4.50489396411093,
+      "grad_norm": 0.06135258078575134,
+      "learning_rate": 0.0009529792640886827,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 59679168,
+      "step": 27615
+    },
+    {
+      "epoch": 4.505709624796085,
+      "grad_norm": 0.041614778339862823,
+      "learning_rate": 0.0009529491243503316,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 59689376,
+      "step": 27620
+    },
+    {
+      "epoch": 4.506525285481239,
+      "grad_norm": 0.18257805705070496,
+      "learning_rate": 0.000952918975432392,
+      "loss": 0.2499,
+      "num_input_tokens_seen": 59700256,
+      "step": 27625
+    },
+    {
+      "epoch": 4.507340946166395,
+      "grad_norm": 0.059920214116573334,
+      "learning_rate": 0.0009528888173354746,
+      "loss": 0.093,
+      "num_input_tokens_seen": 59711648,
+      "step": 27630
+    },
+    {
+      "epoch": 4.50815660685155,
+      "grad_norm": 0.16995491087436676,
+      "learning_rate": 0.000952858650060191,
+      "loss": 0.2813,
+      "num_input_tokens_seen": 59721152,
+      "step": 27635
+    },
+    {
+      "epoch": 4.508972267536705,
+      "grad_norm": 0.0451311320066452,
+      "learning_rate": 0.0009528284736071522,
+      "loss": 0.096,
+      "num_input_tokens_seen": 59731264,
+      "step": 27640
+    },
+    {
+      "epoch": 4.50978792822186,
+      "grad_norm": 0.21006529033184052,
+      "learning_rate": 0.00095279828797697,
+      "loss": 0.2281,
+      "num_input_tokens_seen": 59741504,
+      "step": 27645
+    },
+    {
+      "epoch": 4.510603588907014,
+      "grad_norm": 0.016192087903618813,
+      "learning_rate": 0.000952768093170256,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 59751904,
+      "step": 27650
+    },
+    {
+      "epoch": 4.511419249592169,
+      "grad_norm": 0.17167527973651886,
+      "learning_rate": 0.0009527378891876223,
+      "loss": 0.2543,
+      "num_input_tokens_seen": 59762976,
+      "step": 27655
+    },
+    {
+      "epoch": 4.512234910277325,
+      "grad_norm": 0.04856706038117409,
+      "learning_rate": 0.0009527076760296809,
+      "loss": 0.131,
+      "num_input_tokens_seen": 59773664,
+      "step": 27660
+    },
+    {
+      "epoch": 4.51305057096248,
+      "grad_norm": 0.03441392630338669,
+      "learning_rate": 0.0009526774536970442,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 59783168,
+      "step": 27665
+    },
+    {
+      "epoch": 4.513866231647635,
+      "grad_norm": 0.04515177384018898,
+      "learning_rate": 0.0009526472221903247,
+      "loss": 0.088,
+      "num_input_tokens_seen": 59794688,
+      "step": 27670
+    },
+    {
+      "epoch": 4.514681892332789,
+      "grad_norm": 0.014667819254100323,
+      "learning_rate": 0.0009526169815101349,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 59804832,
+      "step": 27675
+    },
+    {
+      "epoch": 4.515497553017944,
+      "grad_norm": 0.09431620687246323,
+      "learning_rate": 0.0009525867316570877,
+      "loss": 0.145,
+      "num_input_tokens_seen": 59814944,
+      "step": 27680
+    },
+    {
+      "epoch": 4.5163132137031,
+      "grad_norm": 0.023899326100945473,
+      "learning_rate": 0.0009525564726317963,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 59826176,
+      "step": 27685
+    },
+    {
+      "epoch": 4.517128874388255,
+      "grad_norm": 0.04530876874923706,
+      "learning_rate": 0.000952526204434874,
+      "loss": 0.038,
+      "num_input_tokens_seen": 59838240,
+      "step": 27690
+    },
+    {
+      "epoch": 4.5179445350734095,
+      "grad_norm": 0.026498528197407722,
+      "learning_rate": 0.000952495927066934,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 59848032,
+      "step": 27695
+    },
+    {
+      "epoch": 4.518760195758564,
+      "grad_norm": 0.027610991150140762,
+      "learning_rate": 0.00095246564052859,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 59859328,
+      "step": 27700
+    },
+    {
+      "epoch": 4.519575856443719,
+      "grad_norm": 0.0709771141409874,
+      "learning_rate": 0.0009524353448204558,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 59870272,
+      "step": 27705
+    },
+    {
+      "epoch": 4.520391517128875,
+      "grad_norm": 0.008169763721525669,
+      "learning_rate": 0.0009524050399431454,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 59880416,
+      "step": 27710
+    },
+    {
+      "epoch": 4.52120717781403,
+      "grad_norm": 0.09817571938037872,
+      "learning_rate": 0.0009523747258972729,
+      "loss": 0.11,
+      "num_input_tokens_seen": 59891168,
+      "step": 27715
+    },
+    {
+      "epoch": 4.5220228384991845,
+      "grad_norm": 0.11686165630817413,
+      "learning_rate": 0.0009523444026834528,
+      "loss": 0.2663,
+      "num_input_tokens_seen": 59901600,
+      "step": 27720
+    },
+    {
+      "epoch": 4.522838499184339,
+      "grad_norm": 0.03325748071074486,
+      "learning_rate": 0.0009523140703022995,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 59912832,
+      "step": 27725
+    },
+    {
+      "epoch": 4.523654159869494,
+      "grad_norm": 0.26222917437553406,
+      "learning_rate": 0.0009522837287544277,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 59924288,
+      "step": 27730
+    },
+    {
+      "epoch": 4.524469820554649,
+      "grad_norm": 0.04080116003751755,
+      "learning_rate": 0.0009522533780404526,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 59935072,
+      "step": 27735
+    },
+    {
+      "epoch": 4.525285481239804,
+      "grad_norm": 0.02146266959607601,
+      "learning_rate": 0.0009522230181609888,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 59945856,
+      "step": 27740
+    },
+    {
+      "epoch": 4.5261011419249595,
+      "grad_norm": 0.008499844931066036,
+      "learning_rate": 0.000952192649116652,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 59957152,
+      "step": 27745
+    },
+    {
+      "epoch": 4.526916802610114,
+      "grad_norm": 0.06477084755897522,
+      "learning_rate": 0.0009521622709080574,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 59968000,
+      "step": 27750
+    },
+    {
+      "epoch": 4.527732463295269,
+      "grad_norm": 0.03540358319878578,
+      "learning_rate": 0.0009521318835358208,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 59978496,
+      "step": 27755
+    },
+    {
+      "epoch": 4.528548123980424,
+      "grad_norm": 0.01290238369256258,
+      "learning_rate": 0.000952101487000558,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 59989376,
+      "step": 27760
+    },
+    {
+      "epoch": 4.529363784665579,
+      "grad_norm": 0.007645154371857643,
+      "learning_rate": 0.0009520710813028852,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 59999296,
+      "step": 27765
+    },
+    {
+      "epoch": 4.5301794453507345,
+      "grad_norm": 0.18740314245224,
+      "learning_rate": 0.0009520406664434183,
+      "loss": 0.2108,
+      "num_input_tokens_seen": 60008928,
+      "step": 27770
+    },
+    {
+      "epoch": 4.530995106035889,
+      "grad_norm": 0.1460702270269394,
+      "learning_rate": 0.0009520102424227739,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 60020640,
+      "step": 27775
+    },
+    {
+      "epoch": 4.531810766721044,
+      "grad_norm": 0.26850706338882446,
+      "learning_rate": 0.0009519798092415683,
+      "loss": 0.128,
+      "num_input_tokens_seen": 60031904,
+      "step": 27780
+    },
+    {
+      "epoch": 4.532626427406199,
+      "grad_norm": 0.23345030844211578,
+      "learning_rate": 0.0009519493669004189,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 60041440,
+      "step": 27785
+    },
+    {
+      "epoch": 4.533442088091354,
+      "grad_norm": 0.12963812053203583,
+      "learning_rate": 0.0009519189153999419,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 60052256,
+      "step": 27790
+    },
+    {
+      "epoch": 4.5342577487765094,
+      "grad_norm": 0.10406608879566193,
+      "learning_rate": 0.0009518884547407549,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 60062624,
+      "step": 27795
+    },
+    {
+      "epoch": 4.535073409461664,
+      "grad_norm": 0.16851423680782318,
+      "learning_rate": 0.0009518579849234752,
+      "loss": 0.2199,
+      "num_input_tokens_seen": 60073280,
+      "step": 27800
+    },
+    {
+      "epoch": 4.535889070146819,
+      "grad_norm": 0.01687563955783844,
+      "learning_rate": 0.00095182750594872,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 60084288,
+      "step": 27805
+    },
+    {
+      "epoch": 4.536704730831974,
+      "grad_norm": 0.06263386458158493,
+      "learning_rate": 0.0009517970178171074,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 60095200,
+      "step": 27810
+    },
+    {
+      "epoch": 4.537520391517129,
+      "grad_norm": 0.019296538084745407,
+      "learning_rate": 0.000951766520529255,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 60104960,
+      "step": 27815
+    },
+    {
+      "epoch": 4.5383360522022835,
+      "grad_norm": 0.009546547196805477,
+      "learning_rate": 0.0009517360140857809,
+      "loss": 0.023,
+      "num_input_tokens_seen": 60116704,
+      "step": 27820
+    },
+    {
+      "epoch": 4.539151712887438,
+      "grad_norm": 0.09043900668621063,
+      "learning_rate": 0.0009517054984873035,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 60128800,
+      "step": 27825
+    },
+    {
+      "epoch": 4.539967373572594,
+      "grad_norm": 0.0927947387099266,
+      "learning_rate": 0.0009516749737344412,
+      "loss": 0.2508,
+      "num_input_tokens_seen": 60140960,
+      "step": 27830
+    },
+    {
+      "epoch": 4.540783034257749,
+      "grad_norm": 0.035468216985464096,
+      "learning_rate": 0.0009516444398278125,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 60151616,
+      "step": 27835
+    },
+    {
+      "epoch": 4.541598694942904,
+      "grad_norm": 0.01672246865928173,
+      "learning_rate": 0.0009516138967680363,
+      "loss": 0.1912,
+      "num_input_tokens_seen": 60163392,
+      "step": 27840
+    },
+    {
+      "epoch": 4.5424143556280585,
+      "grad_norm": 0.018259450793266296,
+      "learning_rate": 0.0009515833445557314,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 60174848,
+      "step": 27845
+    },
+    {
+      "epoch": 4.543230016313213,
+      "grad_norm": 0.038537368178367615,
+      "learning_rate": 0.0009515527831915174,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 60184384,
+      "step": 27850
+    },
+    {
+      "epoch": 4.544045676998369,
+      "grad_norm": 0.14104370772838593,
+      "learning_rate": 0.0009515222126760132,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 60196064,
+      "step": 27855
+    },
+    {
+      "epoch": 4.544861337683524,
+      "grad_norm": 0.03136323764920235,
+      "learning_rate": 0.0009514916330098386,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 60205760,
+      "step": 27860
+    },
+    {
+      "epoch": 4.545676998368679,
+      "grad_norm": 0.05053570494055748,
+      "learning_rate": 0.0009514610441936133,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 60218208,
+      "step": 27865
+    },
+    {
+      "epoch": 4.5464926590538335,
+      "grad_norm": 0.04487035796046257,
+      "learning_rate": 0.0009514304462279574,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 60230016,
+      "step": 27870
+    },
+    {
+      "epoch": 4.547308319738988,
+      "grad_norm": 0.00935713853687048,
+      "learning_rate": 0.0009513998391134906,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 60238976,
+      "step": 27875
+    },
+    {
+      "epoch": 4.548123980424144,
+      "grad_norm": 0.09090052545070648,
+      "learning_rate": 0.0009513692228508336,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 60248864,
+      "step": 27880
+    },
+    {
+      "epoch": 4.548939641109299,
+      "grad_norm": 0.0810205340385437,
+      "learning_rate": 0.0009513385974406066,
+      "loss": 0.1643,
+      "num_input_tokens_seen": 60259328,
+      "step": 27885
+    },
+    {
+      "epoch": 4.549755301794454,
+      "grad_norm": 0.2484816461801529,
+      "learning_rate": 0.0009513079628834305,
+      "loss": 0.172,
+      "num_input_tokens_seen": 60269152,
+      "step": 27890
+    },
+    {
+      "epoch": 4.5505709624796085,
+      "grad_norm": 0.007728502620011568,
+      "learning_rate": 0.0009512773191799258,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 60279616,
+      "step": 27895
+    },
+    {
+      "epoch": 4.551386623164763,
+      "grad_norm": 0.010481576435267925,
+      "learning_rate": 0.0009512466663307138,
+      "loss": 0.1528,
+      "num_input_tokens_seen": 60291264,
+      "step": 27900
+    },
+    {
+      "epoch": 4.552202283849918,
+      "grad_norm": 0.10634084790945053,
+      "learning_rate": 0.0009512160043364157,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 60302592,
+      "step": 27905
+    },
+    {
+      "epoch": 4.553017944535073,
+      "grad_norm": 0.03876103460788727,
+      "learning_rate": 0.0009511853331976527,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 60312992,
+      "step": 27910
+    },
+    {
+      "epoch": 4.553833605220229,
+      "grad_norm": 0.026083072647452354,
+      "learning_rate": 0.0009511546529150467,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 60324032,
+      "step": 27915
+    },
+    {
+      "epoch": 4.554649265905383,
+      "grad_norm": 0.05046556144952774,
+      "learning_rate": 0.0009511239634892195,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 60334432,
+      "step": 27920
+    },
+    {
+      "epoch": 4.555464926590538,
+      "grad_norm": 0.006147427950054407,
+      "learning_rate": 0.0009510932649207926,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 60344576,
+      "step": 27925
+    },
+    {
+      "epoch": 4.556280587275693,
+      "grad_norm": 0.0055056107230484486,
+      "learning_rate": 0.0009510625572103886,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 60354752,
+      "step": 27930
+    },
+    {
+      "epoch": 4.557096247960848,
+      "grad_norm": 0.019017960876226425,
+      "learning_rate": 0.0009510318403586297,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 60365728,
+      "step": 27935
+    },
+    {
+      "epoch": 4.557911908646004,
+      "grad_norm": 0.033328790217638016,
+      "learning_rate": 0.0009510011143661382,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 60375936,
+      "step": 27940
+    },
+    {
+      "epoch": 4.558727569331158,
+      "grad_norm": 0.10524723678827286,
+      "learning_rate": 0.0009509703792335371,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 60386400,
+      "step": 27945
+    },
+    {
+      "epoch": 4.559543230016313,
+      "grad_norm": 0.043684348464012146,
+      "learning_rate": 0.0009509396349614492,
+      "loss": 0.1881,
+      "num_input_tokens_seen": 60397952,
+      "step": 27950
+    },
+    {
+      "epoch": 4.560358890701468,
+      "grad_norm": 0.006683858577162027,
+      "learning_rate": 0.0009509088815504975,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 60409600,
+      "step": 27955
+    },
+    {
+      "epoch": 4.561174551386623,
+      "grad_norm": 0.022528601810336113,
+      "learning_rate": 0.0009508781190013053,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 60419136,
+      "step": 27960
+    },
+    {
+      "epoch": 4.561990212071779,
+      "grad_norm": 0.19460022449493408,
+      "learning_rate": 0.0009508473473144961,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 60429504,
+      "step": 27965
+    },
+    {
+      "epoch": 4.562805872756933,
+      "grad_norm": 0.011187287978827953,
+      "learning_rate": 0.0009508165664906933,
+      "loss": 0.037,
+      "num_input_tokens_seen": 60439936,
+      "step": 27970
+    },
+    {
+      "epoch": 4.563621533442088,
+      "grad_norm": 0.042578887194395065,
+      "learning_rate": 0.000950785776530521,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 60450336,
+      "step": 27975
+    },
+    {
+      "epoch": 4.564437194127243,
+      "grad_norm": 0.19036757946014404,
+      "learning_rate": 0.0009507549774346029,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 60459296,
+      "step": 27980
+    },
+    {
+      "epoch": 4.565252854812398,
+      "grad_norm": 0.02649342082440853,
+      "learning_rate": 0.0009507241692035635,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 60469632,
+      "step": 27985
+    },
+    {
+      "epoch": 4.566068515497553,
+      "grad_norm": 0.15176327526569366,
+      "learning_rate": 0.0009506933518380272,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 60479488,
+      "step": 27990
+    },
+    {
+      "epoch": 4.566884176182708,
+      "grad_norm": 0.017907990142703056,
+      "learning_rate": 0.0009506625253386181,
+      "loss": 0.2209,
+      "num_input_tokens_seen": 60489824,
+      "step": 27995
+    },
+    {
+      "epoch": 4.567699836867863,
+      "grad_norm": 0.2888742983341217,
+      "learning_rate": 0.0009506316897059614,
+      "loss": 0.1817,
+      "num_input_tokens_seen": 60499776,
+      "step": 28000
+    },
+    {
+      "epoch": 4.568515497553018,
+      "grad_norm": 0.01035986002534628,
+      "learning_rate": 0.0009506008449406818,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 60509952,
+      "step": 28005
+    },
+    {
+      "epoch": 4.569331158238173,
+      "grad_norm": 0.12834765017032623,
+      "learning_rate": 0.0009505699910434043,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 60520704,
+      "step": 28010
+    },
+    {
+      "epoch": 4.570146818923328,
+      "grad_norm": 0.1346168965101242,
+      "learning_rate": 0.0009505391280147545,
+      "loss": 0.0391,
+      "num_input_tokens_seen": 60532640,
+      "step": 28015
+    },
+    {
+      "epoch": 4.5709624796084825,
+      "grad_norm": 0.15639248490333557,
+      "learning_rate": 0.0009505082558553577,
+      "loss": 0.169,
+      "num_input_tokens_seen": 60543360,
+      "step": 28020
+    },
+    {
+      "epoch": 4.571778140293638,
+      "grad_norm": 0.01339662540704012,
+      "learning_rate": 0.0009504773745658395,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 60554080,
+      "step": 28025
+    },
+    {
+      "epoch": 4.572593800978793,
+      "grad_norm": 0.0473957359790802,
+      "learning_rate": 0.0009504464841468259,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 60564576,
+      "step": 28030
+    },
+    {
+      "epoch": 4.573409461663948,
+      "grad_norm": 0.035671476274728775,
+      "learning_rate": 0.000950415584598943,
+      "loss": 0.1969,
+      "num_input_tokens_seen": 60574880,
+      "step": 28035
+    },
+    {
+      "epoch": 4.574225122349103,
+      "grad_norm": 0.166676864027977,
+      "learning_rate": 0.0009503846759228167,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 60585216,
+      "step": 28040
+    },
+    {
+      "epoch": 4.575040783034257,
+      "grad_norm": 0.19653046131134033,
+      "learning_rate": 0.0009503537581190736,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 60595840,
+      "step": 28045
+    },
+    {
+      "epoch": 4.575856443719413,
+      "grad_norm": 0.13469751179218292,
+      "learning_rate": 0.0009503228311883402,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 60606720,
+      "step": 28050
+    },
+    {
+      "epoch": 4.576672104404568,
+      "grad_norm": 0.0519726388156414,
+      "learning_rate": 0.0009502918951312436,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 60618368,
+      "step": 28055
+    },
+    {
+      "epoch": 4.577487765089723,
+      "grad_norm": 0.017064429819583893,
+      "learning_rate": 0.0009502609499484104,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 60628352,
+      "step": 28060
+    },
+    {
+      "epoch": 4.578303425774878,
+      "grad_norm": 0.13285928964614868,
+      "learning_rate": 0.0009502299956404679,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 60639168,
+      "step": 28065
+    },
+    {
+      "epoch": 4.579119086460032,
+      "grad_norm": 0.01909302920103073,
+      "learning_rate": 0.0009501990322080433,
+      "loss": 0.2349,
+      "num_input_tokens_seen": 60649760,
+      "step": 28070
+    },
+    {
+      "epoch": 4.579934747145187,
+      "grad_norm": 0.09038439393043518,
+      "learning_rate": 0.0009501680596517641,
+      "loss": 0.2203,
+      "num_input_tokens_seen": 60660000,
+      "step": 28075
+    },
+    {
+      "epoch": 4.580750407830343,
+      "grad_norm": 0.2496732622385025,
+      "learning_rate": 0.0009501370779722582,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 60670752,
+      "step": 28080
+    },
+    {
+      "epoch": 4.581566068515498,
+      "grad_norm": 0.050215430557727814,
+      "learning_rate": 0.0009501060871701534,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 60681408,
+      "step": 28085
+    },
+    {
+      "epoch": 4.582381729200653,
+      "grad_norm": 0.0064918166026473045,
+      "learning_rate": 0.0009500750872460778,
+      "loss": 0.1827,
+      "num_input_tokens_seen": 60691936,
+      "step": 28090
+    },
+    {
+      "epoch": 4.583197389885807,
+      "grad_norm": 0.01403888314962387,
+      "learning_rate": 0.0009500440782006594,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 60702848,
+      "step": 28095
+    },
+    {
+      "epoch": 4.584013050570962,
+      "grad_norm": 0.21205657720565796,
+      "learning_rate": 0.000950013060034527,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 60713920,
+      "step": 28100
+    },
+    {
+      "epoch": 4.584828711256117,
+      "grad_norm": 0.07595892995595932,
+      "learning_rate": 0.0009499820327483091,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 60724992,
+      "step": 28105
+    },
+    {
+      "epoch": 4.585644371941273,
+      "grad_norm": 0.10927172750234604,
+      "learning_rate": 0.0009499509963426342,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 60735520,
+      "step": 28110
+    },
+    {
+      "epoch": 4.5864600326264275,
+      "grad_norm": 0.20014338195323944,
+      "learning_rate": 0.0009499199508181318,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 60747072,
+      "step": 28115
+    },
+    {
+      "epoch": 4.587275693311582,
+      "grad_norm": 0.12331785261631012,
+      "learning_rate": 0.0009498888961754308,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 60756768,
+      "step": 28120
+    },
+    {
+      "epoch": 4.588091353996737,
+      "grad_norm": 0.29597270488739014,
+      "learning_rate": 0.0009498578324151606,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 60767392,
+      "step": 28125
+    },
+    {
+      "epoch": 4.588907014681892,
+      "grad_norm": 0.01776668056845665,
+      "learning_rate": 0.0009498267595379506,
+      "loss": 0.2,
+      "num_input_tokens_seen": 60776416,
+      "step": 28130
+    },
+    {
+      "epoch": 4.589722675367048,
+      "grad_norm": 0.02030642330646515,
+      "learning_rate": 0.0009497956775444307,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 60786688,
+      "step": 28135
+    },
+    {
+      "epoch": 4.5905383360522025,
+      "grad_norm": 0.14282387495040894,
+      "learning_rate": 0.0009497645864352309,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 60797600,
+      "step": 28140
+    },
+    {
+      "epoch": 4.591353996737357,
+      "grad_norm": 0.002983206883072853,
+      "learning_rate": 0.0009497334862109812,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 60808192,
+      "step": 28145
+    },
+    {
+      "epoch": 4.592169657422512,
+      "grad_norm": 0.2608118951320648,
+      "learning_rate": 0.0009497023768723119,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 60818912,
+      "step": 28150
+    },
+    {
+      "epoch": 4.592985318107667,
+      "grad_norm": 0.12593863904476166,
+      "learning_rate": 0.0009496712584198532,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 60829568,
+      "step": 28155
+    },
+    {
+      "epoch": 4.593800978792823,
+      "grad_norm": 0.050070811063051224,
+      "learning_rate": 0.0009496401308542363,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 60841440,
+      "step": 28160
+    },
+    {
+      "epoch": 4.5946166394779775,
+      "grad_norm": 0.01761269010603428,
+      "learning_rate": 0.0009496089941760915,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 60852672,
+      "step": 28165
+    },
+    {
+      "epoch": 4.595432300163132,
+      "grad_norm": 0.38470232486724854,
+      "learning_rate": 0.0009495778483860502,
+      "loss": 0.2002,
+      "num_input_tokens_seen": 60864384,
+      "step": 28170
+    },
+    {
+      "epoch": 4.596247960848287,
+      "grad_norm": 0.32193905115127563,
+      "learning_rate": 0.0009495466934847434,
+      "loss": 0.1645,
+      "num_input_tokens_seen": 60874656,
+      "step": 28175
+    },
+    {
+      "epoch": 4.597063621533442,
+      "grad_norm": 0.04758863151073456,
+      "learning_rate": 0.0009495155294728026,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 60885920,
+      "step": 28180
+    },
+    {
+      "epoch": 4.597879282218597,
+      "grad_norm": 0.0736926794052124,
+      "learning_rate": 0.0009494843563508594,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 60896992,
+      "step": 28185
+    },
+    {
+      "epoch": 4.598694942903752,
+      "grad_norm": 0.25502830743789673,
+      "learning_rate": 0.0009494531741195454,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 60908768,
+      "step": 28190
+    },
+    {
+      "epoch": 4.599510603588907,
+      "grad_norm": 0.057509299367666245,
+      "learning_rate": 0.0009494219827794928,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 60919680,
+      "step": 28195
+    },
+    {
+      "epoch": 4.600326264274062,
+      "grad_norm": 0.05833054706454277,
+      "learning_rate": 0.0009493907823313334,
+      "loss": 0.122,
+      "num_input_tokens_seen": 60930368,
+      "step": 28200
+    },
+    {
+      "epoch": 4.601141924959217,
+      "grad_norm": 0.010716291144490242,
+      "learning_rate": 0.0009493595727756998,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 60940896,
+      "step": 28205
+    },
+    {
+      "epoch": 4.601957585644372,
+      "grad_norm": 0.12371497601270676,
+      "learning_rate": 0.0009493283541132245,
+      "loss": 0.1883,
+      "num_input_tokens_seen": 60951424,
+      "step": 28210
+    },
+    {
+      "epoch": 4.602773246329527,
+      "grad_norm": 0.16348916292190552,
+      "learning_rate": 0.0009492971263445401,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 60961088,
+      "step": 28215
+    },
+    {
+      "epoch": 4.603588907014682,
+      "grad_norm": 0.06231715530157089,
+      "learning_rate": 0.0009492658894702792,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 60971424,
+      "step": 28220
+    },
+    {
+      "epoch": 4.604404567699837,
+      "grad_norm": 0.016711369156837463,
+      "learning_rate": 0.0009492346434910753,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 60981056,
+      "step": 28225
+    },
+    {
+      "epoch": 4.605220228384992,
+      "grad_norm": 0.053427740931510925,
+      "learning_rate": 0.0009492033884075615,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 60992288,
+      "step": 28230
+    },
+    {
+      "epoch": 4.606035889070147,
+      "grad_norm": 0.057806648313999176,
+      "learning_rate": 0.000949172124220371,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 61003008,
+      "step": 28235
+    },
+    {
+      "epoch": 4.6068515497553015,
+      "grad_norm": 0.03352320194244385,
+      "learning_rate": 0.0009491408509301378,
+      "loss": 0.195,
+      "num_input_tokens_seen": 61011904,
+      "step": 28240
+    },
+    {
+      "epoch": 4.607667210440457,
+      "grad_norm": 0.017068684101104736,
+      "learning_rate": 0.0009491095685374954,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 61022976,
+      "step": 28245
+    },
+    {
+      "epoch": 4.608482871125612,
+      "grad_norm": 0.11282926797866821,
+      "learning_rate": 0.0009490782770430777,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 61034976,
+      "step": 28250
+    },
+    {
+      "epoch": 4.609298531810767,
+      "grad_norm": 0.13886576890945435,
+      "learning_rate": 0.0009490469764475191,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 61045696,
+      "step": 28255
+    },
+    {
+      "epoch": 4.610114192495922,
+      "grad_norm": 0.2587529420852661,
+      "learning_rate": 0.0009490156667514541,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 61056192,
+      "step": 28260
+    },
+    {
+      "epoch": 4.6109298531810765,
+      "grad_norm": 0.013154418207705021,
+      "learning_rate": 0.0009489843479555167,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 61065856,
+      "step": 28265
+    },
+    {
+      "epoch": 4.611745513866231,
+      "grad_norm": 0.004272149410098791,
+      "learning_rate": 0.000948953020060342,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 61075424,
+      "step": 28270
+    },
+    {
+      "epoch": 4.612561174551386,
+      "grad_norm": 0.300809383392334,
+      "learning_rate": 0.0009489216830665649,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 61087168,
+      "step": 28275
+    },
+    {
+      "epoch": 4.613376835236542,
+      "grad_norm": 0.005980401299893856,
+      "learning_rate": 0.0009488903369748203,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 61098816,
+      "step": 28280
+    },
+    {
+      "epoch": 4.614192495921697,
+      "grad_norm": 0.12887540459632874,
+      "learning_rate": 0.0009488589817857435,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 61108992,
+      "step": 28285
+    },
+    {
+      "epoch": 4.6150081566068515,
+      "grad_norm": 0.1607290506362915,
+      "learning_rate": 0.0009488276174999702,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 61120032,
+      "step": 28290
+    },
+    {
+      "epoch": 4.615823817292006,
+      "grad_norm": 0.16185465455055237,
+      "learning_rate": 0.0009487962441181357,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 61130496,
+      "step": 28295
+    },
+    {
+      "epoch": 4.616639477977161,
+      "grad_norm": 0.13092803955078125,
+      "learning_rate": 0.0009487648616408762,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 61141344,
+      "step": 28300
+    },
+    {
+      "epoch": 4.617455138662317,
+      "grad_norm": 0.07150975614786148,
+      "learning_rate": 0.0009487334700688273,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 61152512,
+      "step": 28305
+    },
+    {
+      "epoch": 4.618270799347472,
+      "grad_norm": 0.02035592496395111,
+      "learning_rate": 0.0009487020694026254,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 61164416,
+      "step": 28310
+    },
+    {
+      "epoch": 4.6190864600326265,
+      "grad_norm": 0.0039632623083889484,
+      "learning_rate": 0.0009486706596429068,
+      "loss": 0.2028,
+      "num_input_tokens_seen": 61176160,
+      "step": 28315
+    },
+    {
+      "epoch": 4.619902120717781,
+      "grad_norm": 0.023158259689807892,
+      "learning_rate": 0.0009486392407903082,
+      "loss": 0.2388,
+      "num_input_tokens_seen": 61186560,
+      "step": 28320
+    },
+    {
+      "epoch": 4.620717781402936,
+      "grad_norm": 0.10569548606872559,
+      "learning_rate": 0.000948607812845466,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 61197504,
+      "step": 28325
+    },
+    {
+      "epoch": 4.621533442088092,
+      "grad_norm": 0.020724743604660034,
+      "learning_rate": 0.0009485763758090176,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 61209088,
+      "step": 28330
+    },
+    {
+      "epoch": 4.622349102773247,
+      "grad_norm": 0.21098117530345917,
+      "learning_rate": 0.0009485449296815999,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 61220224,
+      "step": 28335
+    },
+    {
+      "epoch": 4.623164763458401,
+      "grad_norm": 0.03836962580680847,
+      "learning_rate": 0.00094851347446385,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 61232480,
+      "step": 28340
+    },
+    {
+      "epoch": 4.623980424143556,
+      "grad_norm": 0.2680718004703522,
+      "learning_rate": 0.0009484820101564058,
+      "loss": 0.1557,
+      "num_input_tokens_seen": 61244032,
+      "step": 28345
+    },
+    {
+      "epoch": 4.624796084828711,
+      "grad_norm": 0.19660809636116028,
+      "learning_rate": 0.0009484505367599045,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 61256096,
+      "step": 28350
+    },
+    {
+      "epoch": 4.625611745513866,
+      "grad_norm": 0.04200530797243118,
+      "learning_rate": 0.0009484190542749844,
+      "loss": 0.1997,
+      "num_input_tokens_seen": 61268576,
+      "step": 28355
+    },
+    {
+      "epoch": 4.626427406199021,
+      "grad_norm": 0.05554460734128952,
+      "learning_rate": 0.0009483875627022831,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 61279584,
+      "step": 28360
+    },
+    {
+      "epoch": 4.627243066884176,
+      "grad_norm": 0.020894384011626244,
+      "learning_rate": 0.0009483560620424391,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 61289824,
+      "step": 28365
+    },
+    {
+      "epoch": 4.628058727569331,
+      "grad_norm": 0.071620874106884,
+      "learning_rate": 0.0009483245522960909,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 61299296,
+      "step": 28370
+    },
+    {
+      "epoch": 4.628874388254486,
+      "grad_norm": 0.03438745439052582,
+      "learning_rate": 0.0009482930334638766,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 61309600,
+      "step": 28375
+    },
+    {
+      "epoch": 4.629690048939641,
+      "grad_norm": 0.05470510572195053,
+      "learning_rate": 0.0009482615055464354,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 61320288,
+      "step": 28380
+    },
+    {
+      "epoch": 4.630505709624796,
+      "grad_norm": 0.09955763071775436,
+      "learning_rate": 0.0009482299685444062,
+      "loss": 0.117,
+      "num_input_tokens_seen": 61331328,
+      "step": 28385
+    },
+    {
+      "epoch": 4.631321370309951,
+      "grad_norm": 0.006198828108608723,
+      "learning_rate": 0.0009481984224584279,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 61341248,
+      "step": 28390
+    },
+    {
+      "epoch": 4.632137030995106,
+      "grad_norm": 0.2537461221218109,
+      "learning_rate": 0.0009481668672891401,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 61350880,
+      "step": 28395
+    },
+    {
+      "epoch": 4.632952691680261,
+      "grad_norm": 0.09156087040901184,
+      "learning_rate": 0.0009481353030371822,
+      "loss": 0.083,
+      "num_input_tokens_seen": 61361760,
+      "step": 28400
+    },
+    {
+      "epoch": 4.633768352365416,
+      "grad_norm": 0.011091694235801697,
+      "learning_rate": 0.0009481037297031939,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 61372896,
+      "step": 28405
+    },
+    {
+      "epoch": 4.634584013050571,
+      "grad_norm": 0.23919807374477386,
+      "learning_rate": 0.0009480721472878151,
+      "loss": 0.2114,
+      "num_input_tokens_seen": 61382752,
+      "step": 28410
+    },
+    {
+      "epoch": 4.635399673735726,
+      "grad_norm": 0.012990964576601982,
+      "learning_rate": 0.0009480405557916858,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 61393792,
+      "step": 28415
+    },
+    {
+      "epoch": 4.636215334420881,
+      "grad_norm": 0.057514190673828125,
+      "learning_rate": 0.0009480089552154461,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 61403968,
+      "step": 28420
+    },
+    {
+      "epoch": 4.637030995106036,
+      "grad_norm": 0.25216689705848694,
+      "learning_rate": 0.0009479773455597367,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 61415648,
+      "step": 28425
+    },
+    {
+      "epoch": 4.637846655791191,
+      "grad_norm": 0.12715749442577362,
+      "learning_rate": 0.0009479457268251981,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 61425696,
+      "step": 28430
+    },
+    {
+      "epoch": 4.638662316476346,
+      "grad_norm": 0.006238611415028572,
+      "learning_rate": 0.0009479140990124711,
+      "loss": 0.065,
+      "num_input_tokens_seen": 61436928,
+      "step": 28435
+    },
+    {
+      "epoch": 4.6394779771615005,
+      "grad_norm": 0.14752565324306488,
+      "learning_rate": 0.0009478824621221967,
+      "loss": 0.2457,
+      "num_input_tokens_seen": 61447648,
+      "step": 28440
+    },
+    {
+      "epoch": 4.640293637846656,
+      "grad_norm": 0.03811931237578392,
+      "learning_rate": 0.0009478508161550159,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 61459776,
+      "step": 28445
+    },
+    {
+      "epoch": 4.641109298531811,
+      "grad_norm": 0.03835804760456085,
+      "learning_rate": 0.0009478191611115702,
+      "loss": 0.081,
+      "num_input_tokens_seen": 61471040,
+      "step": 28450
+    },
+    {
+      "epoch": 4.641924959216966,
+      "grad_norm": 0.0996306762099266,
+      "learning_rate": 0.0009477874969925011,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 61481888,
+      "step": 28455
+    },
+    {
+      "epoch": 4.642740619902121,
+      "grad_norm": 0.2590426206588745,
+      "learning_rate": 0.0009477558237984503,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 61492928,
+      "step": 28460
+    },
+    {
+      "epoch": 4.643556280587275,
+      "grad_norm": 0.21474169194698334,
+      "learning_rate": 0.0009477241415300599,
+      "loss": 0.1292,
+      "num_input_tokens_seen": 61504320,
+      "step": 28465
+    },
+    {
+      "epoch": 4.64437194127243,
+      "grad_norm": 0.021407373249530792,
+      "learning_rate": 0.0009476924501879715,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 61515424,
+      "step": 28470
+    },
+    {
+      "epoch": 4.645187601957586,
+      "grad_norm": 0.03953413665294647,
+      "learning_rate": 0.0009476607497728279,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 61526176,
+      "step": 28475
+    },
+    {
+      "epoch": 4.646003262642741,
+      "grad_norm": 0.09875276684761047,
+      "learning_rate": 0.0009476290402852712,
+      "loss": 0.1282,
+      "num_input_tokens_seen": 61536288,
+      "step": 28480
+    },
+    {
+      "epoch": 4.646818923327896,
+      "grad_norm": 0.0387643501162529,
+      "learning_rate": 0.0009475973217259442,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 61548544,
+      "step": 28485
+    },
+    {
+      "epoch": 4.64763458401305,
+      "grad_norm": 0.010005326010286808,
+      "learning_rate": 0.0009475655940954896,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 61559776,
+      "step": 28490
+    },
+    {
+      "epoch": 4.648450244698205,
+      "grad_norm": 0.30142971873283386,
+      "learning_rate": 0.0009475338573945504,
+      "loss": 0.1899,
+      "num_input_tokens_seen": 61570784,
+      "step": 28495
+    },
+    {
+      "epoch": 4.649265905383361,
+      "grad_norm": 0.060554053634405136,
+      "learning_rate": 0.0009475021116237699,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 61581856,
+      "step": 28500
+    },
+    {
+      "epoch": 4.650081566068516,
+      "grad_norm": 0.010634462349116802,
+      "learning_rate": 0.0009474703567837915,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 61593376,
+      "step": 28505
+    },
+    {
+      "epoch": 4.650897226753671,
+      "grad_norm": 0.20411312580108643,
+      "learning_rate": 0.0009474385928752585,
+      "loss": 0.2613,
+      "num_input_tokens_seen": 61604256,
+      "step": 28510
+    },
+    {
+      "epoch": 4.651712887438825,
+      "grad_norm": 0.014688130468130112,
+      "learning_rate": 0.0009474068198988151,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 61615008,
+      "step": 28515
+    },
+    {
+      "epoch": 4.65252854812398,
+      "grad_norm": 0.021405626088380814,
+      "learning_rate": 0.0009473750378551046,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 61626848,
+      "step": 28520
+    },
+    {
+      "epoch": 4.653344208809135,
+      "grad_norm": 0.02764919400215149,
+      "learning_rate": 0.0009473432467447715,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 61637952,
+      "step": 28525
+    },
+    {
+      "epoch": 4.654159869494291,
+      "grad_norm": 0.4175470769405365,
+      "learning_rate": 0.00094731144656846,
+      "loss": 0.2282,
+      "num_input_tokens_seen": 61648288,
+      "step": 28530
+    },
+    {
+      "epoch": 4.6549755301794455,
+      "grad_norm": 0.059521906077861786,
+      "learning_rate": 0.0009472796373268147,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 61659936,
+      "step": 28535
+    },
+    {
+      "epoch": 4.6557911908646,
+      "grad_norm": 0.1181897521018982,
+      "learning_rate": 0.00094724781902048,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 61670464,
+      "step": 28540
+    },
+    {
+      "epoch": 4.656606851549755,
+      "grad_norm": 0.06549588590860367,
+      "learning_rate": 0.0009472159916501011,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 61681568,
+      "step": 28545
+    },
+    {
+      "epoch": 4.65742251223491,
+      "grad_norm": 0.008692199364304543,
+      "learning_rate": 0.0009471841552163225,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 61691808,
+      "step": 28550
+    },
+    {
+      "epoch": 4.658238172920065,
+      "grad_norm": 0.1296404004096985,
+      "learning_rate": 0.0009471523097197898,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 61702400,
+      "step": 28555
+    },
+    {
+      "epoch": 4.6590538336052205,
+      "grad_norm": 0.011472326703369617,
+      "learning_rate": 0.0009471204551611483,
+      "loss": 0.1363,
+      "num_input_tokens_seen": 61713824,
+      "step": 28560
+    },
+    {
+      "epoch": 4.659869494290375,
+      "grad_norm": 0.017907777801156044,
+      "learning_rate": 0.0009470885915410437,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 61724096,
+      "step": 28565
+    },
+    {
+      "epoch": 4.66068515497553,
+      "grad_norm": 0.03549930080771446,
+      "learning_rate": 0.0009470567188601214,
+      "loss": 0.0473,
+      "num_input_tokens_seen": 61735136,
+      "step": 28570
+    },
+    {
+      "epoch": 4.661500815660685,
+      "grad_norm": 0.05104723572731018,
+      "learning_rate": 0.0009470248371190277,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 61746368,
+      "step": 28575
+    },
+    {
+      "epoch": 4.66231647634584,
+      "grad_norm": 0.2593303620815277,
+      "learning_rate": 0.0009469929463184086,
+      "loss": 0.3085,
+      "num_input_tokens_seen": 61756128,
+      "step": 28580
+    },
+    {
+      "epoch": 4.6631321370309955,
+      "grad_norm": 0.03945760801434517,
+      "learning_rate": 0.0009469610464589104,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 61766464,
+      "step": 28585
+    },
+    {
+      "epoch": 4.66394779771615,
+      "grad_norm": 0.017860667780041695,
+      "learning_rate": 0.0009469291375411795,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 61777632,
+      "step": 28590
+    },
+    {
+      "epoch": 4.664763458401305,
+      "grad_norm": 0.020938122645020485,
+      "learning_rate": 0.0009468972195658626,
+      "loss": 0.105,
+      "num_input_tokens_seen": 61788992,
+      "step": 28595
+    },
+    {
+      "epoch": 4.66557911908646,
+      "grad_norm": 0.03804948925971985,
+      "learning_rate": 0.0009468652925336068,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 61799840,
+      "step": 28600
+    },
+    {
+      "epoch": 4.666394779771615,
+      "grad_norm": 0.17097699642181396,
+      "learning_rate": 0.0009468333564450587,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 61810240,
+      "step": 28605
+    },
+    {
+      "epoch": 4.6672104404567705,
+      "grad_norm": 0.059029195457696915,
+      "learning_rate": 0.000946801411300866,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 61820512,
+      "step": 28610
+    },
+    {
+      "epoch": 4.668026101141925,
+      "grad_norm": 0.06193551421165466,
+      "learning_rate": 0.0009467694571016758,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 61831328,
+      "step": 28615
+    },
+    {
+      "epoch": 4.66884176182708,
+      "grad_norm": 0.031025558710098267,
+      "learning_rate": 0.0009467374938481359,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 61842976,
+      "step": 28620
+    },
+    {
+      "epoch": 4.669657422512235,
+      "grad_norm": 0.09817475825548172,
+      "learning_rate": 0.0009467055215408939,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 61854912,
+      "step": 28625
+    },
+    {
+      "epoch": 4.67047308319739,
+      "grad_norm": 0.051113102585077286,
+      "learning_rate": 0.0009466735401805977,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 61866208,
+      "step": 28630
+    },
+    {
+      "epoch": 4.671288743882545,
+      "grad_norm": 0.17623735964298248,
+      "learning_rate": 0.0009466415497678957,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 61877088,
+      "step": 28635
+    },
+    {
+      "epoch": 4.672104404567699,
+      "grad_norm": 0.1480836421251297,
+      "learning_rate": 0.000946609550303436,
+      "loss": 0.2016,
+      "num_input_tokens_seen": 61887328,
+      "step": 28640
+    },
+    {
+      "epoch": 4.672920065252855,
+      "grad_norm": 0.12157644331455231,
+      "learning_rate": 0.0009465775417878673,
+      "loss": 0.1657,
+      "num_input_tokens_seen": 61898336,
+      "step": 28645
+    },
+    {
+      "epoch": 4.67373572593801,
+      "grad_norm": 0.0039813462644815445,
+      "learning_rate": 0.0009465455242218382,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 61909728,
+      "step": 28650
+    },
+    {
+      "epoch": 4.674551386623165,
+      "grad_norm": 0.15658128261566162,
+      "learning_rate": 0.0009465134976059975,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 61921312,
+      "step": 28655
+    },
+    {
+      "epoch": 4.6753670473083195,
+      "grad_norm": 0.19435112178325653,
+      "learning_rate": 0.0009464814619409942,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 61931744,
+      "step": 28660
+    },
+    {
+      "epoch": 4.676182707993474,
+      "grad_norm": 0.1114906296133995,
+      "learning_rate": 0.0009464494172274778,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 61943264,
+      "step": 28665
+    },
+    {
+      "epoch": 4.67699836867863,
+      "grad_norm": 0.3585332930088043,
+      "learning_rate": 0.0009464173634660978,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 61954112,
+      "step": 28670
+    },
+    {
+      "epoch": 4.677814029363785,
+      "grad_norm": 0.030214810743927956,
+      "learning_rate": 0.0009463853006575032,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 61964384,
+      "step": 28675
+    },
+    {
+      "epoch": 4.67862969004894,
+      "grad_norm": 0.13624903559684753,
+      "learning_rate": 0.0009463532288023444,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 61976608,
+      "step": 28680
+    },
+    {
+      "epoch": 4.6794453507340945,
+      "grad_norm": 0.006839347537606955,
+      "learning_rate": 0.0009463211479012712,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 61987616,
+      "step": 28685
+    },
+    {
+      "epoch": 4.680261011419249,
+      "grad_norm": 0.2887722849845886,
+      "learning_rate": 0.0009462890579549338,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 61997984,
+      "step": 28690
+    },
+    {
+      "epoch": 4.681076672104405,
+      "grad_norm": 0.1711539328098297,
+      "learning_rate": 0.0009462569589639825,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 62008384,
+      "step": 28695
+    },
+    {
+      "epoch": 4.68189233278956,
+      "grad_norm": 0.014359569177031517,
+      "learning_rate": 0.0009462248509290676,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 62019040,
+      "step": 28700
+    },
+    {
+      "epoch": 4.682707993474715,
+      "grad_norm": 0.12640659511089325,
+      "learning_rate": 0.0009461927338508402,
+      "loss": 0.1402,
+      "num_input_tokens_seen": 62030240,
+      "step": 28705
+    },
+    {
+      "epoch": 4.6835236541598695,
+      "grad_norm": 0.029281822964549065,
+      "learning_rate": 0.0009461606077299509,
+      "loss": 0.1383,
+      "num_input_tokens_seen": 62040768,
+      "step": 28710
+    },
+    {
+      "epoch": 4.684339314845024,
+      "grad_norm": 0.019829019904136658,
+      "learning_rate": 0.000946128472567051,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 62051168,
+      "step": 28715
+    },
+    {
+      "epoch": 4.685154975530179,
+      "grad_norm": 0.3932690918445587,
+      "learning_rate": 0.0009460963283627917,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 62062336,
+      "step": 28720
+    },
+    {
+      "epoch": 4.685970636215334,
+      "grad_norm": 0.13580350577831268,
+      "learning_rate": 0.0009460641751178243,
+      "loss": 0.126,
+      "num_input_tokens_seen": 62071232,
+      "step": 28725
+    },
+    {
+      "epoch": 4.68678629690049,
+      "grad_norm": 0.0017230919329449534,
+      "learning_rate": 0.0009460320128328003,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 62082560,
+      "step": 28730
+    },
+    {
+      "epoch": 4.6876019575856445,
+      "grad_norm": 0.2777078449726105,
+      "learning_rate": 0.0009459998415083721,
+      "loss": 0.1692,
+      "num_input_tokens_seen": 62094304,
+      "step": 28735
+    },
+    {
+      "epoch": 4.688417618270799,
+      "grad_norm": 0.08183332532644272,
+      "learning_rate": 0.000945967661145191,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 62104160,
+      "step": 28740
+    },
+    {
+      "epoch": 4.689233278955954,
+      "grad_norm": 0.1658097356557846,
+      "learning_rate": 0.0009459354717439097,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 62114208,
+      "step": 28745
+    },
+    {
+      "epoch": 4.690048939641109,
+      "grad_norm": 0.07683463394641876,
+      "learning_rate": 0.0009459032733051805,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 62124320,
+      "step": 28750
+    },
+    {
+      "epoch": 4.690864600326265,
+      "grad_norm": 0.1957731395959854,
+      "learning_rate": 0.0009458710658296555,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 62135904,
+      "step": 28755
+    },
+    {
+      "epoch": 4.691680261011419,
+      "grad_norm": 0.02776450477540493,
+      "learning_rate": 0.000945838849317988,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 62145632,
+      "step": 28760
+    },
+    {
+      "epoch": 4.692495921696574,
+      "grad_norm": 0.10273412615060806,
+      "learning_rate": 0.0009458066237708302,
+      "loss": 0.1534,
+      "num_input_tokens_seen": 62157376,
+      "step": 28765
+    },
+    {
+      "epoch": 4.693311582381729,
+      "grad_norm": 0.01814623735845089,
+      "learning_rate": 0.0009457743891888359,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 62167648,
+      "step": 28770
+    },
+    {
+      "epoch": 4.694127243066884,
+      "grad_norm": 0.2564343214035034,
+      "learning_rate": 0.0009457421455726582,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 62178784,
+      "step": 28775
+    },
+    {
+      "epoch": 4.69494290375204,
+      "grad_norm": 0.07235551625490189,
+      "learning_rate": 0.0009457098929229503,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 62189600,
+      "step": 28780
+    },
+    {
+      "epoch": 4.695758564437194,
+      "grad_norm": 0.18390199542045593,
+      "learning_rate": 0.0009456776312403661,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 62200768,
+      "step": 28785
+    },
+    {
+      "epoch": 4.696574225122349,
+      "grad_norm": 0.039058052003383636,
+      "learning_rate": 0.0009456453605255592,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 62211520,
+      "step": 28790
+    },
+    {
+      "epoch": 4.697389885807504,
+      "grad_norm": 0.2684352397918701,
+      "learning_rate": 0.0009456130807791839,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 62222624,
+      "step": 28795
+    },
+    {
+      "epoch": 4.698205546492659,
+      "grad_norm": 0.025328971445560455,
+      "learning_rate": 0.000945580792001894,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 62232000,
+      "step": 28800
+    },
+    {
+      "epoch": 4.699021207177814,
+      "grad_norm": 0.1835407316684723,
+      "learning_rate": 0.0009455484941943442,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 62241952,
+      "step": 28805
+    },
+    {
+      "epoch": 4.699836867862969,
+      "grad_norm": 0.015583495609462261,
+      "learning_rate": 0.0009455161873571889,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 62252864,
+      "step": 28810
+    },
+    {
+      "epoch": 4.700652528548124,
+      "grad_norm": 0.06854277104139328,
+      "learning_rate": 0.000945483871491083,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 62264096,
+      "step": 28815
+    },
+    {
+      "epoch": 4.701468189233279,
+      "grad_norm": 0.07336314022541046,
+      "learning_rate": 0.0009454515465966812,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 62274176,
+      "step": 28820
+    },
+    {
+      "epoch": 4.702283849918434,
+      "grad_norm": 0.019611230120062828,
+      "learning_rate": 0.0009454192126746388,
+      "loss": 0.039,
+      "num_input_tokens_seen": 62285472,
+      "step": 28825
+    },
+    {
+      "epoch": 4.703099510603589,
+      "grad_norm": 0.0149730509147048,
+      "learning_rate": 0.000945386869725611,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 62296256,
+      "step": 28830
+    },
+    {
+      "epoch": 4.7039151712887435,
+      "grad_norm": 0.1251792311668396,
+      "learning_rate": 0.0009453545177502532,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 62307456,
+      "step": 28835
+    },
+    {
+      "epoch": 4.704730831973899,
+      "grad_norm": 0.025677544996142387,
+      "learning_rate": 0.0009453221567492211,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 62317696,
+      "step": 28840
+    },
+    {
+      "epoch": 4.705546492659054,
+      "grad_norm": 0.17929667234420776,
+      "learning_rate": 0.0009452897867231705,
+      "loss": 0.1908,
+      "num_input_tokens_seen": 62328672,
+      "step": 28845
+    },
+    {
+      "epoch": 4.706362153344209,
+      "grad_norm": 0.10408436506986618,
+      "learning_rate": 0.0009452574076727576,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 62339648,
+      "step": 28850
+    },
+    {
+      "epoch": 4.707177814029364,
+      "grad_norm": 0.047870147973299026,
+      "learning_rate": 0.0009452250195986385,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 62350592,
+      "step": 28855
+    },
+    {
+      "epoch": 4.7079934747145185,
+      "grad_norm": 0.07525742053985596,
+      "learning_rate": 0.0009451926225014695,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 62362528,
+      "step": 28860
+    },
+    {
+      "epoch": 4.708809135399674,
+      "grad_norm": 0.015628913417458534,
+      "learning_rate": 0.0009451602163819073,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 62373600,
+      "step": 28865
+    },
+    {
+      "epoch": 4.709624796084829,
+      "grad_norm": 0.05882667005062103,
+      "learning_rate": 0.0009451278012406086,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 62385568,
+      "step": 28870
+    },
+    {
+      "epoch": 4.710440456769984,
+      "grad_norm": 0.008061857894062996,
+      "learning_rate": 0.0009450953770782304,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 62395872,
+      "step": 28875
+    },
+    {
+      "epoch": 4.711256117455139,
+      "grad_norm": 0.07395133376121521,
+      "learning_rate": 0.0009450629438954296,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 62407296,
+      "step": 28880
+    },
+    {
+      "epoch": 4.712071778140293,
+      "grad_norm": 0.0533161461353302,
+      "learning_rate": 0.0009450305016928636,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 62418656,
+      "step": 28885
+    },
+    {
+      "epoch": 4.712887438825448,
+      "grad_norm": 0.01694626919925213,
+      "learning_rate": 0.00094499805047119,
+      "loss": 0.03,
+      "num_input_tokens_seen": 62429792,
+      "step": 28890
+    },
+    {
+      "epoch": 4.713703099510604,
+      "grad_norm": 0.0854320377111435,
+      "learning_rate": 0.0009449655902310665,
+      "loss": 0.1937,
+      "num_input_tokens_seen": 62439936,
+      "step": 28895
+    },
+    {
+      "epoch": 4.714518760195759,
+      "grad_norm": 0.08638182282447815,
+      "learning_rate": 0.0009449331209731507,
+      "loss": 0.1911,
+      "num_input_tokens_seen": 62450720,
+      "step": 28900
+    },
+    {
+      "epoch": 4.715334420880914,
+      "grad_norm": 0.18696919083595276,
+      "learning_rate": 0.0009449006426981007,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 62461856,
+      "step": 28905
+    },
+    {
+      "epoch": 4.716150081566068,
+      "grad_norm": 0.02467340975999832,
+      "learning_rate": 0.0009448681554065749,
+      "loss": 0.1609,
+      "num_input_tokens_seen": 62472064,
+      "step": 28910
+    },
+    {
+      "epoch": 4.716965742251223,
+      "grad_norm": 0.13728247582912445,
+      "learning_rate": 0.0009448356590992316,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 62482976,
+      "step": 28915
+    },
+    {
+      "epoch": 4.717781402936378,
+      "grad_norm": 0.03479057550430298,
+      "learning_rate": 0.0009448031537767292,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 62492960,
+      "step": 28920
+    },
+    {
+      "epoch": 4.718597063621534,
+      "grad_norm": 0.008539623580873013,
+      "learning_rate": 0.0009447706394397266,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 62503648,
+      "step": 28925
+    },
+    {
+      "epoch": 4.719412724306689,
+      "grad_norm": 0.2139635682106018,
+      "learning_rate": 0.0009447381160888831,
+      "loss": 0.1307,
+      "num_input_tokens_seen": 62513920,
+      "step": 28930
+    },
+    {
+      "epoch": 4.720228384991843,
+      "grad_norm": 0.21587203443050385,
+      "learning_rate": 0.0009447055837248572,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 62524960,
+      "step": 28935
+    },
+    {
+      "epoch": 4.721044045676998,
+      "grad_norm": 0.1398542821407318,
+      "learning_rate": 0.0009446730423483085,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 62535776,
+      "step": 28940
+    },
+    {
+      "epoch": 4.721859706362153,
+      "grad_norm": 0.010080617852509022,
+      "learning_rate": 0.0009446404919598965,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 62548096,
+      "step": 28945
+    },
+    {
+      "epoch": 4.722675367047309,
+      "grad_norm": 0.1806686967611313,
+      "learning_rate": 0.000944607932560281,
+      "loss": 0.2239,
+      "num_input_tokens_seen": 62559168,
+      "step": 28950
+    },
+    {
+      "epoch": 4.7234910277324635,
+      "grad_norm": 0.10033036023378372,
+      "learning_rate": 0.0009445753641501215,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 62570080,
+      "step": 28955
+    },
+    {
+      "epoch": 4.724306688417618,
+      "grad_norm": 0.015866931527853012,
+      "learning_rate": 0.0009445427867300785,
+      "loss": 0.1447,
+      "num_input_tokens_seen": 62580384,
+      "step": 28960
+    },
+    {
+      "epoch": 4.725122349102773,
+      "grad_norm": 0.01197098009288311,
+      "learning_rate": 0.0009445102003008119,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 62591488,
+      "step": 28965
+    },
+    {
+      "epoch": 4.725938009787928,
+      "grad_norm": 0.15940040349960327,
+      "learning_rate": 0.0009444776048629822,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 62603264,
+      "step": 28970
+    },
+    {
+      "epoch": 4.726753670473083,
+      "grad_norm": 0.038952793926000595,
+      "learning_rate": 0.0009444450004172498,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 62614624,
+      "step": 28975
+    },
+    {
+      "epoch": 4.7275693311582385,
+      "grad_norm": 0.25991666316986084,
+      "learning_rate": 0.0009444123869642758,
+      "loss": 0.1644,
+      "num_input_tokens_seen": 62625856,
+      "step": 28980
+    },
+    {
+      "epoch": 4.728384991843393,
+      "grad_norm": 0.016241293400526047,
+      "learning_rate": 0.000944379764504721,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 62635616,
+      "step": 28985
+    },
+    {
+      "epoch": 4.729200652528548,
+      "grad_norm": 0.038051947951316833,
+      "learning_rate": 0.0009443471330392466,
+      "loss": 0.1934,
+      "num_input_tokens_seen": 62645920,
+      "step": 28990
+    },
+    {
+      "epoch": 4.730016313213703,
+      "grad_norm": 0.05174148455262184,
+      "learning_rate": 0.0009443144925685137,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 62656864,
+      "step": 28995
+    },
+    {
+      "epoch": 4.730831973898858,
+      "grad_norm": 0.10264194756746292,
+      "learning_rate": 0.0009442818430931841,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 62666496,
+      "step": 29000
+    },
+    {
+      "epoch": 4.731647634584013,
+      "grad_norm": 0.20121224224567413,
+      "learning_rate": 0.0009442491846139192,
+      "loss": 0.1943,
+      "num_input_tokens_seen": 62677152,
+      "step": 29005
+    },
+    {
+      "epoch": 4.732463295269168,
+      "grad_norm": 0.04519479721784592,
+      "learning_rate": 0.0009442165171313811,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 62687104,
+      "step": 29010
+    },
+    {
+      "epoch": 4.733278955954323,
+      "grad_norm": 0.02056044153869152,
+      "learning_rate": 0.0009441838406462318,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 62697472,
+      "step": 29015
+    },
+    {
+      "epoch": 4.734094616639478,
+      "grad_norm": 0.0412328764796257,
+      "learning_rate": 0.0009441511551591333,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 62708736,
+      "step": 29020
+    },
+    {
+      "epoch": 4.734910277324633,
+      "grad_norm": 0.007981553673744202,
+      "learning_rate": 0.0009441184606707484,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 62720672,
+      "step": 29025
+    },
+    {
+      "epoch": 4.735725938009788,
+      "grad_norm": 0.017568625509738922,
+      "learning_rate": 0.0009440857571817394,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 62732576,
+      "step": 29030
+    },
+    {
+      "epoch": 4.736541598694943,
+      "grad_norm": 0.16702494025230408,
+      "learning_rate": 0.000944053044692769,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 62742880,
+      "step": 29035
+    },
+    {
+      "epoch": 4.737357259380098,
+      "grad_norm": 0.21429851651191711,
+      "learning_rate": 0.0009440203232045005,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 62753184,
+      "step": 29040
+    },
+    {
+      "epoch": 4.738172920065253,
+      "grad_norm": 0.04229350760579109,
+      "learning_rate": 0.000943987592717597,
+      "loss": 0.1866,
+      "num_input_tokens_seen": 62763936,
+      "step": 29045
+    },
+    {
+      "epoch": 4.738988580750408,
+      "grad_norm": 0.21390216052532196,
+      "learning_rate": 0.0009439548532327216,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 62775328,
+      "step": 29050
+    },
+    {
+      "epoch": 4.739804241435563,
+      "grad_norm": 0.033763255923986435,
+      "learning_rate": 0.0009439221047505377,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 62786656,
+      "step": 29055
+    },
+    {
+      "epoch": 4.740619902120718,
+      "grad_norm": 0.4876824915409088,
+      "learning_rate": 0.0009438893472717094,
+      "loss": 0.1986,
+      "num_input_tokens_seen": 62797664,
+      "step": 29060
+    },
+    {
+      "epoch": 4.741435562805873,
+      "grad_norm": 0.05257996916770935,
+      "learning_rate": 0.0009438565807969005,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 62808416,
+      "step": 29065
+    },
+    {
+      "epoch": 4.742251223491028,
+      "grad_norm": 0.13803677260875702,
+      "learning_rate": 0.0009438238053267746,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 62818624,
+      "step": 29070
+    },
+    {
+      "epoch": 4.743066884176183,
+      "grad_norm": 0.03434896469116211,
+      "learning_rate": 0.0009437910208619964,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 62828928,
+      "step": 29075
+    },
+    {
+      "epoch": 4.7438825448613375,
+      "grad_norm": 0.051103875041007996,
+      "learning_rate": 0.0009437582274032301,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 62838784,
+      "step": 29080
+    },
+    {
+      "epoch": 4.744698205546492,
+      "grad_norm": 0.06288142502307892,
+      "learning_rate": 0.0009437254249511404,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 62849888,
+      "step": 29085
+    },
+    {
+      "epoch": 4.745513866231647,
+      "grad_norm": 0.006992727518081665,
+      "learning_rate": 0.0009436926135063922,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 62862848,
+      "step": 29090
+    },
+    {
+      "epoch": 4.746329526916803,
+      "grad_norm": 0.08556337654590607,
+      "learning_rate": 0.0009436597930696502,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 62873440,
+      "step": 29095
+    },
+    {
+      "epoch": 4.747145187601958,
+      "grad_norm": 0.14834004640579224,
+      "learning_rate": 0.0009436269636415798,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 62882528,
+      "step": 29100
+    },
+    {
+      "epoch": 4.7479608482871125,
+      "grad_norm": 0.033871617168188095,
+      "learning_rate": 0.000943594125222846,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 62893824,
+      "step": 29105
+    },
+    {
+      "epoch": 4.748776508972267,
+      "grad_norm": 0.02020910568535328,
+      "learning_rate": 0.0009435612778141146,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 62903840,
+      "step": 29110
+    },
+    {
+      "epoch": 4.749592169657422,
+      "grad_norm": 0.21955829858779907,
+      "learning_rate": 0.0009435284214160513,
+      "loss": 0.2021,
+      "num_input_tokens_seen": 62915040,
+      "step": 29115
+    },
+    {
+      "epoch": 4.750407830342578,
+      "grad_norm": 0.013592018745839596,
+      "learning_rate": 0.0009434955560293217,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 62927136,
+      "step": 29120
+    },
+    {
+      "epoch": 4.751223491027733,
+      "grad_norm": 0.04946539178490639,
+      "learning_rate": 0.0009434626816545922,
+      "loss": 0.1829,
+      "num_input_tokens_seen": 62938144,
+      "step": 29125
+    },
+    {
+      "epoch": 4.7520391517128875,
+      "grad_norm": 0.4289376437664032,
+      "learning_rate": 0.0009434297982925288,
+      "loss": 0.3736,
+      "num_input_tokens_seen": 62949888,
+      "step": 29130
+    },
+    {
+      "epoch": 4.752854812398042,
+      "grad_norm": 0.014377152547240257,
+      "learning_rate": 0.000943396905943798,
+      "loss": 0.047,
+      "num_input_tokens_seen": 62960864,
+      "step": 29135
+    },
+    {
+      "epoch": 4.753670473083197,
+      "grad_norm": 0.07028697431087494,
+      "learning_rate": 0.0009433640046090664,
+      "loss": 0.1671,
+      "num_input_tokens_seen": 62970720,
+      "step": 29140
+    },
+    {
+      "epoch": 4.754486133768353,
+      "grad_norm": 0.14718550443649292,
+      "learning_rate": 0.0009433310942890009,
+      "loss": 0.1276,
+      "num_input_tokens_seen": 62980704,
+      "step": 29145
+    },
+    {
+      "epoch": 4.755301794453508,
+      "grad_norm": 0.05152687057852745,
+      "learning_rate": 0.0009432981749842683,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 62991008,
+      "step": 29150
+    },
+    {
+      "epoch": 4.7561174551386625,
+      "grad_norm": 0.04468585178256035,
+      "learning_rate": 0.0009432652466955358,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 63000864,
+      "step": 29155
+    },
+    {
+      "epoch": 4.756933115823817,
+      "grad_norm": 0.018594171851873398,
+      "learning_rate": 0.0009432323094234708,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 63011776,
+      "step": 29160
+    },
+    {
+      "epoch": 4.757748776508972,
+      "grad_norm": 0.21704287827014923,
+      "learning_rate": 0.0009431993631687408,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 63023296,
+      "step": 29165
+    },
+    {
+      "epoch": 4.758564437194127,
+      "grad_norm": 0.05709686875343323,
+      "learning_rate": 0.0009431664079320134,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 63035168,
+      "step": 29170
+    },
+    {
+      "epoch": 4.759380097879282,
+      "grad_norm": 0.011319992132484913,
+      "learning_rate": 0.0009431334437139565,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 63046272,
+      "step": 29175
+    },
+    {
+      "epoch": 4.760195758564437,
+      "grad_norm": 0.06291552633047104,
+      "learning_rate": 0.0009431004705152384,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 63056096,
+      "step": 29180
+    },
+    {
+      "epoch": 4.761011419249592,
+      "grad_norm": 0.09090526401996613,
+      "learning_rate": 0.0009430674883365269,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 63066432,
+      "step": 29185
+    },
+    {
+      "epoch": 4.761827079934747,
+      "grad_norm": 0.19455280900001526,
+      "learning_rate": 0.0009430344971784909,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 63077856,
+      "step": 29190
+    },
+    {
+      "epoch": 4.762642740619902,
+      "grad_norm": 0.023099692538380623,
+      "learning_rate": 0.0009430014970417986,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 63088160,
+      "step": 29195
+    },
+    {
+      "epoch": 4.763458401305057,
+      "grad_norm": 0.2389380782842636,
+      "learning_rate": 0.0009429684879271191,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 63098240,
+      "step": 29200
+    },
+    {
+      "epoch": 4.764274061990212,
+      "grad_norm": 0.2107832282781601,
+      "learning_rate": 0.0009429354698351212,
+      "loss": 0.088,
+      "num_input_tokens_seen": 63109472,
+      "step": 29205
+    },
+    {
+      "epoch": 4.765089722675367,
+      "grad_norm": 0.004489370156079531,
+      "learning_rate": 0.0009429024427664741,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 63121120,
+      "step": 29210
+    },
+    {
+      "epoch": 4.765905383360522,
+      "grad_norm": 0.0221620574593544,
+      "learning_rate": 0.0009428694067218473,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 63131264,
+      "step": 29215
+    },
+    {
+      "epoch": 4.766721044045677,
+      "grad_norm": 0.07446268945932388,
+      "learning_rate": 0.0009428363617019099,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 63143488,
+      "step": 29220
+    },
+    {
+      "epoch": 4.767536704730832,
+      "grad_norm": 0.1201087012887001,
+      "learning_rate": 0.0009428033077073319,
+      "loss": 0.2029,
+      "num_input_tokens_seen": 63154080,
+      "step": 29225
+    },
+    {
+      "epoch": 4.768352365415987,
+      "grad_norm": 0.05503406375646591,
+      "learning_rate": 0.0009427702447387833,
+      "loss": 0.1802,
+      "num_input_tokens_seen": 63165728,
+      "step": 29230
+    },
+    {
+      "epoch": 4.769168026101142,
+      "grad_norm": 0.0661977156996727,
+      "learning_rate": 0.0009427371727969338,
+      "loss": 0.168,
+      "num_input_tokens_seen": 63176224,
+      "step": 29235
+    },
+    {
+      "epoch": 4.769983686786297,
+      "grad_norm": 0.01881541684269905,
+      "learning_rate": 0.000942704091882454,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 63185792,
+      "step": 29240
+    },
+    {
+      "epoch": 4.770799347471452,
+      "grad_norm": 0.05708598718047142,
+      "learning_rate": 0.0009426710019960141,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 63196800,
+      "step": 29245
+    },
+    {
+      "epoch": 4.771615008156607,
+      "grad_norm": 0.0396232083439827,
+      "learning_rate": 0.0009426379031382848,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 63207744,
+      "step": 29250
+    },
+    {
+      "epoch": 4.7724306688417615,
+      "grad_norm": 0.037397295236587524,
+      "learning_rate": 0.0009426047953099368,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 63219712,
+      "step": 29255
+    },
+    {
+      "epoch": 4.773246329526917,
+      "grad_norm": 0.246902734041214,
+      "learning_rate": 0.0009425716785116412,
+      "loss": 0.3137,
+      "num_input_tokens_seen": 63229408,
+      "step": 29260
+    },
+    {
+      "epoch": 4.774061990212072,
+      "grad_norm": 0.0640609934926033,
+      "learning_rate": 0.0009425385527440691,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 63239424,
+      "step": 29265
+    },
+    {
+      "epoch": 4.774877650897227,
+      "grad_norm": 0.012092667631804943,
+      "learning_rate": 0.0009425054180078917,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 63251232,
+      "step": 29270
+    },
+    {
+      "epoch": 4.775693311582382,
+      "grad_norm": 0.03524189069867134,
+      "learning_rate": 0.0009424722743037808,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 63263584,
+      "step": 29275
+    },
+    {
+      "epoch": 4.7765089722675365,
+      "grad_norm": 0.04715615138411522,
+      "learning_rate": 0.0009424391216324078,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 63273376,
+      "step": 29280
+    },
+    {
+      "epoch": 4.777324632952691,
+      "grad_norm": 0.029380058869719505,
+      "learning_rate": 0.0009424059599944449,
+      "loss": 0.085,
+      "num_input_tokens_seen": 63282176,
+      "step": 29285
+    },
+    {
+      "epoch": 4.778140293637847,
+      "grad_norm": 0.21220123767852783,
+      "learning_rate": 0.0009423727893905638,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 63293440,
+      "step": 29290
+    },
+    {
+      "epoch": 4.778955954323002,
+      "grad_norm": 0.2774854600429535,
+      "learning_rate": 0.0009423396098214372,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 63303136,
+      "step": 29295
+    },
+    {
+      "epoch": 4.779771615008157,
+      "grad_norm": 0.3588896691799164,
+      "learning_rate": 0.0009423064212877371,
+      "loss": 0.311,
+      "num_input_tokens_seen": 63314944,
+      "step": 29300
+    },
+    {
+      "epoch": 4.780587275693311,
+      "grad_norm": 0.18132130801677704,
+      "learning_rate": 0.0009422732237901361,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 63324736,
+      "step": 29305
+    },
+    {
+      "epoch": 4.781402936378466,
+      "grad_norm": 0.1575162261724472,
+      "learning_rate": 0.0009422400173293073,
+      "loss": 0.1672,
+      "num_input_tokens_seen": 63334880,
+      "step": 29310
+    },
+    {
+      "epoch": 4.782218597063622,
+      "grad_norm": 0.29085320234298706,
+      "learning_rate": 0.0009422068019059235,
+      "loss": 0.2645,
+      "num_input_tokens_seen": 63346336,
+      "step": 29315
+    },
+    {
+      "epoch": 4.783034257748777,
+      "grad_norm": 0.2051205039024353,
+      "learning_rate": 0.0009421735775206582,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 63357088,
+      "step": 29320
+    },
+    {
+      "epoch": 4.783849918433932,
+      "grad_norm": 0.18533475697040558,
+      "learning_rate": 0.000942140344174184,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 63368512,
+      "step": 29325
+    },
+    {
+      "epoch": 4.784665579119086,
+      "grad_norm": 0.05170245096087456,
+      "learning_rate": 0.0009421071018671749,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 63380288,
+      "step": 29330
+    },
+    {
+      "epoch": 4.785481239804241,
+      "grad_norm": 0.032106757164001465,
+      "learning_rate": 0.0009420738506003047,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 63391808,
+      "step": 29335
+    },
+    {
+      "epoch": 4.786296900489396,
+      "grad_norm": 0.009413869120180607,
+      "learning_rate": 0.0009420405903742471,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 63402528,
+      "step": 29340
+    },
+    {
+      "epoch": 4.787112561174552,
+      "grad_norm": 0.14599008858203888,
+      "learning_rate": 0.000942007321189676,
+      "loss": 0.1658,
+      "num_input_tokens_seen": 63414368,
+      "step": 29345
+    },
+    {
+      "epoch": 4.787928221859707,
+      "grad_norm": 0.29077810049057007,
+      "learning_rate": 0.0009419740430472659,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 63424896,
+      "step": 29350
+    },
+    {
+      "epoch": 4.788743882544861,
+      "grad_norm": 0.04795224219560623,
+      "learning_rate": 0.0009419407559476911,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 63435200,
+      "step": 29355
+    },
+    {
+      "epoch": 4.789559543230016,
+      "grad_norm": 0.23997856676578522,
+      "learning_rate": 0.0009419074598916262,
+      "loss": 0.1989,
+      "num_input_tokens_seen": 63444960,
+      "step": 29360
+    },
+    {
+      "epoch": 4.790375203915171,
+      "grad_norm": 0.2853996753692627,
+      "learning_rate": 0.0009418741548797462,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 63455520,
+      "step": 29365
+    },
+    {
+      "epoch": 4.791190864600326,
+      "grad_norm": 0.08539510518312454,
+      "learning_rate": 0.0009418408409127257,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 63466784,
+      "step": 29370
+    },
+    {
+      "epoch": 4.7920065252854815,
+      "grad_norm": 0.1659606695175171,
+      "learning_rate": 0.0009418075179912402,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 63477664,
+      "step": 29375
+    },
+    {
+      "epoch": 4.792822185970636,
+      "grad_norm": 0.10241387784481049,
+      "learning_rate": 0.0009417741861159648,
+      "loss": 0.09,
+      "num_input_tokens_seen": 63488864,
+      "step": 29380
+    },
+    {
+      "epoch": 4.793637846655791,
+      "grad_norm": 0.25465595722198486,
+      "learning_rate": 0.0009417408452875751,
+      "loss": 0.1875,
+      "num_input_tokens_seen": 63500000,
+      "step": 29385
+    },
+    {
+      "epoch": 4.794453507340946,
+      "grad_norm": 0.013809128664433956,
+      "learning_rate": 0.0009417074955067467,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 63511424,
+      "step": 29390
+    },
+    {
+      "epoch": 4.795269168026101,
+      "grad_norm": 0.04915191978216171,
+      "learning_rate": 0.0009416741367741557,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 63521216,
+      "step": 29395
+    },
+    {
+      "epoch": 4.7960848287112565,
+      "grad_norm": 0.26613113284111023,
+      "learning_rate": 0.0009416407690904778,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 63531488,
+      "step": 29400
+    },
+    {
+      "epoch": 4.796900489396411,
+      "grad_norm": 0.012351097539067268,
+      "learning_rate": 0.0009416073924563897,
+      "loss": 0.079,
+      "num_input_tokens_seen": 63542784,
+      "step": 29405
+    },
+    {
+      "epoch": 4.797716150081566,
+      "grad_norm": 0.005100678652524948,
+      "learning_rate": 0.0009415740068725674,
+      "loss": 0.06,
+      "num_input_tokens_seen": 63554240,
+      "step": 29410
+    },
+    {
+      "epoch": 4.798531810766721,
+      "grad_norm": 0.2662050127983093,
+      "learning_rate": 0.0009415406123396878,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 63566208,
+      "step": 29415
+    },
+    {
+      "epoch": 4.799347471451876,
+      "grad_norm": 0.2572949230670929,
+      "learning_rate": 0.0009415072088584275,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 63576640,
+      "step": 29420
+    },
+    {
+      "epoch": 4.800163132137031,
+      "grad_norm": 0.5557500720024109,
+      "learning_rate": 0.0009414737964294635,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 63587264,
+      "step": 29425
+    },
+    {
+      "epoch": 4.800978792822186,
+      "grad_norm": 0.05724980682134628,
+      "learning_rate": 0.0009414403750534731,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 63597824,
+      "step": 29430
+    },
+    {
+      "epoch": 4.801794453507341,
+      "grad_norm": 0.007257545366883278,
+      "learning_rate": 0.0009414069447311333,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 63608896,
+      "step": 29435
+    },
+    {
+      "epoch": 4.802610114192496,
+      "grad_norm": 0.12548641860485077,
+      "learning_rate": 0.0009413735054631218,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 63619840,
+      "step": 29440
+    },
+    {
+      "epoch": 4.803425774877651,
+      "grad_norm": 0.022364402189850807,
+      "learning_rate": 0.0009413400572501164,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 63630112,
+      "step": 29445
+    },
+    {
+      "epoch": 4.804241435562806,
+      "grad_norm": 0.13613943755626678,
+      "learning_rate": 0.0009413066000927948,
+      "loss": 0.037,
+      "num_input_tokens_seen": 63640384,
+      "step": 29450
+    },
+    {
+      "epoch": 4.80505709624796,
+      "grad_norm": 0.06001855060458183,
+      "learning_rate": 0.0009412731339918353,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 63650752,
+      "step": 29455
+    },
+    {
+      "epoch": 4.805872756933116,
+      "grad_norm": 0.08017107099294662,
+      "learning_rate": 0.0009412396589479157,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 63660544,
+      "step": 29460
+    },
+    {
+      "epoch": 4.806688417618271,
+      "grad_norm": 0.007623352110385895,
+      "learning_rate": 0.0009412061749617147,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 63671328,
+      "step": 29465
+    },
+    {
+      "epoch": 4.807504078303426,
+      "grad_norm": 0.08126839250326157,
+      "learning_rate": 0.0009411726820339109,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 63682304,
+      "step": 29470
+    },
+    {
+      "epoch": 4.808319738988581,
+      "grad_norm": 0.02001064084470272,
+      "learning_rate": 0.000941139180165183,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 63692608,
+      "step": 29475
+    },
+    {
+      "epoch": 4.809135399673735,
+      "grad_norm": 0.010059705004096031,
+      "learning_rate": 0.0009411056693562101,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 63704448,
+      "step": 29480
+    },
+    {
+      "epoch": 4.809951060358891,
+      "grad_norm": 0.10895252227783203,
+      "learning_rate": 0.000941072149607671,
+      "loss": 0.2122,
+      "num_input_tokens_seen": 63714848,
+      "step": 29485
+    },
+    {
+      "epoch": 4.810766721044046,
+      "grad_norm": 0.02574615553021431,
+      "learning_rate": 0.0009410386209202455,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 63726336,
+      "step": 29490
+    },
+    {
+      "epoch": 4.811582381729201,
+      "grad_norm": 0.00544143607839942,
+      "learning_rate": 0.0009410050832946127,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 63737792,
+      "step": 29495
+    },
+    {
+      "epoch": 4.8123980424143555,
+      "grad_norm": 0.03158778324723244,
+      "learning_rate": 0.0009409715367314527,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 63748256,
+      "step": 29500
+    },
+    {
+      "epoch": 4.81321370309951,
+      "grad_norm": 0.1094653531908989,
+      "learning_rate": 0.0009409379812314447,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 63758432,
+      "step": 29505
+    },
+    {
+      "epoch": 4.814029363784666,
+      "grad_norm": 0.0789109617471695,
+      "learning_rate": 0.0009409044167952694,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 63767744,
+      "step": 29510
+    },
+    {
+      "epoch": 4.814845024469821,
+      "grad_norm": 0.3024810254573822,
+      "learning_rate": 0.0009408708434236066,
+      "loss": 0.1406,
+      "num_input_tokens_seen": 63779648,
+      "step": 29515
+    },
+    {
+      "epoch": 4.815660685154976,
+      "grad_norm": 0.028889697045087814,
+      "learning_rate": 0.000940837261117137,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 63790368,
+      "step": 29520
+    },
+    {
+      "epoch": 4.8164763458401305,
+      "grad_norm": 0.009988417848944664,
+      "learning_rate": 0.000940803669876541,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 63801536,
+      "step": 29525
+    },
+    {
+      "epoch": 4.817292006525285,
+      "grad_norm": 0.03842491656541824,
+      "learning_rate": 0.0009407700697024995,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 63812224,
+      "step": 29530
+    },
+    {
+      "epoch": 4.81810766721044,
+      "grad_norm": 0.12616626918315887,
+      "learning_rate": 0.0009407364605956933,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 63823520,
+      "step": 29535
+    },
+    {
+      "epoch": 4.818923327895595,
+      "grad_norm": 0.24169041216373444,
+      "learning_rate": 0.0009407028425568036,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 63835808,
+      "step": 29540
+    },
+    {
+      "epoch": 4.819738988580751,
+      "grad_norm": 0.3266375958919525,
+      "learning_rate": 0.0009406692155865117,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 63846528,
+      "step": 29545
+    },
+    {
+      "epoch": 4.8205546492659055,
+      "grad_norm": 0.0059782578609883785,
+      "learning_rate": 0.0009406355796854993,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 63857760,
+      "step": 29550
+    },
+    {
+      "epoch": 4.82137030995106,
+      "grad_norm": 0.13781596720218658,
+      "learning_rate": 0.0009406019348544478,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 63867840,
+      "step": 29555
+    },
+    {
+      "epoch": 4.822185970636215,
+      "grad_norm": 0.005153140053153038,
+      "learning_rate": 0.000940568281094039,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 63878848,
+      "step": 29560
+    },
+    {
+      "epoch": 4.82300163132137,
+      "grad_norm": 0.012185310013592243,
+      "learning_rate": 0.0009405346184049552,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 63890816,
+      "step": 29565
+    },
+    {
+      "epoch": 4.823817292006526,
+      "grad_norm": 0.2665148377418518,
+      "learning_rate": 0.0009405009467878787,
+      "loss": 0.1471,
+      "num_input_tokens_seen": 63901632,
+      "step": 29570
+    },
+    {
+      "epoch": 4.8246329526916805,
+      "grad_norm": 0.3611166775226593,
+      "learning_rate": 0.0009404672662434914,
+      "loss": 0.2292,
+      "num_input_tokens_seen": 63911520,
+      "step": 29575
+    },
+    {
+      "epoch": 4.825448613376835,
+      "grad_norm": 0.11029206961393356,
+      "learning_rate": 0.0009404335767724763,
+      "loss": 0.2225,
+      "num_input_tokens_seen": 63922176,
+      "step": 29580
+    },
+    {
+      "epoch": 4.82626427406199,
+      "grad_norm": 0.09035732597112656,
+      "learning_rate": 0.000940399878375516,
+      "loss": 0.2299,
+      "num_input_tokens_seen": 63932544,
+      "step": 29585
+    },
+    {
+      "epoch": 4.827079934747145,
+      "grad_norm": 0.055607203394174576,
+      "learning_rate": 0.0009403661710532936,
+      "loss": 0.103,
+      "num_input_tokens_seen": 63944032,
+      "step": 29590
+    },
+    {
+      "epoch": 4.827895595432301,
+      "grad_norm": 0.04743117094039917,
+      "learning_rate": 0.0009403324548064919,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 63955968,
+      "step": 29595
+    },
+    {
+      "epoch": 4.828711256117455,
+      "grad_norm": 0.0531173013150692,
+      "learning_rate": 0.0009402987296357946,
+      "loss": 0.0851,
+      "num_input_tokens_seen": 63967136,
+      "step": 29600
+    },
+    {
+      "epoch": 4.82952691680261,
+      "grad_norm": 0.0809497982263565,
+      "learning_rate": 0.0009402649955418848,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 63977728,
+      "step": 29605
+    },
+    {
+      "epoch": 4.830342577487765,
+      "grad_norm": 0.07989180833101273,
+      "learning_rate": 0.0009402312525254464,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 63988256,
+      "step": 29610
+    },
+    {
+      "epoch": 4.83115823817292,
+      "grad_norm": 0.07448780536651611,
+      "learning_rate": 0.0009401975005871632,
+      "loss": 0.2039,
+      "num_input_tokens_seen": 63998400,
+      "step": 29615
+    },
+    {
+      "epoch": 4.831973898858075,
+      "grad_norm": 0.26234593987464905,
+      "learning_rate": 0.0009401637397277193,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 64009312,
+      "step": 29620
+    },
+    {
+      "epoch": 4.8327895595432295,
+      "grad_norm": 0.1408432275056839,
+      "learning_rate": 0.0009401299699477988,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 64020192,
+      "step": 29625
+    },
+    {
+      "epoch": 4.833605220228385,
+      "grad_norm": 0.20116648077964783,
+      "learning_rate": 0.0009400961912480861,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 64032352,
+      "step": 29630
+    },
+    {
+      "epoch": 4.83442088091354,
+      "grad_norm": 0.044378455728292465,
+      "learning_rate": 0.0009400624036292657,
+      "loss": 0.072,
+      "num_input_tokens_seen": 64043360,
+      "step": 29635
+    },
+    {
+      "epoch": 4.835236541598695,
+      "grad_norm": 0.06201139837503433,
+      "learning_rate": 0.0009400286070920226,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 64053952,
+      "step": 29640
+    },
+    {
+      "epoch": 4.83605220228385,
+      "grad_norm": 0.08605514466762543,
+      "learning_rate": 0.0009399948016370415,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 64063424,
+      "step": 29645
+    },
+    {
+      "epoch": 4.8368678629690045,
+      "grad_norm": 0.07138156145811081,
+      "learning_rate": 0.0009399609872650075,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 64073568,
+      "step": 29650
+    },
+    {
+      "epoch": 4.83768352365416,
+      "grad_norm": 0.07217609882354736,
+      "learning_rate": 0.000939927163976606,
+      "loss": 0.1953,
+      "num_input_tokens_seen": 64084704,
+      "step": 29655
+    },
+    {
+      "epoch": 4.838499184339315,
+      "grad_norm": 0.0773155689239502,
+      "learning_rate": 0.0009398933317725225,
+      "loss": 0.231,
+      "num_input_tokens_seen": 64095200,
+      "step": 29660
+    },
+    {
+      "epoch": 4.83931484502447,
+      "grad_norm": 0.10701734572649002,
+      "learning_rate": 0.0009398594906534424,
+      "loss": 0.1688,
+      "num_input_tokens_seen": 64105728,
+      "step": 29665
+    },
+    {
+      "epoch": 4.840130505709625,
+      "grad_norm": 0.24366922676563263,
+      "learning_rate": 0.0009398256406200518,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 64116544,
+      "step": 29670
+    },
+    {
+      "epoch": 4.8409461663947795,
+      "grad_norm": 0.06484881788492203,
+      "learning_rate": 0.0009397917816730368,
+      "loss": 0.106,
+      "num_input_tokens_seen": 64128064,
+      "step": 29675
+    },
+    {
+      "epoch": 4.841761827079935,
+      "grad_norm": 0.14218920469284058,
+      "learning_rate": 0.0009397579138130832,
+      "loss": 0.1686,
+      "num_input_tokens_seen": 64139328,
+      "step": 29680
+    },
+    {
+      "epoch": 4.84257748776509,
+      "grad_norm": 0.1667938232421875,
+      "learning_rate": 0.0009397240370408777,
+      "loss": 0.1401,
+      "num_input_tokens_seen": 64148992,
+      "step": 29685
+    },
+    {
+      "epoch": 4.843393148450245,
+      "grad_norm": 0.06840559095144272,
+      "learning_rate": 0.0009396901513571068,
+      "loss": 0.2409,
+      "num_input_tokens_seen": 64159232,
+      "step": 29690
+    },
+    {
+      "epoch": 4.8442088091354,
+      "grad_norm": 0.04041779041290283,
+      "learning_rate": 0.0009396562567624572,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 64169728,
+      "step": 29695
+    },
+    {
+      "epoch": 4.8450244698205545,
+      "grad_norm": 0.1621711403131485,
+      "learning_rate": 0.0009396223532576159,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 64181760,
+      "step": 29700
+    },
+    {
+      "epoch": 4.845840130505709,
+      "grad_norm": 0.03825107589364052,
+      "learning_rate": 0.0009395884408432696,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 64192480,
+      "step": 29705
+    },
+    {
+      "epoch": 4.846655791190865,
+      "grad_norm": 0.0052245259284973145,
+      "learning_rate": 0.0009395545195201062,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 64203008,
+      "step": 29710
+    },
+    {
+      "epoch": 4.84747145187602,
+      "grad_norm": 0.031087854877114296,
+      "learning_rate": 0.0009395205892888126,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 64213696,
+      "step": 29715
+    },
+    {
+      "epoch": 4.848287112561175,
+      "grad_norm": 0.02025986835360527,
+      "learning_rate": 0.0009394866501500769,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 64222784,
+      "step": 29720
+    },
+    {
+      "epoch": 4.849102773246329,
+      "grad_norm": 0.017888156697154045,
+      "learning_rate": 0.0009394527021045866,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 64233312,
+      "step": 29725
+    },
+    {
+      "epoch": 4.849918433931484,
+      "grad_norm": 0.030029356479644775,
+      "learning_rate": 0.0009394187451530298,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 64245056,
+      "step": 29730
+    },
+    {
+      "epoch": 4.850734094616639,
+      "grad_norm": 0.16684281826019287,
+      "learning_rate": 0.0009393847792960948,
+      "loss": 0.1564,
+      "num_input_tokens_seen": 64256032,
+      "step": 29735
+    },
+    {
+      "epoch": 4.851549755301795,
+      "grad_norm": 0.028144538402557373,
+      "learning_rate": 0.0009393508045344697,
+      "loss": 0.097,
+      "num_input_tokens_seen": 64266848,
+      "step": 29740
+    },
+    {
+      "epoch": 4.85236541598695,
+      "grad_norm": 0.17019401490688324,
+      "learning_rate": 0.0009393168208688432,
+      "loss": 0.116,
+      "num_input_tokens_seen": 64276448,
+      "step": 29745
+    },
+    {
+      "epoch": 4.853181076672104,
+      "grad_norm": 0.01753625087440014,
+      "learning_rate": 0.0009392828282999042,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 64288000,
+      "step": 29750
+    },
+    {
+      "epoch": 4.853996737357259,
+      "grad_norm": 0.05499972775578499,
+      "learning_rate": 0.0009392488268283412,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 64299104,
+      "step": 29755
+    },
+    {
+      "epoch": 4.854812398042414,
+      "grad_norm": 0.02356194145977497,
+      "learning_rate": 0.0009392148164548436,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 64310880,
+      "step": 29760
+    },
+    {
+      "epoch": 4.85562805872757,
+      "grad_norm": 0.23860061168670654,
+      "learning_rate": 0.0009391807971801005,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 64321696,
+      "step": 29765
+    },
+    {
+      "epoch": 4.856443719412725,
+      "grad_norm": 0.02195931412279606,
+      "learning_rate": 0.0009391467690048014,
+      "loss": 0.067,
+      "num_input_tokens_seen": 64332544,
+      "step": 29770
+    },
+    {
+      "epoch": 4.857259380097879,
+      "grad_norm": 0.08725380897521973,
+      "learning_rate": 0.000939112731929636,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 64344640,
+      "step": 29775
+    },
+    {
+      "epoch": 4.858075040783034,
+      "grad_norm": 0.17282482981681824,
+      "learning_rate": 0.000939078685955294,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 64356608,
+      "step": 29780
+    },
+    {
+      "epoch": 4.858890701468189,
+      "grad_norm": 0.030611051246523857,
+      "learning_rate": 0.0009390446310824654,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 64366592,
+      "step": 29785
+    },
+    {
+      "epoch": 4.859706362153344,
+      "grad_norm": 0.006273448932915926,
+      "learning_rate": 0.0009390105673118405,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 64378560,
+      "step": 29790
+    },
+    {
+      "epoch": 4.8605220228384995,
+      "grad_norm": 0.2683796286582947,
+      "learning_rate": 0.0009389764946441094,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 64389664,
+      "step": 29795
+    },
+    {
+      "epoch": 4.861337683523654,
+      "grad_norm": 0.07152576744556427,
+      "learning_rate": 0.0009389424130799628,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 64400544,
+      "step": 29800
+    },
+    {
+      "epoch": 4.862153344208809,
+      "grad_norm": 0.08048900961875916,
+      "learning_rate": 0.0009389083226200914,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 64411744,
+      "step": 29805
+    },
+    {
+      "epoch": 4.862969004893964,
+      "grad_norm": 0.07328837364912033,
+      "learning_rate": 0.0009388742232651859,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 64421440,
+      "step": 29810
+    },
+    {
+      "epoch": 4.863784665579119,
+      "grad_norm": 0.038748499006032944,
+      "learning_rate": 0.0009388401150159377,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 64432256,
+      "step": 29815
+    },
+    {
+      "epoch": 4.864600326264274,
+      "grad_norm": 0.02115444466471672,
+      "learning_rate": 0.0009388059978730377,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 64442688,
+      "step": 29820
+    },
+    {
+      "epoch": 4.865415986949429,
+      "grad_norm": 0.022876601666212082,
+      "learning_rate": 0.0009387718718371776,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 64453792,
+      "step": 29825
+    },
+    {
+      "epoch": 4.866231647634584,
+      "grad_norm": 0.016570046544075012,
+      "learning_rate": 0.0009387377369090489,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 64465248,
+      "step": 29830
+    },
+    {
+      "epoch": 4.867047308319739,
+      "grad_norm": 0.024501780048012733,
+      "learning_rate": 0.0009387035930893433,
+      "loss": 0.024,
+      "num_input_tokens_seen": 64477792,
+      "step": 29835
+    },
+    {
+      "epoch": 4.867862969004894,
+      "grad_norm": 0.015719836577773094,
+      "learning_rate": 0.0009386694403787529,
+      "loss": 0.1272,
+      "num_input_tokens_seen": 64489824,
+      "step": 29840
+    },
+    {
+      "epoch": 4.868678629690049,
+      "grad_norm": 0.4363064467906952,
+      "learning_rate": 0.0009386352787779697,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 64501248,
+      "step": 29845
+    },
+    {
+      "epoch": 4.869494290375204,
+      "grad_norm": 0.02297714538872242,
+      "learning_rate": 0.0009386011082876863,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 64513088,
+      "step": 29850
+    },
+    {
+      "epoch": 4.870309951060359,
+      "grad_norm": 0.04365037381649017,
+      "learning_rate": 0.000938566928908595,
+      "loss": 0.127,
+      "num_input_tokens_seen": 64524096,
+      "step": 29855
+    },
+    {
+      "epoch": 4.871125611745514,
+      "grad_norm": 0.01078298594802618,
+      "learning_rate": 0.0009385327406413883,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 64534944,
+      "step": 29860
+    },
+    {
+      "epoch": 4.871941272430669,
+      "grad_norm": 0.07390675693750381,
+      "learning_rate": 0.0009384985434867597,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 64546464,
+      "step": 29865
+    },
+    {
+      "epoch": 4.872756933115824,
+      "grad_norm": 0.016646305099129677,
+      "learning_rate": 0.0009384643374454014,
+      "loss": 0.023,
+      "num_input_tokens_seen": 64558464,
+      "step": 29870
+    },
+    {
+      "epoch": 4.873572593800979,
+      "grad_norm": 0.03762689605355263,
+      "learning_rate": 0.0009384301225180074,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 64568864,
+      "step": 29875
+    },
+    {
+      "epoch": 4.874388254486134,
+      "grad_norm": 0.0683576911687851,
+      "learning_rate": 0.0009383958987052706,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 64580192,
+      "step": 29880
+    },
+    {
+      "epoch": 4.875203915171289,
+      "grad_norm": 0.0032370425760746002,
+      "learning_rate": 0.0009383616660078849,
+      "loss": 0.2725,
+      "num_input_tokens_seen": 64589632,
+      "step": 29885
+    },
+    {
+      "epoch": 4.876019575856444,
+      "grad_norm": 0.01514100655913353,
+      "learning_rate": 0.0009383274244265438,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 64600192,
+      "step": 29890
+    },
+    {
+      "epoch": 4.876835236541599,
+      "grad_norm": 0.06531043350696564,
+      "learning_rate": 0.0009382931739619416,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 64610656,
+      "step": 29895
+    },
+    {
+      "epoch": 4.877650897226753,
+      "grad_norm": 0.058074701577425,
+      "learning_rate": 0.000938258914614772,
+      "loss": 0.0522,
+      "num_input_tokens_seen": 64621728,
+      "step": 29900
+    },
+    {
+      "epoch": 4.878466557911908,
+      "grad_norm": 0.015192513354122639,
+      "learning_rate": 0.0009382246463857295,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 64633024,
+      "step": 29905
+    },
+    {
+      "epoch": 4.879282218597064,
+      "grad_norm": 0.07241601496934891,
+      "learning_rate": 0.0009381903692755087,
+      "loss": 0.1767,
+      "num_input_tokens_seen": 64644480,
+      "step": 29910
+    },
+    {
+      "epoch": 4.880097879282219,
+      "grad_norm": 0.0064300913363695145,
+      "learning_rate": 0.0009381560832848043,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 64655520,
+      "step": 29915
+    },
+    {
+      "epoch": 4.8809135399673735,
+      "grad_norm": 0.2770669162273407,
+      "learning_rate": 0.0009381217884143109,
+      "loss": 0.2039,
+      "num_input_tokens_seen": 64667392,
+      "step": 29920
+    },
+    {
+      "epoch": 4.881729200652528,
+      "grad_norm": 0.09652873128652573,
+      "learning_rate": 0.0009380874846647236,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 64678528,
+      "step": 29925
+    },
+    {
+      "epoch": 4.882544861337683,
+      "grad_norm": 0.06691589951515198,
+      "learning_rate": 0.0009380531720367378,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 64689248,
+      "step": 29930
+    },
+    {
+      "epoch": 4.883360522022839,
+      "grad_norm": 0.010861546732485294,
+      "learning_rate": 0.0009380188505310488,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 64698688,
+      "step": 29935
+    },
+    {
+      "epoch": 4.884176182707994,
+      "grad_norm": 0.021841704845428467,
+      "learning_rate": 0.0009379845201483519,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 64710368,
+      "step": 29940
+    },
+    {
+      "epoch": 4.8849918433931485,
+      "grad_norm": 0.3616441488265991,
+      "learning_rate": 0.0009379501808893433,
+      "loss": 0.1891,
+      "num_input_tokens_seen": 64720416,
+      "step": 29945
+    },
+    {
+      "epoch": 4.885807504078303,
+      "grad_norm": 0.1140311136841774,
+      "learning_rate": 0.0009379158327547186,
+      "loss": 0.2245,
+      "num_input_tokens_seen": 64731360,
+      "step": 29950
+    },
+    {
+      "epoch": 4.886623164763458,
+      "grad_norm": 0.19789689779281616,
+      "learning_rate": 0.000937881475745174,
+      "loss": 0.1402,
+      "num_input_tokens_seen": 64740928,
+      "step": 29955
+    },
+    {
+      "epoch": 4.887438825448614,
+      "grad_norm": 0.03600520268082619,
+      "learning_rate": 0.0009378471098614059,
+      "loss": 0.062,
+      "num_input_tokens_seen": 64750784,
+      "step": 29960
+    },
+    {
+      "epoch": 4.888254486133769,
+      "grad_norm": 0.23173433542251587,
+      "learning_rate": 0.0009378127351041106,
+      "loss": 0.173,
+      "num_input_tokens_seen": 64762272,
+      "step": 29965
+    },
+    {
+      "epoch": 4.8890701468189235,
+      "grad_norm": 0.1283300220966339,
+      "learning_rate": 0.0009377783514739848,
+      "loss": 0.115,
+      "num_input_tokens_seen": 64773984,
+      "step": 29970
+    },
+    {
+      "epoch": 4.889885807504078,
+      "grad_norm": 0.030921900644898415,
+      "learning_rate": 0.0009377439589717254,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 64784704,
+      "step": 29975
+    },
+    {
+      "epoch": 4.890701468189233,
+      "grad_norm": 0.022784793749451637,
+      "learning_rate": 0.0009377095575980293,
+      "loss": 0.1639,
+      "num_input_tokens_seen": 64795072,
+      "step": 29980
+    },
+    {
+      "epoch": 4.891517128874388,
+      "grad_norm": 0.0242206659168005,
+      "learning_rate": 0.0009376751473535939,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 64805888,
+      "step": 29985
+    },
+    {
+      "epoch": 4.892332789559543,
+      "grad_norm": 0.26550939679145813,
+      "learning_rate": 0.0009376407282391161,
+      "loss": 0.077,
+      "num_input_tokens_seen": 64817120,
+      "step": 29990
+    },
+    {
+      "epoch": 4.8931484502446985,
+      "grad_norm": 0.025271253660321236,
+      "learning_rate": 0.0009376063002552939,
+      "loss": 0.068,
+      "num_input_tokens_seen": 64829504,
+      "step": 29995
+    },
+    {
+      "epoch": 4.893964110929853,
+      "grad_norm": 0.02558698132634163,
+      "learning_rate": 0.0009375718634028249,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 64839488,
+      "step": 30000
+    },
+    {
+      "epoch": 4.894779771615008,
+      "grad_norm": 0.4274783730506897,
+      "learning_rate": 0.0009375374176824071,
+      "loss": 0.222,
+      "num_input_tokens_seen": 64851168,
+      "step": 30005
+    },
+    {
+      "epoch": 4.895595432300163,
+      "grad_norm": 0.028903350234031677,
+      "learning_rate": 0.0009375029630947384,
+      "loss": 0.1904,
+      "num_input_tokens_seen": 64860736,
+      "step": 30010
+    },
+    {
+      "epoch": 4.896411092985318,
+      "grad_norm": 0.012105568312108517,
+      "learning_rate": 0.000937468499640517,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 64871968,
+      "step": 30015
+    },
+    {
+      "epoch": 4.897226753670473,
+      "grad_norm": 0.2322903871536255,
+      "learning_rate": 0.0009374340273204416,
+      "loss": 0.2846,
+      "num_input_tokens_seen": 64882912,
+      "step": 30020
+    },
+    {
+      "epoch": 4.898042414355628,
+      "grad_norm": 0.06537723541259766,
+      "learning_rate": 0.0009373995461352107,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 64894272,
+      "step": 30025
+    },
+    {
+      "epoch": 4.898858075040783,
+      "grad_norm": 0.18969091773033142,
+      "learning_rate": 0.0009373650560855232,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 64904672,
+      "step": 30030
+    },
+    {
+      "epoch": 4.899673735725938,
+      "grad_norm": 0.2091660499572754,
+      "learning_rate": 0.0009373305571720779,
+      "loss": 0.1496,
+      "num_input_tokens_seen": 64915296,
+      "step": 30035
+    },
+    {
+      "epoch": 4.900489396411093,
+      "grad_norm": 0.030176764354109764,
+      "learning_rate": 0.0009372960493955741,
+      "loss": 0.1566,
+      "num_input_tokens_seen": 64927840,
+      "step": 30040
+    },
+    {
+      "epoch": 4.901305057096248,
+      "grad_norm": 0.041412852704524994,
+      "learning_rate": 0.0009372615327567111,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 64938976,
+      "step": 30045
+    },
+    {
+      "epoch": 4.902120717781403,
+      "grad_norm": 0.026320433244109154,
+      "learning_rate": 0.0009372270072561885,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 64949056,
+      "step": 30050
+    },
+    {
+      "epoch": 4.902936378466558,
+      "grad_norm": 0.023878064006567,
+      "learning_rate": 0.0009371924728947059,
+      "loss": 0.1959,
+      "num_input_tokens_seen": 64959680,
+      "step": 30055
+    },
+    {
+      "epoch": 4.903752039151713,
+      "grad_norm": 0.11372017860412598,
+      "learning_rate": 0.0009371579296729631,
+      "loss": 0.095,
+      "num_input_tokens_seen": 64971232,
+      "step": 30060
+    },
+    {
+      "epoch": 4.904567699836868,
+      "grad_norm": 0.04866662621498108,
+      "learning_rate": 0.0009371233775916604,
+      "loss": 0.1943,
+      "num_input_tokens_seen": 64983040,
+      "step": 30065
+    },
+    {
+      "epoch": 4.9053833605220225,
+      "grad_norm": 0.15420961380004883,
+      "learning_rate": 0.0009370888166514979,
+      "loss": 0.1675,
+      "num_input_tokens_seen": 64993792,
+      "step": 30070
+    },
+    {
+      "epoch": 4.906199021207177,
+      "grad_norm": 0.0190042182803154,
+      "learning_rate": 0.0009370542468531761,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 65004608,
+      "step": 30075
+    },
+    {
+      "epoch": 4.907014681892333,
+      "grad_norm": 0.03797129914164543,
+      "learning_rate": 0.0009370196681973955,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 65015360,
+      "step": 30080
+    },
+    {
+      "epoch": 4.907830342577488,
+      "grad_norm": 0.10052059590816498,
+      "learning_rate": 0.0009369850806848569,
+      "loss": 0.2176,
+      "num_input_tokens_seen": 65025216,
+      "step": 30085
+    },
+    {
+      "epoch": 4.908646003262643,
+      "grad_norm": 0.07716162502765656,
+      "learning_rate": 0.0009369504843162613,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 65036160,
+      "step": 30090
+    },
+    {
+      "epoch": 4.9094616639477975,
+      "grad_norm": 0.19943881034851074,
+      "learning_rate": 0.0009369158790923098,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 65046112,
+      "step": 30095
+    },
+    {
+      "epoch": 4.910277324632952,
+      "grad_norm": 0.03232225030660629,
+      "learning_rate": 0.0009368812650137038,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 65056960,
+      "step": 30100
+    },
+    {
+      "epoch": 4.911092985318108,
+      "grad_norm": 0.014520195312798023,
+      "learning_rate": 0.0009368466420811446,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 65067488,
+      "step": 30105
+    },
+    {
+      "epoch": 4.911908646003263,
+      "grad_norm": 0.12783744931221008,
+      "learning_rate": 0.0009368120102953341,
+      "loss": 0.138,
+      "num_input_tokens_seen": 65076768,
+      "step": 30110
+    },
+    {
+      "epoch": 4.912724306688418,
+      "grad_norm": 0.046797335147857666,
+      "learning_rate": 0.0009367773696569742,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 65088416,
+      "step": 30115
+    },
+    {
+      "epoch": 4.9135399673735725,
+      "grad_norm": 0.008519193157553673,
+      "learning_rate": 0.0009367427201667667,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 65100192,
+      "step": 30120
+    },
+    {
+      "epoch": 4.914355628058727,
+      "grad_norm": 0.14391852915287018,
+      "learning_rate": 0.000936708061825414,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 65110336,
+      "step": 30125
+    },
+    {
+      "epoch": 4.915171288743883,
+      "grad_norm": 0.19014444947242737,
+      "learning_rate": 0.0009366733946336184,
+      "loss": 0.2144,
+      "num_input_tokens_seen": 65121408,
+      "step": 30130
+    },
+    {
+      "epoch": 4.915986949429038,
+      "grad_norm": 0.040380168706178665,
+      "learning_rate": 0.0009366387185920824,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 65131584,
+      "step": 30135
+    },
+    {
+      "epoch": 4.916802610114193,
+      "grad_norm": 0.049314629286527634,
+      "learning_rate": 0.0009366040337015089,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 65143072,
+      "step": 30140
+    },
+    {
+      "epoch": 4.917618270799347,
+      "grad_norm": 0.022450562566518784,
+      "learning_rate": 0.0009365693399626009,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 65155008,
+      "step": 30145
+    },
+    {
+      "epoch": 4.918433931484502,
+      "grad_norm": 0.006674426142126322,
+      "learning_rate": 0.0009365346373760613,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 65165760,
+      "step": 30150
+    },
+    {
+      "epoch": 4.919249592169657,
+      "grad_norm": 0.007688583806157112,
+      "learning_rate": 0.0009364999259425935,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 65175808,
+      "step": 30155
+    },
+    {
+      "epoch": 4.920065252854813,
+      "grad_norm": 0.033700115978717804,
+      "learning_rate": 0.0009364652056629008,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 65186176,
+      "step": 30160
+    },
+    {
+      "epoch": 4.920880913539968,
+      "grad_norm": 0.1259598284959793,
+      "learning_rate": 0.0009364304765376872,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 65196096,
+      "step": 30165
+    },
+    {
+      "epoch": 4.921696574225122,
+      "grad_norm": 0.052267853170633316,
+      "learning_rate": 0.0009363957385676563,
+      "loss": 0.2088,
+      "num_input_tokens_seen": 65206432,
+      "step": 30170
+    },
+    {
+      "epoch": 4.922512234910277,
+      "grad_norm": 0.06683950871229172,
+      "learning_rate": 0.0009363609917535122,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 65216800,
+      "step": 30175
+    },
+    {
+      "epoch": 4.923327895595432,
+      "grad_norm": 0.08807369321584702,
+      "learning_rate": 0.000936326236095959,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 65225280,
+      "step": 30180
+    },
+    {
+      "epoch": 4.924143556280587,
+      "grad_norm": 0.1126125380396843,
+      "learning_rate": 0.0009362914715957011,
+      "loss": 0.166,
+      "num_input_tokens_seen": 65235776,
+      "step": 30185
+    },
+    {
+      "epoch": 4.924959216965743,
+      "grad_norm": 0.17967797815799713,
+      "learning_rate": 0.000936256698253443,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 65246496,
+      "step": 30190
+    },
+    {
+      "epoch": 4.925774877650897,
+      "grad_norm": 0.12007225304841995,
+      "learning_rate": 0.0009362219160698895,
+      "loss": 0.0478,
+      "num_input_tokens_seen": 65256864,
+      "step": 30195
+    },
+    {
+      "epoch": 4.926590538336052,
+      "grad_norm": 0.011540076695382595,
+      "learning_rate": 0.0009361871250457457,
+      "loss": 0.151,
+      "num_input_tokens_seen": 65268320,
+      "step": 30200
+    },
+    {
+      "epoch": 4.927406199021207,
+      "grad_norm": 0.006911895237863064,
+      "learning_rate": 0.0009361523251817161,
+      "loss": 0.1814,
+      "num_input_tokens_seen": 65279232,
+      "step": 30205
+    },
+    {
+      "epoch": 4.928221859706362,
+      "grad_norm": 0.030219666659832,
+      "learning_rate": 0.0009361175164785065,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 65289664,
+      "step": 30210
+    },
+    {
+      "epoch": 4.9290375203915175,
+      "grad_norm": 0.09913137555122375,
+      "learning_rate": 0.0009360826989368223,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 65301088,
+      "step": 30215
+    },
+    {
+      "epoch": 4.929853181076672,
+      "grad_norm": 0.01770567148923874,
+      "learning_rate": 0.0009360478725573689,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 65311328,
+      "step": 30220
+    },
+    {
+      "epoch": 4.930668841761827,
+      "grad_norm": 0.025420457124710083,
+      "learning_rate": 0.0009360130373408522,
+      "loss": 0.068,
+      "num_input_tokens_seen": 65321088,
+      "step": 30225
+    },
+    {
+      "epoch": 4.931484502446982,
+      "grad_norm": 0.284669429063797,
+      "learning_rate": 0.000935978193287978,
+      "loss": 0.1822,
+      "num_input_tokens_seen": 65332576,
+      "step": 30230
+    },
+    {
+      "epoch": 4.932300163132137,
+      "grad_norm": 0.1337418556213379,
+      "learning_rate": 0.0009359433403994529,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 65343200,
+      "step": 30235
+    },
+    {
+      "epoch": 4.933115823817292,
+      "grad_norm": 0.015668069943785667,
+      "learning_rate": 0.0009359084786759828,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 65355040,
+      "step": 30240
+    },
+    {
+      "epoch": 4.933931484502447,
+      "grad_norm": 0.037535425275564194,
+      "learning_rate": 0.0009358736081182746,
+      "loss": 0.1577,
+      "num_input_tokens_seen": 65366592,
+      "step": 30245
+    },
+    {
+      "epoch": 4.934747145187602,
+      "grad_norm": 0.19737955927848816,
+      "learning_rate": 0.0009358387287270346,
+      "loss": 0.154,
+      "num_input_tokens_seen": 65377568,
+      "step": 30250
+    },
+    {
+      "epoch": 4.935562805872757,
+      "grad_norm": 0.03458595648407936,
+      "learning_rate": 0.0009358038405029699,
+      "loss": 0.192,
+      "num_input_tokens_seen": 65388064,
+      "step": 30255
+    },
+    {
+      "epoch": 4.936378466557912,
+      "grad_norm": 0.1987319439649582,
+      "learning_rate": 0.0009357689434467875,
+      "loss": 0.141,
+      "num_input_tokens_seen": 65398816,
+      "step": 30260
+    },
+    {
+      "epoch": 4.937194127243067,
+      "grad_norm": 0.18942292034626007,
+      "learning_rate": 0.0009357340375591947,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 65409184,
+      "step": 30265
+    },
+    {
+      "epoch": 4.938009787928221,
+      "grad_norm": 0.0764419436454773,
+      "learning_rate": 0.0009356991228408988,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 65422208,
+      "step": 30270
+    },
+    {
+      "epoch": 4.938825448613377,
+      "grad_norm": 0.01329710427671671,
+      "learning_rate": 0.0009356641992926075,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 65433984,
+      "step": 30275
+    },
+    {
+      "epoch": 4.939641109298532,
+      "grad_norm": 0.0733145996928215,
+      "learning_rate": 0.0009356292669150286,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 65444864,
+      "step": 30280
+    },
+    {
+      "epoch": 4.940456769983687,
+      "grad_norm": 0.047081612050533295,
+      "learning_rate": 0.0009355943257088698,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 65456960,
+      "step": 30285
+    },
+    {
+      "epoch": 4.941272430668842,
+      "grad_norm": 0.10892040282487869,
+      "learning_rate": 0.0009355593756748395,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 65466816,
+      "step": 30290
+    },
+    {
+      "epoch": 4.942088091353996,
+      "grad_norm": 0.017515188083052635,
+      "learning_rate": 0.0009355244168136459,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 65478240,
+      "step": 30295
+    },
+    {
+      "epoch": 4.942903752039152,
+      "grad_norm": 0.014847962185740471,
+      "learning_rate": 0.0009354894491259975,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 65489408,
+      "step": 30300
+    },
+    {
+      "epoch": 4.943719412724307,
+      "grad_norm": 0.02151155099272728,
+      "learning_rate": 0.0009354544726126029,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 65499904,
+      "step": 30305
+    },
+    {
+      "epoch": 4.944535073409462,
+      "grad_norm": 0.43711721897125244,
+      "learning_rate": 0.000935419487274171,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 65510144,
+      "step": 30310
+    },
+    {
+      "epoch": 4.945350734094617,
+      "grad_norm": 0.2166256606578827,
+      "learning_rate": 0.0009353844931114108,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 65520704,
+      "step": 30315
+    },
+    {
+      "epoch": 4.946166394779771,
+      "grad_norm": 0.10503847897052765,
+      "learning_rate": 0.0009353494901250316,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 65531424,
+      "step": 30320
+    },
+    {
+      "epoch": 4.946982055464927,
+      "grad_norm": 0.3435342311859131,
+      "learning_rate": 0.0009353144783157428,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 65542272,
+      "step": 30325
+    },
+    {
+      "epoch": 4.947797716150082,
+      "grad_norm": 0.0990108996629715,
+      "learning_rate": 0.0009352794576842536,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 65553664,
+      "step": 30330
+    },
+    {
+      "epoch": 4.948613376835237,
+      "grad_norm": 0.680467963218689,
+      "learning_rate": 0.0009352444282312742,
+      "loss": 0.1843,
+      "num_input_tokens_seen": 65564992,
+      "step": 30335
+    },
+    {
+      "epoch": 4.9494290375203915,
+      "grad_norm": 0.2405286282300949,
+      "learning_rate": 0.0009352093899575143,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 65576736,
+      "step": 30340
+    },
+    {
+      "epoch": 4.950244698205546,
+      "grad_norm": 0.049668990075588226,
+      "learning_rate": 0.0009351743428636838,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 65587072,
+      "step": 30345
+    },
+    {
+      "epoch": 4.951060358890701,
+      "grad_norm": 0.026410933583974838,
+      "learning_rate": 0.0009351392869504934,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 65598400,
+      "step": 30350
+    },
+    {
+      "epoch": 4.951876019575856,
+      "grad_norm": 0.01361384242773056,
+      "learning_rate": 0.0009351042222186533,
+      "loss": 0.1572,
+      "num_input_tokens_seen": 65609024,
+      "step": 30355
+    },
+    {
+      "epoch": 4.952691680261012,
+      "grad_norm": 0.15705722570419312,
+      "learning_rate": 0.0009350691486688743,
+      "loss": 0.2538,
+      "num_input_tokens_seen": 65618368,
+      "step": 30360
+    },
+    {
+      "epoch": 4.9535073409461665,
+      "grad_norm": 0.1279543787240982,
+      "learning_rate": 0.0009350340663018668,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 65629216,
+      "step": 30365
+    },
+    {
+      "epoch": 4.954323001631321,
+      "grad_norm": 0.01910022459924221,
+      "learning_rate": 0.0009349989751183422,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 65639904,
+      "step": 30370
+    },
+    {
+      "epoch": 4.955138662316476,
+      "grad_norm": 0.014316494576632977,
+      "learning_rate": 0.0009349638751190115,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 65651936,
+      "step": 30375
+    },
+    {
+      "epoch": 4.955954323001631,
+      "grad_norm": 0.05893901363015175,
+      "learning_rate": 0.0009349287663045862,
+      "loss": 0.1634,
+      "num_input_tokens_seen": 65662848,
+      "step": 30380
+    },
+    {
+      "epoch": 4.956769983686787,
+      "grad_norm": 0.2651807367801666,
+      "learning_rate": 0.0009348936486757775,
+      "loss": 0.122,
+      "num_input_tokens_seen": 65674272,
+      "step": 30385
+    },
+    {
+      "epoch": 4.9575856443719415,
+      "grad_norm": 0.3959857225418091,
+      "learning_rate": 0.0009348585222332975,
+      "loss": 0.2737,
+      "num_input_tokens_seen": 65684288,
+      "step": 30390
+    },
+    {
+      "epoch": 4.958401305057096,
+      "grad_norm": 0.03873610496520996,
+      "learning_rate": 0.0009348233869778577,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 65694784,
+      "step": 30395
+    },
+    {
+      "epoch": 4.959216965742251,
+      "grad_norm": 0.03320920094847679,
+      "learning_rate": 0.0009347882429101706,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 65704768,
+      "step": 30400
+    },
+    {
+      "epoch": 4.960032626427406,
+      "grad_norm": 0.055013399571180344,
+      "learning_rate": 0.000934753090030948,
+      "loss": 0.3051,
+      "num_input_tokens_seen": 65715264,
+      "step": 30405
+    },
+    {
+      "epoch": 4.960848287112562,
+      "grad_norm": 0.01581265963613987,
+      "learning_rate": 0.0009347179283409027,
+      "loss": 0.084,
+      "num_input_tokens_seen": 65726624,
+      "step": 30410
+    },
+    {
+      "epoch": 4.9616639477977165,
+      "grad_norm": 0.15133565664291382,
+      "learning_rate": 0.0009346827578407468,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 65737760,
+      "step": 30415
+    },
+    {
+      "epoch": 4.962479608482871,
+      "grad_norm": 0.05148269236087799,
+      "learning_rate": 0.0009346475785311936,
+      "loss": 0.1763,
+      "num_input_tokens_seen": 65749280,
+      "step": 30420
+    },
+    {
+      "epoch": 4.963295269168026,
+      "grad_norm": 0.09984282404184341,
+      "learning_rate": 0.0009346123904129558,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 65759616,
+      "step": 30425
+    },
+    {
+      "epoch": 4.964110929853181,
+      "grad_norm": 0.03934243321418762,
+      "learning_rate": 0.0009345771934867464,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 65771104,
+      "step": 30430
+    },
+    {
+      "epoch": 4.964926590538336,
+      "grad_norm": 0.035313550382852554,
+      "learning_rate": 0.000934541987753279,
+      "loss": 0.059,
+      "num_input_tokens_seen": 65782688,
+      "step": 30435
+    },
+    {
+      "epoch": 4.9657422512234906,
+      "grad_norm": 0.037588831037282944,
+      "learning_rate": 0.0009345067732132671,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 65793408,
+      "step": 30440
+    },
+    {
+      "epoch": 4.966557911908646,
+      "grad_norm": 0.28265854716300964,
+      "learning_rate": 0.0009344715498674241,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 65805024,
+      "step": 30445
+    },
+    {
+      "epoch": 4.967373572593801,
+      "grad_norm": 0.020411711186170578,
+      "learning_rate": 0.0009344363177164639,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 65816736,
+      "step": 30450
+    },
+    {
+      "epoch": 4.968189233278956,
+      "grad_norm": 0.12036476284265518,
+      "learning_rate": 0.0009344010767611007,
+      "loss": 0.2162,
+      "num_input_tokens_seen": 65828512,
+      "step": 30455
+    },
+    {
+      "epoch": 4.969004893964111,
+      "grad_norm": 0.24372944235801697,
+      "learning_rate": 0.0009343658270020485,
+      "loss": 0.1547,
+      "num_input_tokens_seen": 65839200,
+      "step": 30460
+    },
+    {
+      "epoch": 4.9698205546492655,
+      "grad_norm": 0.04841368645429611,
+      "learning_rate": 0.000934330568440022,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 65851104,
+      "step": 30465
+    },
+    {
+      "epoch": 4.970636215334421,
+      "grad_norm": 0.04966012388467789,
+      "learning_rate": 0.0009342953010757353,
+      "loss": 0.11,
+      "num_input_tokens_seen": 65861696,
+      "step": 30470
+    },
+    {
+      "epoch": 4.971451876019576,
+      "grad_norm": 0.19069804251194,
+      "learning_rate": 0.0009342600249099036,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 65871264,
+      "step": 30475
+    },
+    {
+      "epoch": 4.972267536704731,
+      "grad_norm": 0.048126090317964554,
+      "learning_rate": 0.0009342247399432414,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 65882816,
+      "step": 30480
+    },
+    {
+      "epoch": 4.973083197389886,
+      "grad_norm": 0.020289182662963867,
+      "learning_rate": 0.0009341894461764641,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 65892576,
+      "step": 30485
+    },
+    {
+      "epoch": 4.9738988580750405,
+      "grad_norm": 0.03914694860577583,
+      "learning_rate": 0.0009341541436102868,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 65903744,
+      "step": 30490
+    },
+    {
+      "epoch": 4.974714518760196,
+      "grad_norm": 0.03482364863157272,
+      "learning_rate": 0.0009341188322454251,
+      "loss": 0.1668,
+      "num_input_tokens_seen": 65913504,
+      "step": 30495
+    },
+    {
+      "epoch": 4.975530179445351,
+      "grad_norm": 0.01898271031677723,
+      "learning_rate": 0.0009340835120825946,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 65925152,
+      "step": 30500
+    },
+    {
+      "epoch": 4.976345840130506,
+      "grad_norm": 0.10762995481491089,
+      "learning_rate": 0.0009340481831225109,
+      "loss": 0.106,
+      "num_input_tokens_seen": 65936288,
+      "step": 30505
+    },
+    {
+      "epoch": 4.977161500815661,
+      "grad_norm": 0.04676266387104988,
+      "learning_rate": 0.0009340128453658902,
+      "loss": 0.044,
+      "num_input_tokens_seen": 65947104,
+      "step": 30510
+    },
+    {
+      "epoch": 4.9779771615008155,
+      "grad_norm": 0.013631324283778667,
+      "learning_rate": 0.0009339774988134487,
+      "loss": 0.1765,
+      "num_input_tokens_seen": 65958464,
+      "step": 30515
+    },
+    {
+      "epoch": 4.97879282218597,
+      "grad_norm": 0.23239445686340332,
+      "learning_rate": 0.0009339421434659025,
+      "loss": 0.123,
+      "num_input_tokens_seen": 65970784,
+      "step": 30520
+    },
+    {
+      "epoch": 4.979608482871125,
+      "grad_norm": 0.11724288761615753,
+      "learning_rate": 0.0009339067793239682,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 65981088,
+      "step": 30525
+    },
+    {
+      "epoch": 4.980424143556281,
+      "grad_norm": 0.08179371058940887,
+      "learning_rate": 0.0009338714063883627,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 65992608,
+      "step": 30530
+    },
+    {
+      "epoch": 4.981239804241436,
+      "grad_norm": 0.06659191846847534,
+      "learning_rate": 0.0009338360246598028,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 66004416,
+      "step": 30535
+    },
+    {
+      "epoch": 4.9820554649265905,
+      "grad_norm": 0.18371257185935974,
+      "learning_rate": 0.0009338006341390053,
+      "loss": 0.3027,
+      "num_input_tokens_seen": 66014464,
+      "step": 30540
+    },
+    {
+      "epoch": 4.982871125611745,
+      "grad_norm": 0.20001915097236633,
+      "learning_rate": 0.0009337652348266879,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 66024416,
+      "step": 30545
+    },
+    {
+      "epoch": 4.9836867862969,
+      "grad_norm": 0.21984423696994781,
+      "learning_rate": 0.0009337298267235675,
+      "loss": 0.1813,
+      "num_input_tokens_seen": 66035776,
+      "step": 30550
+    },
+    {
+      "epoch": 4.984502446982056,
+      "grad_norm": 0.015670161694288254,
+      "learning_rate": 0.0009336944098303621,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 66046464,
+      "step": 30555
+    },
+    {
+      "epoch": 4.985318107667211,
+      "grad_norm": 0.0296319667249918,
+      "learning_rate": 0.0009336589841477893,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 66055680,
+      "step": 30560
+    },
+    {
+      "epoch": 4.986133768352365,
+      "grad_norm": 0.09039829671382904,
+      "learning_rate": 0.0009336235496765669,
+      "loss": 0.1786,
+      "num_input_tokens_seen": 66066944,
+      "step": 30565
+    },
+    {
+      "epoch": 4.98694942903752,
+      "grad_norm": 0.05969356372952461,
+      "learning_rate": 0.0009335881064174134,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 66077152,
+      "step": 30570
+    },
+    {
+      "epoch": 4.987765089722675,
+      "grad_norm": 0.01346441637724638,
+      "learning_rate": 0.0009335526543710466,
+      "loss": 0.367,
+      "num_input_tokens_seen": 66087712,
+      "step": 30575
+    },
+    {
+      "epoch": 4.988580750407831,
+      "grad_norm": 0.08466268330812454,
+      "learning_rate": 0.0009335171935381854,
+      "loss": 0.11,
+      "num_input_tokens_seen": 66098336,
+      "step": 30580
+    },
+    {
+      "epoch": 4.989396411092986,
+      "grad_norm": 0.07348710298538208,
+      "learning_rate": 0.0009334817239195483,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 66109184,
+      "step": 30585
+    },
+    {
+      "epoch": 4.99021207177814,
+      "grad_norm": 0.02474355883896351,
+      "learning_rate": 0.0009334462455158543,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 66120160,
+      "step": 30590
+    },
+    {
+      "epoch": 4.991027732463295,
+      "grad_norm": 0.02579125203192234,
+      "learning_rate": 0.0009334107583278222,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 66131552,
+      "step": 30595
+    },
+    {
+      "epoch": 4.99184339314845,
+      "grad_norm": 0.09439677000045776,
+      "learning_rate": 0.0009333752623561711,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 66142624,
+      "step": 30600
+    },
+    {
+      "epoch": 4.992659053833605,
+      "grad_norm": 0.0035137098748236895,
+      "learning_rate": 0.0009333397576016207,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 66153568,
+      "step": 30605
+    },
+    {
+      "epoch": 4.993474714518761,
+      "grad_norm": 0.07614894211292267,
+      "learning_rate": 0.0009333042440648903,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 66163840,
+      "step": 30610
+    },
+    {
+      "epoch": 4.994290375203915,
+      "grad_norm": 0.1604684740304947,
+      "learning_rate": 0.0009332687217466997,
+      "loss": 0.216,
+      "num_input_tokens_seen": 66173568,
+      "step": 30615
+    },
+    {
+      "epoch": 4.99510603588907,
+      "grad_norm": 0.005750894080847502,
+      "learning_rate": 0.000933233190647769,
+      "loss": 0.1232,
+      "num_input_tokens_seen": 66183136,
+      "step": 30620
+    },
+    {
+      "epoch": 4.995921696574225,
+      "grad_norm": 0.01765310950577259,
+      "learning_rate": 0.0009331976507688178,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 66194560,
+      "step": 30625
+    },
+    {
+      "epoch": 4.99673735725938,
+      "grad_norm": 0.17110048234462738,
+      "learning_rate": 0.0009331621021105668,
+      "loss": 0.1888,
+      "num_input_tokens_seen": 66205440,
+      "step": 30630
+    },
+    {
+      "epoch": 4.997553017944535,
+      "grad_norm": 0.07099224627017975,
+      "learning_rate": 0.0009331265446737364,
+      "loss": 0.195,
+      "num_input_tokens_seen": 66215616,
+      "step": 30635
+    },
+    {
+      "epoch": 4.99836867862969,
+      "grad_norm": 0.052238188683986664,
+      "learning_rate": 0.0009330909784590469,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 66226464,
+      "step": 30640
+    },
+    {
+      "epoch": 4.999184339314845,
+      "grad_norm": 0.05132593587040901,
+      "learning_rate": 0.0009330554034672194,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 66238144,
+      "step": 30645
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.16655795276165009,
+      "learning_rate": 0.0009330198196989749,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 66248576,
+      "step": 30650
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.12099920213222504,
+      "eval_runtime": 103.3952,
+      "eval_samples_per_second": 26.355,
+      "eval_steps_per_second": 6.596,
+      "num_input_tokens_seen": 66248576,
+      "step": 30650
+    },
+    {
+      "epoch": 5.000815660685155,
+      "grad_norm": 0.19292932748794556,
+      "learning_rate": 0.0009329842271550342,
+      "loss": 0.2331,
+      "num_input_tokens_seen": 66259904,
+      "step": 30655
+    },
+    {
+      "epoch": 5.00163132137031,
+      "grad_norm": 0.039342980831861496,
+      "learning_rate": 0.0009329486258361191,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 66271744,
+      "step": 30660
+    },
+    {
+      "epoch": 5.002446982055465,
+      "grad_norm": 0.11099471151828766,
+      "learning_rate": 0.0009329130157429507,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 66283072,
+      "step": 30665
+    },
+    {
+      "epoch": 5.00326264274062,
+      "grad_norm": 0.01309216022491455,
+      "learning_rate": 0.000932877396876251,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 66294784,
+      "step": 30670
+    },
+    {
+      "epoch": 5.004078303425775,
+      "grad_norm": 0.024124326184391975,
+      "learning_rate": 0.0009328417692367415,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 66305728,
+      "step": 30675
+    },
+    {
+      "epoch": 5.00489396411093,
+      "grad_norm": 0.07616019248962402,
+      "learning_rate": 0.0009328061328251445,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 66316000,
+      "step": 30680
+    },
+    {
+      "epoch": 5.005709624796085,
+      "grad_norm": 0.07263064384460449,
+      "learning_rate": 0.0009327704876421824,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 66327488,
+      "step": 30685
+    },
+    {
+      "epoch": 5.006525285481239,
+      "grad_norm": 0.010890113189816475,
+      "learning_rate": 0.000932734833688577,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 66339200,
+      "step": 30690
+    },
+    {
+      "epoch": 5.007340946166395,
+      "grad_norm": 0.034294452518224716,
+      "learning_rate": 0.0009326991709650514,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 66350944,
+      "step": 30695
+    },
+    {
+      "epoch": 5.00815660685155,
+      "grad_norm": 0.1619931310415268,
+      "learning_rate": 0.0009326634994723282,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 66362272,
+      "step": 30700
+    },
+    {
+      "epoch": 5.008972267536705,
+      "grad_norm": 0.04089265316724777,
+      "learning_rate": 0.0009326278192111304,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 66371904,
+      "step": 30705
+    },
+    {
+      "epoch": 5.00978792822186,
+      "grad_norm": 0.037255510687828064,
+      "learning_rate": 0.0009325921301821809,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 66383360,
+      "step": 30710
+    },
+    {
+      "epoch": 5.010603588907014,
+      "grad_norm": 0.023775247856974602,
+      "learning_rate": 0.000932556432386203,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 66394112,
+      "step": 30715
+    },
+    {
+      "epoch": 5.011419249592169,
+      "grad_norm": 0.004952778108417988,
+      "learning_rate": 0.0009325207258239204,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 66404992,
+      "step": 30720
+    },
+    {
+      "epoch": 5.012234910277325,
+      "grad_norm": 0.20834074914455414,
+      "learning_rate": 0.0009324850104960566,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 66415680,
+      "step": 30725
+    },
+    {
+      "epoch": 5.01305057096248,
+      "grad_norm": 0.20381319522857666,
+      "learning_rate": 0.0009324492864033354,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 66427072,
+      "step": 30730
+    },
+    {
+      "epoch": 5.013866231647635,
+      "grad_norm": 0.02317776158452034,
+      "learning_rate": 0.0009324135535464808,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 66438720,
+      "step": 30735
+    },
+    {
+      "epoch": 5.014681892332789,
+      "grad_norm": 0.162574902176857,
+      "learning_rate": 0.000932377811926217,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 66449216,
+      "step": 30740
+    },
+    {
+      "epoch": 5.015497553017944,
+      "grad_norm": 0.025656161829829216,
+      "learning_rate": 0.0009323420615432683,
+      "loss": 0.119,
+      "num_input_tokens_seen": 66460064,
+      "step": 30745
+    },
+    {
+      "epoch": 5.0163132137031,
+      "grad_norm": 0.34151774644851685,
+      "learning_rate": 0.0009323063023983593,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 66470656,
+      "step": 30750
+    },
+    {
+      "epoch": 5.017128874388255,
+      "grad_norm": 0.004854666069149971,
+      "learning_rate": 0.0009322705344922146,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 66480896,
+      "step": 30755
+    },
+    {
+      "epoch": 5.0179445350734095,
+      "grad_norm": 0.03299418091773987,
+      "learning_rate": 0.0009322347578255592,
+      "loss": 0.151,
+      "num_input_tokens_seen": 66491040,
+      "step": 30760
+    },
+    {
+      "epoch": 5.018760195758564,
+      "grad_norm": 0.07489554584026337,
+      "learning_rate": 0.0009321989723991181,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 66500640,
+      "step": 30765
+    },
+    {
+      "epoch": 5.019575856443719,
+      "grad_norm": 0.10389326512813568,
+      "learning_rate": 0.0009321631782136166,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 66509376,
+      "step": 30770
+    },
+    {
+      "epoch": 5.020391517128874,
+      "grad_norm": 0.01117030717432499,
+      "learning_rate": 0.0009321273752697798,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 66519552,
+      "step": 30775
+    },
+    {
+      "epoch": 5.02120717781403,
+      "grad_norm": 0.007174614816904068,
+      "learning_rate": 0.0009320915635683338,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 66530432,
+      "step": 30780
+    },
+    {
+      "epoch": 5.0220228384991845,
+      "grad_norm": 0.1178077757358551,
+      "learning_rate": 0.0009320557431100041,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 66543296,
+      "step": 30785
+    },
+    {
+      "epoch": 5.022838499184339,
+      "grad_norm": 0.10831668972969055,
+      "learning_rate": 0.0009320199138955165,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 66554304,
+      "step": 30790
+    },
+    {
+      "epoch": 5.023654159869494,
+      "grad_norm": 0.019279837608337402,
+      "learning_rate": 0.0009319840759255976,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 66564800,
+      "step": 30795
+    },
+    {
+      "epoch": 5.024469820554649,
+      "grad_norm": 0.03408272936940193,
+      "learning_rate": 0.0009319482292009731,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 66576800,
+      "step": 30800
+    },
+    {
+      "epoch": 5.025285481239805,
+      "grad_norm": 0.19642093777656555,
+      "learning_rate": 0.0009319123737223698,
+      "loss": 0.07,
+      "num_input_tokens_seen": 66587264,
+      "step": 30805
+    },
+    {
+      "epoch": 5.0261011419249595,
+      "grad_norm": 0.2684004008769989,
+      "learning_rate": 0.0009318765094905144,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 66598848,
+      "step": 30810
+    },
+    {
+      "epoch": 5.026916802610114,
+      "grad_norm": 0.2714649736881256,
+      "learning_rate": 0.0009318406365061336,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 66610560,
+      "step": 30815
+    },
+    {
+      "epoch": 5.027732463295269,
+      "grad_norm": 0.04261276498436928,
+      "learning_rate": 0.0009318047547699546,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 66621248,
+      "step": 30820
+    },
+    {
+      "epoch": 5.028548123980424,
+      "grad_norm": 0.281934916973114,
+      "learning_rate": 0.0009317688642827044,
+      "loss": 0.1371,
+      "num_input_tokens_seen": 66632384,
+      "step": 30825
+    },
+    {
+      "epoch": 5.029363784665579,
+      "grad_norm": 0.045836810022592545,
+      "learning_rate": 0.0009317329650451103,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 66643648,
+      "step": 30830
+    },
+    {
+      "epoch": 5.0301794453507345,
+      "grad_norm": 0.18936778604984283,
+      "learning_rate": 0.0009316970570579002,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 66654528,
+      "step": 30835
+    },
+    {
+      "epoch": 5.030995106035889,
+      "grad_norm": 0.008387645706534386,
+      "learning_rate": 0.0009316611403218013,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 66665536,
+      "step": 30840
+    },
+    {
+      "epoch": 5.031810766721044,
+      "grad_norm": 0.1754762977361679,
+      "learning_rate": 0.000931625214837542,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 66676288,
+      "step": 30845
+    },
+    {
+      "epoch": 5.032626427406199,
+      "grad_norm": 0.22303487360477448,
+      "learning_rate": 0.0009315892806058501,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 66687648,
+      "step": 30850
+    },
+    {
+      "epoch": 5.033442088091354,
+      "grad_norm": 0.11185749620199203,
+      "learning_rate": 0.0009315533376274541,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 66698112,
+      "step": 30855
+    },
+    {
+      "epoch": 5.034257748776509,
+      "grad_norm": 0.014345620758831501,
+      "learning_rate": 0.0009315173859030821,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 66709440,
+      "step": 30860
+    },
+    {
+      "epoch": 5.035073409461664,
+      "grad_norm": 0.02847551926970482,
+      "learning_rate": 0.0009314814254334627,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 66720768,
+      "step": 30865
+    },
+    {
+      "epoch": 5.035889070146819,
+      "grad_norm": 0.09638968110084534,
+      "learning_rate": 0.000931445456219325,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 66732160,
+      "step": 30870
+    },
+    {
+      "epoch": 5.036704730831974,
+      "grad_norm": 0.02057075873017311,
+      "learning_rate": 0.0009314094782613977,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 66742368,
+      "step": 30875
+    },
+    {
+      "epoch": 5.037520391517129,
+      "grad_norm": 0.05229242146015167,
+      "learning_rate": 0.0009313734915604103,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 66752832,
+      "step": 30880
+    },
+    {
+      "epoch": 5.0383360522022835,
+      "grad_norm": 0.015186270698904991,
+      "learning_rate": 0.0009313374961170917,
+      "loss": 0.062,
+      "num_input_tokens_seen": 66764032,
+      "step": 30885
+    },
+    {
+      "epoch": 5.039151712887439,
+      "grad_norm": 0.0803709402680397,
+      "learning_rate": 0.0009313014919321715,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 66774944,
+      "step": 30890
+    },
+    {
+      "epoch": 5.039967373572594,
+      "grad_norm": 0.0704301968216896,
+      "learning_rate": 0.0009312654790063795,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 66786240,
+      "step": 30895
+    },
+    {
+      "epoch": 5.040783034257749,
+      "grad_norm": 0.0323120579123497,
+      "learning_rate": 0.0009312294573404454,
+      "loss": 0.0395,
+      "num_input_tokens_seen": 66797376,
+      "step": 30900
+    },
+    {
+      "epoch": 5.041598694942904,
+      "grad_norm": 0.17087383568286896,
+      "learning_rate": 0.0009311934269350993,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 66807680,
+      "step": 30905
+    },
+    {
+      "epoch": 5.0424143556280585,
+      "grad_norm": 0.25635138154029846,
+      "learning_rate": 0.0009311573877910716,
+      "loss": 0.2143,
+      "num_input_tokens_seen": 66818336,
+      "step": 30910
+    },
+    {
+      "epoch": 5.043230016313213,
+      "grad_norm": 0.03489004820585251,
+      "learning_rate": 0.0009311213399090921,
+      "loss": 0.2087,
+      "num_input_tokens_seen": 66830240,
+      "step": 30915
+    },
+    {
+      "epoch": 5.044045676998369,
+      "grad_norm": 0.020329639315605164,
+      "learning_rate": 0.000931085283289892,
+      "loss": 0.091,
+      "num_input_tokens_seen": 66840000,
+      "step": 30920
+    },
+    {
+      "epoch": 5.044861337683524,
+      "grad_norm": 0.05295855551958084,
+      "learning_rate": 0.0009310492179342016,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 66849792,
+      "step": 30925
+    },
+    {
+      "epoch": 5.045676998368679,
+      "grad_norm": 0.04636767506599426,
+      "learning_rate": 0.0009310131438427521,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 66860384,
+      "step": 30930
+    },
+    {
+      "epoch": 5.0464926590538335,
+      "grad_norm": 0.0942985787987709,
+      "learning_rate": 0.0009309770610162744,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 66870880,
+      "step": 30935
+    },
+    {
+      "epoch": 5.047308319738988,
+      "grad_norm": 0.009630602784454823,
+      "learning_rate": 0.0009309409694555,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 66882144,
+      "step": 30940
+    },
+    {
+      "epoch": 5.048123980424143,
+      "grad_norm": 0.17799124121665955,
+      "learning_rate": 0.0009309048691611599,
+      "loss": 0.1953,
+      "num_input_tokens_seen": 66893280,
+      "step": 30945
+    },
+    {
+      "epoch": 5.048939641109299,
+      "grad_norm": 0.01871904544532299,
+      "learning_rate": 0.0009308687601339861,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 66904224,
+      "step": 30950
+    },
+    {
+      "epoch": 5.049755301794454,
+      "grad_norm": 0.07792586088180542,
+      "learning_rate": 0.0009308326423747103,
+      "loss": 0.025,
+      "num_input_tokens_seen": 66915936,
+      "step": 30955
+    },
+    {
+      "epoch": 5.0505709624796085,
+      "grad_norm": 0.048931483179330826,
+      "learning_rate": 0.0009307965158840644,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 66926432,
+      "step": 30960
+    },
+    {
+      "epoch": 5.051386623164763,
+      "grad_norm": 0.011593530885875225,
+      "learning_rate": 0.0009307603806627807,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 66937984,
+      "step": 30965
+    },
+    {
+      "epoch": 5.052202283849918,
+      "grad_norm": 0.13193394243717194,
+      "learning_rate": 0.0009307242367115914,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 66949312,
+      "step": 30970
+    },
+    {
+      "epoch": 5.053017944535074,
+      "grad_norm": 0.16529838740825653,
+      "learning_rate": 0.000930688084031229,
+      "loss": 0.1508,
+      "num_input_tokens_seen": 66960032,
+      "step": 30975
+    },
+    {
+      "epoch": 5.053833605220229,
+      "grad_norm": 0.0980365201830864,
+      "learning_rate": 0.0009306519226224262,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 66970208,
+      "step": 30980
+    },
+    {
+      "epoch": 5.054649265905383,
+      "grad_norm": 0.1277938187122345,
+      "learning_rate": 0.0009306157524859158,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 66980000,
+      "step": 30985
+    },
+    {
+      "epoch": 5.055464926590538,
+      "grad_norm": 0.21884754300117493,
+      "learning_rate": 0.000930579573622431,
+      "loss": 0.2126,
+      "num_input_tokens_seen": 66990400,
+      "step": 30990
+    },
+    {
+      "epoch": 5.056280587275693,
+      "grad_norm": 0.04518071934580803,
+      "learning_rate": 0.0009305433860327049,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 67001184,
+      "step": 30995
+    },
+    {
+      "epoch": 5.057096247960848,
+      "grad_norm": 0.01968988962471485,
+      "learning_rate": 0.0009305071897174708,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 67012640,
+      "step": 31000
+    },
+    {
+      "epoch": 5.057911908646004,
+      "grad_norm": 0.06685356050729752,
+      "learning_rate": 0.0009304709846774625,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 67023936,
+      "step": 31005
+    },
+    {
+      "epoch": 5.058727569331158,
+      "grad_norm": 0.01798919029533863,
+      "learning_rate": 0.0009304347709134136,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 67034912,
+      "step": 31010
+    },
+    {
+      "epoch": 5.059543230016313,
+      "grad_norm": 0.009535958990454674,
+      "learning_rate": 0.000930398548426058,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 67045184,
+      "step": 31015
+    },
+    {
+      "epoch": 5.060358890701468,
+      "grad_norm": 0.030188433825969696,
+      "learning_rate": 0.0009303623172161298,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 67055936,
+      "step": 31020
+    },
+    {
+      "epoch": 5.061174551386623,
+      "grad_norm": 0.06585537642240524,
+      "learning_rate": 0.0009303260772843632,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 67066528,
+      "step": 31025
+    },
+    {
+      "epoch": 5.061990212071779,
+      "grad_norm": 0.04481403902173042,
+      "learning_rate": 0.0009302898286314929,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 67077504,
+      "step": 31030
+    },
+    {
+      "epoch": 5.062805872756933,
+      "grad_norm": 0.05069199204444885,
+      "learning_rate": 0.0009302535712582532,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 67088480,
+      "step": 31035
+    },
+    {
+      "epoch": 5.063621533442088,
+      "grad_norm": 0.1780654489994049,
+      "learning_rate": 0.0009302173051653792,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 67099936,
+      "step": 31040
+    },
+    {
+      "epoch": 5.064437194127243,
+      "grad_norm": 0.22669237852096558,
+      "learning_rate": 0.0009301810303536056,
+      "loss": 0.2969,
+      "num_input_tokens_seen": 67109760,
+      "step": 31045
+    },
+    {
+      "epoch": 5.065252854812398,
+      "grad_norm": 0.08419650793075562,
+      "learning_rate": 0.0009301447468236678,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 67119840,
+      "step": 31050
+    },
+    {
+      "epoch": 5.066068515497553,
+      "grad_norm": 0.45807531476020813,
+      "learning_rate": 0.000930108454576301,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 67130304,
+      "step": 31055
+    },
+    {
+      "epoch": 5.066884176182708,
+      "grad_norm": 0.06297741830348969,
+      "learning_rate": 0.0009300721536122408,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 67140960,
+      "step": 31060
+    },
+    {
+      "epoch": 5.067699836867863,
+      "grad_norm": 0.2701318860054016,
+      "learning_rate": 0.0009300358439322228,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 67152160,
+      "step": 31065
+    },
+    {
+      "epoch": 5.068515497553018,
+      "grad_norm": 0.011515563353896141,
+      "learning_rate": 0.0009299995255369828,
+      "loss": 0.1513,
+      "num_input_tokens_seen": 67163104,
+      "step": 31070
+    },
+    {
+      "epoch": 5.069331158238173,
+      "grad_norm": 0.0866737812757492,
+      "learning_rate": 0.000929963198427257,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 67174208,
+      "step": 31075
+    },
+    {
+      "epoch": 5.070146818923328,
+      "grad_norm": 0.0019546225666999817,
+      "learning_rate": 0.0009299268626037815,
+      "loss": 0.1659,
+      "num_input_tokens_seen": 67186912,
+      "step": 31080
+    },
+    {
+      "epoch": 5.0709624796084825,
+      "grad_norm": 0.34600770473480225,
+      "learning_rate": 0.0009298905180672928,
+      "loss": 0.2018,
+      "num_input_tokens_seen": 67197952,
+      "step": 31085
+    },
+    {
+      "epoch": 5.071778140293638,
+      "grad_norm": 0.01651175133883953,
+      "learning_rate": 0.0009298541648185272,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 67208832,
+      "step": 31090
+    },
+    {
+      "epoch": 5.072593800978793,
+      "grad_norm": 0.185794860124588,
+      "learning_rate": 0.0009298178028582218,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 67219968,
+      "step": 31095
+    },
+    {
+      "epoch": 5.073409461663948,
+      "grad_norm": 0.26523634791374207,
+      "learning_rate": 0.0009297814321871133,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 67231232,
+      "step": 31100
+    },
+    {
+      "epoch": 5.074225122349103,
+      "grad_norm": 0.32514598965644836,
+      "learning_rate": 0.0009297450528059389,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 67242784,
+      "step": 31105
+    },
+    {
+      "epoch": 5.075040783034257,
+      "grad_norm": 0.12018303573131561,
+      "learning_rate": 0.0009297086647154358,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 67253440,
+      "step": 31110
+    },
+    {
+      "epoch": 5.075856443719413,
+      "grad_norm": 0.040082309395074844,
+      "learning_rate": 0.0009296722679163417,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 67263168,
+      "step": 31115
+    },
+    {
+      "epoch": 5.076672104404568,
+      "grad_norm": 0.019938020035624504,
+      "learning_rate": 0.0009296358624093937,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 67273248,
+      "step": 31120
+    },
+    {
+      "epoch": 5.077487765089723,
+      "grad_norm": 0.19098550081253052,
+      "learning_rate": 0.00092959944819533,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 67283712,
+      "step": 31125
+    },
+    {
+      "epoch": 5.078303425774878,
+      "grad_norm": 0.07549386471509933,
+      "learning_rate": 0.0009295630252748885,
+      "loss": 0.014,
+      "num_input_tokens_seen": 67293824,
+      "step": 31130
+    },
+    {
+      "epoch": 5.079119086460032,
+      "grad_norm": 0.25435495376586914,
+      "learning_rate": 0.0009295265936488076,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 67303936,
+      "step": 31135
+    },
+    {
+      "epoch": 5.079934747145187,
+      "grad_norm": 0.054433248937129974,
+      "learning_rate": 0.0009294901533178251,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 67315200,
+      "step": 31140
+    },
+    {
+      "epoch": 5.080750407830343,
+      "grad_norm": 0.14523616433143616,
+      "learning_rate": 0.0009294537042826798,
+      "loss": 0.061,
+      "num_input_tokens_seen": 67325952,
+      "step": 31145
+    },
+    {
+      "epoch": 5.081566068515498,
+      "grad_norm": 0.03600054606795311,
+      "learning_rate": 0.0009294172465441104,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 67336640,
+      "step": 31150
+    },
+    {
+      "epoch": 5.082381729200653,
+      "grad_norm": 0.1872844696044922,
+      "learning_rate": 0.0009293807801028558,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 67347776,
+      "step": 31155
+    },
+    {
+      "epoch": 5.083197389885807,
+      "grad_norm": 0.06703568249940872,
+      "learning_rate": 0.0009293443049596551,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 67359264,
+      "step": 31160
+    },
+    {
+      "epoch": 5.084013050570962,
+      "grad_norm": 0.19908444583415985,
+      "learning_rate": 0.0009293078211152473,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 67368960,
+      "step": 31165
+    },
+    {
+      "epoch": 5.084828711256117,
+      "grad_norm": 0.03559856116771698,
+      "learning_rate": 0.0009292713285703718,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 67379520,
+      "step": 31170
+    },
+    {
+      "epoch": 5.085644371941273,
+      "grad_norm": 0.11854170262813568,
+      "learning_rate": 0.0009292348273257684,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 67390272,
+      "step": 31175
+    },
+    {
+      "epoch": 5.0864600326264275,
+      "grad_norm": 0.11884764581918716,
+      "learning_rate": 0.0009291983173821765,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 67401536,
+      "step": 31180
+    },
+    {
+      "epoch": 5.087275693311582,
+      "grad_norm": 0.056827448308467865,
+      "learning_rate": 0.0009291617987403364,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 67411264,
+      "step": 31185
+    },
+    {
+      "epoch": 5.088091353996737,
+      "grad_norm": 0.0024486789479851723,
+      "learning_rate": 0.000929125271400988,
+      "loss": 0.0479,
+      "num_input_tokens_seen": 67422976,
+      "step": 31190
+    },
+    {
+      "epoch": 5.088907014681892,
+      "grad_norm": 0.14866988360881805,
+      "learning_rate": 0.0009290887353648716,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 67434720,
+      "step": 31195
+    },
+    {
+      "epoch": 5.089722675367048,
+      "grad_norm": 0.02642189897596836,
+      "learning_rate": 0.0009290521906327276,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 67446368,
+      "step": 31200
+    },
+    {
+      "epoch": 5.0905383360522025,
+      "grad_norm": 0.020417513325810432,
+      "learning_rate": 0.0009290156372052967,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 67457664,
+      "step": 31205
+    },
+    {
+      "epoch": 5.091353996737357,
+      "grad_norm": 0.036934275180101395,
+      "learning_rate": 0.0009289790750833196,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 67468416,
+      "step": 31210
+    },
+    {
+      "epoch": 5.092169657422512,
+      "grad_norm": 0.16267381608486176,
+      "learning_rate": 0.0009289425042675373,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 67479328,
+      "step": 31215
+    },
+    {
+      "epoch": 5.092985318107667,
+      "grad_norm": 0.00929997954517603,
+      "learning_rate": 0.0009289059247586911,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 67490144,
+      "step": 31220
+    },
+    {
+      "epoch": 5.093800978792822,
+      "grad_norm": 0.03489250689744949,
+      "learning_rate": 0.0009288693365575222,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 67500384,
+      "step": 31225
+    },
+    {
+      "epoch": 5.0946166394779775,
+      "grad_norm": 0.1912592649459839,
+      "learning_rate": 0.0009288327396647722,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 67511744,
+      "step": 31230
+    },
+    {
+      "epoch": 5.095432300163132,
+      "grad_norm": 0.40533021092414856,
+      "learning_rate": 0.0009287961340811826,
+      "loss": 0.2004,
+      "num_input_tokens_seen": 67522688,
+      "step": 31235
+    },
+    {
+      "epoch": 5.096247960848287,
+      "grad_norm": 0.2418777048587799,
+      "learning_rate": 0.0009287595198074955,
+      "loss": 0.2036,
+      "num_input_tokens_seen": 67533984,
+      "step": 31240
+    },
+    {
+      "epoch": 5.097063621533442,
+      "grad_norm": 0.17491726577281952,
+      "learning_rate": 0.0009287228968444527,
+      "loss": 0.2711,
+      "num_input_tokens_seen": 67545952,
+      "step": 31245
+    },
+    {
+      "epoch": 5.097879282218597,
+      "grad_norm": 0.00852019339799881,
+      "learning_rate": 0.0009286862651927966,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 67556928,
+      "step": 31250
+    },
+    {
+      "epoch": 5.0986949429037525,
+      "grad_norm": 0.10353199392557144,
+      "learning_rate": 0.0009286496248532695,
+      "loss": 0.203,
+      "num_input_tokens_seen": 67567840,
+      "step": 31255
+    },
+    {
+      "epoch": 5.099510603588907,
+      "grad_norm": 0.006339102052152157,
+      "learning_rate": 0.000928612975826614,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 67578432,
+      "step": 31260
+    },
+    {
+      "epoch": 5.100326264274062,
+      "grad_norm": 0.20576722919940948,
+      "learning_rate": 0.0009285763181135727,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 67588992,
+      "step": 31265
+    },
+    {
+      "epoch": 5.101141924959217,
+      "grad_norm": 0.10356633365154266,
+      "learning_rate": 0.0009285396517148888,
+      "loss": 0.1517,
+      "num_input_tokens_seen": 67599200,
+      "step": 31270
+    },
+    {
+      "epoch": 5.101957585644372,
+      "grad_norm": 0.2491035759449005,
+      "learning_rate": 0.000928502976631305,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 67610016,
+      "step": 31275
+    },
+    {
+      "epoch": 5.102773246329527,
+      "grad_norm": 0.0775388851761818,
+      "learning_rate": 0.0009284662928635649,
+      "loss": 0.073,
+      "num_input_tokens_seen": 67621568,
+      "step": 31280
+    },
+    {
+      "epoch": 5.103588907014682,
+      "grad_norm": 0.03371018171310425,
+      "learning_rate": 0.0009284296004124118,
+      "loss": 0.039,
+      "num_input_tokens_seen": 67631712,
+      "step": 31285
+    },
+    {
+      "epoch": 5.104404567699837,
+      "grad_norm": 0.011440278962254524,
+      "learning_rate": 0.0009283928992785894,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 67643552,
+      "step": 31290
+    },
+    {
+      "epoch": 5.105220228384992,
+      "grad_norm": 0.004816057626157999,
+      "learning_rate": 0.0009283561894628414,
+      "loss": 0.055,
+      "num_input_tokens_seen": 67653920,
+      "step": 31295
+    },
+    {
+      "epoch": 5.106035889070147,
+      "grad_norm": 0.09972722083330154,
+      "learning_rate": 0.0009283194709659117,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 67665760,
+      "step": 31300
+    },
+    {
+      "epoch": 5.1068515497553015,
+      "grad_norm": 0.011177991516888142,
+      "learning_rate": 0.0009282827437885449,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 67676320,
+      "step": 31305
+    },
+    {
+      "epoch": 5.107667210440456,
+      "grad_norm": 0.010363086126744747,
+      "learning_rate": 0.0009282460079314848,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 67687008,
+      "step": 31310
+    },
+    {
+      "epoch": 5.108482871125612,
+      "grad_norm": 0.07990599423646927,
+      "learning_rate": 0.0009282092633954759,
+      "loss": 0.1999,
+      "num_input_tokens_seen": 67698112,
+      "step": 31315
+    },
+    {
+      "epoch": 5.109298531810767,
+      "grad_norm": 0.026262901723384857,
+      "learning_rate": 0.0009281725101812632,
+      "loss": 0.086,
+      "num_input_tokens_seen": 67707552,
+      "step": 31320
+    },
+    {
+      "epoch": 5.110114192495922,
+      "grad_norm": 0.1390565186738968,
+      "learning_rate": 0.0009281357482895914,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 67718016,
+      "step": 31325
+    },
+    {
+      "epoch": 5.1109298531810765,
+      "grad_norm": 0.18929249048233032,
+      "learning_rate": 0.0009280989777212055,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 67729056,
+      "step": 31330
+    },
+    {
+      "epoch": 5.111745513866231,
+      "grad_norm": 0.015308565460145473,
+      "learning_rate": 0.0009280621984768507,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 67741024,
+      "step": 31335
+    },
+    {
+      "epoch": 5.112561174551387,
+      "grad_norm": 0.04618688300251961,
+      "learning_rate": 0.0009280254105572725,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 67751296,
+      "step": 31340
+    },
+    {
+      "epoch": 5.113376835236542,
+      "grad_norm": 0.05035729706287384,
+      "learning_rate": 0.0009279886139632163,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 67761536,
+      "step": 31345
+    },
+    {
+      "epoch": 5.114192495921697,
+      "grad_norm": 0.0054813530296087265,
+      "learning_rate": 0.000927951808695428,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 67771968,
+      "step": 31350
+    },
+    {
+      "epoch": 5.1150081566068515,
+      "grad_norm": 0.005418519489467144,
+      "learning_rate": 0.0009279149947546534,
+      "loss": 0.1719,
+      "num_input_tokens_seen": 67781376,
+      "step": 31355
+    },
+    {
+      "epoch": 5.115823817292006,
+      "grad_norm": 0.00409423653036356,
+      "learning_rate": 0.0009278781721416385,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 67793472,
+      "step": 31360
+    },
+    {
+      "epoch": 5.116639477977161,
+      "grad_norm": 0.03038191795349121,
+      "learning_rate": 0.0009278413408571295,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 67804256,
+      "step": 31365
+    },
+    {
+      "epoch": 5.117455138662317,
+      "grad_norm": 0.028354860842227936,
+      "learning_rate": 0.0009278045009018733,
+      "loss": 0.027,
+      "num_input_tokens_seen": 67814688,
+      "step": 31370
+    },
+    {
+      "epoch": 5.118270799347472,
+      "grad_norm": 0.007617499213665724,
+      "learning_rate": 0.000927767652276616,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 67824672,
+      "step": 31375
+    },
+    {
+      "epoch": 5.1190864600326265,
+      "grad_norm": 0.005120754241943359,
+      "learning_rate": 0.0009277307949821045,
+      "loss": 0.1537,
+      "num_input_tokens_seen": 67834720,
+      "step": 31380
+    },
+    {
+      "epoch": 5.119902120717781,
+      "grad_norm": 0.021448107436299324,
+      "learning_rate": 0.000927693929019086,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 67846624,
+      "step": 31385
+    },
+    {
+      "epoch": 5.120717781402936,
+      "grad_norm": 0.1250106692314148,
+      "learning_rate": 0.0009276570543883074,
+      "loss": 0.047,
+      "num_input_tokens_seen": 67855296,
+      "step": 31390
+    },
+    {
+      "epoch": 5.121533442088092,
+      "grad_norm": 0.12414438277482986,
+      "learning_rate": 0.000927620171090516,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 67866336,
+      "step": 31395
+    },
+    {
+      "epoch": 5.122349102773247,
+      "grad_norm": 0.011611179448664188,
+      "learning_rate": 0.0009275832791264593,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 67877664,
+      "step": 31400
+    },
+    {
+      "epoch": 5.123164763458401,
+      "grad_norm": 0.07134946435689926,
+      "learning_rate": 0.0009275463784968852,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 67888576,
+      "step": 31405
+    },
+    {
+      "epoch": 5.123980424143556,
+      "grad_norm": 0.06697040051221848,
+      "learning_rate": 0.0009275094692025413,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 67898880,
+      "step": 31410
+    },
+    {
+      "epoch": 5.124796084828711,
+      "grad_norm": 0.030282270163297653,
+      "learning_rate": 0.0009274725512441757,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 67908480,
+      "step": 31415
+    },
+    {
+      "epoch": 5.125611745513866,
+      "grad_norm": 0.010222107172012329,
+      "learning_rate": 0.0009274356246225364,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 67918688,
+      "step": 31420
+    },
+    {
+      "epoch": 5.126427406199022,
+      "grad_norm": 0.11597134917974472,
+      "learning_rate": 0.0009273986893383722,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 67929504,
+      "step": 31425
+    },
+    {
+      "epoch": 5.127243066884176,
+      "grad_norm": 0.004997505806386471,
+      "learning_rate": 0.000927361745392431,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 67940192,
+      "step": 31430
+    },
+    {
+      "epoch": 5.128058727569331,
+      "grad_norm": 0.10774416476488113,
+      "learning_rate": 0.0009273247927854622,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 67951072,
+      "step": 31435
+    },
+    {
+      "epoch": 5.128874388254486,
+      "grad_norm": 0.1743687093257904,
+      "learning_rate": 0.0009272878315182141,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 67961280,
+      "step": 31440
+    },
+    {
+      "epoch": 5.129690048939641,
+      "grad_norm": 0.23096045851707458,
+      "learning_rate": 0.0009272508615914363,
+      "loss": 0.123,
+      "num_input_tokens_seen": 67972224,
+      "step": 31445
+    },
+    {
+      "epoch": 5.130505709624796,
+      "grad_norm": 0.37662026286125183,
+      "learning_rate": 0.0009272138830058776,
+      "loss": 0.2525,
+      "num_input_tokens_seen": 67984256,
+      "step": 31450
+    },
+    {
+      "epoch": 5.131321370309951,
+      "grad_norm": 0.05308877304196358,
+      "learning_rate": 0.0009271768957622877,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 67994144,
+      "step": 31455
+    },
+    {
+      "epoch": 5.132137030995106,
+      "grad_norm": 0.17500479519367218,
+      "learning_rate": 0.0009271398998614162,
+      "loss": 0.1912,
+      "num_input_tokens_seen": 68004896,
+      "step": 31460
+    },
+    {
+      "epoch": 5.132952691680261,
+      "grad_norm": 0.01674867980182171,
+      "learning_rate": 0.0009271028953040126,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 68015456,
+      "step": 31465
+    },
+    {
+      "epoch": 5.133768352365416,
+      "grad_norm": 0.3295539319515228,
+      "learning_rate": 0.0009270658820908271,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 68026880,
+      "step": 31470
+    },
+    {
+      "epoch": 5.134584013050571,
+      "grad_norm": 0.1620461344718933,
+      "learning_rate": 0.0009270288602226096,
+      "loss": 0.307,
+      "num_input_tokens_seen": 68036672,
+      "step": 31475
+    },
+    {
+      "epoch": 5.135399673735726,
+      "grad_norm": 0.0587170347571373,
+      "learning_rate": 0.0009269918297001106,
+      "loss": 0.059,
+      "num_input_tokens_seen": 68047040,
+      "step": 31480
+    },
+    {
+      "epoch": 5.136215334420881,
+      "grad_norm": 0.3170589804649353,
+      "learning_rate": 0.0009269547905240805,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 68058112,
+      "step": 31485
+    },
+    {
+      "epoch": 5.137030995106036,
+      "grad_norm": 0.034953050315380096,
+      "learning_rate": 0.00092691774269527,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 68068384,
+      "step": 31490
+    },
+    {
+      "epoch": 5.137846655791191,
+      "grad_norm": 0.053561653941869736,
+      "learning_rate": 0.0009268806862144298,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 68078848,
+      "step": 31495
+    },
+    {
+      "epoch": 5.138662316476346,
+      "grad_norm": 0.011080753058195114,
+      "learning_rate": 0.0009268436210823109,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 68090272,
+      "step": 31500
+    },
+    {
+      "epoch": 5.1394779771615005,
+      "grad_norm": 0.19692468643188477,
+      "learning_rate": 0.0009268065472996645,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 68101984,
+      "step": 31505
+    },
+    {
+      "epoch": 5.140293637846656,
+      "grad_norm": 0.200147807598114,
+      "learning_rate": 0.0009267694648672423,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 68113696,
+      "step": 31510
+    },
+    {
+      "epoch": 5.141109298531811,
+      "grad_norm": 0.12792713940143585,
+      "learning_rate": 0.0009267323737857952,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 68125120,
+      "step": 31515
+    },
+    {
+      "epoch": 5.141924959216966,
+      "grad_norm": 0.036151349544525146,
+      "learning_rate": 0.0009266952740560752,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 68136128,
+      "step": 31520
+    },
+    {
+      "epoch": 5.142740619902121,
+      "grad_norm": 0.006894730031490326,
+      "learning_rate": 0.0009266581656788342,
+      "loss": 0.071,
+      "num_input_tokens_seen": 68147808,
+      "step": 31525
+    },
+    {
+      "epoch": 5.143556280587275,
+      "grad_norm": 0.02515142224729061,
+      "learning_rate": 0.0009266210486548243,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 68158208,
+      "step": 31530
+    },
+    {
+      "epoch": 5.14437194127243,
+      "grad_norm": 0.007471158169209957,
+      "learning_rate": 0.0009265839229847975,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 68169088,
+      "step": 31535
+    },
+    {
+      "epoch": 5.145187601957586,
+      "grad_norm": 0.0272090844810009,
+      "learning_rate": 0.0009265467886695064,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 68179200,
+      "step": 31540
+    },
+    {
+      "epoch": 5.146003262642741,
+      "grad_norm": 0.2392469048500061,
+      "learning_rate": 0.0009265096457097035,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 68189120,
+      "step": 31545
+    },
+    {
+      "epoch": 5.146818923327896,
+      "grad_norm": 0.02147931605577469,
+      "learning_rate": 0.0009264724941061418,
+      "loss": 0.0274,
+      "num_input_tokens_seen": 68200672,
+      "step": 31550
+    },
+    {
+      "epoch": 5.14763458401305,
+      "grad_norm": 0.21360090374946594,
+      "learning_rate": 0.0009264353338595736,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 68211040,
+      "step": 31555
+    },
+    {
+      "epoch": 5.148450244698205,
+      "grad_norm": 0.08548810333013535,
+      "learning_rate": 0.0009263981649707527,
+      "loss": 0.102,
+      "num_input_tokens_seen": 68221216,
+      "step": 31560
+    },
+    {
+      "epoch": 5.149265905383361,
+      "grad_norm": 0.01596478745341301,
+      "learning_rate": 0.0009263609874404319,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 68231360,
+      "step": 31565
+    },
+    {
+      "epoch": 5.150081566068516,
+      "grad_norm": 0.051141407340765,
+      "learning_rate": 0.0009263238012693649,
+      "loss": 0.0586,
+      "num_input_tokens_seen": 68243456,
+      "step": 31570
+    },
+    {
+      "epoch": 5.150897226753671,
+      "grad_norm": 0.1186927780508995,
+      "learning_rate": 0.0009262866064583051,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 68254560,
+      "step": 31575
+    },
+    {
+      "epoch": 5.151712887438825,
+      "grad_norm": 0.002311921678483486,
+      "learning_rate": 0.0009262494030080066,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 68265792,
+      "step": 31580
+    },
+    {
+      "epoch": 5.15252854812398,
+      "grad_norm": 0.004859385080635548,
+      "learning_rate": 0.0009262121909192232,
+      "loss": 0.168,
+      "num_input_tokens_seen": 68276992,
+      "step": 31585
+    },
+    {
+      "epoch": 5.153344208809135,
+      "grad_norm": 0.09993654489517212,
+      "learning_rate": 0.0009261749701927089,
+      "loss": 0.2298,
+      "num_input_tokens_seen": 68286496,
+      "step": 31590
+    },
+    {
+      "epoch": 5.154159869494291,
+      "grad_norm": 0.03430628776550293,
+      "learning_rate": 0.0009261377408292183,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 68297696,
+      "step": 31595
+    },
+    {
+      "epoch": 5.1549755301794455,
+      "grad_norm": 0.0053238943219184875,
+      "learning_rate": 0.0009261005028295058,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 68309216,
+      "step": 31600
+    },
+    {
+      "epoch": 5.1557911908646,
+      "grad_norm": 0.2986612021923065,
+      "learning_rate": 0.000926063256194326,
+      "loss": 0.2046,
+      "num_input_tokens_seen": 68319584,
+      "step": 31605
+    },
+    {
+      "epoch": 5.156606851549755,
+      "grad_norm": 0.07867178320884705,
+      "learning_rate": 0.0009260260009244339,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 68331104,
+      "step": 31610
+    },
+    {
+      "epoch": 5.15742251223491,
+      "grad_norm": 0.01586318016052246,
+      "learning_rate": 0.0009259887370205844,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 68341568,
+      "step": 31615
+    },
+    {
+      "epoch": 5.158238172920065,
+      "grad_norm": 0.010150609537959099,
+      "learning_rate": 0.0009259514644835327,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 68352480,
+      "step": 31620
+    },
+    {
+      "epoch": 5.1590538336052205,
+      "grad_norm": 0.13318832218647003,
+      "learning_rate": 0.0009259141833140343,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 68362560,
+      "step": 31625
+    },
+    {
+      "epoch": 5.159869494290375,
+      "grad_norm": 0.22387240827083588,
+      "learning_rate": 0.0009258768935128445,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 68372800,
+      "step": 31630
+    },
+    {
+      "epoch": 5.16068515497553,
+      "grad_norm": 0.30648529529571533,
+      "learning_rate": 0.0009258395950807194,
+      "loss": 0.1968,
+      "num_input_tokens_seen": 68383264,
+      "step": 31635
+    },
+    {
+      "epoch": 5.161500815660685,
+      "grad_norm": 0.004418856929987669,
+      "learning_rate": 0.0009258022880184145,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 68394176,
+      "step": 31640
+    },
+    {
+      "epoch": 5.16231647634584,
+      "grad_norm": 0.2309313714504242,
+      "learning_rate": 0.0009257649723266863,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 68406592,
+      "step": 31645
+    },
+    {
+      "epoch": 5.1631321370309955,
+      "grad_norm": 0.1833798736333847,
+      "learning_rate": 0.0009257276480062907,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 68415936,
+      "step": 31650
+    },
+    {
+      "epoch": 5.16394779771615,
+      "grad_norm": 0.0035895612090826035,
+      "learning_rate": 0.0009256903150579842,
+      "loss": 0.176,
+      "num_input_tokens_seen": 68426880,
+      "step": 31655
+    },
+    {
+      "epoch": 5.164763458401305,
+      "grad_norm": 0.19863756000995636,
+      "learning_rate": 0.0009256529734825234,
+      "loss": 0.2212,
+      "num_input_tokens_seen": 68439936,
+      "step": 31660
+    },
+    {
+      "epoch": 5.16557911908646,
+      "grad_norm": 0.14670097827911377,
+      "learning_rate": 0.0009256156232806652,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 68450784,
+      "step": 31665
+    },
+    {
+      "epoch": 5.166394779771615,
+      "grad_norm": 0.07167736440896988,
+      "learning_rate": 0.0009255782644531664,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 68462592,
+      "step": 31670
+    },
+    {
+      "epoch": 5.16721044045677,
+      "grad_norm": 0.11502383649349213,
+      "learning_rate": 0.0009255408970007842,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 68472928,
+      "step": 31675
+    },
+    {
+      "epoch": 5.168026101141925,
+      "grad_norm": 0.03686782345175743,
+      "learning_rate": 0.0009255035209242759,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 68483360,
+      "step": 31680
+    },
+    {
+      "epoch": 5.16884176182708,
+      "grad_norm": 0.04977540299296379,
+      "learning_rate": 0.0009254661362243991,
+      "loss": 0.1431,
+      "num_input_tokens_seen": 68494336,
+      "step": 31685
+    },
+    {
+      "epoch": 5.169657422512235,
+      "grad_norm": 0.10123711824417114,
+      "learning_rate": 0.000925428742901911,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 68506240,
+      "step": 31690
+    },
+    {
+      "epoch": 5.17047308319739,
+      "grad_norm": 0.01098128966987133,
+      "learning_rate": 0.0009253913409575698,
+      "loss": 0.06,
+      "num_input_tokens_seen": 68516736,
+      "step": 31695
+    },
+    {
+      "epoch": 5.171288743882545,
+      "grad_norm": 0.15740327537059784,
+      "learning_rate": 0.0009253539303921336,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 68527680,
+      "step": 31700
+    },
+    {
+      "epoch": 5.1721044045677,
+      "grad_norm": 0.27190694212913513,
+      "learning_rate": 0.0009253165112063604,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 68537056,
+      "step": 31705
+    },
+    {
+      "epoch": 5.172920065252855,
+      "grad_norm": 0.05805153027176857,
+      "learning_rate": 0.0009252790834010085,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 68547296,
+      "step": 31710
+    },
+    {
+      "epoch": 5.17373572593801,
+      "grad_norm": 0.26238253712654114,
+      "learning_rate": 0.0009252416469768363,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 68557344,
+      "step": 31715
+    },
+    {
+      "epoch": 5.174551386623165,
+      "grad_norm": 0.2675519585609436,
+      "learning_rate": 0.0009252042019346029,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 68567968,
+      "step": 31720
+    },
+    {
+      "epoch": 5.1753670473083195,
+      "grad_norm": 0.30450505018234253,
+      "learning_rate": 0.0009251667482750669,
+      "loss": 0.1679,
+      "num_input_tokens_seen": 68578656,
+      "step": 31725
+    },
+    {
+      "epoch": 5.176182707993474,
+      "grad_norm": 0.0031907472293823957,
+      "learning_rate": 0.0009251292859989873,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 68588608,
+      "step": 31730
+    },
+    {
+      "epoch": 5.17699836867863,
+      "grad_norm": 0.016649756580591202,
+      "learning_rate": 0.0009250918151071235,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 68598624,
+      "step": 31735
+    },
+    {
+      "epoch": 5.177814029363785,
+      "grad_norm": 0.09811677038669586,
+      "learning_rate": 0.0009250543356002347,
+      "loss": 0.029,
+      "num_input_tokens_seen": 68609792,
+      "step": 31740
+    },
+    {
+      "epoch": 5.17862969004894,
+      "grad_norm": 0.033193688839673996,
+      "learning_rate": 0.0009250168474790806,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 68620512,
+      "step": 31745
+    },
+    {
+      "epoch": 5.1794453507340945,
+      "grad_norm": 0.24452006816864014,
+      "learning_rate": 0.0009249793507444208,
+      "loss": 0.2061,
+      "num_input_tokens_seen": 68631392,
+      "step": 31750
+    },
+    {
+      "epoch": 5.180261011419249,
+      "grad_norm": 0.02791479602456093,
+      "learning_rate": 0.0009249418453970155,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 68642944,
+      "step": 31755
+    },
+    {
+      "epoch": 5.181076672104404,
+      "grad_norm": 0.0830642580986023,
+      "learning_rate": 0.0009249043314376247,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 68653984,
+      "step": 31760
+    },
+    {
+      "epoch": 5.18189233278956,
+      "grad_norm": 0.0186906885355711,
+      "learning_rate": 0.0009248668088670084,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 68665344,
+      "step": 31765
+    },
+    {
+      "epoch": 5.182707993474715,
+      "grad_norm": 0.16254150867462158,
+      "learning_rate": 0.0009248292776859273,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 68676128,
+      "step": 31770
+    },
+    {
+      "epoch": 5.1835236541598695,
+      "grad_norm": 0.04959748312830925,
+      "learning_rate": 0.0009247917378951419,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 68686304,
+      "step": 31775
+    },
+    {
+      "epoch": 5.184339314845024,
+      "grad_norm": 0.2542068660259247,
+      "learning_rate": 0.0009247541894954132,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 68697248,
+      "step": 31780
+    },
+    {
+      "epoch": 5.185154975530179,
+      "grad_norm": 0.07414700835943222,
+      "learning_rate": 0.0009247166324875018,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 68707744,
+      "step": 31785
+    },
+    {
+      "epoch": 5.185970636215335,
+      "grad_norm": 0.21046984195709229,
+      "learning_rate": 0.0009246790668721692,
+      "loss": 0.1773,
+      "num_input_tokens_seen": 68718496,
+      "step": 31790
+    },
+    {
+      "epoch": 5.18678629690049,
+      "grad_norm": 0.11404412984848022,
+      "learning_rate": 0.0009246414926501766,
+      "loss": 0.2142,
+      "num_input_tokens_seen": 68729920,
+      "step": 31795
+    },
+    {
+      "epoch": 5.1876019575856445,
+      "grad_norm": 0.021141186356544495,
+      "learning_rate": 0.0009246039098222854,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 68740320,
+      "step": 31800
+    },
+    {
+      "epoch": 5.188417618270799,
+      "grad_norm": 0.10404963791370392,
+      "learning_rate": 0.0009245663183892572,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 68751648,
+      "step": 31805
+    },
+    {
+      "epoch": 5.189233278955954,
+      "grad_norm": 0.207743838429451,
+      "learning_rate": 0.0009245287183518541,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 68762592,
+      "step": 31810
+    },
+    {
+      "epoch": 5.190048939641109,
+      "grad_norm": 0.010766721330583096,
+      "learning_rate": 0.0009244911097108379,
+      "loss": 0.2304,
+      "num_input_tokens_seen": 68772448,
+      "step": 31815
+    },
+    {
+      "epoch": 5.190864600326265,
+      "grad_norm": 0.05641620233654976,
+      "learning_rate": 0.000924453492466971,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 68782944,
+      "step": 31820
+    },
+    {
+      "epoch": 5.191680261011419,
+      "grad_norm": 0.04736460745334625,
+      "learning_rate": 0.0009244158666210154,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 68791456,
+      "step": 31825
+    },
+    {
+      "epoch": 5.192495921696574,
+      "grad_norm": 0.0764179453253746,
+      "learning_rate": 0.0009243782321737339,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 68802368,
+      "step": 31830
+    },
+    {
+      "epoch": 5.193311582381729,
+      "grad_norm": 0.07003484666347504,
+      "learning_rate": 0.0009243405891258894,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 68812768,
+      "step": 31835
+    },
+    {
+      "epoch": 5.194127243066884,
+      "grad_norm": 0.003841748461127281,
+      "learning_rate": 0.0009243029374782443,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 68824416,
+      "step": 31840
+    },
+    {
+      "epoch": 5.19494290375204,
+      "grad_norm": 0.01023764256387949,
+      "learning_rate": 0.0009242652772315621,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 68835776,
+      "step": 31845
+    },
+    {
+      "epoch": 5.195758564437194,
+      "grad_norm": 0.0831431970000267,
+      "learning_rate": 0.0009242276083866056,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 68846912,
+      "step": 31850
+    },
+    {
+      "epoch": 5.196574225122349,
+      "grad_norm": 0.10236520320177078,
+      "learning_rate": 0.0009241899309441386,
+      "loss": 0.066,
+      "num_input_tokens_seen": 68857632,
+      "step": 31855
+    },
+    {
+      "epoch": 5.197389885807504,
+      "grad_norm": 0.013170513324439526,
+      "learning_rate": 0.0009241522449049245,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 68868768,
+      "step": 31860
+    },
+    {
+      "epoch": 5.198205546492659,
+      "grad_norm": 0.08625346422195435,
+      "learning_rate": 0.000924114550269727,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 68879936,
+      "step": 31865
+    },
+    {
+      "epoch": 5.199021207177814,
+      "grad_norm": 0.10950763523578644,
+      "learning_rate": 0.0009240768470393101,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 68890528,
+      "step": 31870
+    },
+    {
+      "epoch": 5.199836867862969,
+      "grad_norm": 0.009500091895461082,
+      "learning_rate": 0.0009240391352144382,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 68901632,
+      "step": 31875
+    },
+    {
+      "epoch": 5.200652528548124,
+      "grad_norm": 0.009571898728609085,
+      "learning_rate": 0.0009240014147958751,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 68912000,
+      "step": 31880
+    },
+    {
+      "epoch": 5.201468189233279,
+      "grad_norm": 0.026301007717847824,
+      "learning_rate": 0.0009239636857843854,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 68922144,
+      "step": 31885
+    },
+    {
+      "epoch": 5.202283849918434,
+      "grad_norm": 0.05546105280518532,
+      "learning_rate": 0.0009239259481807338,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 68932928,
+      "step": 31890
+    },
+    {
+      "epoch": 5.203099510603589,
+      "grad_norm": 0.2150077074766159,
+      "learning_rate": 0.0009238882019856851,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 68942560,
+      "step": 31895
+    },
+    {
+      "epoch": 5.2039151712887435,
+      "grad_norm": 0.007343418430536985,
+      "learning_rate": 0.0009238504472000042,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 68953216,
+      "step": 31900
+    },
+    {
+      "epoch": 5.204730831973899,
+      "grad_norm": 0.058143239468336105,
+      "learning_rate": 0.0009238126838244562,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 68964352,
+      "step": 31905
+    },
+    {
+      "epoch": 5.205546492659054,
+      "grad_norm": 0.14698320627212524,
+      "learning_rate": 0.0009237749118598067,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 68975456,
+      "step": 31910
+    },
+    {
+      "epoch": 5.206362153344209,
+      "grad_norm": 0.2738533020019531,
+      "learning_rate": 0.000923737131306821,
+      "loss": 0.2138,
+      "num_input_tokens_seen": 68985856,
+      "step": 31915
+    },
+    {
+      "epoch": 5.207177814029364,
+      "grad_norm": 0.19384877383708954,
+      "learning_rate": 0.0009236993421662648,
+      "loss": 0.084,
+      "num_input_tokens_seen": 68997504,
+      "step": 31920
+    },
+    {
+      "epoch": 5.2079934747145185,
+      "grad_norm": 0.3091152608394623,
+      "learning_rate": 0.0009236615444389038,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 69007008,
+      "step": 31925
+    },
+    {
+      "epoch": 5.208809135399674,
+      "grad_norm": 0.02713857591152191,
+      "learning_rate": 0.0009236237381255041,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 69018304,
+      "step": 31930
+    },
+    {
+      "epoch": 5.209624796084829,
+      "grad_norm": 0.0630718544125557,
+      "learning_rate": 0.0009235859232268322,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 69028160,
+      "step": 31935
+    },
+    {
+      "epoch": 5.210440456769984,
+      "grad_norm": 0.007515220437198877,
+      "learning_rate": 0.000923548099743654,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 69038624,
+      "step": 31940
+    },
+    {
+      "epoch": 5.211256117455139,
+      "grad_norm": 0.22423508763313293,
+      "learning_rate": 0.0009235102676767364,
+      "loss": 0.2559,
+      "num_input_tokens_seen": 69049888,
+      "step": 31945
+    },
+    {
+      "epoch": 5.212071778140293,
+      "grad_norm": 0.006067072041332722,
+      "learning_rate": 0.0009234724270268459,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 69061376,
+      "step": 31950
+    },
+    {
+      "epoch": 5.212887438825448,
+      "grad_norm": 0.024653153494000435,
+      "learning_rate": 0.0009234345777947493,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 69072576,
+      "step": 31955
+    },
+    {
+      "epoch": 5.213703099510604,
+      "grad_norm": 0.03436309099197388,
+      "learning_rate": 0.0009233967199812141,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 69082976,
+      "step": 31960
+    },
+    {
+      "epoch": 5.214518760195759,
+      "grad_norm": 0.32174986600875854,
+      "learning_rate": 0.000923358853587007,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 69095072,
+      "step": 31965
+    },
+    {
+      "epoch": 5.215334420880914,
+      "grad_norm": 0.058664221316576004,
+      "learning_rate": 0.0009233209786128957,
+      "loss": 0.04,
+      "num_input_tokens_seen": 69107040,
+      "step": 31970
+    },
+    {
+      "epoch": 5.216150081566068,
+      "grad_norm": 0.19562427699565887,
+      "learning_rate": 0.0009232830950596479,
+      "loss": 0.3531,
+      "num_input_tokens_seen": 69118336,
+      "step": 31975
+    },
+    {
+      "epoch": 5.216965742251223,
+      "grad_norm": 0.03304930403828621,
+      "learning_rate": 0.0009232452029280312,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 69130208,
+      "step": 31980
+    },
+    {
+      "epoch": 5.217781402936378,
+      "grad_norm": 0.09775389730930328,
+      "learning_rate": 0.0009232073022188135,
+      "loss": 0.03,
+      "num_input_tokens_seen": 69140512,
+      "step": 31985
+    },
+    {
+      "epoch": 5.218597063621534,
+      "grad_norm": 0.14110304415225983,
+      "learning_rate": 0.0009231693929327628,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 69150816,
+      "step": 31990
+    },
+    {
+      "epoch": 5.219412724306689,
+      "grad_norm": 0.009008850902318954,
+      "learning_rate": 0.0009231314750706476,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 69161472,
+      "step": 31995
+    },
+    {
+      "epoch": 5.220228384991843,
+      "grad_norm": 0.1816573441028595,
+      "learning_rate": 0.0009230935486332363,
+      "loss": 0.1657,
+      "num_input_tokens_seen": 69172064,
+      "step": 32000
+    },
+    {
+      "epoch": 5.221044045676998,
+      "grad_norm": 0.3012794554233551,
+      "learning_rate": 0.0009230556136212975,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 69183264,
+      "step": 32005
+    },
+    {
+      "epoch": 5.221859706362153,
+      "grad_norm": 0.11017505824565887,
+      "learning_rate": 0.0009230176700356001,
+      "loss": 0.1744,
+      "num_input_tokens_seen": 69194528,
+      "step": 32010
+    },
+    {
+      "epoch": 5.222675367047309,
+      "grad_norm": 0.05585956946015358,
+      "learning_rate": 0.0009229797178769128,
+      "loss": 0.174,
+      "num_input_tokens_seen": 69205920,
+      "step": 32015
+    },
+    {
+      "epoch": 5.2234910277324635,
+      "grad_norm": 0.22336703538894653,
+      "learning_rate": 0.000922941757146005,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 69217408,
+      "step": 32020
+    },
+    {
+      "epoch": 5.224306688417618,
+      "grad_norm": 0.010442069731652737,
+      "learning_rate": 0.000922903787843646,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 69226560,
+      "step": 32025
+    },
+    {
+      "epoch": 5.225122349102773,
+      "grad_norm": 0.1273556351661682,
+      "learning_rate": 0.0009228658099706053,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 69238112,
+      "step": 32030
+    },
+    {
+      "epoch": 5.225938009787928,
+      "grad_norm": 0.08883675187826157,
+      "learning_rate": 0.0009228278235276524,
+      "loss": 0.149,
+      "num_input_tokens_seen": 69249088,
+      "step": 32035
+    },
+    {
+      "epoch": 5.226753670473083,
+      "grad_norm": 0.016032544896006584,
+      "learning_rate": 0.0009227898285155574,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 69258752,
+      "step": 32040
+    },
+    {
+      "epoch": 5.2275693311582385,
+      "grad_norm": 0.25991424918174744,
+      "learning_rate": 0.00092275182493509,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 69270496,
+      "step": 32045
+    },
+    {
+      "epoch": 5.228384991843393,
+      "grad_norm": 0.16175585985183716,
+      "learning_rate": 0.0009227138127870208,
+      "loss": 0.1564,
+      "num_input_tokens_seen": 69280800,
+      "step": 32050
+    },
+    {
+      "epoch": 5.229200652528548,
+      "grad_norm": 0.03370179980993271,
+      "learning_rate": 0.0009226757920721196,
+      "loss": 0.181,
+      "num_input_tokens_seen": 69291776,
+      "step": 32055
+    },
+    {
+      "epoch": 5.230016313213703,
+      "grad_norm": 0.09633185714483261,
+      "learning_rate": 0.0009226377627911575,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 69302144,
+      "step": 32060
+    },
+    {
+      "epoch": 5.230831973898858,
+      "grad_norm": 0.061300963163375854,
+      "learning_rate": 0.000922599724944905,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 69313984,
+      "step": 32065
+    },
+    {
+      "epoch": 5.231647634584013,
+      "grad_norm": 0.11820586770772934,
+      "learning_rate": 0.0009225616785341329,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 69324640,
+      "step": 32070
+    },
+    {
+      "epoch": 5.232463295269168,
+      "grad_norm": 0.07643051445484161,
+      "learning_rate": 0.0009225236235596123,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 69335680,
+      "step": 32075
+    },
+    {
+      "epoch": 5.233278955954323,
+      "grad_norm": 0.016196228563785553,
+      "learning_rate": 0.0009224855600221145,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 69347616,
+      "step": 32080
+    },
+    {
+      "epoch": 5.234094616639478,
+      "grad_norm": 0.1011374369263649,
+      "learning_rate": 0.0009224474879224109,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 69358400,
+      "step": 32085
+    },
+    {
+      "epoch": 5.234910277324633,
+      "grad_norm": 0.029623612761497498,
+      "learning_rate": 0.000922409407261273,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 69368224,
+      "step": 32090
+    },
+    {
+      "epoch": 5.235725938009788,
+      "grad_norm": 0.04129718616604805,
+      "learning_rate": 0.0009223713180394726,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 69379200,
+      "step": 32095
+    },
+    {
+      "epoch": 5.236541598694943,
+      "grad_norm": 0.019016016274690628,
+      "learning_rate": 0.0009223332202577815,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 69389600,
+      "step": 32100
+    },
+    {
+      "epoch": 5.237357259380098,
+      "grad_norm": 0.026308605447411537,
+      "learning_rate": 0.0009222951139169722,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 69399424,
+      "step": 32105
+    },
+    {
+      "epoch": 5.238172920065253,
+      "grad_norm": 0.15939036011695862,
+      "learning_rate": 0.0009222569990178165,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 69410336,
+      "step": 32110
+    },
+    {
+      "epoch": 5.238988580750408,
+      "grad_norm": 0.267518550157547,
+      "learning_rate": 0.0009222188755610871,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 69421152,
+      "step": 32115
+    },
+    {
+      "epoch": 5.239804241435563,
+      "grad_norm": 0.009280465543270111,
+      "learning_rate": 0.0009221807435475564,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 69431360,
+      "step": 32120
+    },
+    {
+      "epoch": 5.240619902120717,
+      "grad_norm": 0.01776033826172352,
+      "learning_rate": 0.0009221426029779975,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 69442144,
+      "step": 32125
+    },
+    {
+      "epoch": 5.241435562805873,
+      "grad_norm": 0.025634892284870148,
+      "learning_rate": 0.0009221044538531833,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 69452576,
+      "step": 32130
+    },
+    {
+      "epoch": 5.242251223491028,
+      "grad_norm": 0.04073479771614075,
+      "learning_rate": 0.0009220662961738868,
+      "loss": 0.1665,
+      "num_input_tokens_seen": 69463936,
+      "step": 32135
+    },
+    {
+      "epoch": 5.243066884176183,
+      "grad_norm": 0.03299302980303764,
+      "learning_rate": 0.0009220281299408815,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 69475424,
+      "step": 32140
+    },
+    {
+      "epoch": 5.2438825448613375,
+      "grad_norm": 0.047456976026296616,
+      "learning_rate": 0.0009219899551549405,
+      "loss": 0.114,
+      "num_input_tokens_seen": 69485632,
+      "step": 32145
+    },
+    {
+      "epoch": 5.244698205546492,
+      "grad_norm": 0.029536686837673187,
+      "learning_rate": 0.0009219517718168379,
+      "loss": 0.179,
+      "num_input_tokens_seen": 69495264,
+      "step": 32150
+    },
+    {
+      "epoch": 5.245513866231648,
+      "grad_norm": 0.6375518441200256,
+      "learning_rate": 0.0009219135799273474,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 69506112,
+      "step": 32155
+    },
+    {
+      "epoch": 5.246329526916803,
+      "grad_norm": 0.016054809093475342,
+      "learning_rate": 0.0009218753794872429,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 69516768,
+      "step": 32160
+    },
+    {
+      "epoch": 5.247145187601958,
+      "grad_norm": 0.020715905353426933,
+      "learning_rate": 0.0009218371704972987,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 69528096,
+      "step": 32165
+    },
+    {
+      "epoch": 5.2479608482871125,
+      "grad_norm": 0.06473297625780106,
+      "learning_rate": 0.0009217989529582889,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 69540000,
+      "step": 32170
+    },
+    {
+      "epoch": 5.248776508972267,
+      "grad_norm": 0.06317108124494553,
+      "learning_rate": 0.0009217607268709884,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 69551200,
+      "step": 32175
+    },
+    {
+      "epoch": 5.249592169657422,
+      "grad_norm": 0.012645971961319447,
+      "learning_rate": 0.0009217224922361718,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 69561600,
+      "step": 32180
+    },
+    {
+      "epoch": 5.250407830342578,
+      "grad_norm": 0.04027498885989189,
+      "learning_rate": 0.0009216842490546138,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 69572608,
+      "step": 32185
+    },
+    {
+      "epoch": 5.251223491027733,
+      "grad_norm": 0.02918020635843277,
+      "learning_rate": 0.0009216459973270895,
+      "loss": 0.1817,
+      "num_input_tokens_seen": 69584096,
+      "step": 32190
+    },
+    {
+      "epoch": 5.2520391517128875,
+      "grad_norm": 0.021406283602118492,
+      "learning_rate": 0.0009216077370543743,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 69594240,
+      "step": 32195
+    },
+    {
+      "epoch": 5.252854812398042,
+      "grad_norm": 0.07893198728561401,
+      "learning_rate": 0.0009215694682372433,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 69606208,
+      "step": 32200
+    },
+    {
+      "epoch": 5.253670473083197,
+      "grad_norm": 0.0020585639867931604,
+      "learning_rate": 0.0009215311908764724,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 69617504,
+      "step": 32205
+    },
+    {
+      "epoch": 5.254486133768353,
+      "grad_norm": 0.21157675981521606,
+      "learning_rate": 0.000921492904972837,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 69628000,
+      "step": 32210
+    },
+    {
+      "epoch": 5.255301794453508,
+      "grad_norm": 0.16144989430904388,
+      "learning_rate": 0.0009214546105271133,
+      "loss": 0.4135,
+      "num_input_tokens_seen": 69639296,
+      "step": 32215
+    },
+    {
+      "epoch": 5.2561174551386625,
+      "grad_norm": 0.16526293754577637,
+      "learning_rate": 0.0009214163075400772,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 69650272,
+      "step": 32220
+    },
+    {
+      "epoch": 5.256933115823817,
+      "grad_norm": 0.06682567298412323,
+      "learning_rate": 0.000921377996012505,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 69660544,
+      "step": 32225
+    },
+    {
+      "epoch": 5.257748776508972,
+      "grad_norm": 0.25775107741355896,
+      "learning_rate": 0.0009213396759451732,
+      "loss": 0.1977,
+      "num_input_tokens_seen": 69671168,
+      "step": 32230
+    },
+    {
+      "epoch": 5.258564437194127,
+      "grad_norm": 0.13597147166728973,
+      "learning_rate": 0.0009213013473388584,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 69681376,
+      "step": 32235
+    },
+    {
+      "epoch": 5.259380097879283,
+      "grad_norm": 0.11380225419998169,
+      "learning_rate": 0.0009212630101943373,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 69692192,
+      "step": 32240
+    },
+    {
+      "epoch": 5.260195758564437,
+      "grad_norm": 0.007670269813388586,
+      "learning_rate": 0.000921224664512387,
+      "loss": 0.0274,
+      "num_input_tokens_seen": 69702816,
+      "step": 32245
+    },
+    {
+      "epoch": 5.261011419249592,
+      "grad_norm": 0.015922527760267258,
+      "learning_rate": 0.0009211863102937843,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 69712800,
+      "step": 32250
+    },
+    {
+      "epoch": 5.261827079934747,
+      "grad_norm": 0.0070436312817037106,
+      "learning_rate": 0.0009211479475393068,
+      "loss": 0.2056,
+      "num_input_tokens_seen": 69723808,
+      "step": 32255
+    },
+    {
+      "epoch": 5.262642740619902,
+      "grad_norm": 0.013316688127815723,
+      "learning_rate": 0.0009211095762497319,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 69734944,
+      "step": 32260
+    },
+    {
+      "epoch": 5.263458401305057,
+      "grad_norm": 0.023608213290572166,
+      "learning_rate": 0.0009210711964258372,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 69744672,
+      "step": 32265
+    },
+    {
+      "epoch": 5.264274061990212,
+      "grad_norm": 0.1670239418745041,
+      "learning_rate": 0.0009210328080684005,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 69754944,
+      "step": 32270
+    },
+    {
+      "epoch": 5.265089722675367,
+      "grad_norm": 0.006368768867105246,
+      "learning_rate": 0.0009209944111782,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 69765824,
+      "step": 32275
+    },
+    {
+      "epoch": 5.265905383360522,
+      "grad_norm": 0.011990712955594063,
+      "learning_rate": 0.0009209560057560134,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 69777152,
+      "step": 32280
+    },
+    {
+      "epoch": 5.266721044045677,
+      "grad_norm": 0.07604020088911057,
+      "learning_rate": 0.0009209175918026195,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 69787360,
+      "step": 32285
+    },
+    {
+      "epoch": 5.267536704730832,
+      "grad_norm": 0.2205602526664734,
+      "learning_rate": 0.0009208791693187967,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 69798048,
+      "step": 32290
+    },
+    {
+      "epoch": 5.268352365415987,
+      "grad_norm": 0.04664922133088112,
+      "learning_rate": 0.0009208407383053235,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 69809088,
+      "step": 32295
+    },
+    {
+      "epoch": 5.269168026101142,
+      "grad_norm": 0.007245397195219994,
+      "learning_rate": 0.000920802298762979,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 69819296,
+      "step": 32300
+    },
+    {
+      "epoch": 5.269983686786297,
+      "grad_norm": 0.023717431351542473,
+      "learning_rate": 0.0009207638506925419,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 69829472,
+      "step": 32305
+    },
+    {
+      "epoch": 5.270799347471452,
+      "grad_norm": 0.2488313913345337,
+      "learning_rate": 0.0009207253940947916,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 69840320,
+      "step": 32310
+    },
+    {
+      "epoch": 5.271615008156607,
+      "grad_norm": 0.01920371875166893,
+      "learning_rate": 0.0009206869289705075,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 69852192,
+      "step": 32315
+    },
+    {
+      "epoch": 5.2724306688417615,
+      "grad_norm": 0.03608312830328941,
+      "learning_rate": 0.0009206484553204693,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 69864032,
+      "step": 32320
+    },
+    {
+      "epoch": 5.273246329526917,
+      "grad_norm": 0.03217107802629471,
+      "learning_rate": 0.0009206099731454562,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 69874816,
+      "step": 32325
+    },
+    {
+      "epoch": 5.274061990212072,
+      "grad_norm": 0.03715856000781059,
+      "learning_rate": 0.0009205714824462487,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 69885984,
+      "step": 32330
+    },
+    {
+      "epoch": 5.274877650897227,
+      "grad_norm": 0.00929944682866335,
+      "learning_rate": 0.0009205329832236265,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 69896000,
+      "step": 32335
+    },
+    {
+      "epoch": 5.275693311582382,
+      "grad_norm": 0.03817165642976761,
+      "learning_rate": 0.0009204944754783698,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 69907040,
+      "step": 32340
+    },
+    {
+      "epoch": 5.2765089722675365,
+      "grad_norm": 0.0905759334564209,
+      "learning_rate": 0.0009204559592112592,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 69917280,
+      "step": 32345
+    },
+    {
+      "epoch": 5.277324632952691,
+      "grad_norm": 0.03727143257856369,
+      "learning_rate": 0.0009204174344230751,
+      "loss": 0.2925,
+      "num_input_tokens_seen": 69929344,
+      "step": 32350
+    },
+    {
+      "epoch": 5.278140293637847,
+      "grad_norm": 0.01050970796495676,
+      "learning_rate": 0.0009203789011145984,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 69940352,
+      "step": 32355
+    },
+    {
+      "epoch": 5.278955954323002,
+      "grad_norm": 0.2786335051059723,
+      "learning_rate": 0.00092034035928661,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 69950080,
+      "step": 32360
+    },
+    {
+      "epoch": 5.279771615008157,
+      "grad_norm": 0.2287655770778656,
+      "learning_rate": 0.000920301808939891,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 69960064,
+      "step": 32365
+    },
+    {
+      "epoch": 5.280587275693311,
+      "grad_norm": 0.04754359647631645,
+      "learning_rate": 0.0009202632500752226,
+      "loss": 0.02,
+      "num_input_tokens_seen": 69971072,
+      "step": 32370
+    },
+    {
+      "epoch": 5.281402936378466,
+      "grad_norm": 0.13212303817272186,
+      "learning_rate": 0.0009202246826933864,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 69981408,
+      "step": 32375
+    },
+    {
+      "epoch": 5.282218597063622,
+      "grad_norm": 0.2108330875635147,
+      "learning_rate": 0.0009201861067951638,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 69991840,
+      "step": 32380
+    },
+    {
+      "epoch": 5.283034257748777,
+      "grad_norm": 0.02782035619020462,
+      "learning_rate": 0.0009201475223813368,
+      "loss": 0.189,
+      "num_input_tokens_seen": 70002528,
+      "step": 32385
+    },
+    {
+      "epoch": 5.283849918433932,
+      "grad_norm": 0.16605517268180847,
+      "learning_rate": 0.0009201089294526872,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 70013280,
+      "step": 32390
+    },
+    {
+      "epoch": 5.284665579119086,
+      "grad_norm": 0.019904859364032745,
+      "learning_rate": 0.0009200703280099971,
+      "loss": 0.1801,
+      "num_input_tokens_seen": 70024864,
+      "step": 32395
+    },
+    {
+      "epoch": 5.285481239804241,
+      "grad_norm": 0.13329952955245972,
+      "learning_rate": 0.0009200317180540491,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 70035648,
+      "step": 32400
+    },
+    {
+      "epoch": 5.286296900489396,
+      "grad_norm": 0.12227307260036469,
+      "learning_rate": 0.0009199930995856254,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 70046592,
+      "step": 32405
+    },
+    {
+      "epoch": 5.287112561174552,
+      "grad_norm": 0.010475658811628819,
+      "learning_rate": 0.0009199544726055087,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 70058016,
+      "step": 32410
+    },
+    {
+      "epoch": 5.287928221859707,
+      "grad_norm": 0.0636746883392334,
+      "learning_rate": 0.000919915837114482,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 70069536,
+      "step": 32415
+    },
+    {
+      "epoch": 5.288743882544861,
+      "grad_norm": 0.022627348080277443,
+      "learning_rate": 0.0009198771931133281,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 70079936,
+      "step": 32420
+    },
+    {
+      "epoch": 5.289559543230016,
+      "grad_norm": 0.34379759430885315,
+      "learning_rate": 0.0009198385406028302,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 70090912,
+      "step": 32425
+    },
+    {
+      "epoch": 5.290375203915171,
+      "grad_norm": 0.019473228603601456,
+      "learning_rate": 0.0009197998795837716,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 70102624,
+      "step": 32430
+    },
+    {
+      "epoch": 5.291190864600326,
+      "grad_norm": 0.20492912828922272,
+      "learning_rate": 0.0009197612100569359,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 70112864,
+      "step": 32435
+    },
+    {
+      "epoch": 5.2920065252854815,
+      "grad_norm": 0.0357382632791996,
+      "learning_rate": 0.0009197225320231069,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 70122304,
+      "step": 32440
+    },
+    {
+      "epoch": 5.292822185970636,
+      "grad_norm": 0.016824502497911453,
+      "learning_rate": 0.0009196838454830682,
+      "loss": 0.016,
+      "num_input_tokens_seen": 70133728,
+      "step": 32445
+    },
+    {
+      "epoch": 5.293637846655791,
+      "grad_norm": 0.07850372046232224,
+      "learning_rate": 0.000919645150437604,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 70144384,
+      "step": 32450
+    },
+    {
+      "epoch": 5.294453507340946,
+      "grad_norm": 0.2341936081647873,
+      "learning_rate": 0.0009196064468874985,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 70155040,
+      "step": 32455
+    },
+    {
+      "epoch": 5.295269168026101,
+      "grad_norm": 0.03325160965323448,
+      "learning_rate": 0.0009195677348335361,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 70165312,
+      "step": 32460
+    },
+    {
+      "epoch": 5.2960848287112565,
+      "grad_norm": 0.0046011339873075485,
+      "learning_rate": 0.0009195290142765012,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 70177824,
+      "step": 32465
+    },
+    {
+      "epoch": 5.296900489396411,
+      "grad_norm": 0.2414412796497345,
+      "learning_rate": 0.0009194902852171787,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 70187904,
+      "step": 32470
+    },
+    {
+      "epoch": 5.297716150081566,
+      "grad_norm": 0.06987257301807404,
+      "learning_rate": 0.0009194515476563533,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 70199296,
+      "step": 32475
+    },
+    {
+      "epoch": 5.298531810766721,
+      "grad_norm": 0.1548604816198349,
+      "learning_rate": 0.0009194128015948103,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 70209472,
+      "step": 32480
+    },
+    {
+      "epoch": 5.299347471451876,
+      "grad_norm": 0.007507277186959982,
+      "learning_rate": 0.0009193740470333347,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 70220832,
+      "step": 32485
+    },
+    {
+      "epoch": 5.300163132137031,
+      "grad_norm": 0.012318221852183342,
+      "learning_rate": 0.0009193352839727121,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 70230912,
+      "step": 32490
+    },
+    {
+      "epoch": 5.300978792822186,
+      "grad_norm": 0.04195151478052139,
+      "learning_rate": 0.0009192965124137279,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 70241440,
+      "step": 32495
+    },
+    {
+      "epoch": 5.301794453507341,
+      "grad_norm": 0.01736997626721859,
+      "learning_rate": 0.000919257732357168,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 70252320,
+      "step": 32500
+    },
+    {
+      "epoch": 5.302610114192496,
+      "grad_norm": 0.032310500741004944,
+      "learning_rate": 0.0009192189438038183,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 70263584,
+      "step": 32505
+    },
+    {
+      "epoch": 5.303425774877651,
+      "grad_norm": 0.03387526422739029,
+      "learning_rate": 0.0009191801467544649,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 70275040,
+      "step": 32510
+    },
+    {
+      "epoch": 5.304241435562806,
+      "grad_norm": 0.17230959236621857,
+      "learning_rate": 0.0009191413412098942,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 70287168,
+      "step": 32515
+    },
+    {
+      "epoch": 5.30505709624796,
+      "grad_norm": 0.04161704704165459,
+      "learning_rate": 0.0009191025271708923,
+      "loss": 0.2394,
+      "num_input_tokens_seen": 70298848,
+      "step": 32520
+    },
+    {
+      "epoch": 5.305872756933116,
+      "grad_norm": 0.038167256861925125,
+      "learning_rate": 0.0009190637046382461,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 70309760,
+      "step": 32525
+    },
+    {
+      "epoch": 5.306688417618271,
+      "grad_norm": 0.16672658920288086,
+      "learning_rate": 0.0009190248736127422,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 70320288,
+      "step": 32530
+    },
+    {
+      "epoch": 5.307504078303426,
+      "grad_norm": 0.042624689638614655,
+      "learning_rate": 0.0009189860340951679,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 70332128,
+      "step": 32535
+    },
+    {
+      "epoch": 5.308319738988581,
+      "grad_norm": 0.012349123135209084,
+      "learning_rate": 0.0009189471860863099,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 70342400,
+      "step": 32540
+    },
+    {
+      "epoch": 5.309135399673735,
+      "grad_norm": 0.2591664791107178,
+      "learning_rate": 0.0009189083295869558,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 70352416,
+      "step": 32545
+    },
+    {
+      "epoch": 5.309951060358891,
+      "grad_norm": 0.022202063351869583,
+      "learning_rate": 0.0009188694645978928,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 70363296,
+      "step": 32550
+    },
+    {
+      "epoch": 5.310766721044046,
+      "grad_norm": 0.1519620418548584,
+      "learning_rate": 0.0009188305911199088,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 70375488,
+      "step": 32555
+    },
+    {
+      "epoch": 5.311582381729201,
+      "grad_norm": 0.025497501716017723,
+      "learning_rate": 0.0009187917091537918,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 70385184,
+      "step": 32560
+    },
+    {
+      "epoch": 5.3123980424143555,
+      "grad_norm": 0.08437871932983398,
+      "learning_rate": 0.0009187528187003293,
+      "loss": 0.1442,
+      "num_input_tokens_seen": 70395296,
+      "step": 32565
+    },
+    {
+      "epoch": 5.31321370309951,
+      "grad_norm": 0.05105772614479065,
+      "learning_rate": 0.0009187139197603097,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 70405920,
+      "step": 32570
+    },
+    {
+      "epoch": 5.314029363784665,
+      "grad_norm": 0.28494322299957275,
+      "learning_rate": 0.0009186750123345214,
+      "loss": 0.1898,
+      "num_input_tokens_seen": 70416960,
+      "step": 32575
+    },
+    {
+      "epoch": 5.314845024469821,
+      "grad_norm": 0.1514277160167694,
+      "learning_rate": 0.0009186360964237528,
+      "loss": 0.13,
+      "num_input_tokens_seen": 70428480,
+      "step": 32580
+    },
+    {
+      "epoch": 5.315660685154976,
+      "grad_norm": 0.030695544555783272,
+      "learning_rate": 0.0009185971720287926,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 70439200,
+      "step": 32585
+    },
+    {
+      "epoch": 5.3164763458401305,
+      "grad_norm": 0.12666253745555878,
+      "learning_rate": 0.0009185582391504299,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 70450656,
+      "step": 32590
+    },
+    {
+      "epoch": 5.317292006525285,
+      "grad_norm": 0.1707489788532257,
+      "learning_rate": 0.0009185192977894533,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 70461504,
+      "step": 32595
+    },
+    {
+      "epoch": 5.31810766721044,
+      "grad_norm": 0.07268530875444412,
+      "learning_rate": 0.0009184803479466521,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 70471840,
+      "step": 32600
+    },
+    {
+      "epoch": 5.318923327895595,
+      "grad_norm": 0.014792957343161106,
+      "learning_rate": 0.0009184413896228161,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 70481536,
+      "step": 32605
+    },
+    {
+      "epoch": 5.319738988580751,
+      "grad_norm": 0.19271481037139893,
+      "learning_rate": 0.0009184024228187343,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 70492064,
+      "step": 32610
+    },
+    {
+      "epoch": 5.3205546492659055,
+      "grad_norm": 0.2561456859111786,
+      "learning_rate": 0.0009183634475351967,
+      "loss": 0.107,
+      "num_input_tokens_seen": 70501184,
+      "step": 32615
+    },
+    {
+      "epoch": 5.32137030995106,
+      "grad_norm": 0.11083754897117615,
+      "learning_rate": 0.0009183244637729931,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 70511808,
+      "step": 32620
+    },
+    {
+      "epoch": 5.322185970636215,
+      "grad_norm": 0.062356043606996536,
+      "learning_rate": 0.0009182854715329134,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 70521792,
+      "step": 32625
+    },
+    {
+      "epoch": 5.32300163132137,
+      "grad_norm": 0.013759220018982887,
+      "learning_rate": 0.0009182464708157481,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 70533120,
+      "step": 32630
+    },
+    {
+      "epoch": 5.323817292006526,
+      "grad_norm": 0.12132881581783295,
+      "learning_rate": 0.0009182074616222875,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 70543360,
+      "step": 32635
+    },
+    {
+      "epoch": 5.3246329526916805,
+      "grad_norm": 0.08230478316545486,
+      "learning_rate": 0.0009181684439533223,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 70554560,
+      "step": 32640
+    },
+    {
+      "epoch": 5.325448613376835,
+      "grad_norm": 0.1693173348903656,
+      "learning_rate": 0.0009181294178096427,
+      "loss": 0.2002,
+      "num_input_tokens_seen": 70566080,
+      "step": 32645
+    },
+    {
+      "epoch": 5.32626427406199,
+      "grad_norm": 0.21043474972248077,
+      "learning_rate": 0.0009180903831920404,
+      "loss": 0.1808,
+      "num_input_tokens_seen": 70576064,
+      "step": 32650
+    },
+    {
+      "epoch": 5.327079934747145,
+      "grad_norm": 0.0415470190346241,
+      "learning_rate": 0.0009180513401013059,
+      "loss": 0.1335,
+      "num_input_tokens_seen": 70586624,
+      "step": 32655
+    },
+    {
+      "epoch": 5.327895595432301,
+      "grad_norm": 0.019588204100728035,
+      "learning_rate": 0.0009180122885382307,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 70598176,
+      "step": 32660
+    },
+    {
+      "epoch": 5.328711256117455,
+      "grad_norm": 0.24973243474960327,
+      "learning_rate": 0.0009179732285036062,
+      "loss": 0.2379,
+      "num_input_tokens_seen": 70608128,
+      "step": 32665
+    },
+    {
+      "epoch": 5.32952691680261,
+      "grad_norm": 0.006756752263754606,
+      "learning_rate": 0.0009179341599982239,
+      "loss": 0.1654,
+      "num_input_tokens_seen": 70620064,
+      "step": 32670
+    },
+    {
+      "epoch": 5.330342577487765,
+      "grad_norm": 0.14148695766925812,
+      "learning_rate": 0.0009178950830228759,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 70630048,
+      "step": 32675
+    },
+    {
+      "epoch": 5.33115823817292,
+      "grad_norm": 0.02704835683107376,
+      "learning_rate": 0.0009178559975783536,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 70639552,
+      "step": 32680
+    },
+    {
+      "epoch": 5.331973898858075,
+      "grad_norm": 0.24264878034591675,
+      "learning_rate": 0.0009178169036654496,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 70651040,
+      "step": 32685
+    },
+    {
+      "epoch": 5.33278955954323,
+      "grad_norm": 0.10831085592508316,
+      "learning_rate": 0.0009177778012849561,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 70660736,
+      "step": 32690
+    },
+    {
+      "epoch": 5.333605220228385,
+      "grad_norm": 0.014376015402376652,
+      "learning_rate": 0.0009177386904376652,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 70671488,
+      "step": 32695
+    },
+    {
+      "epoch": 5.33442088091354,
+      "grad_norm": 0.029407214373350143,
+      "learning_rate": 0.0009176995711243699,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 70680608,
+      "step": 32700
+    },
+    {
+      "epoch": 5.335236541598695,
+      "grad_norm": 0.3172883987426758,
+      "learning_rate": 0.0009176604433458631,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 70691200,
+      "step": 32705
+    },
+    {
+      "epoch": 5.33605220228385,
+      "grad_norm": 0.028004512190818787,
+      "learning_rate": 0.0009176213071029373,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 70702496,
+      "step": 32710
+    },
+    {
+      "epoch": 5.3368678629690045,
+      "grad_norm": 0.014881027862429619,
+      "learning_rate": 0.0009175821623963861,
+      "loss": 0.2455,
+      "num_input_tokens_seen": 70713856,
+      "step": 32715
+    },
+    {
+      "epoch": 5.33768352365416,
+      "grad_norm": 0.08989004045724869,
+      "learning_rate": 0.0009175430092270026,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 70724320,
+      "step": 32720
+    },
+    {
+      "epoch": 5.338499184339315,
+      "grad_norm": 0.05116923525929451,
+      "learning_rate": 0.0009175038475955804,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 70735232,
+      "step": 32725
+    },
+    {
+      "epoch": 5.33931484502447,
+      "grad_norm": 0.06526987254619598,
+      "learning_rate": 0.0009174646775029129,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 70746528,
+      "step": 32730
+    },
+    {
+      "epoch": 5.340130505709625,
+      "grad_norm": 0.028074419125914574,
+      "learning_rate": 0.0009174254989497942,
+      "loss": 0.057,
+      "num_input_tokens_seen": 70756320,
+      "step": 32735
+    },
+    {
+      "epoch": 5.3409461663947795,
+      "grad_norm": 0.12809574604034424,
+      "learning_rate": 0.0009173863119370183,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 70768064,
+      "step": 32740
+    },
+    {
+      "epoch": 5.341761827079935,
+      "grad_norm": 0.12281595915555954,
+      "learning_rate": 0.0009173471164653791,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 70779488,
+      "step": 32745
+    },
+    {
+      "epoch": 5.34257748776509,
+      "grad_norm": 0.08573044091463089,
+      "learning_rate": 0.0009173079125356714,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 70789728,
+      "step": 32750
+    },
+    {
+      "epoch": 5.343393148450245,
+      "grad_norm": 0.19512666761875153,
+      "learning_rate": 0.0009172687001486892,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 70800992,
+      "step": 32755
+    },
+    {
+      "epoch": 5.3442088091354,
+      "grad_norm": 0.07091918587684631,
+      "learning_rate": 0.0009172294793052277,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 70812032,
+      "step": 32760
+    },
+    {
+      "epoch": 5.3450244698205545,
+      "grad_norm": 0.312071293592453,
+      "learning_rate": 0.0009171902500060814,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 70824032,
+      "step": 32765
+    },
+    {
+      "epoch": 5.345840130505709,
+      "grad_norm": 0.004325787536799908,
+      "learning_rate": 0.0009171510122520455,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 70835648,
+      "step": 32770
+    },
+    {
+      "epoch": 5.346655791190865,
+      "grad_norm": 0.01614411175251007,
+      "learning_rate": 0.000917111766043915,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 70846080,
+      "step": 32775
+    },
+    {
+      "epoch": 5.34747145187602,
+      "grad_norm": 0.1334189772605896,
+      "learning_rate": 0.0009170725113824855,
+      "loss": 0.2134,
+      "num_input_tokens_seen": 70856096,
+      "step": 32780
+    },
+    {
+      "epoch": 5.348287112561175,
+      "grad_norm": 0.07463495433330536,
+      "learning_rate": 0.0009170332482685524,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 70867168,
+      "step": 32785
+    },
+    {
+      "epoch": 5.349102773246329,
+      "grad_norm": 0.11940980702638626,
+      "learning_rate": 0.0009169939767029116,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 70878080,
+      "step": 32790
+    },
+    {
+      "epoch": 5.349918433931484,
+      "grad_norm": 0.020729253068566322,
+      "learning_rate": 0.0009169546966863588,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 70889472,
+      "step": 32795
+    },
+    {
+      "epoch": 5.350734094616639,
+      "grad_norm": 0.14954179525375366,
+      "learning_rate": 0.0009169154082196901,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 70900640,
+      "step": 32800
+    },
+    {
+      "epoch": 5.351549755301795,
+      "grad_norm": 0.32872921228408813,
+      "learning_rate": 0.0009168761113037019,
+      "loss": 0.128,
+      "num_input_tokens_seen": 70909856,
+      "step": 32805
+    },
+    {
+      "epoch": 5.35236541598695,
+      "grad_norm": 0.0425887331366539,
+      "learning_rate": 0.0009168368059391903,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 70921248,
+      "step": 32810
+    },
+    {
+      "epoch": 5.353181076672104,
+      "grad_norm": 0.078069768846035,
+      "learning_rate": 0.0009167974921269519,
+      "loss": 0.1495,
+      "num_input_tokens_seen": 70930720,
+      "step": 32815
+    },
+    {
+      "epoch": 5.353996737357259,
+      "grad_norm": 0.14288416504859924,
+      "learning_rate": 0.0009167581698677838,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 70940448,
+      "step": 32820
+    },
+    {
+      "epoch": 5.354812398042414,
+      "grad_norm": 0.022837474942207336,
+      "learning_rate": 0.0009167188391624827,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 70952000,
+      "step": 32825
+    },
+    {
+      "epoch": 5.35562805872757,
+      "grad_norm": 0.008411848917603493,
+      "learning_rate": 0.0009166795000118456,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 70961856,
+      "step": 32830
+    },
+    {
+      "epoch": 5.356443719412725,
+      "grad_norm": 0.0260999146848917,
+      "learning_rate": 0.0009166401524166699,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 70972320,
+      "step": 32835
+    },
+    {
+      "epoch": 5.357259380097879,
+      "grad_norm": 0.0431085005402565,
+      "learning_rate": 0.000916600796377753,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 70983648,
+      "step": 32840
+    },
+    {
+      "epoch": 5.358075040783034,
+      "grad_norm": 0.01479522418230772,
+      "learning_rate": 0.0009165614318958924,
+      "loss": 0.1821,
+      "num_input_tokens_seen": 70993952,
+      "step": 32845
+    },
+    {
+      "epoch": 5.358890701468189,
+      "grad_norm": 0.27183374762535095,
+      "learning_rate": 0.0009165220589718859,
+      "loss": 0.1811,
+      "num_input_tokens_seen": 71004160,
+      "step": 32850
+    },
+    {
+      "epoch": 5.359706362153344,
+      "grad_norm": 0.07483382523059845,
+      "learning_rate": 0.0009164826776065316,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 71015264,
+      "step": 32855
+    },
+    {
+      "epoch": 5.3605220228384995,
+      "grad_norm": 0.008126812987029552,
+      "learning_rate": 0.0009164432878006274,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 71026560,
+      "step": 32860
+    },
+    {
+      "epoch": 5.361337683523654,
+      "grad_norm": 0.2765503227710724,
+      "learning_rate": 0.0009164038895549716,
+      "loss": 0.2013,
+      "num_input_tokens_seen": 71038752,
+      "step": 32865
+    },
+    {
+      "epoch": 5.362153344208809,
+      "grad_norm": 0.191825270652771,
+      "learning_rate": 0.0009163644828703628,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 71050112,
+      "step": 32870
+    },
+    {
+      "epoch": 5.362969004893964,
+      "grad_norm": 0.04115011915564537,
+      "learning_rate": 0.0009163250677475996,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 71061600,
+      "step": 32875
+    },
+    {
+      "epoch": 5.363784665579119,
+      "grad_norm": 0.010353055782616138,
+      "learning_rate": 0.0009162856441874807,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 71072960,
+      "step": 32880
+    },
+    {
+      "epoch": 5.364600326264274,
+      "grad_norm": 0.03754093125462532,
+      "learning_rate": 0.0009162462121908052,
+      "loss": 0.1689,
+      "num_input_tokens_seen": 71083872,
+      "step": 32885
+    },
+    {
+      "epoch": 5.365415986949429,
+      "grad_norm": 0.20056197047233582,
+      "learning_rate": 0.0009162067717583722,
+      "loss": 0.2398,
+      "num_input_tokens_seen": 71094368,
+      "step": 32890
+    },
+    {
+      "epoch": 5.366231647634584,
+      "grad_norm": 0.26877015829086304,
+      "learning_rate": 0.0009161673228909808,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 71105472,
+      "step": 32895
+    },
+    {
+      "epoch": 5.367047308319739,
+      "grad_norm": 0.035021211951971054,
+      "learning_rate": 0.0009161278655894307,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 71115840,
+      "step": 32900
+    },
+    {
+      "epoch": 5.367862969004894,
+      "grad_norm": 0.17578844726085663,
+      "learning_rate": 0.0009160883998545216,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 71126240,
+      "step": 32905
+    },
+    {
+      "epoch": 5.368678629690049,
+      "grad_norm": 0.054084427654743195,
+      "learning_rate": 0.0009160489256870532,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 71136640,
+      "step": 32910
+    },
+    {
+      "epoch": 5.369494290375204,
+      "grad_norm": 0.03351510688662529,
+      "learning_rate": 0.0009160094430878255,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 71146592,
+      "step": 32915
+    },
+    {
+      "epoch": 5.370309951060359,
+      "grad_norm": 0.013419684953987598,
+      "learning_rate": 0.0009159699520576388,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 71157664,
+      "step": 32920
+    },
+    {
+      "epoch": 5.371125611745514,
+      "grad_norm": 0.2606358528137207,
+      "learning_rate": 0.0009159304525972931,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 71168352,
+      "step": 32925
+    },
+    {
+      "epoch": 5.371941272430669,
+      "grad_norm": 0.041385188698768616,
+      "learning_rate": 0.0009158909447075894,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 71178432,
+      "step": 32930
+    },
+    {
+      "epoch": 5.372756933115824,
+      "grad_norm": 0.2104557901620865,
+      "learning_rate": 0.0009158514283893279,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 71188256,
+      "step": 32935
+    },
+    {
+      "epoch": 5.373572593800978,
+      "grad_norm": 0.1753581315279007,
+      "learning_rate": 0.0009158119036433097,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 71198720,
+      "step": 32940
+    },
+    {
+      "epoch": 5.374388254486134,
+      "grad_norm": 0.10579296201467514,
+      "learning_rate": 0.0009157723704703358,
+      "loss": 0.1819,
+      "num_input_tokens_seen": 71208928,
+      "step": 32945
+    },
+    {
+      "epoch": 5.375203915171289,
+      "grad_norm": 0.11044318228960037,
+      "learning_rate": 0.0009157328288712075,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 71220640,
+      "step": 32950
+    },
+    {
+      "epoch": 5.376019575856444,
+      "grad_norm": 0.015562590211629868,
+      "learning_rate": 0.0009156932788467259,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 71230976,
+      "step": 32955
+    },
+    {
+      "epoch": 5.376835236541599,
+      "grad_norm": 0.021977802738547325,
+      "learning_rate": 0.0009156537203976927,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 71241696,
+      "step": 32960
+    },
+    {
+      "epoch": 5.377650897226753,
+      "grad_norm": 0.1440175622701645,
+      "learning_rate": 0.0009156141535249094,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 71253792,
+      "step": 32965
+    },
+    {
+      "epoch": 5.378466557911908,
+      "grad_norm": 0.17520390450954437,
+      "learning_rate": 0.0009155745782291782,
+      "loss": 0.063,
+      "num_input_tokens_seen": 71263584,
+      "step": 32970
+    },
+    {
+      "epoch": 5.379282218597064,
+      "grad_norm": 0.011420628987252712,
+      "learning_rate": 0.000915534994511301,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 71273760,
+      "step": 32975
+    },
+    {
+      "epoch": 5.380097879282219,
+      "grad_norm": 0.25457486510276794,
+      "learning_rate": 0.0009154954023720799,
+      "loss": 0.045,
+      "num_input_tokens_seen": 71284512,
+      "step": 32980
+    },
+    {
+      "epoch": 5.3809135399673735,
+      "grad_norm": 0.023655150085687637,
+      "learning_rate": 0.0009154558018123174,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 71294560,
+      "step": 32985
+    },
+    {
+      "epoch": 5.381729200652528,
+      "grad_norm": 0.06550729274749756,
+      "learning_rate": 0.000915416192832816,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 71304576,
+      "step": 32990
+    },
+    {
+      "epoch": 5.382544861337683,
+      "grad_norm": 0.009049389511346817,
+      "learning_rate": 0.0009153765754343786,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 71315136,
+      "step": 32995
+    },
+    {
+      "epoch": 5.383360522022839,
+      "grad_norm": 0.09317310899496078,
+      "learning_rate": 0.0009153369496178078,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 71324800,
+      "step": 33000
+    },
+    {
+      "epoch": 5.384176182707994,
+      "grad_norm": 0.11149311810731888,
+      "learning_rate": 0.0009152973153839068,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 71336320,
+      "step": 33005
+    },
+    {
+      "epoch": 5.3849918433931485,
+      "grad_norm": 0.25844934582710266,
+      "learning_rate": 0.000915257672733479,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 71348128,
+      "step": 33010
+    },
+    {
+      "epoch": 5.385807504078303,
+      "grad_norm": 0.008003010414540768,
+      "learning_rate": 0.0009152180216673276,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 71358816,
+      "step": 33015
+    },
+    {
+      "epoch": 5.386623164763458,
+      "grad_norm": 0.12192642688751221,
+      "learning_rate": 0.0009151783621862564,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 71369728,
+      "step": 33020
+    },
+    {
+      "epoch": 5.387438825448613,
+      "grad_norm": 0.010448573157191277,
+      "learning_rate": 0.0009151386942910688,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 71381056,
+      "step": 33025
+    },
+    {
+      "epoch": 5.388254486133769,
+      "grad_norm": 0.0021205150987952948,
+      "learning_rate": 0.0009150990179825689,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 71391456,
+      "step": 33030
+    },
+    {
+      "epoch": 5.3890701468189235,
+      "grad_norm": 0.019802767783403397,
+      "learning_rate": 0.000915059333261561,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 71402208,
+      "step": 33035
+    },
+    {
+      "epoch": 5.389885807504078,
+      "grad_norm": 0.06028865650296211,
+      "learning_rate": 0.0009150196401288491,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 71412864,
+      "step": 33040
+    },
+    {
+      "epoch": 5.390701468189233,
+      "grad_norm": 0.017764244228601456,
+      "learning_rate": 0.0009149799385852375,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 71423840,
+      "step": 33045
+    },
+    {
+      "epoch": 5.391517128874388,
+      "grad_norm": 0.04317443072795868,
+      "learning_rate": 0.0009149402286315314,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 71432480,
+      "step": 33050
+    },
+    {
+      "epoch": 5.392332789559543,
+      "grad_norm": 0.2608911693096161,
+      "learning_rate": 0.0009149005102685348,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 71445152,
+      "step": 33055
+    },
+    {
+      "epoch": 5.3931484502446985,
+      "grad_norm": 0.03656046465039253,
+      "learning_rate": 0.0009148607834970532,
+      "loss": 0.2079,
+      "num_input_tokens_seen": 71455808,
+      "step": 33060
+    },
+    {
+      "epoch": 5.393964110929853,
+      "grad_norm": 0.16922008991241455,
+      "learning_rate": 0.0009148210483178916,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 71467264,
+      "step": 33065
+    },
+    {
+      "epoch": 5.394779771615008,
+      "grad_norm": 0.015841931104660034,
+      "learning_rate": 0.000914781304731855,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 71476832,
+      "step": 33070
+    },
+    {
+      "epoch": 5.395595432300163,
+      "grad_norm": 0.24486678838729858,
+      "learning_rate": 0.0009147415527397492,
+      "loss": 0.1865,
+      "num_input_tokens_seen": 71487840,
+      "step": 33075
+    },
+    {
+      "epoch": 5.396411092985318,
+      "grad_norm": 0.13854020833969116,
+      "learning_rate": 0.0009147017923423797,
+      "loss": 0.1851,
+      "num_input_tokens_seen": 71499776,
+      "step": 33080
+    },
+    {
+      "epoch": 5.397226753670473,
+      "grad_norm": 0.04607773944735527,
+      "learning_rate": 0.0009146620235405523,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 71511232,
+      "step": 33085
+    },
+    {
+      "epoch": 5.398042414355628,
+      "grad_norm": 0.04011186957359314,
+      "learning_rate": 0.0009146222463350729,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 71523040,
+      "step": 33090
+    },
+    {
+      "epoch": 5.398858075040783,
+      "grad_norm": 0.06927596777677536,
+      "learning_rate": 0.0009145824607267478,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 71533216,
+      "step": 33095
+    },
+    {
+      "epoch": 5.399673735725938,
+      "grad_norm": 0.043770719319581985,
+      "learning_rate": 0.0009145426667163832,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 71544256,
+      "step": 33100
+    },
+    {
+      "epoch": 5.400489396411093,
+      "grad_norm": 0.29412418603897095,
+      "learning_rate": 0.0009145028643047855,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 71555104,
+      "step": 33105
+    },
+    {
+      "epoch": 5.401305057096248,
+      "grad_norm": 0.09121891856193542,
+      "learning_rate": 0.0009144630534927613,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 71566176,
+      "step": 33110
+    },
+    {
+      "epoch": 5.402120717781403,
+      "grad_norm": 0.3319765329360962,
+      "learning_rate": 0.0009144232342811179,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 71577440,
+      "step": 33115
+    },
+    {
+      "epoch": 5.402936378466558,
+      "grad_norm": 0.017797963693737984,
+      "learning_rate": 0.0009143834066706615,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 71588160,
+      "step": 33120
+    },
+    {
+      "epoch": 5.403752039151713,
+      "grad_norm": 0.165283203125,
+      "learning_rate": 0.0009143435706621999,
+      "loss": 0.0478,
+      "num_input_tokens_seen": 71598848,
+      "step": 33125
+    },
+    {
+      "epoch": 5.404567699836868,
+      "grad_norm": 0.011903224512934685,
+      "learning_rate": 0.0009143037262565401,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 71609536,
+      "step": 33130
+    },
+    {
+      "epoch": 5.4053833605220225,
+      "grad_norm": 0.08311284333467484,
+      "learning_rate": 0.00091426387345449,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 71620576,
+      "step": 33135
+    },
+    {
+      "epoch": 5.406199021207178,
+      "grad_norm": 0.032639991492033005,
+      "learning_rate": 0.0009142240122568566,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 71632800,
+      "step": 33140
+    },
+    {
+      "epoch": 5.407014681892333,
+      "grad_norm": 0.1708725243806839,
+      "learning_rate": 0.0009141841426644482,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 71643392,
+      "step": 33145
+    },
+    {
+      "epoch": 5.407830342577488,
+      "grad_norm": 0.1919700801372528,
+      "learning_rate": 0.0009141442646780728,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 71653824,
+      "step": 33150
+    },
+    {
+      "epoch": 5.408646003262643,
+      "grad_norm": 0.05919947475194931,
+      "learning_rate": 0.0009141043782985385,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 71664288,
+      "step": 33155
+    },
+    {
+      "epoch": 5.4094616639477975,
+      "grad_norm": 0.0068783871829509735,
+      "learning_rate": 0.0009140644835266537,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 71674848,
+      "step": 33160
+    },
+    {
+      "epoch": 5.410277324632952,
+      "grad_norm": 0.07434239238500595,
+      "learning_rate": 0.0009140245803632268,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 71685280,
+      "step": 33165
+    },
+    {
+      "epoch": 5.411092985318108,
+      "grad_norm": 0.05117892101407051,
+      "learning_rate": 0.0009139846688090665,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 71695584,
+      "step": 33170
+    },
+    {
+      "epoch": 5.411908646003263,
+      "grad_norm": 0.016075173392891884,
+      "learning_rate": 0.0009139447488649818,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 71706016,
+      "step": 33175
+    },
+    {
+      "epoch": 5.412724306688418,
+      "grad_norm": 0.18677929043769836,
+      "learning_rate": 0.0009139048205317817,
+      "loss": 0.12,
+      "num_input_tokens_seen": 71718144,
+      "step": 33180
+    },
+    {
+      "epoch": 5.4135399673735725,
+      "grad_norm": 0.01021922379732132,
+      "learning_rate": 0.0009138648838102751,
+      "loss": 0.2681,
+      "num_input_tokens_seen": 71729600,
+      "step": 33185
+    },
+    {
+      "epoch": 5.414355628058727,
+      "grad_norm": 0.19370241463184357,
+      "learning_rate": 0.0009138249387012718,
+      "loss": 0.2159,
+      "num_input_tokens_seen": 71739680,
+      "step": 33190
+    },
+    {
+      "epoch": 5.415171288743883,
+      "grad_norm": 0.07409081608057022,
+      "learning_rate": 0.000913784985205581,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 71750848,
+      "step": 33195
+    },
+    {
+      "epoch": 5.415986949429038,
+      "grad_norm": 0.027513748034834862,
+      "learning_rate": 0.0009137450233240127,
+      "loss": 0.075,
+      "num_input_tokens_seen": 71762080,
+      "step": 33200
+    },
+    {
+      "epoch": 5.416802610114193,
+      "grad_norm": 0.00557843130081892,
+      "learning_rate": 0.0009137050530573765,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 71772320,
+      "step": 33205
+    },
+    {
+      "epoch": 5.417618270799347,
+      "grad_norm": 0.16831335425376892,
+      "learning_rate": 0.0009136650744064827,
+      "loss": 0.1361,
+      "num_input_tokens_seen": 71782912,
+      "step": 33210
+    },
+    {
+      "epoch": 5.418433931484502,
+      "grad_norm": 0.037396691739559174,
+      "learning_rate": 0.0009136250873721413,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 71793696,
+      "step": 33215
+    },
+    {
+      "epoch": 5.419249592169657,
+      "grad_norm": 0.2280731201171875,
+      "learning_rate": 0.0009135850919551628,
+      "loss": 0.104,
+      "num_input_tokens_seen": 71803584,
+      "step": 33220
+    },
+    {
+      "epoch": 5.420065252854813,
+      "grad_norm": 0.035369303077459335,
+      "learning_rate": 0.0009135450881563578,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 71815232,
+      "step": 33225
+    },
+    {
+      "epoch": 5.420880913539968,
+      "grad_norm": 0.2152285873889923,
+      "learning_rate": 0.0009135050759765369,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 71824960,
+      "step": 33230
+    },
+    {
+      "epoch": 5.421696574225122,
+      "grad_norm": 0.03372219577431679,
+      "learning_rate": 0.0009134650554165111,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 71836576,
+      "step": 33235
+    },
+    {
+      "epoch": 5.422512234910277,
+      "grad_norm": 0.03322592377662659,
+      "learning_rate": 0.0009134250264770914,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 71847168,
+      "step": 33240
+    },
+    {
+      "epoch": 5.423327895595432,
+      "grad_norm": 0.1197444424033165,
+      "learning_rate": 0.0009133849891590891,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 71857504,
+      "step": 33245
+    },
+    {
+      "epoch": 5.424143556280587,
+      "grad_norm": 0.1454666703939438,
+      "learning_rate": 0.0009133449434633157,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 71868608,
+      "step": 33250
+    },
+    {
+      "epoch": 5.424959216965743,
+      "grad_norm": 0.15138794481754303,
+      "learning_rate": 0.0009133048893905824,
+      "loss": 0.2438,
+      "num_input_tokens_seen": 71879520,
+      "step": 33255
+    },
+    {
+      "epoch": 5.425774877650897,
+      "grad_norm": 0.06414239853620529,
+      "learning_rate": 0.0009132648269417014,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 71890304,
+      "step": 33260
+    },
+    {
+      "epoch": 5.426590538336052,
+      "grad_norm": 0.004905904643237591,
+      "learning_rate": 0.0009132247561174843,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 71900480,
+      "step": 33265
+    },
+    {
+      "epoch": 5.427406199021207,
+      "grad_norm": 0.029563914984464645,
+      "learning_rate": 0.0009131846769187434,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 71911136,
+      "step": 33270
+    },
+    {
+      "epoch": 5.428221859706362,
+      "grad_norm": 0.028971252962946892,
+      "learning_rate": 0.0009131445893462908,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 71923296,
+      "step": 33275
+    },
+    {
+      "epoch": 5.4290375203915175,
+      "grad_norm": 0.21459606289863586,
+      "learning_rate": 0.000913104493400939,
+      "loss": 0.072,
+      "num_input_tokens_seen": 71934464,
+      "step": 33280
+    },
+    {
+      "epoch": 5.429853181076672,
+      "grad_norm": 0.1923767775297165,
+      "learning_rate": 0.0009130643890835007,
+      "loss": 0.2351,
+      "num_input_tokens_seen": 71944672,
+      "step": 33285
+    },
+    {
+      "epoch": 5.430668841761827,
+      "grad_norm": 0.039720792323350906,
+      "learning_rate": 0.0009130242763947884,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 71955872,
+      "step": 33290
+    },
+    {
+      "epoch": 5.431484502446982,
+      "grad_norm": 0.22541844844818115,
+      "learning_rate": 0.0009129841553356152,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 71966400,
+      "step": 33295
+    },
+    {
+      "epoch": 5.432300163132137,
+      "grad_norm": 0.1534278839826584,
+      "learning_rate": 0.0009129440259067941,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 71978240,
+      "step": 33300
+    },
+    {
+      "epoch": 5.433115823817292,
+      "grad_norm": 0.3853054940700531,
+      "learning_rate": 0.0009129038881091386,
+      "loss": 0.3502,
+      "num_input_tokens_seen": 71988640,
+      "step": 33305
+    },
+    {
+      "epoch": 5.433931484502447,
+      "grad_norm": 0.04415808245539665,
+      "learning_rate": 0.000912863741943462,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 72000032,
+      "step": 33310
+    },
+    {
+      "epoch": 5.434747145187602,
+      "grad_norm": 0.14555767178535461,
+      "learning_rate": 0.000912823587410578,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 72010304,
+      "step": 33315
+    },
+    {
+      "epoch": 5.435562805872757,
+      "grad_norm": 0.046213071793317795,
+      "learning_rate": 0.0009127834245113,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 72021376,
+      "step": 33320
+    },
+    {
+      "epoch": 5.436378466557912,
+      "grad_norm": 0.21453042328357697,
+      "learning_rate": 0.0009127432532464424,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 72031392,
+      "step": 33325
+    },
+    {
+      "epoch": 5.437194127243067,
+      "grad_norm": 0.22624626755714417,
+      "learning_rate": 0.0009127030736168192,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 72041600,
+      "step": 33330
+    },
+    {
+      "epoch": 5.438009787928221,
+      "grad_norm": 0.19587194919586182,
+      "learning_rate": 0.0009126628856232446,
+      "loss": 0.094,
+      "num_input_tokens_seen": 72052288,
+      "step": 33335
+    },
+    {
+      "epoch": 5.438825448613377,
+      "grad_norm": 0.19771817326545715,
+      "learning_rate": 0.0009126226892665333,
+      "loss": 0.1786,
+      "num_input_tokens_seen": 72062656,
+      "step": 33340
+    },
+    {
+      "epoch": 5.439641109298532,
+      "grad_norm": 0.03184128552675247,
+      "learning_rate": 0.0009125824845474996,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 72072416,
+      "step": 33345
+    },
+    {
+      "epoch": 5.440456769983687,
+      "grad_norm": 0.13524416089057922,
+      "learning_rate": 0.0009125422714669584,
+      "loss": 0.1857,
+      "num_input_tokens_seen": 72082624,
+      "step": 33350
+    },
+    {
+      "epoch": 5.441272430668842,
+      "grad_norm": 0.2313859611749649,
+      "learning_rate": 0.0009125020500257248,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 72094144,
+      "step": 33355
+    },
+    {
+      "epoch": 5.442088091353996,
+      "grad_norm": 0.11446195840835571,
+      "learning_rate": 0.000912461820224614,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 72105312,
+      "step": 33360
+    },
+    {
+      "epoch": 5.442903752039152,
+      "grad_norm": 0.019046427682042122,
+      "learning_rate": 0.000912421582064441,
+      "loss": 0.2843,
+      "num_input_tokens_seen": 72116096,
+      "step": 33365
+    },
+    {
+      "epoch": 5.443719412724307,
+      "grad_norm": 0.01346815936267376,
+      "learning_rate": 0.0009123813355460214,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 72127392,
+      "step": 33370
+    },
+    {
+      "epoch": 5.444535073409462,
+      "grad_norm": 0.07554985582828522,
+      "learning_rate": 0.000912341080670171,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 72137440,
+      "step": 33375
+    },
+    {
+      "epoch": 5.445350734094617,
+      "grad_norm": 0.14728760719299316,
+      "learning_rate": 0.0009123008174377054,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 72150112,
+      "step": 33380
+    },
+    {
+      "epoch": 5.446166394779771,
+      "grad_norm": 0.057900868356227875,
+      "learning_rate": 0.0009122605458494409,
+      "loss": 0.1828,
+      "num_input_tokens_seen": 72159296,
+      "step": 33385
+    },
+    {
+      "epoch": 5.446982055464926,
+      "grad_norm": 0.11225569248199463,
+      "learning_rate": 0.0009122202659061934,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 72170240,
+      "step": 33390
+    },
+    {
+      "epoch": 5.447797716150082,
+      "grad_norm": 0.036758918315172195,
+      "learning_rate": 0.0009121799776087791,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 72180672,
+      "step": 33395
+    },
+    {
+      "epoch": 5.448613376835237,
+      "grad_norm": 0.007878992706537247,
+      "learning_rate": 0.0009121396809580147,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 72191264,
+      "step": 33400
+    },
+    {
+      "epoch": 5.4494290375203915,
+      "grad_norm": 0.17817571759223938,
+      "learning_rate": 0.0009120993759547169,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 72201472,
+      "step": 33405
+    },
+    {
+      "epoch": 5.450244698205546,
+      "grad_norm": 0.07467425614595413,
+      "learning_rate": 0.0009120590625997026,
+      "loss": 0.063,
+      "num_input_tokens_seen": 72213024,
+      "step": 33410
+    },
+    {
+      "epoch": 5.451060358890701,
+      "grad_norm": 0.08875560760498047,
+      "learning_rate": 0.0009120187408937884,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 72224288,
+      "step": 33415
+    },
+    {
+      "epoch": 5.451876019575856,
+      "grad_norm": 0.15524475276470184,
+      "learning_rate": 0.0009119784108377918,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 72235104,
+      "step": 33420
+    },
+    {
+      "epoch": 5.452691680261012,
+      "grad_norm": 0.010183833539485931,
+      "learning_rate": 0.0009119380724325302,
+      "loss": 0.2185,
+      "num_input_tokens_seen": 72245856,
+      "step": 33425
+    },
+    {
+      "epoch": 5.4535073409461665,
+      "grad_norm": 0.053868986666202545,
+      "learning_rate": 0.0009118977256788208,
+      "loss": 0.0478,
+      "num_input_tokens_seen": 72256032,
+      "step": 33430
+    },
+    {
+      "epoch": 5.454323001631321,
+      "grad_norm": 0.11249548941850662,
+      "learning_rate": 0.0009118573705774815,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 72267104,
+      "step": 33435
+    },
+    {
+      "epoch": 5.455138662316476,
+      "grad_norm": 0.008952013216912746,
+      "learning_rate": 0.0009118170071293302,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 72278912,
+      "step": 33440
+    },
+    {
+      "epoch": 5.455954323001631,
+      "grad_norm": 0.03076971136033535,
+      "learning_rate": 0.0009117766353351848,
+      "loss": 0.083,
+      "num_input_tokens_seen": 72289312,
+      "step": 33445
+    },
+    {
+      "epoch": 5.456769983686787,
+      "grad_norm": 0.023297972977161407,
+      "learning_rate": 0.0009117362551958635,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 72300896,
+      "step": 33450
+    },
+    {
+      "epoch": 5.4575856443719415,
+      "grad_norm": 0.028049878776073456,
+      "learning_rate": 0.0009116958667121847,
+      "loss": 0.021,
+      "num_input_tokens_seen": 72312288,
+      "step": 33455
+    },
+    {
+      "epoch": 5.458401305057096,
+      "grad_norm": 0.12048943340778351,
+      "learning_rate": 0.0009116554698849668,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 72322912,
+      "step": 33460
+    },
+    {
+      "epoch": 5.459216965742251,
+      "grad_norm": 0.019078262150287628,
+      "learning_rate": 0.0009116150647150286,
+      "loss": 0.0531,
+      "num_input_tokens_seen": 72333600,
+      "step": 33465
+    },
+    {
+      "epoch": 5.460032626427406,
+      "grad_norm": 0.05092627555131912,
+      "learning_rate": 0.0009115746512031891,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 72344096,
+      "step": 33470
+    },
+    {
+      "epoch": 5.460848287112561,
+      "grad_norm": 0.10556714981794357,
+      "learning_rate": 0.0009115342293502669,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 72354432,
+      "step": 33475
+    },
+    {
+      "epoch": 5.4616639477977165,
+      "grad_norm": 0.0820518508553505,
+      "learning_rate": 0.0009114937991570817,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 72366400,
+      "step": 33480
+    },
+    {
+      "epoch": 5.462479608482871,
+      "grad_norm": 0.04745522886514664,
+      "learning_rate": 0.0009114533606244526,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 72375808,
+      "step": 33485
+    },
+    {
+      "epoch": 5.463295269168026,
+      "grad_norm": 0.18660973012447357,
+      "learning_rate": 0.0009114129137531991,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 72386560,
+      "step": 33490
+    },
+    {
+      "epoch": 5.464110929853181,
+      "grad_norm": 0.04909445717930794,
+      "learning_rate": 0.000911372458544141,
+      "loss": 0.2111,
+      "num_input_tokens_seen": 72396960,
+      "step": 33495
+    },
+    {
+      "epoch": 5.464926590538336,
+      "grad_norm": 0.03188806772232056,
+      "learning_rate": 0.0009113319949980983,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 72407104,
+      "step": 33500
+    },
+    {
+      "epoch": 5.465742251223491,
+      "grad_norm": 0.020453909412026405,
+      "learning_rate": 0.0009112915231158907,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 72418432,
+      "step": 33505
+    },
+    {
+      "epoch": 5.466557911908646,
+      "grad_norm": 0.2022310048341751,
+      "learning_rate": 0.0009112510428983387,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 72429824,
+      "step": 33510
+    },
+    {
+      "epoch": 5.467373572593801,
+      "grad_norm": 0.07638852298259735,
+      "learning_rate": 0.0009112105543462628,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 72440352,
+      "step": 33515
+    },
+    {
+      "epoch": 5.468189233278956,
+      "grad_norm": 0.13178791105747223,
+      "learning_rate": 0.0009111700574604831,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 72452000,
+      "step": 33520
+    },
+    {
+      "epoch": 5.469004893964111,
+      "grad_norm": 0.14010080695152283,
+      "learning_rate": 0.0009111295522418207,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 72462240,
+      "step": 33525
+    },
+    {
+      "epoch": 5.4698205546492655,
+      "grad_norm": 0.057958196848630905,
+      "learning_rate": 0.0009110890386910964,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 72474656,
+      "step": 33530
+    },
+    {
+      "epoch": 5.470636215334421,
+      "grad_norm": 0.0577903650701046,
+      "learning_rate": 0.0009110485168091311,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 72485568,
+      "step": 33535
+    },
+    {
+      "epoch": 5.471451876019576,
+      "grad_norm": 0.01845645345747471,
+      "learning_rate": 0.0009110079865967462,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 72496192,
+      "step": 33540
+    },
+    {
+      "epoch": 5.472267536704731,
+      "grad_norm": 0.26865318417549133,
+      "learning_rate": 0.0009109674480547632,
+      "loss": 0.2558,
+      "num_input_tokens_seen": 72506176,
+      "step": 33545
+    },
+    {
+      "epoch": 5.473083197389886,
+      "grad_norm": 0.027263272553682327,
+      "learning_rate": 0.0009109269011840033,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 72517216,
+      "step": 33550
+    },
+    {
+      "epoch": 5.4738988580750405,
+      "grad_norm": 0.13702431321144104,
+      "learning_rate": 0.0009108863459852886,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 72528992,
+      "step": 33555
+    },
+    {
+      "epoch": 5.474714518760196,
+      "grad_norm": 0.033558014780282974,
+      "learning_rate": 0.0009108457824594407,
+      "loss": 0.3343,
+      "num_input_tokens_seen": 72539968,
+      "step": 33560
+    },
+    {
+      "epoch": 5.475530179445351,
+      "grad_norm": 0.15126581490039825,
+      "learning_rate": 0.0009108052106072819,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 72551488,
+      "step": 33565
+    },
+    {
+      "epoch": 5.476345840130506,
+      "grad_norm": 0.03495920076966286,
+      "learning_rate": 0.0009107646304296344,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 72561984,
+      "step": 33570
+    },
+    {
+      "epoch": 5.477161500815661,
+      "grad_norm": 0.034811608493328094,
+      "learning_rate": 0.0009107240419273206,
+      "loss": 0.019,
+      "num_input_tokens_seen": 72572704,
+      "step": 33575
+    },
+    {
+      "epoch": 5.4779771615008155,
+      "grad_norm": 0.3282313942909241,
+      "learning_rate": 0.000910683445101163,
+      "loss": 0.245,
+      "num_input_tokens_seen": 72584096,
+      "step": 33580
+    },
+    {
+      "epoch": 5.47879282218597,
+      "grad_norm": 0.008367033675312996,
+      "learning_rate": 0.0009106428399519844,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 72594080,
+      "step": 33585
+    },
+    {
+      "epoch": 5.479608482871126,
+      "grad_norm": 0.14254389703273773,
+      "learning_rate": 0.0009106022264806078,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 72605504,
+      "step": 33590
+    },
+    {
+      "epoch": 5.480424143556281,
+      "grad_norm": 0.03509574383497238,
+      "learning_rate": 0.000910561604687856,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 72616736,
+      "step": 33595
+    },
+    {
+      "epoch": 5.481239804241436,
+      "grad_norm": 0.04512341693043709,
+      "learning_rate": 0.0009105209745745526,
+      "loss": 0.2051,
+      "num_input_tokens_seen": 72627136,
+      "step": 33600
+    },
+    {
+      "epoch": 5.4820554649265905,
+      "grad_norm": 0.06479254364967346,
+      "learning_rate": 0.0009104803361415208,
+      "loss": 0.11,
+      "num_input_tokens_seen": 72637408,
+      "step": 33605
+    },
+    {
+      "epoch": 5.482871125611745,
+      "grad_norm": 0.17471860349178314,
+      "learning_rate": 0.0009104396893895843,
+      "loss": 0.1633,
+      "num_input_tokens_seen": 72648000,
+      "step": 33610
+    },
+    {
+      "epoch": 5.4836867862969,
+      "grad_norm": 0.049819447100162506,
+      "learning_rate": 0.0009103990343195667,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 72657888,
+      "step": 33615
+    },
+    {
+      "epoch": 5.484502446982056,
+      "grad_norm": 0.13450585305690765,
+      "learning_rate": 0.0009103583709322923,
+      "loss": 0.085,
+      "num_input_tokens_seen": 72667904,
+      "step": 33620
+    },
+    {
+      "epoch": 5.485318107667211,
+      "grad_norm": 0.058071158826351166,
+      "learning_rate": 0.0009103176992285847,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 72679968,
+      "step": 33625
+    },
+    {
+      "epoch": 5.486133768352365,
+      "grad_norm": 0.09091849625110626,
+      "learning_rate": 0.0009102770192092684,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 72691392,
+      "step": 33630
+    },
+    {
+      "epoch": 5.48694942903752,
+      "grad_norm": 0.08295218646526337,
+      "learning_rate": 0.000910236330875168,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 72700672,
+      "step": 33635
+    },
+    {
+      "epoch": 5.487765089722675,
+      "grad_norm": 0.22870251536369324,
+      "learning_rate": 0.0009101956342271078,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 72712128,
+      "step": 33640
+    },
+    {
+      "epoch": 5.488580750407831,
+      "grad_norm": 0.014779879711568356,
+      "learning_rate": 0.0009101549292659128,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 72722016,
+      "step": 33645
+    },
+    {
+      "epoch": 5.489396411092986,
+      "grad_norm": 0.1314256340265274,
+      "learning_rate": 0.0009101142159924077,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 72732704,
+      "step": 33650
+    },
+    {
+      "epoch": 5.49021207177814,
+      "grad_norm": 0.12707646191120148,
+      "learning_rate": 0.0009100734944074179,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 72744256,
+      "step": 33655
+    },
+    {
+      "epoch": 5.491027732463295,
+      "grad_norm": 0.03855331614613533,
+      "learning_rate": 0.0009100327645117684,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 72754336,
+      "step": 33660
+    },
+    {
+      "epoch": 5.49184339314845,
+      "grad_norm": 0.02805102989077568,
+      "learning_rate": 0.0009099920263062848,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 72765536,
+      "step": 33665
+    },
+    {
+      "epoch": 5.492659053833605,
+      "grad_norm": 0.03538591042160988,
+      "learning_rate": 0.0009099512797917927,
+      "loss": 0.019,
+      "num_input_tokens_seen": 72776160,
+      "step": 33670
+    },
+    {
+      "epoch": 5.493474714518761,
+      "grad_norm": 0.22538243234157562,
+      "learning_rate": 0.0009099105249691179,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 72786368,
+      "step": 33675
+    },
+    {
+      "epoch": 5.494290375203915,
+      "grad_norm": 0.01177581213414669,
+      "learning_rate": 0.0009098697618390862,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 72797152,
+      "step": 33680
+    },
+    {
+      "epoch": 5.49510603588907,
+      "grad_norm": 0.2585497796535492,
+      "learning_rate": 0.0009098289904025239,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 72807552,
+      "step": 33685
+    },
+    {
+      "epoch": 5.495921696574225,
+      "grad_norm": 0.07408113032579422,
+      "learning_rate": 0.0009097882106602571,
+      "loss": 0.1972,
+      "num_input_tokens_seen": 72817888,
+      "step": 33690
+    },
+    {
+      "epoch": 5.49673735725938,
+      "grad_norm": 0.02731460891664028,
+      "learning_rate": 0.0009097474226131124,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 72829792,
+      "step": 33695
+    },
+    {
+      "epoch": 5.497553017944535,
+      "grad_norm": 0.29231026768684387,
+      "learning_rate": 0.0009097066262619165,
+      "loss": 0.084,
+      "num_input_tokens_seen": 72839360,
+      "step": 33700
+    },
+    {
+      "epoch": 5.49836867862969,
+      "grad_norm": 0.2278498113155365,
+      "learning_rate": 0.000909665821607496,
+      "loss": 0.2324,
+      "num_input_tokens_seen": 72849376,
+      "step": 33705
+    },
+    {
+      "epoch": 5.499184339314845,
+      "grad_norm": 0.18931224942207336,
+      "learning_rate": 0.0009096250086506779,
+      "loss": 0.2018,
+      "num_input_tokens_seen": 72859872,
+      "step": 33710
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.14162462949752808,
+      "learning_rate": 0.0009095841873922894,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 72871392,
+      "step": 33715
+    },
+    {
+      "epoch": 5.500815660685155,
+      "grad_norm": 0.036499932408332825,
+      "learning_rate": 0.0009095433578331576,
+      "loss": 0.1281,
+      "num_input_tokens_seen": 72882176,
+      "step": 33720
+    },
+    {
+      "epoch": 5.50163132137031,
+      "grad_norm": 0.2484671026468277,
+      "learning_rate": 0.0009095025199741103,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 72893024,
+      "step": 33725
+    },
+    {
+      "epoch": 5.502446982055465,
+      "grad_norm": 0.1913287341594696,
+      "learning_rate": 0.0009094616738159748,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 72904512,
+      "step": 33730
+    },
+    {
+      "epoch": 5.50326264274062,
+      "grad_norm": 0.049790579825639725,
+      "learning_rate": 0.000909420819359579,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 72914848,
+      "step": 33735
+    },
+    {
+      "epoch": 5.504078303425775,
+      "grad_norm": 0.19436365365982056,
+      "learning_rate": 0.000909379956605751,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 72924832,
+      "step": 33740
+    },
+    {
+      "epoch": 5.50489396411093,
+      "grad_norm": 0.010649348609149456,
+      "learning_rate": 0.000909339085555319,
+      "loss": 0.2315,
+      "num_input_tokens_seen": 72935936,
+      "step": 33745
+    },
+    {
+      "epoch": 5.505709624796085,
+      "grad_norm": 0.18552739918231964,
+      "learning_rate": 0.0009092982062091109,
+      "loss": 0.1633,
+      "num_input_tokens_seen": 72946400,
+      "step": 33750
+    },
+    {
+      "epoch": 5.506525285481239,
+      "grad_norm": 0.2872273921966553,
+      "learning_rate": 0.0009092573185679556,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 72957536,
+      "step": 33755
+    },
+    {
+      "epoch": 5.507340946166395,
+      "grad_norm": 0.032905105501413345,
+      "learning_rate": 0.0009092164226326814,
+      "loss": 0.0495,
+      "num_input_tokens_seen": 72969216,
+      "step": 33760
+    },
+    {
+      "epoch": 5.50815660685155,
+      "grad_norm": 0.07028263807296753,
+      "learning_rate": 0.0009091755184041173,
+      "loss": 0.1416,
+      "num_input_tokens_seen": 72980096,
+      "step": 33765
+    },
+    {
+      "epoch": 5.508972267536705,
+      "grad_norm": 0.20369423925876617,
+      "learning_rate": 0.0009091346058830923,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 72991808,
+      "step": 33770
+    },
+    {
+      "epoch": 5.50978792822186,
+      "grad_norm": 0.16369512677192688,
+      "learning_rate": 0.0009090936850704354,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 73002304,
+      "step": 33775
+    },
+    {
+      "epoch": 5.510603588907014,
+      "grad_norm": 0.26133355498313904,
+      "learning_rate": 0.0009090527559669761,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 73013120,
+      "step": 33780
+    },
+    {
+      "epoch": 5.511419249592169,
+      "grad_norm": 0.15874671936035156,
+      "learning_rate": 0.0009090118185735438,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 73023392,
+      "step": 33785
+    },
+    {
+      "epoch": 5.512234910277325,
+      "grad_norm": 0.17313063144683838,
+      "learning_rate": 0.000908970872890968,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 73034688,
+      "step": 33790
+    },
+    {
+      "epoch": 5.51305057096248,
+      "grad_norm": 0.018427910283207893,
+      "learning_rate": 0.0009089299189200789,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 73045600,
+      "step": 33795
+    },
+    {
+      "epoch": 5.513866231647635,
+      "grad_norm": 0.004695965442806482,
+      "learning_rate": 0.000908888956661706,
+      "loss": 0.2346,
+      "num_input_tokens_seen": 73056224,
+      "step": 33800
+    },
+    {
+      "epoch": 5.514681892332789,
+      "grad_norm": 0.06857309490442276,
+      "learning_rate": 0.0009088479861166797,
+      "loss": 0.2559,
+      "num_input_tokens_seen": 73067552,
+      "step": 33805
+    },
+    {
+      "epoch": 5.515497553017944,
+      "grad_norm": 0.2367842048406601,
+      "learning_rate": 0.0009088070072858303,
+      "loss": 0.1591,
+      "num_input_tokens_seen": 73077408,
+      "step": 33810
+    },
+    {
+      "epoch": 5.5163132137031,
+      "grad_norm": 0.009032535366714,
+      "learning_rate": 0.0009087660201699884,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 73087936,
+      "step": 33815
+    },
+    {
+      "epoch": 5.517128874388255,
+      "grad_norm": 0.20530152320861816,
+      "learning_rate": 0.0009087250247699846,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 73098912,
+      "step": 33820
+    },
+    {
+      "epoch": 5.5179445350734095,
+      "grad_norm": 0.024618202820420265,
+      "learning_rate": 0.0009086840210866493,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 73109920,
+      "step": 33825
+    },
+    {
+      "epoch": 5.518760195758564,
+      "grad_norm": 0.018427925184369087,
+      "learning_rate": 0.0009086430091208142,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 73120704,
+      "step": 33830
+    },
+    {
+      "epoch": 5.519575856443719,
+      "grad_norm": 0.029816431924700737,
+      "learning_rate": 0.00090860198887331,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 73132160,
+      "step": 33835
+    },
+    {
+      "epoch": 5.520391517128875,
+      "grad_norm": 0.18719585239887238,
+      "learning_rate": 0.0009085609603449683,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 73141600,
+      "step": 33840
+    },
+    {
+      "epoch": 5.52120717781403,
+      "grad_norm": 0.026867792010307312,
+      "learning_rate": 0.0009085199235366201,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 73152064,
+      "step": 33845
+    },
+    {
+      "epoch": 5.5220228384991845,
+      "grad_norm": 0.14632810652256012,
+      "learning_rate": 0.0009084788784490977,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 73163200,
+      "step": 33850
+    },
+    {
+      "epoch": 5.522838499184339,
+      "grad_norm": 0.027970803901553154,
+      "learning_rate": 0.0009084378250832325,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 73172704,
+      "step": 33855
+    },
+    {
+      "epoch": 5.523654159869494,
+      "grad_norm": 0.08090617507696152,
+      "learning_rate": 0.0009083967634398567,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 73182368,
+      "step": 33860
+    },
+    {
+      "epoch": 5.524469820554649,
+      "grad_norm": 0.15196193754673004,
+      "learning_rate": 0.0009083556935198024,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 73193504,
+      "step": 33865
+    },
+    {
+      "epoch": 5.525285481239804,
+      "grad_norm": 0.02766106277704239,
+      "learning_rate": 0.0009083146153239019,
+      "loss": 0.046,
+      "num_input_tokens_seen": 73203136,
+      "step": 33870
+    },
+    {
+      "epoch": 5.5261011419249595,
+      "grad_norm": 0.013581224717199802,
+      "learning_rate": 0.0009082735288529878,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 73214496,
+      "step": 33875
+    },
+    {
+      "epoch": 5.526916802610114,
+      "grad_norm": 0.007133916020393372,
+      "learning_rate": 0.0009082324341078927,
+      "loss": 0.1363,
+      "num_input_tokens_seen": 73225248,
+      "step": 33880
+    },
+    {
+      "epoch": 5.527732463295269,
+      "grad_norm": 0.018216347321867943,
+      "learning_rate": 0.0009081913310894494,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 73236864,
+      "step": 33885
+    },
+    {
+      "epoch": 5.528548123980424,
+      "grad_norm": 0.05228884145617485,
+      "learning_rate": 0.000908150219798491,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 73246880,
+      "step": 33890
+    },
+    {
+      "epoch": 5.529363784665579,
+      "grad_norm": 0.09811168909072876,
+      "learning_rate": 0.0009081091002358506,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 73256192,
+      "step": 33895
+    },
+    {
+      "epoch": 5.5301794453507345,
+      "grad_norm": 0.007979627698659897,
+      "learning_rate": 0.0009080679724023615,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 73267072,
+      "step": 33900
+    },
+    {
+      "epoch": 5.530995106035889,
+      "grad_norm": 0.04914901778101921,
+      "learning_rate": 0.0009080268362988572,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 73278208,
+      "step": 33905
+    },
+    {
+      "epoch": 5.531810766721044,
+      "grad_norm": 0.34442588686943054,
+      "learning_rate": 0.0009079856919261716,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 73288800,
+      "step": 33910
+    },
+    {
+      "epoch": 5.532626427406199,
+      "grad_norm": 0.02547566592693329,
+      "learning_rate": 0.0009079445392851383,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 73300064,
+      "step": 33915
+    },
+    {
+      "epoch": 5.533442088091354,
+      "grad_norm": 0.07199371606111526,
+      "learning_rate": 0.0009079033783765914,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 73311264,
+      "step": 33920
+    },
+    {
+      "epoch": 5.5342577487765094,
+      "grad_norm": 0.10011252015829086,
+      "learning_rate": 0.0009078622092013651,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 73322304,
+      "step": 33925
+    },
+    {
+      "epoch": 5.535073409461664,
+      "grad_norm": 0.008656290359795094,
+      "learning_rate": 0.0009078210317602938,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 73333760,
+      "step": 33930
+    },
+    {
+      "epoch": 5.535889070146819,
+      "grad_norm": 0.11770905554294586,
+      "learning_rate": 0.0009077798460542119,
+      "loss": 0.2849,
+      "num_input_tokens_seen": 73343744,
+      "step": 33935
+    },
+    {
+      "epoch": 5.536704730831974,
+      "grad_norm": 0.03572523966431618,
+      "learning_rate": 0.0009077386520839541,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 73353824,
+      "step": 33940
+    },
+    {
+      "epoch": 5.537520391517129,
+      "grad_norm": 0.05641023814678192,
+      "learning_rate": 0.0009076974498503552,
+      "loss": 0.1559,
+      "num_input_tokens_seen": 73363968,
+      "step": 33945
+    },
+    {
+      "epoch": 5.5383360522022835,
+      "grad_norm": 0.09805291891098022,
+      "learning_rate": 0.0009076562393542502,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 73375680,
+      "step": 33950
+    },
+    {
+      "epoch": 5.539151712887438,
+      "grad_norm": 0.05173416808247566,
+      "learning_rate": 0.0009076150205964746,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 73386912,
+      "step": 33955
+    },
+    {
+      "epoch": 5.539967373572594,
+      "grad_norm": 0.14410558342933655,
+      "learning_rate": 0.0009075737935778634,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 73399648,
+      "step": 33960
+    },
+    {
+      "epoch": 5.540783034257749,
+      "grad_norm": 0.1506105214357376,
+      "learning_rate": 0.0009075325582992522,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 73410944,
+      "step": 33965
+    },
+    {
+      "epoch": 5.541598694942904,
+      "grad_norm": 0.030392751097679138,
+      "learning_rate": 0.0009074913147614767,
+      "loss": 0.042,
+      "num_input_tokens_seen": 73422016,
+      "step": 33970
+    },
+    {
+      "epoch": 5.5424143556280585,
+      "grad_norm": 0.020440472289919853,
+      "learning_rate": 0.0009074500629653728,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 73433120,
+      "step": 33975
+    },
+    {
+      "epoch": 5.543230016313213,
+      "grad_norm": 0.02089664526283741,
+      "learning_rate": 0.0009074088029117764,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 73443456,
+      "step": 33980
+    },
+    {
+      "epoch": 5.544045676998369,
+      "grad_norm": 0.3009980022907257,
+      "learning_rate": 0.0009073675346015239,
+      "loss": 0.1754,
+      "num_input_tokens_seen": 73453632,
+      "step": 33985
+    },
+    {
+      "epoch": 5.544861337683524,
+      "grad_norm": 0.18772025406360626,
+      "learning_rate": 0.0009073262580354516,
+      "loss": 0.2225,
+      "num_input_tokens_seen": 73464000,
+      "step": 33990
+    },
+    {
+      "epoch": 5.545676998368679,
+      "grad_norm": 0.02644345909357071,
+      "learning_rate": 0.0009072849732143957,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 73475328,
+      "step": 33995
+    },
+    {
+      "epoch": 5.5464926590538335,
+      "grad_norm": 0.013715567998588085,
+      "learning_rate": 0.0009072436801391932,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 73486464,
+      "step": 34000
+    },
+    {
+      "epoch": 5.547308319738988,
+      "grad_norm": 0.15529221296310425,
+      "learning_rate": 0.0009072023788106811,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 73497440,
+      "step": 34005
+    },
+    {
+      "epoch": 5.548123980424144,
+      "grad_norm": 0.2070222645998001,
+      "learning_rate": 0.0009071610692296961,
+      "loss": 0.1927,
+      "num_input_tokens_seen": 73508704,
+      "step": 34010
+    },
+    {
+      "epoch": 5.548939641109299,
+      "grad_norm": 0.18096806108951569,
+      "learning_rate": 0.0009071197513970755,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 73519264,
+      "step": 34015
+    },
+    {
+      "epoch": 5.549755301794454,
+      "grad_norm": 0.0723312720656395,
+      "learning_rate": 0.0009070784253136565,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 73529088,
+      "step": 34020
+    },
+    {
+      "epoch": 5.5505709624796085,
+      "grad_norm": 0.02088317647576332,
+      "learning_rate": 0.0009070370909802772,
+      "loss": 0.1904,
+      "num_input_tokens_seen": 73540800,
+      "step": 34025
+    },
+    {
+      "epoch": 5.551386623164763,
+      "grad_norm": 0.020408082753419876,
+      "learning_rate": 0.0009069957483977747,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 73550656,
+      "step": 34030
+    },
+    {
+      "epoch": 5.552202283849918,
+      "grad_norm": 0.050628501921892166,
+      "learning_rate": 0.0009069543975669869,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 73561824,
+      "step": 34035
+    },
+    {
+      "epoch": 5.553017944535073,
+      "grad_norm": 0.17295457422733307,
+      "learning_rate": 0.0009069130384887521,
+      "loss": 0.1914,
+      "num_input_tokens_seen": 73572544,
+      "step": 34040
+    },
+    {
+      "epoch": 5.553833605220229,
+      "grad_norm": 0.018812965601682663,
+      "learning_rate": 0.0009068716711639084,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 73583136,
+      "step": 34045
+    },
+    {
+      "epoch": 5.554649265905383,
+      "grad_norm": 0.21679341793060303,
+      "learning_rate": 0.0009068302955932939,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 73594528,
+      "step": 34050
+    },
+    {
+      "epoch": 5.555464926590538,
+      "grad_norm": 0.06878527998924255,
+      "learning_rate": 0.0009067889117777477,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 73606272,
+      "step": 34055
+    },
+    {
+      "epoch": 5.556280587275693,
+      "grad_norm": 0.20378956198692322,
+      "learning_rate": 0.000906747519718108,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 73616384,
+      "step": 34060
+    },
+    {
+      "epoch": 5.557096247960848,
+      "grad_norm": 0.2941659390926361,
+      "learning_rate": 0.0009067061194152138,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 73626624,
+      "step": 34065
+    },
+    {
+      "epoch": 5.557911908646004,
+      "grad_norm": 0.022131171077489853,
+      "learning_rate": 0.0009066647108699041,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 73637536,
+      "step": 34070
+    },
+    {
+      "epoch": 5.558727569331158,
+      "grad_norm": 0.21184739470481873,
+      "learning_rate": 0.0009066232940830182,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 73647744,
+      "step": 34075
+    },
+    {
+      "epoch": 5.559543230016313,
+      "grad_norm": 0.020756877958774567,
+      "learning_rate": 0.0009065818690553955,
+      "loss": 0.3321,
+      "num_input_tokens_seen": 73657952,
+      "step": 34080
+    },
+    {
+      "epoch": 5.560358890701468,
+      "grad_norm": 0.0600406639277935,
+      "learning_rate": 0.0009065404357878752,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 73669376,
+      "step": 34085
+    },
+    {
+      "epoch": 5.561174551386623,
+      "grad_norm": 0.020772617310285568,
+      "learning_rate": 0.0009064989942812974,
+      "loss": 0.106,
+      "num_input_tokens_seen": 73679616,
+      "step": 34090
+    },
+    {
+      "epoch": 5.561990212071779,
+      "grad_norm": 0.12317997217178345,
+      "learning_rate": 0.0009064575445365019,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 73690816,
+      "step": 34095
+    },
+    {
+      "epoch": 5.562805872756933,
+      "grad_norm": 0.057949621230363846,
+      "learning_rate": 0.0009064160865543285,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 73701792,
+      "step": 34100
+    },
+    {
+      "epoch": 5.563621533442088,
+      "grad_norm": 0.08427233248949051,
+      "learning_rate": 0.0009063746203356176,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 73712288,
+      "step": 34105
+    },
+    {
+      "epoch": 5.564437194127243,
+      "grad_norm": 0.12674139440059662,
+      "learning_rate": 0.0009063331458812094,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 73721472,
+      "step": 34110
+    },
+    {
+      "epoch": 5.565252854812398,
+      "grad_norm": 0.13015665113925934,
+      "learning_rate": 0.0009062916631919445,
+      "loss": 0.2981,
+      "num_input_tokens_seen": 73731744,
+      "step": 34115
+    },
+    {
+      "epoch": 5.566068515497553,
+      "grad_norm": 0.016723886132240295,
+      "learning_rate": 0.0009062501722686638,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 73743200,
+      "step": 34120
+    },
+    {
+      "epoch": 5.566884176182708,
+      "grad_norm": 0.2247808575630188,
+      "learning_rate": 0.0009062086731122079,
+      "loss": 0.231,
+      "num_input_tokens_seen": 73754432,
+      "step": 34125
+    },
+    {
+      "epoch": 5.567699836867863,
+      "grad_norm": 0.05223708599805832,
+      "learning_rate": 0.0009061671657234179,
+      "loss": 0.2016,
+      "num_input_tokens_seen": 73766432,
+      "step": 34130
+    },
+    {
+      "epoch": 5.568515497553018,
+      "grad_norm": 0.07750531286001205,
+      "learning_rate": 0.000906125650103135,
+      "loss": 0.126,
+      "num_input_tokens_seen": 73776512,
+      "step": 34135
+    },
+    {
+      "epoch": 5.569331158238173,
+      "grad_norm": 0.07240372151136398,
+      "learning_rate": 0.0009060841262522006,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 73786688,
+      "step": 34140
+    },
+    {
+      "epoch": 5.570146818923328,
+      "grad_norm": 0.07198721915483475,
+      "learning_rate": 0.0009060425941714563,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 73798016,
+      "step": 34145
+    },
+    {
+      "epoch": 5.5709624796084825,
+      "grad_norm": 0.027029162272810936,
+      "learning_rate": 0.0009060010538617437,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 73808992,
+      "step": 34150
+    },
+    {
+      "epoch": 5.571778140293638,
+      "grad_norm": 0.12103355675935745,
+      "learning_rate": 0.0009059595053239047,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 73819520,
+      "step": 34155
+    },
+    {
+      "epoch": 5.572593800978793,
+      "grad_norm": 0.067531056702137,
+      "learning_rate": 0.0009059179485587813,
+      "loss": 0.1778,
+      "num_input_tokens_seen": 73831712,
+      "step": 34160
+    },
+    {
+      "epoch": 5.573409461663948,
+      "grad_norm": 0.07771392166614532,
+      "learning_rate": 0.0009058763835672157,
+      "loss": 0.1988,
+      "num_input_tokens_seen": 73842464,
+      "step": 34165
+    },
+    {
+      "epoch": 5.574225122349103,
+      "grad_norm": 0.04161020740866661,
+      "learning_rate": 0.0009058348103500504,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 73853088,
+      "step": 34170
+    },
+    {
+      "epoch": 5.575040783034257,
+      "grad_norm": 0.02227962017059326,
+      "learning_rate": 0.0009057932289081278,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 73864512,
+      "step": 34175
+    },
+    {
+      "epoch": 5.575856443719413,
+      "grad_norm": 0.02278684638440609,
+      "learning_rate": 0.0009057516392422906,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 73875456,
+      "step": 34180
+    },
+    {
+      "epoch": 5.576672104404568,
+      "grad_norm": 0.0633942186832428,
+      "learning_rate": 0.0009057100413533817,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 73886048,
+      "step": 34185
+    },
+    {
+      "epoch": 5.577487765089723,
+      "grad_norm": 0.012222129851579666,
+      "learning_rate": 0.0009056684352422441,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 73898016,
+      "step": 34190
+    },
+    {
+      "epoch": 5.578303425774878,
+      "grad_norm": 0.024317584931850433,
+      "learning_rate": 0.0009056268209097211,
+      "loss": 0.1371,
+      "num_input_tokens_seen": 73909600,
+      "step": 34195
+    },
+    {
+      "epoch": 5.579119086460032,
+      "grad_norm": 0.02568567730486393,
+      "learning_rate": 0.000905585198356656,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 73920128,
+      "step": 34200
+    },
+    {
+      "epoch": 5.579934747145187,
+      "grad_norm": 0.06447894871234894,
+      "learning_rate": 0.0009055435675838923,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 73931456,
+      "step": 34205
+    },
+    {
+      "epoch": 5.580750407830343,
+      "grad_norm": 0.020777931436896324,
+      "learning_rate": 0.0009055019285922737,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 73942464,
+      "step": 34210
+    },
+    {
+      "epoch": 5.581566068515498,
+      "grad_norm": 0.09878566116094589,
+      "learning_rate": 0.0009054602813826441,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 73953120,
+      "step": 34215
+    },
+    {
+      "epoch": 5.582381729200653,
+      "grad_norm": 0.0664665699005127,
+      "learning_rate": 0.0009054186259558477,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 73963104,
+      "step": 34220
+    },
+    {
+      "epoch": 5.583197389885807,
+      "grad_norm": 0.01421379018574953,
+      "learning_rate": 0.0009053769623127284,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 73974240,
+      "step": 34225
+    },
+    {
+      "epoch": 5.584013050570962,
+      "grad_norm": 0.1316417157649994,
+      "learning_rate": 0.0009053352904541306,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 73984864,
+      "step": 34230
+    },
+    {
+      "epoch": 5.584828711256117,
+      "grad_norm": 0.0478694885969162,
+      "learning_rate": 0.0009052936103808991,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 73995936,
+      "step": 34235
+    },
+    {
+      "epoch": 5.585644371941273,
+      "grad_norm": 0.04798683524131775,
+      "learning_rate": 0.0009052519220938784,
+      "loss": 0.043,
+      "num_input_tokens_seen": 74007008,
+      "step": 34240
+    },
+    {
+      "epoch": 5.5864600326264275,
+      "grad_norm": 0.022165268659591675,
+      "learning_rate": 0.0009052102255939134,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 74017664,
+      "step": 34245
+    },
+    {
+      "epoch": 5.587275693311582,
+      "grad_norm": 0.1620720475912094,
+      "learning_rate": 0.000905168520881849,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 74028928,
+      "step": 34250
+    },
+    {
+      "epoch": 5.588091353996737,
+      "grad_norm": 0.18612481653690338,
+      "learning_rate": 0.0009051268079585306,
+      "loss": 0.2239,
+      "num_input_tokens_seen": 74041088,
+      "step": 34255
+    },
+    {
+      "epoch": 5.588907014681892,
+      "grad_norm": 0.015167465433478355,
+      "learning_rate": 0.0009050850868248037,
+      "loss": 0.3041,
+      "num_input_tokens_seen": 74052896,
+      "step": 34260
+    },
+    {
+      "epoch": 5.589722675367048,
+      "grad_norm": 0.05257358402013779,
+      "learning_rate": 0.0009050433574815134,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 74063872,
+      "step": 34265
+    },
+    {
+      "epoch": 5.5905383360522025,
+      "grad_norm": 0.07323313504457474,
+      "learning_rate": 0.0009050016199295057,
+      "loss": 0.2594,
+      "num_input_tokens_seen": 74073856,
+      "step": 34270
+    },
+    {
+      "epoch": 5.591353996737357,
+      "grad_norm": 0.01376113761216402,
+      "learning_rate": 0.0009049598741696263,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 74085472,
+      "step": 34275
+    },
+    {
+      "epoch": 5.592169657422512,
+      "grad_norm": 0.02173309214413166,
+      "learning_rate": 0.0009049181202027215,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 74094720,
+      "step": 34280
+    },
+    {
+      "epoch": 5.592985318107667,
+      "grad_norm": 0.14551734924316406,
+      "learning_rate": 0.0009048763580296373,
+      "loss": 0.173,
+      "num_input_tokens_seen": 74105888,
+      "step": 34285
+    },
+    {
+      "epoch": 5.593800978792823,
+      "grad_norm": 0.18056020140647888,
+      "learning_rate": 0.00090483458765122,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 74115968,
+      "step": 34290
+    },
+    {
+      "epoch": 5.5946166394779775,
+      "grad_norm": 0.21234531700611115,
+      "learning_rate": 0.0009047928090683162,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 74126880,
+      "step": 34295
+    },
+    {
+      "epoch": 5.595432300163132,
+      "grad_norm": 0.020504070445895195,
+      "learning_rate": 0.0009047510222817725,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 74137952,
+      "step": 34300
+    },
+    {
+      "epoch": 5.596247960848287,
+      "grad_norm": 0.2272954136133194,
+      "learning_rate": 0.0009047092272924361,
+      "loss": 0.1549,
+      "num_input_tokens_seen": 74148640,
+      "step": 34305
+    },
+    {
+      "epoch": 5.597063621533442,
+      "grad_norm": 0.04594704508781433,
+      "learning_rate": 0.0009046674241011537,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 74159616,
+      "step": 34310
+    },
+    {
+      "epoch": 5.597879282218597,
+      "grad_norm": 0.18465717136859894,
+      "learning_rate": 0.0009046256127087727,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 74170208,
+      "step": 34315
+    },
+    {
+      "epoch": 5.598694942903752,
+      "grad_norm": 0.1933651864528656,
+      "learning_rate": 0.0009045837931161402,
+      "loss": 0.2482,
+      "num_input_tokens_seen": 74180992,
+      "step": 34320
+    },
+    {
+      "epoch": 5.599510603588907,
+      "grad_norm": 0.01716572791337967,
+      "learning_rate": 0.0009045419653241038,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 74191392,
+      "step": 34325
+    },
+    {
+      "epoch": 5.600326264274062,
+      "grad_norm": 0.103814996778965,
+      "learning_rate": 0.0009045001293335115,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 74202496,
+      "step": 34330
+    },
+    {
+      "epoch": 5.601141924959217,
+      "grad_norm": 0.1775224357843399,
+      "learning_rate": 0.0009044582851452107,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 74213632,
+      "step": 34335
+    },
+    {
+      "epoch": 5.601957585644372,
+      "grad_norm": 0.053888604044914246,
+      "learning_rate": 0.0009044164327600499,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 74223392,
+      "step": 34340
+    },
+    {
+      "epoch": 5.602773246329527,
+      "grad_norm": 0.02769533544778824,
+      "learning_rate": 0.000904374572178877,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 74234368,
+      "step": 34345
+    },
+    {
+      "epoch": 5.603588907014682,
+      "grad_norm": 0.07350389659404755,
+      "learning_rate": 0.0009043327034025404,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 74245344,
+      "step": 34350
+    },
+    {
+      "epoch": 5.604404567699837,
+      "grad_norm": 0.015233350917696953,
+      "learning_rate": 0.0009042908264318885,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 74254368,
+      "step": 34355
+    },
+    {
+      "epoch": 5.605220228384992,
+      "grad_norm": 0.02992558479309082,
+      "learning_rate": 0.0009042489412677702,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 74265344,
+      "step": 34360
+    },
+    {
+      "epoch": 5.606035889070147,
+      "grad_norm": 0.061724767088890076,
+      "learning_rate": 0.0009042070479110343,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 74275264,
+      "step": 34365
+    },
+    {
+      "epoch": 5.6068515497553015,
+      "grad_norm": 0.08111986517906189,
+      "learning_rate": 0.0009041651463625298,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 74284608,
+      "step": 34370
+    },
+    {
+      "epoch": 5.607667210440457,
+      "grad_norm": 0.05526169762015343,
+      "learning_rate": 0.0009041232366231059,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 74296128,
+      "step": 34375
+    },
+    {
+      "epoch": 5.608482871125612,
+      "grad_norm": 0.21980856359004974,
+      "learning_rate": 0.0009040813186936119,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 74308000,
+      "step": 34380
+    },
+    {
+      "epoch": 5.609298531810767,
+      "grad_norm": 0.23230993747711182,
+      "learning_rate": 0.0009040393925748973,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 74318240,
+      "step": 34385
+    },
+    {
+      "epoch": 5.610114192495922,
+      "grad_norm": 0.19267278909683228,
+      "learning_rate": 0.0009039974582678121,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 74329184,
+      "step": 34390
+    },
+    {
+      "epoch": 5.6109298531810765,
+      "grad_norm": 0.029193982481956482,
+      "learning_rate": 0.0009039555157732056,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 74340000,
+      "step": 34395
+    },
+    {
+      "epoch": 5.611745513866231,
+      "grad_norm": 0.15133799612522125,
+      "learning_rate": 0.0009039135650919283,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 74350624,
+      "step": 34400
+    },
+    {
+      "epoch": 5.612561174551386,
+      "grad_norm": 0.161695659160614,
+      "learning_rate": 0.0009038716062248302,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 74360608,
+      "step": 34405
+    },
+    {
+      "epoch": 5.613376835236542,
+      "grad_norm": 0.05793755128979683,
+      "learning_rate": 0.0009038296391727616,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 74371104,
+      "step": 34410
+    },
+    {
+      "epoch": 5.614192495921697,
+      "grad_norm": 0.008591441437602043,
+      "learning_rate": 0.0009037876639365731,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 74382400,
+      "step": 34415
+    },
+    {
+      "epoch": 5.6150081566068515,
+      "grad_norm": 0.14188680052757263,
+      "learning_rate": 0.0009037456805171154,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 74394048,
+      "step": 34420
+    },
+    {
+      "epoch": 5.615823817292006,
+      "grad_norm": 0.05818561464548111,
+      "learning_rate": 0.0009037036889152391,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 74406016,
+      "step": 34425
+    },
+    {
+      "epoch": 5.616639477977161,
+      "grad_norm": 0.1742202490568161,
+      "learning_rate": 0.0009036616891317956,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 74417152,
+      "step": 34430
+    },
+    {
+      "epoch": 5.617455138662317,
+      "grad_norm": 0.13640397787094116,
+      "learning_rate": 0.0009036196811676358,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 74428384,
+      "step": 34435
+    },
+    {
+      "epoch": 5.618270799347472,
+      "grad_norm": 0.047426458448171616,
+      "learning_rate": 0.0009035776650236112,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 74438880,
+      "step": 34440
+    },
+    {
+      "epoch": 5.6190864600326265,
+      "grad_norm": 0.14811500906944275,
+      "learning_rate": 0.0009035356407005732,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 74449504,
+      "step": 34445
+    },
+    {
+      "epoch": 5.619902120717781,
+      "grad_norm": 0.21113741397857666,
+      "learning_rate": 0.0009034936081993736,
+      "loss": 0.2132,
+      "num_input_tokens_seen": 74460032,
+      "step": 34450
+    },
+    {
+      "epoch": 5.620717781402936,
+      "grad_norm": 0.055134713649749756,
+      "learning_rate": 0.0009034515675208641,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 74471072,
+      "step": 34455
+    },
+    {
+      "epoch": 5.621533442088092,
+      "grad_norm": 0.29549095034599304,
+      "learning_rate": 0.0009034095186658966,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 74483360,
+      "step": 34460
+    },
+    {
+      "epoch": 5.622349102773247,
+      "grad_norm": 0.280021607875824,
+      "learning_rate": 0.0009033674616353236,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 74492896,
+      "step": 34465
+    },
+    {
+      "epoch": 5.623164763458401,
+      "grad_norm": 0.26246124505996704,
+      "learning_rate": 0.0009033253964299972,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 74503200,
+      "step": 34470
+    },
+    {
+      "epoch": 5.623980424143556,
+      "grad_norm": 0.050797343254089355,
+      "learning_rate": 0.0009032833230507702,
+      "loss": 0.2738,
+      "num_input_tokens_seen": 74514112,
+      "step": 34475
+    },
+    {
+      "epoch": 5.624796084828711,
+      "grad_norm": 0.0720033347606659,
+      "learning_rate": 0.000903241241498495,
+      "loss": 0.2803,
+      "num_input_tokens_seen": 74525856,
+      "step": 34480
+    },
+    {
+      "epoch": 5.625611745513866,
+      "grad_norm": 0.19244541227817535,
+      "learning_rate": 0.0009031991517740244,
+      "loss": 0.1479,
+      "num_input_tokens_seen": 74535232,
+      "step": 34485
+    },
+    {
+      "epoch": 5.626427406199021,
+      "grad_norm": 0.13854020833969116,
+      "learning_rate": 0.0009031570538782115,
+      "loss": 0.1443,
+      "num_input_tokens_seen": 74545216,
+      "step": 34490
+    },
+    {
+      "epoch": 5.627243066884176,
+      "grad_norm": 0.46975669264793396,
+      "learning_rate": 0.0009031149478119094,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 74556192,
+      "step": 34495
+    },
+    {
+      "epoch": 5.628058727569331,
+      "grad_norm": 0.1952454298734665,
+      "learning_rate": 0.0009030728335759716,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 74566240,
+      "step": 34500
+    },
+    {
+      "epoch": 5.628874388254486,
+      "grad_norm": 0.13439679145812988,
+      "learning_rate": 0.0009030307111712514,
+      "loss": 0.1536,
+      "num_input_tokens_seen": 74576768,
+      "step": 34505
+    },
+    {
+      "epoch": 5.629690048939641,
+      "grad_norm": 0.03982832282781601,
+      "learning_rate": 0.0009029885805986027,
+      "loss": 0.1538,
+      "num_input_tokens_seen": 74587872,
+      "step": 34510
+    },
+    {
+      "epoch": 5.630505709624796,
+      "grad_norm": 0.24063228070735931,
+      "learning_rate": 0.0009029464418588791,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 74598752,
+      "step": 34515
+    },
+    {
+      "epoch": 5.631321370309951,
+      "grad_norm": 0.0440259650349617,
+      "learning_rate": 0.0009029042949529347,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 74609856,
+      "step": 34520
+    },
+    {
+      "epoch": 5.632137030995106,
+      "grad_norm": 0.05447227880358696,
+      "learning_rate": 0.0009028621398816236,
+      "loss": 0.1447,
+      "num_input_tokens_seen": 74620960,
+      "step": 34525
+    },
+    {
+      "epoch": 5.632952691680261,
+      "grad_norm": 0.018078099936246872,
+      "learning_rate": 0.0009028199766458002,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 74632192,
+      "step": 34530
+    },
+    {
+      "epoch": 5.633768352365416,
+      "grad_norm": 0.12170816212892532,
+      "learning_rate": 0.000902777805246319,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 74643424,
+      "step": 34535
+    },
+    {
+      "epoch": 5.634584013050571,
+      "grad_norm": 0.151223286986351,
+      "learning_rate": 0.0009027356256840345,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 74654080,
+      "step": 34540
+    },
+    {
+      "epoch": 5.635399673735726,
+      "grad_norm": 0.04554088041186333,
+      "learning_rate": 0.0009026934379598018,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 74663840,
+      "step": 34545
+    },
+    {
+      "epoch": 5.636215334420881,
+      "grad_norm": 0.05020049586892128,
+      "learning_rate": 0.0009026512420744756,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 74674688,
+      "step": 34550
+    },
+    {
+      "epoch": 5.637030995106036,
+      "grad_norm": 0.09834477305412292,
+      "learning_rate": 0.0009026090380289111,
+      "loss": 0.1564,
+      "num_input_tokens_seen": 74685344,
+      "step": 34555
+    },
+    {
+      "epoch": 5.637846655791191,
+      "grad_norm": 0.0076295617036521435,
+      "learning_rate": 0.0009025668258239638,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 74697952,
+      "step": 34560
+    },
+    {
+      "epoch": 5.638662316476346,
+      "grad_norm": 0.012084455229341984,
+      "learning_rate": 0.0009025246054604892,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 74708864,
+      "step": 34565
+    },
+    {
+      "epoch": 5.6394779771615005,
+      "grad_norm": 0.1278560906648636,
+      "learning_rate": 0.0009024823769393427,
+      "loss": 0.2907,
+      "num_input_tokens_seen": 74719072,
+      "step": 34570
+    },
+    {
+      "epoch": 5.640293637846656,
+      "grad_norm": 0.0414595901966095,
+      "learning_rate": 0.0009024401402613803,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 74729408,
+      "step": 34575
+    },
+    {
+      "epoch": 5.641109298531811,
+      "grad_norm": 0.02301446720957756,
+      "learning_rate": 0.0009023978954274579,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 74740064,
+      "step": 34580
+    },
+    {
+      "epoch": 5.641924959216966,
+      "grad_norm": 0.021538980305194855,
+      "learning_rate": 0.0009023556424384317,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 74750080,
+      "step": 34585
+    },
+    {
+      "epoch": 5.642740619902121,
+      "grad_norm": 0.06400078535079956,
+      "learning_rate": 0.0009023133812951581,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 74761536,
+      "step": 34590
+    },
+    {
+      "epoch": 5.643556280587275,
+      "grad_norm": 0.032709237188100815,
+      "learning_rate": 0.0009022711119984932,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 74772128,
+      "step": 34595
+    },
+    {
+      "epoch": 5.64437194127243,
+      "grad_norm": 0.09720578044652939,
+      "learning_rate": 0.0009022288345492941,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 74783040,
+      "step": 34600
+    },
+    {
+      "epoch": 5.645187601957586,
+      "grad_norm": 0.3814923167228699,
+      "learning_rate": 0.0009021865489484173,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 74793984,
+      "step": 34605
+    },
+    {
+      "epoch": 5.646003262642741,
+      "grad_norm": 0.06573888659477234,
+      "learning_rate": 0.0009021442551967198,
+      "loss": 0.1281,
+      "num_input_tokens_seen": 74805088,
+      "step": 34610
+    },
+    {
+      "epoch": 5.646818923327896,
+      "grad_norm": 0.08702082186937332,
+      "learning_rate": 0.000902101953295059,
+      "loss": 0.1954,
+      "num_input_tokens_seen": 74815520,
+      "step": 34615
+    },
+    {
+      "epoch": 5.64763458401305,
+      "grad_norm": 0.03930259495973587,
+      "learning_rate": 0.0009020596432442918,
+      "loss": 0.049,
+      "num_input_tokens_seen": 74826368,
+      "step": 34620
+    },
+    {
+      "epoch": 5.648450244698205,
+      "grad_norm": 0.017254164442420006,
+      "learning_rate": 0.0009020173250452761,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 74836416,
+      "step": 34625
+    },
+    {
+      "epoch": 5.649265905383361,
+      "grad_norm": 0.0806068629026413,
+      "learning_rate": 0.0009019749986988692,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 74846784,
+      "step": 34630
+    },
+    {
+      "epoch": 5.650081566068516,
+      "grad_norm": 0.19931930303573608,
+      "learning_rate": 0.000901932664205929,
+      "loss": 0.106,
+      "num_input_tokens_seen": 74857216,
+      "step": 34635
+    },
+    {
+      "epoch": 5.650897226753671,
+      "grad_norm": 0.06503892689943314,
+      "learning_rate": 0.0009018903215673135,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 74868384,
+      "step": 34640
+    },
+    {
+      "epoch": 5.651712887438825,
+      "grad_norm": 0.12235700339078903,
+      "learning_rate": 0.0009018479707838808,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 74878592,
+      "step": 34645
+    },
+    {
+      "epoch": 5.65252854812398,
+      "grad_norm": 0.21434731781482697,
+      "learning_rate": 0.0009018056118564893,
+      "loss": 0.0589,
+      "num_input_tokens_seen": 74888992,
+      "step": 34650
+    },
+    {
+      "epoch": 5.653344208809135,
+      "grad_norm": 0.19774998724460602,
+      "learning_rate": 0.0009017632447859971,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 74900640,
+      "step": 34655
+    },
+    {
+      "epoch": 5.654159869494291,
+      "grad_norm": 0.011533130891621113,
+      "learning_rate": 0.0009017208695732633,
+      "loss": 0.037,
+      "num_input_tokens_seen": 74912736,
+      "step": 34660
+    },
+    {
+      "epoch": 5.6549755301794455,
+      "grad_norm": 0.0663393959403038,
+      "learning_rate": 0.0009016784862191463,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 74923616,
+      "step": 34665
+    },
+    {
+      "epoch": 5.6557911908646,
+      "grad_norm": 0.028127873316407204,
+      "learning_rate": 0.0009016360947245053,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 74934336,
+      "step": 34670
+    },
+    {
+      "epoch": 5.656606851549755,
+      "grad_norm": 0.12323799729347229,
+      "learning_rate": 0.0009015936950901993,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 74945952,
+      "step": 34675
+    },
+    {
+      "epoch": 5.65742251223491,
+      "grad_norm": 0.006789292208850384,
+      "learning_rate": 0.0009015512873170877,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 74956512,
+      "step": 34680
+    },
+    {
+      "epoch": 5.658238172920065,
+      "grad_norm": 0.08701828867197037,
+      "learning_rate": 0.0009015088714060297,
+      "loss": 0.3225,
+      "num_input_tokens_seen": 74967104,
+      "step": 34685
+    },
+    {
+      "epoch": 5.6590538336052205,
+      "grad_norm": 0.21887104213237762,
+      "learning_rate": 0.0009014664473578851,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 74977344,
+      "step": 34690
+    },
+    {
+      "epoch": 5.659869494290375,
+      "grad_norm": 0.3914003074169159,
+      "learning_rate": 0.0009014240151735138,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 74988672,
+      "step": 34695
+    },
+    {
+      "epoch": 5.66068515497553,
+      "grad_norm": 0.015539568848907948,
+      "learning_rate": 0.0009013815748537755,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 75000384,
+      "step": 34700
+    },
+    {
+      "epoch": 5.661500815660685,
+      "grad_norm": 0.06390603631734848,
+      "learning_rate": 0.0009013391263995303,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 75010528,
+      "step": 34705
+    },
+    {
+      "epoch": 5.66231647634584,
+      "grad_norm": 0.011964190751314163,
+      "learning_rate": 0.0009012966698116387,
+      "loss": 0.023,
+      "num_input_tokens_seen": 75021920,
+      "step": 34710
+    },
+    {
+      "epoch": 5.6631321370309955,
+      "grad_norm": 0.03568481281399727,
+      "learning_rate": 0.0009012542050909609,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 75031968,
+      "step": 34715
+    },
+    {
+      "epoch": 5.66394779771615,
+      "grad_norm": 0.17110410332679749,
+      "learning_rate": 0.0009012117322383577,
+      "loss": 0.1272,
+      "num_input_tokens_seen": 75043200,
+      "step": 34720
+    },
+    {
+      "epoch": 5.664763458401305,
+      "grad_norm": 0.04262327775359154,
+      "learning_rate": 0.0009011692512546897,
+      "loss": 0.058,
+      "num_input_tokens_seen": 75054016,
+      "step": 34725
+    },
+    {
+      "epoch": 5.66557911908646,
+      "grad_norm": 0.1769617199897766,
+      "learning_rate": 0.0009011267621408179,
+      "loss": 0.064,
+      "num_input_tokens_seen": 75065632,
+      "step": 34730
+    },
+    {
+      "epoch": 5.666394779771615,
+      "grad_norm": 0.27743223309516907,
+      "learning_rate": 0.0009010842648976034,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 75076384,
+      "step": 34735
+    },
+    {
+      "epoch": 5.6672104404567705,
+      "grad_norm": 0.2698041796684265,
+      "learning_rate": 0.0009010417595259077,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 75087104,
+      "step": 34740
+    },
+    {
+      "epoch": 5.668026101141925,
+      "grad_norm": 0.13711011409759521,
+      "learning_rate": 0.0009009992460265917,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 75097184,
+      "step": 34745
+    },
+    {
+      "epoch": 5.66884176182708,
+      "grad_norm": 0.013362093828618526,
+      "learning_rate": 0.0009009567244005174,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 75107136,
+      "step": 34750
+    },
+    {
+      "epoch": 5.669657422512235,
+      "grad_norm": 0.028613250702619553,
+      "learning_rate": 0.0009009141946485464,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 75117024,
+      "step": 34755
+    },
+    {
+      "epoch": 5.67047308319739,
+      "grad_norm": 0.016025543212890625,
+      "learning_rate": 0.0009008716567715406,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 75129632,
+      "step": 34760
+    },
+    {
+      "epoch": 5.671288743882545,
+      "grad_norm": 0.010202709585428238,
+      "learning_rate": 0.0009008291107703621,
+      "loss": 0.2316,
+      "num_input_tokens_seen": 75140704,
+      "step": 34765
+    },
+    {
+      "epoch": 5.672104404567699,
+      "grad_norm": 0.010567674413323402,
+      "learning_rate": 0.0009007865566458733,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 75150880,
+      "step": 34770
+    },
+    {
+      "epoch": 5.672920065252855,
+      "grad_norm": 0.2892915606498718,
+      "learning_rate": 0.0009007439943989364,
+      "loss": 0.1478,
+      "num_input_tokens_seen": 75161728,
+      "step": 34775
+    },
+    {
+      "epoch": 5.67373572593801,
+      "grad_norm": 0.05027128756046295,
+      "learning_rate": 0.0009007014240304143,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 75171936,
+      "step": 34780
+    },
+    {
+      "epoch": 5.674551386623165,
+      "grad_norm": 0.06722673773765564,
+      "learning_rate": 0.0009006588455411692,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 75182720,
+      "step": 34785
+    },
+    {
+      "epoch": 5.6753670473083195,
+      "grad_norm": 0.2073163390159607,
+      "learning_rate": 0.0009006162589320645,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 75193344,
+      "step": 34790
+    },
+    {
+      "epoch": 5.676182707993474,
+      "grad_norm": 0.10115987807512283,
+      "learning_rate": 0.000900573664203963,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 75203104,
+      "step": 34795
+    },
+    {
+      "epoch": 5.67699836867863,
+      "grad_norm": 0.4650232195854187,
+      "learning_rate": 0.0009005310613577282,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 75213632,
+      "step": 34800
+    },
+    {
+      "epoch": 5.677814029363785,
+      "grad_norm": 0.007083847187459469,
+      "learning_rate": 0.0009004884503942232,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 75224192,
+      "step": 34805
+    },
+    {
+      "epoch": 5.67862969004894,
+      "grad_norm": 0.008455055765807629,
+      "learning_rate": 0.0009004458313143118,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 75234880,
+      "step": 34810
+    },
+    {
+      "epoch": 5.6794453507340945,
+      "grad_norm": 0.10253097862005234,
+      "learning_rate": 0.0009004032041188575,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 75244768,
+      "step": 34815
+    },
+    {
+      "epoch": 5.680261011419249,
+      "grad_norm": 0.25227639079093933,
+      "learning_rate": 0.0009003605688087244,
+      "loss": 0.2557,
+      "num_input_tokens_seen": 75255264,
+      "step": 34820
+    },
+    {
+      "epoch": 5.681076672104405,
+      "grad_norm": 0.040591347962617874,
+      "learning_rate": 0.0009003179253847764,
+      "loss": 0.2172,
+      "num_input_tokens_seen": 75265408,
+      "step": 34825
+    },
+    {
+      "epoch": 5.68189233278956,
+      "grad_norm": 0.22518138587474823,
+      "learning_rate": 0.0009002752738478779,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 75277504,
+      "step": 34830
+    },
+    {
+      "epoch": 5.682707993474715,
+      "grad_norm": 0.06464552134275436,
+      "learning_rate": 0.000900232614198893,
+      "loss": 0.1623,
+      "num_input_tokens_seen": 75288864,
+      "step": 34835
+    },
+    {
+      "epoch": 5.6835236541598695,
+      "grad_norm": 0.02341165393590927,
+      "learning_rate": 0.0009001899464386867,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 75298784,
+      "step": 34840
+    },
+    {
+      "epoch": 5.684339314845024,
+      "grad_norm": 0.0356857031583786,
+      "learning_rate": 0.0009001472705681233,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 75309888,
+      "step": 34845
+    },
+    {
+      "epoch": 5.685154975530179,
+      "grad_norm": 0.023588141426444054,
+      "learning_rate": 0.0009001045865880679,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 75321216,
+      "step": 34850
+    },
+    {
+      "epoch": 5.685970636215334,
+      "grad_norm": 0.005699558649212122,
+      "learning_rate": 0.0009000618944993854,
+      "loss": 0.073,
+      "num_input_tokens_seen": 75333280,
+      "step": 34855
+    },
+    {
+      "epoch": 5.68678629690049,
+      "grad_norm": 0.2904861569404602,
+      "learning_rate": 0.0009000191943029412,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 75342464,
+      "step": 34860
+    },
+    {
+      "epoch": 5.6876019575856445,
+      "grad_norm": 0.07417767494916916,
+      "learning_rate": 0.0008999764859996005,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 75354240,
+      "step": 34865
+    },
+    {
+      "epoch": 5.688417618270799,
+      "grad_norm": 0.06917222589254379,
+      "learning_rate": 0.000899933769590229,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 75364992,
+      "step": 34870
+    },
+    {
+      "epoch": 5.689233278955954,
+      "grad_norm": 0.16416126489639282,
+      "learning_rate": 0.0008998910450756923,
+      "loss": 0.2155,
+      "num_input_tokens_seen": 75375392,
+      "step": 34875
+    },
+    {
+      "epoch": 5.690048939641109,
+      "grad_norm": 0.23445457220077515,
+      "learning_rate": 0.0008998483124568561,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 75387328,
+      "step": 34880
+    },
+    {
+      "epoch": 5.690864600326265,
+      "grad_norm": 0.01251760683953762,
+      "learning_rate": 0.0008998055717345868,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 75397984,
+      "step": 34885
+    },
+    {
+      "epoch": 5.691680261011419,
+      "grad_norm": 0.01877402886748314,
+      "learning_rate": 0.0008997628229097503,
+      "loss": 0.1067,
+      "num_input_tokens_seen": 75407360,
+      "step": 34890
+    },
+    {
+      "epoch": 5.692495921696574,
+      "grad_norm": 0.17165693640708923,
+      "learning_rate": 0.0008997200659832129,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 75417408,
+      "step": 34895
+    },
+    {
+      "epoch": 5.693311582381729,
+      "grad_norm": 0.07236825674772263,
+      "learning_rate": 0.0008996773009558416,
+      "loss": 0.045,
+      "num_input_tokens_seen": 75427840,
+      "step": 34900
+    },
+    {
+      "epoch": 5.694127243066884,
+      "grad_norm": 0.34581971168518066,
+      "learning_rate": 0.0008996345278285027,
+      "loss": 0.1505,
+      "num_input_tokens_seen": 75439424,
+      "step": 34905
+    },
+    {
+      "epoch": 5.69494290375204,
+      "grad_norm": 0.22256053984165192,
+      "learning_rate": 0.000899591746602063,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 75450272,
+      "step": 34910
+    },
+    {
+      "epoch": 5.695758564437194,
+      "grad_norm": 0.0090791629627347,
+      "learning_rate": 0.0008995489572773896,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 75460544,
+      "step": 34915
+    },
+    {
+      "epoch": 5.696574225122349,
+      "grad_norm": 0.04982369393110275,
+      "learning_rate": 0.0008995061598553499,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 75471488,
+      "step": 34920
+    },
+    {
+      "epoch": 5.697389885807504,
+      "grad_norm": 0.14165297150611877,
+      "learning_rate": 0.000899463354336811,
+      "loss": 0.1819,
+      "num_input_tokens_seen": 75482944,
+      "step": 34925
+    },
+    {
+      "epoch": 5.698205546492659,
+      "grad_norm": 0.019582441076636314,
+      "learning_rate": 0.0008994205407226403,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 75493984,
+      "step": 34930
+    },
+    {
+      "epoch": 5.699021207177814,
+      "grad_norm": 0.00845408346503973,
+      "learning_rate": 0.0008993777190137058,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 75504864,
+      "step": 34935
+    },
+    {
+      "epoch": 5.699836867862969,
+      "grad_norm": 0.1220518946647644,
+      "learning_rate": 0.0008993348892108753,
+      "loss": 0.125,
+      "num_input_tokens_seen": 75515936,
+      "step": 34940
+    },
+    {
+      "epoch": 5.700652528548124,
+      "grad_norm": 0.0652894675731659,
+      "learning_rate": 0.0008992920513150165,
+      "loss": 0.051,
+      "num_input_tokens_seen": 75527520,
+      "step": 34945
+    },
+    {
+      "epoch": 5.701468189233279,
+      "grad_norm": 0.02808886580169201,
+      "learning_rate": 0.0008992492053269976,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 75539072,
+      "step": 34950
+    },
+    {
+      "epoch": 5.702283849918434,
+      "grad_norm": 0.17246325314044952,
+      "learning_rate": 0.0008992063512476873,
+      "loss": 0.1733,
+      "num_input_tokens_seen": 75549792,
+      "step": 34955
+    },
+    {
+      "epoch": 5.703099510603589,
+      "grad_norm": 0.18310581147670746,
+      "learning_rate": 0.0008991634890779538,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 75560448,
+      "step": 34960
+    },
+    {
+      "epoch": 5.7039151712887435,
+      "grad_norm": 0.048973195254802704,
+      "learning_rate": 0.0008991206188186658,
+      "loss": 0.1631,
+      "num_input_tokens_seen": 75571776,
+      "step": 34965
+    },
+    {
+      "epoch": 5.704730831973899,
+      "grad_norm": 0.10040713101625443,
+      "learning_rate": 0.0008990777404706922,
+      "loss": 0.2469,
+      "num_input_tokens_seen": 75583328,
+      "step": 34970
+    },
+    {
+      "epoch": 5.705546492659054,
+      "grad_norm": 0.19471172988414764,
+      "learning_rate": 0.0008990348540349019,
+      "loss": 0.1636,
+      "num_input_tokens_seen": 75593984,
+      "step": 34975
+    },
+    {
+      "epoch": 5.706362153344209,
+      "grad_norm": 0.25231602787971497,
+      "learning_rate": 0.0008989919595121641,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 75604256,
+      "step": 34980
+    },
+    {
+      "epoch": 5.707177814029364,
+      "grad_norm": 0.02728627808392048,
+      "learning_rate": 0.000898949056903348,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 75614848,
+      "step": 34985
+    },
+    {
+      "epoch": 5.7079934747145185,
+      "grad_norm": 0.22083836793899536,
+      "learning_rate": 0.0008989061462093233,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 75626208,
+      "step": 34990
+    },
+    {
+      "epoch": 5.708809135399674,
+      "grad_norm": 0.03731374442577362,
+      "learning_rate": 0.0008988632274309593,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 75637024,
+      "step": 34995
+    },
+    {
+      "epoch": 5.709624796084829,
+      "grad_norm": 0.01850057952105999,
+      "learning_rate": 0.0008988203005691262,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 75647456,
+      "step": 35000
+    },
+    {
+      "epoch": 5.710440456769984,
+      "grad_norm": 0.08934499323368073,
+      "learning_rate": 0.0008987773656246936,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 75658368,
+      "step": 35005
+    },
+    {
+      "epoch": 5.711256117455139,
+      "grad_norm": 0.11565990746021271,
+      "learning_rate": 0.0008987344225985319,
+      "loss": 0.1668,
+      "num_input_tokens_seen": 75668640,
+      "step": 35010
+    },
+    {
+      "epoch": 5.712071778140293,
+      "grad_norm": 0.07857227325439453,
+      "learning_rate": 0.0008986914714915112,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 75679136,
+      "step": 35015
+    },
+    {
+      "epoch": 5.712887438825448,
+      "grad_norm": 0.018412547186017036,
+      "learning_rate": 0.000898648512304502,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 75689312,
+      "step": 35020
+    },
+    {
+      "epoch": 5.713703099510604,
+      "grad_norm": 0.15788637101650238,
+      "learning_rate": 0.0008986055450383752,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 75699360,
+      "step": 35025
+    },
+    {
+      "epoch": 5.714518760195759,
+      "grad_norm": 0.059505756944417953,
+      "learning_rate": 0.0008985625696940013,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 75710304,
+      "step": 35030
+    },
+    {
+      "epoch": 5.715334420880914,
+      "grad_norm": 0.03797432407736778,
+      "learning_rate": 0.0008985195862722513,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 75721408,
+      "step": 35035
+    },
+    {
+      "epoch": 5.716150081566068,
+      "grad_norm": 0.08449093252420425,
+      "learning_rate": 0.0008984765947739964,
+      "loss": 0.154,
+      "num_input_tokens_seen": 75732832,
+      "step": 35040
+    },
+    {
+      "epoch": 5.716965742251223,
+      "grad_norm": 0.0638086199760437,
+      "learning_rate": 0.0008984335952001075,
+      "loss": 0.0495,
+      "num_input_tokens_seen": 75744256,
+      "step": 35045
+    },
+    {
+      "epoch": 5.717781402936378,
+      "grad_norm": 0.050827570259571075,
+      "learning_rate": 0.0008983905875514566,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 75754016,
+      "step": 35050
+    },
+    {
+      "epoch": 5.718597063621534,
+      "grad_norm": 0.13446107506752014,
+      "learning_rate": 0.000898347571828915,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 75766304,
+      "step": 35055
+    },
+    {
+      "epoch": 5.719412724306689,
+      "grad_norm": 0.03578329086303711,
+      "learning_rate": 0.0008983045480333545,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 75776544,
+      "step": 35060
+    },
+    {
+      "epoch": 5.720228384991843,
+      "grad_norm": 0.11802957952022552,
+      "learning_rate": 0.0008982615161656471,
+      "loss": 0.2292,
+      "num_input_tokens_seen": 75787008,
+      "step": 35065
+    },
+    {
+      "epoch": 5.721044045676998,
+      "grad_norm": 0.011829815804958344,
+      "learning_rate": 0.0008982184762266648,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 75796128,
+      "step": 35070
+    },
+    {
+      "epoch": 5.721859706362153,
+      "grad_norm": 0.09536035358905792,
+      "learning_rate": 0.00089817542821728,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 75808640,
+      "step": 35075
+    },
+    {
+      "epoch": 5.722675367047309,
+      "grad_norm": 0.21114234626293182,
+      "learning_rate": 0.0008981323721383649,
+      "loss": 0.2755,
+      "num_input_tokens_seen": 75819040,
+      "step": 35080
+    },
+    {
+      "epoch": 5.7234910277324635,
+      "grad_norm": 0.1931707113981247,
+      "learning_rate": 0.0008980893079907922,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 75830464,
+      "step": 35085
+    },
+    {
+      "epoch": 5.724306688417618,
+      "grad_norm": 0.010170339606702328,
+      "learning_rate": 0.0008980462357754347,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 75841440,
+      "step": 35090
+    },
+    {
+      "epoch": 5.725122349102773,
+      "grad_norm": 0.11149877309799194,
+      "learning_rate": 0.0008980031554931654,
+      "loss": 0.1586,
+      "num_input_tokens_seen": 75853952,
+      "step": 35095
+    },
+    {
+      "epoch": 5.725938009787928,
+      "grad_norm": 0.22925962507724762,
+      "learning_rate": 0.0008979600671448571,
+      "loss": 0.1256,
+      "num_input_tokens_seen": 75863776,
+      "step": 35100
+    },
+    {
+      "epoch": 5.726753670473083,
+      "grad_norm": 0.15158496797084808,
+      "learning_rate": 0.0008979169707313831,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 75876352,
+      "step": 35105
+    },
+    {
+      "epoch": 5.7275693311582385,
+      "grad_norm": 0.04836349934339523,
+      "learning_rate": 0.000897873866253617,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 75888000,
+      "step": 35110
+    },
+    {
+      "epoch": 5.728384991843393,
+      "grad_norm": 0.011450660414993763,
+      "learning_rate": 0.0008978307537124324,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 75898048,
+      "step": 35115
+    },
+    {
+      "epoch": 5.729200652528548,
+      "grad_norm": 0.2579789161682129,
+      "learning_rate": 0.0008977876331087027,
+      "loss": 0.3243,
+      "num_input_tokens_seen": 75909344,
+      "step": 35120
+    },
+    {
+      "epoch": 5.730016313213703,
+      "grad_norm": 0.1533122956752777,
+      "learning_rate": 0.0008977445044433021,
+      "loss": 0.108,
+      "num_input_tokens_seen": 75919360,
+      "step": 35125
+    },
+    {
+      "epoch": 5.730831973898858,
+      "grad_norm": 0.011914343573153019,
+      "learning_rate": 0.0008977013677171045,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 75930624,
+      "step": 35130
+    },
+    {
+      "epoch": 5.731647634584013,
+      "grad_norm": 0.054159220308065414,
+      "learning_rate": 0.0008976582229309842,
+      "loss": 0.095,
+      "num_input_tokens_seen": 75941728,
+      "step": 35135
+    },
+    {
+      "epoch": 5.732463295269168,
+      "grad_norm": 0.22217957675457,
+      "learning_rate": 0.0008976150700858155,
+      "loss": 0.2075,
+      "num_input_tokens_seen": 75952960,
+      "step": 35140
+    },
+    {
+      "epoch": 5.733278955954323,
+      "grad_norm": 0.288897305727005,
+      "learning_rate": 0.000897571909182473,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 75964320,
+      "step": 35145
+    },
+    {
+      "epoch": 5.734094616639478,
+      "grad_norm": 0.15639406442642212,
+      "learning_rate": 0.0008975287402218314,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 75974848,
+      "step": 35150
+    },
+    {
+      "epoch": 5.734910277324633,
+      "grad_norm": 0.13085006177425385,
+      "learning_rate": 0.0008974855632047657,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 75985024,
+      "step": 35155
+    },
+    {
+      "epoch": 5.735725938009788,
+      "grad_norm": 0.23708663880825043,
+      "learning_rate": 0.0008974423781321506,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 75996544,
+      "step": 35160
+    },
+    {
+      "epoch": 5.736541598694943,
+      "grad_norm": 0.010799623094499111,
+      "learning_rate": 0.0008973991850048616,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 76007616,
+      "step": 35165
+    },
+    {
+      "epoch": 5.737357259380098,
+      "grad_norm": 0.22216928005218506,
+      "learning_rate": 0.0008973559838237739,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 76017824,
+      "step": 35170
+    },
+    {
+      "epoch": 5.738172920065253,
+      "grad_norm": 0.01401756051927805,
+      "learning_rate": 0.0008973127745897634,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 76029024,
+      "step": 35175
+    },
+    {
+      "epoch": 5.738988580750408,
+      "grad_norm": 0.18570876121520996,
+      "learning_rate": 0.0008972695573037052,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 76039968,
+      "step": 35180
+    },
+    {
+      "epoch": 5.739804241435563,
+      "grad_norm": 0.04568921774625778,
+      "learning_rate": 0.0008972263319664756,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 76051360,
+      "step": 35185
+    },
+    {
+      "epoch": 5.740619902120718,
+      "grad_norm": 0.007866466417908669,
+      "learning_rate": 0.0008971830985789504,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 76062016,
+      "step": 35190
+    },
+    {
+      "epoch": 5.741435562805873,
+      "grad_norm": 0.005754650104790926,
+      "learning_rate": 0.0008971398571420058,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 76073696,
+      "step": 35195
+    },
+    {
+      "epoch": 5.742251223491028,
+      "grad_norm": 0.022885838523507118,
+      "learning_rate": 0.0008970966076565183,
+      "loss": 0.119,
+      "num_input_tokens_seen": 76083104,
+      "step": 35200
+    },
+    {
+      "epoch": 5.743066884176183,
+      "grad_norm": 0.11712540686130524,
+      "learning_rate": 0.0008970533501233642,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 76094144,
+      "step": 35205
+    },
+    {
+      "epoch": 5.7438825448613375,
+      "grad_norm": 0.00609155697748065,
+      "learning_rate": 0.0008970100845434204,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 76105408,
+      "step": 35210
+    },
+    {
+      "epoch": 5.744698205546492,
+      "grad_norm": 0.08641016483306885,
+      "learning_rate": 0.0008969668109175635,
+      "loss": 0.1631,
+      "num_input_tokens_seen": 76116896,
+      "step": 35215
+    },
+    {
+      "epoch": 5.745513866231647,
+      "grad_norm": 0.00937197171151638,
+      "learning_rate": 0.0008969235292466706,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 76128736,
+      "step": 35220
+    },
+    {
+      "epoch": 5.746329526916803,
+      "grad_norm": 0.008261475712060928,
+      "learning_rate": 0.0008968802395316187,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 76138240,
+      "step": 35225
+    },
+    {
+      "epoch": 5.747145187601958,
+      "grad_norm": 0.05619320645928383,
+      "learning_rate": 0.0008968369417732855,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 76149312,
+      "step": 35230
+    },
+    {
+      "epoch": 5.7479608482871125,
+      "grad_norm": 0.08603104203939438,
+      "learning_rate": 0.0008967936359725482,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 76161056,
+      "step": 35235
+    },
+    {
+      "epoch": 5.748776508972267,
+      "grad_norm": 0.014682306908071041,
+      "learning_rate": 0.0008967503221302844,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 76172288,
+      "step": 35240
+    },
+    {
+      "epoch": 5.749592169657422,
+      "grad_norm": 0.008648062124848366,
+      "learning_rate": 0.0008967070002473721,
+      "loss": 0.1693,
+      "num_input_tokens_seen": 76182432,
+      "step": 35245
+    },
+    {
+      "epoch": 5.750407830342578,
+      "grad_norm": 0.06725231558084488,
+      "learning_rate": 0.0008966636703246891,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 76193216,
+      "step": 35250
+    },
+    {
+      "epoch": 5.751223491027733,
+      "grad_norm": 0.051333747804164886,
+      "learning_rate": 0.0008966203323631137,
+      "loss": 0.1863,
+      "num_input_tokens_seen": 76203520,
+      "step": 35255
+    },
+    {
+      "epoch": 5.7520391517128875,
+      "grad_norm": 0.041993435472249985,
+      "learning_rate": 0.000896576986363524,
+      "loss": 0.081,
+      "num_input_tokens_seen": 76215584,
+      "step": 35260
+    },
+    {
+      "epoch": 5.752854812398042,
+      "grad_norm": 0.0039042108692228794,
+      "learning_rate": 0.0008965336323267986,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 76225120,
+      "step": 35265
+    },
+    {
+      "epoch": 5.753670473083197,
+      "grad_norm": 0.10992413014173508,
+      "learning_rate": 0.0008964902702538163,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 76235776,
+      "step": 35270
+    },
+    {
+      "epoch": 5.754486133768353,
+      "grad_norm": 0.02428418956696987,
+      "learning_rate": 0.0008964469001454554,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 76246112,
+      "step": 35275
+    },
+    {
+      "epoch": 5.755301794453508,
+      "grad_norm": 0.26490381360054016,
+      "learning_rate": 0.0008964035220025953,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 76255872,
+      "step": 35280
+    },
+    {
+      "epoch": 5.7561174551386625,
+      "grad_norm": 0.005199507810175419,
+      "learning_rate": 0.000896360135826115,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 76265312,
+      "step": 35285
+    },
+    {
+      "epoch": 5.756933115823817,
+      "grad_norm": 0.006524212658405304,
+      "learning_rate": 0.0008963167416168936,
+      "loss": 0.031,
+      "num_input_tokens_seen": 76275104,
+      "step": 35290
+    },
+    {
+      "epoch": 5.757748776508972,
+      "grad_norm": 0.054473526775836945,
+      "learning_rate": 0.0008962733393758107,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 76286304,
+      "step": 35295
+    },
+    {
+      "epoch": 5.758564437194127,
+      "grad_norm": 0.13662466406822205,
+      "learning_rate": 0.0008962299291037459,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 76296704,
+      "step": 35300
+    },
+    {
+      "epoch": 5.759380097879282,
+      "grad_norm": 0.11444362252950668,
+      "learning_rate": 0.000896186510801579,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 76307328,
+      "step": 35305
+    },
+    {
+      "epoch": 5.760195758564437,
+      "grad_norm": 0.010635402984917164,
+      "learning_rate": 0.0008961430844701899,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 76318048,
+      "step": 35310
+    },
+    {
+      "epoch": 5.761011419249592,
+      "grad_norm": 0.03280719742178917,
+      "learning_rate": 0.0008960996501104583,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 76328768,
+      "step": 35315
+    },
+    {
+      "epoch": 5.761827079934747,
+      "grad_norm": 0.01935116946697235,
+      "learning_rate": 0.0008960562077232652,
+      "loss": 0.045,
+      "num_input_tokens_seen": 76339712,
+      "step": 35320
+    },
+    {
+      "epoch": 5.762642740619902,
+      "grad_norm": 0.25301891565322876,
+      "learning_rate": 0.0008960127573094904,
+      "loss": 0.082,
+      "num_input_tokens_seen": 76351616,
+      "step": 35325
+    },
+    {
+      "epoch": 5.763458401305057,
+      "grad_norm": 0.08036404848098755,
+      "learning_rate": 0.0008959692988700148,
+      "loss": 0.0467,
+      "num_input_tokens_seen": 76361408,
+      "step": 35330
+    },
+    {
+      "epoch": 5.764274061990212,
+      "grad_norm": 0.03166870027780533,
+      "learning_rate": 0.000895925832405719,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 76372544,
+      "step": 35335
+    },
+    {
+      "epoch": 5.765089722675367,
+      "grad_norm": 0.10184311866760254,
+      "learning_rate": 0.0008958823579174839,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 76383552,
+      "step": 35340
+    },
+    {
+      "epoch": 5.765905383360522,
+      "grad_norm": 0.17572534084320068,
+      "learning_rate": 0.0008958388754061907,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 76393568,
+      "step": 35345
+    },
+    {
+      "epoch": 5.766721044045677,
+      "grad_norm": 0.030263762921094894,
+      "learning_rate": 0.0008957953848727205,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 76402976,
+      "step": 35350
+    },
+    {
+      "epoch": 5.767536704730832,
+      "grad_norm": 0.008022490888834,
+      "learning_rate": 0.0008957518863179545,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 76414176,
+      "step": 35355
+    },
+    {
+      "epoch": 5.768352365415987,
+      "grad_norm": 0.003972323145717382,
+      "learning_rate": 0.0008957083797427747,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 76425248,
+      "step": 35360
+    },
+    {
+      "epoch": 5.769168026101142,
+      "grad_norm": 0.3723903298377991,
+      "learning_rate": 0.0008956648651480627,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 76435104,
+      "step": 35365
+    },
+    {
+      "epoch": 5.769983686786297,
+      "grad_norm": 0.29073670506477356,
+      "learning_rate": 0.0008956213425347001,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 76446496,
+      "step": 35370
+    },
+    {
+      "epoch": 5.770799347471452,
+      "grad_norm": 0.4639027416706085,
+      "learning_rate": 0.0008955778119035692,
+      "loss": 0.2464,
+      "num_input_tokens_seen": 76456000,
+      "step": 35375
+    },
+    {
+      "epoch": 5.771615008156607,
+      "grad_norm": 0.01451733335852623,
+      "learning_rate": 0.000895534273255552,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 76466880,
+      "step": 35380
+    },
+    {
+      "epoch": 5.7724306688417615,
+      "grad_norm": 0.018691841512918472,
+      "learning_rate": 0.0008954907265915311,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 76478880,
+      "step": 35385
+    },
+    {
+      "epoch": 5.773246329526917,
+      "grad_norm": 0.20020082592964172,
+      "learning_rate": 0.0008954471719123889,
+      "loss": 0.2309,
+      "num_input_tokens_seen": 76490240,
+      "step": 35390
+    },
+    {
+      "epoch": 5.774061990212072,
+      "grad_norm": 0.16038750112056732,
+      "learning_rate": 0.0008954036092190079,
+      "loss": 0.078,
+      "num_input_tokens_seen": 76499168,
+      "step": 35395
+    },
+    {
+      "epoch": 5.774877650897227,
+      "grad_norm": 0.005479294341057539,
+      "learning_rate": 0.0008953600385122713,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 76511392,
+      "step": 35400
+    },
+    {
+      "epoch": 5.775693311582382,
+      "grad_norm": 0.03720789775252342,
+      "learning_rate": 0.0008953164597930621,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 76520896,
+      "step": 35405
+    },
+    {
+      "epoch": 5.7765089722675365,
+      "grad_norm": 0.1710098385810852,
+      "learning_rate": 0.0008952728730622632,
+      "loss": 0.126,
+      "num_input_tokens_seen": 76531648,
+      "step": 35410
+    },
+    {
+      "epoch": 5.777324632952691,
+      "grad_norm": 0.04318312928080559,
+      "learning_rate": 0.000895229278320758,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 76542464,
+      "step": 35415
+    },
+    {
+      "epoch": 5.778140293637847,
+      "grad_norm": 0.043150052428245544,
+      "learning_rate": 0.0008951856755694303,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 76553824,
+      "step": 35420
+    },
+    {
+      "epoch": 5.778955954323002,
+      "grad_norm": 0.20751482248306274,
+      "learning_rate": 0.0008951420648091635,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 76565344,
+      "step": 35425
+    },
+    {
+      "epoch": 5.779771615008157,
+      "grad_norm": 0.04356337711215019,
+      "learning_rate": 0.0008950984460408414,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 76577600,
+      "step": 35430
+    },
+    {
+      "epoch": 5.780587275693311,
+      "grad_norm": 0.0067030293866992,
+      "learning_rate": 0.0008950548192653481,
+      "loss": 0.2208,
+      "num_input_tokens_seen": 76588448,
+      "step": 35435
+    },
+    {
+      "epoch": 5.781402936378466,
+      "grad_norm": 0.029318923130631447,
+      "learning_rate": 0.0008950111844835678,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 76600704,
+      "step": 35440
+    },
+    {
+      "epoch": 5.782218597063622,
+      "grad_norm": 0.004557712934911251,
+      "learning_rate": 0.0008949675416963847,
+      "loss": 0.1848,
+      "num_input_tokens_seen": 76611488,
+      "step": 35445
+    },
+    {
+      "epoch": 5.783034257748777,
+      "grad_norm": 0.19797858595848083,
+      "learning_rate": 0.0008949238909046833,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 76623904,
+      "step": 35450
+    },
+    {
+      "epoch": 5.783849918433932,
+      "grad_norm": 0.12520618736743927,
+      "learning_rate": 0.0008948802321093484,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 76635936,
+      "step": 35455
+    },
+    {
+      "epoch": 5.784665579119086,
+      "grad_norm": 0.0165663193911314,
+      "learning_rate": 0.0008948365653112645,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 76646720,
+      "step": 35460
+    },
+    {
+      "epoch": 5.785481239804241,
+      "grad_norm": 0.20906522870063782,
+      "learning_rate": 0.0008947928905113166,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 76656704,
+      "step": 35465
+    },
+    {
+      "epoch": 5.786296900489396,
+      "grad_norm": 0.04493867978453636,
+      "learning_rate": 0.00089474920771039,
+      "loss": 0.2559,
+      "num_input_tokens_seen": 76667360,
+      "step": 35470
+    },
+    {
+      "epoch": 5.787112561174552,
+      "grad_norm": 0.1427122801542282,
+      "learning_rate": 0.0008947055169093701,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 76677440,
+      "step": 35475
+    },
+    {
+      "epoch": 5.787928221859707,
+      "grad_norm": 0.21092888712882996,
+      "learning_rate": 0.000894661818109142,
+      "loss": 0.155,
+      "num_input_tokens_seen": 76688320,
+      "step": 35480
+    },
+    {
+      "epoch": 5.788743882544861,
+      "grad_norm": 0.13803480565547943,
+      "learning_rate": 0.0008946181113105915,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 76700608,
+      "step": 35485
+    },
+    {
+      "epoch": 5.789559543230016,
+      "grad_norm": 0.19523029029369354,
+      "learning_rate": 0.0008945743965146044,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 76712064,
+      "step": 35490
+    },
+    {
+      "epoch": 5.790375203915171,
+      "grad_norm": 0.05511949956417084,
+      "learning_rate": 0.0008945306737220669,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 76722784,
+      "step": 35495
+    },
+    {
+      "epoch": 5.791190864600326,
+      "grad_norm": 0.21019725501537323,
+      "learning_rate": 0.0008944869429338645,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 76734752,
+      "step": 35500
+    },
+    {
+      "epoch": 5.7920065252854815,
+      "grad_norm": 0.020916135981678963,
+      "learning_rate": 0.0008944432041508838,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 76745504,
+      "step": 35505
+    },
+    {
+      "epoch": 5.792822185970636,
+      "grad_norm": 0.21575558185577393,
+      "learning_rate": 0.0008943994573740111,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 76756768,
+      "step": 35510
+    },
+    {
+      "epoch": 5.793637846655791,
+      "grad_norm": 0.08731380105018616,
+      "learning_rate": 0.0008943557026041331,
+      "loss": 0.1259,
+      "num_input_tokens_seen": 76766400,
+      "step": 35515
+    },
+    {
+      "epoch": 5.794453507340946,
+      "grad_norm": 0.19834499061107635,
+      "learning_rate": 0.0008943119398421367,
+      "loss": 0.077,
+      "num_input_tokens_seen": 76778208,
+      "step": 35520
+    },
+    {
+      "epoch": 5.795269168026101,
+      "grad_norm": 0.2235175371170044,
+      "learning_rate": 0.0008942681690889084,
+      "loss": 0.3166,
+      "num_input_tokens_seen": 76787712,
+      "step": 35525
+    },
+    {
+      "epoch": 5.7960848287112565,
+      "grad_norm": 0.10026352107524872,
+      "learning_rate": 0.0008942243903453356,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 76798592,
+      "step": 35530
+    },
+    {
+      "epoch": 5.796900489396411,
+      "grad_norm": 0.17312408983707428,
+      "learning_rate": 0.0008941806036123054,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 76810688,
+      "step": 35535
+    },
+    {
+      "epoch": 5.797716150081566,
+      "grad_norm": 0.07986405491828918,
+      "learning_rate": 0.0008941368088907052,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 76822080,
+      "step": 35540
+    },
+    {
+      "epoch": 5.798531810766721,
+      "grad_norm": 0.03755347803235054,
+      "learning_rate": 0.0008940930061814226,
+      "loss": 0.095,
+      "num_input_tokens_seen": 76832224,
+      "step": 35545
+    },
+    {
+      "epoch": 5.799347471451876,
+      "grad_norm": 0.04478127136826515,
+      "learning_rate": 0.0008940491954853451,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 76843584,
+      "step": 35550
+    },
+    {
+      "epoch": 5.800163132137031,
+      "grad_norm": 0.01865328848361969,
+      "learning_rate": 0.0008940053768033609,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 76854688,
+      "step": 35555
+    },
+    {
+      "epoch": 5.800978792822186,
+      "grad_norm": 0.008900360204279423,
+      "learning_rate": 0.0008939615501363581,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 76866560,
+      "step": 35560
+    },
+    {
+      "epoch": 5.801794453507341,
+      "grad_norm": 0.0329662561416626,
+      "learning_rate": 0.0008939177154852245,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 76876608,
+      "step": 35565
+    },
+    {
+      "epoch": 5.802610114192496,
+      "grad_norm": 0.019964130595326424,
+      "learning_rate": 0.0008938738728508487,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 76886656,
+      "step": 35570
+    },
+    {
+      "epoch": 5.803425774877651,
+      "grad_norm": 0.13185709714889526,
+      "learning_rate": 0.0008938300222341192,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 76897696,
+      "step": 35575
+    },
+    {
+      "epoch": 5.804241435562806,
+      "grad_norm": 0.04914616420865059,
+      "learning_rate": 0.0008937861636359248,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 76908128,
+      "step": 35580
+    },
+    {
+      "epoch": 5.80505709624796,
+      "grad_norm": 0.06280156224966049,
+      "learning_rate": 0.000893742297057154,
+      "loss": 0.039,
+      "num_input_tokens_seen": 76918912,
+      "step": 35585
+    },
+    {
+      "epoch": 5.805872756933116,
+      "grad_norm": 0.10165125131607056,
+      "learning_rate": 0.0008936984224986962,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 76930240,
+      "step": 35590
+    },
+    {
+      "epoch": 5.806688417618271,
+      "grad_norm": 0.05567912384867668,
+      "learning_rate": 0.0008936545399614405,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 76941856,
+      "step": 35595
+    },
+    {
+      "epoch": 5.807504078303426,
+      "grad_norm": 0.11308423429727554,
+      "learning_rate": 0.0008936106494462761,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 76952608,
+      "step": 35600
+    },
+    {
+      "epoch": 5.808319738988581,
+      "grad_norm": 0.034917544573545456,
+      "learning_rate": 0.0008935667509540926,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 76963904,
+      "step": 35605
+    },
+    {
+      "epoch": 5.809135399673735,
+      "grad_norm": 0.1020023375749588,
+      "learning_rate": 0.0008935228444857795,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 76974848,
+      "step": 35610
+    },
+    {
+      "epoch": 5.809951060358891,
+      "grad_norm": 0.031795721501111984,
+      "learning_rate": 0.0008934789300422268,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 76984640,
+      "step": 35615
+    },
+    {
+      "epoch": 5.810766721044046,
+      "grad_norm": 0.020438876003026962,
+      "learning_rate": 0.0008934350076243245,
+      "loss": 0.144,
+      "num_input_tokens_seen": 76994112,
+      "step": 35620
+    },
+    {
+      "epoch": 5.811582381729201,
+      "grad_norm": 0.06384740769863129,
+      "learning_rate": 0.0008933910772329625,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 77005792,
+      "step": 35625
+    },
+    {
+      "epoch": 5.8123980424143555,
+      "grad_norm": 0.018098855391144753,
+      "learning_rate": 0.0008933471388690314,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 77016288,
+      "step": 35630
+    },
+    {
+      "epoch": 5.81321370309951,
+      "grad_norm": 0.20901861786842346,
+      "learning_rate": 0.0008933031925334214,
+      "loss": 0.1645,
+      "num_input_tokens_seen": 77027456,
+      "step": 35635
+    },
+    {
+      "epoch": 5.814029363784666,
+      "grad_norm": 0.026231657713651657,
+      "learning_rate": 0.0008932592382270235,
+      "loss": 0.1708,
+      "num_input_tokens_seen": 77038816,
+      "step": 35640
+    },
+    {
+      "epoch": 5.814845024469821,
+      "grad_norm": 0.047216691076755524,
+      "learning_rate": 0.0008932152759507279,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 77050112,
+      "step": 35645
+    },
+    {
+      "epoch": 5.815660685154976,
+      "grad_norm": 0.20011982321739197,
+      "learning_rate": 0.0008931713057054263,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 77060768,
+      "step": 35650
+    },
+    {
+      "epoch": 5.8164763458401305,
+      "grad_norm": 0.2040461301803589,
+      "learning_rate": 0.0008931273274920091,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 77071712,
+      "step": 35655
+    },
+    {
+      "epoch": 5.817292006525285,
+      "grad_norm": 0.02102004364132881,
+      "learning_rate": 0.0008930833413113682,
+      "loss": 0.1561,
+      "num_input_tokens_seen": 77081824,
+      "step": 35660
+    },
+    {
+      "epoch": 5.81810766721044,
+      "grad_norm": 0.03012845665216446,
+      "learning_rate": 0.0008930393471643945,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 77093760,
+      "step": 35665
+    },
+    {
+      "epoch": 5.818923327895595,
+      "grad_norm": 0.04393388330936432,
+      "learning_rate": 0.0008929953450519799,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 77105056,
+      "step": 35670
+    },
+    {
+      "epoch": 5.819738988580751,
+      "grad_norm": 0.0268500167876482,
+      "learning_rate": 0.000892951334975016,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 77116768,
+      "step": 35675
+    },
+    {
+      "epoch": 5.8205546492659055,
+      "grad_norm": 0.039734356105327606,
+      "learning_rate": 0.0008929073169343948,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 77126080,
+      "step": 35680
+    },
+    {
+      "epoch": 5.82137030995106,
+      "grad_norm": 0.00670345826074481,
+      "learning_rate": 0.0008928632909310084,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 77138720,
+      "step": 35685
+    },
+    {
+      "epoch": 5.822185970636215,
+      "grad_norm": 0.020748404785990715,
+      "learning_rate": 0.000892819256965749,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 77150304,
+      "step": 35690
+    },
+    {
+      "epoch": 5.82300163132137,
+      "grad_norm": 0.006461436860263348,
+      "learning_rate": 0.0008927752150395092,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 77161408,
+      "step": 35695
+    },
+    {
+      "epoch": 5.823817292006526,
+      "grad_norm": 0.04613238573074341,
+      "learning_rate": 0.0008927311651531813,
+      "loss": 0.1324,
+      "num_input_tokens_seen": 77171104,
+      "step": 35700
+    },
+    {
+      "epoch": 5.8246329526916805,
+      "grad_norm": 0.03033752180635929,
+      "learning_rate": 0.0008926871073076581,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 77183264,
+      "step": 35705
+    },
+    {
+      "epoch": 5.825448613376835,
+      "grad_norm": 0.0055288695730268955,
+      "learning_rate": 0.0008926430415038324,
+      "loss": 0.102,
+      "num_input_tokens_seen": 77192608,
+      "step": 35710
+    },
+    {
+      "epoch": 5.82626427406199,
+      "grad_norm": 0.3753073215484619,
+      "learning_rate": 0.0008925989677425976,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 77202432,
+      "step": 35715
+    },
+    {
+      "epoch": 5.827079934747145,
+      "grad_norm": 0.01609216444194317,
+      "learning_rate": 0.0008925548860248464,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 77213376,
+      "step": 35720
+    },
+    {
+      "epoch": 5.827895595432301,
+      "grad_norm": 0.12528999149799347,
+      "learning_rate": 0.0008925107963514727,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 77224448,
+      "step": 35725
+    },
+    {
+      "epoch": 5.828711256117455,
+      "grad_norm": 0.05051087588071823,
+      "learning_rate": 0.0008924666987233697,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 77235264,
+      "step": 35730
+    },
+    {
+      "epoch": 5.82952691680261,
+      "grad_norm": 0.03082728572189808,
+      "learning_rate": 0.0008924225931414312,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 77245280,
+      "step": 35735
+    },
+    {
+      "epoch": 5.830342577487765,
+      "grad_norm": 0.024117425084114075,
+      "learning_rate": 0.000892378479606551,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 77254976,
+      "step": 35740
+    },
+    {
+      "epoch": 5.83115823817292,
+      "grad_norm": 0.00413041515275836,
+      "learning_rate": 0.0008923343581196231,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 77264992,
+      "step": 35745
+    },
+    {
+      "epoch": 5.831973898858075,
+      "grad_norm": 0.027068182826042175,
+      "learning_rate": 0.0008922902286815417,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 77277600,
+      "step": 35750
+    },
+    {
+      "epoch": 5.8327895595432295,
+      "grad_norm": 0.003934292122721672,
+      "learning_rate": 0.0008922460912932013,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 77288544,
+      "step": 35755
+    },
+    {
+      "epoch": 5.833605220228385,
+      "grad_norm": 0.010412490926682949,
+      "learning_rate": 0.0008922019459554961,
+      "loss": 0.1897,
+      "num_input_tokens_seen": 77299648,
+      "step": 35760
+    },
+    {
+      "epoch": 5.83442088091354,
+      "grad_norm": 0.15992146730422974,
+      "learning_rate": 0.000892157792669321,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 77311008,
+      "step": 35765
+    },
+    {
+      "epoch": 5.835236541598695,
+      "grad_norm": 0.032339174300432205,
+      "learning_rate": 0.0008921136314355706,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 77320928,
+      "step": 35770
+    },
+    {
+      "epoch": 5.83605220228385,
+      "grad_norm": 0.014086034148931503,
+      "learning_rate": 0.0008920694622551402,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 77331328,
+      "step": 35775
+    },
+    {
+      "epoch": 5.8368678629690045,
+      "grad_norm": 0.3389575481414795,
+      "learning_rate": 0.0008920252851289248,
+      "loss": 0.236,
+      "num_input_tokens_seen": 77342272,
+      "step": 35780
+    },
+    {
+      "epoch": 5.83768352365416,
+      "grad_norm": 0.017857255414128304,
+      "learning_rate": 0.0008919811000578195,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 77353952,
+      "step": 35785
+    },
+    {
+      "epoch": 5.838499184339315,
+      "grad_norm": 0.023409778252243996,
+      "learning_rate": 0.0008919369070427201,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 77364992,
+      "step": 35790
+    },
+    {
+      "epoch": 5.83931484502447,
+      "grad_norm": 0.34260937571525574,
+      "learning_rate": 0.000891892706084522,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 77375424,
+      "step": 35795
+    },
+    {
+      "epoch": 5.840130505709625,
+      "grad_norm": 0.15101541578769684,
+      "learning_rate": 0.0008918484971841211,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 77384576,
+      "step": 35800
+    },
+    {
+      "epoch": 5.8409461663947795,
+      "grad_norm": 0.026871444657444954,
+      "learning_rate": 0.0008918042803424133,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 77395584,
+      "step": 35805
+    },
+    {
+      "epoch": 5.841761827079935,
+      "grad_norm": 0.04889817163348198,
+      "learning_rate": 0.0008917600555602947,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 77406944,
+      "step": 35810
+    },
+    {
+      "epoch": 5.84257748776509,
+      "grad_norm": 0.012206361629068851,
+      "learning_rate": 0.0008917158228386616,
+      "loss": 0.13,
+      "num_input_tokens_seen": 77418240,
+      "step": 35815
+    },
+    {
+      "epoch": 5.843393148450245,
+      "grad_norm": 0.005175419617444277,
+      "learning_rate": 0.0008916715821784105,
+      "loss": 0.018,
+      "num_input_tokens_seen": 77429920,
+      "step": 35820
+    },
+    {
+      "epoch": 5.8442088091354,
+      "grad_norm": 0.05672929808497429,
+      "learning_rate": 0.0008916273335804377,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 77441504,
+      "step": 35825
+    },
+    {
+      "epoch": 5.8450244698205545,
+      "grad_norm": 0.0816783681511879,
+      "learning_rate": 0.0008915830770456403,
+      "loss": 0.038,
+      "num_input_tokens_seen": 77452320,
+      "step": 35830
+    },
+    {
+      "epoch": 5.845840130505709,
+      "grad_norm": 0.09134317189455032,
+      "learning_rate": 0.0008915388125749152,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 77463168,
+      "step": 35835
+    },
+    {
+      "epoch": 5.846655791190865,
+      "grad_norm": 0.05557303503155708,
+      "learning_rate": 0.0008914945401691592,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 77474464,
+      "step": 35840
+    },
+    {
+      "epoch": 5.84747145187602,
+      "grad_norm": 0.3143428564071655,
+      "learning_rate": 0.0008914502598292698,
+      "loss": 0.2314,
+      "num_input_tokens_seen": 77485792,
+      "step": 35845
+    },
+    {
+      "epoch": 5.848287112561175,
+      "grad_norm": 0.23155027627944946,
+      "learning_rate": 0.0008914059715561442,
+      "loss": 0.2272,
+      "num_input_tokens_seen": 77497568,
+      "step": 35850
+    },
+    {
+      "epoch": 5.849102773246329,
+      "grad_norm": 0.5001063346862793,
+      "learning_rate": 0.0008913616753506801,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 77507296,
+      "step": 35855
+    },
+    {
+      "epoch": 5.849918433931484,
+      "grad_norm": 0.22688445448875427,
+      "learning_rate": 0.0008913173712137752,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 77517856,
+      "step": 35860
+    },
+    {
+      "epoch": 5.850734094616639,
+      "grad_norm": 0.014077413827180862,
+      "learning_rate": 0.0008912730591463274,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 77528320,
+      "step": 35865
+    },
+    {
+      "epoch": 5.851549755301795,
+      "grad_norm": 0.005804943386465311,
+      "learning_rate": 0.0008912287391492345,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 77539392,
+      "step": 35870
+    },
+    {
+      "epoch": 5.85236541598695,
+      "grad_norm": 0.049013834446668625,
+      "learning_rate": 0.0008911844112233951,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 77550176,
+      "step": 35875
+    },
+    {
+      "epoch": 5.853181076672104,
+      "grad_norm": 0.42374399304389954,
+      "learning_rate": 0.0008911400753697072,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 77560864,
+      "step": 35880
+    },
+    {
+      "epoch": 5.853996737357259,
+      "grad_norm": 0.04476075619459152,
+      "learning_rate": 0.0008910957315890695,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 77570752,
+      "step": 35885
+    },
+    {
+      "epoch": 5.854812398042414,
+      "grad_norm": 0.011624328792095184,
+      "learning_rate": 0.0008910513798823807,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 77581600,
+      "step": 35890
+    },
+    {
+      "epoch": 5.85562805872757,
+      "grad_norm": 0.006588727701455355,
+      "learning_rate": 0.0008910070202505396,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 77593536,
+      "step": 35895
+    },
+    {
+      "epoch": 5.856443719412725,
+      "grad_norm": 0.28029340505599976,
+      "learning_rate": 0.0008909626526944452,
+      "loss": 0.2462,
+      "num_input_tokens_seen": 77603328,
+      "step": 35900
+    },
+    {
+      "epoch": 5.857259380097879,
+      "grad_norm": 0.04250373691320419,
+      "learning_rate": 0.0008909182772149966,
+      "loss": 0.0479,
+      "num_input_tokens_seen": 77612800,
+      "step": 35905
+    },
+    {
+      "epoch": 5.858075040783034,
+      "grad_norm": 0.0644042119383812,
+      "learning_rate": 0.0008908738938130933,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 77622304,
+      "step": 35910
+    },
+    {
+      "epoch": 5.858890701468189,
+      "grad_norm": 0.07935375720262527,
+      "learning_rate": 0.0008908295024896346,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 77634336,
+      "step": 35915
+    },
+    {
+      "epoch": 5.859706362153344,
+      "grad_norm": 0.018218394368886948,
+      "learning_rate": 0.0008907851032455204,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 77645504,
+      "step": 35920
+    },
+    {
+      "epoch": 5.8605220228384995,
+      "grad_norm": 0.137411966919899,
+      "learning_rate": 0.0008907406960816502,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 77657472,
+      "step": 35925
+    },
+    {
+      "epoch": 5.861337683523654,
+      "grad_norm": 0.22196845710277557,
+      "learning_rate": 0.0008906962809989242,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 77669344,
+      "step": 35930
+    },
+    {
+      "epoch": 5.862153344208809,
+      "grad_norm": 0.0576411709189415,
+      "learning_rate": 0.0008906518579982423,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 77679648,
+      "step": 35935
+    },
+    {
+      "epoch": 5.862969004893964,
+      "grad_norm": 0.03521393612027168,
+      "learning_rate": 0.000890607427080505,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 77689440,
+      "step": 35940
+    },
+    {
+      "epoch": 5.863784665579119,
+      "grad_norm": 0.034378282725811005,
+      "learning_rate": 0.0008905629882466126,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 77700672,
+      "step": 35945
+    },
+    {
+      "epoch": 5.864600326264274,
+      "grad_norm": 0.004574810154736042,
+      "learning_rate": 0.0008905185414974659,
+      "loss": 0.0447,
+      "num_input_tokens_seen": 77710368,
+      "step": 35950
+    },
+    {
+      "epoch": 5.865415986949429,
+      "grad_norm": 0.07072892785072327,
+      "learning_rate": 0.0008904740868339655,
+      "loss": 0.1731,
+      "num_input_tokens_seen": 77721728,
+      "step": 35955
+    },
+    {
+      "epoch": 5.866231647634584,
+      "grad_norm": 0.044736456125974655,
+      "learning_rate": 0.0008904296242570123,
+      "loss": 0.052,
+      "num_input_tokens_seen": 77732448,
+      "step": 35960
+    },
+    {
+      "epoch": 5.867047308319739,
+      "grad_norm": 0.0900491327047348,
+      "learning_rate": 0.0008903851537675076,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 77743520,
+      "step": 35965
+    },
+    {
+      "epoch": 5.867862969004894,
+      "grad_norm": 0.0018697967752814293,
+      "learning_rate": 0.0008903406753663524,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 77754656,
+      "step": 35970
+    },
+    {
+      "epoch": 5.868678629690049,
+      "grad_norm": 0.07420942187309265,
+      "learning_rate": 0.0008902961890544483,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 77764960,
+      "step": 35975
+    },
+    {
+      "epoch": 5.869494290375204,
+      "grad_norm": 0.014277939684689045,
+      "learning_rate": 0.0008902516948326967,
+      "loss": 0.2049,
+      "num_input_tokens_seen": 77776672,
+      "step": 35980
+    },
+    {
+      "epoch": 5.870309951060359,
+      "grad_norm": 0.1220325455069542,
+      "learning_rate": 0.0008902071927019996,
+      "loss": 0.1353,
+      "num_input_tokens_seen": 77788352,
+      "step": 35985
+    },
+    {
+      "epoch": 5.871125611745514,
+      "grad_norm": 0.017809653654694557,
+      "learning_rate": 0.0008901626826632586,
+      "loss": 0.04,
+      "num_input_tokens_seen": 77797504,
+      "step": 35990
+    },
+    {
+      "epoch": 5.871941272430669,
+      "grad_norm": 0.010331861674785614,
+      "learning_rate": 0.000890118164717376,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 77807136,
+      "step": 35995
+    },
+    {
+      "epoch": 5.872756933115824,
+      "grad_norm": 0.33883270621299744,
+      "learning_rate": 0.0008900736388652537,
+      "loss": 0.205,
+      "num_input_tokens_seen": 77817728,
+      "step": 36000
+    },
+    {
+      "epoch": 5.873572593800979,
+      "grad_norm": 0.021140409633517265,
+      "learning_rate": 0.0008900291051077944,
+      "loss": 0.1508,
+      "num_input_tokens_seen": 77828032,
+      "step": 36005
+    },
+    {
+      "epoch": 5.874388254486134,
+      "grad_norm": 0.005671947728842497,
+      "learning_rate": 0.0008899845634459005,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 77838272,
+      "step": 36010
+    },
+    {
+      "epoch": 5.875203915171289,
+      "grad_norm": 0.11678887158632278,
+      "learning_rate": 0.0008899400138804748,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 77848640,
+      "step": 36015
+    },
+    {
+      "epoch": 5.876019575856444,
+      "grad_norm": 0.11311411112546921,
+      "learning_rate": 0.0008898954564124197,
+      "loss": 0.1584,
+      "num_input_tokens_seen": 77860256,
+      "step": 36020
+    },
+    {
+      "epoch": 5.876835236541599,
+      "grad_norm": 0.03331954777240753,
+      "learning_rate": 0.0008898508910426388,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 77871040,
+      "step": 36025
+    },
+    {
+      "epoch": 5.877650897226753,
+      "grad_norm": 0.1294984668493271,
+      "learning_rate": 0.0008898063177720351,
+      "loss": 0.1216,
+      "num_input_tokens_seen": 77882400,
+      "step": 36030
+    },
+    {
+      "epoch": 5.878466557911908,
+      "grad_norm": 0.0061601377092301846,
+      "learning_rate": 0.0008897617366015118,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 77893216,
+      "step": 36035
+    },
+    {
+      "epoch": 5.879282218597064,
+      "grad_norm": 0.03422814980149269,
+      "learning_rate": 0.0008897171475319723,
+      "loss": 0.069,
+      "num_input_tokens_seen": 77905088,
+      "step": 36040
+    },
+    {
+      "epoch": 5.880097879282219,
+      "grad_norm": 0.07074693590402603,
+      "learning_rate": 0.0008896725505643206,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 77914624,
+      "step": 36045
+    },
+    {
+      "epoch": 5.8809135399673735,
+      "grad_norm": 0.2282271385192871,
+      "learning_rate": 0.0008896279456994603,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 77924896,
+      "step": 36050
+    },
+    {
+      "epoch": 5.881729200652528,
+      "grad_norm": 0.04102031886577606,
+      "learning_rate": 0.0008895833329382954,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 77934976,
+      "step": 36055
+    },
+    {
+      "epoch": 5.882544861337683,
+      "grad_norm": 0.0101171201094985,
+      "learning_rate": 0.00088953871228173,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 77945824,
+      "step": 36060
+    },
+    {
+      "epoch": 5.883360522022839,
+      "grad_norm": 0.022622620686888695,
+      "learning_rate": 0.0008894940837306685,
+      "loss": 0.1508,
+      "num_input_tokens_seen": 77956704,
+      "step": 36065
+    },
+    {
+      "epoch": 5.884176182707994,
+      "grad_norm": 0.03825777769088745,
+      "learning_rate": 0.000889449447286015,
+      "loss": 0.241,
+      "num_input_tokens_seen": 77968288,
+      "step": 36070
+    },
+    {
+      "epoch": 5.8849918433931485,
+      "grad_norm": 0.027706053107976913,
+      "learning_rate": 0.0008894048029486748,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 77979264,
+      "step": 36075
+    },
+    {
+      "epoch": 5.885807504078303,
+      "grad_norm": 0.06347054243087769,
+      "learning_rate": 0.0008893601507195521,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 77988448,
+      "step": 36080
+    },
+    {
+      "epoch": 5.886623164763458,
+      "grad_norm": 0.08096565306186676,
+      "learning_rate": 0.000889315490599552,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 77999040,
+      "step": 36085
+    },
+    {
+      "epoch": 5.887438825448614,
+      "grad_norm": 0.33597108721733093,
+      "learning_rate": 0.0008892708225895796,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 78009408,
+      "step": 36090
+    },
+    {
+      "epoch": 5.888254486133769,
+      "grad_norm": 0.01979757472872734,
+      "learning_rate": 0.0008892261466905402,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 78019776,
+      "step": 36095
+    },
+    {
+      "epoch": 5.8890701468189235,
+      "grad_norm": 0.19596102833747864,
+      "learning_rate": 0.000889181462903339,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 78030144,
+      "step": 36100
+    },
+    {
+      "epoch": 5.889885807504078,
+      "grad_norm": 0.27742302417755127,
+      "learning_rate": 0.0008891367712288819,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 78041152,
+      "step": 36105
+    },
+    {
+      "epoch": 5.890701468189233,
+      "grad_norm": 0.05575815960764885,
+      "learning_rate": 0.0008890920716680744,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 78052384,
+      "step": 36110
+    },
+    {
+      "epoch": 5.891517128874388,
+      "grad_norm": 0.013160888105630875,
+      "learning_rate": 0.0008890473642218226,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 78062400,
+      "step": 36115
+    },
+    {
+      "epoch": 5.892332789559543,
+      "grad_norm": 0.009605771861970425,
+      "learning_rate": 0.0008890026488910323,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 78072480,
+      "step": 36120
+    },
+    {
+      "epoch": 5.8931484502446985,
+      "grad_norm": 0.0945558175444603,
+      "learning_rate": 0.0008889579256766098,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 78083968,
+      "step": 36125
+    },
+    {
+      "epoch": 5.893964110929853,
+      "grad_norm": 0.14063893258571625,
+      "learning_rate": 0.0008889131945794618,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 78094176,
+      "step": 36130
+    },
+    {
+      "epoch": 5.894779771615008,
+      "grad_norm": 0.02134103700518608,
+      "learning_rate": 0.0008888684556004942,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 78103872,
+      "step": 36135
+    },
+    {
+      "epoch": 5.895595432300163,
+      "grad_norm": 0.13972730934619904,
+      "learning_rate": 0.0008888237087406141,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 78114656,
+      "step": 36140
+    },
+    {
+      "epoch": 5.896411092985318,
+      "grad_norm": 0.06875422596931458,
+      "learning_rate": 0.0008887789540007285,
+      "loss": 0.1673,
+      "num_input_tokens_seen": 78125312,
+      "step": 36145
+    },
+    {
+      "epoch": 5.897226753670473,
+      "grad_norm": 0.02877797745168209,
+      "learning_rate": 0.000888734191381744,
+      "loss": 0.035,
+      "num_input_tokens_seen": 78135936,
+      "step": 36150
+    },
+    {
+      "epoch": 5.898042414355628,
+      "grad_norm": 0.06866522133350372,
+      "learning_rate": 0.000888689420884568,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 78148384,
+      "step": 36155
+    },
+    {
+      "epoch": 5.898858075040783,
+      "grad_norm": 0.013201478868722916,
+      "learning_rate": 0.0008886446425101078,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 78158368,
+      "step": 36160
+    },
+    {
+      "epoch": 5.899673735725938,
+      "grad_norm": 0.06638146191835403,
+      "learning_rate": 0.0008885998562592709,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 78167680,
+      "step": 36165
+    },
+    {
+      "epoch": 5.900489396411093,
+      "grad_norm": 0.2783553898334503,
+      "learning_rate": 0.0008885550621329649,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 78178048,
+      "step": 36170
+    },
+    {
+      "epoch": 5.901305057096248,
+      "grad_norm": 0.07050324976444244,
+      "learning_rate": 0.0008885102601320976,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 78187360,
+      "step": 36175
+    },
+    {
+      "epoch": 5.902120717781403,
+      "grad_norm": 0.01027140486985445,
+      "learning_rate": 0.0008884654502575771,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 78198912,
+      "step": 36180
+    },
+    {
+      "epoch": 5.902936378466558,
+      "grad_norm": 0.009896304458379745,
+      "learning_rate": 0.0008884206325103115,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 78209952,
+      "step": 36185
+    },
+    {
+      "epoch": 5.903752039151713,
+      "grad_norm": 0.010709409601986408,
+      "learning_rate": 0.000888375806891209,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 78219712,
+      "step": 36190
+    },
+    {
+      "epoch": 5.904567699836868,
+      "grad_norm": 0.04064284265041351,
+      "learning_rate": 0.0008883309734011779,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 78231776,
+      "step": 36195
+    },
+    {
+      "epoch": 5.9053833605220225,
+      "grad_norm": 0.038544662296772,
+      "learning_rate": 0.0008882861320411273,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 78243648,
+      "step": 36200
+    },
+    {
+      "epoch": 5.906199021207177,
+      "grad_norm": 0.05744968354701996,
+      "learning_rate": 0.0008882412828119655,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 78253792,
+      "step": 36205
+    },
+    {
+      "epoch": 5.907014681892333,
+      "grad_norm": 0.012252528220415115,
+      "learning_rate": 0.0008881964257146015,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 78263616,
+      "step": 36210
+    },
+    {
+      "epoch": 5.907830342577488,
+      "grad_norm": 0.18378940224647522,
+      "learning_rate": 0.0008881515607499446,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 78275296,
+      "step": 36215
+    },
+    {
+      "epoch": 5.908646003262643,
+      "grad_norm": 0.16523931920528412,
+      "learning_rate": 0.000888106687918904,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 78286336,
+      "step": 36220
+    },
+    {
+      "epoch": 5.9094616639477975,
+      "grad_norm": 0.05260119214653969,
+      "learning_rate": 0.000888061807222389,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 78296640,
+      "step": 36225
+    },
+    {
+      "epoch": 5.910277324632952,
+      "grad_norm": 0.003584100864827633,
+      "learning_rate": 0.000888016918661309,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 78306560,
+      "step": 36230
+    },
+    {
+      "epoch": 5.911092985318108,
+      "grad_norm": 0.2283678501844406,
+      "learning_rate": 0.0008879720222365739,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 78317248,
+      "step": 36235
+    },
+    {
+      "epoch": 5.911908646003263,
+      "grad_norm": 0.08701247721910477,
+      "learning_rate": 0.0008879271179490938,
+      "loss": 0.133,
+      "num_input_tokens_seen": 78328992,
+      "step": 36240
+    },
+    {
+      "epoch": 5.912724306688418,
+      "grad_norm": 0.09132330864667892,
+      "learning_rate": 0.0008878822057997784,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 78340384,
+      "step": 36245
+    },
+    {
+      "epoch": 5.9135399673735725,
+      "grad_norm": 0.2684599459171295,
+      "learning_rate": 0.000887837285789538,
+      "loss": 0.1982,
+      "num_input_tokens_seen": 78352096,
+      "step": 36250
+    },
+    {
+      "epoch": 5.914355628058727,
+      "grad_norm": 0.037875618785619736,
+      "learning_rate": 0.0008877923579192831,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 78361728,
+      "step": 36255
+    },
+    {
+      "epoch": 5.915171288743883,
+      "grad_norm": 0.009383009746670723,
+      "learning_rate": 0.0008877474221899241,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 78373440,
+      "step": 36260
+    },
+    {
+      "epoch": 5.915986949429038,
+      "grad_norm": 0.2724219858646393,
+      "learning_rate": 0.0008877024786023718,
+      "loss": 0.3018,
+      "num_input_tokens_seen": 78383744,
+      "step": 36265
+    },
+    {
+      "epoch": 5.916802610114193,
+      "grad_norm": 0.08910335600376129,
+      "learning_rate": 0.0008876575271575366,
+      "loss": 0.086,
+      "num_input_tokens_seen": 78394080,
+      "step": 36270
+    },
+    {
+      "epoch": 5.917618270799347,
+      "grad_norm": 0.08044688403606415,
+      "learning_rate": 0.0008876125678563301,
+      "loss": 0.1419,
+      "num_input_tokens_seen": 78404416,
+      "step": 36275
+    },
+    {
+      "epoch": 5.918433931484502,
+      "grad_norm": 0.1438187211751938,
+      "learning_rate": 0.0008875676006996631,
+      "loss": 0.1822,
+      "num_input_tokens_seen": 78414624,
+      "step": 36280
+    },
+    {
+      "epoch": 5.919249592169657,
+      "grad_norm": 0.5074575543403625,
+      "learning_rate": 0.0008875226256884471,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 78424704,
+      "step": 36285
+    },
+    {
+      "epoch": 5.920065252854813,
+      "grad_norm": 0.14423705637454987,
+      "learning_rate": 0.0008874776428235933,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 78436064,
+      "step": 36290
+    },
+    {
+      "epoch": 5.920880913539968,
+      "grad_norm": 0.21933916211128235,
+      "learning_rate": 0.0008874326521060138,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 78447200,
+      "step": 36295
+    },
+    {
+      "epoch": 5.921696574225122,
+      "grad_norm": 0.02093925140798092,
+      "learning_rate": 0.0008873876535366199,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 78459552,
+      "step": 36300
+    },
+    {
+      "epoch": 5.922512234910277,
+      "grad_norm": 0.06091681867837906,
+      "learning_rate": 0.0008873426471163238,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 78470912,
+      "step": 36305
+    },
+    {
+      "epoch": 5.923327895595432,
+      "grad_norm": 0.038125790655612946,
+      "learning_rate": 0.0008872976328460376,
+      "loss": 0.144,
+      "num_input_tokens_seen": 78481728,
+      "step": 36310
+    },
+    {
+      "epoch": 5.924143556280587,
+      "grad_norm": 0.2037804126739502,
+      "learning_rate": 0.0008872526107266736,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 78493248,
+      "step": 36315
+    },
+    {
+      "epoch": 5.924959216965743,
+      "grad_norm": 0.17241688072681427,
+      "learning_rate": 0.0008872075807591442,
+      "loss": 0.273,
+      "num_input_tokens_seen": 78504224,
+      "step": 36320
+    },
+    {
+      "epoch": 5.925774877650897,
+      "grad_norm": 0.04938659444451332,
+      "learning_rate": 0.0008871625429443617,
+      "loss": 0.1786,
+      "num_input_tokens_seen": 78514944,
+      "step": 36325
+    },
+    {
+      "epoch": 5.926590538336052,
+      "grad_norm": 0.13024407625198364,
+      "learning_rate": 0.0008871174972832394,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 78525920,
+      "step": 36330
+    },
+    {
+      "epoch": 5.927406199021207,
+      "grad_norm": 0.02717706933617592,
+      "learning_rate": 0.0008870724437766898,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 78537888,
+      "step": 36335
+    },
+    {
+      "epoch": 5.928221859706362,
+      "grad_norm": 0.009567965753376484,
+      "learning_rate": 0.0008870273824256261,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 78547584,
+      "step": 36340
+    },
+    {
+      "epoch": 5.9290375203915175,
+      "grad_norm": 0.0030902696307748556,
+      "learning_rate": 0.0008869823132309616,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 78557760,
+      "step": 36345
+    },
+    {
+      "epoch": 5.929853181076672,
+      "grad_norm": 0.049891430884599686,
+      "learning_rate": 0.0008869372361936096,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 78568640,
+      "step": 36350
+    },
+    {
+      "epoch": 5.930668841761827,
+      "grad_norm": 0.01841222122311592,
+      "learning_rate": 0.0008868921513144835,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 78580224,
+      "step": 36355
+    },
+    {
+      "epoch": 5.931484502446982,
+      "grad_norm": 0.03582854941487312,
+      "learning_rate": 0.0008868470585944972,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 78590432,
+      "step": 36360
+    },
+    {
+      "epoch": 5.932300163132137,
+      "grad_norm": 0.15736792981624603,
+      "learning_rate": 0.0008868019580345645,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 78601696,
+      "step": 36365
+    },
+    {
+      "epoch": 5.933115823817292,
+      "grad_norm": 0.07770948112010956,
+      "learning_rate": 0.0008867568496355996,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 78613024,
+      "step": 36370
+    },
+    {
+      "epoch": 5.933931484502447,
+      "grad_norm": 0.010174530558288097,
+      "learning_rate": 0.0008867117333985164,
+      "loss": 0.18,
+      "num_input_tokens_seen": 78624064,
+      "step": 36375
+    },
+    {
+      "epoch": 5.934747145187602,
+      "grad_norm": 0.08652004599571228,
+      "learning_rate": 0.0008866666093242292,
+      "loss": 0.0473,
+      "num_input_tokens_seen": 78635104,
+      "step": 36380
+    },
+    {
+      "epoch": 5.935562805872757,
+      "grad_norm": 0.17718979716300964,
+      "learning_rate": 0.0008866214774136528,
+      "loss": 0.2155,
+      "num_input_tokens_seen": 78646272,
+      "step": 36385
+    },
+    {
+      "epoch": 5.936378466557912,
+      "grad_norm": 0.0171345341950655,
+      "learning_rate": 0.0008865763376677017,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 78656640,
+      "step": 36390
+    },
+    {
+      "epoch": 5.937194127243067,
+      "grad_norm": 0.13406716287136078,
+      "learning_rate": 0.0008865311900872905,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 78667200,
+      "step": 36395
+    },
+    {
+      "epoch": 5.938009787928221,
+      "grad_norm": 0.08030443638563156,
+      "learning_rate": 0.0008864860346733346,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 78677184,
+      "step": 36400
+    },
+    {
+      "epoch": 5.938825448613377,
+      "grad_norm": 0.08462988585233688,
+      "learning_rate": 0.0008864408714267489,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 78689440,
+      "step": 36405
+    },
+    {
+      "epoch": 5.939641109298532,
+      "grad_norm": 0.35317009687423706,
+      "learning_rate": 0.0008863957003484486,
+      "loss": 0.112,
+      "num_input_tokens_seen": 78700640,
+      "step": 36410
+    },
+    {
+      "epoch": 5.940456769983687,
+      "grad_norm": 0.03767653927206993,
+      "learning_rate": 0.0008863505214393494,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 78710976,
+      "step": 36415
+    },
+    {
+      "epoch": 5.941272430668842,
+      "grad_norm": 0.0903841108083725,
+      "learning_rate": 0.0008863053347003667,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 78722240,
+      "step": 36420
+    },
+    {
+      "epoch": 5.942088091353996,
+      "grad_norm": 0.014996036887168884,
+      "learning_rate": 0.0008862601401324162,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 78732704,
+      "step": 36425
+    },
+    {
+      "epoch": 5.942903752039152,
+      "grad_norm": 0.06513303518295288,
+      "learning_rate": 0.0008862149377364142,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 78742592,
+      "step": 36430
+    },
+    {
+      "epoch": 5.943719412724307,
+      "grad_norm": 0.13003186881542206,
+      "learning_rate": 0.0008861697275132763,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 78752064,
+      "step": 36435
+    },
+    {
+      "epoch": 5.944535073409462,
+      "grad_norm": 0.19689883291721344,
+      "learning_rate": 0.0008861245094639193,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 78761984,
+      "step": 36440
+    },
+    {
+      "epoch": 5.945350734094617,
+      "grad_norm": 0.00810596626251936,
+      "learning_rate": 0.000886079283589259,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 78773504,
+      "step": 36445
+    },
+    {
+      "epoch": 5.946166394779771,
+      "grad_norm": 0.014026161283254623,
+      "learning_rate": 0.0008860340498902121,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 78784352,
+      "step": 36450
+    },
+    {
+      "epoch": 5.946982055464927,
+      "grad_norm": 0.08399257808923721,
+      "learning_rate": 0.0008859888083676958,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 78795968,
+      "step": 36455
+    },
+    {
+      "epoch": 5.947797716150082,
+      "grad_norm": 0.08424603939056396,
+      "learning_rate": 0.0008859435590226266,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 78805984,
+      "step": 36460
+    },
+    {
+      "epoch": 5.948613376835237,
+      "grad_norm": 0.02504083514213562,
+      "learning_rate": 0.0008858983018559214,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 78817184,
+      "step": 36465
+    },
+    {
+      "epoch": 5.9494290375203915,
+      "grad_norm": 0.19386163353919983,
+      "learning_rate": 0.0008858530368684977,
+      "loss": 0.2027,
+      "num_input_tokens_seen": 78828160,
+      "step": 36470
+    },
+    {
+      "epoch": 5.950244698205546,
+      "grad_norm": 0.13911594450473785,
+      "learning_rate": 0.0008858077640612727,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 78838944,
+      "step": 36475
+    },
+    {
+      "epoch": 5.951060358890701,
+      "grad_norm": 0.020422089844942093,
+      "learning_rate": 0.0008857624834351639,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 78848896,
+      "step": 36480
+    },
+    {
+      "epoch": 5.951876019575856,
+      "grad_norm": 0.026278553530573845,
+      "learning_rate": 0.000885717194991089,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 78860608,
+      "step": 36485
+    },
+    {
+      "epoch": 5.952691680261012,
+      "grad_norm": 0.008417508564889431,
+      "learning_rate": 0.0008856718987299656,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 78871200,
+      "step": 36490
+    },
+    {
+      "epoch": 5.9535073409461665,
+      "grad_norm": 0.045608025044202805,
+      "learning_rate": 0.0008856265946527122,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 78882464,
+      "step": 36495
+    },
+    {
+      "epoch": 5.954323001631321,
+      "grad_norm": 0.020935669541358948,
+      "learning_rate": 0.0008855812827602465,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 78892416,
+      "step": 36500
+    },
+    {
+      "epoch": 5.955138662316476,
+      "grad_norm": 0.036478910595178604,
+      "learning_rate": 0.0008855359630534871,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 78904128,
+      "step": 36505
+    },
+    {
+      "epoch": 5.955954323001631,
+      "grad_norm": 0.025049181655049324,
+      "learning_rate": 0.0008854906355333522,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 78913152,
+      "step": 36510
+    },
+    {
+      "epoch": 5.956769983686787,
+      "grad_norm": 0.025541089475154877,
+      "learning_rate": 0.0008854453002007607,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 78924672,
+      "step": 36515
+    },
+    {
+      "epoch": 5.9575856443719415,
+      "grad_norm": 0.013693660497665405,
+      "learning_rate": 0.0008853999570566311,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 78936224,
+      "step": 36520
+    },
+    {
+      "epoch": 5.958401305057096,
+      "grad_norm": 0.05598202720284462,
+      "learning_rate": 0.0008853546061018825,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 78947200,
+      "step": 36525
+    },
+    {
+      "epoch": 5.959216965742251,
+      "grad_norm": 0.030897224321961403,
+      "learning_rate": 0.000885309247337434,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 78959104,
+      "step": 36530
+    },
+    {
+      "epoch": 5.960032626427406,
+      "grad_norm": 0.006449823267757893,
+      "learning_rate": 0.0008852638807642048,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 78970240,
+      "step": 36535
+    },
+    {
+      "epoch": 5.960848287112562,
+      "grad_norm": 0.01938220113515854,
+      "learning_rate": 0.0008852185063831142,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 78979872,
+      "step": 36540
+    },
+    {
+      "epoch": 5.9616639477977165,
+      "grad_norm": 0.01463254727423191,
+      "learning_rate": 0.000885173124195082,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 78992032,
+      "step": 36545
+    },
+    {
+      "epoch": 5.962479608482871,
+      "grad_norm": 0.015324999578297138,
+      "learning_rate": 0.0008851277342010278,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 79002240,
+      "step": 36550
+    },
+    {
+      "epoch": 5.963295269168026,
+      "grad_norm": 0.006455022841691971,
+      "learning_rate": 0.0008850823364018715,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 79013632,
+      "step": 36555
+    },
+    {
+      "epoch": 5.964110929853181,
+      "grad_norm": 0.2201565057039261,
+      "learning_rate": 0.0008850369307985328,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 79023808,
+      "step": 36560
+    },
+    {
+      "epoch": 5.964926590538336,
+      "grad_norm": 0.05902295187115669,
+      "learning_rate": 0.0008849915173919327,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 79034560,
+      "step": 36565
+    },
+    {
+      "epoch": 5.9657422512234906,
+      "grad_norm": 0.013868676498532295,
+      "learning_rate": 0.0008849460961829909,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 79045824,
+      "step": 36570
+    },
+    {
+      "epoch": 5.966557911908646,
+      "grad_norm": 0.33222365379333496,
+      "learning_rate": 0.0008849006671726281,
+      "loss": 0.3332,
+      "num_input_tokens_seen": 79055648,
+      "step": 36575
+    },
+    {
+      "epoch": 5.967373572593801,
+      "grad_norm": 0.2062501609325409,
+      "learning_rate": 0.0008848552303617651,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 79066752,
+      "step": 36580
+    },
+    {
+      "epoch": 5.968189233278956,
+      "grad_norm": 0.036664046347141266,
+      "learning_rate": 0.0008848097857513227,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 79077984,
+      "step": 36585
+    },
+    {
+      "epoch": 5.969004893964111,
+      "grad_norm": 0.1617347002029419,
+      "learning_rate": 0.0008847643333422216,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 79089888,
+      "step": 36590
+    },
+    {
+      "epoch": 5.9698205546492655,
+      "grad_norm": 0.048055000603199005,
+      "learning_rate": 0.0008847188731353833,
+      "loss": 0.2289,
+      "num_input_tokens_seen": 79101312,
+      "step": 36595
+    },
+    {
+      "epoch": 5.970636215334421,
+      "grad_norm": 0.017596082761883736,
+      "learning_rate": 0.0008846734051317289,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 79111616,
+      "step": 36600
+    },
+    {
+      "epoch": 5.971451876019576,
+      "grad_norm": 0.005010406486690044,
+      "learning_rate": 0.0008846279293321801,
+      "loss": 0.1542,
+      "num_input_tokens_seen": 79121632,
+      "step": 36605
+    },
+    {
+      "epoch": 5.972267536704731,
+      "grad_norm": 0.2197558879852295,
+      "learning_rate": 0.0008845824457376583,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 79132672,
+      "step": 36610
+    },
+    {
+      "epoch": 5.973083197389886,
+      "grad_norm": 0.12246564775705338,
+      "learning_rate": 0.0008845369543490853,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 79142304,
+      "step": 36615
+    },
+    {
+      "epoch": 5.9738988580750405,
+      "grad_norm": 0.38152462244033813,
+      "learning_rate": 0.0008844914551673832,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 79153088,
+      "step": 36620
+    },
+    {
+      "epoch": 5.974714518760196,
+      "grad_norm": 0.05257618799805641,
+      "learning_rate": 0.000884445948193474,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 79164800,
+      "step": 36625
+    },
+    {
+      "epoch": 5.975530179445351,
+      "grad_norm": 0.0162787064909935,
+      "learning_rate": 0.0008844004334282801,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 79175072,
+      "step": 36630
+    },
+    {
+      "epoch": 5.976345840130506,
+      "grad_norm": 0.2210160195827484,
+      "learning_rate": 0.0008843549108727234,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 79186016,
+      "step": 36635
+    },
+    {
+      "epoch": 5.977161500815661,
+      "grad_norm": 0.11478012800216675,
+      "learning_rate": 0.0008843093805277271,
+      "loss": 0.1818,
+      "num_input_tokens_seen": 79196224,
+      "step": 36640
+    },
+    {
+      "epoch": 5.9779771615008155,
+      "grad_norm": 0.05836905911564827,
+      "learning_rate": 0.0008842638423942136,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 79208320,
+      "step": 36645
+    },
+    {
+      "epoch": 5.97879282218597,
+      "grad_norm": 0.0437001995742321,
+      "learning_rate": 0.0008842182964731058,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 79218528,
+      "step": 36650
+    },
+    {
+      "epoch": 5.979608482871125,
+      "grad_norm": 0.09292764961719513,
+      "learning_rate": 0.0008841727427653269,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 79230144,
+      "step": 36655
+    },
+    {
+      "epoch": 5.980424143556281,
+      "grad_norm": 0.186200350522995,
+      "learning_rate": 0.0008841271812717999,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 79240960,
+      "step": 36660
+    },
+    {
+      "epoch": 5.981239804241436,
+      "grad_norm": 0.30797278881073,
+      "learning_rate": 0.0008840816119934485,
+      "loss": 0.1893,
+      "num_input_tokens_seen": 79251616,
+      "step": 36665
+    },
+    {
+      "epoch": 5.9820554649265905,
+      "grad_norm": 0.010716347023844719,
+      "learning_rate": 0.0008840360349311958,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 79262560,
+      "step": 36670
+    },
+    {
+      "epoch": 5.982871125611745,
+      "grad_norm": 0.014386476948857307,
+      "learning_rate": 0.0008839904500859656,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 79274048,
+      "step": 36675
+    },
+    {
+      "epoch": 5.9836867862969,
+      "grad_norm": 0.03421509265899658,
+      "learning_rate": 0.0008839448574586821,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 79284736,
+      "step": 36680
+    },
+    {
+      "epoch": 5.984502446982056,
+      "grad_norm": 0.00656637828797102,
+      "learning_rate": 0.0008838992570502687,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 79295040,
+      "step": 36685
+    },
+    {
+      "epoch": 5.985318107667211,
+      "grad_norm": 0.08180084824562073,
+      "learning_rate": 0.0008838536488616499,
+      "loss": 0.2041,
+      "num_input_tokens_seen": 79305536,
+      "step": 36690
+    },
+    {
+      "epoch": 5.986133768352365,
+      "grad_norm": 0.13446083664894104,
+      "learning_rate": 0.0008838080328937501,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 79316960,
+      "step": 36695
+    },
+    {
+      "epoch": 5.98694942903752,
+      "grad_norm": 0.09626548737287521,
+      "learning_rate": 0.0008837624091474935,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 79327584,
+      "step": 36700
+    },
+    {
+      "epoch": 5.987765089722675,
+      "grad_norm": 0.07584668695926666,
+      "learning_rate": 0.0008837167776238049,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 79338688,
+      "step": 36705
+    },
+    {
+      "epoch": 5.988580750407831,
+      "grad_norm": 0.0042076618410646915,
+      "learning_rate": 0.0008836711383236089,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 79349920,
+      "step": 36710
+    },
+    {
+      "epoch": 5.989396411092986,
+      "grad_norm": 0.019717322662472725,
+      "learning_rate": 0.0008836254912478308,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 79360192,
+      "step": 36715
+    },
+    {
+      "epoch": 5.99021207177814,
+      "grad_norm": 0.004804224707186222,
+      "learning_rate": 0.0008835798363973952,
+      "loss": 0.2098,
+      "num_input_tokens_seen": 79368992,
+      "step": 36720
+    },
+    {
+      "epoch": 5.991027732463295,
+      "grad_norm": 0.020206429064273834,
+      "learning_rate": 0.0008835341737732276,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 79379616,
+      "step": 36725
+    },
+    {
+      "epoch": 5.99184339314845,
+      "grad_norm": 0.0091730747371912,
+      "learning_rate": 0.0008834885033762536,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 79389216,
+      "step": 36730
+    },
+    {
+      "epoch": 5.992659053833605,
+      "grad_norm": 0.12126602977514267,
+      "learning_rate": 0.0008834428252073986,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 79400064,
+      "step": 36735
+    },
+    {
+      "epoch": 5.993474714518761,
+      "grad_norm": 0.02198721095919609,
+      "learning_rate": 0.0008833971392675882,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 79411808,
+      "step": 36740
+    },
+    {
+      "epoch": 5.994290375203915,
+      "grad_norm": 0.006473301909863949,
+      "learning_rate": 0.0008833514455577485,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 79420928,
+      "step": 36745
+    },
+    {
+      "epoch": 5.99510603588907,
+      "grad_norm": 0.11051056534051895,
+      "learning_rate": 0.0008833057440788053,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 79432768,
+      "step": 36750
+    },
+    {
+      "epoch": 5.995921696574225,
+      "grad_norm": 0.09950881451368332,
+      "learning_rate": 0.000883260034831685,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 79442720,
+      "step": 36755
+    },
+    {
+      "epoch": 5.99673735725938,
+      "grad_norm": 0.08756718784570694,
+      "learning_rate": 0.000883214317817314,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 79453344,
+      "step": 36760
+    },
+    {
+      "epoch": 5.997553017944535,
+      "grad_norm": 0.1397211253643036,
+      "learning_rate": 0.0008831685930366187,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 79463424,
+      "step": 36765
+    },
+    {
+      "epoch": 5.99836867862969,
+      "grad_norm": 0.004025152884423733,
+      "learning_rate": 0.0008831228604905257,
+      "loss": 0.039,
+      "num_input_tokens_seen": 79475264,
+      "step": 36770
+    },
+    {
+      "epoch": 5.999184339314845,
+      "grad_norm": 0.0041638934053480625,
+      "learning_rate": 0.0008830771201799619,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 79486464,
+      "step": 36775
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.06496407091617584,
+      "learning_rate": 0.0008830313721058543,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 79495984,
+      "step": 36780
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.12523896992206573,
+      "eval_runtime": 103.3104,
+      "eval_samples_per_second": 26.377,
+      "eval_steps_per_second": 6.601,
+      "num_input_tokens_seen": 79495984,
+      "step": 36780
+    },
+    {
+      "epoch": 6.000815660685155,
+      "grad_norm": 0.19501720368862152,
+      "learning_rate": 0.00088298561626913,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 79505904,
+      "step": 36785
+    },
+    {
+      "epoch": 6.00163132137031,
+      "grad_norm": 0.0032038709614425898,
+      "learning_rate": 0.0008829398526707164,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 79516880,
+      "step": 36790
+    },
+    {
+      "epoch": 6.002446982055465,
+      "grad_norm": 0.0025172571185976267,
+      "learning_rate": 0.0008828940813115408,
+      "loss": 0.1738,
+      "num_input_tokens_seen": 79527472,
+      "step": 36795
+    },
+    {
+      "epoch": 6.00326264274062,
+      "grad_norm": 0.3164461553096771,
+      "learning_rate": 0.000882848302192531,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 79538704,
+      "step": 36800
+    },
+    {
+      "epoch": 6.004078303425775,
+      "grad_norm": 0.07731668651103973,
+      "learning_rate": 0.0008828025153146147,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 79550096,
+      "step": 36805
+    },
+    {
+      "epoch": 6.00489396411093,
+      "grad_norm": 0.019409824162721634,
+      "learning_rate": 0.0008827567206787197,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 79561488,
+      "step": 36810
+    },
+    {
+      "epoch": 6.005709624796085,
+      "grad_norm": 0.038065653294324875,
+      "learning_rate": 0.0008827109182857742,
+      "loss": 0.135,
+      "num_input_tokens_seen": 79572048,
+      "step": 36815
+    },
+    {
+      "epoch": 6.006525285481239,
+      "grad_norm": 0.04077430069446564,
+      "learning_rate": 0.0008826651081367065,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 79582160,
+      "step": 36820
+    },
+    {
+      "epoch": 6.007340946166395,
+      "grad_norm": 0.25474321842193604,
+      "learning_rate": 0.0008826192902324449,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 79592304,
+      "step": 36825
+    },
+    {
+      "epoch": 6.00815660685155,
+      "grad_norm": 0.23740410804748535,
+      "learning_rate": 0.0008825734645739181,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 79602384,
+      "step": 36830
+    },
+    {
+      "epoch": 6.008972267536705,
+      "grad_norm": 0.18980100750923157,
+      "learning_rate": 0.0008825276311620546,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 79611440,
+      "step": 36835
+    },
+    {
+      "epoch": 6.00978792822186,
+      "grad_norm": 0.08281727135181427,
+      "learning_rate": 0.0008824817899977834,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 79622800,
+      "step": 36840
+    },
+    {
+      "epoch": 6.010603588907014,
+      "grad_norm": 0.06491725146770477,
+      "learning_rate": 0.0008824359410820335,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 79634608,
+      "step": 36845
+    },
+    {
+      "epoch": 6.011419249592169,
+      "grad_norm": 0.10696760565042496,
+      "learning_rate": 0.0008823900844157342,
+      "loss": 0.1227,
+      "num_input_tokens_seen": 79646512,
+      "step": 36850
+    },
+    {
+      "epoch": 6.012234910277325,
+      "grad_norm": 0.2877226769924164,
+      "learning_rate": 0.0008823442199998147,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 79658160,
+      "step": 36855
+    },
+    {
+      "epoch": 6.01305057096248,
+      "grad_norm": 0.04781525209546089,
+      "learning_rate": 0.0008822983478352044,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 79668304,
+      "step": 36860
+    },
+    {
+      "epoch": 6.013866231647635,
+      "grad_norm": 0.29813289642333984,
+      "learning_rate": 0.0008822524679228332,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 79680048,
+      "step": 36865
+    },
+    {
+      "epoch": 6.014681892332789,
+      "grad_norm": 0.11078273504972458,
+      "learning_rate": 0.0008822065802636308,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 79690224,
+      "step": 36870
+    },
+    {
+      "epoch": 6.015497553017944,
+      "grad_norm": 0.03565460816025734,
+      "learning_rate": 0.0008821606848585273,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 79700688,
+      "step": 36875
+    },
+    {
+      "epoch": 6.0163132137031,
+      "grad_norm": 0.02995418943464756,
+      "learning_rate": 0.0008821147817084526,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 79711120,
+      "step": 36880
+    },
+    {
+      "epoch": 6.017128874388255,
+      "grad_norm": 0.040033359080553055,
+      "learning_rate": 0.0008820688708143372,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 79721360,
+      "step": 36885
+    },
+    {
+      "epoch": 6.0179445350734095,
+      "grad_norm": 0.19602453708648682,
+      "learning_rate": 0.0008820229521771112,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 79732048,
+      "step": 36890
+    },
+    {
+      "epoch": 6.018760195758564,
+      "grad_norm": 0.03513888269662857,
+      "learning_rate": 0.0008819770257977058,
+      "loss": 0.2078,
+      "num_input_tokens_seen": 79742864,
+      "step": 36895
+    },
+    {
+      "epoch": 6.019575856443719,
+      "grad_norm": 0.009727993980050087,
+      "learning_rate": 0.0008819310916770511,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 79754512,
+      "step": 36900
+    },
+    {
+      "epoch": 6.020391517128874,
+      "grad_norm": 0.04514655843377113,
+      "learning_rate": 0.0008818851498160785,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 79766032,
+      "step": 36905
+    },
+    {
+      "epoch": 6.02120717781403,
+      "grad_norm": 0.15755507349967957,
+      "learning_rate": 0.0008818392002157188,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 79775792,
+      "step": 36910
+    },
+    {
+      "epoch": 6.0220228384991845,
+      "grad_norm": 0.07789606600999832,
+      "learning_rate": 0.0008817932428769033,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 79786576,
+      "step": 36915
+    },
+    {
+      "epoch": 6.022838499184339,
+      "grad_norm": 0.05118430405855179,
+      "learning_rate": 0.0008817472778005635,
+      "loss": 0.1647,
+      "num_input_tokens_seen": 79797456,
+      "step": 36920
+    },
+    {
+      "epoch": 6.023654159869494,
+      "grad_norm": 0.030694983899593353,
+      "learning_rate": 0.0008817013049876308,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 79808944,
+      "step": 36925
+    },
+    {
+      "epoch": 6.024469820554649,
+      "grad_norm": 0.023417538031935692,
+      "learning_rate": 0.0008816553244390368,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 79820592,
+      "step": 36930
+    },
+    {
+      "epoch": 6.025285481239805,
+      "grad_norm": 0.03646084666252136,
+      "learning_rate": 0.0008816093361557136,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 79832592,
+      "step": 36935
+    },
+    {
+      "epoch": 6.0261011419249595,
+      "grad_norm": 0.08928578346967697,
+      "learning_rate": 0.0008815633401385932,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 79843536,
+      "step": 36940
+    },
+    {
+      "epoch": 6.026916802610114,
+      "grad_norm": 0.01563401333987713,
+      "learning_rate": 0.0008815173363886075,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 79854000,
+      "step": 36945
+    },
+    {
+      "epoch": 6.027732463295269,
+      "grad_norm": 0.3969258964061737,
+      "learning_rate": 0.000881471324906689,
+      "loss": 0.076,
+      "num_input_tokens_seen": 79864688,
+      "step": 36950
+    },
+    {
+      "epoch": 6.028548123980424,
+      "grad_norm": 0.029993494972586632,
+      "learning_rate": 0.0008814253056937702,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 79876208,
+      "step": 36955
+    },
+    {
+      "epoch": 6.029363784665579,
+      "grad_norm": 0.10093618929386139,
+      "learning_rate": 0.0008813792787507837,
+      "loss": 0.065,
+      "num_input_tokens_seen": 79887568,
+      "step": 36960
+    },
+    {
+      "epoch": 6.0301794453507345,
+      "grad_norm": 0.012898314744234085,
+      "learning_rate": 0.0008813332440786623,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 79897584,
+      "step": 36965
+    },
+    {
+      "epoch": 6.030995106035889,
+      "grad_norm": 0.0038545397110283375,
+      "learning_rate": 0.0008812872016783389,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 79910096,
+      "step": 36970
+    },
+    {
+      "epoch": 6.031810766721044,
+      "grad_norm": 0.3187786340713501,
+      "learning_rate": 0.0008812411515507468,
+      "loss": 0.2138,
+      "num_input_tokens_seen": 79921200,
+      "step": 36975
+    },
+    {
+      "epoch": 6.032626427406199,
+      "grad_norm": 0.21439680457115173,
+      "learning_rate": 0.000881195093696819,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 79932496,
+      "step": 36980
+    },
+    {
+      "epoch": 6.033442088091354,
+      "grad_norm": 0.30229452252388,
+      "learning_rate": 0.000881149028117489,
+      "loss": 0.282,
+      "num_input_tokens_seen": 79942992,
+      "step": 36985
+    },
+    {
+      "epoch": 6.034257748776509,
+      "grad_norm": 0.04235079139471054,
+      "learning_rate": 0.0008811029548136906,
+      "loss": 0.1579,
+      "num_input_tokens_seen": 79955504,
+      "step": 36990
+    },
+    {
+      "epoch": 6.035073409461664,
+      "grad_norm": 0.1639384925365448,
+      "learning_rate": 0.0008810568737863574,
+      "loss": 0.1658,
+      "num_input_tokens_seen": 79965520,
+      "step": 36995
+    },
+    {
+      "epoch": 6.035889070146819,
+      "grad_norm": 0.1602403074502945,
+      "learning_rate": 0.000881010785036423,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 79977264,
+      "step": 37000
+    },
+    {
+      "epoch": 6.036704730831974,
+      "grad_norm": 0.3046966791152954,
+      "learning_rate": 0.0008809646885648218,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 79986832,
+      "step": 37005
+    },
+    {
+      "epoch": 6.037520391517129,
+      "grad_norm": 0.07625728845596313,
+      "learning_rate": 0.000880918584372488,
+      "loss": 0.041,
+      "num_input_tokens_seen": 79998160,
+      "step": 37010
+    },
+    {
+      "epoch": 6.0383360522022835,
+      "grad_norm": 0.21763290464878082,
+      "learning_rate": 0.0008808724724603558,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 80008720,
+      "step": 37015
+    },
+    {
+      "epoch": 6.039151712887439,
+      "grad_norm": 0.031195595860481262,
+      "learning_rate": 0.0008808263528293596,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 80017872,
+      "step": 37020
+    },
+    {
+      "epoch": 6.039967373572594,
+      "grad_norm": 0.25529634952545166,
+      "learning_rate": 0.0008807802254804344,
+      "loss": 0.2067,
+      "num_input_tokens_seen": 80027664,
+      "step": 37025
+    },
+    {
+      "epoch": 6.040783034257749,
+      "grad_norm": 0.12576717138290405,
+      "learning_rate": 0.000880734090414515,
+      "loss": 0.166,
+      "num_input_tokens_seen": 80039152,
+      "step": 37030
+    },
+    {
+      "epoch": 6.041598694942904,
+      "grad_norm": 0.013903754763305187,
+      "learning_rate": 0.000880687947632536,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 80049904,
+      "step": 37035
+    },
+    {
+      "epoch": 6.0424143556280585,
+      "grad_norm": 0.01922302134335041,
+      "learning_rate": 0.000880641797135433,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 80060496,
+      "step": 37040
+    },
+    {
+      "epoch": 6.043230016313213,
+      "grad_norm": 0.2248125970363617,
+      "learning_rate": 0.000880595638924141,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 80070992,
+      "step": 37045
+    },
+    {
+      "epoch": 6.044045676998369,
+      "grad_norm": 0.04535336047410965,
+      "learning_rate": 0.0008805494729995957,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 80081424,
+      "step": 37050
+    },
+    {
+      "epoch": 6.044861337683524,
+      "grad_norm": 0.07262910157442093,
+      "learning_rate": 0.0008805032993627324,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 80091824,
+      "step": 37055
+    },
+    {
+      "epoch": 6.045676998368679,
+      "grad_norm": 0.1967252790927887,
+      "learning_rate": 0.0008804571180144871,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 80102960,
+      "step": 37060
+    },
+    {
+      "epoch": 6.0464926590538335,
+      "grad_norm": 0.035517822951078415,
+      "learning_rate": 0.0008804109289557956,
+      "loss": 0.079,
+      "num_input_tokens_seen": 80114096,
+      "step": 37065
+    },
+    {
+      "epoch": 6.047308319738988,
+      "grad_norm": 0.02115003764629364,
+      "learning_rate": 0.0008803647321875942,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 80124976,
+      "step": 37070
+    },
+    {
+      "epoch": 6.048123980424143,
+      "grad_norm": 0.08668390661478043,
+      "learning_rate": 0.0008803185277108188,
+      "loss": 0.1535,
+      "num_input_tokens_seen": 80135376,
+      "step": 37075
+    },
+    {
+      "epoch": 6.048939641109299,
+      "grad_norm": 0.014792878180742264,
+      "learning_rate": 0.0008802723155264061,
+      "loss": 0.0525,
+      "num_input_tokens_seen": 80145328,
+      "step": 37080
+    },
+    {
+      "epoch": 6.049755301794454,
+      "grad_norm": 0.055387213826179504,
+      "learning_rate": 0.0008802260956352924,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 80155856,
+      "step": 37085
+    },
+    {
+      "epoch": 6.0505709624796085,
+      "grad_norm": 0.020852621644735336,
+      "learning_rate": 0.0008801798680384145,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 80165136,
+      "step": 37090
+    },
+    {
+      "epoch": 6.051386623164763,
+      "grad_norm": 0.03771822154521942,
+      "learning_rate": 0.0008801336327367096,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 80175504,
+      "step": 37095
+    },
+    {
+      "epoch": 6.052202283849918,
+      "grad_norm": 0.05520971119403839,
+      "learning_rate": 0.0008800873897311141,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 80187632,
+      "step": 37100
+    },
+    {
+      "epoch": 6.053017944535074,
+      "grad_norm": 0.025719482451677322,
+      "learning_rate": 0.0008800411390225655,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 80198576,
+      "step": 37105
+    },
+    {
+      "epoch": 6.053833605220229,
+      "grad_norm": 0.01990801841020584,
+      "learning_rate": 0.000879994880612001,
+      "loss": 0.03,
+      "num_input_tokens_seen": 80209232,
+      "step": 37110
+    },
+    {
+      "epoch": 6.054649265905383,
+      "grad_norm": 0.00535226333886385,
+      "learning_rate": 0.0008799486145003583,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 80220336,
+      "step": 37115
+    },
+    {
+      "epoch": 6.055464926590538,
+      "grad_norm": 0.3502698838710785,
+      "learning_rate": 0.0008799023406885751,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 80230384,
+      "step": 37120
+    },
+    {
+      "epoch": 6.056280587275693,
+      "grad_norm": 0.006463268771767616,
+      "learning_rate": 0.0008798560591775889,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 80241136,
+      "step": 37125
+    },
+    {
+      "epoch": 6.057096247960848,
+      "grad_norm": 0.35583990812301636,
+      "learning_rate": 0.0008798097699683376,
+      "loss": 0.1532,
+      "num_input_tokens_seen": 80252688,
+      "step": 37130
+    },
+    {
+      "epoch": 6.057911908646004,
+      "grad_norm": 0.0426289327442646,
+      "learning_rate": 0.0008797634730617598,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 80263728,
+      "step": 37135
+    },
+    {
+      "epoch": 6.058727569331158,
+      "grad_norm": 0.20918045938014984,
+      "learning_rate": 0.0008797171684587933,
+      "loss": 0.2027,
+      "num_input_tokens_seen": 80273104,
+      "step": 37140
+    },
+    {
+      "epoch": 6.059543230016313,
+      "grad_norm": 0.21897371113300323,
+      "learning_rate": 0.0008796708561603766,
+      "loss": 0.1077,
+      "num_input_tokens_seen": 80282576,
+      "step": 37145
+    },
+    {
+      "epoch": 6.060358890701468,
+      "grad_norm": 0.042841531336307526,
+      "learning_rate": 0.0008796245361674484,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 80293840,
+      "step": 37150
+    },
+    {
+      "epoch": 6.061174551386623,
+      "grad_norm": 0.06690218299627304,
+      "learning_rate": 0.0008795782084809473,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 80304656,
+      "step": 37155
+    },
+    {
+      "epoch": 6.061990212071779,
+      "grad_norm": 0.1094597652554512,
+      "learning_rate": 0.0008795318731018124,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 80315984,
+      "step": 37160
+    },
+    {
+      "epoch": 6.062805872756933,
+      "grad_norm": 0.1659562736749649,
+      "learning_rate": 0.0008794855300309827,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 80326992,
+      "step": 37165
+    },
+    {
+      "epoch": 6.063621533442088,
+      "grad_norm": 0.14440147578716278,
+      "learning_rate": 0.0008794391792693973,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 80337712,
+      "step": 37170
+    },
+    {
+      "epoch": 6.064437194127243,
+      "grad_norm": 0.01738247647881508,
+      "learning_rate": 0.0008793928208179955,
+      "loss": 0.1882,
+      "num_input_tokens_seen": 80348560,
+      "step": 37175
+    },
+    {
+      "epoch": 6.065252854812398,
+      "grad_norm": 0.25447797775268555,
+      "learning_rate": 0.000879346454677717,
+      "loss": 0.1146,
+      "num_input_tokens_seen": 80359664,
+      "step": 37180
+    },
+    {
+      "epoch": 6.066068515497553,
+      "grad_norm": 0.3118617832660675,
+      "learning_rate": 0.0008793000808495012,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 80370064,
+      "step": 37185
+    },
+    {
+      "epoch": 6.066884176182708,
+      "grad_norm": 0.008864902891218662,
+      "learning_rate": 0.0008792536993342882,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 80380880,
+      "step": 37190
+    },
+    {
+      "epoch": 6.067699836867863,
+      "grad_norm": 0.10314369946718216,
+      "learning_rate": 0.0008792073101330177,
+      "loss": 0.212,
+      "num_input_tokens_seen": 80392144,
+      "step": 37195
+    },
+    {
+      "epoch": 6.068515497553018,
+      "grad_norm": 0.04900093749165535,
+      "learning_rate": 0.00087916091324663,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 80403024,
+      "step": 37200
+    },
+    {
+      "epoch": 6.069331158238173,
+      "grad_norm": 0.0865040123462677,
+      "learning_rate": 0.0008791145086760656,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 80413488,
+      "step": 37205
+    },
+    {
+      "epoch": 6.070146818923328,
+      "grad_norm": 0.1456834226846695,
+      "learning_rate": 0.0008790680964222647,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 80424176,
+      "step": 37210
+    },
+    {
+      "epoch": 6.0709624796084825,
+      "grad_norm": 0.1410757303237915,
+      "learning_rate": 0.000879021676486168,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 80434256,
+      "step": 37215
+    },
+    {
+      "epoch": 6.071778140293638,
+      "grad_norm": 0.02068004384636879,
+      "learning_rate": 0.0008789752488687159,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 80444176,
+      "step": 37220
+    },
+    {
+      "epoch": 6.072593800978793,
+      "grad_norm": 0.1710319072008133,
+      "learning_rate": 0.00087892881357085,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 80455952,
+      "step": 37225
+    },
+    {
+      "epoch": 6.073409461663948,
+      "grad_norm": 0.08538807928562164,
+      "learning_rate": 0.0008788823705935107,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 80467024,
+      "step": 37230
+    },
+    {
+      "epoch": 6.074225122349103,
+      "grad_norm": 0.1996658742427826,
+      "learning_rate": 0.0008788359199376396,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 80477488,
+      "step": 37235
+    },
+    {
+      "epoch": 6.075040783034257,
+      "grad_norm": 0.09354493021965027,
+      "learning_rate": 0.0008787894616041781,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 80488080,
+      "step": 37240
+    },
+    {
+      "epoch": 6.075856443719413,
+      "grad_norm": 0.1762208789587021,
+      "learning_rate": 0.0008787429955940675,
+      "loss": 0.1917,
+      "num_input_tokens_seen": 80499664,
+      "step": 37245
+    },
+    {
+      "epoch": 6.076672104404568,
+      "grad_norm": 0.018932653591036797,
+      "learning_rate": 0.0008786965219082497,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 80510544,
+      "step": 37250
+    },
+    {
+      "epoch": 6.077487765089723,
+      "grad_norm": 0.018798017874360085,
+      "learning_rate": 0.0008786500405476664,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 80520880,
+      "step": 37255
+    },
+    {
+      "epoch": 6.078303425774878,
+      "grad_norm": 0.2359062135219574,
+      "learning_rate": 0.0008786035515132598,
+      "loss": 0.1641,
+      "num_input_tokens_seen": 80532784,
+      "step": 37260
+    },
+    {
+      "epoch": 6.079119086460032,
+      "grad_norm": 0.14479638636112213,
+      "learning_rate": 0.0008785570548059718,
+      "loss": 0.053,
+      "num_input_tokens_seen": 80542832,
+      "step": 37265
+    },
+    {
+      "epoch": 6.079934747145187,
+      "grad_norm": 0.2287491112947464,
+      "learning_rate": 0.0008785105504267449,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 80553744,
+      "step": 37270
+    },
+    {
+      "epoch": 6.080750407830343,
+      "grad_norm": 0.1595332771539688,
+      "learning_rate": 0.0008784640383765215,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 80564432,
+      "step": 37275
+    },
+    {
+      "epoch": 6.081566068515498,
+      "grad_norm": 0.01782151870429516,
+      "learning_rate": 0.0008784175186562442,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 80575856,
+      "step": 37280
+    },
+    {
+      "epoch": 6.082381729200653,
+      "grad_norm": 0.1804230660200119,
+      "learning_rate": 0.000878370991266856,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 80586096,
+      "step": 37285
+    },
+    {
+      "epoch": 6.083197389885807,
+      "grad_norm": 0.027629168704152107,
+      "learning_rate": 0.0008783244562092996,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 80597040,
+      "step": 37290
+    },
+    {
+      "epoch": 6.084013050570962,
+      "grad_norm": 0.03521690145134926,
+      "learning_rate": 0.0008782779134845181,
+      "loss": 0.14,
+      "num_input_tokens_seen": 80609168,
+      "step": 37295
+    },
+    {
+      "epoch": 6.084828711256117,
+      "grad_norm": 0.02052682265639305,
+      "learning_rate": 0.0008782313630934548,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 80620400,
+      "step": 37300
+    },
+    {
+      "epoch": 6.085644371941273,
+      "grad_norm": 0.33327436447143555,
+      "learning_rate": 0.0008781848050370531,
+      "loss": 0.1538,
+      "num_input_tokens_seen": 80633104,
+      "step": 37305
+    },
+    {
+      "epoch": 6.0864600326264275,
+      "grad_norm": 0.012549174949526787,
+      "learning_rate": 0.0008781382393162566,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 80643056,
+      "step": 37310
+    },
+    {
+      "epoch": 6.087275693311582,
+      "grad_norm": 0.0040662651881575584,
+      "learning_rate": 0.0008780916659320091,
+      "loss": 0.1361,
+      "num_input_tokens_seen": 80653424,
+      "step": 37315
+    },
+    {
+      "epoch": 6.088091353996737,
+      "grad_norm": 0.03261783719062805,
+      "learning_rate": 0.0008780450848852541,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 80663376,
+      "step": 37320
+    },
+    {
+      "epoch": 6.088907014681892,
+      "grad_norm": 0.0901263877749443,
+      "learning_rate": 0.0008779984961769361,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 80674192,
+      "step": 37325
+    },
+    {
+      "epoch": 6.089722675367048,
+      "grad_norm": 0.03137005493044853,
+      "learning_rate": 0.0008779518998079988,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 80685840,
+      "step": 37330
+    },
+    {
+      "epoch": 6.0905383360522025,
+      "grad_norm": 0.18100182712078094,
+      "learning_rate": 0.000877905295779387,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 80696880,
+      "step": 37335
+    },
+    {
+      "epoch": 6.091353996737357,
+      "grad_norm": 0.2891119718551636,
+      "learning_rate": 0.0008778586840920449,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 80707952,
+      "step": 37340
+    },
+    {
+      "epoch": 6.092169657422512,
+      "grad_norm": 0.14484070241451263,
+      "learning_rate": 0.0008778120647469172,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 80719504,
+      "step": 37345
+    },
+    {
+      "epoch": 6.092985318107667,
+      "grad_norm": 0.1225421279668808,
+      "learning_rate": 0.0008777654377449487,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 80730448,
+      "step": 37350
+    },
+    {
+      "epoch": 6.093800978792822,
+      "grad_norm": 0.23504728078842163,
+      "learning_rate": 0.0008777188030870845,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 80742480,
+      "step": 37355
+    },
+    {
+      "epoch": 6.0946166394779775,
+      "grad_norm": 0.13727766275405884,
+      "learning_rate": 0.0008776721607742695,
+      "loss": 0.199,
+      "num_input_tokens_seen": 80753488,
+      "step": 37360
+    },
+    {
+      "epoch": 6.095432300163132,
+      "grad_norm": 0.014772283844649792,
+      "learning_rate": 0.0008776255108074489,
+      "loss": 0.2143,
+      "num_input_tokens_seen": 80764560,
+      "step": 37365
+    },
+    {
+      "epoch": 6.096247960848287,
+      "grad_norm": 0.05206260085105896,
+      "learning_rate": 0.0008775788531875685,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 80776496,
+      "step": 37370
+    },
+    {
+      "epoch": 6.097063621533442,
+      "grad_norm": 0.08829730749130249,
+      "learning_rate": 0.0008775321879155735,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 80786576,
+      "step": 37375
+    },
+    {
+      "epoch": 6.097879282218597,
+      "grad_norm": 0.021104643121361732,
+      "learning_rate": 0.0008774855149924099,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 80798256,
+      "step": 37380
+    },
+    {
+      "epoch": 6.0986949429037525,
+      "grad_norm": 0.10581175982952118,
+      "learning_rate": 0.0008774388344190234,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 80807056,
+      "step": 37385
+    },
+    {
+      "epoch": 6.099510603588907,
+      "grad_norm": 0.02822595275938511,
+      "learning_rate": 0.0008773921461963601,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 80818160,
+      "step": 37390
+    },
+    {
+      "epoch": 6.100326264274062,
+      "grad_norm": 0.019954686984419823,
+      "learning_rate": 0.0008773454503253662,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 80828144,
+      "step": 37395
+    },
+    {
+      "epoch": 6.101141924959217,
+      "grad_norm": 0.07640758901834488,
+      "learning_rate": 0.0008772987468069881,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 80839696,
+      "step": 37400
+    },
+    {
+      "epoch": 6.101957585644372,
+      "grad_norm": 0.01018131896853447,
+      "learning_rate": 0.0008772520356421723,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 80852912,
+      "step": 37405
+    },
+    {
+      "epoch": 6.102773246329527,
+      "grad_norm": 0.10560321807861328,
+      "learning_rate": 0.0008772053168318653,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 80864336,
+      "step": 37410
+    },
+    {
+      "epoch": 6.103588907014682,
+      "grad_norm": 0.005883463192731142,
+      "learning_rate": 0.000877158590377014,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 80874576,
+      "step": 37415
+    },
+    {
+      "epoch": 6.104404567699837,
+      "grad_norm": 0.14068001508712769,
+      "learning_rate": 0.0008771118562785656,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 80885904,
+      "step": 37420
+    },
+    {
+      "epoch": 6.105220228384992,
+      "grad_norm": 0.23875434696674347,
+      "learning_rate": 0.0008770651145374669,
+      "loss": 0.1259,
+      "num_input_tokens_seen": 80894992,
+      "step": 37425
+    },
+    {
+      "epoch": 6.106035889070147,
+      "grad_norm": 0.009279138408601284,
+      "learning_rate": 0.0008770183651546653,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 80906448,
+      "step": 37430
+    },
+    {
+      "epoch": 6.1068515497553015,
+      "grad_norm": 0.24461911618709564,
+      "learning_rate": 0.0008769716081311083,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 80916048,
+      "step": 37435
+    },
+    {
+      "epoch": 6.107667210440456,
+      "grad_norm": 0.008548499085009098,
+      "learning_rate": 0.0008769248434677434,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 80926288,
+      "step": 37440
+    },
+    {
+      "epoch": 6.108482871125612,
+      "grad_norm": 0.2648637890815735,
+      "learning_rate": 0.0008768780711655185,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 80937840,
+      "step": 37445
+    },
+    {
+      "epoch": 6.109298531810767,
+      "grad_norm": 0.3084779977798462,
+      "learning_rate": 0.0008768312912253811,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 80947472,
+      "step": 37450
+    },
+    {
+      "epoch": 6.110114192495922,
+      "grad_norm": 0.034691330045461655,
+      "learning_rate": 0.0008767845036482798,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 80956528,
+      "step": 37455
+    },
+    {
+      "epoch": 6.1109298531810765,
+      "grad_norm": 0.04501752927899361,
+      "learning_rate": 0.0008767377084351625,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 80966288,
+      "step": 37460
+    },
+    {
+      "epoch": 6.111745513866231,
+      "grad_norm": 0.056020502001047134,
+      "learning_rate": 0.0008766909055869777,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 80977456,
+      "step": 37465
+    },
+    {
+      "epoch": 6.112561174551387,
+      "grad_norm": 0.012287724763154984,
+      "learning_rate": 0.0008766440951046736,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 80989168,
+      "step": 37470
+    },
+    {
+      "epoch": 6.113376835236542,
+      "grad_norm": 0.28466975688934326,
+      "learning_rate": 0.0008765972769891993,
+      "loss": 0.1104,
+      "num_input_tokens_seen": 80998256,
+      "step": 37475
+    },
+    {
+      "epoch": 6.114192495921697,
+      "grad_norm": 0.03604330122470856,
+      "learning_rate": 0.0008765504512415033,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 81009840,
+      "step": 37480
+    },
+    {
+      "epoch": 6.1150081566068515,
+      "grad_norm": 0.09890235960483551,
+      "learning_rate": 0.0008765036178625347,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 81020624,
+      "step": 37485
+    },
+    {
+      "epoch": 6.115823817292006,
+      "grad_norm": 0.21546748280525208,
+      "learning_rate": 0.0008764567768532427,
+      "loss": 0.1936,
+      "num_input_tokens_seen": 81032368,
+      "step": 37490
+    },
+    {
+      "epoch": 6.116639477977161,
+      "grad_norm": 0.007293385919183493,
+      "learning_rate": 0.0008764099282145767,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 81043856,
+      "step": 37495
+    },
+    {
+      "epoch": 6.117455138662317,
+      "grad_norm": 0.2758633494377136,
+      "learning_rate": 0.0008763630719474857,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 81054704,
+      "step": 37500
+    },
+    {
+      "epoch": 6.118270799347472,
+      "grad_norm": 0.36068642139434814,
+      "learning_rate": 0.0008763162080529199,
+      "loss": 0.0931,
+      "num_input_tokens_seen": 81066800,
+      "step": 37505
+    },
+    {
+      "epoch": 6.1190864600326265,
+      "grad_norm": 0.1663595587015152,
+      "learning_rate": 0.0008762693365318286,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 81078192,
+      "step": 37510
+    },
+    {
+      "epoch": 6.119902120717781,
+      "grad_norm": 0.2499445080757141,
+      "learning_rate": 0.0008762224573851619,
+      "loss": 0.167,
+      "num_input_tokens_seen": 81089200,
+      "step": 37515
+    },
+    {
+      "epoch": 6.120717781402936,
+      "grad_norm": 0.014237415045499802,
+      "learning_rate": 0.0008761755706138698,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 81101552,
+      "step": 37520
+    },
+    {
+      "epoch": 6.121533442088092,
+      "grad_norm": 0.04967695102095604,
+      "learning_rate": 0.0008761286762189027,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 81112080,
+      "step": 37525
+    },
+    {
+      "epoch": 6.122349102773247,
+      "grad_norm": 0.04989294335246086,
+      "learning_rate": 0.0008760817742012106,
+      "loss": 0.0584,
+      "num_input_tokens_seen": 81121744,
+      "step": 37530
+    },
+    {
+      "epoch": 6.123164763458401,
+      "grad_norm": 0.00509643042460084,
+      "learning_rate": 0.0008760348645617444,
+      "loss": 0.1544,
+      "num_input_tokens_seen": 81132912,
+      "step": 37535
+    },
+    {
+      "epoch": 6.123980424143556,
+      "grad_norm": 0.006603681482374668,
+      "learning_rate": 0.0008759879473014545,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 81142032,
+      "step": 37540
+    },
+    {
+      "epoch": 6.124796084828711,
+      "grad_norm": 0.16137801110744476,
+      "learning_rate": 0.000875941022421292,
+      "loss": 0.1599,
+      "num_input_tokens_seen": 81154160,
+      "step": 37545
+    },
+    {
+      "epoch": 6.125611745513866,
+      "grad_norm": 0.10797300934791565,
+      "learning_rate": 0.0008758940899222077,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 81164272,
+      "step": 37550
+    },
+    {
+      "epoch": 6.126427406199022,
+      "grad_norm": 0.005488535389304161,
+      "learning_rate": 0.0008758471498051528,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 81174544,
+      "step": 37555
+    },
+    {
+      "epoch": 6.127243066884176,
+      "grad_norm": 0.08023177087306976,
+      "learning_rate": 0.0008758002020710787,
+      "loss": 0.2513,
+      "num_input_tokens_seen": 81186032,
+      "step": 37560
+    },
+    {
+      "epoch": 6.128058727569331,
+      "grad_norm": 0.022178582847118378,
+      "learning_rate": 0.0008757532467209367,
+      "loss": 0.017,
+      "num_input_tokens_seen": 81195472,
+      "step": 37565
+    },
+    {
+      "epoch": 6.128874388254486,
+      "grad_norm": 0.01314950454980135,
+      "learning_rate": 0.0008757062837556784,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 81206096,
+      "step": 37570
+    },
+    {
+      "epoch": 6.129690048939641,
+      "grad_norm": 0.0685277059674263,
+      "learning_rate": 0.0008756593131762557,
+      "loss": 0.1684,
+      "num_input_tokens_seen": 81216464,
+      "step": 37575
+    },
+    {
+      "epoch": 6.130505709624796,
+      "grad_norm": 0.03624110668897629,
+      "learning_rate": 0.0008756123349836206,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 81227440,
+      "step": 37580
+    },
+    {
+      "epoch": 6.131321370309951,
+      "grad_norm": 0.12655434012413025,
+      "learning_rate": 0.0008755653491787249,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 81239184,
+      "step": 37585
+    },
+    {
+      "epoch": 6.132137030995106,
+      "grad_norm": 0.3611098527908325,
+      "learning_rate": 0.000875518355762521,
+      "loss": 0.1936,
+      "num_input_tokens_seen": 81249008,
+      "step": 37590
+    },
+    {
+      "epoch": 6.132952691680261,
+      "grad_norm": 0.16590391099452972,
+      "learning_rate": 0.0008754713547359612,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 81261008,
+      "step": 37595
+    },
+    {
+      "epoch": 6.133768352365416,
+      "grad_norm": 0.25919094681739807,
+      "learning_rate": 0.0008754243460999982,
+      "loss": 0.1533,
+      "num_input_tokens_seen": 81271024,
+      "step": 37600
+    },
+    {
+      "epoch": 6.134584013050571,
+      "grad_norm": 0.021038195118308067,
+      "learning_rate": 0.0008753773298555844,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 81281424,
+      "step": 37605
+    },
+    {
+      "epoch": 6.135399673735726,
+      "grad_norm": 0.31902235746383667,
+      "learning_rate": 0.0008753303060036728,
+      "loss": 0.1694,
+      "num_input_tokens_seen": 81293296,
+      "step": 37610
+    },
+    {
+      "epoch": 6.136215334420881,
+      "grad_norm": 0.07178599387407303,
+      "learning_rate": 0.0008752832745452166,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 81305680,
+      "step": 37615
+    },
+    {
+      "epoch": 6.137030995106036,
+      "grad_norm": 0.02646786905825138,
+      "learning_rate": 0.0008752362354811686,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 81316976,
+      "step": 37620
+    },
+    {
+      "epoch": 6.137846655791191,
+      "grad_norm": 0.0307559035718441,
+      "learning_rate": 0.0008751891888124823,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 81328016,
+      "step": 37625
+    },
+    {
+      "epoch": 6.138662316476346,
+      "grad_norm": 0.27889934182167053,
+      "learning_rate": 0.0008751421345401111,
+      "loss": 0.1975,
+      "num_input_tokens_seen": 81338736,
+      "step": 37630
+    },
+    {
+      "epoch": 6.1394779771615005,
+      "grad_norm": 0.2421681433916092,
+      "learning_rate": 0.0008750950726650089,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 81350192,
+      "step": 37635
+    },
+    {
+      "epoch": 6.140293637846656,
+      "grad_norm": 0.025474179536104202,
+      "learning_rate": 0.0008750480031881289,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 81360752,
+      "step": 37640
+    },
+    {
+      "epoch": 6.141109298531811,
+      "grad_norm": 0.2337075024843216,
+      "learning_rate": 0.0008750009261104255,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 81372176,
+      "step": 37645
+    },
+    {
+      "epoch": 6.141924959216966,
+      "grad_norm": 0.01117783784866333,
+      "learning_rate": 0.0008749538414328525,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 81383632,
+      "step": 37650
+    },
+    {
+      "epoch": 6.142740619902121,
+      "grad_norm": 0.14854608476161957,
+      "learning_rate": 0.0008749067491563643,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 81394384,
+      "step": 37655
+    },
+    {
+      "epoch": 6.143556280587275,
+      "grad_norm": 0.10728046298027039,
+      "learning_rate": 0.0008748596492819152,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 81404816,
+      "step": 37660
+    },
+    {
+      "epoch": 6.14437194127243,
+      "grad_norm": 0.2026142179965973,
+      "learning_rate": 0.0008748125418104598,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 81415568,
+      "step": 37665
+    },
+    {
+      "epoch": 6.145187601957586,
+      "grad_norm": 0.02100459858775139,
+      "learning_rate": 0.0008747654267429526,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 81427344,
+      "step": 37670
+    },
+    {
+      "epoch": 6.146003262642741,
+      "grad_norm": 0.03070612996816635,
+      "learning_rate": 0.0008747183040803488,
+      "loss": 0.2181,
+      "num_input_tokens_seen": 81437808,
+      "step": 37675
+    },
+    {
+      "epoch": 6.146818923327896,
+      "grad_norm": 0.09371879696846008,
+      "learning_rate": 0.000874671173823603,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 81448912,
+      "step": 37680
+    },
+    {
+      "epoch": 6.14763458401305,
+      "grad_norm": 0.09240694344043732,
+      "learning_rate": 0.0008746240359736708,
+      "loss": 0.1602,
+      "num_input_tokens_seen": 81459312,
+      "step": 37685
+    },
+    {
+      "epoch": 6.148450244698205,
+      "grad_norm": 0.036088816821575165,
+      "learning_rate": 0.0008745768905315072,
+      "loss": 0.1586,
+      "num_input_tokens_seen": 81469328,
+      "step": 37690
+    },
+    {
+      "epoch": 6.149265905383361,
+      "grad_norm": 0.06369510293006897,
+      "learning_rate": 0.0008745297374980676,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 81479216,
+      "step": 37695
+    },
+    {
+      "epoch": 6.150081566068516,
+      "grad_norm": 0.10222480446100235,
+      "learning_rate": 0.0008744825768743079,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 81490032,
+      "step": 37700
+    },
+    {
+      "epoch": 6.150897226753671,
+      "grad_norm": 0.06268610805273056,
+      "learning_rate": 0.0008744354086611837,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 81500976,
+      "step": 37705
+    },
+    {
+      "epoch": 6.151712887438825,
+      "grad_norm": 0.012655073776841164,
+      "learning_rate": 0.0008743882328596509,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 81511632,
+      "step": 37710
+    },
+    {
+      "epoch": 6.15252854812398,
+      "grad_norm": 0.06229158863425255,
+      "learning_rate": 0.0008743410494706655,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 81521616,
+      "step": 37715
+    },
+    {
+      "epoch": 6.153344208809135,
+      "grad_norm": 0.08903874456882477,
+      "learning_rate": 0.0008742938584951841,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 81530864,
+      "step": 37720
+    },
+    {
+      "epoch": 6.154159869494291,
+      "grad_norm": 0.005974739324301481,
+      "learning_rate": 0.0008742466599341625,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 81542896,
+      "step": 37725
+    },
+    {
+      "epoch": 6.1549755301794455,
+      "grad_norm": 0.014743143692612648,
+      "learning_rate": 0.0008741994537885578,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 81553360,
+      "step": 37730
+    },
+    {
+      "epoch": 6.1557911908646,
+      "grad_norm": 0.006878357846289873,
+      "learning_rate": 0.0008741522400593265,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 81564752,
+      "step": 37735
+    },
+    {
+      "epoch": 6.156606851549755,
+      "grad_norm": 0.030033187940716743,
+      "learning_rate": 0.0008741050187474253,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 81575504,
+      "step": 37740
+    },
+    {
+      "epoch": 6.15742251223491,
+      "grad_norm": 0.2209750860929489,
+      "learning_rate": 0.0008740577898538114,
+      "loss": 0.1603,
+      "num_input_tokens_seen": 81586480,
+      "step": 37745
+    },
+    {
+      "epoch": 6.158238172920065,
+      "grad_norm": 0.008535216562449932,
+      "learning_rate": 0.0008740105533794417,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 81597264,
+      "step": 37750
+    },
+    {
+      "epoch": 6.1590538336052205,
+      "grad_norm": 0.07704164832830429,
+      "learning_rate": 0.0008739633093252738,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 81608592,
+      "step": 37755
+    },
+    {
+      "epoch": 6.159869494290375,
+      "grad_norm": 0.07119981199502945,
+      "learning_rate": 0.0008739160576922649,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 81619600,
+      "step": 37760
+    },
+    {
+      "epoch": 6.16068515497553,
+      "grad_norm": 0.08949284255504608,
+      "learning_rate": 0.0008738687984813729,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 81630160,
+      "step": 37765
+    },
+    {
+      "epoch": 6.161500815660685,
+      "grad_norm": 0.0037753605283796787,
+      "learning_rate": 0.0008738215316935554,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 81641392,
+      "step": 37770
+    },
+    {
+      "epoch": 6.16231647634584,
+      "grad_norm": 0.0014340798370540142,
+      "learning_rate": 0.0008737742573297702,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 81652944,
+      "step": 37775
+    },
+    {
+      "epoch": 6.1631321370309955,
+      "grad_norm": 0.024722402915358543,
+      "learning_rate": 0.0008737269753909757,
+      "loss": 0.1752,
+      "num_input_tokens_seen": 81664592,
+      "step": 37780
+    },
+    {
+      "epoch": 6.16394779771615,
+      "grad_norm": 0.019996825605630875,
+      "learning_rate": 0.0008736796858781297,
+      "loss": 0.0303,
+      "num_input_tokens_seen": 81675952,
+      "step": 37785
+    },
+    {
+      "epoch": 6.164763458401305,
+      "grad_norm": 0.25875627994537354,
+      "learning_rate": 0.0008736323887921911,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 81685360,
+      "step": 37790
+    },
+    {
+      "epoch": 6.16557911908646,
+      "grad_norm": 0.15578259527683258,
+      "learning_rate": 0.0008735850841341179,
+      "loss": 0.0491,
+      "num_input_tokens_seen": 81696304,
+      "step": 37795
+    },
+    {
+      "epoch": 6.166394779771615,
+      "grad_norm": 0.26379722356796265,
+      "learning_rate": 0.0008735377719048692,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 81706160,
+      "step": 37800
+    },
+    {
+      "epoch": 6.16721044045677,
+      "grad_norm": 0.17212273180484772,
+      "learning_rate": 0.0008734904521054037,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 81715760,
+      "step": 37805
+    },
+    {
+      "epoch": 6.168026101141925,
+      "grad_norm": 0.042617104947566986,
+      "learning_rate": 0.0008734431247366803,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 81726736,
+      "step": 37810
+    },
+    {
+      "epoch": 6.16884176182708,
+      "grad_norm": 0.3961753249168396,
+      "learning_rate": 0.0008733957897996583,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 81736528,
+      "step": 37815
+    },
+    {
+      "epoch": 6.169657422512235,
+      "grad_norm": 0.04119712486863136,
+      "learning_rate": 0.0008733484472952969,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 81747856,
+      "step": 37820
+    },
+    {
+      "epoch": 6.17047308319739,
+      "grad_norm": 0.20554359257221222,
+      "learning_rate": 0.0008733010972245554,
+      "loss": 0.112,
+      "num_input_tokens_seen": 81758928,
+      "step": 37825
+    },
+    {
+      "epoch": 6.171288743882545,
+      "grad_norm": 0.11228428035974503,
+      "learning_rate": 0.0008732537395883938,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 81769392,
+      "step": 37830
+    },
+    {
+      "epoch": 6.1721044045677,
+      "grad_norm": 0.021784307435154915,
+      "learning_rate": 0.0008732063743877716,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 81781872,
+      "step": 37835
+    },
+    {
+      "epoch": 6.172920065252855,
+      "grad_norm": 0.019864261150360107,
+      "learning_rate": 0.0008731590016236489,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 81792976,
+      "step": 37840
+    },
+    {
+      "epoch": 6.17373572593801,
+      "grad_norm": 0.05301322415471077,
+      "learning_rate": 0.0008731116212969856,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 81802928,
+      "step": 37845
+    },
+    {
+      "epoch": 6.174551386623165,
+      "grad_norm": 0.14838729798793793,
+      "learning_rate": 0.000873064233408742,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 81812272,
+      "step": 37850
+    },
+    {
+      "epoch": 6.1753670473083195,
+      "grad_norm": 0.03396567702293396,
+      "learning_rate": 0.0008730168379598782,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 81823568,
+      "step": 37855
+    },
+    {
+      "epoch": 6.176182707993474,
+      "grad_norm": 0.23131468892097473,
+      "learning_rate": 0.0008729694349513552,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 81834000,
+      "step": 37860
+    },
+    {
+      "epoch": 6.17699836867863,
+      "grad_norm": 0.041217345744371414,
+      "learning_rate": 0.0008729220243841334,
+      "loss": 0.3346,
+      "num_input_tokens_seen": 81844016,
+      "step": 37865
+    },
+    {
+      "epoch": 6.177814029363785,
+      "grad_norm": 0.049347419291734695,
+      "learning_rate": 0.0008728746062591737,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 81855600,
+      "step": 37870
+    },
+    {
+      "epoch": 6.17862969004894,
+      "grad_norm": 0.03369903936982155,
+      "learning_rate": 0.0008728271805774371,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 81866640,
+      "step": 37875
+    },
+    {
+      "epoch": 6.1794453507340945,
+      "grad_norm": 0.18959836661815643,
+      "learning_rate": 0.0008727797473398846,
+      "loss": 0.1385,
+      "num_input_tokens_seen": 81876528,
+      "step": 37880
+    },
+    {
+      "epoch": 6.180261011419249,
+      "grad_norm": 0.020675910636782646,
+      "learning_rate": 0.0008727323065474778,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 81888144,
+      "step": 37885
+    },
+    {
+      "epoch": 6.181076672104404,
+      "grad_norm": 0.05461437627673149,
+      "learning_rate": 0.000872684858201178,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 81899344,
+      "step": 37890
+    },
+    {
+      "epoch": 6.18189233278956,
+      "grad_norm": 0.09581451117992401,
+      "learning_rate": 0.0008726374023019465,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 81909328,
+      "step": 37895
+    },
+    {
+      "epoch": 6.182707993474715,
+      "grad_norm": 0.10295901447534561,
+      "learning_rate": 0.0008725899388507454,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 81921232,
+      "step": 37900
+    },
+    {
+      "epoch": 6.1835236541598695,
+      "grad_norm": 0.005341388285160065,
+      "learning_rate": 0.0008725424678485366,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 81932304,
+      "step": 37905
+    },
+    {
+      "epoch": 6.184339314845024,
+      "grad_norm": 0.02357945591211319,
+      "learning_rate": 0.0008724949892962821,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 81943792,
+      "step": 37910
+    },
+    {
+      "epoch": 6.185154975530179,
+      "grad_norm": 0.012670408934354782,
+      "learning_rate": 0.0008724475031949441,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 81954000,
+      "step": 37915
+    },
+    {
+      "epoch": 6.185970636215335,
+      "grad_norm": 0.2212541550397873,
+      "learning_rate": 0.0008724000095454849,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 81964560,
+      "step": 37920
+    },
+    {
+      "epoch": 6.18678629690049,
+      "grad_norm": 0.07937619090080261,
+      "learning_rate": 0.0008723525083488671,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 81975504,
+      "step": 37925
+    },
+    {
+      "epoch": 6.1876019575856445,
+      "grad_norm": 0.21293163299560547,
+      "learning_rate": 0.0008723049996060534,
+      "loss": 0.1686,
+      "num_input_tokens_seen": 81984816,
+      "step": 37930
+    },
+    {
+      "epoch": 6.188417618270799,
+      "grad_norm": 0.056424580514431,
+      "learning_rate": 0.0008722574833180065,
+      "loss": 0.017,
+      "num_input_tokens_seen": 81992880,
+      "step": 37935
+    },
+    {
+      "epoch": 6.189233278955954,
+      "grad_norm": 0.007523713167756796,
+      "learning_rate": 0.0008722099594856895,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 82003216,
+      "step": 37940
+    },
+    {
+      "epoch": 6.190048939641109,
+      "grad_norm": 0.09879666566848755,
+      "learning_rate": 0.0008721624281100655,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 82015120,
+      "step": 37945
+    },
+    {
+      "epoch": 6.190864600326265,
+      "grad_norm": 0.13292758166790009,
+      "learning_rate": 0.0008721148891920978,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 82026512,
+      "step": 37950
+    },
+    {
+      "epoch": 6.191680261011419,
+      "grad_norm": 0.01907687447965145,
+      "learning_rate": 0.0008720673427327496,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 82037360,
+      "step": 37955
+    },
+    {
+      "epoch": 6.192495921696574,
+      "grad_norm": 0.057684943079948425,
+      "learning_rate": 0.0008720197887329851,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 82048048,
+      "step": 37960
+    },
+    {
+      "epoch": 6.193311582381729,
+      "grad_norm": 0.011981310322880745,
+      "learning_rate": 0.0008719722271937673,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 82059216,
+      "step": 37965
+    },
+    {
+      "epoch": 6.194127243066884,
+      "grad_norm": 0.1914396733045578,
+      "learning_rate": 0.0008719246581160606,
+      "loss": 0.2076,
+      "num_input_tokens_seen": 82070160,
+      "step": 37970
+    },
+    {
+      "epoch": 6.19494290375204,
+      "grad_norm": 0.051620397716760635,
+      "learning_rate": 0.0008718770815008288,
+      "loss": 0.085,
+      "num_input_tokens_seen": 82081328,
+      "step": 37975
+    },
+    {
+      "epoch": 6.195758564437194,
+      "grad_norm": 0.1118040457367897,
+      "learning_rate": 0.0008718294973490362,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 82091920,
+      "step": 37980
+    },
+    {
+      "epoch": 6.196574225122349,
+      "grad_norm": 0.13779281079769135,
+      "learning_rate": 0.0008717819056616472,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 82103312,
+      "step": 37985
+    },
+    {
+      "epoch": 6.197389885807504,
+      "grad_norm": 0.10947174578905106,
+      "learning_rate": 0.0008717343064396262,
+      "loss": 0.1393,
+      "num_input_tokens_seen": 82114608,
+      "step": 37990
+    },
+    {
+      "epoch": 6.198205546492659,
+      "grad_norm": 0.1319754719734192,
+      "learning_rate": 0.0008716866996839378,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 82125232,
+      "step": 37995
+    },
+    {
+      "epoch": 6.199021207177814,
+      "grad_norm": 0.02237529121339321,
+      "learning_rate": 0.0008716390853955472,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 82136208,
+      "step": 38000
+    },
+    {
+      "epoch": 6.199836867862969,
+      "grad_norm": 0.05175924673676491,
+      "learning_rate": 0.0008715914635754187,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 82147184,
+      "step": 38005
+    },
+    {
+      "epoch": 6.200652528548124,
+      "grad_norm": 0.33201223611831665,
+      "learning_rate": 0.0008715438342245181,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 82158672,
+      "step": 38010
+    },
+    {
+      "epoch": 6.201468189233279,
+      "grad_norm": 0.19700491428375244,
+      "learning_rate": 0.0008714961973438103,
+      "loss": 0.206,
+      "num_input_tokens_seen": 82170448,
+      "step": 38015
+    },
+    {
+      "epoch": 6.202283849918434,
+      "grad_norm": 0.0030625720974057913,
+      "learning_rate": 0.0008714485529342606,
+      "loss": 0.1937,
+      "num_input_tokens_seen": 82180848,
+      "step": 38020
+    },
+    {
+      "epoch": 6.203099510603589,
+      "grad_norm": 0.06964084506034851,
+      "learning_rate": 0.0008714009009968349,
+      "loss": 0.1514,
+      "num_input_tokens_seen": 82191600,
+      "step": 38025
+    },
+    {
+      "epoch": 6.2039151712887435,
+      "grad_norm": 0.019868431612849236,
+      "learning_rate": 0.0008713532415324988,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 82202384,
+      "step": 38030
+    },
+    {
+      "epoch": 6.204730831973899,
+      "grad_norm": 0.00986363273113966,
+      "learning_rate": 0.0008713055745422181,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 82211184,
+      "step": 38035
+    },
+    {
+      "epoch": 6.205546492659054,
+      "grad_norm": 0.3911730647087097,
+      "learning_rate": 0.000871257900026959,
+      "loss": 0.2685,
+      "num_input_tokens_seen": 82220720,
+      "step": 38040
+    },
+    {
+      "epoch": 6.206362153344209,
+      "grad_norm": 0.10592617094516754,
+      "learning_rate": 0.0008712102179876876,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 82232176,
+      "step": 38045
+    },
+    {
+      "epoch": 6.207177814029364,
+      "grad_norm": 0.1874314248561859,
+      "learning_rate": 0.0008711625284253701,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 82241648,
+      "step": 38050
+    },
+    {
+      "epoch": 6.2079934747145185,
+      "grad_norm": 0.008363268338143826,
+      "learning_rate": 0.0008711148313409731,
+      "loss": 0.3101,
+      "num_input_tokens_seen": 82251952,
+      "step": 38055
+    },
+    {
+      "epoch": 6.208809135399674,
+      "grad_norm": 0.006032775621861219,
+      "learning_rate": 0.0008710671267354633,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 82262800,
+      "step": 38060
+    },
+    {
+      "epoch": 6.209624796084829,
+      "grad_norm": 0.018502449616789818,
+      "learning_rate": 0.0008710194146098074,
+      "loss": 0.1468,
+      "num_input_tokens_seen": 82273552,
+      "step": 38065
+    },
+    {
+      "epoch": 6.210440456769984,
+      "grad_norm": 0.03034134767949581,
+      "learning_rate": 0.0008709716949649724,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 82285552,
+      "step": 38070
+    },
+    {
+      "epoch": 6.211256117455139,
+      "grad_norm": 0.20970183610916138,
+      "learning_rate": 0.0008709239678019255,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 82297520,
+      "step": 38075
+    },
+    {
+      "epoch": 6.212071778140293,
+      "grad_norm": 0.08290934562683105,
+      "learning_rate": 0.0008708762331216338,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 82307856,
+      "step": 38080
+    },
+    {
+      "epoch": 6.212887438825448,
+      "grad_norm": 0.06803029775619507,
+      "learning_rate": 0.0008708284909250646,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 82319344,
+      "step": 38085
+    },
+    {
+      "epoch": 6.213703099510604,
+      "grad_norm": 0.2577921152114868,
+      "learning_rate": 0.0008707807412131858,
+      "loss": 0.2342,
+      "num_input_tokens_seen": 82330672,
+      "step": 38090
+    },
+    {
+      "epoch": 6.214518760195759,
+      "grad_norm": 0.08383003622293472,
+      "learning_rate": 0.0008707329839869649,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 82342064,
+      "step": 38095
+    },
+    {
+      "epoch": 6.215334420880914,
+      "grad_norm": 0.06594287604093552,
+      "learning_rate": 0.0008706852192473696,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 82353232,
+      "step": 38100
+    },
+    {
+      "epoch": 6.216150081566068,
+      "grad_norm": 0.09301108121871948,
+      "learning_rate": 0.0008706374469953682,
+      "loss": 0.023,
+      "num_input_tokens_seen": 82364624,
+      "step": 38105
+    },
+    {
+      "epoch": 6.216965742251223,
+      "grad_norm": 0.047476354986429214,
+      "learning_rate": 0.0008705896672319286,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 82376816,
+      "step": 38110
+    },
+    {
+      "epoch": 6.217781402936378,
+      "grad_norm": 0.09446101635694504,
+      "learning_rate": 0.0008705418799580196,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 82386992,
+      "step": 38115
+    },
+    {
+      "epoch": 6.218597063621534,
+      "grad_norm": 0.00325257726944983,
+      "learning_rate": 0.000870494085174609,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 82398032,
+      "step": 38120
+    },
+    {
+      "epoch": 6.219412724306689,
+      "grad_norm": 0.033085815608501434,
+      "learning_rate": 0.000870446282882666,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 82409488,
+      "step": 38125
+    },
+    {
+      "epoch": 6.220228384991843,
+      "grad_norm": 0.005405626259744167,
+      "learning_rate": 0.0008703984730831589,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 82420368,
+      "step": 38130
+    },
+    {
+      "epoch": 6.221044045676998,
+      "grad_norm": 0.010103190317749977,
+      "learning_rate": 0.0008703506557770571,
+      "loss": 0.009,
+      "num_input_tokens_seen": 82430800,
+      "step": 38135
+    },
+    {
+      "epoch": 6.221859706362153,
+      "grad_norm": 0.04629164934158325,
+      "learning_rate": 0.0008703028309653293,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 82441680,
+      "step": 38140
+    },
+    {
+      "epoch": 6.222675367047309,
+      "grad_norm": 0.009996136650443077,
+      "learning_rate": 0.0008702549986489449,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 82452432,
+      "step": 38145
+    },
+    {
+      "epoch": 6.2234910277324635,
+      "grad_norm": 0.1453513503074646,
+      "learning_rate": 0.0008702071588288731,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 82463216,
+      "step": 38150
+    },
+    {
+      "epoch": 6.224306688417618,
+      "grad_norm": 0.2776382863521576,
+      "learning_rate": 0.0008701593115060837,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 82475184,
+      "step": 38155
+    },
+    {
+      "epoch": 6.225122349102773,
+      "grad_norm": 0.08298216760158539,
+      "learning_rate": 0.0008701114566815464,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 82484080,
+      "step": 38160
+    },
+    {
+      "epoch": 6.225938009787928,
+      "grad_norm": 0.18404394388198853,
+      "learning_rate": 0.0008700635943562308,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 82493488,
+      "step": 38165
+    },
+    {
+      "epoch": 6.226753670473083,
+      "grad_norm": 0.23019194602966309,
+      "learning_rate": 0.0008700157245311071,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 82504784,
+      "step": 38170
+    },
+    {
+      "epoch": 6.2275693311582385,
+      "grad_norm": 0.275285929441452,
+      "learning_rate": 0.0008699678472071453,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 82516400,
+      "step": 38175
+    },
+    {
+      "epoch": 6.228384991843393,
+      "grad_norm": 0.04369976744055748,
+      "learning_rate": 0.0008699199623853156,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 82526000,
+      "step": 38180
+    },
+    {
+      "epoch": 6.229200652528548,
+      "grad_norm": 0.010660940781235695,
+      "learning_rate": 0.0008698720700665888,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 82535760,
+      "step": 38185
+    },
+    {
+      "epoch": 6.230016313213703,
+      "grad_norm": 0.10546161234378815,
+      "learning_rate": 0.0008698241702519351,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 82547472,
+      "step": 38190
+    },
+    {
+      "epoch": 6.230831973898858,
+      "grad_norm": 0.02637307532131672,
+      "learning_rate": 0.0008697762629423254,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 82559312,
+      "step": 38195
+    },
+    {
+      "epoch": 6.231647634584013,
+      "grad_norm": 0.016469111666083336,
+      "learning_rate": 0.0008697283481387308,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 82570800,
+      "step": 38200
+    },
+    {
+      "epoch": 6.232463295269168,
+      "grad_norm": 0.005616335663944483,
+      "learning_rate": 0.000869680425842122,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 82582416,
+      "step": 38205
+    },
+    {
+      "epoch": 6.233278955954323,
+      "grad_norm": 0.0673634260892868,
+      "learning_rate": 0.0008696324960534706,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 82592400,
+      "step": 38210
+    },
+    {
+      "epoch": 6.234094616639478,
+      "grad_norm": 0.02261550910770893,
+      "learning_rate": 0.0008695845587737476,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 82603216,
+      "step": 38215
+    },
+    {
+      "epoch": 6.234910277324633,
+      "grad_norm": 0.012282857671380043,
+      "learning_rate": 0.0008695366140039248,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 82613648,
+      "step": 38220
+    },
+    {
+      "epoch": 6.235725938009788,
+      "grad_norm": 0.01848006621003151,
+      "learning_rate": 0.0008694886617449738,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 82625488,
+      "step": 38225
+    },
+    {
+      "epoch": 6.236541598694943,
+      "grad_norm": 0.004085164982825518,
+      "learning_rate": 0.0008694407019978661,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 82636880,
+      "step": 38230
+    },
+    {
+      "epoch": 6.237357259380098,
+      "grad_norm": 0.412178635597229,
+      "learning_rate": 0.0008693927347635741,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 82648368,
+      "step": 38235
+    },
+    {
+      "epoch": 6.238172920065253,
+      "grad_norm": 0.063252754509449,
+      "learning_rate": 0.0008693447600430695,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 82658736,
+      "step": 38240
+    },
+    {
+      "epoch": 6.238988580750408,
+      "grad_norm": 0.33977410197257996,
+      "learning_rate": 0.000869296777837325,
+      "loss": 0.2601,
+      "num_input_tokens_seen": 82667888,
+      "step": 38245
+    },
+    {
+      "epoch": 6.239804241435563,
+      "grad_norm": 0.007731478661298752,
+      "learning_rate": 0.0008692487881473128,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 82678896,
+      "step": 38250
+    },
+    {
+      "epoch": 6.240619902120717,
+      "grad_norm": 0.014961308799684048,
+      "learning_rate": 0.0008692007909740054,
+      "loss": 0.1406,
+      "num_input_tokens_seen": 82689424,
+      "step": 38255
+    },
+    {
+      "epoch": 6.241435562805873,
+      "grad_norm": 0.030552340671420097,
+      "learning_rate": 0.0008691527863183755,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 82700848,
+      "step": 38260
+    },
+    {
+      "epoch": 6.242251223491028,
+      "grad_norm": 0.00711380410939455,
+      "learning_rate": 0.0008691047741813963,
+      "loss": 0.188,
+      "num_input_tokens_seen": 82710288,
+      "step": 38265
+    },
+    {
+      "epoch": 6.243066884176183,
+      "grad_norm": 0.011850893497467041,
+      "learning_rate": 0.0008690567545640406,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 82720240,
+      "step": 38270
+    },
+    {
+      "epoch": 6.2438825448613375,
+      "grad_norm": 0.09806658327579498,
+      "learning_rate": 0.0008690087274672814,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 82731664,
+      "step": 38275
+    },
+    {
+      "epoch": 6.244698205546492,
+      "grad_norm": 0.11136013269424438,
+      "learning_rate": 0.0008689606928920923,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 82742832,
+      "step": 38280
+    },
+    {
+      "epoch": 6.245513866231648,
+      "grad_norm": 0.3061741292476654,
+      "learning_rate": 0.0008689126508394467,
+      "loss": 0.1712,
+      "num_input_tokens_seen": 82752496,
+      "step": 38285
+    },
+    {
+      "epoch": 6.246329526916803,
+      "grad_norm": 0.04090377315878868,
+      "learning_rate": 0.0008688646013103183,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 82764016,
+      "step": 38290
+    },
+    {
+      "epoch": 6.247145187601958,
+      "grad_norm": 0.02585625648498535,
+      "learning_rate": 0.0008688165443056808,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 82773904,
+      "step": 38295
+    },
+    {
+      "epoch": 6.2479608482871125,
+      "grad_norm": 0.12480328232049942,
+      "learning_rate": 0.0008687684798265081,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 82783376,
+      "step": 38300
+    },
+    {
+      "epoch": 6.248776508972267,
+      "grad_norm": 0.34098994731903076,
+      "learning_rate": 0.0008687204078737744,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 82794256,
+      "step": 38305
+    },
+    {
+      "epoch": 6.249592169657422,
+      "grad_norm": 0.2570803165435791,
+      "learning_rate": 0.0008686723284484538,
+      "loss": 0.2018,
+      "num_input_tokens_seen": 82802288,
+      "step": 38310
+    },
+    {
+      "epoch": 6.250407830342578,
+      "grad_norm": 0.009916471317410469,
+      "learning_rate": 0.0008686242415515209,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 82813584,
+      "step": 38315
+    },
+    {
+      "epoch": 6.251223491027733,
+      "grad_norm": 0.2923734188079834,
+      "learning_rate": 0.00086857614718395,
+      "loss": 0.2181,
+      "num_input_tokens_seen": 82823824,
+      "step": 38320
+    },
+    {
+      "epoch": 6.2520391517128875,
+      "grad_norm": 0.04271473363041878,
+      "learning_rate": 0.0008685280453467159,
+      "loss": 0.208,
+      "num_input_tokens_seen": 82834032,
+      "step": 38325
+    },
+    {
+      "epoch": 6.252854812398042,
+      "grad_norm": 0.04432328790426254,
+      "learning_rate": 0.0008684799360407935,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 82845456,
+      "step": 38330
+    },
+    {
+      "epoch": 6.253670473083197,
+      "grad_norm": 0.10046076774597168,
+      "learning_rate": 0.0008684318192671576,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 82856144,
+      "step": 38335
+    },
+    {
+      "epoch": 6.254486133768353,
+      "grad_norm": 0.2138485610485077,
+      "learning_rate": 0.0008683836950267838,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 82867728,
+      "step": 38340
+    },
+    {
+      "epoch": 6.255301794453508,
+      "grad_norm": 0.022035308182239532,
+      "learning_rate": 0.0008683355633206469,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 82878768,
+      "step": 38345
+    },
+    {
+      "epoch": 6.2561174551386625,
+      "grad_norm": 0.05334000289440155,
+      "learning_rate": 0.0008682874241497225,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 82889872,
+      "step": 38350
+    },
+    {
+      "epoch": 6.256933115823817,
+      "grad_norm": 0.005959376692771912,
+      "learning_rate": 0.0008682392775149863,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 82901616,
+      "step": 38355
+    },
+    {
+      "epoch": 6.257748776508972,
+      "grad_norm": 0.007209327537566423,
+      "learning_rate": 0.000868191123417414,
+      "loss": 0.03,
+      "num_input_tokens_seen": 82911792,
+      "step": 38360
+    },
+    {
+      "epoch": 6.258564437194127,
+      "grad_norm": 0.11563768237829208,
+      "learning_rate": 0.0008681429618579815,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 82922256,
+      "step": 38365
+    },
+    {
+      "epoch": 6.259380097879283,
+      "grad_norm": 0.05262453109025955,
+      "learning_rate": 0.0008680947928376648,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 82933072,
+      "step": 38370
+    },
+    {
+      "epoch": 6.260195758564437,
+      "grad_norm": 0.10289740562438965,
+      "learning_rate": 0.0008680466163574402,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 82943984,
+      "step": 38375
+    },
+    {
+      "epoch": 6.261011419249592,
+      "grad_norm": 0.0066475640051066875,
+      "learning_rate": 0.000867998432418284,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 82953072,
+      "step": 38380
+    },
+    {
+      "epoch": 6.261827079934747,
+      "grad_norm": 0.21525736153125763,
+      "learning_rate": 0.0008679502410211728,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 82962576,
+      "step": 38385
+    },
+    {
+      "epoch": 6.262642740619902,
+      "grad_norm": 0.4553488492965698,
+      "learning_rate": 0.0008679020421670831,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 82974192,
+      "step": 38390
+    },
+    {
+      "epoch": 6.263458401305057,
+      "grad_norm": 0.06272874027490616,
+      "learning_rate": 0.0008678538358569918,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 82985104,
+      "step": 38395
+    },
+    {
+      "epoch": 6.264274061990212,
+      "grad_norm": 0.10946105420589447,
+      "learning_rate": 0.000867805622091876,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 82995920,
+      "step": 38400
+    },
+    {
+      "epoch": 6.265089722675367,
+      "grad_norm": 0.30534982681274414,
+      "learning_rate": 0.0008677574008727126,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 83007632,
+      "step": 38405
+    },
+    {
+      "epoch": 6.265905383360522,
+      "grad_norm": 0.22424903512001038,
+      "learning_rate": 0.0008677091722004788,
+      "loss": 0.205,
+      "num_input_tokens_seen": 83018768,
+      "step": 38410
+    },
+    {
+      "epoch": 6.266721044045677,
+      "grad_norm": 0.04151112586259842,
+      "learning_rate": 0.0008676609360761524,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 83028976,
+      "step": 38415
+    },
+    {
+      "epoch": 6.267536704730832,
+      "grad_norm": 0.24260827898979187,
+      "learning_rate": 0.0008676126925007107,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 83039760,
+      "step": 38420
+    },
+    {
+      "epoch": 6.268352365415987,
+      "grad_norm": 0.07921306043863297,
+      "learning_rate": 0.0008675644414751311,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 83050512,
+      "step": 38425
+    },
+    {
+      "epoch": 6.269168026101142,
+      "grad_norm": 0.3923218846321106,
+      "learning_rate": 0.0008675161830003921,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 83062384,
+      "step": 38430
+    },
+    {
+      "epoch": 6.269983686786297,
+      "grad_norm": 0.037347909063100815,
+      "learning_rate": 0.0008674679170774713,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 83073680,
+      "step": 38435
+    },
+    {
+      "epoch": 6.270799347471452,
+      "grad_norm": 0.08266767114400864,
+      "learning_rate": 0.0008674196437073472,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 83085552,
+      "step": 38440
+    },
+    {
+      "epoch": 6.271615008156607,
+      "grad_norm": 0.1442742645740509,
+      "learning_rate": 0.0008673713628909978,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 83095792,
+      "step": 38445
+    },
+    {
+      "epoch": 6.2724306688417615,
+      "grad_norm": 0.3053017854690552,
+      "learning_rate": 0.0008673230746294016,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 83107760,
+      "step": 38450
+    },
+    {
+      "epoch": 6.273246329526917,
+      "grad_norm": 0.1329246461391449,
+      "learning_rate": 0.0008672747789235373,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 83118704,
+      "step": 38455
+    },
+    {
+      "epoch": 6.274061990212072,
+      "grad_norm": 0.1079804003238678,
+      "learning_rate": 0.0008672264757743838,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 83129936,
+      "step": 38460
+    },
+    {
+      "epoch": 6.274877650897227,
+      "grad_norm": 0.09248155355453491,
+      "learning_rate": 0.0008671781651829198,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 83139888,
+      "step": 38465
+    },
+    {
+      "epoch": 6.275693311582382,
+      "grad_norm": 0.13056586682796478,
+      "learning_rate": 0.0008671298471501246,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 83151152,
+      "step": 38470
+    },
+    {
+      "epoch": 6.2765089722675365,
+      "grad_norm": 0.12060708552598953,
+      "learning_rate": 0.0008670815216769771,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 83163344,
+      "step": 38475
+    },
+    {
+      "epoch": 6.277324632952691,
+      "grad_norm": 0.0019625083077698946,
+      "learning_rate": 0.0008670331887644571,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 83175568,
+      "step": 38480
+    },
+    {
+      "epoch": 6.278140293637847,
+      "grad_norm": 0.0041697206906974316,
+      "learning_rate": 0.0008669848484135439,
+      "loss": 0.096,
+      "num_input_tokens_seen": 83186064,
+      "step": 38485
+    },
+    {
+      "epoch": 6.278955954323002,
+      "grad_norm": 0.003180544590577483,
+      "learning_rate": 0.0008669365006252172,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 83195792,
+      "step": 38490
+    },
+    {
+      "epoch": 6.279771615008157,
+      "grad_norm": 0.039838630706071854,
+      "learning_rate": 0.0008668881454004567,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 83206800,
+      "step": 38495
+    },
+    {
+      "epoch": 6.280587275693311,
+      "grad_norm": 0.20914457738399506,
+      "learning_rate": 0.0008668397827402425,
+      "loss": 0.188,
+      "num_input_tokens_seen": 83217168,
+      "step": 38500
+    },
+    {
+      "epoch": 6.281402936378466,
+      "grad_norm": 0.12957248091697693,
+      "learning_rate": 0.000866791412645555,
+      "loss": 0.2052,
+      "num_input_tokens_seen": 83228496,
+      "step": 38505
+    },
+    {
+      "epoch": 6.282218597063622,
+      "grad_norm": 0.198208287358284,
+      "learning_rate": 0.000866743035117374,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 83238704,
+      "step": 38510
+    },
+    {
+      "epoch": 6.283034257748777,
+      "grad_norm": 0.012076416984200478,
+      "learning_rate": 0.0008666946501566801,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 83248400,
+      "step": 38515
+    },
+    {
+      "epoch": 6.283849918433932,
+      "grad_norm": 0.03215594217181206,
+      "learning_rate": 0.000866646257764454,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 83260048,
+      "step": 38520
+    },
+    {
+      "epoch": 6.284665579119086,
+      "grad_norm": 0.011157657951116562,
+      "learning_rate": 0.0008665978579416763,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 83272208,
+      "step": 38525
+    },
+    {
+      "epoch": 6.285481239804241,
+      "grad_norm": 0.014190180227160454,
+      "learning_rate": 0.000866549450689328,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 83281808,
+      "step": 38530
+    },
+    {
+      "epoch": 6.286296900489396,
+      "grad_norm": 0.37947651743888855,
+      "learning_rate": 0.0008665010360083902,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 83291792,
+      "step": 38535
+    },
+    {
+      "epoch": 6.287112561174552,
+      "grad_norm": 0.008268352597951889,
+      "learning_rate": 0.0008664526138998438,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 83301648,
+      "step": 38540
+    },
+    {
+      "epoch": 6.287928221859707,
+      "grad_norm": 0.2546350061893463,
+      "learning_rate": 0.0008664041843646704,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 83312560,
+      "step": 38545
+    },
+    {
+      "epoch": 6.288743882544861,
+      "grad_norm": 0.1817859411239624,
+      "learning_rate": 0.0008663557474038512,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 83323728,
+      "step": 38550
+    },
+    {
+      "epoch": 6.289559543230016,
+      "grad_norm": 0.019393671303987503,
+      "learning_rate": 0.0008663073030183683,
+      "loss": 0.102,
+      "num_input_tokens_seen": 83335600,
+      "step": 38555
+    },
+    {
+      "epoch": 6.290375203915171,
+      "grad_norm": 0.005289722234010696,
+      "learning_rate": 0.000866258851209203,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 83345872,
+      "step": 38560
+    },
+    {
+      "epoch": 6.291190864600326,
+      "grad_norm": 0.08684537559747696,
+      "learning_rate": 0.0008662103919773375,
+      "loss": 0.178,
+      "num_input_tokens_seen": 83357232,
+      "step": 38565
+    },
+    {
+      "epoch": 6.2920065252854815,
+      "grad_norm": 0.009959384799003601,
+      "learning_rate": 0.0008661619253237538,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 83368560,
+      "step": 38570
+    },
+    {
+      "epoch": 6.292822185970636,
+      "grad_norm": 0.007728797383606434,
+      "learning_rate": 0.0008661134512494343,
+      "loss": 0.1884,
+      "num_input_tokens_seen": 83378416,
+      "step": 38575
+    },
+    {
+      "epoch": 6.293637846655791,
+      "grad_norm": 0.04982810467481613,
+      "learning_rate": 0.0008660649697553612,
+      "loss": 0.2022,
+      "num_input_tokens_seen": 83389712,
+      "step": 38580
+    },
+    {
+      "epoch": 6.294453507340946,
+      "grad_norm": 0.0082283029332757,
+      "learning_rate": 0.000866016480842517,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 83399920,
+      "step": 38585
+    },
+    {
+      "epoch": 6.295269168026101,
+      "grad_norm": 0.06599834561347961,
+      "learning_rate": 0.0008659679845118847,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 83411504,
+      "step": 38590
+    },
+    {
+      "epoch": 6.2960848287112565,
+      "grad_norm": 0.021498100832104683,
+      "learning_rate": 0.0008659194807644468,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 83421296,
+      "step": 38595
+    },
+    {
+      "epoch": 6.296900489396411,
+      "grad_norm": 0.016979070380330086,
+      "learning_rate": 0.0008658709696011864,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 83432016,
+      "step": 38600
+    },
+    {
+      "epoch": 6.297716150081566,
+      "grad_norm": 0.01811056397855282,
+      "learning_rate": 0.0008658224510230867,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 83442448,
+      "step": 38605
+    },
+    {
+      "epoch": 6.298531810766721,
+      "grad_norm": 0.07393760234117508,
+      "learning_rate": 0.0008657739250311309,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 83453744,
+      "step": 38610
+    },
+    {
+      "epoch": 6.299347471451876,
+      "grad_norm": 0.01685251295566559,
+      "learning_rate": 0.0008657253916263026,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 83464528,
+      "step": 38615
+    },
+    {
+      "epoch": 6.300163132137031,
+      "grad_norm": 0.009738907217979431,
+      "learning_rate": 0.0008656768508095852,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 83474928,
+      "step": 38620
+    },
+    {
+      "epoch": 6.300978792822186,
+      "grad_norm": 0.048500582575798035,
+      "learning_rate": 0.0008656283025819626,
+      "loss": 0.1431,
+      "num_input_tokens_seen": 83485584,
+      "step": 38625
+    },
+    {
+      "epoch": 6.301794453507341,
+      "grad_norm": 0.01439825538545847,
+      "learning_rate": 0.0008655797469444186,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 83496752,
+      "step": 38630
+    },
+    {
+      "epoch": 6.302610114192496,
+      "grad_norm": 0.2932996451854706,
+      "learning_rate": 0.0008655311838979371,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 83506736,
+      "step": 38635
+    },
+    {
+      "epoch": 6.303425774877651,
+      "grad_norm": 0.08580674976110458,
+      "learning_rate": 0.0008654826134435028,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 83518576,
+      "step": 38640
+    },
+    {
+      "epoch": 6.304241435562806,
+      "grad_norm": 0.021468764171004295,
+      "learning_rate": 0.0008654340355820993,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 83528944,
+      "step": 38645
+    },
+    {
+      "epoch": 6.30505709624796,
+      "grad_norm": 0.027125662192702293,
+      "learning_rate": 0.0008653854503147117,
+      "loss": 0.154,
+      "num_input_tokens_seen": 83540560,
+      "step": 38650
+    },
+    {
+      "epoch": 6.305872756933116,
+      "grad_norm": 0.004373315721750259,
+      "learning_rate": 0.0008653368576423244,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 83551984,
+      "step": 38655
+    },
+    {
+      "epoch": 6.306688417618271,
+      "grad_norm": 0.020719408988952637,
+      "learning_rate": 0.0008652882575659222,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 83561712,
+      "step": 38660
+    },
+    {
+      "epoch": 6.307504078303426,
+      "grad_norm": 0.05750217288732529,
+      "learning_rate": 0.00086523965008649,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 83571888,
+      "step": 38665
+    },
+    {
+      "epoch": 6.308319738988581,
+      "grad_norm": 0.018178651109337807,
+      "learning_rate": 0.0008651910352050129,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 83582928,
+      "step": 38670
+    },
+    {
+      "epoch": 6.309135399673735,
+      "grad_norm": 0.04456610232591629,
+      "learning_rate": 0.0008651424129224764,
+      "loss": 0.055,
+      "num_input_tokens_seen": 83594672,
+      "step": 38675
+    },
+    {
+      "epoch": 6.309951060358891,
+      "grad_norm": 0.1513279229402542,
+      "learning_rate": 0.0008650937832398656,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 83604400,
+      "step": 38680
+    },
+    {
+      "epoch": 6.310766721044046,
+      "grad_norm": 0.34819474816322327,
+      "learning_rate": 0.0008650451461581661,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 83614320,
+      "step": 38685
+    },
+    {
+      "epoch": 6.311582381729201,
+      "grad_norm": 0.030669698491692543,
+      "learning_rate": 0.0008649965016783636,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 83624784,
+      "step": 38690
+    },
+    {
+      "epoch": 6.3123980424143555,
+      "grad_norm": 0.030591286718845367,
+      "learning_rate": 0.0008649478498014441,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 83635408,
+      "step": 38695
+    },
+    {
+      "epoch": 6.31321370309951,
+      "grad_norm": 0.001337647088803351,
+      "learning_rate": 0.0008648991905283931,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 83647568,
+      "step": 38700
+    },
+    {
+      "epoch": 6.314029363784665,
+      "grad_norm": 0.030285224318504333,
+      "learning_rate": 0.0008648505238601974,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 83658480,
+      "step": 38705
+    },
+    {
+      "epoch": 6.314845024469821,
+      "grad_norm": 0.015253371559083462,
+      "learning_rate": 0.0008648018497978429,
+      "loss": 0.086,
+      "num_input_tokens_seen": 83669552,
+      "step": 38710
+    },
+    {
+      "epoch": 6.315660685154976,
+      "grad_norm": 0.19649551808834076,
+      "learning_rate": 0.0008647531683423162,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 83681392,
+      "step": 38715
+    },
+    {
+      "epoch": 6.3164763458401305,
+      "grad_norm": 0.03983687609434128,
+      "learning_rate": 0.0008647044794946038,
+      "loss": 0.2075,
+      "num_input_tokens_seen": 83691920,
+      "step": 38720
+    },
+    {
+      "epoch": 6.317292006525285,
+      "grad_norm": 0.014638083986938,
+      "learning_rate": 0.0008646557832556925,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 83702576,
+      "step": 38725
+    },
+    {
+      "epoch": 6.31810766721044,
+      "grad_norm": 0.01107320748269558,
+      "learning_rate": 0.000864607079626569,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 83715088,
+      "step": 38730
+    },
+    {
+      "epoch": 6.318923327895595,
+      "grad_norm": 0.011112612672150135,
+      "learning_rate": 0.0008645583686082206,
+      "loss": 0.1986,
+      "num_input_tokens_seen": 83725264,
+      "step": 38735
+    },
+    {
+      "epoch": 6.319738988580751,
+      "grad_norm": 0.028126679360866547,
+      "learning_rate": 0.0008645096502016346,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 83736400,
+      "step": 38740
+    },
+    {
+      "epoch": 6.3205546492659055,
+      "grad_norm": 0.103696309030056,
+      "learning_rate": 0.0008644609244077978,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 83748144,
+      "step": 38745
+    },
+    {
+      "epoch": 6.32137030995106,
+      "grad_norm": 0.22747750580310822,
+      "learning_rate": 0.0008644121912276981,
+      "loss": 0.1537,
+      "num_input_tokens_seen": 83758704,
+      "step": 38750
+    },
+    {
+      "epoch": 6.322185970636215,
+      "grad_norm": 0.04633212834596634,
+      "learning_rate": 0.000864363450662323,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 83769488,
+      "step": 38755
+    },
+    {
+      "epoch": 6.32300163132137,
+      "grad_norm": 0.15548771619796753,
+      "learning_rate": 0.0008643147027126604,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 83780080,
+      "step": 38760
+    },
+    {
+      "epoch": 6.323817292006526,
+      "grad_norm": 0.053673189133405685,
+      "learning_rate": 0.0008642659473796984,
+      "loss": 0.1654,
+      "num_input_tokens_seen": 83792144,
+      "step": 38765
+    },
+    {
+      "epoch": 6.3246329526916805,
+      "grad_norm": 0.23594816029071808,
+      "learning_rate": 0.0008642171846644245,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 83803440,
+      "step": 38770
+    },
+    {
+      "epoch": 6.325448613376835,
+      "grad_norm": 0.11045833677053452,
+      "learning_rate": 0.0008641684145678275,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 83812912,
+      "step": 38775
+    },
+    {
+      "epoch": 6.32626427406199,
+      "grad_norm": 0.017149219289422035,
+      "learning_rate": 0.0008641196370908956,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 83822960,
+      "step": 38780
+    },
+    {
+      "epoch": 6.327079934747145,
+      "grad_norm": 0.40087974071502686,
+      "learning_rate": 0.0008640708522346173,
+      "loss": 0.1819,
+      "num_input_tokens_seen": 83832304,
+      "step": 38785
+    },
+    {
+      "epoch": 6.327895595432301,
+      "grad_norm": 0.016898376867175102,
+      "learning_rate": 0.0008640220599999813,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 83841136,
+      "step": 38790
+    },
+    {
+      "epoch": 6.328711256117455,
+      "grad_norm": 0.051673293113708496,
+      "learning_rate": 0.0008639732603879766,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 83851600,
+      "step": 38795
+    },
+    {
+      "epoch": 6.32952691680261,
+      "grad_norm": 0.031015006825327873,
+      "learning_rate": 0.0008639244533995919,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 83862896,
+      "step": 38800
+    },
+    {
+      "epoch": 6.330342577487765,
+      "grad_norm": 0.20969587564468384,
+      "learning_rate": 0.0008638756390358164,
+      "loss": 0.1846,
+      "num_input_tokens_seen": 83873552,
+      "step": 38805
+    },
+    {
+      "epoch": 6.33115823817292,
+      "grad_norm": 0.032477930188179016,
+      "learning_rate": 0.0008638268172976398,
+      "loss": 0.027,
+      "num_input_tokens_seen": 83884720,
+      "step": 38810
+    },
+    {
+      "epoch": 6.331973898858075,
+      "grad_norm": 0.0873703733086586,
+      "learning_rate": 0.0008637779881860509,
+      "loss": 0.1324,
+      "num_input_tokens_seen": 83895088,
+      "step": 38815
+    },
+    {
+      "epoch": 6.33278955954323,
+      "grad_norm": 0.034240808337926865,
+      "learning_rate": 0.0008637291517020397,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 83906640,
+      "step": 38820
+    },
+    {
+      "epoch": 6.333605220228385,
+      "grad_norm": 0.03294326364994049,
+      "learning_rate": 0.0008636803078465958,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 83916976,
+      "step": 38825
+    },
+    {
+      "epoch": 6.33442088091354,
+      "grad_norm": 0.2754383683204651,
+      "learning_rate": 0.000863631456620709,
+      "loss": 0.2057,
+      "num_input_tokens_seen": 83928432,
+      "step": 38830
+    },
+    {
+      "epoch": 6.335236541598695,
+      "grad_norm": 0.01746748387813568,
+      "learning_rate": 0.0008635825980253696,
+      "loss": 0.0447,
+      "num_input_tokens_seen": 83939440,
+      "step": 38835
+    },
+    {
+      "epoch": 6.33605220228385,
+      "grad_norm": 0.059651441872119904,
+      "learning_rate": 0.0008635337320615675,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 83950032,
+      "step": 38840
+    },
+    {
+      "epoch": 6.3368678629690045,
+      "grad_norm": 0.12536899745464325,
+      "learning_rate": 0.0008634848587302932,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 83962000,
+      "step": 38845
+    },
+    {
+      "epoch": 6.33768352365416,
+      "grad_norm": 0.024651646614074707,
+      "learning_rate": 0.0008634359780325372,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 83973360,
+      "step": 38850
+    },
+    {
+      "epoch": 6.338499184339315,
+      "grad_norm": 0.20898933708667755,
+      "learning_rate": 0.0008633870899692899,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 83984464,
+      "step": 38855
+    },
+    {
+      "epoch": 6.33931484502447,
+      "grad_norm": 0.004932452458888292,
+      "learning_rate": 0.0008633381945415422,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 83993808,
+      "step": 38860
+    },
+    {
+      "epoch": 6.340130505709625,
+      "grad_norm": 0.06426247209310532,
+      "learning_rate": 0.0008632892917502852,
+      "loss": 0.023,
+      "num_input_tokens_seen": 84004880,
+      "step": 38865
+    },
+    {
+      "epoch": 6.3409461663947795,
+      "grad_norm": 0.011022510938346386,
+      "learning_rate": 0.0008632403815965099,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 84016240,
+      "step": 38870
+    },
+    {
+      "epoch": 6.341761827079935,
+      "grad_norm": 0.36207377910614014,
+      "learning_rate": 0.0008631914640812073,
+      "loss": 0.1861,
+      "num_input_tokens_seen": 84027920,
+      "step": 38875
+    },
+    {
+      "epoch": 6.34257748776509,
+      "grad_norm": 0.02720283530652523,
+      "learning_rate": 0.000863142539205369,
+      "loss": 0.14,
+      "num_input_tokens_seen": 84038000,
+      "step": 38880
+    },
+    {
+      "epoch": 6.343393148450245,
+      "grad_norm": 0.03938665613532066,
+      "learning_rate": 0.0008630936069699864,
+      "loss": 0.041,
+      "num_input_tokens_seen": 84049136,
+      "step": 38885
+    },
+    {
+      "epoch": 6.3442088091354,
+      "grad_norm": 0.008454914204776287,
+      "learning_rate": 0.0008630446673760513,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 84059024,
+      "step": 38890
+    },
+    {
+      "epoch": 6.3450244698205545,
+      "grad_norm": 0.24689482152462006,
+      "learning_rate": 0.0008629957204245555,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 84069616,
+      "step": 38895
+    },
+    {
+      "epoch": 6.345840130505709,
+      "grad_norm": 0.16050291061401367,
+      "learning_rate": 0.000862946766116491,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 84079984,
+      "step": 38900
+    },
+    {
+      "epoch": 6.346655791190865,
+      "grad_norm": 0.008206437341868877,
+      "learning_rate": 0.0008628978044528496,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 84090768,
+      "step": 38905
+    },
+    {
+      "epoch": 6.34747145187602,
+      "grad_norm": 0.04334701597690582,
+      "learning_rate": 0.000862848835434624,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 84102352,
+      "step": 38910
+    },
+    {
+      "epoch": 6.348287112561175,
+      "grad_norm": 0.025094132870435715,
+      "learning_rate": 0.0008627998590628065,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 84113328,
+      "step": 38915
+    },
+    {
+      "epoch": 6.349102773246329,
+      "grad_norm": 0.017059357836842537,
+      "learning_rate": 0.0008627508753383895,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 84124592,
+      "step": 38920
+    },
+    {
+      "epoch": 6.349918433931484,
+      "grad_norm": 0.00839939247816801,
+      "learning_rate": 0.0008627018842623657,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 84134544,
+      "step": 38925
+    },
+    {
+      "epoch": 6.350734094616639,
+      "grad_norm": 0.1650896817445755,
+      "learning_rate": 0.0008626528858357283,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 84144944,
+      "step": 38930
+    },
+    {
+      "epoch": 6.351549755301795,
+      "grad_norm": 0.12865620851516724,
+      "learning_rate": 0.0008626038800594703,
+      "loss": 0.079,
+      "num_input_tokens_seen": 84155312,
+      "step": 38935
+    },
+    {
+      "epoch": 6.35236541598695,
+      "grad_norm": 0.030272645875811577,
+      "learning_rate": 0.0008625548669345842,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 84166096,
+      "step": 38940
+    },
+    {
+      "epoch": 6.353181076672104,
+      "grad_norm": 0.018891897052526474,
+      "learning_rate": 0.0008625058464620641,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 84177264,
+      "step": 38945
+    },
+    {
+      "epoch": 6.353996737357259,
+      "grad_norm": 0.14031964540481567,
+      "learning_rate": 0.0008624568186429031,
+      "loss": 0.056,
+      "num_input_tokens_seen": 84188176,
+      "step": 38950
+    },
+    {
+      "epoch": 6.354812398042414,
+      "grad_norm": 0.13088087737560272,
+      "learning_rate": 0.0008624077834780948,
+      "loss": 0.1551,
+      "num_input_tokens_seen": 84199792,
+      "step": 38955
+    },
+    {
+      "epoch": 6.35562805872757,
+      "grad_norm": 0.4480366110801697,
+      "learning_rate": 0.000862358740968633,
+      "loss": 0.2585,
+      "num_input_tokens_seen": 84210832,
+      "step": 38960
+    },
+    {
+      "epoch": 6.356443719412725,
+      "grad_norm": 0.07605596631765366,
+      "learning_rate": 0.0008623096911155117,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 84220496,
+      "step": 38965
+    },
+    {
+      "epoch": 6.357259380097879,
+      "grad_norm": 0.0019360106671229005,
+      "learning_rate": 0.000862260633919725,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 84231472,
+      "step": 38970
+    },
+    {
+      "epoch": 6.358075040783034,
+      "grad_norm": 0.011364354752004147,
+      "learning_rate": 0.0008622115693822668,
+      "loss": 0.2661,
+      "num_input_tokens_seen": 84242608,
+      "step": 38975
+    },
+    {
+      "epoch": 6.358890701468189,
+      "grad_norm": 0.053338050842285156,
+      "learning_rate": 0.0008621624975041316,
+      "loss": 0.1578,
+      "num_input_tokens_seen": 84254000,
+      "step": 38980
+    },
+    {
+      "epoch": 6.359706362153344,
+      "grad_norm": 0.017331453040242195,
+      "learning_rate": 0.0008621134182863142,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 84263952,
+      "step": 38985
+    },
+    {
+      "epoch": 6.3605220228384995,
+      "grad_norm": 0.24667911231517792,
+      "learning_rate": 0.0008620643317298088,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 84274832,
+      "step": 38990
+    },
+    {
+      "epoch": 6.361337683523654,
+      "grad_norm": 0.12548623979091644,
+      "learning_rate": 0.0008620152378356105,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 84285552,
+      "step": 38995
+    },
+    {
+      "epoch": 6.362153344208809,
+      "grad_norm": 0.12679541110992432,
+      "learning_rate": 0.0008619661366047141,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 84296368,
+      "step": 39000
+    },
+    {
+      "epoch": 6.362969004893964,
+      "grad_norm": 0.13178208470344543,
+      "learning_rate": 0.0008619170280381148,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 84307792,
+      "step": 39005
+    },
+    {
+      "epoch": 6.363784665579119,
+      "grad_norm": 0.051386695355176926,
+      "learning_rate": 0.0008618679121368078,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 84318000,
+      "step": 39010
+    },
+    {
+      "epoch": 6.364600326264274,
+      "grad_norm": 0.017814617604017258,
+      "learning_rate": 0.0008618187889017886,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 84328368,
+      "step": 39015
+    },
+    {
+      "epoch": 6.365415986949429,
+      "grad_norm": 0.04465307667851448,
+      "learning_rate": 0.0008617696583340524,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 84340528,
+      "step": 39020
+    },
+    {
+      "epoch": 6.366231647634584,
+      "grad_norm": 0.003912598360329866,
+      "learning_rate": 0.0008617205204345952,
+      "loss": 0.2345,
+      "num_input_tokens_seen": 84351344,
+      "step": 39025
+    },
+    {
+      "epoch": 6.367047308319739,
+      "grad_norm": 0.15951602160930634,
+      "learning_rate": 0.000861671375204413,
+      "loss": 0.1794,
+      "num_input_tokens_seen": 84361968,
+      "step": 39030
+    },
+    {
+      "epoch": 6.367862969004894,
+      "grad_norm": 0.011443092487752438,
+      "learning_rate": 0.0008616222226445014,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 84372432,
+      "step": 39035
+    },
+    {
+      "epoch": 6.368678629690049,
+      "grad_norm": 0.21486307680606842,
+      "learning_rate": 0.0008615730627558566,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 84382896,
+      "step": 39040
+    },
+    {
+      "epoch": 6.369494290375204,
+      "grad_norm": 0.10696162283420563,
+      "learning_rate": 0.0008615238955394753,
+      "loss": 0.1678,
+      "num_input_tokens_seen": 84392464,
+      "step": 39045
+    },
+    {
+      "epoch": 6.370309951060359,
+      "grad_norm": 0.21196526288986206,
+      "learning_rate": 0.0008614747209963534,
+      "loss": 0.1264,
+      "num_input_tokens_seen": 84403504,
+      "step": 39050
+    },
+    {
+      "epoch": 6.371125611745514,
+      "grad_norm": 0.012137340381741524,
+      "learning_rate": 0.0008614255391274877,
+      "loss": 0.1791,
+      "num_input_tokens_seen": 84413904,
+      "step": 39055
+    },
+    {
+      "epoch": 6.371941272430669,
+      "grad_norm": 0.04827677458524704,
+      "learning_rate": 0.0008613763499338751,
+      "loss": 0.157,
+      "num_input_tokens_seen": 84425392,
+      "step": 39060
+    },
+    {
+      "epoch": 6.372756933115824,
+      "grad_norm": 0.010995679534971714,
+      "learning_rate": 0.0008613271534165121,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 84436624,
+      "step": 39065
+    },
+    {
+      "epoch": 6.373572593800978,
+      "grad_norm": 0.11564923822879791,
+      "learning_rate": 0.0008612779495763963,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 84446352,
+      "step": 39070
+    },
+    {
+      "epoch": 6.374388254486134,
+      "grad_norm": 0.1190088763833046,
+      "learning_rate": 0.0008612287384145243,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 84457648,
+      "step": 39075
+    },
+    {
+      "epoch": 6.375203915171289,
+      "grad_norm": 0.01807386428117752,
+      "learning_rate": 0.0008611795199318937,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 84467792,
+      "step": 39080
+    },
+    {
+      "epoch": 6.376019575856444,
+      "grad_norm": 0.17465393245220184,
+      "learning_rate": 0.000861130294129502,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 84478448,
+      "step": 39085
+    },
+    {
+      "epoch": 6.376835236541599,
+      "grad_norm": 0.067719466984272,
+      "learning_rate": 0.0008610810610083466,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 84489200,
+      "step": 39090
+    },
+    {
+      "epoch": 6.377650897226753,
+      "grad_norm": 0.05747228488326073,
+      "learning_rate": 0.0008610318205694256,
+      "loss": 0.2849,
+      "num_input_tokens_seen": 84499536,
+      "step": 39095
+    },
+    {
+      "epoch": 6.378466557911908,
+      "grad_norm": 0.028629053384065628,
+      "learning_rate": 0.0008609825728137366,
+      "loss": 0.1891,
+      "num_input_tokens_seen": 84510960,
+      "step": 39100
+    },
+    {
+      "epoch": 6.379282218597064,
+      "grad_norm": 0.08141916245222092,
+      "learning_rate": 0.000860933317742278,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 84522704,
+      "step": 39105
+    },
+    {
+      "epoch": 6.380097879282219,
+      "grad_norm": 0.06588222086429596,
+      "learning_rate": 0.0008608840553560478,
+      "loss": 0.056,
+      "num_input_tokens_seen": 84532688,
+      "step": 39110
+    },
+    {
+      "epoch": 6.3809135399673735,
+      "grad_norm": 0.20890022814273834,
+      "learning_rate": 0.0008608347856560443,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 84543312,
+      "step": 39115
+    },
+    {
+      "epoch": 6.381729200652528,
+      "grad_norm": 0.0732296034693718,
+      "learning_rate": 0.0008607855086432663,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 84555024,
+      "step": 39120
+    },
+    {
+      "epoch": 6.382544861337683,
+      "grad_norm": 0.04963723570108414,
+      "learning_rate": 0.0008607362243187121,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 84565456,
+      "step": 39125
+    },
+    {
+      "epoch": 6.383360522022839,
+      "grad_norm": 0.03612956404685974,
+      "learning_rate": 0.0008606869326833809,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 84576880,
+      "step": 39130
+    },
+    {
+      "epoch": 6.384176182707994,
+      "grad_norm": 0.012030171230435371,
+      "learning_rate": 0.0008606376337382711,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 84588176,
+      "step": 39135
+    },
+    {
+      "epoch": 6.3849918433931485,
+      "grad_norm": 0.02331584133207798,
+      "learning_rate": 0.0008605883274843824,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 84598448,
+      "step": 39140
+    },
+    {
+      "epoch": 6.385807504078303,
+      "grad_norm": 0.19398914277553558,
+      "learning_rate": 0.0008605390139227137,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 84609904,
+      "step": 39145
+    },
+    {
+      "epoch": 6.386623164763458,
+      "grad_norm": 0.21747860312461853,
+      "learning_rate": 0.0008604896930542645,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 84621008,
+      "step": 39150
+    },
+    {
+      "epoch": 6.387438825448613,
+      "grad_norm": 0.14797638356685638,
+      "learning_rate": 0.0008604403648800346,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 84632048,
+      "step": 39155
+    },
+    {
+      "epoch": 6.388254486133769,
+      "grad_norm": 0.024937812238931656,
+      "learning_rate": 0.0008603910294010231,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 84641488,
+      "step": 39160
+    },
+    {
+      "epoch": 6.3890701468189235,
+      "grad_norm": 0.027049263939261436,
+      "learning_rate": 0.0008603416866182305,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 84651664,
+      "step": 39165
+    },
+    {
+      "epoch": 6.389885807504078,
+      "grad_norm": 0.20507164299488068,
+      "learning_rate": 0.0008602923365326563,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 84662000,
+      "step": 39170
+    },
+    {
+      "epoch": 6.390701468189233,
+      "grad_norm": 0.016058241948485374,
+      "learning_rate": 0.000860242979145301,
+      "loss": 0.1774,
+      "num_input_tokens_seen": 84674000,
+      "step": 39175
+    },
+    {
+      "epoch": 6.391517128874388,
+      "grad_norm": 0.07409879565238953,
+      "learning_rate": 0.0008601936144571646,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 84685200,
+      "step": 39180
+    },
+    {
+      "epoch": 6.392332789559543,
+      "grad_norm": 0.22600983083248138,
+      "learning_rate": 0.0008601442424692476,
+      "loss": 0.1863,
+      "num_input_tokens_seen": 84695984,
+      "step": 39185
+    },
+    {
+      "epoch": 6.3931484502446985,
+      "grad_norm": 0.015394588001072407,
+      "learning_rate": 0.0008600948631825508,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 84705936,
+      "step": 39190
+    },
+    {
+      "epoch": 6.393964110929853,
+      "grad_norm": 0.22620944678783417,
+      "learning_rate": 0.0008600454765980747,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 84716144,
+      "step": 39195
+    },
+    {
+      "epoch": 6.394779771615008,
+      "grad_norm": 0.01256847195327282,
+      "learning_rate": 0.0008599960827168204,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 84726704,
+      "step": 39200
+    },
+    {
+      "epoch": 6.395595432300163,
+      "grad_norm": 0.01900371164083481,
+      "learning_rate": 0.0008599466815397886,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 84736784,
+      "step": 39205
+    },
+    {
+      "epoch": 6.396411092985318,
+      "grad_norm": 0.32982227206230164,
+      "learning_rate": 0.0008598972730679809,
+      "loss": 0.2601,
+      "num_input_tokens_seen": 84746672,
+      "step": 39210
+    },
+    {
+      "epoch": 6.397226753670473,
+      "grad_norm": 0.06382697820663452,
+      "learning_rate": 0.0008598478573023982,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 84756560,
+      "step": 39215
+    },
+    {
+      "epoch": 6.398042414355628,
+      "grad_norm": 0.009049140848219395,
+      "learning_rate": 0.0008597984342440421,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 84768592,
+      "step": 39220
+    },
+    {
+      "epoch": 6.398858075040783,
+      "grad_norm": 0.06087180972099304,
+      "learning_rate": 0.0008597490038939145,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 84778736,
+      "step": 39225
+    },
+    {
+      "epoch": 6.399673735725938,
+      "grad_norm": 0.021845834329724312,
+      "learning_rate": 0.0008596995662530169,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 84789008,
+      "step": 39230
+    },
+    {
+      "epoch": 6.400489396411093,
+      "grad_norm": 0.005335748661309481,
+      "learning_rate": 0.0008596501213223514,
+      "loss": 0.1087,
+      "num_input_tokens_seen": 84800816,
+      "step": 39235
+    },
+    {
+      "epoch": 6.401305057096248,
+      "grad_norm": 0.054845456033945084,
+      "learning_rate": 0.0008596006691029196,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 84811152,
+      "step": 39240
+    },
+    {
+      "epoch": 6.402120717781403,
+      "grad_norm": 0.03387339413166046,
+      "learning_rate": 0.0008595512095957244,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 84822032,
+      "step": 39245
+    },
+    {
+      "epoch": 6.402936378466558,
+      "grad_norm": 0.10483232140541077,
+      "learning_rate": 0.0008595017428017677,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 84832144,
+      "step": 39250
+    },
+    {
+      "epoch": 6.403752039151713,
+      "grad_norm": 0.015923313796520233,
+      "learning_rate": 0.000859452268722052,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 84843440,
+      "step": 39255
+    },
+    {
+      "epoch": 6.404567699836868,
+      "grad_norm": 0.0959169939160347,
+      "learning_rate": 0.0008594027873575803,
+      "loss": 0.1808,
+      "num_input_tokens_seen": 84852688,
+      "step": 39260
+    },
+    {
+      "epoch": 6.4053833605220225,
+      "grad_norm": 0.2450348436832428,
+      "learning_rate": 0.0008593532987093551,
+      "loss": 0.1963,
+      "num_input_tokens_seen": 84862544,
+      "step": 39265
+    },
+    {
+      "epoch": 6.406199021207178,
+      "grad_norm": 0.015201598405838013,
+      "learning_rate": 0.0008593038027783793,
+      "loss": 0.068,
+      "num_input_tokens_seen": 84873744,
+      "step": 39270
+    },
+    {
+      "epoch": 6.407014681892333,
+      "grad_norm": 0.19144880771636963,
+      "learning_rate": 0.0008592542995656563,
+      "loss": 0.2351,
+      "num_input_tokens_seen": 84883856,
+      "step": 39275
+    },
+    {
+      "epoch": 6.407830342577488,
+      "grad_norm": 0.021460549905896187,
+      "learning_rate": 0.000859204789072189,
+      "loss": 0.044,
+      "num_input_tokens_seen": 84895536,
+      "step": 39280
+    },
+    {
+      "epoch": 6.408646003262643,
+      "grad_norm": 0.025125499814748764,
+      "learning_rate": 0.0008591552712989812,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 84905840,
+      "step": 39285
+    },
+    {
+      "epoch": 6.4094616639477975,
+      "grad_norm": 0.007889053784310818,
+      "learning_rate": 0.0008591057462470359,
+      "loss": 0.1521,
+      "num_input_tokens_seen": 84917008,
+      "step": 39290
+    },
+    {
+      "epoch": 6.410277324632952,
+      "grad_norm": 0.07312604784965515,
+      "learning_rate": 0.0008590562139173573,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 84929424,
+      "step": 39295
+    },
+    {
+      "epoch": 6.411092985318108,
+      "grad_norm": 0.1872720569372177,
+      "learning_rate": 0.000859006674310949,
+      "loss": 0.048,
+      "num_input_tokens_seen": 84940400,
+      "step": 39300
+    },
+    {
+      "epoch": 6.411908646003263,
+      "grad_norm": 0.024740254506468773,
+      "learning_rate": 0.000858957127428815,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 84951888,
+      "step": 39305
+    },
+    {
+      "epoch": 6.412724306688418,
+      "grad_norm": 0.2020983099937439,
+      "learning_rate": 0.0008589075732719594,
+      "loss": 0.1,
+      "num_input_tokens_seen": 84961232,
+      "step": 39310
+    },
+    {
+      "epoch": 6.4135399673735725,
+      "grad_norm": 0.021523285657167435,
+      "learning_rate": 0.0008588580118413867,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 84972240,
+      "step": 39315
+    },
+    {
+      "epoch": 6.414355628058727,
+      "grad_norm": 0.046101946383714676,
+      "learning_rate": 0.0008588084431381009,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 84983408,
+      "step": 39320
+    },
+    {
+      "epoch": 6.415171288743883,
+      "grad_norm": 0.02815198339521885,
+      "learning_rate": 0.000858758867163107,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 84994128,
+      "step": 39325
+    },
+    {
+      "epoch": 6.415986949429038,
+      "grad_norm": 0.13036702573299408,
+      "learning_rate": 0.0008587092839174096,
+      "loss": 0.0584,
+      "num_input_tokens_seen": 85005904,
+      "step": 39330
+    },
+    {
+      "epoch": 6.416802610114193,
+      "grad_norm": 0.004371070768684149,
+      "learning_rate": 0.0008586596934020132,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 85016624,
+      "step": 39335
+    },
+    {
+      "epoch": 6.417618270799347,
+      "grad_norm": 0.015720317140221596,
+      "learning_rate": 0.0008586100956179234,
+      "loss": 0.1512,
+      "num_input_tokens_seen": 85027152,
+      "step": 39340
+    },
+    {
+      "epoch": 6.418433931484502,
+      "grad_norm": 0.21012809872627258,
+      "learning_rate": 0.000858560490566145,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 85036784,
+      "step": 39345
+    },
+    {
+      "epoch": 6.419249592169657,
+      "grad_norm": 0.013738599605858326,
+      "learning_rate": 0.0008585108782476834,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 85047440,
+      "step": 39350
+    },
+    {
+      "epoch": 6.420065252854813,
+      "grad_norm": 0.1178101897239685,
+      "learning_rate": 0.000858461258663544,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 85057744,
+      "step": 39355
+    },
+    {
+      "epoch": 6.420880913539968,
+      "grad_norm": 0.007661431562155485,
+      "learning_rate": 0.0008584116318147324,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 85069392,
+      "step": 39360
+    },
+    {
+      "epoch": 6.421696574225122,
+      "grad_norm": 0.06654492020606995,
+      "learning_rate": 0.0008583619977022546,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 85080560,
+      "step": 39365
+    },
+    {
+      "epoch": 6.422512234910277,
+      "grad_norm": 0.043904032558202744,
+      "learning_rate": 0.000858312356327116,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 85091344,
+      "step": 39370
+    },
+    {
+      "epoch": 6.423327895595432,
+      "grad_norm": 0.04809953272342682,
+      "learning_rate": 0.0008582627076903232,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 85102256,
+      "step": 39375
+    },
+    {
+      "epoch": 6.424143556280587,
+      "grad_norm": 0.3738861680030823,
+      "learning_rate": 0.0008582130517928821,
+      "loss": 0.2677,
+      "num_input_tokens_seen": 85113168,
+      "step": 39380
+    },
+    {
+      "epoch": 6.424959216965743,
+      "grad_norm": 0.010011561214923859,
+      "learning_rate": 0.000858163388635799,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 85123504,
+      "step": 39385
+    },
+    {
+      "epoch": 6.425774877650897,
+      "grad_norm": 0.028765080496668816,
+      "learning_rate": 0.0008581137182200806,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 85133584,
+      "step": 39390
+    },
+    {
+      "epoch": 6.426590538336052,
+      "grad_norm": 0.2487831860780716,
+      "learning_rate": 0.0008580640405467333,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 85143344,
+      "step": 39395
+    },
+    {
+      "epoch": 6.427406199021207,
+      "grad_norm": 0.1759326159954071,
+      "learning_rate": 0.0008580143556167638,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 85154000,
+      "step": 39400
+    },
+    {
+      "epoch": 6.428221859706362,
+      "grad_norm": 0.02199672721326351,
+      "learning_rate": 0.0008579646634311795,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 85164432,
+      "step": 39405
+    },
+    {
+      "epoch": 6.4290375203915175,
+      "grad_norm": 0.16176863014698029,
+      "learning_rate": 0.0008579149639909872,
+      "loss": 0.045,
+      "num_input_tokens_seen": 85175152,
+      "step": 39410
+    },
+    {
+      "epoch": 6.429853181076672,
+      "grad_norm": 0.05018671602010727,
+      "learning_rate": 0.0008578652572971939,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 85187248,
+      "step": 39415
+    },
+    {
+      "epoch": 6.430668841761827,
+      "grad_norm": 0.005079567898064852,
+      "learning_rate": 0.0008578155433508073,
+      "loss": 0.2459,
+      "num_input_tokens_seen": 85199120,
+      "step": 39420
+    },
+    {
+      "epoch": 6.431484502446982,
+      "grad_norm": 0.016508281230926514,
+      "learning_rate": 0.0008577658221528349,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 85209840,
+      "step": 39425
+    },
+    {
+      "epoch": 6.432300163132137,
+      "grad_norm": 0.001730692689307034,
+      "learning_rate": 0.000857716093704284,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 85220592,
+      "step": 39430
+    },
+    {
+      "epoch": 6.433115823817292,
+      "grad_norm": 0.013995840214192867,
+      "learning_rate": 0.0008576663580061628,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 85232656,
+      "step": 39435
+    },
+    {
+      "epoch": 6.433931484502447,
+      "grad_norm": 0.27595826983451843,
+      "learning_rate": 0.0008576166150594792,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 85244368,
+      "step": 39440
+    },
+    {
+      "epoch": 6.434747145187602,
+      "grad_norm": 0.025783469900488853,
+      "learning_rate": 0.0008575668648652411,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 85252976,
+      "step": 39445
+    },
+    {
+      "epoch": 6.435562805872757,
+      "grad_norm": 0.32373544573783875,
+      "learning_rate": 0.0008575171074244568,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 85263984,
+      "step": 39450
+    },
+    {
+      "epoch": 6.436378466557912,
+      "grad_norm": 0.025260545313358307,
+      "learning_rate": 0.000857467342738135,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 85274000,
+      "step": 39455
+    },
+    {
+      "epoch": 6.437194127243067,
+      "grad_norm": 0.020506108179688454,
+      "learning_rate": 0.000857417570807284,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 85285584,
+      "step": 39460
+    },
+    {
+      "epoch": 6.438009787928221,
+      "grad_norm": 0.013910512439906597,
+      "learning_rate": 0.0008573677916329124,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 85297072,
+      "step": 39465
+    },
+    {
+      "epoch": 6.438825448613377,
+      "grad_norm": 0.011981474235653877,
+      "learning_rate": 0.0008573180052160291,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 85307248,
+      "step": 39470
+    },
+    {
+      "epoch": 6.439641109298532,
+      "grad_norm": 0.15529952943325043,
+      "learning_rate": 0.0008572682115576433,
+      "loss": 0.121,
+      "num_input_tokens_seen": 85318384,
+      "step": 39475
+    },
+    {
+      "epoch": 6.440456769983687,
+      "grad_norm": 0.010499502532184124,
+      "learning_rate": 0.0008572184106587638,
+      "loss": 0.09,
+      "num_input_tokens_seen": 85328208,
+      "step": 39480
+    },
+    {
+      "epoch": 6.441272430668842,
+      "grad_norm": 0.1622689962387085,
+      "learning_rate": 0.0008571686025204002,
+      "loss": 0.1659,
+      "num_input_tokens_seen": 85338960,
+      "step": 39485
+    },
+    {
+      "epoch": 6.442088091353996,
+      "grad_norm": 0.18635737895965576,
+      "learning_rate": 0.0008571187871435616,
+      "loss": 0.1749,
+      "num_input_tokens_seen": 85349904,
+      "step": 39490
+    },
+    {
+      "epoch": 6.442903752039152,
+      "grad_norm": 0.3250514566898346,
+      "learning_rate": 0.0008570689645292579,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 85361008,
+      "step": 39495
+    },
+    {
+      "epoch": 6.443719412724307,
+      "grad_norm": 0.012182512320578098,
+      "learning_rate": 0.0008570191346784986,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 85372336,
+      "step": 39500
+    },
+    {
+      "epoch": 6.444535073409462,
+      "grad_norm": 0.009086497128009796,
+      "learning_rate": 0.0008569692975922935,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 85384112,
+      "step": 39505
+    },
+    {
+      "epoch": 6.445350734094617,
+      "grad_norm": 0.27018457651138306,
+      "learning_rate": 0.0008569194532716529,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 85394192,
+      "step": 39510
+    },
+    {
+      "epoch": 6.446166394779771,
+      "grad_norm": 0.17779019474983215,
+      "learning_rate": 0.0008568696017175868,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 85405744,
+      "step": 39515
+    },
+    {
+      "epoch": 6.446982055464926,
+      "grad_norm": 0.020411750301718712,
+      "learning_rate": 0.0008568197429311054,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 85417968,
+      "step": 39520
+    },
+    {
+      "epoch": 6.447797716150082,
+      "grad_norm": 0.013875674456357956,
+      "learning_rate": 0.0008567698769132193,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 85428112,
+      "step": 39525
+    },
+    {
+      "epoch": 6.448613376835237,
+      "grad_norm": 0.031358882784843445,
+      "learning_rate": 0.0008567200036649391,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 85438800,
+      "step": 39530
+    },
+    {
+      "epoch": 6.4494290375203915,
+      "grad_norm": 0.21101713180541992,
+      "learning_rate": 0.0008566701231872753,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 85450640,
+      "step": 39535
+    },
+    {
+      "epoch": 6.450244698205546,
+      "grad_norm": 0.375827431678772,
+      "learning_rate": 0.0008566202354812392,
+      "loss": 0.1573,
+      "num_input_tokens_seen": 85461712,
+      "step": 39540
+    },
+    {
+      "epoch": 6.451060358890701,
+      "grad_norm": 0.15580013394355774,
+      "learning_rate": 0.0008565703405478415,
+      "loss": 0.171,
+      "num_input_tokens_seen": 85472464,
+      "step": 39545
+    },
+    {
+      "epoch": 6.451876019575856,
+      "grad_norm": 0.019443074241280556,
+      "learning_rate": 0.0008565204383880937,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 85483472,
+      "step": 39550
+    },
+    {
+      "epoch": 6.452691680261012,
+      "grad_norm": 0.01120977383106947,
+      "learning_rate": 0.0008564705290030068,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 85492976,
+      "step": 39555
+    },
+    {
+      "epoch": 6.4535073409461665,
+      "grad_norm": 0.015544314868748188,
+      "learning_rate": 0.0008564206123935924,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 85503216,
+      "step": 39560
+    },
+    {
+      "epoch": 6.454323001631321,
+      "grad_norm": 0.042205292731523514,
+      "learning_rate": 0.0008563706885608622,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 85513616,
+      "step": 39565
+    },
+    {
+      "epoch": 6.455138662316476,
+      "grad_norm": 0.04667263105511665,
+      "learning_rate": 0.0008563207575058279,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 85524624,
+      "step": 39570
+    },
+    {
+      "epoch": 6.455954323001631,
+      "grad_norm": 0.21057234704494476,
+      "learning_rate": 0.0008562708192295012,
+      "loss": 0.1132,
+      "num_input_tokens_seen": 85535760,
+      "step": 39575
+    },
+    {
+      "epoch": 6.456769983686787,
+      "grad_norm": 0.007653217297047377,
+      "learning_rate": 0.0008562208737328947,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 85546576,
+      "step": 39580
+    },
+    {
+      "epoch": 6.4575856443719415,
+      "grad_norm": 0.14348191022872925,
+      "learning_rate": 0.0008561709210170201,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 85556592,
+      "step": 39585
+    },
+    {
+      "epoch": 6.458401305057096,
+      "grad_norm": 0.1331503540277481,
+      "learning_rate": 0.00085612096108289,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 85566640,
+      "step": 39590
+    },
+    {
+      "epoch": 6.459216965742251,
+      "grad_norm": 0.10012613236904144,
+      "learning_rate": 0.0008560709939315169,
+      "loss": 0.032,
+      "num_input_tokens_seen": 85577552,
+      "step": 39595
+    },
+    {
+      "epoch": 6.460032626427406,
+      "grad_norm": 0.011143765412271023,
+      "learning_rate": 0.0008560210195639133,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 85588560,
+      "step": 39600
+    },
+    {
+      "epoch": 6.460848287112561,
+      "grad_norm": 0.08696023374795914,
+      "learning_rate": 0.0008559710379810922,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 85599440,
+      "step": 39605
+    },
+    {
+      "epoch": 6.4616639477977165,
+      "grad_norm": 0.01324189268052578,
+      "learning_rate": 0.0008559210491840664,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 85610192,
+      "step": 39610
+    },
+    {
+      "epoch": 6.462479608482871,
+      "grad_norm": 0.02257055602967739,
+      "learning_rate": 0.0008558710531738489,
+      "loss": 0.2433,
+      "num_input_tokens_seen": 85620112,
+      "step": 39615
+    },
+    {
+      "epoch": 6.463295269168026,
+      "grad_norm": 0.016799110919237137,
+      "learning_rate": 0.0008558210499514532,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 85630832,
+      "step": 39620
+    },
+    {
+      "epoch": 6.464110929853181,
+      "grad_norm": 0.028752895072102547,
+      "learning_rate": 0.0008557710395178926,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 85641840,
+      "step": 39625
+    },
+    {
+      "epoch": 6.464926590538336,
+      "grad_norm": 0.04469837620854378,
+      "learning_rate": 0.0008557210218741805,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 85652112,
+      "step": 39630
+    },
+    {
+      "epoch": 6.465742251223491,
+      "grad_norm": 0.007485832553356886,
+      "learning_rate": 0.0008556709970213305,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 85662352,
+      "step": 39635
+    },
+    {
+      "epoch": 6.466557911908646,
+      "grad_norm": 0.014441374689340591,
+      "learning_rate": 0.0008556209649603566,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 85674576,
+      "step": 39640
+    },
+    {
+      "epoch": 6.467373572593801,
+      "grad_norm": 0.0882072001695633,
+      "learning_rate": 0.0008555709256922728,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 85685008,
+      "step": 39645
+    },
+    {
+      "epoch": 6.468189233278956,
+      "grad_norm": 0.22026503086090088,
+      "learning_rate": 0.0008555208792180931,
+      "loss": 0.1859,
+      "num_input_tokens_seen": 85695600,
+      "step": 39650
+    },
+    {
+      "epoch": 6.469004893964111,
+      "grad_norm": 0.30590370297431946,
+      "learning_rate": 0.0008554708255388317,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 85706896,
+      "step": 39655
+    },
+    {
+      "epoch": 6.4698205546492655,
+      "grad_norm": 0.010739093646407127,
+      "learning_rate": 0.0008554207646555032,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 85718640,
+      "step": 39660
+    },
+    {
+      "epoch": 6.470636215334421,
+      "grad_norm": 0.034509677439928055,
+      "learning_rate": 0.0008553706965691218,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 85728592,
+      "step": 39665
+    },
+    {
+      "epoch": 6.471451876019576,
+      "grad_norm": 0.1682896912097931,
+      "learning_rate": 0.0008553206212807026,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 85739024,
+      "step": 39670
+    },
+    {
+      "epoch": 6.472267536704731,
+      "grad_norm": 0.16085843741893768,
+      "learning_rate": 0.0008552705387912602,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 85749872,
+      "step": 39675
+    },
+    {
+      "epoch": 6.473083197389886,
+      "grad_norm": 0.18290142714977264,
+      "learning_rate": 0.0008552204491018096,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 85760208,
+      "step": 39680
+    },
+    {
+      "epoch": 6.4738988580750405,
+      "grad_norm": 0.21753232181072235,
+      "learning_rate": 0.000855170352213366,
+      "loss": 0.2405,
+      "num_input_tokens_seen": 85770448,
+      "step": 39685
+    },
+    {
+      "epoch": 6.474714518760196,
+      "grad_norm": 0.037998493760824203,
+      "learning_rate": 0.0008551202481269446,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 85782288,
+      "step": 39690
+    },
+    {
+      "epoch": 6.475530179445351,
+      "grad_norm": 0.32717499136924744,
+      "learning_rate": 0.000855070136843561,
+      "loss": 0.1742,
+      "num_input_tokens_seen": 85793264,
+      "step": 39695
+    },
+    {
+      "epoch": 6.476345840130506,
+      "grad_norm": 0.0370999239385128,
+      "learning_rate": 0.0008550200183642304,
+      "loss": 0.1615,
+      "num_input_tokens_seen": 85803952,
+      "step": 39700
+    },
+    {
+      "epoch": 6.477161500815661,
+      "grad_norm": 0.025982806459069252,
+      "learning_rate": 0.000854969892689969,
+      "loss": 0.026,
+      "num_input_tokens_seen": 85814576,
+      "step": 39705
+    },
+    {
+      "epoch": 6.4779771615008155,
+      "grad_norm": 0.4047028124332428,
+      "learning_rate": 0.0008549197598217923,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 85824560,
+      "step": 39710
+    },
+    {
+      "epoch": 6.47879282218597,
+      "grad_norm": 0.01007707417011261,
+      "learning_rate": 0.0008548696197607165,
+      "loss": 0.055,
+      "num_input_tokens_seen": 85834896,
+      "step": 39715
+    },
+    {
+      "epoch": 6.479608482871126,
+      "grad_norm": 0.22528640925884247,
+      "learning_rate": 0.0008548194725077576,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 85845840,
+      "step": 39720
+    },
+    {
+      "epoch": 6.480424143556281,
+      "grad_norm": 0.05834813788533211,
+      "learning_rate": 0.000854769318063932,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 85856464,
+      "step": 39725
+    },
+    {
+      "epoch": 6.481239804241436,
+      "grad_norm": 0.03998285531997681,
+      "learning_rate": 0.0008547191564302561,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 85868272,
+      "step": 39730
+    },
+    {
+      "epoch": 6.4820554649265905,
+      "grad_norm": 0.003781791077926755,
+      "learning_rate": 0.0008546689876077464,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 85877936,
+      "step": 39735
+    },
+    {
+      "epoch": 6.482871125611745,
+      "grad_norm": 0.012051782570779324,
+      "learning_rate": 0.0008546188115974198,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 85889296,
+      "step": 39740
+    },
+    {
+      "epoch": 6.4836867862969,
+      "grad_norm": 0.040543217211961746,
+      "learning_rate": 0.0008545686284002932,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 85900496,
+      "step": 39745
+    },
+    {
+      "epoch": 6.484502446982056,
+      "grad_norm": 0.03690031170845032,
+      "learning_rate": 0.0008545184380173835,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 85912976,
+      "step": 39750
+    },
+    {
+      "epoch": 6.485318107667211,
+      "grad_norm": 0.06059866026043892,
+      "learning_rate": 0.0008544682404497079,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 85924112,
+      "step": 39755
+    },
+    {
+      "epoch": 6.486133768352365,
+      "grad_norm": 0.008430173620581627,
+      "learning_rate": 0.0008544180356982838,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 85935152,
+      "step": 39760
+    },
+    {
+      "epoch": 6.48694942903752,
+      "grad_norm": 0.016898339614272118,
+      "learning_rate": 0.0008543678237641284,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 85945616,
+      "step": 39765
+    },
+    {
+      "epoch": 6.487765089722675,
+      "grad_norm": 0.24281612038612366,
+      "learning_rate": 0.0008543176046482597,
+      "loss": 0.1337,
+      "num_input_tokens_seen": 85956304,
+      "step": 39770
+    },
+    {
+      "epoch": 6.488580750407831,
+      "grad_norm": 0.17431525886058807,
+      "learning_rate": 0.0008542673783516952,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 85968752,
+      "step": 39775
+    },
+    {
+      "epoch": 6.489396411092986,
+      "grad_norm": 0.10620342195034027,
+      "learning_rate": 0.0008542171448754528,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 85979600,
+      "step": 39780
+    },
+    {
+      "epoch": 6.49021207177814,
+      "grad_norm": 0.2232169657945633,
+      "learning_rate": 0.0008541669042205507,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 85990416,
+      "step": 39785
+    },
+    {
+      "epoch": 6.491027732463295,
+      "grad_norm": 0.11217696219682693,
+      "learning_rate": 0.0008541166563880069,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 86002064,
+      "step": 39790
+    },
+    {
+      "epoch": 6.49184339314845,
+      "grad_norm": 0.17561346292495728,
+      "learning_rate": 0.00085406640137884,
+      "loss": 0.2404,
+      "num_input_tokens_seen": 86012240,
+      "step": 39795
+    },
+    {
+      "epoch": 6.492659053833605,
+      "grad_norm": 0.3116014003753662,
+      "learning_rate": 0.0008540161391940681,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 86022224,
+      "step": 39800
+    },
+    {
+      "epoch": 6.493474714518761,
+      "grad_norm": 0.24169039726257324,
+      "learning_rate": 0.0008539658698347102,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 86032176,
+      "step": 39805
+    },
+    {
+      "epoch": 6.494290375203915,
+      "grad_norm": 0.026461800560355186,
+      "learning_rate": 0.0008539155933017848,
+      "loss": 0.0391,
+      "num_input_tokens_seen": 86043088,
+      "step": 39810
+    },
+    {
+      "epoch": 6.49510603588907,
+      "grad_norm": 0.012956095859408379,
+      "learning_rate": 0.0008538653095963109,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 86053360,
+      "step": 39815
+    },
+    {
+      "epoch": 6.495921696574225,
+      "grad_norm": 0.05258989706635475,
+      "learning_rate": 0.0008538150187193076,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 86063888,
+      "step": 39820
+    },
+    {
+      "epoch": 6.49673735725938,
+      "grad_norm": 0.01811002753674984,
+      "learning_rate": 0.0008537647206717942,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 86074448,
+      "step": 39825
+    },
+    {
+      "epoch": 6.497553017944535,
+      "grad_norm": 0.09665459394454956,
+      "learning_rate": 0.00085371441545479,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 86085392,
+      "step": 39830
+    },
+    {
+      "epoch": 6.49836867862969,
+      "grad_norm": 0.020809080451726913,
+      "learning_rate": 0.0008536641030693143,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 86095120,
+      "step": 39835
+    },
+    {
+      "epoch": 6.499184339314845,
+      "grad_norm": 0.033111944794654846,
+      "learning_rate": 0.000853613783516387,
+      "loss": 0.074,
+      "num_input_tokens_seen": 86106000,
+      "step": 39840
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 0.01744101569056511,
+      "learning_rate": 0.0008535634567970277,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 86117456,
+      "step": 39845
+    },
+    {
+      "epoch": 6.500815660685155,
+      "grad_norm": 0.05731053650379181,
+      "learning_rate": 0.0008535131229122565,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 86127984,
+      "step": 39850
+    },
+    {
+      "epoch": 6.50163132137031,
+      "grad_norm": 0.0589575469493866,
+      "learning_rate": 0.0008534627818630933,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 86138928,
+      "step": 39855
+    },
+    {
+      "epoch": 6.502446982055465,
+      "grad_norm": 0.08219664543867111,
+      "learning_rate": 0.0008534124336505585,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 86149424,
+      "step": 39860
+    },
+    {
+      "epoch": 6.50326264274062,
+      "grad_norm": 0.2619974911212921,
+      "learning_rate": 0.0008533620782756724,
+      "loss": 0.2123,
+      "num_input_tokens_seen": 86159376,
+      "step": 39865
+    },
+    {
+      "epoch": 6.504078303425775,
+      "grad_norm": 0.08538439869880676,
+      "learning_rate": 0.0008533117157394556,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 86170320,
+      "step": 39870
+    },
+    {
+      "epoch": 6.50489396411093,
+      "grad_norm": 0.011978470720350742,
+      "learning_rate": 0.0008532613460429285,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 86181136,
+      "step": 39875
+    },
+    {
+      "epoch": 6.505709624796085,
+      "grad_norm": 0.03728099912405014,
+      "learning_rate": 0.0008532109691871122,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 86189808,
+      "step": 39880
+    },
+    {
+      "epoch": 6.506525285481239,
+      "grad_norm": 0.05977741256356239,
+      "learning_rate": 0.0008531605851730275,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 86200752,
+      "step": 39885
+    },
+    {
+      "epoch": 6.507340946166395,
+      "grad_norm": 0.005612279754132032,
+      "learning_rate": 0.0008531101940016954,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 86211088,
+      "step": 39890
+    },
+    {
+      "epoch": 6.50815660685155,
+      "grad_norm": 0.012287049554288387,
+      "learning_rate": 0.0008530597956741374,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 86222576,
+      "step": 39895
+    },
+    {
+      "epoch": 6.508972267536705,
+      "grad_norm": 0.07354990392923355,
+      "learning_rate": 0.0008530093901913748,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 86233008,
+      "step": 39900
+    },
+    {
+      "epoch": 6.50978792822186,
+      "grad_norm": 0.0029094265773892403,
+      "learning_rate": 0.000852958977554429,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 86245296,
+      "step": 39905
+    },
+    {
+      "epoch": 6.510603588907014,
+      "grad_norm": 0.019716400653123856,
+      "learning_rate": 0.0008529085577643217,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 86256016,
+      "step": 39910
+    },
+    {
+      "epoch": 6.511419249592169,
+      "grad_norm": 0.0031939074397087097,
+      "learning_rate": 0.0008528581308220748,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 86267088,
+      "step": 39915
+    },
+    {
+      "epoch": 6.512234910277325,
+      "grad_norm": 0.22552239894866943,
+      "learning_rate": 0.0008528076967287103,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 86278640,
+      "step": 39920
+    },
+    {
+      "epoch": 6.51305057096248,
+      "grad_norm": 0.22357866168022156,
+      "learning_rate": 0.0008527572554852502,
+      "loss": 0.2424,
+      "num_input_tokens_seen": 86289616,
+      "step": 39925
+    },
+    {
+      "epoch": 6.513866231647635,
+      "grad_norm": 0.004282618407160044,
+      "learning_rate": 0.0008527068070927169,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 86300048,
+      "step": 39930
+    },
+    {
+      "epoch": 6.514681892332789,
+      "grad_norm": 0.16823726892471313,
+      "learning_rate": 0.0008526563515521327,
+      "loss": 0.2235,
+      "num_input_tokens_seen": 86312496,
+      "step": 39935
+    },
+    {
+      "epoch": 6.515497553017944,
+      "grad_norm": 0.22176630795001984,
+      "learning_rate": 0.0008526058888645202,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 86322768,
+      "step": 39940
+    },
+    {
+      "epoch": 6.5163132137031,
+      "grad_norm": 0.204921692609787,
+      "learning_rate": 0.000852555419030902,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 86333392,
+      "step": 39945
+    },
+    {
+      "epoch": 6.517128874388255,
+      "grad_norm": 0.06411628425121307,
+      "learning_rate": 0.000852504942052301,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 86345456,
+      "step": 39950
+    },
+    {
+      "epoch": 6.5179445350734095,
+      "grad_norm": 0.0035396197345107794,
+      "learning_rate": 0.0008524544579297402,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 86356464,
+      "step": 39955
+    },
+    {
+      "epoch": 6.518760195758564,
+      "grad_norm": 0.28199630975723267,
+      "learning_rate": 0.0008524039666642424,
+      "loss": 0.2473,
+      "num_input_tokens_seen": 86367120,
+      "step": 39960
+    },
+    {
+      "epoch": 6.519575856443719,
+      "grad_norm": 0.025316933169960976,
+      "learning_rate": 0.0008523534682568315,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 86377712,
+      "step": 39965
+    },
+    {
+      "epoch": 6.520391517128875,
+      "grad_norm": 0.04194442555308342,
+      "learning_rate": 0.0008523029627085306,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 86387760,
+      "step": 39970
+    },
+    {
+      "epoch": 6.52120717781403,
+      "grad_norm": 0.10103817284107208,
+      "learning_rate": 0.000852252450020363,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 86398736,
+      "step": 39975
+    },
+    {
+      "epoch": 6.5220228384991845,
+      "grad_norm": 0.018434442579746246,
+      "learning_rate": 0.0008522019301933528,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 86409648,
+      "step": 39980
+    },
+    {
+      "epoch": 6.522838499184339,
+      "grad_norm": 0.22668053209781647,
+      "learning_rate": 0.0008521514032285236,
+      "loss": 0.099,
+      "num_input_tokens_seen": 86420432,
+      "step": 39985
+    },
+    {
+      "epoch": 6.523654159869494,
+      "grad_norm": 0.07056698203086853,
+      "learning_rate": 0.0008521008691268994,
+      "loss": 0.0622,
+      "num_input_tokens_seen": 86431536,
+      "step": 39990
+    },
+    {
+      "epoch": 6.524469820554649,
+      "grad_norm": 0.17081086337566376,
+      "learning_rate": 0.0008520503278895045,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 86442800,
+      "step": 39995
+    },
+    {
+      "epoch": 6.525285481239804,
+      "grad_norm": 0.07947465777397156,
+      "learning_rate": 0.0008519997795173632,
+      "loss": 0.041,
+      "num_input_tokens_seen": 86454224,
+      "step": 40000
+    },
+    {
+      "epoch": 6.5261011419249595,
+      "grad_norm": 0.027177680283784866,
+      "learning_rate": 0.0008519492240114996,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 86464656,
+      "step": 40005
+    },
+    {
+      "epoch": 6.526916802610114,
+      "grad_norm": 0.0470040962100029,
+      "learning_rate": 0.0008518986613729387,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 86476336,
+      "step": 40010
+    },
+    {
+      "epoch": 6.527732463295269,
+      "grad_norm": 0.2636547386646271,
+      "learning_rate": 0.0008518480916027049,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 86486864,
+      "step": 40015
+    },
+    {
+      "epoch": 6.528548123980424,
+      "grad_norm": 0.047732576727867126,
+      "learning_rate": 0.0008517975147018233,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 86497424,
+      "step": 40020
+    },
+    {
+      "epoch": 6.529363784665579,
+      "grad_norm": 0.025507677346467972,
+      "learning_rate": 0.0008517469306713187,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 86508080,
+      "step": 40025
+    },
+    {
+      "epoch": 6.5301794453507345,
+      "grad_norm": 0.026355070993304253,
+      "learning_rate": 0.0008516963395122163,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 86518608,
+      "step": 40030
+    },
+    {
+      "epoch": 6.530995106035889,
+      "grad_norm": 0.004582028370350599,
+      "learning_rate": 0.0008516457412255414,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 86530160,
+      "step": 40035
+    },
+    {
+      "epoch": 6.531810766721044,
+      "grad_norm": 0.24956628680229187,
+      "learning_rate": 0.0008515951358123195,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 86540592,
+      "step": 40040
+    },
+    {
+      "epoch": 6.532626427406199,
+      "grad_norm": 0.013599184341728687,
+      "learning_rate": 0.0008515445232735761,
+      "loss": 0.2517,
+      "num_input_tokens_seen": 86551152,
+      "step": 40045
+    },
+    {
+      "epoch": 6.533442088091354,
+      "grad_norm": 0.006095684599131346,
+      "learning_rate": 0.0008514939036103371,
+      "loss": 0.2383,
+      "num_input_tokens_seen": 86561456,
+      "step": 40050
+    },
+    {
+      "epoch": 6.5342577487765094,
+      "grad_norm": 0.031160254031419754,
+      "learning_rate": 0.0008514432768236282,
+      "loss": 0.02,
+      "num_input_tokens_seen": 86573648,
+      "step": 40055
+    },
+    {
+      "epoch": 6.535073409461664,
+      "grad_norm": 0.12235338240861893,
+      "learning_rate": 0.0008513926429144754,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 86585552,
+      "step": 40060
+    },
+    {
+      "epoch": 6.535889070146819,
+      "grad_norm": 0.16848307847976685,
+      "learning_rate": 0.0008513420018839049,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 86595632,
+      "step": 40065
+    },
+    {
+      "epoch": 6.536704730831974,
+      "grad_norm": 0.195616215467453,
+      "learning_rate": 0.0008512913537329431,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 86606512,
+      "step": 40070
+    },
+    {
+      "epoch": 6.537520391517129,
+      "grad_norm": 0.011958951130509377,
+      "learning_rate": 0.0008512406984626162,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 86616688,
+      "step": 40075
+    },
+    {
+      "epoch": 6.5383360522022835,
+      "grad_norm": 0.013706839643418789,
+      "learning_rate": 0.0008511900360739512,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 86626736,
+      "step": 40080
+    },
+    {
+      "epoch": 6.539151712887438,
+      "grad_norm": 0.03659415990114212,
+      "learning_rate": 0.0008511393665679745,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 86638576,
+      "step": 40085
+    },
+    {
+      "epoch": 6.539967373572594,
+      "grad_norm": 0.06943966448307037,
+      "learning_rate": 0.000851088689945713,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 86649360,
+      "step": 40090
+    },
+    {
+      "epoch": 6.540783034257749,
+      "grad_norm": 0.02747497893869877,
+      "learning_rate": 0.0008510380062081939,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 86659536,
+      "step": 40095
+    },
+    {
+      "epoch": 6.541598694942904,
+      "grad_norm": 0.07961980253458023,
+      "learning_rate": 0.0008509873153564443,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 86670512,
+      "step": 40100
+    },
+    {
+      "epoch": 6.5424143556280585,
+      "grad_norm": 0.0976494625210762,
+      "learning_rate": 0.0008509366173914914,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 86681264,
+      "step": 40105
+    },
+    {
+      "epoch": 6.543230016313213,
+      "grad_norm": 0.004687887150794268,
+      "learning_rate": 0.0008508859123143628,
+      "loss": 0.149,
+      "num_input_tokens_seen": 86692368,
+      "step": 40110
+    },
+    {
+      "epoch": 6.544045676998369,
+      "grad_norm": 0.014002878218889236,
+      "learning_rate": 0.0008508352001260861,
+      "loss": 0.093,
+      "num_input_tokens_seen": 86702608,
+      "step": 40115
+    },
+    {
+      "epoch": 6.544861337683524,
+      "grad_norm": 0.03292868286371231,
+      "learning_rate": 0.000850784480827689,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 86713776,
+      "step": 40120
+    },
+    {
+      "epoch": 6.545676998368679,
+      "grad_norm": 0.05072006955742836,
+      "learning_rate": 0.0008507337544201994,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 86724624,
+      "step": 40125
+    },
+    {
+      "epoch": 6.5464926590538335,
+      "grad_norm": 0.017592573538422585,
+      "learning_rate": 0.0008506830209046453,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 86736048,
+      "step": 40130
+    },
+    {
+      "epoch": 6.547308319738988,
+      "grad_norm": 0.020308518782258034,
+      "learning_rate": 0.000850632280282055,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 86747216,
+      "step": 40135
+    },
+    {
+      "epoch": 6.548123980424144,
+      "grad_norm": 0.09209541976451874,
+      "learning_rate": 0.0008505815325534565,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 86757296,
+      "step": 40140
+    },
+    {
+      "epoch": 6.548939641109299,
+      "grad_norm": 0.06564757227897644,
+      "learning_rate": 0.0008505307777198788,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 86769072,
+      "step": 40145
+    },
+    {
+      "epoch": 6.549755301794454,
+      "grad_norm": 0.052758727222681046,
+      "learning_rate": 0.0008504800157823501,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 86780816,
+      "step": 40150
+    },
+    {
+      "epoch": 6.5505709624796085,
+      "grad_norm": 0.023643581196665764,
+      "learning_rate": 0.000850429246741899,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 86791280,
+      "step": 40155
+    },
+    {
+      "epoch": 6.551386623164763,
+      "grad_norm": 0.2505358159542084,
+      "learning_rate": 0.0008503784705995549,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 86800912,
+      "step": 40160
+    },
+    {
+      "epoch": 6.552202283849918,
+      "grad_norm": 0.007761516608297825,
+      "learning_rate": 0.0008503276873563465,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 86812592,
+      "step": 40165
+    },
+    {
+      "epoch": 6.553017944535073,
+      "grad_norm": 0.029418349266052246,
+      "learning_rate": 0.0008502768970133032,
+      "loss": 0.17,
+      "num_input_tokens_seen": 86824048,
+      "step": 40170
+    },
+    {
+      "epoch": 6.553833605220229,
+      "grad_norm": 0.22073465585708618,
+      "learning_rate": 0.0008502260995714543,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 86834096,
+      "step": 40175
+    },
+    {
+      "epoch": 6.554649265905383,
+      "grad_norm": 0.003069857368245721,
+      "learning_rate": 0.0008501752950318292,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 86844752,
+      "step": 40180
+    },
+    {
+      "epoch": 6.555464926590538,
+      "grad_norm": 0.008434565737843513,
+      "learning_rate": 0.0008501244833954573,
+      "loss": 0.1582,
+      "num_input_tokens_seen": 86855056,
+      "step": 40185
+    },
+    {
+      "epoch": 6.556280587275693,
+      "grad_norm": 0.32387346029281616,
+      "learning_rate": 0.0008500736646633686,
+      "loss": 0.1796,
+      "num_input_tokens_seen": 86866128,
+      "step": 40190
+    },
+    {
+      "epoch": 6.557096247960848,
+      "grad_norm": 0.2440408319234848,
+      "learning_rate": 0.0008500228388365933,
+      "loss": 0.1675,
+      "num_input_tokens_seen": 86877328,
+      "step": 40195
+    },
+    {
+      "epoch": 6.557911908646004,
+      "grad_norm": 0.0660281777381897,
+      "learning_rate": 0.0008499720059161608,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 86888240,
+      "step": 40200
+    },
+    {
+      "epoch": 6.558727569331158,
+      "grad_norm": 0.013883471488952637,
+      "learning_rate": 0.0008499211659031018,
+      "loss": 0.08,
+      "num_input_tokens_seen": 86899664,
+      "step": 40205
+    },
+    {
+      "epoch": 6.559543230016313,
+      "grad_norm": 0.16646042466163635,
+      "learning_rate": 0.0008498703187984465,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 86910448,
+      "step": 40210
+    },
+    {
+      "epoch": 6.560358890701468,
+      "grad_norm": 0.01823389157652855,
+      "learning_rate": 0.0008498194646032253,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 86921168,
+      "step": 40215
+    },
+    {
+      "epoch": 6.561174551386623,
+      "grad_norm": 0.010996226221323013,
+      "learning_rate": 0.0008497686033184687,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 86931632,
+      "step": 40220
+    },
+    {
+      "epoch": 6.561990212071779,
+      "grad_norm": 0.021542511880397797,
+      "learning_rate": 0.0008497177349452077,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 86942608,
+      "step": 40225
+    },
+    {
+      "epoch": 6.562805872756933,
+      "grad_norm": 0.04288684204220772,
+      "learning_rate": 0.0008496668594844733,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 86954352,
+      "step": 40230
+    },
+    {
+      "epoch": 6.563621533442088,
+      "grad_norm": 0.1718064695596695,
+      "learning_rate": 0.0008496159769372964,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 86964816,
+      "step": 40235
+    },
+    {
+      "epoch": 6.564437194127243,
+      "grad_norm": 0.15476419031620026,
+      "learning_rate": 0.0008495650873047081,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 86975760,
+      "step": 40240
+    },
+    {
+      "epoch": 6.565252854812398,
+      "grad_norm": 0.29840338230133057,
+      "learning_rate": 0.0008495141905877398,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 86986672,
+      "step": 40245
+    },
+    {
+      "epoch": 6.566068515497553,
+      "grad_norm": 0.318273663520813,
+      "learning_rate": 0.0008494632867874232,
+      "loss": 0.1865,
+      "num_input_tokens_seen": 86996560,
+      "step": 40250
+    },
+    {
+      "epoch": 6.566884176182708,
+      "grad_norm": 0.15846861898899078,
+      "learning_rate": 0.0008494123759047897,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 87008080,
+      "step": 40255
+    },
+    {
+      "epoch": 6.567699836867863,
+      "grad_norm": 0.013275109231472015,
+      "learning_rate": 0.0008493614579408712,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 87019920,
+      "step": 40260
+    },
+    {
+      "epoch": 6.568515497553018,
+      "grad_norm": 0.6214556097984314,
+      "learning_rate": 0.0008493105328966995,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 87031056,
+      "step": 40265
+    },
+    {
+      "epoch": 6.569331158238173,
+      "grad_norm": 0.2053581178188324,
+      "learning_rate": 0.0008492596007733066,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 87041872,
+      "step": 40270
+    },
+    {
+      "epoch": 6.570146818923328,
+      "grad_norm": 0.22130665183067322,
+      "learning_rate": 0.0008492086615717251,
+      "loss": 0.049,
+      "num_input_tokens_seen": 87051888,
+      "step": 40275
+    },
+    {
+      "epoch": 6.5709624796084825,
+      "grad_norm": 0.010671776719391346,
+      "learning_rate": 0.0008491577152929867,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 87061744,
+      "step": 40280
+    },
+    {
+      "epoch": 6.571778140293638,
+      "grad_norm": 0.007222020998597145,
+      "learning_rate": 0.0008491067619381247,
+      "loss": 0.1972,
+      "num_input_tokens_seen": 87073008,
+      "step": 40285
+    },
+    {
+      "epoch": 6.572593800978793,
+      "grad_norm": 0.22576162219047546,
+      "learning_rate": 0.0008490558015081711,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 87084336,
+      "step": 40290
+    },
+    {
+      "epoch": 6.573409461663948,
+      "grad_norm": 0.24591238796710968,
+      "learning_rate": 0.0008490048340041587,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 87095088,
+      "step": 40295
+    },
+    {
+      "epoch": 6.574225122349103,
+      "grad_norm": 0.002666117623448372,
+      "learning_rate": 0.0008489538594271209,
+      "loss": 0.1626,
+      "num_input_tokens_seen": 87105744,
+      "step": 40300
+    },
+    {
+      "epoch": 6.575040783034257,
+      "grad_norm": 0.004681061487644911,
+      "learning_rate": 0.0008489028777780901,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 87115984,
+      "step": 40305
+    },
+    {
+      "epoch": 6.575856443719413,
+      "grad_norm": 0.1317053884267807,
+      "learning_rate": 0.0008488518890581002,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 87127344,
+      "step": 40310
+    },
+    {
+      "epoch": 6.576672104404568,
+      "grad_norm": 0.44375360012054443,
+      "learning_rate": 0.0008488008932681841,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 87138512,
+      "step": 40315
+    },
+    {
+      "epoch": 6.577487765089723,
+      "grad_norm": 0.00884460099041462,
+      "learning_rate": 0.0008487498904093753,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 87149776,
+      "step": 40320
+    },
+    {
+      "epoch": 6.578303425774878,
+      "grad_norm": 0.054936353117227554,
+      "learning_rate": 0.0008486988804827077,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 87160848,
+      "step": 40325
+    },
+    {
+      "epoch": 6.579119086460032,
+      "grad_norm": 0.3017171621322632,
+      "learning_rate": 0.0008486478634892149,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 87171984,
+      "step": 40330
+    },
+    {
+      "epoch": 6.579934747145187,
+      "grad_norm": 0.1470268815755844,
+      "learning_rate": 0.0008485968394299308,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 87182736,
+      "step": 40335
+    },
+    {
+      "epoch": 6.580750407830343,
+      "grad_norm": 0.03465595841407776,
+      "learning_rate": 0.0008485458083058896,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 87193872,
+      "step": 40340
+    },
+    {
+      "epoch": 6.581566068515498,
+      "grad_norm": 0.09754090011119843,
+      "learning_rate": 0.0008484947701181254,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 87204912,
+      "step": 40345
+    },
+    {
+      "epoch": 6.582381729200653,
+      "grad_norm": 0.029379529878497124,
+      "learning_rate": 0.0008484437248676726,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 87215120,
+      "step": 40350
+    },
+    {
+      "epoch": 6.583197389885807,
+      "grad_norm": 0.02292765863239765,
+      "learning_rate": 0.0008483926725555655,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 87227024,
+      "step": 40355
+    },
+    {
+      "epoch": 6.584013050570962,
+      "grad_norm": 0.01272663101553917,
+      "learning_rate": 0.0008483416131828392,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 87238352,
+      "step": 40360
+    },
+    {
+      "epoch": 6.584828711256117,
+      "grad_norm": 0.29345691204071045,
+      "learning_rate": 0.000848290546750528,
+      "loss": 0.1485,
+      "num_input_tokens_seen": 87248656,
+      "step": 40365
+    },
+    {
+      "epoch": 6.585644371941273,
+      "grad_norm": 0.017028363421559334,
+      "learning_rate": 0.0008482394732596672,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 87259696,
+      "step": 40370
+    },
+    {
+      "epoch": 6.5864600326264275,
+      "grad_norm": 0.06555546075105667,
+      "learning_rate": 0.0008481883927112917,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 87269776,
+      "step": 40375
+    },
+    {
+      "epoch": 6.587275693311582,
+      "grad_norm": 0.03757341951131821,
+      "learning_rate": 0.0008481373051064365,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 87280112,
+      "step": 40380
+    },
+    {
+      "epoch": 6.588091353996737,
+      "grad_norm": 0.11471926420927048,
+      "learning_rate": 0.0008480862104461374,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 87290256,
+      "step": 40385
+    },
+    {
+      "epoch": 6.588907014681892,
+      "grad_norm": 0.022442886605858803,
+      "learning_rate": 0.0008480351087314295,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 87301488,
+      "step": 40390
+    },
+    {
+      "epoch": 6.589722675367048,
+      "grad_norm": 0.02271287702023983,
+      "learning_rate": 0.0008479839999633487,
+      "loss": 0.069,
+      "num_input_tokens_seen": 87311088,
+      "step": 40395
+    },
+    {
+      "epoch": 6.5905383360522025,
+      "grad_norm": 0.16364285349845886,
+      "learning_rate": 0.0008479328841429306,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 87321776,
+      "step": 40400
+    },
+    {
+      "epoch": 6.591353996737357,
+      "grad_norm": 0.17481482028961182,
+      "learning_rate": 0.0008478817612712113,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 87333328,
+      "step": 40405
+    },
+    {
+      "epoch": 6.592169657422512,
+      "grad_norm": 0.0992930606007576,
+      "learning_rate": 0.0008478306313492267,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 87344112,
+      "step": 40410
+    },
+    {
+      "epoch": 6.592985318107667,
+      "grad_norm": 0.015793804079294205,
+      "learning_rate": 0.0008477794943780132,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 87355888,
+      "step": 40415
+    },
+    {
+      "epoch": 6.593800978792823,
+      "grad_norm": 0.24398945271968842,
+      "learning_rate": 0.0008477283503586072,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 87367088,
+      "step": 40420
+    },
+    {
+      "epoch": 6.5946166394779775,
+      "grad_norm": 0.0020906298886984587,
+      "learning_rate": 0.0008476771992920449,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 87377904,
+      "step": 40425
+    },
+    {
+      "epoch": 6.595432300163132,
+      "grad_norm": 0.2970251142978668,
+      "learning_rate": 0.0008476260411793631,
+      "loss": 0.045,
+      "num_input_tokens_seen": 87387920,
+      "step": 40430
+    },
+    {
+      "epoch": 6.596247960848287,
+      "grad_norm": 0.07806608080863953,
+      "learning_rate": 0.0008475748760215984,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 87397392,
+      "step": 40435
+    },
+    {
+      "epoch": 6.597063621533442,
+      "grad_norm": 0.08590800315141678,
+      "learning_rate": 0.0008475237038197882,
+      "loss": 0.4011,
+      "num_input_tokens_seen": 87407952,
+      "step": 40440
+    },
+    {
+      "epoch": 6.597879282218597,
+      "grad_norm": 0.014154416508972645,
+      "learning_rate": 0.0008474725245749691,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 87418576,
+      "step": 40445
+    },
+    {
+      "epoch": 6.598694942903752,
+      "grad_norm": 0.2728196978569031,
+      "learning_rate": 0.0008474213382881786,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 87429456,
+      "step": 40450
+    },
+    {
+      "epoch": 6.599510603588907,
+      "grad_norm": 0.04241441190242767,
+      "learning_rate": 0.0008473701449604539,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 87439248,
+      "step": 40455
+    },
+    {
+      "epoch": 6.600326264274062,
+      "grad_norm": 0.15882225334644318,
+      "learning_rate": 0.0008473189445928325,
+      "loss": 0.2533,
+      "num_input_tokens_seen": 87449936,
+      "step": 40460
+    },
+    {
+      "epoch": 6.601141924959217,
+      "grad_norm": 0.36263370513916016,
+      "learning_rate": 0.0008472677371863521,
+      "loss": 0.2535,
+      "num_input_tokens_seen": 87460432,
+      "step": 40465
+    },
+    {
+      "epoch": 6.601957585644372,
+      "grad_norm": 0.09968896955251694,
+      "learning_rate": 0.0008472165227420505,
+      "loss": 0.251,
+      "num_input_tokens_seen": 87470288,
+      "step": 40470
+    },
+    {
+      "epoch": 6.602773246329527,
+      "grad_norm": 0.24596227705478668,
+      "learning_rate": 0.0008471653012609655,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 87480208,
+      "step": 40475
+    },
+    {
+      "epoch": 6.603588907014682,
+      "grad_norm": 0.010824929922819138,
+      "learning_rate": 0.0008471140727441353,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 87490768,
+      "step": 40480
+    },
+    {
+      "epoch": 6.604404567699837,
+      "grad_norm": 0.012988324277102947,
+      "learning_rate": 0.0008470628371925981,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 87501040,
+      "step": 40485
+    },
+    {
+      "epoch": 6.605220228384992,
+      "grad_norm": 0.11417032778263092,
+      "learning_rate": 0.0008470115946073922,
+      "loss": 0.1614,
+      "num_input_tokens_seen": 87511824,
+      "step": 40490
+    },
+    {
+      "epoch": 6.606035889070147,
+      "grad_norm": 0.09179277718067169,
+      "learning_rate": 0.0008469603449895562,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 87522928,
+      "step": 40495
+    },
+    {
+      "epoch": 6.6068515497553015,
+      "grad_norm": 0.03256848081946373,
+      "learning_rate": 0.0008469090883401286,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 87533200,
+      "step": 40500
+    },
+    {
+      "epoch": 6.607667210440457,
+      "grad_norm": 0.09992846846580505,
+      "learning_rate": 0.0008468578246601482,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 87541808,
+      "step": 40505
+    },
+    {
+      "epoch": 6.608482871125612,
+      "grad_norm": 0.19650889933109283,
+      "learning_rate": 0.000846806553950654,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 87552656,
+      "step": 40510
+    },
+    {
+      "epoch": 6.609298531810767,
+      "grad_norm": 0.33135658502578735,
+      "learning_rate": 0.0008467552762126851,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 87564048,
+      "step": 40515
+    },
+    {
+      "epoch": 6.610114192495922,
+      "grad_norm": 0.01710195280611515,
+      "learning_rate": 0.0008467039914472805,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 87574832,
+      "step": 40520
+    },
+    {
+      "epoch": 6.6109298531810765,
+      "grad_norm": 0.024433651939034462,
+      "learning_rate": 0.0008466526996554797,
+      "loss": 0.078,
+      "num_input_tokens_seen": 87585040,
+      "step": 40525
+    },
+    {
+      "epoch": 6.611745513866231,
+      "grad_norm": 0.1268104910850525,
+      "learning_rate": 0.0008466014008383224,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 87595312,
+      "step": 40530
+    },
+    {
+      "epoch": 6.612561174551386,
+      "grad_norm": 0.02771225944161415,
+      "learning_rate": 0.0008465500949968479,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 87606224,
+      "step": 40535
+    },
+    {
+      "epoch": 6.613376835236542,
+      "grad_norm": 0.01759571023285389,
+      "learning_rate": 0.000846498782132096,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 87617520,
+      "step": 40540
+    },
+    {
+      "epoch": 6.614192495921697,
+      "grad_norm": 0.019269373267889023,
+      "learning_rate": 0.0008464474622451067,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 87629008,
+      "step": 40545
+    },
+    {
+      "epoch": 6.6150081566068515,
+      "grad_norm": 0.017509333789348602,
+      "learning_rate": 0.0008463961353369202,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 87639824,
+      "step": 40550
+    },
+    {
+      "epoch": 6.615823817292006,
+      "grad_norm": 0.06460079550743103,
+      "learning_rate": 0.0008463448014085765,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 87649040,
+      "step": 40555
+    },
+    {
+      "epoch": 6.616639477977161,
+      "grad_norm": 0.0920075848698616,
+      "learning_rate": 0.000846293460461116,
+      "loss": 0.185,
+      "num_input_tokens_seen": 87659536,
+      "step": 40560
+    },
+    {
+      "epoch": 6.617455138662317,
+      "grad_norm": 0.1951504349708557,
+      "learning_rate": 0.0008462421124955792,
+      "loss": 0.2377,
+      "num_input_tokens_seen": 87670256,
+      "step": 40565
+    },
+    {
+      "epoch": 6.618270799347472,
+      "grad_norm": 0.016024351119995117,
+      "learning_rate": 0.0008461907575130069,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 87681008,
+      "step": 40570
+    },
+    {
+      "epoch": 6.6190864600326265,
+      "grad_norm": 0.104428231716156,
+      "learning_rate": 0.0008461393955144397,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 87692400,
+      "step": 40575
+    },
+    {
+      "epoch": 6.619902120717781,
+      "grad_norm": 0.02700626105070114,
+      "learning_rate": 0.0008460880265009185,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 87703888,
+      "step": 40580
+    },
+    {
+      "epoch": 6.620717781402936,
+      "grad_norm": 0.08827092498540878,
+      "learning_rate": 0.0008460366504734843,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 87714096,
+      "step": 40585
+    },
+    {
+      "epoch": 6.621533442088092,
+      "grad_norm": 0.03388110548257828,
+      "learning_rate": 0.0008459852674331785,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 87723760,
+      "step": 40590
+    },
+    {
+      "epoch": 6.622349102773247,
+      "grad_norm": 0.27784040570259094,
+      "learning_rate": 0.0008459338773810424,
+      "loss": 0.2896,
+      "num_input_tokens_seen": 87734160,
+      "step": 40595
+    },
+    {
+      "epoch": 6.623164763458401,
+      "grad_norm": 0.018514566123485565,
+      "learning_rate": 0.0008458824803181174,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 87744496,
+      "step": 40600
+    },
+    {
+      "epoch": 6.623980424143556,
+      "grad_norm": 0.19091467559337616,
+      "learning_rate": 0.0008458310762454451,
+      "loss": 0.153,
+      "num_input_tokens_seen": 87755376,
+      "step": 40605
+    },
+    {
+      "epoch": 6.624796084828711,
+      "grad_norm": 0.01676258258521557,
+      "learning_rate": 0.0008457796651640672,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 87765552,
+      "step": 40610
+    },
+    {
+      "epoch": 6.625611745513866,
+      "grad_norm": 0.14877432584762573,
+      "learning_rate": 0.0008457282470750259,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 87777552,
+      "step": 40615
+    },
+    {
+      "epoch": 6.626427406199021,
+      "grad_norm": 0.0045336890034377575,
+      "learning_rate": 0.0008456768219793631,
+      "loss": 0.1728,
+      "num_input_tokens_seen": 87788176,
+      "step": 40620
+    },
+    {
+      "epoch": 6.627243066884176,
+      "grad_norm": 0.047274842858314514,
+      "learning_rate": 0.000845625389878121,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 87800240,
+      "step": 40625
+    },
+    {
+      "epoch": 6.628058727569331,
+      "grad_norm": 0.26113563776016235,
+      "learning_rate": 0.0008455739507723418,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 87811248,
+      "step": 40630
+    },
+    {
+      "epoch": 6.628874388254486,
+      "grad_norm": 0.046045806258916855,
+      "learning_rate": 0.0008455225046630681,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 87823280,
+      "step": 40635
+    },
+    {
+      "epoch": 6.629690048939641,
+      "grad_norm": 0.007317631971091032,
+      "learning_rate": 0.0008454710515513426,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 87833456,
+      "step": 40640
+    },
+    {
+      "epoch": 6.630505709624796,
+      "grad_norm": 0.033978912979364395,
+      "learning_rate": 0.0008454195914382079,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 87844016,
+      "step": 40645
+    },
+    {
+      "epoch": 6.631321370309951,
+      "grad_norm": 0.01450091227889061,
+      "learning_rate": 0.0008453681243247071,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 87855216,
+      "step": 40650
+    },
+    {
+      "epoch": 6.632137030995106,
+      "grad_norm": 0.10272349417209625,
+      "learning_rate": 0.000845316650211883,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 87865392,
+      "step": 40655
+    },
+    {
+      "epoch": 6.632952691680261,
+      "grad_norm": 0.26933956146240234,
+      "learning_rate": 0.0008452651691007789,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 87876496,
+      "step": 40660
+    },
+    {
+      "epoch": 6.633768352365416,
+      "grad_norm": 0.2286217361688614,
+      "learning_rate": 0.0008452136809924384,
+      "loss": 0.1909,
+      "num_input_tokens_seen": 87888112,
+      "step": 40665
+    },
+    {
+      "epoch": 6.634584013050571,
+      "grad_norm": 0.026156388223171234,
+      "learning_rate": 0.0008451621858879043,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 87898160,
+      "step": 40670
+    },
+    {
+      "epoch": 6.635399673735726,
+      "grad_norm": 0.010627840645611286,
+      "learning_rate": 0.000845110683788221,
+      "loss": 0.2,
+      "num_input_tokens_seen": 87909200,
+      "step": 40675
+    },
+    {
+      "epoch": 6.636215334420881,
+      "grad_norm": 0.003927143756300211,
+      "learning_rate": 0.0008450591746944319,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 87919856,
+      "step": 40680
+    },
+    {
+      "epoch": 6.637030995106036,
+      "grad_norm": 0.25393131375312805,
+      "learning_rate": 0.0008450076586075805,
+      "loss": 0.2177,
+      "num_input_tokens_seen": 87931088,
+      "step": 40685
+    },
+    {
+      "epoch": 6.637846655791191,
+      "grad_norm": 0.09210921078920364,
+      "learning_rate": 0.0008449561355287116,
+      "loss": 0.1009,
+      "num_input_tokens_seen": 87942096,
+      "step": 40690
+    },
+    {
+      "epoch": 6.638662316476346,
+      "grad_norm": 0.06515488773584366,
+      "learning_rate": 0.000844904605458869,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 87952784,
+      "step": 40695
+    },
+    {
+      "epoch": 6.6394779771615005,
+      "grad_norm": 0.1152672991156578,
+      "learning_rate": 0.0008448530683990968,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 87962096,
+      "step": 40700
+    },
+    {
+      "epoch": 6.640293637846656,
+      "grad_norm": 0.011901522055268288,
+      "learning_rate": 0.0008448015243504398,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 87972144,
+      "step": 40705
+    },
+    {
+      "epoch": 6.641109298531811,
+      "grad_norm": 0.010754693299531937,
+      "learning_rate": 0.0008447499733139426,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 87983920,
+      "step": 40710
+    },
+    {
+      "epoch": 6.641924959216966,
+      "grad_norm": 0.526595950126648,
+      "learning_rate": 0.0008446984152906496,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 87993360,
+      "step": 40715
+    },
+    {
+      "epoch": 6.642740619902121,
+      "grad_norm": 0.0625261515378952,
+      "learning_rate": 0.0008446468502816061,
+      "loss": 0.2296,
+      "num_input_tokens_seen": 88002320,
+      "step": 40720
+    },
+    {
+      "epoch": 6.643556280587275,
+      "grad_norm": 0.04473881796002388,
+      "learning_rate": 0.000844595278287857,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 88013200,
+      "step": 40725
+    },
+    {
+      "epoch": 6.64437194127243,
+      "grad_norm": 0.21388088166713715,
+      "learning_rate": 0.0008445436993104473,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 88024368,
+      "step": 40730
+    },
+    {
+      "epoch": 6.645187601957586,
+      "grad_norm": 0.009727729484438896,
+      "learning_rate": 0.0008444921133504225,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 88035984,
+      "step": 40735
+    },
+    {
+      "epoch": 6.646003262642741,
+      "grad_norm": 0.11908382922410965,
+      "learning_rate": 0.0008444405204088281,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 88047344,
+      "step": 40740
+    },
+    {
+      "epoch": 6.646818923327896,
+      "grad_norm": 0.010134859941899776,
+      "learning_rate": 0.0008443889204867095,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 88058608,
+      "step": 40745
+    },
+    {
+      "epoch": 6.64763458401305,
+      "grad_norm": 0.03795737773180008,
+      "learning_rate": 0.0008443373135851125,
+      "loss": 0.133,
+      "num_input_tokens_seen": 88069648,
+      "step": 40750
+    },
+    {
+      "epoch": 6.648450244698205,
+      "grad_norm": 0.02392597869038582,
+      "learning_rate": 0.0008442856997050832,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 88080368,
+      "step": 40755
+    },
+    {
+      "epoch": 6.649265905383361,
+      "grad_norm": 0.0146209467202425,
+      "learning_rate": 0.0008442340788476672,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 88090832,
+      "step": 40760
+    },
+    {
+      "epoch": 6.650081566068516,
+      "grad_norm": 0.042282216250896454,
+      "learning_rate": 0.0008441824510139111,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 88101456,
+      "step": 40765
+    },
+    {
+      "epoch": 6.650897226753671,
+      "grad_norm": 0.1621234118938446,
+      "learning_rate": 0.0008441308162048609,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 88112624,
+      "step": 40770
+    },
+    {
+      "epoch": 6.651712887438825,
+      "grad_norm": 0.01184393372386694,
+      "learning_rate": 0.0008440791744215632,
+      "loss": 0.03,
+      "num_input_tokens_seen": 88124080,
+      "step": 40775
+    },
+    {
+      "epoch": 6.65252854812398,
+      "grad_norm": 0.10488130897283554,
+      "learning_rate": 0.0008440275256650644,
+      "loss": 0.1571,
+      "num_input_tokens_seen": 88135088,
+      "step": 40780
+    },
+    {
+      "epoch": 6.653344208809135,
+      "grad_norm": 0.009288913570344448,
+      "learning_rate": 0.0008439758699364115,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 88145296,
+      "step": 40785
+    },
+    {
+      "epoch": 6.654159869494291,
+      "grad_norm": 0.17210085690021515,
+      "learning_rate": 0.0008439242072366511,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 88154864,
+      "step": 40790
+    },
+    {
+      "epoch": 6.6549755301794455,
+      "grad_norm": 0.03770684078335762,
+      "learning_rate": 0.0008438725375668305,
+      "loss": 0.2683,
+      "num_input_tokens_seen": 88164528,
+      "step": 40795
+    },
+    {
+      "epoch": 6.6557911908646,
+      "grad_norm": 0.030847519636154175,
+      "learning_rate": 0.0008438208609279967,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 88177136,
+      "step": 40800
+    },
+    {
+      "epoch": 6.656606851549755,
+      "grad_norm": 0.02910693734884262,
+      "learning_rate": 0.0008437691773211969,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 88187824,
+      "step": 40805
+    },
+    {
+      "epoch": 6.65742251223491,
+      "grad_norm": 0.013066194951534271,
+      "learning_rate": 0.0008437174867474786,
+      "loss": 0.1456,
+      "num_input_tokens_seen": 88198288,
+      "step": 40810
+    },
+    {
+      "epoch": 6.658238172920065,
+      "grad_norm": 0.005027337931096554,
+      "learning_rate": 0.0008436657892078895,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 88208720,
+      "step": 40815
+    },
+    {
+      "epoch": 6.6590538336052205,
+      "grad_norm": 0.1727529913187027,
+      "learning_rate": 0.0008436140847034772,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 88219344,
+      "step": 40820
+    },
+    {
+      "epoch": 6.659869494290375,
+      "grad_norm": 0.13390670716762543,
+      "learning_rate": 0.0008435623732352895,
+      "loss": 0.1687,
+      "num_input_tokens_seen": 88229392,
+      "step": 40825
+    },
+    {
+      "epoch": 6.66068515497553,
+      "grad_norm": 0.09145081788301468,
+      "learning_rate": 0.0008435106548043745,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 88240624,
+      "step": 40830
+    },
+    {
+      "epoch": 6.661500815660685,
+      "grad_norm": 0.18923735618591309,
+      "learning_rate": 0.0008434589294117802,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 88250640,
+      "step": 40835
+    },
+    {
+      "epoch": 6.66231647634584,
+      "grad_norm": 0.12857620418071747,
+      "learning_rate": 0.0008434071970585551,
+      "loss": 0.103,
+      "num_input_tokens_seen": 88262224,
+      "step": 40840
+    },
+    {
+      "epoch": 6.6631321370309955,
+      "grad_norm": 0.04811937361955643,
+      "learning_rate": 0.0008433554577457475,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 88271856,
+      "step": 40845
+    },
+    {
+      "epoch": 6.66394779771615,
+      "grad_norm": 0.0026477025821805,
+      "learning_rate": 0.000843303711474406,
+      "loss": 0.155,
+      "num_input_tokens_seen": 88283344,
+      "step": 40850
+    },
+    {
+      "epoch": 6.664763458401305,
+      "grad_norm": 0.04366447031497955,
+      "learning_rate": 0.0008432519582455792,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 88294064,
+      "step": 40855
+    },
+    {
+      "epoch": 6.66557911908646,
+      "grad_norm": 0.09165249764919281,
+      "learning_rate": 0.0008432001980603161,
+      "loss": 0.2132,
+      "num_input_tokens_seen": 88304656,
+      "step": 40860
+    },
+    {
+      "epoch": 6.666394779771615,
+      "grad_norm": 0.09211524575948715,
+      "learning_rate": 0.0008431484309196656,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 88314192,
+      "step": 40865
+    },
+    {
+      "epoch": 6.6672104404567705,
+      "grad_norm": 0.019264977425336838,
+      "learning_rate": 0.0008430966568246768,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 88324784,
+      "step": 40870
+    },
+    {
+      "epoch": 6.668026101141925,
+      "grad_norm": 0.03427863493561745,
+      "learning_rate": 0.0008430448757763989,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 88335280,
+      "step": 40875
+    },
+    {
+      "epoch": 6.66884176182708,
+      "grad_norm": 0.34995800256729126,
+      "learning_rate": 0.0008429930877758814,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 88346096,
+      "step": 40880
+    },
+    {
+      "epoch": 6.669657422512235,
+      "grad_norm": 0.012390978634357452,
+      "learning_rate": 0.000842941292824174,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 88357968,
+      "step": 40885
+    },
+    {
+      "epoch": 6.67047308319739,
+      "grad_norm": 0.25816184282302856,
+      "learning_rate": 0.0008428894909223261,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 88368816,
+      "step": 40890
+    },
+    {
+      "epoch": 6.671288743882545,
+      "grad_norm": 0.027464818209409714,
+      "learning_rate": 0.0008428376820713879,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 88378256,
+      "step": 40895
+    },
+    {
+      "epoch": 6.672104404567699,
+      "grad_norm": 0.009099733084440231,
+      "learning_rate": 0.000842785866272409,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 88387888,
+      "step": 40900
+    },
+    {
+      "epoch": 6.672920065252855,
+      "grad_norm": 0.5091248750686646,
+      "learning_rate": 0.0008427340435264397,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 88397360,
+      "step": 40905
+    },
+    {
+      "epoch": 6.67373572593801,
+      "grad_norm": 0.021805984899401665,
+      "learning_rate": 0.0008426822138345302,
+      "loss": 0.2499,
+      "num_input_tokens_seen": 88408880,
+      "step": 40910
+    },
+    {
+      "epoch": 6.674551386623165,
+      "grad_norm": 0.055580854415893555,
+      "learning_rate": 0.0008426303771977311,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 88420784,
+      "step": 40915
+    },
+    {
+      "epoch": 6.6753670473083195,
+      "grad_norm": 0.09892192482948303,
+      "learning_rate": 0.0008425785336170925,
+      "loss": 0.1976,
+      "num_input_tokens_seen": 88432432,
+      "step": 40920
+    },
+    {
+      "epoch": 6.676182707993474,
+      "grad_norm": 0.08244457095861435,
+      "learning_rate": 0.0008425266830936654,
+      "loss": 0.149,
+      "num_input_tokens_seen": 88442960,
+      "step": 40925
+    },
+    {
+      "epoch": 6.67699836867863,
+      "grad_norm": 0.007770029827952385,
+      "learning_rate": 0.0008424748256285005,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 88453936,
+      "step": 40930
+    },
+    {
+      "epoch": 6.677814029363785,
+      "grad_norm": 0.0658392608165741,
+      "learning_rate": 0.0008424229612226488,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 88464304,
+      "step": 40935
+    },
+    {
+      "epoch": 6.67862969004894,
+      "grad_norm": 0.17187225818634033,
+      "learning_rate": 0.0008423710898771614,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 88475280,
+      "step": 40940
+    },
+    {
+      "epoch": 6.6794453507340945,
+      "grad_norm": 0.3012283146381378,
+      "learning_rate": 0.0008423192115930897,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 88485424,
+      "step": 40945
+    },
+    {
+      "epoch": 6.680261011419249,
+      "grad_norm": 0.08645543456077576,
+      "learning_rate": 0.0008422673263714848,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 88495504,
+      "step": 40950
+    },
+    {
+      "epoch": 6.681076672104405,
+      "grad_norm": 0.015715450048446655,
+      "learning_rate": 0.0008422154342133983,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 88506960,
+      "step": 40955
+    },
+    {
+      "epoch": 6.68189233278956,
+      "grad_norm": 0.01696091704070568,
+      "learning_rate": 0.0008421635351198819,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 88519088,
+      "step": 40960
+    },
+    {
+      "epoch": 6.682707993474715,
+      "grad_norm": 0.14385735988616943,
+      "learning_rate": 0.0008421116290919875,
+      "loss": 0.1959,
+      "num_input_tokens_seen": 88529584,
+      "step": 40965
+    },
+    {
+      "epoch": 6.6835236541598695,
+      "grad_norm": 0.040347855538129807,
+      "learning_rate": 0.0008420597161307668,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 88540976,
+      "step": 40970
+    },
+    {
+      "epoch": 6.684339314845024,
+      "grad_norm": 0.0037138413172215223,
+      "learning_rate": 0.0008420077962372721,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 88551952,
+      "step": 40975
+    },
+    {
+      "epoch": 6.685154975530179,
+      "grad_norm": 0.41363850235939026,
+      "learning_rate": 0.0008419558694125555,
+      "loss": 0.113,
+      "num_input_tokens_seen": 88563408,
+      "step": 40980
+    },
+    {
+      "epoch": 6.685970636215334,
+      "grad_norm": 0.009157951921224594,
+      "learning_rate": 0.0008419039356576695,
+      "loss": 0.2461,
+      "num_input_tokens_seen": 88574384,
+      "step": 40985
+    },
+    {
+      "epoch": 6.68678629690049,
+      "grad_norm": 0.19476893544197083,
+      "learning_rate": 0.0008418519949736664,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 88585200,
+      "step": 40990
+    },
+    {
+      "epoch": 6.6876019575856445,
+      "grad_norm": 0.03723384067416191,
+      "learning_rate": 0.000841800047361599,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 88596272,
+      "step": 40995
+    },
+    {
+      "epoch": 6.688417618270799,
+      "grad_norm": 0.02606227621436119,
+      "learning_rate": 0.00084174809282252,
+      "loss": 0.1431,
+      "num_input_tokens_seen": 88605904,
+      "step": 41000
+    },
+    {
+      "epoch": 6.689233278955954,
+      "grad_norm": 0.018963932991027832,
+      "learning_rate": 0.0008416961313574824,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 88615888,
+      "step": 41005
+    },
+    {
+      "epoch": 6.690048939641109,
+      "grad_norm": 0.057104069739580154,
+      "learning_rate": 0.0008416441629675391,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 88627792,
+      "step": 41010
+    },
+    {
+      "epoch": 6.690864600326265,
+      "grad_norm": 0.01525149866938591,
+      "learning_rate": 0.0008415921876537436,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 88639632,
+      "step": 41015
+    },
+    {
+      "epoch": 6.691680261011419,
+      "grad_norm": 0.12123435735702515,
+      "learning_rate": 0.000841540205417149,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 88650384,
+      "step": 41020
+    },
+    {
+      "epoch": 6.692495921696574,
+      "grad_norm": 0.056442294269800186,
+      "learning_rate": 0.0008414882162588089,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 88660880,
+      "step": 41025
+    },
+    {
+      "epoch": 6.693311582381729,
+      "grad_norm": 0.0264727883040905,
+      "learning_rate": 0.0008414362201797768,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 88671312,
+      "step": 41030
+    },
+    {
+      "epoch": 6.694127243066884,
+      "grad_norm": 0.13660025596618652,
+      "learning_rate": 0.0008413842171811066,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 88681232,
+      "step": 41035
+    },
+    {
+      "epoch": 6.69494290375204,
+      "grad_norm": 0.03457217290997505,
+      "learning_rate": 0.0008413322072638523,
+      "loss": 0.022,
+      "num_input_tokens_seen": 88691472,
+      "step": 41040
+    },
+    {
+      "epoch": 6.695758564437194,
+      "grad_norm": 0.03694334253668785,
+      "learning_rate": 0.0008412801904290677,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 88702544,
+      "step": 41045
+    },
+    {
+      "epoch": 6.696574225122349,
+      "grad_norm": 0.03526332601904869,
+      "learning_rate": 0.000841228166677807,
+      "loss": 0.1232,
+      "num_input_tokens_seen": 88713648,
+      "step": 41050
+    },
+    {
+      "epoch": 6.697389885807504,
+      "grad_norm": 0.009007184766232967,
+      "learning_rate": 0.0008411761360111248,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 88724464,
+      "step": 41055
+    },
+    {
+      "epoch": 6.698205546492659,
+      "grad_norm": 0.10562512278556824,
+      "learning_rate": 0.0008411240984300752,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 88735280,
+      "step": 41060
+    },
+    {
+      "epoch": 6.699021207177814,
+      "grad_norm": 0.0942317321896553,
+      "learning_rate": 0.0008410720539357132,
+      "loss": 0.1576,
+      "num_input_tokens_seen": 88746448,
+      "step": 41065
+    },
+    {
+      "epoch": 6.699836867862969,
+      "grad_norm": 0.02955956757068634,
+      "learning_rate": 0.0008410200025290933,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 88757200,
+      "step": 41070
+    },
+    {
+      "epoch": 6.700652528548124,
+      "grad_norm": 0.02018778957426548,
+      "learning_rate": 0.0008409679442112703,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 88768208,
+      "step": 41075
+    },
+    {
+      "epoch": 6.701468189233279,
+      "grad_norm": 0.019691454246640205,
+      "learning_rate": 0.0008409158789832994,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 88779152,
+      "step": 41080
+    },
+    {
+      "epoch": 6.702283849918434,
+      "grad_norm": 0.0125938281416893,
+      "learning_rate": 0.0008408638068462357,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 88790256,
+      "step": 41085
+    },
+    {
+      "epoch": 6.703099510603589,
+      "grad_norm": 0.2372901290655136,
+      "learning_rate": 0.0008408117278011347,
+      "loss": 0.1925,
+      "num_input_tokens_seen": 88800976,
+      "step": 41090
+    },
+    {
+      "epoch": 6.7039151712887435,
+      "grad_norm": 0.24161028861999512,
+      "learning_rate": 0.0008407596418490515,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 88811312,
+      "step": 41095
+    },
+    {
+      "epoch": 6.704730831973899,
+      "grad_norm": 0.034654729068279266,
+      "learning_rate": 0.0008407075489910421,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 88821968,
+      "step": 41100
+    },
+    {
+      "epoch": 6.705546492659054,
+      "grad_norm": 0.062173739075660706,
+      "learning_rate": 0.0008406554492281618,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 88832784,
+      "step": 41105
+    },
+    {
+      "epoch": 6.706362153344209,
+      "grad_norm": 0.01632249914109707,
+      "learning_rate": 0.0008406033425614667,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 88843152,
+      "step": 41110
+    },
+    {
+      "epoch": 6.707177814029364,
+      "grad_norm": 0.04637160152196884,
+      "learning_rate": 0.0008405512289920129,
+      "loss": 0.2796,
+      "num_input_tokens_seen": 88853264,
+      "step": 41115
+    },
+    {
+      "epoch": 6.7079934747145185,
+      "grad_norm": 0.05950487405061722,
+      "learning_rate": 0.0008404991085208562,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 88863440,
+      "step": 41120
+    },
+    {
+      "epoch": 6.708809135399674,
+      "grad_norm": 0.04365135356783867,
+      "learning_rate": 0.0008404469811490534,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 88873616,
+      "step": 41125
+    },
+    {
+      "epoch": 6.709624796084829,
+      "grad_norm": 0.19524741172790527,
+      "learning_rate": 0.0008403948468776604,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 88884816,
+      "step": 41130
+    },
+    {
+      "epoch": 6.710440456769984,
+      "grad_norm": 0.2746712863445282,
+      "learning_rate": 0.0008403427057077342,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 88896080,
+      "step": 41135
+    },
+    {
+      "epoch": 6.711256117455139,
+      "grad_norm": 0.3242705464363098,
+      "learning_rate": 0.0008402905576403312,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 88907152,
+      "step": 41140
+    },
+    {
+      "epoch": 6.712071778140293,
+      "grad_norm": 0.022281266748905182,
+      "learning_rate": 0.0008402384026765084,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 88918640,
+      "step": 41145
+    },
+    {
+      "epoch": 6.712887438825448,
+      "grad_norm": 0.0167181808501482,
+      "learning_rate": 0.0008401862408173226,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 88928880,
+      "step": 41150
+    },
+    {
+      "epoch": 6.713703099510604,
+      "grad_norm": 0.039158862084150314,
+      "learning_rate": 0.0008401340720638313,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 88941296,
+      "step": 41155
+    },
+    {
+      "epoch": 6.714518760195759,
+      "grad_norm": 0.2806652784347534,
+      "learning_rate": 0.0008400818964170913,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 88951888,
+      "step": 41160
+    },
+    {
+      "epoch": 6.715334420880914,
+      "grad_norm": 0.02568766102194786,
+      "learning_rate": 0.0008400297138781605,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 88962352,
+      "step": 41165
+    },
+    {
+      "epoch": 6.716150081566068,
+      "grad_norm": 0.07870490849018097,
+      "learning_rate": 0.0008399775244480961,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 88974512,
+      "step": 41170
+    },
+    {
+      "epoch": 6.716965742251223,
+      "grad_norm": 0.018581105396151543,
+      "learning_rate": 0.0008399253281279557,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 88985168,
+      "step": 41175
+    },
+    {
+      "epoch": 6.717781402936378,
+      "grad_norm": 0.24575214087963104,
+      "learning_rate": 0.0008398731249187975,
+      "loss": 0.2494,
+      "num_input_tokens_seen": 88996592,
+      "step": 41180
+    },
+    {
+      "epoch": 6.718597063621534,
+      "grad_norm": 0.023241423070430756,
+      "learning_rate": 0.0008398209148216793,
+      "loss": 0.02,
+      "num_input_tokens_seen": 89008912,
+      "step": 41185
+    },
+    {
+      "epoch": 6.719412724306689,
+      "grad_norm": 0.2728913128376007,
+      "learning_rate": 0.000839768697837659,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 89020240,
+      "step": 41190
+    },
+    {
+      "epoch": 6.720228384991843,
+      "grad_norm": 0.004862621426582336,
+      "learning_rate": 0.0008397164739677951,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 89031792,
+      "step": 41195
+    },
+    {
+      "epoch": 6.721044045676998,
+      "grad_norm": 0.2995845079421997,
+      "learning_rate": 0.0008396642432131459,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 89042928,
+      "step": 41200
+    },
+    {
+      "epoch": 6.721859706362153,
+      "grad_norm": 0.01482780184596777,
+      "learning_rate": 0.0008396120055747698,
+      "loss": 0.1983,
+      "num_input_tokens_seen": 89052432,
+      "step": 41205
+    },
+    {
+      "epoch": 6.722675367047309,
+      "grad_norm": 0.1203823983669281,
+      "learning_rate": 0.0008395597610537257,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 89063792,
+      "step": 41210
+    },
+    {
+      "epoch": 6.7234910277324635,
+      "grad_norm": 0.05856647342443466,
+      "learning_rate": 0.0008395075096510723,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 89074384,
+      "step": 41215
+    },
+    {
+      "epoch": 6.724306688417618,
+      "grad_norm": 0.07476924359798431,
+      "learning_rate": 0.0008394552513678684,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 89085488,
+      "step": 41220
+    },
+    {
+      "epoch": 6.725122349102773,
+      "grad_norm": 0.03770218417048454,
+      "learning_rate": 0.0008394029862051733,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 89095728,
+      "step": 41225
+    },
+    {
+      "epoch": 6.725938009787928,
+      "grad_norm": 0.019872894510626793,
+      "learning_rate": 0.0008393507141640461,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 89106096,
+      "step": 41230
+    },
+    {
+      "epoch": 6.726753670473083,
+      "grad_norm": 0.004693881142884493,
+      "learning_rate": 0.0008392984352455461,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 89116048,
+      "step": 41235
+    },
+    {
+      "epoch": 6.7275693311582385,
+      "grad_norm": 0.07502961158752441,
+      "learning_rate": 0.0008392461494507331,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 89127472,
+      "step": 41240
+    },
+    {
+      "epoch": 6.728384991843393,
+      "grad_norm": 0.0028481758199632168,
+      "learning_rate": 0.0008391938567806663,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 89138288,
+      "step": 41245
+    },
+    {
+      "epoch": 6.729200652528548,
+      "grad_norm": 0.006228649523109198,
+      "learning_rate": 0.0008391415572364058,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 89149456,
+      "step": 41250
+    },
+    {
+      "epoch": 6.730016313213703,
+      "grad_norm": 0.2872016429901123,
+      "learning_rate": 0.0008390892508190113,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 89161008,
+      "step": 41255
+    },
+    {
+      "epoch": 6.730831973898858,
+      "grad_norm": 0.12412890046834946,
+      "learning_rate": 0.000839036937529543,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 89171856,
+      "step": 41260
+    },
+    {
+      "epoch": 6.731647634584013,
+      "grad_norm": 0.02800234593451023,
+      "learning_rate": 0.0008389846173690611,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 89183024,
+      "step": 41265
+    },
+    {
+      "epoch": 6.732463295269168,
+      "grad_norm": 0.012140207923948765,
+      "learning_rate": 0.0008389322903386261,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 89192880,
+      "step": 41270
+    },
+    {
+      "epoch": 6.733278955954323,
+      "grad_norm": 0.02547260746359825,
+      "learning_rate": 0.0008388799564392979,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 89203888,
+      "step": 41275
+    },
+    {
+      "epoch": 6.734094616639478,
+      "grad_norm": 0.267605185508728,
+      "learning_rate": 0.0008388276156721377,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 89214192,
+      "step": 41280
+    },
+    {
+      "epoch": 6.734910277324633,
+      "grad_norm": 0.03963426128029823,
+      "learning_rate": 0.0008387752680382062,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 89225424,
+      "step": 41285
+    },
+    {
+      "epoch": 6.735725938009788,
+      "grad_norm": 0.2313862442970276,
+      "learning_rate": 0.0008387229135385638,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 89235600,
+      "step": 41290
+    },
+    {
+      "epoch": 6.736541598694943,
+      "grad_norm": 0.06140168383717537,
+      "learning_rate": 0.0008386705521742719,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 89246544,
+      "step": 41295
+    },
+    {
+      "epoch": 6.737357259380098,
+      "grad_norm": 0.23113910853862762,
+      "learning_rate": 0.0008386181839463918,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 89257040,
+      "step": 41300
+    },
+    {
+      "epoch": 6.738172920065253,
+      "grad_norm": 0.011116042733192444,
+      "learning_rate": 0.0008385658088559845,
+      "loss": 0.164,
+      "num_input_tokens_seen": 89267792,
+      "step": 41305
+    },
+    {
+      "epoch": 6.738988580750408,
+      "grad_norm": 0.12740331888198853,
+      "learning_rate": 0.0008385134269041116,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 89278832,
+      "step": 41310
+    },
+    {
+      "epoch": 6.739804241435563,
+      "grad_norm": 0.0157408956438303,
+      "learning_rate": 0.0008384610380918347,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 89290000,
+      "step": 41315
+    },
+    {
+      "epoch": 6.740619902120718,
+      "grad_norm": 0.3017098605632782,
+      "learning_rate": 0.0008384086424202156,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 89300080,
+      "step": 41320
+    },
+    {
+      "epoch": 6.741435562805873,
+      "grad_norm": 0.01924244500696659,
+      "learning_rate": 0.0008383562398903157,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 89310960,
+      "step": 41325
+    },
+    {
+      "epoch": 6.742251223491028,
+      "grad_norm": 0.06611377000808716,
+      "learning_rate": 0.0008383038305031976,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 89320784,
+      "step": 41330
+    },
+    {
+      "epoch": 6.743066884176183,
+      "grad_norm": 0.26710790395736694,
+      "learning_rate": 0.0008382514142599234,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 89330416,
+      "step": 41335
+    },
+    {
+      "epoch": 6.7438825448613375,
+      "grad_norm": 0.005136616062372923,
+      "learning_rate": 0.0008381989911615548,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 89340976,
+      "step": 41340
+    },
+    {
+      "epoch": 6.744698205546492,
+      "grad_norm": 0.37061432003974915,
+      "learning_rate": 0.0008381465612091549,
+      "loss": 0.1181,
+      "num_input_tokens_seen": 89352240,
+      "step": 41345
+    },
+    {
+      "epoch": 6.745513866231647,
+      "grad_norm": 0.0033552530221641064,
+      "learning_rate": 0.0008380941244037858,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 89362704,
+      "step": 41350
+    },
+    {
+      "epoch": 6.746329526916803,
+      "grad_norm": 0.003381171729415655,
+      "learning_rate": 0.0008380416807465106,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 89373392,
+      "step": 41355
+    },
+    {
+      "epoch": 6.747145187601958,
+      "grad_norm": 0.0964924544095993,
+      "learning_rate": 0.0008379892302383916,
+      "loss": 0.021,
+      "num_input_tokens_seen": 89384368,
+      "step": 41360
+    },
+    {
+      "epoch": 6.7479608482871125,
+      "grad_norm": 0.021633053198456764,
+      "learning_rate": 0.0008379367728804923,
+      "loss": 0.0493,
+      "num_input_tokens_seen": 89394736,
+      "step": 41365
+    },
+    {
+      "epoch": 6.748776508972267,
+      "grad_norm": 0.10366320610046387,
+      "learning_rate": 0.0008378843086738755,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 89405296,
+      "step": 41370
+    },
+    {
+      "epoch": 6.749592169657422,
+      "grad_norm": 0.0048525105230510235,
+      "learning_rate": 0.0008378318376196046,
+      "loss": 0.036,
+      "num_input_tokens_seen": 89416624,
+      "step": 41375
+    },
+    {
+      "epoch": 6.750407830342578,
+      "grad_norm": 0.3233185112476349,
+      "learning_rate": 0.0008377793597187428,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 89426928,
+      "step": 41380
+    },
+    {
+      "epoch": 6.751223491027733,
+      "grad_norm": 0.01112865749746561,
+      "learning_rate": 0.000837726874972354,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 89439024,
+      "step": 41385
+    },
+    {
+      "epoch": 6.7520391517128875,
+      "grad_norm": 0.28287333250045776,
+      "learning_rate": 0.0008376743833815015,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 89447472,
+      "step": 41390
+    },
+    {
+      "epoch": 6.752854812398042,
+      "grad_norm": 0.3251228928565979,
+      "learning_rate": 0.0008376218849472493,
+      "loss": 0.201,
+      "num_input_tokens_seen": 89458192,
+      "step": 41395
+    },
+    {
+      "epoch": 6.753670473083197,
+      "grad_norm": 0.03416355699300766,
+      "learning_rate": 0.0008375693796706613,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 89468912,
+      "step": 41400
+    },
+    {
+      "epoch": 6.754486133768353,
+      "grad_norm": 0.049930673092603683,
+      "learning_rate": 0.0008375168675528016,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 89479856,
+      "step": 41405
+    },
+    {
+      "epoch": 6.755301794453508,
+      "grad_norm": 0.18245936930179596,
+      "learning_rate": 0.0008374643485947342,
+      "loss": 0.2387,
+      "num_input_tokens_seen": 89490736,
+      "step": 41410
+    },
+    {
+      "epoch": 6.7561174551386625,
+      "grad_norm": 0.09749633818864822,
+      "learning_rate": 0.0008374118227975238,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 89501392,
+      "step": 41415
+    },
+    {
+      "epoch": 6.756933115823817,
+      "grad_norm": 0.022130804136395454,
+      "learning_rate": 0.0008373592901622349,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 89512656,
+      "step": 41420
+    },
+    {
+      "epoch": 6.757748776508972,
+      "grad_norm": 0.02885841391980648,
+      "learning_rate": 0.0008373067506899319,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 89523088,
+      "step": 41425
+    },
+    {
+      "epoch": 6.758564437194127,
+      "grad_norm": 0.09676162898540497,
+      "learning_rate": 0.0008372542043816797,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 89534288,
+      "step": 41430
+    },
+    {
+      "epoch": 6.759380097879282,
+      "grad_norm": 0.00921018235385418,
+      "learning_rate": 0.0008372016512385432,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 89545872,
+      "step": 41435
+    },
+    {
+      "epoch": 6.760195758564437,
+      "grad_norm": 0.06077948957681656,
+      "learning_rate": 0.0008371490912615875,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 89556336,
+      "step": 41440
+    },
+    {
+      "epoch": 6.761011419249592,
+      "grad_norm": 0.031869012862443924,
+      "learning_rate": 0.0008370965244518778,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 89566768,
+      "step": 41445
+    },
+    {
+      "epoch": 6.761827079934747,
+      "grad_norm": 0.02272254228591919,
+      "learning_rate": 0.0008370439508104794,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 89577456,
+      "step": 41450
+    },
+    {
+      "epoch": 6.762642740619902,
+      "grad_norm": 0.09011733531951904,
+      "learning_rate": 0.0008369913703384576,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 89589136,
+      "step": 41455
+    },
+    {
+      "epoch": 6.763458401305057,
+      "grad_norm": 0.22700747847557068,
+      "learning_rate": 0.0008369387830368785,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 89599312,
+      "step": 41460
+    },
+    {
+      "epoch": 6.764274061990212,
+      "grad_norm": 0.24166239798069,
+      "learning_rate": 0.0008368861889068071,
+      "loss": 0.1623,
+      "num_input_tokens_seen": 89610960,
+      "step": 41465
+    },
+    {
+      "epoch": 6.765089722675367,
+      "grad_norm": 0.05804312974214554,
+      "learning_rate": 0.0008368335879493099,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 89620784,
+      "step": 41470
+    },
+    {
+      "epoch": 6.765905383360522,
+      "grad_norm": 0.0035739641170948744,
+      "learning_rate": 0.0008367809801654529,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 89632272,
+      "step": 41475
+    },
+    {
+      "epoch": 6.766721044045677,
+      "grad_norm": 0.23069559037685394,
+      "learning_rate": 0.0008367283655563018,
+      "loss": 0.1694,
+      "num_input_tokens_seen": 89643120,
+      "step": 41480
+    },
+    {
+      "epoch": 6.767536704730832,
+      "grad_norm": 0.15718932449817657,
+      "learning_rate": 0.0008366757441229235,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 89653584,
+      "step": 41485
+    },
+    {
+      "epoch": 6.768352365415987,
+      "grad_norm": 0.08193394541740417,
+      "learning_rate": 0.000836623115866384,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 89665264,
+      "step": 41490
+    },
+    {
+      "epoch": 6.769168026101142,
+      "grad_norm": 0.010544022545218468,
+      "learning_rate": 0.00083657048078775,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 89675216,
+      "step": 41495
+    },
+    {
+      "epoch": 6.769983686786297,
+      "grad_norm": 0.16942720115184784,
+      "learning_rate": 0.0008365178388880883,
+      "loss": 0.2512,
+      "num_input_tokens_seen": 89686480,
+      "step": 41500
+    },
+    {
+      "epoch": 6.770799347471452,
+      "grad_norm": 0.024143319576978683,
+      "learning_rate": 0.0008364651901684657,
+      "loss": 0.117,
+      "num_input_tokens_seen": 89697232,
+      "step": 41505
+    },
+    {
+      "epoch": 6.771615008156607,
+      "grad_norm": 0.18397311866283417,
+      "learning_rate": 0.0008364125346299492,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 89708080,
+      "step": 41510
+    },
+    {
+      "epoch": 6.7724306688417615,
+      "grad_norm": 0.02165348269045353,
+      "learning_rate": 0.0008363598722736057,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 89718416,
+      "step": 41515
+    },
+    {
+      "epoch": 6.773246329526917,
+      "grad_norm": 0.07183000445365906,
+      "learning_rate": 0.0008363072031005028,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 89728688,
+      "step": 41520
+    },
+    {
+      "epoch": 6.774061990212072,
+      "grad_norm": 0.0437711663544178,
+      "learning_rate": 0.0008362545271117079,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 89740784,
+      "step": 41525
+    },
+    {
+      "epoch": 6.774877650897227,
+      "grad_norm": 0.1806856095790863,
+      "learning_rate": 0.0008362018443082884,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 89751632,
+      "step": 41530
+    },
+    {
+      "epoch": 6.775693311582382,
+      "grad_norm": 0.08479801565408707,
+      "learning_rate": 0.000836149154691312,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 89762224,
+      "step": 41535
+    },
+    {
+      "epoch": 6.7765089722675365,
+      "grad_norm": 0.013879367150366306,
+      "learning_rate": 0.0008360964582618465,
+      "loss": 0.1656,
+      "num_input_tokens_seen": 89772624,
+      "step": 41540
+    },
+    {
+      "epoch": 6.777324632952691,
+      "grad_norm": 0.014607289806008339,
+      "learning_rate": 0.0008360437550209599,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 89782832,
+      "step": 41545
+    },
+    {
+      "epoch": 6.778140293637847,
+      "grad_norm": 0.3534904420375824,
+      "learning_rate": 0.0008359910449697203,
+      "loss": 0.1276,
+      "num_input_tokens_seen": 89793072,
+      "step": 41550
+    },
+    {
+      "epoch": 6.778955954323002,
+      "grad_norm": 0.01215518917888403,
+      "learning_rate": 0.0008359383281091961,
+      "loss": 0.055,
+      "num_input_tokens_seen": 89804080,
+      "step": 41555
+    },
+    {
+      "epoch": 6.779771615008157,
+      "grad_norm": 0.028247803449630737,
+      "learning_rate": 0.0008358856044404553,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 89815888,
+      "step": 41560
+    },
+    {
+      "epoch": 6.780587275693311,
+      "grad_norm": 0.010149382054805756,
+      "learning_rate": 0.0008358328739645668,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 89827344,
+      "step": 41565
+    },
+    {
+      "epoch": 6.781402936378466,
+      "grad_norm": 0.281253457069397,
+      "learning_rate": 0.000835780136682599,
+      "loss": 0.2119,
+      "num_input_tokens_seen": 89837328,
+      "step": 41570
+    },
+    {
+      "epoch": 6.782218597063622,
+      "grad_norm": 0.05083395168185234,
+      "learning_rate": 0.0008357273925956208,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 89847056,
+      "step": 41575
+    },
+    {
+      "epoch": 6.783034257748777,
+      "grad_norm": 0.06286054849624634,
+      "learning_rate": 0.000835674641704701,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 89857488,
+      "step": 41580
+    },
+    {
+      "epoch": 6.783849918433932,
+      "grad_norm": 0.01152315828949213,
+      "learning_rate": 0.0008356218840109089,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 89867920,
+      "step": 41585
+    },
+    {
+      "epoch": 6.784665579119086,
+      "grad_norm": 0.025084182620048523,
+      "learning_rate": 0.0008355691195153134,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 89878768,
+      "step": 41590
+    },
+    {
+      "epoch": 6.785481239804241,
+      "grad_norm": 0.046773433685302734,
+      "learning_rate": 0.000835516348218984,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 89890768,
+      "step": 41595
+    },
+    {
+      "epoch": 6.786296900489396,
+      "grad_norm": 0.039644379168748856,
+      "learning_rate": 0.0008354635701229902,
+      "loss": 0.083,
+      "num_input_tokens_seen": 89901712,
+      "step": 41600
+    },
+    {
+      "epoch": 6.787112561174552,
+      "grad_norm": 0.14292879402637482,
+      "learning_rate": 0.0008354107852284016,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 89913104,
+      "step": 41605
+    },
+    {
+      "epoch": 6.787928221859707,
+      "grad_norm": 0.2356540560722351,
+      "learning_rate": 0.0008353579935362881,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 89923120,
+      "step": 41610
+    },
+    {
+      "epoch": 6.788743882544861,
+      "grad_norm": 0.2634557783603668,
+      "learning_rate": 0.0008353051950477192,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 89934736,
+      "step": 41615
+    },
+    {
+      "epoch": 6.789559543230016,
+      "grad_norm": 0.10258938372135162,
+      "learning_rate": 0.0008352523897637652,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 89945808,
+      "step": 41620
+    },
+    {
+      "epoch": 6.790375203915171,
+      "grad_norm": 0.014087699353694916,
+      "learning_rate": 0.0008351995776854962,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 89956880,
+      "step": 41625
+    },
+    {
+      "epoch": 6.791190864600326,
+      "grad_norm": 0.01874430850148201,
+      "learning_rate": 0.0008351467588139827,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 89967504,
+      "step": 41630
+    },
+    {
+      "epoch": 6.7920065252854815,
+      "grad_norm": 0.029873300343751907,
+      "learning_rate": 0.0008350939331502949,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 89978448,
+      "step": 41635
+    },
+    {
+      "epoch": 6.792822185970636,
+      "grad_norm": 0.011422554962337017,
+      "learning_rate": 0.0008350411006955033,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 89990160,
+      "step": 41640
+    },
+    {
+      "epoch": 6.793637846655791,
+      "grad_norm": 0.11676127463579178,
+      "learning_rate": 0.0008349882614506789,
+      "loss": 0.049,
+      "num_input_tokens_seen": 90000592,
+      "step": 41645
+    },
+    {
+      "epoch": 6.794453507340946,
+      "grad_norm": 0.1809616982936859,
+      "learning_rate": 0.0008349354154168924,
+      "loss": 0.1131,
+      "num_input_tokens_seen": 90011152,
+      "step": 41650
+    },
+    {
+      "epoch": 6.795269168026101,
+      "grad_norm": 0.19138872623443604,
+      "learning_rate": 0.0008348825625952148,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 90020432,
+      "step": 41655
+    },
+    {
+      "epoch": 6.7960848287112565,
+      "grad_norm": 0.278010755777359,
+      "learning_rate": 0.0008348297029867172,
+      "loss": 0.135,
+      "num_input_tokens_seen": 90031120,
+      "step": 41660
+    },
+    {
+      "epoch": 6.796900489396411,
+      "grad_norm": 0.06747753918170929,
+      "learning_rate": 0.0008347768365924709,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 90042160,
+      "step": 41665
+    },
+    {
+      "epoch": 6.797716150081566,
+      "grad_norm": 0.14137335121631622,
+      "learning_rate": 0.0008347239634135474,
+      "loss": 0.1913,
+      "num_input_tokens_seen": 90052976,
+      "step": 41670
+    },
+    {
+      "epoch": 6.798531810766721,
+      "grad_norm": 0.021791979670524597,
+      "learning_rate": 0.0008346710834510181,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 90063728,
+      "step": 41675
+    },
+    {
+      "epoch": 6.799347471451876,
+      "grad_norm": 0.10690966993570328,
+      "learning_rate": 0.0008346181967059548,
+      "loss": 0.041,
+      "num_input_tokens_seen": 90076272,
+      "step": 41680
+    },
+    {
+      "epoch": 6.800163132137031,
+      "grad_norm": 0.22786171734333038,
+      "learning_rate": 0.0008345653031794292,
+      "loss": 0.079,
+      "num_input_tokens_seen": 90087056,
+      "step": 41685
+    },
+    {
+      "epoch": 6.800978792822186,
+      "grad_norm": 0.41516733169555664,
+      "learning_rate": 0.0008345124028725133,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 90096944,
+      "step": 41690
+    },
+    {
+      "epoch": 6.801794453507341,
+      "grad_norm": 0.007719927933067083,
+      "learning_rate": 0.0008344594957862792,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 90108752,
+      "step": 41695
+    },
+    {
+      "epoch": 6.802610114192496,
+      "grad_norm": 0.012921489775180817,
+      "learning_rate": 0.000834406581921799,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 90119856,
+      "step": 41700
+    },
+    {
+      "epoch": 6.803425774877651,
+      "grad_norm": 0.12971089780330658,
+      "learning_rate": 0.0008343536612801454,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 90130896,
+      "step": 41705
+    },
+    {
+      "epoch": 6.804241435562806,
+      "grad_norm": 0.010836289264261723,
+      "learning_rate": 0.0008343007338623906,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 90139632,
+      "step": 41710
+    },
+    {
+      "epoch": 6.80505709624796,
+      "grad_norm": 0.006006123032420874,
+      "learning_rate": 0.0008342477996696074,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 90150096,
+      "step": 41715
+    },
+    {
+      "epoch": 6.805872756933116,
+      "grad_norm": 0.15588663518428802,
+      "learning_rate": 0.0008341948587028684,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 90161360,
+      "step": 41720
+    },
+    {
+      "epoch": 6.806688417618271,
+      "grad_norm": 0.18570052087306976,
+      "learning_rate": 0.0008341419109632466,
+      "loss": 0.14,
+      "num_input_tokens_seen": 90172144,
+      "step": 41725
+    },
+    {
+      "epoch": 6.807504078303426,
+      "grad_norm": 0.07356259226799011,
+      "learning_rate": 0.0008340889564518153,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 90183536,
+      "step": 41730
+    },
+    {
+      "epoch": 6.808319738988581,
+      "grad_norm": 0.10233187675476074,
+      "learning_rate": 0.0008340359951696472,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 90194224,
+      "step": 41735
+    },
+    {
+      "epoch": 6.809135399673735,
+      "grad_norm": 0.027137896046042442,
+      "learning_rate": 0.0008339830271178162,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 90205200,
+      "step": 41740
+    },
+    {
+      "epoch": 6.809951060358891,
+      "grad_norm": 0.13853560388088226,
+      "learning_rate": 0.0008339300522973952,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 90214224,
+      "step": 41745
+    },
+    {
+      "epoch": 6.810766721044046,
+      "grad_norm": 0.03210921958088875,
+      "learning_rate": 0.0008338770707094583,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 90225552,
+      "step": 41750
+    },
+    {
+      "epoch": 6.811582381729201,
+      "grad_norm": 0.0702987015247345,
+      "learning_rate": 0.0008338240823550789,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 90236048,
+      "step": 41755
+    },
+    {
+      "epoch": 6.8123980424143555,
+      "grad_norm": 0.35574427247047424,
+      "learning_rate": 0.000833771087235331,
+      "loss": 0.094,
+      "num_input_tokens_seen": 90247344,
+      "step": 41760
+    },
+    {
+      "epoch": 6.81321370309951,
+      "grad_norm": 0.2279064953327179,
+      "learning_rate": 0.0008337180853512885,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 90258320,
+      "step": 41765
+    },
+    {
+      "epoch": 6.814029363784666,
+      "grad_norm": 0.025548186153173447,
+      "learning_rate": 0.0008336650767040258,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 90268336,
+      "step": 41770
+    },
+    {
+      "epoch": 6.814845024469821,
+      "grad_norm": 0.20487023890018463,
+      "learning_rate": 0.000833612061294617,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 90279120,
+      "step": 41775
+    },
+    {
+      "epoch": 6.815660685154976,
+      "grad_norm": 0.10038571059703827,
+      "learning_rate": 0.0008335590391241365,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 90290064,
+      "step": 41780
+    },
+    {
+      "epoch": 6.8164763458401305,
+      "grad_norm": 0.41231435537338257,
+      "learning_rate": 0.000833506010193659,
+      "loss": 0.125,
+      "num_input_tokens_seen": 90299952,
+      "step": 41785
+    },
+    {
+      "epoch": 6.817292006525285,
+      "grad_norm": 0.20405316352844238,
+      "learning_rate": 0.000833452974504259,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 90310640,
+      "step": 41790
+    },
+    {
+      "epoch": 6.81810766721044,
+      "grad_norm": 0.03132156655192375,
+      "learning_rate": 0.0008333999320570116,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 90320656,
+      "step": 41795
+    },
+    {
+      "epoch": 6.818923327895595,
+      "grad_norm": 0.012432006187736988,
+      "learning_rate": 0.0008333468828529916,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 90331824,
+      "step": 41800
+    },
+    {
+      "epoch": 6.819738988580751,
+      "grad_norm": 0.021729158237576485,
+      "learning_rate": 0.0008332938268932742,
+      "loss": 0.06,
+      "num_input_tokens_seen": 90344016,
+      "step": 41805
+    },
+    {
+      "epoch": 6.8205546492659055,
+      "grad_norm": 0.04156330227851868,
+      "learning_rate": 0.0008332407641789344,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 90356048,
+      "step": 41810
+    },
+    {
+      "epoch": 6.82137030995106,
+      "grad_norm": 0.14998769760131836,
+      "learning_rate": 0.0008331876947110478,
+      "loss": 0.1661,
+      "num_input_tokens_seen": 90367792,
+      "step": 41815
+    },
+    {
+      "epoch": 6.822185970636215,
+      "grad_norm": 0.05917227268218994,
+      "learning_rate": 0.00083313461849069,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 90377840,
+      "step": 41820
+    },
+    {
+      "epoch": 6.82300163132137,
+      "grad_norm": 0.012237275019288063,
+      "learning_rate": 0.0008330815355189365,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 90387920,
+      "step": 41825
+    },
+    {
+      "epoch": 6.823817292006526,
+      "grad_norm": 0.19908970594406128,
+      "learning_rate": 0.0008330284457968631,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 90399760,
+      "step": 41830
+    },
+    {
+      "epoch": 6.8246329526916805,
+      "grad_norm": 0.12390464544296265,
+      "learning_rate": 0.0008329753493255458,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 90409840,
+      "step": 41835
+    },
+    {
+      "epoch": 6.825448613376835,
+      "grad_norm": 0.0513911172747612,
+      "learning_rate": 0.0008329222461060606,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 90421136,
+      "step": 41840
+    },
+    {
+      "epoch": 6.82626427406199,
+      "grad_norm": 0.22825922071933746,
+      "learning_rate": 0.0008328691361394838,
+      "loss": 0.1985,
+      "num_input_tokens_seen": 90430640,
+      "step": 41845
+    },
+    {
+      "epoch": 6.827079934747145,
+      "grad_norm": 0.01640220545232296,
+      "learning_rate": 0.0008328160194268916,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 90442064,
+      "step": 41850
+    },
+    {
+      "epoch": 6.827895595432301,
+      "grad_norm": 0.09551920741796494,
+      "learning_rate": 0.0008327628959693606,
+      "loss": 0.046,
+      "num_input_tokens_seen": 90452336,
+      "step": 41855
+    },
+    {
+      "epoch": 6.828711256117455,
+      "grad_norm": 0.25587597489356995,
+      "learning_rate": 0.0008327097657679674,
+      "loss": 0.1737,
+      "num_input_tokens_seen": 90463600,
+      "step": 41860
+    },
+    {
+      "epoch": 6.82952691680261,
+      "grad_norm": 0.04232428967952728,
+      "learning_rate": 0.0008326566288237887,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 90474576,
+      "step": 41865
+    },
+    {
+      "epoch": 6.830342577487765,
+      "grad_norm": 0.03149278461933136,
+      "learning_rate": 0.0008326034851379014,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 90484976,
+      "step": 41870
+    },
+    {
+      "epoch": 6.83115823817292,
+      "grad_norm": 0.28385284543037415,
+      "learning_rate": 0.0008325503347113826,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 90494576,
+      "step": 41875
+    },
+    {
+      "epoch": 6.831973898858075,
+      "grad_norm": 0.2156359702348709,
+      "learning_rate": 0.0008324971775453094,
+      "loss": 0.2996,
+      "num_input_tokens_seen": 90504592,
+      "step": 41880
+    },
+    {
+      "epoch": 6.8327895595432295,
+      "grad_norm": 0.01356032956391573,
+      "learning_rate": 0.0008324440136407591,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 90515120,
+      "step": 41885
+    },
+    {
+      "epoch": 6.833605220228385,
+      "grad_norm": 0.1261776089668274,
+      "learning_rate": 0.000832390842998809,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 90526000,
+      "step": 41890
+    },
+    {
+      "epoch": 6.83442088091354,
+      "grad_norm": 0.1900995522737503,
+      "learning_rate": 0.0008323376656205369,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 90537552,
+      "step": 41895
+    },
+    {
+      "epoch": 6.835236541598695,
+      "grad_norm": 0.31141209602355957,
+      "learning_rate": 0.0008322844815070204,
+      "loss": 0.1889,
+      "num_input_tokens_seen": 90548272,
+      "step": 41900
+    },
+    {
+      "epoch": 6.83605220228385,
+      "grad_norm": 0.2049756795167923,
+      "learning_rate": 0.0008322312906593373,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 90558064,
+      "step": 41905
+    },
+    {
+      "epoch": 6.8368678629690045,
+      "grad_norm": 0.03546799719333649,
+      "learning_rate": 0.0008321780930785657,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 90569712,
+      "step": 41910
+    },
+    {
+      "epoch": 6.83768352365416,
+      "grad_norm": 0.09230761975049973,
+      "learning_rate": 0.0008321248887657836,
+      "loss": 0.1765,
+      "num_input_tokens_seen": 90580656,
+      "step": 41915
+    },
+    {
+      "epoch": 6.838499184339315,
+      "grad_norm": 0.052474021911621094,
+      "learning_rate": 0.0008320716777220694,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 90590512,
+      "step": 41920
+    },
+    {
+      "epoch": 6.83931484502447,
+      "grad_norm": 0.05721645429730415,
+      "learning_rate": 0.0008320184599485012,
+      "loss": 0.0613,
+      "num_input_tokens_seen": 90600784,
+      "step": 41925
+    },
+    {
+      "epoch": 6.840130505709625,
+      "grad_norm": 0.015794144943356514,
+      "learning_rate": 0.0008319652354461577,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 90611984,
+      "step": 41930
+    },
+    {
+      "epoch": 6.8409461663947795,
+      "grad_norm": 0.024517951533198357,
+      "learning_rate": 0.0008319120042161179,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 90623152,
+      "step": 41935
+    },
+    {
+      "epoch": 6.841761827079935,
+      "grad_norm": 0.24330684542655945,
+      "learning_rate": 0.00083185876625946,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 90634736,
+      "step": 41940
+    },
+    {
+      "epoch": 6.84257748776509,
+      "grad_norm": 0.015622702427208424,
+      "learning_rate": 0.0008318055215772633,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 90644976,
+      "step": 41945
+    },
+    {
+      "epoch": 6.843393148450245,
+      "grad_norm": 0.1785089373588562,
+      "learning_rate": 0.0008317522701706066,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 90656656,
+      "step": 41950
+    },
+    {
+      "epoch": 6.8442088091354,
+      "grad_norm": 0.16877882182598114,
+      "learning_rate": 0.0008316990120405695,
+      "loss": 0.0717,
+      "num_input_tokens_seen": 90668592,
+      "step": 41955
+    },
+    {
+      "epoch": 6.8450244698205545,
+      "grad_norm": 0.009568187408149242,
+      "learning_rate": 0.0008316457471882311,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 90678800,
+      "step": 41960
+    },
+    {
+      "epoch": 6.845840130505709,
+      "grad_norm": 0.012613932602107525,
+      "learning_rate": 0.0008315924756146708,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 90689584,
+      "step": 41965
+    },
+    {
+      "epoch": 6.846655791190865,
+      "grad_norm": 0.20978093147277832,
+      "learning_rate": 0.0008315391973209685,
+      "loss": 0.2168,
+      "num_input_tokens_seen": 90699536,
+      "step": 41970
+    },
+    {
+      "epoch": 6.84747145187602,
+      "grad_norm": 0.04319089278578758,
+      "learning_rate": 0.0008314859123082037,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 90710800,
+      "step": 41975
+    },
+    {
+      "epoch": 6.848287112561175,
+      "grad_norm": 0.17170238494873047,
+      "learning_rate": 0.0008314326205774563,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 90720976,
+      "step": 41980
+    },
+    {
+      "epoch": 6.849102773246329,
+      "grad_norm": 0.1302386075258255,
+      "learning_rate": 0.0008313793221298065,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 90730832,
+      "step": 41985
+    },
+    {
+      "epoch": 6.849918433931484,
+      "grad_norm": 0.01649455539882183,
+      "learning_rate": 0.0008313260169663343,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 90742320,
+      "step": 41990
+    },
+    {
+      "epoch": 6.850734094616639,
+      "grad_norm": 0.046188920736312866,
+      "learning_rate": 0.00083127270508812,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 90753680,
+      "step": 41995
+    },
+    {
+      "epoch": 6.851549755301795,
+      "grad_norm": 0.02995547652244568,
+      "learning_rate": 0.0008312193864962442,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 90764272,
+      "step": 42000
+    },
+    {
+      "epoch": 6.85236541598695,
+      "grad_norm": 0.023149535059928894,
+      "learning_rate": 0.0008311660611917873,
+      "loss": 0.026,
+      "num_input_tokens_seen": 90774672,
+      "step": 42005
+    },
+    {
+      "epoch": 6.853181076672104,
+      "grad_norm": 0.1374523937702179,
+      "learning_rate": 0.00083111272917583,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 90786416,
+      "step": 42010
+    },
+    {
+      "epoch": 6.853996737357259,
+      "grad_norm": 0.25843703746795654,
+      "learning_rate": 0.0008310593904494532,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 90795472,
+      "step": 42015
+    },
+    {
+      "epoch": 6.854812398042414,
+      "grad_norm": 0.01731134206056595,
+      "learning_rate": 0.000831006045013738,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 90807248,
+      "step": 42020
+    },
+    {
+      "epoch": 6.85562805872757,
+      "grad_norm": 0.10636473447084427,
+      "learning_rate": 0.0008309526928697653,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 90818544,
+      "step": 42025
+    },
+    {
+      "epoch": 6.856443719412725,
+      "grad_norm": 0.01988835819065571,
+      "learning_rate": 0.0008308993340186164,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 90829264,
+      "step": 42030
+    },
+    {
+      "epoch": 6.857259380097879,
+      "grad_norm": 0.03717343881726265,
+      "learning_rate": 0.0008308459684613727,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 90840048,
+      "step": 42035
+    },
+    {
+      "epoch": 6.858075040783034,
+      "grad_norm": 0.16305583715438843,
+      "learning_rate": 0.0008307925961991158,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 90850512,
+      "step": 42040
+    },
+    {
+      "epoch": 6.858890701468189,
+      "grad_norm": 0.14231441915035248,
+      "learning_rate": 0.0008307392172329273,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 90862064,
+      "step": 42045
+    },
+    {
+      "epoch": 6.859706362153344,
+      "grad_norm": 0.012785021215677261,
+      "learning_rate": 0.000830685831563889,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 90872592,
+      "step": 42050
+    },
+    {
+      "epoch": 6.8605220228384995,
+      "grad_norm": 0.07883328944444656,
+      "learning_rate": 0.0008306324391930827,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 90883024,
+      "step": 42055
+    },
+    {
+      "epoch": 6.861337683523654,
+      "grad_norm": 0.04878608137369156,
+      "learning_rate": 0.0008305790401215906,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 90893392,
+      "step": 42060
+    },
+    {
+      "epoch": 6.862153344208809,
+      "grad_norm": 0.13074623048305511,
+      "learning_rate": 0.000830525634350495,
+      "loss": 0.1722,
+      "num_input_tokens_seen": 90904400,
+      "step": 42065
+    },
+    {
+      "epoch": 6.862969004893964,
+      "grad_norm": 0.07179665565490723,
+      "learning_rate": 0.0008304722218808782,
+      "loss": 0.1888,
+      "num_input_tokens_seen": 90916560,
+      "step": 42070
+    },
+    {
+      "epoch": 6.863784665579119,
+      "grad_norm": 0.12156625837087631,
+      "learning_rate": 0.0008304188027138225,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 90928368,
+      "step": 42075
+    },
+    {
+      "epoch": 6.864600326264274,
+      "grad_norm": 0.15231293439865112,
+      "learning_rate": 0.0008303653768504105,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 90939600,
+      "step": 42080
+    },
+    {
+      "epoch": 6.865415986949429,
+      "grad_norm": 0.1693643033504486,
+      "learning_rate": 0.000830311944291725,
+      "loss": 0.084,
+      "num_input_tokens_seen": 90950256,
+      "step": 42085
+    },
+    {
+      "epoch": 6.866231647634584,
+      "grad_norm": 0.2293866127729416,
+      "learning_rate": 0.0008302585050388491,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 90960656,
+      "step": 42090
+    },
+    {
+      "epoch": 6.867047308319739,
+      "grad_norm": 0.011171751655638218,
+      "learning_rate": 0.0008302050590928656,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 90971376,
+      "step": 42095
+    },
+    {
+      "epoch": 6.867862969004894,
+      "grad_norm": 0.01649610511958599,
+      "learning_rate": 0.0008301516064548577,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 90980144,
+      "step": 42100
+    },
+    {
+      "epoch": 6.868678629690049,
+      "grad_norm": 0.14276473224163055,
+      "learning_rate": 0.0008300981471259086,
+      "loss": 0.165,
+      "num_input_tokens_seen": 90990960,
+      "step": 42105
+    },
+    {
+      "epoch": 6.869494290375204,
+      "grad_norm": 0.017909109592437744,
+      "learning_rate": 0.0008300446811071018,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 91002864,
+      "step": 42110
+    },
+    {
+      "epoch": 6.870309951060359,
+      "grad_norm": 0.013232512399554253,
+      "learning_rate": 0.0008299912083995208,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 91013968,
+      "step": 42115
+    },
+    {
+      "epoch": 6.871125611745514,
+      "grad_norm": 0.01880715787410736,
+      "learning_rate": 0.0008299377290042493,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 91025136,
+      "step": 42120
+    },
+    {
+      "epoch": 6.871941272430669,
+      "grad_norm": 0.14953921735286713,
+      "learning_rate": 0.0008298842429223714,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 91035184,
+      "step": 42125
+    },
+    {
+      "epoch": 6.872756933115824,
+      "grad_norm": 0.22939430177211761,
+      "learning_rate": 0.0008298307501549706,
+      "loss": 0.069,
+      "num_input_tokens_seen": 91046544,
+      "step": 42130
+    },
+    {
+      "epoch": 6.873572593800979,
+      "grad_norm": 0.005941577255725861,
+      "learning_rate": 0.0008297772507031314,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 91057488,
+      "step": 42135
+    },
+    {
+      "epoch": 6.874388254486134,
+      "grad_norm": 0.23242725431919098,
+      "learning_rate": 0.0008297237445679378,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 91069040,
+      "step": 42140
+    },
+    {
+      "epoch": 6.875203915171289,
+      "grad_norm": 0.04065469652414322,
+      "learning_rate": 0.0008296702317504741,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 91078352,
+      "step": 42145
+    },
+    {
+      "epoch": 6.876019575856444,
+      "grad_norm": 0.06341571360826492,
+      "learning_rate": 0.0008296167122518252,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 91089008,
+      "step": 42150
+    },
+    {
+      "epoch": 6.876835236541599,
+      "grad_norm": 0.058492325246334076,
+      "learning_rate": 0.0008295631860730752,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 91099536,
+      "step": 42155
+    },
+    {
+      "epoch": 6.877650897226753,
+      "grad_norm": 0.036050185561180115,
+      "learning_rate": 0.0008295096532153093,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 91110160,
+      "step": 42160
+    },
+    {
+      "epoch": 6.878466557911908,
+      "grad_norm": 0.006050860974937677,
+      "learning_rate": 0.0008294561136796122,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 91121136,
+      "step": 42165
+    },
+    {
+      "epoch": 6.879282218597064,
+      "grad_norm": 0.10723251849412918,
+      "learning_rate": 0.000829402567467069,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 91131568,
+      "step": 42170
+    },
+    {
+      "epoch": 6.880097879282219,
+      "grad_norm": 0.040584757924079895,
+      "learning_rate": 0.000829349014578765,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 91142192,
+      "step": 42175
+    },
+    {
+      "epoch": 6.8809135399673735,
+      "grad_norm": 0.012464815750718117,
+      "learning_rate": 0.0008292954550157853,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 91153424,
+      "step": 42180
+    },
+    {
+      "epoch": 6.881729200652528,
+      "grad_norm": 0.29857343435287476,
+      "learning_rate": 0.0008292418887792155,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 91163088,
+      "step": 42185
+    },
+    {
+      "epoch": 6.882544861337683,
+      "grad_norm": 0.013671220280230045,
+      "learning_rate": 0.0008291883158701413,
+      "loss": 0.1858,
+      "num_input_tokens_seen": 91174320,
+      "step": 42190
+    },
+    {
+      "epoch": 6.883360522022839,
+      "grad_norm": 0.08105769008398056,
+      "learning_rate": 0.000829134736289648,
+      "loss": 0.1649,
+      "num_input_tokens_seen": 91183792,
+      "step": 42195
+    },
+    {
+      "epoch": 6.884176182707994,
+      "grad_norm": 0.026280393823981285,
+      "learning_rate": 0.0008290811500388219,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 91194608,
+      "step": 42200
+    },
+    {
+      "epoch": 6.8849918433931485,
+      "grad_norm": 0.056491460651159286,
+      "learning_rate": 0.0008290275571187488,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 91204784,
+      "step": 42205
+    },
+    {
+      "epoch": 6.885807504078303,
+      "grad_norm": 0.13008785247802734,
+      "learning_rate": 0.0008289739575305148,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 91215152,
+      "step": 42210
+    },
+    {
+      "epoch": 6.886623164763458,
+      "grad_norm": 0.25845256447792053,
+      "learning_rate": 0.0008289203512752063,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 91225232,
+      "step": 42215
+    },
+    {
+      "epoch": 6.887438825448614,
+      "grad_norm": 0.12239914387464523,
+      "learning_rate": 0.0008288667383539097,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 91236528,
+      "step": 42220
+    },
+    {
+      "epoch": 6.888254486133769,
+      "grad_norm": 0.10594190657138824,
+      "learning_rate": 0.0008288131187677112,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 91247600,
+      "step": 42225
+    },
+    {
+      "epoch": 6.8890701468189235,
+      "grad_norm": 0.11915894597768784,
+      "learning_rate": 0.000828759492517698,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 91257744,
+      "step": 42230
+    },
+    {
+      "epoch": 6.889885807504078,
+      "grad_norm": 0.03344777226448059,
+      "learning_rate": 0.0008287058596049563,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 91268624,
+      "step": 42235
+    },
+    {
+      "epoch": 6.890701468189233,
+      "grad_norm": 0.006844738032668829,
+      "learning_rate": 0.0008286522200305738,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 91279984,
+      "step": 42240
+    },
+    {
+      "epoch": 6.891517128874388,
+      "grad_norm": 0.20053116977214813,
+      "learning_rate": 0.0008285985737956367,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 91290896,
+      "step": 42245
+    },
+    {
+      "epoch": 6.892332789559543,
+      "grad_norm": 0.026900721713900566,
+      "learning_rate": 0.0008285449209012328,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 91302608,
+      "step": 42250
+    },
+    {
+      "epoch": 6.8931484502446985,
+      "grad_norm": 0.30847597122192383,
+      "learning_rate": 0.0008284912613484493,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 91313104,
+      "step": 42255
+    },
+    {
+      "epoch": 6.893964110929853,
+      "grad_norm": 0.12379782646894455,
+      "learning_rate": 0.0008284375951383738,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 91322416,
+      "step": 42260
+    },
+    {
+      "epoch": 6.894779771615008,
+      "grad_norm": 0.015151728875935078,
+      "learning_rate": 0.0008283839222720935,
+      "loss": 0.1379,
+      "num_input_tokens_seen": 91333328,
+      "step": 42265
+    },
+    {
+      "epoch": 6.895595432300163,
+      "grad_norm": 0.3223811089992523,
+      "learning_rate": 0.0008283302427506966,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 91345264,
+      "step": 42270
+    },
+    {
+      "epoch": 6.896411092985318,
+      "grad_norm": 0.01046650018543005,
+      "learning_rate": 0.0008282765565752708,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 91356528,
+      "step": 42275
+    },
+    {
+      "epoch": 6.897226753670473,
+      "grad_norm": 0.13600951433181763,
+      "learning_rate": 0.0008282228637469042,
+      "loss": 0.1784,
+      "num_input_tokens_seen": 91365904,
+      "step": 42280
+    },
+    {
+      "epoch": 6.898042414355628,
+      "grad_norm": 0.11428900063037872,
+      "learning_rate": 0.0008281691642666848,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 91376528,
+      "step": 42285
+    },
+    {
+      "epoch": 6.898858075040783,
+      "grad_norm": 0.02441113069653511,
+      "learning_rate": 0.000828115458135701,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 91387376,
+      "step": 42290
+    },
+    {
+      "epoch": 6.899673735725938,
+      "grad_norm": 0.05587480589747429,
+      "learning_rate": 0.0008280617453550412,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 91398160,
+      "step": 42295
+    },
+    {
+      "epoch": 6.900489396411093,
+      "grad_norm": 0.1454855501651764,
+      "learning_rate": 0.0008280080259257939,
+      "loss": 0.2052,
+      "num_input_tokens_seen": 91409872,
+      "step": 42300
+    },
+    {
+      "epoch": 6.901305057096248,
+      "grad_norm": 0.046002261340618134,
+      "learning_rate": 0.0008279542998490479,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 91420752,
+      "step": 42305
+    },
+    {
+      "epoch": 6.902120717781403,
+      "grad_norm": 0.010383290238678455,
+      "learning_rate": 0.000827900567125892,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 91431632,
+      "step": 42310
+    },
+    {
+      "epoch": 6.902936378466558,
+      "grad_norm": 0.005426608491688967,
+      "learning_rate": 0.0008278468277574152,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 91441488,
+      "step": 42315
+    },
+    {
+      "epoch": 6.903752039151713,
+      "grad_norm": 0.1538834422826767,
+      "learning_rate": 0.0008277930817447063,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 91453040,
+      "step": 42320
+    },
+    {
+      "epoch": 6.904567699836868,
+      "grad_norm": 0.06816184520721436,
+      "learning_rate": 0.000827739329088855,
+      "loss": 0.0395,
+      "num_input_tokens_seen": 91463952,
+      "step": 42325
+    },
+    {
+      "epoch": 6.9053833605220225,
+      "grad_norm": 0.018162427470088005,
+      "learning_rate": 0.0008276855697909502,
+      "loss": 0.058,
+      "num_input_tokens_seen": 91475216,
+      "step": 42330
+    },
+    {
+      "epoch": 6.906199021207177,
+      "grad_norm": 0.26269209384918213,
+      "learning_rate": 0.0008276318038520818,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 91486160,
+      "step": 42335
+    },
+    {
+      "epoch": 6.907014681892333,
+      "grad_norm": 0.041546259075403214,
+      "learning_rate": 0.0008275780312733392,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 91496208,
+      "step": 42340
+    },
+    {
+      "epoch": 6.907830342577488,
+      "grad_norm": 0.037615060806274414,
+      "learning_rate": 0.0008275242520558124,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 91505520,
+      "step": 42345
+    },
+    {
+      "epoch": 6.908646003262643,
+      "grad_norm": 0.03843872621655464,
+      "learning_rate": 0.000827470466200591,
+      "loss": 0.03,
+      "num_input_tokens_seen": 91515312,
+      "step": 42350
+    },
+    {
+      "epoch": 6.9094616639477975,
+      "grad_norm": 0.023156536743044853,
+      "learning_rate": 0.0008274166737087652,
+      "loss": 0.4206,
+      "num_input_tokens_seen": 91525808,
+      "step": 42355
+    },
+    {
+      "epoch": 6.910277324632952,
+      "grad_norm": 0.04622017592191696,
+      "learning_rate": 0.000827362874581425,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 91536016,
+      "step": 42360
+    },
+    {
+      "epoch": 6.911092985318108,
+      "grad_norm": 0.08515045791864395,
+      "learning_rate": 0.000827309068819661,
+      "loss": 0.135,
+      "num_input_tokens_seen": 91546704,
+      "step": 42365
+    },
+    {
+      "epoch": 6.911908646003263,
+      "grad_norm": 0.034274887293577194,
+      "learning_rate": 0.0008272552564245635,
+      "loss": 0.068,
+      "num_input_tokens_seen": 91557552,
+      "step": 42370
+    },
+    {
+      "epoch": 6.912724306688418,
+      "grad_norm": 0.22742615640163422,
+      "learning_rate": 0.000827201437397223,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 91568080,
+      "step": 42375
+    },
+    {
+      "epoch": 6.9135399673735725,
+      "grad_norm": 0.06458600610494614,
+      "learning_rate": 0.0008271476117387303,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 91578384,
+      "step": 42380
+    },
+    {
+      "epoch": 6.914355628058727,
+      "grad_norm": 0.20055918395519257,
+      "learning_rate": 0.0008270937794501763,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 91589936,
+      "step": 42385
+    },
+    {
+      "epoch": 6.915171288743883,
+      "grad_norm": 0.07637903094291687,
+      "learning_rate": 0.0008270399405326519,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 91601392,
+      "step": 42390
+    },
+    {
+      "epoch": 6.915986949429038,
+      "grad_norm": 0.13277378678321838,
+      "learning_rate": 0.0008269860949872484,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 91613808,
+      "step": 42395
+    },
+    {
+      "epoch": 6.916802610114193,
+      "grad_norm": 0.1605086475610733,
+      "learning_rate": 0.0008269322428150565,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 91624400,
+      "step": 42400
+    },
+    {
+      "epoch": 6.917618270799347,
+      "grad_norm": 0.05308017507195473,
+      "learning_rate": 0.0008268783840171682,
+      "loss": 0.081,
+      "num_input_tokens_seen": 91635888,
+      "step": 42405
+    },
+    {
+      "epoch": 6.918433931484502,
+      "grad_norm": 0.027449732646346092,
+      "learning_rate": 0.0008268245185946748,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 91645488,
+      "step": 42410
+    },
+    {
+      "epoch": 6.919249592169657,
+      "grad_norm": 0.03316226229071617,
+      "learning_rate": 0.0008267706465486677,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 91655632,
+      "step": 42415
+    },
+    {
+      "epoch": 6.920065252854813,
+      "grad_norm": 0.10044834017753601,
+      "learning_rate": 0.000826716767880239,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 91666608,
+      "step": 42420
+    },
+    {
+      "epoch": 6.920880913539968,
+      "grad_norm": 0.33315449953079224,
+      "learning_rate": 0.0008266628825904807,
+      "loss": 0.1557,
+      "num_input_tokens_seen": 91676656,
+      "step": 42425
+    },
+    {
+      "epoch": 6.921696574225122,
+      "grad_norm": 0.21813486516475677,
+      "learning_rate": 0.0008266089906804845,
+      "loss": 0.2951,
+      "num_input_tokens_seen": 91688240,
+      "step": 42430
+    },
+    {
+      "epoch": 6.922512234910277,
+      "grad_norm": 0.002060960978269577,
+      "learning_rate": 0.0008265550921513428,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 91699632,
+      "step": 42435
+    },
+    {
+      "epoch": 6.923327895595432,
+      "grad_norm": 0.12456963211297989,
+      "learning_rate": 0.000826501187004148,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 91709744,
+      "step": 42440
+    },
+    {
+      "epoch": 6.924143556280587,
+      "grad_norm": 0.003388361306861043,
+      "learning_rate": 0.0008264472752399923,
+      "loss": 0.105,
+      "num_input_tokens_seen": 91719472,
+      "step": 42445
+    },
+    {
+      "epoch": 6.924959216965743,
+      "grad_norm": 0.4648321568965912,
+      "learning_rate": 0.0008263933568599687,
+      "loss": 0.298,
+      "num_input_tokens_seen": 91729776,
+      "step": 42450
+    },
+    {
+      "epoch": 6.925774877650897,
+      "grad_norm": 0.19051282107830048,
+      "learning_rate": 0.0008263394318651693,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 91740176,
+      "step": 42455
+    },
+    {
+      "epoch": 6.926590538336052,
+      "grad_norm": 0.07513487339019775,
+      "learning_rate": 0.0008262855002566876,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 91750288,
+      "step": 42460
+    },
+    {
+      "epoch": 6.927406199021207,
+      "grad_norm": 0.0671396404504776,
+      "learning_rate": 0.0008262315620356163,
+      "loss": 0.1645,
+      "num_input_tokens_seen": 91762000,
+      "step": 42465
+    },
+    {
+      "epoch": 6.928221859706362,
+      "grad_norm": 0.04479534178972244,
+      "learning_rate": 0.0008261776172030484,
+      "loss": 0.049,
+      "num_input_tokens_seen": 91771760,
+      "step": 42470
+    },
+    {
+      "epoch": 6.9290375203915175,
+      "grad_norm": 0.007520393934100866,
+      "learning_rate": 0.0008261236657600773,
+      "loss": 0.075,
+      "num_input_tokens_seen": 91781936,
+      "step": 42475
+    },
+    {
+      "epoch": 6.929853181076672,
+      "grad_norm": 0.019585467875003815,
+      "learning_rate": 0.0008260697077077964,
+      "loss": 0.1323,
+      "num_input_tokens_seen": 91793264,
+      "step": 42480
+    },
+    {
+      "epoch": 6.930668841761827,
+      "grad_norm": 0.13702279329299927,
+      "learning_rate": 0.0008260157430472992,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 91803824,
+      "step": 42485
+    },
+    {
+      "epoch": 6.931484502446982,
+      "grad_norm": 0.01728702522814274,
+      "learning_rate": 0.0008259617717796795,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 91814384,
+      "step": 42490
+    },
+    {
+      "epoch": 6.932300163132137,
+      "grad_norm": 0.042796917259693146,
+      "learning_rate": 0.0008259077939060309,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 91823920,
+      "step": 42495
+    },
+    {
+      "epoch": 6.933115823817292,
+      "grad_norm": 0.02835630439221859,
+      "learning_rate": 0.0008258538094274475,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 91834640,
+      "step": 42500
+    },
+    {
+      "epoch": 6.933931484502447,
+      "grad_norm": 0.0981273278594017,
+      "learning_rate": 0.0008257998183450233,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 91845968,
+      "step": 42505
+    },
+    {
+      "epoch": 6.934747145187602,
+      "grad_norm": 0.02087876945734024,
+      "learning_rate": 0.0008257458206598524,
+      "loss": 0.1194,
+      "num_input_tokens_seen": 91856464,
+      "step": 42510
+    },
+    {
+      "epoch": 6.935562805872757,
+      "grad_norm": 0.04924190044403076,
+      "learning_rate": 0.0008256918163730291,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 91867984,
+      "step": 42515
+    },
+    {
+      "epoch": 6.936378466557912,
+      "grad_norm": 0.23019491136074066,
+      "learning_rate": 0.0008256378054856482,
+      "loss": 0.1184,
+      "num_input_tokens_seen": 91878576,
+      "step": 42520
+    },
+    {
+      "epoch": 6.937194127243067,
+      "grad_norm": 0.025902308523654938,
+      "learning_rate": 0.000825583787998804,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 91888176,
+      "step": 42525
+    },
+    {
+      "epoch": 6.938009787928221,
+      "grad_norm": 0.02752247266471386,
+      "learning_rate": 0.0008255297639135912,
+      "loss": 0.176,
+      "num_input_tokens_seen": 91901104,
+      "step": 42530
+    },
+    {
+      "epoch": 6.938825448613377,
+      "grad_norm": 0.1430131047964096,
+      "learning_rate": 0.000825475733231105,
+      "loss": 0.05,
+      "num_input_tokens_seen": 91911920,
+      "step": 42535
+    },
+    {
+      "epoch": 6.939641109298532,
+      "grad_norm": 0.1026284396648407,
+      "learning_rate": 0.0008254216959524399,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 91922512,
+      "step": 42540
+    },
+    {
+      "epoch": 6.940456769983687,
+      "grad_norm": 0.035261936485767365,
+      "learning_rate": 0.0008253676520786914,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 91934224,
+      "step": 42545
+    },
+    {
+      "epoch": 6.941272430668842,
+      "grad_norm": 0.02183767594397068,
+      "learning_rate": 0.0008253136016109547,
+      "loss": 0.0493,
+      "num_input_tokens_seen": 91944592,
+      "step": 42550
+    },
+    {
+      "epoch": 6.942088091353996,
+      "grad_norm": 0.09058975428342819,
+      "learning_rate": 0.0008252595445503253,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 91955024,
+      "step": 42555
+    },
+    {
+      "epoch": 6.942903752039152,
+      "grad_norm": 0.1628194898366928,
+      "learning_rate": 0.0008252054808978984,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 91963696,
+      "step": 42560
+    },
+    {
+      "epoch": 6.943719412724307,
+      "grad_norm": 0.07157375663518906,
+      "learning_rate": 0.0008251514106547698,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 91973936,
+      "step": 42565
+    },
+    {
+      "epoch": 6.944535073409462,
+      "grad_norm": 0.06799112260341644,
+      "learning_rate": 0.0008250973338220356,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 91984080,
+      "step": 42570
+    },
+    {
+      "epoch": 6.945350734094617,
+      "grad_norm": 0.06843625754117966,
+      "learning_rate": 0.0008250432504007914,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 91994800,
+      "step": 42575
+    },
+    {
+      "epoch": 6.946166394779771,
+      "grad_norm": 0.07280784845352173,
+      "learning_rate": 0.0008249891603921334,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 92006160,
+      "step": 42580
+    },
+    {
+      "epoch": 6.946982055464927,
+      "grad_norm": 0.016119126230478287,
+      "learning_rate": 0.0008249350637971577,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 92017520,
+      "step": 42585
+    },
+    {
+      "epoch": 6.947797716150082,
+      "grad_norm": 0.26134583353996277,
+      "learning_rate": 0.0008248809606169609,
+      "loss": 0.1383,
+      "num_input_tokens_seen": 92028400,
+      "step": 42590
+    },
+    {
+      "epoch": 6.948613376835237,
+      "grad_norm": 0.30048561096191406,
+      "learning_rate": 0.0008248268508526393,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 92040368,
+      "step": 42595
+    },
+    {
+      "epoch": 6.9494290375203915,
+      "grad_norm": 0.0028530319686979055,
+      "learning_rate": 0.0008247727345052894,
+      "loss": 0.054,
+      "num_input_tokens_seen": 92049968,
+      "step": 42600
+    },
+    {
+      "epoch": 6.950244698205546,
+      "grad_norm": 0.08610218018293381,
+      "learning_rate": 0.000824718611576008,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 92059536,
+      "step": 42605
+    },
+    {
+      "epoch": 6.951060358890701,
+      "grad_norm": 0.01567983254790306,
+      "learning_rate": 0.0008246644820658922,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 92070352,
+      "step": 42610
+    },
+    {
+      "epoch": 6.951876019575856,
+      "grad_norm": 0.022035297006368637,
+      "learning_rate": 0.0008246103459760385,
+      "loss": 0.054,
+      "num_input_tokens_seen": 92081584,
+      "step": 42615
+    },
+    {
+      "epoch": 6.952691680261012,
+      "grad_norm": 0.2599090337753296,
+      "learning_rate": 0.0008245562033075446,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 92092880,
+      "step": 42620
+    },
+    {
+      "epoch": 6.9535073409461665,
+      "grad_norm": 0.0031842731405049562,
+      "learning_rate": 0.0008245020540615074,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 92104368,
+      "step": 42625
+    },
+    {
+      "epoch": 6.954323001631321,
+      "grad_norm": 0.11851377040147781,
+      "learning_rate": 0.0008244478982390245,
+      "loss": 0.141,
+      "num_input_tokens_seen": 92115152,
+      "step": 42630
+    },
+    {
+      "epoch": 6.955138662316476,
+      "grad_norm": 0.03890161216259003,
+      "learning_rate": 0.0008243937358411933,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 92126352,
+      "step": 42635
+    },
+    {
+      "epoch": 6.955954323001631,
+      "grad_norm": 0.012479268014431,
+      "learning_rate": 0.0008243395668691113,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 92137488,
+      "step": 42640
+    },
+    {
+      "epoch": 6.956769983686787,
+      "grad_norm": 0.21884118020534515,
+      "learning_rate": 0.0008242853913238769,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 92148976,
+      "step": 42645
+    },
+    {
+      "epoch": 6.9575856443719415,
+      "grad_norm": 0.044424448162317276,
+      "learning_rate": 0.0008242312092065873,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 92158896,
+      "step": 42650
+    },
+    {
+      "epoch": 6.958401305057096,
+      "grad_norm": 0.008710110560059547,
+      "learning_rate": 0.0008241770205183412,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 92169552,
+      "step": 42655
+    },
+    {
+      "epoch": 6.959216965742251,
+      "grad_norm": 0.12920400500297546,
+      "learning_rate": 0.0008241228252602364,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 92179792,
+      "step": 42660
+    },
+    {
+      "epoch": 6.960032626427406,
+      "grad_norm": 0.11128882318735123,
+      "learning_rate": 0.0008240686234333714,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 92190416,
+      "step": 42665
+    },
+    {
+      "epoch": 6.960848287112562,
+      "grad_norm": 0.11121262609958649,
+      "learning_rate": 0.0008240144150388446,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 92201456,
+      "step": 42670
+    },
+    {
+      "epoch": 6.9616639477977165,
+      "grad_norm": 0.019484156742691994,
+      "learning_rate": 0.0008239602000777548,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 92213072,
+      "step": 42675
+    },
+    {
+      "epoch": 6.962479608482871,
+      "grad_norm": 0.01814747042953968,
+      "learning_rate": 0.0008239059785512005,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 92223632,
+      "step": 42680
+    },
+    {
+      "epoch": 6.963295269168026,
+      "grad_norm": 0.33034294843673706,
+      "learning_rate": 0.0008238517504602805,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 92234960,
+      "step": 42685
+    },
+    {
+      "epoch": 6.964110929853181,
+      "grad_norm": 0.026794755831360817,
+      "learning_rate": 0.0008237975158060939,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 92245712,
+      "step": 42690
+    },
+    {
+      "epoch": 6.964926590538336,
+      "grad_norm": 0.22729530930519104,
+      "learning_rate": 0.0008237432745897402,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 92256784,
+      "step": 42695
+    },
+    {
+      "epoch": 6.9657422512234906,
+      "grad_norm": 0.009565351530909538,
+      "learning_rate": 0.000823689026812318,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 92265936,
+      "step": 42700
+    },
+    {
+      "epoch": 6.966557911908646,
+      "grad_norm": 0.05226115137338638,
+      "learning_rate": 0.0008236347724749274,
+      "loss": 0.2109,
+      "num_input_tokens_seen": 92276464,
+      "step": 42705
+    },
+    {
+      "epoch": 6.967373572593801,
+      "grad_norm": 0.2930293083190918,
+      "learning_rate": 0.0008235805115786672,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 92287664,
+      "step": 42710
+    },
+    {
+      "epoch": 6.968189233278956,
+      "grad_norm": 0.1569661796092987,
+      "learning_rate": 0.0008235262441246376,
+      "loss": 0.2314,
+      "num_input_tokens_seen": 92296976,
+      "step": 42715
+    },
+    {
+      "epoch": 6.969004893964111,
+      "grad_norm": 0.2670922875404358,
+      "learning_rate": 0.0008234719701139384,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 92307184,
+      "step": 42720
+    },
+    {
+      "epoch": 6.9698205546492655,
+      "grad_norm": 0.004752719309180975,
+      "learning_rate": 0.0008234176895476692,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 92318128,
+      "step": 42725
+    },
+    {
+      "epoch": 6.970636215334421,
+      "grad_norm": 0.012683387845754623,
+      "learning_rate": 0.0008233634024269302,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 92329744,
+      "step": 42730
+    },
+    {
+      "epoch": 6.971451876019576,
+      "grad_norm": 0.032268162816762924,
+      "learning_rate": 0.0008233091087528217,
+      "loss": 0.098,
+      "num_input_tokens_seen": 92340720,
+      "step": 42735
+    },
+    {
+      "epoch": 6.972267536704731,
+      "grad_norm": 0.19561608135700226,
+      "learning_rate": 0.000823254808526444,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 92351248,
+      "step": 42740
+    },
+    {
+      "epoch": 6.973083197389886,
+      "grad_norm": 0.021456921473145485,
+      "learning_rate": 0.0008232005017488975,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 92361680,
+      "step": 42745
+    },
+    {
+      "epoch": 6.9738988580750405,
+      "grad_norm": 0.11003857105970383,
+      "learning_rate": 0.0008231461884212828,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 92373616,
+      "step": 42750
+    },
+    {
+      "epoch": 6.974714518760196,
+      "grad_norm": 0.07811323553323746,
+      "learning_rate": 0.0008230918685447006,
+      "loss": 0.0345,
+      "num_input_tokens_seen": 92384464,
+      "step": 42755
+    },
+    {
+      "epoch": 6.975530179445351,
+      "grad_norm": 0.02601797506213188,
+      "learning_rate": 0.000823037542120252,
+      "loss": 0.0467,
+      "num_input_tokens_seen": 92395984,
+      "step": 42760
+    },
+    {
+      "epoch": 6.976345840130506,
+      "grad_norm": 0.01498804334551096,
+      "learning_rate": 0.0008229832091490377,
+      "loss": 0.1297,
+      "num_input_tokens_seen": 92407120,
+      "step": 42765
+    },
+    {
+      "epoch": 6.977161500815661,
+      "grad_norm": 0.09473436325788498,
+      "learning_rate": 0.0008229288696321588,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 92417296,
+      "step": 42770
+    },
+    {
+      "epoch": 6.9779771615008155,
+      "grad_norm": 0.05961019545793533,
+      "learning_rate": 0.0008228745235707169,
+      "loss": 0.0963,
+      "num_input_tokens_seen": 92428240,
+      "step": 42775
+    },
+    {
+      "epoch": 6.97879282218597,
+      "grad_norm": 0.012499609962105751,
+      "learning_rate": 0.000822820170965813,
+      "loss": 0.2952,
+      "num_input_tokens_seen": 92438864,
+      "step": 42780
+    },
+    {
+      "epoch": 6.979608482871125,
+      "grad_norm": 0.03288532793521881,
+      "learning_rate": 0.0008227658118185491,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 92449424,
+      "step": 42785
+    },
+    {
+      "epoch": 6.980424143556281,
+      "grad_norm": 0.16200962662696838,
+      "learning_rate": 0.0008227114461300262,
+      "loss": 0.092,
+      "num_input_tokens_seen": 92460016,
+      "step": 42790
+    },
+    {
+      "epoch": 6.981239804241436,
+      "grad_norm": 0.03325765207409859,
+      "learning_rate": 0.0008226570739013466,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 92472336,
+      "step": 42795
+    },
+    {
+      "epoch": 6.9820554649265905,
+      "grad_norm": 0.06443525105714798,
+      "learning_rate": 0.0008226026951336121,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 92482576,
+      "step": 42800
+    },
+    {
+      "epoch": 6.982871125611745,
+      "grad_norm": 0.09831217676401138,
+      "learning_rate": 0.0008225483098279247,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 92494160,
+      "step": 42805
+    },
+    {
+      "epoch": 6.9836867862969,
+      "grad_norm": 0.061349742114543915,
+      "learning_rate": 0.0008224939179853868,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 92504432,
+      "step": 42810
+    },
+    {
+      "epoch": 6.984502446982056,
+      "grad_norm": 0.01365916058421135,
+      "learning_rate": 0.0008224395196071003,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 92514576,
+      "step": 42815
+    },
+    {
+      "epoch": 6.985318107667211,
+      "grad_norm": 0.06067565083503723,
+      "learning_rate": 0.000822385114694168,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 92525648,
+      "step": 42820
+    },
+    {
+      "epoch": 6.986133768352365,
+      "grad_norm": 0.0380895771086216,
+      "learning_rate": 0.0008223307032476923,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 92535248,
+      "step": 42825
+    },
+    {
+      "epoch": 6.98694942903752,
+      "grad_norm": 0.008909545838832855,
+      "learning_rate": 0.0008222762852687762,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 92546800,
+      "step": 42830
+    },
+    {
+      "epoch": 6.987765089722675,
+      "grad_norm": 0.04149286076426506,
+      "learning_rate": 0.0008222218607585221,
+      "loss": 0.056,
+      "num_input_tokens_seen": 92557584,
+      "step": 42835
+    },
+    {
+      "epoch": 6.988580750407831,
+      "grad_norm": 0.02532074600458145,
+      "learning_rate": 0.0008221674297180334,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 92567184,
+      "step": 42840
+    },
+    {
+      "epoch": 6.989396411092986,
+      "grad_norm": 0.28405627608299255,
+      "learning_rate": 0.000822112992148413,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 92576880,
+      "step": 42845
+    },
+    {
+      "epoch": 6.99021207177814,
+      "grad_norm": 0.08372216671705246,
+      "learning_rate": 0.000822058548050764,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 92588368,
+      "step": 42850
+    },
+    {
+      "epoch": 6.991027732463295,
+      "grad_norm": 0.01633065938949585,
+      "learning_rate": 0.0008220040974261901,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 92598992,
+      "step": 42855
+    },
+    {
+      "epoch": 6.99184339314845,
+      "grad_norm": 0.004168565850704908,
+      "learning_rate": 0.0008219496402757948,
+      "loss": 0.0553,
+      "num_input_tokens_seen": 92609904,
+      "step": 42860
+    },
+    {
+      "epoch": 6.992659053833605,
+      "grad_norm": 0.030385682359337807,
+      "learning_rate": 0.0008218951766006815,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 92621360,
+      "step": 42865
+    },
+    {
+      "epoch": 6.993474714518761,
+      "grad_norm": 0.044751256704330444,
+      "learning_rate": 0.0008218407064019541,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 92631312,
+      "step": 42870
+    },
+    {
+      "epoch": 6.994290375203915,
+      "grad_norm": 0.004565827082842588,
+      "learning_rate": 0.0008217862296807165,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 92641584,
+      "step": 42875
+    },
+    {
+      "epoch": 6.99510603588907,
+      "grad_norm": 0.019839083775877953,
+      "learning_rate": 0.0008217317464380727,
+      "loss": 0.1736,
+      "num_input_tokens_seen": 92651824,
+      "step": 42880
+    },
+    {
+      "epoch": 6.995921696574225,
+      "grad_norm": 0.013745338656008244,
+      "learning_rate": 0.0008216772566751269,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 92662384,
+      "step": 42885
+    },
+    {
+      "epoch": 6.99673735725938,
+      "grad_norm": 0.012423294596374035,
+      "learning_rate": 0.0008216227603929835,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 92673008,
+      "step": 42890
+    },
+    {
+      "epoch": 6.997553017944535,
+      "grad_norm": 0.1849156767129898,
+      "learning_rate": 0.0008215682575927468,
+      "loss": 0.056,
+      "num_input_tokens_seen": 92683568,
+      "step": 42895
+    },
+    {
+      "epoch": 6.99836867862969,
+      "grad_norm": 0.08922215551137924,
+      "learning_rate": 0.0008215137482755215,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 92693392,
+      "step": 42900
+    },
+    {
+      "epoch": 6.999184339314845,
+      "grad_norm": 0.04565683752298355,
+      "learning_rate": 0.0008214592324424122,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 92704240,
+      "step": 42905
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.013504397124052048,
+      "learning_rate": 0.0008214047100945236,
+      "loss": 0.1325,
+      "num_input_tokens_seen": 92713360,
+      "step": 42910
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.13006359338760376,
+      "eval_runtime": 103.5374,
+      "eval_samples_per_second": 26.319,
+      "eval_steps_per_second": 6.587,
+      "num_input_tokens_seen": 92713360,
+      "step": 42910
+    },
+    {
+      "epoch": 7.000815660685155,
+      "grad_norm": 0.3289978504180908,
+      "learning_rate": 0.0008213501812329609,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 92724208,
+      "step": 42915
+    },
+    {
+      "epoch": 7.00163132137031,
+      "grad_norm": 0.3054993748664856,
+      "learning_rate": 0.0008212956458588292,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 92735600,
+      "step": 42920
+    },
+    {
+      "epoch": 7.002446982055465,
+      "grad_norm": 0.027686649933457375,
+      "learning_rate": 0.0008212411039732336,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 92746544,
+      "step": 42925
+    },
+    {
+      "epoch": 7.00326264274062,
+      "grad_norm": 0.08517606556415558,
+      "learning_rate": 0.0008211865555772795,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 92756912,
+      "step": 42930
+    },
+    {
+      "epoch": 7.004078303425775,
+      "grad_norm": 0.006800774950534105,
+      "learning_rate": 0.0008211320006720723,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 92767504,
+      "step": 42935
+    },
+    {
+      "epoch": 7.00489396411093,
+      "grad_norm": 0.02842605859041214,
+      "learning_rate": 0.000821077439258718,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 92778064,
+      "step": 42940
+    },
+    {
+      "epoch": 7.005709624796085,
+      "grad_norm": 0.005044872872531414,
+      "learning_rate": 0.0008210228713383218,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 92788784,
+      "step": 42945
+    },
+    {
+      "epoch": 7.006525285481239,
+      "grad_norm": 0.06589864194393158,
+      "learning_rate": 0.00082096829691199,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 92800144,
+      "step": 42950
+    },
+    {
+      "epoch": 7.007340946166395,
+      "grad_norm": 0.11859538406133652,
+      "learning_rate": 0.0008209137159808284,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 92809744,
+      "step": 42955
+    },
+    {
+      "epoch": 7.00815660685155,
+      "grad_norm": 0.0624762699007988,
+      "learning_rate": 0.0008208591285459434,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 92820240,
+      "step": 42960
+    },
+    {
+      "epoch": 7.008972267536705,
+      "grad_norm": 0.35461515188217163,
+      "learning_rate": 0.0008208045346084409,
+      "loss": 0.2508,
+      "num_input_tokens_seen": 92831984,
+      "step": 42965
+    },
+    {
+      "epoch": 7.00978792822186,
+      "grad_norm": 0.18568821251392365,
+      "learning_rate": 0.0008207499341694278,
+      "loss": 0.1936,
+      "num_input_tokens_seen": 92842928,
+      "step": 42970
+    },
+    {
+      "epoch": 7.010603588907014,
+      "grad_norm": 0.09701191633939743,
+      "learning_rate": 0.0008206953272300102,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 92853776,
+      "step": 42975
+    },
+    {
+      "epoch": 7.011419249592169,
+      "grad_norm": 0.010077468119561672,
+      "learning_rate": 0.000820640713791295,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 92863856,
+      "step": 42980
+    },
+    {
+      "epoch": 7.012234910277325,
+      "grad_norm": 0.43398287892341614,
+      "learning_rate": 0.000820586093854389,
+      "loss": 0.129,
+      "num_input_tokens_seen": 92874992,
+      "step": 42985
+    },
+    {
+      "epoch": 7.01305057096248,
+      "grad_norm": 0.028587957844138145,
+      "learning_rate": 0.0008205314674203989,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 92886704,
+      "step": 42990
+    },
+    {
+      "epoch": 7.013866231647635,
+      "grad_norm": 0.03041784279048443,
+      "learning_rate": 0.0008204768344904323,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 92897328,
+      "step": 42995
+    },
+    {
+      "epoch": 7.014681892332789,
+      "grad_norm": 0.008256292901933193,
+      "learning_rate": 0.0008204221950655959,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 92909616,
+      "step": 43000
+    },
+    {
+      "epoch": 7.015497553017944,
+      "grad_norm": 0.028076890856027603,
+      "learning_rate": 0.0008203675491469973,
+      "loss": 0.123,
+      "num_input_tokens_seen": 92920976,
+      "step": 43005
+    },
+    {
+      "epoch": 7.0163132137031,
+      "grad_norm": 0.0032557565718889236,
+      "learning_rate": 0.0008203128967357438,
+      "loss": 0.0525,
+      "num_input_tokens_seen": 92933200,
+      "step": 43010
+    },
+    {
+      "epoch": 7.017128874388255,
+      "grad_norm": 0.006004045717418194,
+      "learning_rate": 0.0008202582378329433,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 92944688,
+      "step": 43015
+    },
+    {
+      "epoch": 7.0179445350734095,
+      "grad_norm": 0.025199543684720993,
+      "learning_rate": 0.0008202035724397032,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 92954704,
+      "step": 43020
+    },
+    {
+      "epoch": 7.018760195758564,
+      "grad_norm": 0.008000586181879044,
+      "learning_rate": 0.0008201489005571316,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 92966096,
+      "step": 43025
+    },
+    {
+      "epoch": 7.019575856443719,
+      "grad_norm": 0.17397743463516235,
+      "learning_rate": 0.0008200942221863363,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 92977360,
+      "step": 43030
+    },
+    {
+      "epoch": 7.020391517128874,
+      "grad_norm": 0.0518217608332634,
+      "learning_rate": 0.0008200395373284255,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 92988400,
+      "step": 43035
+    },
+    {
+      "epoch": 7.02120717781403,
+      "grad_norm": 0.02842766046524048,
+      "learning_rate": 0.0008199848459845077,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 92998480,
+      "step": 43040
+    },
+    {
+      "epoch": 7.0220228384991845,
+      "grad_norm": 0.1324327141046524,
+      "learning_rate": 0.0008199301481556907,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 93009616,
+      "step": 43045
+    },
+    {
+      "epoch": 7.022838499184339,
+      "grad_norm": 0.07451920211315155,
+      "learning_rate": 0.0008198754438430836,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 93019312,
+      "step": 43050
+    },
+    {
+      "epoch": 7.023654159869494,
+      "grad_norm": 0.12650872766971588,
+      "learning_rate": 0.000819820733047795,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 93030160,
+      "step": 43055
+    },
+    {
+      "epoch": 7.024469820554649,
+      "grad_norm": 0.004953624680638313,
+      "learning_rate": 0.0008197660157709333,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 93040112,
+      "step": 43060
+    },
+    {
+      "epoch": 7.025285481239805,
+      "grad_norm": 0.40456417202949524,
+      "learning_rate": 0.0008197112920136076,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 93051760,
+      "step": 43065
+    },
+    {
+      "epoch": 7.0261011419249595,
+      "grad_norm": 0.2973378598690033,
+      "learning_rate": 0.000819656561776927,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 93063024,
+      "step": 43070
+    },
+    {
+      "epoch": 7.026916802610114,
+      "grad_norm": 0.14938867092132568,
+      "learning_rate": 0.0008196018250620008,
+      "loss": 0.081,
+      "num_input_tokens_seen": 93073008,
+      "step": 43075
+    },
+    {
+      "epoch": 7.027732463295269,
+      "grad_norm": 0.22964538633823395,
+      "learning_rate": 0.0008195470818699381,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 93083664,
+      "step": 43080
+    },
+    {
+      "epoch": 7.028548123980424,
+      "grad_norm": 0.28837212920188904,
+      "learning_rate": 0.0008194923322018484,
+      "loss": 0.1966,
+      "num_input_tokens_seen": 93092880,
+      "step": 43085
+    },
+    {
+      "epoch": 7.029363784665579,
+      "grad_norm": 0.2682326138019562,
+      "learning_rate": 0.0008194375760588413,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 93103504,
+      "step": 43090
+    },
+    {
+      "epoch": 7.0301794453507345,
+      "grad_norm": 0.04698742553591728,
+      "learning_rate": 0.0008193828134420265,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 93116016,
+      "step": 43095
+    },
+    {
+      "epoch": 7.030995106035889,
+      "grad_norm": 0.007682493422180414,
+      "learning_rate": 0.0008193280443525138,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 93128048,
+      "step": 43100
+    },
+    {
+      "epoch": 7.031810766721044,
+      "grad_norm": 0.13157765567302704,
+      "learning_rate": 0.0008192732687914131,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 93139440,
+      "step": 43105
+    },
+    {
+      "epoch": 7.032626427406199,
+      "grad_norm": 0.20668326318264008,
+      "learning_rate": 0.0008192184867598347,
+      "loss": 0.1582,
+      "num_input_tokens_seen": 93150352,
+      "step": 43110
+    },
+    {
+      "epoch": 7.033442088091354,
+      "grad_norm": 0.005746053997427225,
+      "learning_rate": 0.0008191636982588887,
+      "loss": 0.1208,
+      "num_input_tokens_seen": 93160432,
+      "step": 43115
+    },
+    {
+      "epoch": 7.034257748776509,
+      "grad_norm": 0.14109240472316742,
+      "learning_rate": 0.0008191089032896855,
+      "loss": 0.11,
+      "num_input_tokens_seen": 93169936,
+      "step": 43120
+    },
+    {
+      "epoch": 7.035073409461664,
+      "grad_norm": 0.03715949505567551,
+      "learning_rate": 0.0008190541018533353,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 93181264,
+      "step": 43125
+    },
+    {
+      "epoch": 7.035889070146819,
+      "grad_norm": 0.027663471177220345,
+      "learning_rate": 0.0008189992939509491,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 93192624,
+      "step": 43130
+    },
+    {
+      "epoch": 7.036704730831974,
+      "grad_norm": 0.14800049364566803,
+      "learning_rate": 0.0008189444795836377,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 93202608,
+      "step": 43135
+    },
+    {
+      "epoch": 7.037520391517129,
+      "grad_norm": 0.024344148114323616,
+      "learning_rate": 0.0008188896587525118,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 93214096,
+      "step": 43140
+    },
+    {
+      "epoch": 7.0383360522022835,
+      "grad_norm": 0.1449653059244156,
+      "learning_rate": 0.0008188348314586823,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 93223856,
+      "step": 43145
+    },
+    {
+      "epoch": 7.039151712887439,
+      "grad_norm": 0.017205238342285156,
+      "learning_rate": 0.0008187799977032605,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 93234576,
+      "step": 43150
+    },
+    {
+      "epoch": 7.039967373572594,
+      "grad_norm": 0.3828336298465729,
+      "learning_rate": 0.0008187251574873576,
+      "loss": 0.2549,
+      "num_input_tokens_seen": 93245968,
+      "step": 43155
+    },
+    {
+      "epoch": 7.040783034257749,
+      "grad_norm": 0.40320709347724915,
+      "learning_rate": 0.0008186703108120852,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 93255728,
+      "step": 43160
+    },
+    {
+      "epoch": 7.041598694942904,
+      "grad_norm": 0.03069511242210865,
+      "learning_rate": 0.0008186154576785545,
+      "loss": 0.1759,
+      "num_input_tokens_seen": 93265328,
+      "step": 43165
+    },
+    {
+      "epoch": 7.0424143556280585,
+      "grad_norm": 0.0060121663846075535,
+      "learning_rate": 0.0008185605980878775,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 93276048,
+      "step": 43170
+    },
+    {
+      "epoch": 7.043230016313213,
+      "grad_norm": 0.18002556264400482,
+      "learning_rate": 0.0008185057320411658,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 93286736,
+      "step": 43175
+    },
+    {
+      "epoch": 7.044045676998369,
+      "grad_norm": 0.02318798191845417,
+      "learning_rate": 0.0008184508595395314,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 93297040,
+      "step": 43180
+    },
+    {
+      "epoch": 7.044861337683524,
+      "grad_norm": 0.02688850648701191,
+      "learning_rate": 0.0008183959805840863,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 93307472,
+      "step": 43185
+    },
+    {
+      "epoch": 7.045676998368679,
+      "grad_norm": 0.23760437965393066,
+      "learning_rate": 0.0008183410951759429,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 93319280,
+      "step": 43190
+    },
+    {
+      "epoch": 7.0464926590538335,
+      "grad_norm": 0.016625650227069855,
+      "learning_rate": 0.0008182862033162131,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 93330128,
+      "step": 43195
+    },
+    {
+      "epoch": 7.047308319738988,
+      "grad_norm": 0.004090285860002041,
+      "learning_rate": 0.0008182313050060098,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 93341776,
+      "step": 43200
+    },
+    {
+      "epoch": 7.048123980424143,
+      "grad_norm": 0.14525869488716125,
+      "learning_rate": 0.0008181764002464454,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 93353008,
+      "step": 43205
+    },
+    {
+      "epoch": 7.048939641109299,
+      "grad_norm": 0.1771831512451172,
+      "learning_rate": 0.0008181214890386326,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 93363664,
+      "step": 43210
+    },
+    {
+      "epoch": 7.049755301794454,
+      "grad_norm": 0.11869829148054123,
+      "learning_rate": 0.0008180665713836842,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 93374000,
+      "step": 43215
+    },
+    {
+      "epoch": 7.0505709624796085,
+      "grad_norm": 0.012297256849706173,
+      "learning_rate": 0.0008180116472827133,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 93384368,
+      "step": 43220
+    },
+    {
+      "epoch": 7.051386623164763,
+      "grad_norm": 0.07448185235261917,
+      "learning_rate": 0.000817956716736833,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 93396080,
+      "step": 43225
+    },
+    {
+      "epoch": 7.052202283849918,
+      "grad_norm": 0.019102323800325394,
+      "learning_rate": 0.0008179017797471562,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 93407728,
+      "step": 43230
+    },
+    {
+      "epoch": 7.053017944535074,
+      "grad_norm": 0.04259370639920235,
+      "learning_rate": 0.0008178468363147968,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 93419024,
+      "step": 43235
+    },
+    {
+      "epoch": 7.053833605220229,
+      "grad_norm": 0.0029630782082676888,
+      "learning_rate": 0.000817791886440868,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 93429040,
+      "step": 43240
+    },
+    {
+      "epoch": 7.054649265905383,
+      "grad_norm": 0.01488267257809639,
+      "learning_rate": 0.0008177369301264834,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 93439312,
+      "step": 43245
+    },
+    {
+      "epoch": 7.055464926590538,
+      "grad_norm": 0.032309968024492264,
+      "learning_rate": 0.0008176819673727569,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 93451312,
+      "step": 43250
+    },
+    {
+      "epoch": 7.056280587275693,
+      "grad_norm": 0.18661397695541382,
+      "learning_rate": 0.0008176269981808023,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 93462576,
+      "step": 43255
+    },
+    {
+      "epoch": 7.057096247960848,
+      "grad_norm": 0.31488245725631714,
+      "learning_rate": 0.0008175720225517337,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 93472656,
+      "step": 43260
+    },
+    {
+      "epoch": 7.057911908646004,
+      "grad_norm": 0.2543412148952484,
+      "learning_rate": 0.0008175170404866652,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 93483024,
+      "step": 43265
+    },
+    {
+      "epoch": 7.058727569331158,
+      "grad_norm": 0.00109146349132061,
+      "learning_rate": 0.0008174620519867109,
+      "loss": 0.074,
+      "num_input_tokens_seen": 93493712,
+      "step": 43270
+    },
+    {
+      "epoch": 7.059543230016313,
+      "grad_norm": 0.021653829142451286,
+      "learning_rate": 0.0008174070570529854,
+      "loss": 0.098,
+      "num_input_tokens_seen": 93505040,
+      "step": 43275
+    },
+    {
+      "epoch": 7.060358890701468,
+      "grad_norm": 0.2788853943347931,
+      "learning_rate": 0.0008173520556866035,
+      "loss": 0.1521,
+      "num_input_tokens_seen": 93516528,
+      "step": 43280
+    },
+    {
+      "epoch": 7.061174551386623,
+      "grad_norm": 0.01834874600172043,
+      "learning_rate": 0.0008172970478886794,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 93528688,
+      "step": 43285
+    },
+    {
+      "epoch": 7.061990212071779,
+      "grad_norm": 0.020214732736349106,
+      "learning_rate": 0.0008172420336603281,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 93540112,
+      "step": 43290
+    },
+    {
+      "epoch": 7.062805872756933,
+      "grad_norm": 0.21407492458820343,
+      "learning_rate": 0.0008171870130026646,
+      "loss": 0.2408,
+      "num_input_tokens_seen": 93550608,
+      "step": 43295
+    },
+    {
+      "epoch": 7.063621533442088,
+      "grad_norm": 0.04193660989403725,
+      "learning_rate": 0.000817131985916804,
+      "loss": 0.012,
+      "num_input_tokens_seen": 93561232,
+      "step": 43300
+    },
+    {
+      "epoch": 7.064437194127243,
+      "grad_norm": 0.1706007868051529,
+      "learning_rate": 0.0008170769524038613,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 93572272,
+      "step": 43305
+    },
+    {
+      "epoch": 7.065252854812398,
+      "grad_norm": 0.007401083130389452,
+      "learning_rate": 0.0008170219124649518,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 93583376,
+      "step": 43310
+    },
+    {
+      "epoch": 7.066068515497553,
+      "grad_norm": 0.014208367094397545,
+      "learning_rate": 0.0008169668661011912,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 93592624,
+      "step": 43315
+    },
+    {
+      "epoch": 7.066884176182708,
+      "grad_norm": 0.11837077885866165,
+      "learning_rate": 0.0008169118133136951,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 93602864,
+      "step": 43320
+    },
+    {
+      "epoch": 7.067699836867863,
+      "grad_norm": 0.021076519042253494,
+      "learning_rate": 0.0008168567541035788,
+      "loss": 0.24,
+      "num_input_tokens_seen": 93613072,
+      "step": 43325
+    },
+    {
+      "epoch": 7.068515497553018,
+      "grad_norm": 0.30501484870910645,
+      "learning_rate": 0.0008168016884719585,
+      "loss": 0.1192,
+      "num_input_tokens_seen": 93624016,
+      "step": 43330
+    },
+    {
+      "epoch": 7.069331158238173,
+      "grad_norm": 0.02154276892542839,
+      "learning_rate": 0.0008167466164199499,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 93635216,
+      "step": 43335
+    },
+    {
+      "epoch": 7.070146818923328,
+      "grad_norm": 0.006805689074099064,
+      "learning_rate": 0.0008166915379486697,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 93646320,
+      "step": 43340
+    },
+    {
+      "epoch": 7.0709624796084825,
+      "grad_norm": 0.05280419811606407,
+      "learning_rate": 0.0008166364530592334,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 93655600,
+      "step": 43345
+    },
+    {
+      "epoch": 7.071778140293638,
+      "grad_norm": 0.011205635033547878,
+      "learning_rate": 0.0008165813617527579,
+      "loss": 0.2762,
+      "num_input_tokens_seen": 93666544,
+      "step": 43350
+    },
+    {
+      "epoch": 7.072593800978793,
+      "grad_norm": 0.23616188764572144,
+      "learning_rate": 0.0008165262640303595,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 93677776,
+      "step": 43355
+    },
+    {
+      "epoch": 7.073409461663948,
+      "grad_norm": 0.02595806121826172,
+      "learning_rate": 0.0008164711598931546,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 93688368,
+      "step": 43360
+    },
+    {
+      "epoch": 7.074225122349103,
+      "grad_norm": 0.23422791063785553,
+      "learning_rate": 0.0008164160493422604,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 93698256,
+      "step": 43365
+    },
+    {
+      "epoch": 7.075040783034257,
+      "grad_norm": 0.025671793147921562,
+      "learning_rate": 0.0008163609323787934,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 93708048,
+      "step": 43370
+    },
+    {
+      "epoch": 7.075856443719413,
+      "grad_norm": 0.03166002407670021,
+      "learning_rate": 0.0008163058090038709,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 93717712,
+      "step": 43375
+    },
+    {
+      "epoch": 7.076672104404568,
+      "grad_norm": 0.016035977751016617,
+      "learning_rate": 0.0008162506792186099,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 93728848,
+      "step": 43380
+    },
+    {
+      "epoch": 7.077487765089723,
+      "grad_norm": 0.05759859457612038,
+      "learning_rate": 0.0008161955430241276,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 93740688,
+      "step": 43385
+    },
+    {
+      "epoch": 7.078303425774878,
+      "grad_norm": 0.057698123157024384,
+      "learning_rate": 0.0008161404004215415,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 93751696,
+      "step": 43390
+    },
+    {
+      "epoch": 7.079119086460032,
+      "grad_norm": 0.0237799733877182,
+      "learning_rate": 0.0008160852514119692,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 93762480,
+      "step": 43395
+    },
+    {
+      "epoch": 7.079934747145187,
+      "grad_norm": 0.16691306233406067,
+      "learning_rate": 0.0008160300959965284,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 93772592,
+      "step": 43400
+    },
+    {
+      "epoch": 7.080750407830343,
+      "grad_norm": 0.43984997272491455,
+      "learning_rate": 0.0008159749341763367,
+      "loss": 0.113,
+      "num_input_tokens_seen": 93782640,
+      "step": 43405
+    },
+    {
+      "epoch": 7.081566068515498,
+      "grad_norm": 0.01615430787205696,
+      "learning_rate": 0.000815919765952512,
+      "loss": 0.0495,
+      "num_input_tokens_seen": 93793552,
+      "step": 43410
+    },
+    {
+      "epoch": 7.082381729200653,
+      "grad_norm": 0.011169064790010452,
+      "learning_rate": 0.0008158645913261726,
+      "loss": 0.2136,
+      "num_input_tokens_seen": 93803952,
+      "step": 43415
+    },
+    {
+      "epoch": 7.083197389885807,
+      "grad_norm": 0.018460217863321304,
+      "learning_rate": 0.0008158094102984366,
+      "loss": 0.025,
+      "num_input_tokens_seen": 93816048,
+      "step": 43420
+    },
+    {
+      "epoch": 7.084013050570962,
+      "grad_norm": 0.06511392444372177,
+      "learning_rate": 0.0008157542228704221,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 93827088,
+      "step": 43425
+    },
+    {
+      "epoch": 7.084828711256117,
+      "grad_norm": 0.010363047942519188,
+      "learning_rate": 0.0008156990290432478,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 93837968,
+      "step": 43430
+    },
+    {
+      "epoch": 7.085644371941273,
+      "grad_norm": 0.3792910575866699,
+      "learning_rate": 0.0008156438288180321,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 93849808,
+      "step": 43435
+    },
+    {
+      "epoch": 7.0864600326264275,
+      "grad_norm": 0.00462770601734519,
+      "learning_rate": 0.0008155886221958939,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 93860816,
+      "step": 43440
+    },
+    {
+      "epoch": 7.087275693311582,
+      "grad_norm": 0.004159488715231419,
+      "learning_rate": 0.0008155334091779518,
+      "loss": 0.077,
+      "num_input_tokens_seen": 93871024,
+      "step": 43445
+    },
+    {
+      "epoch": 7.088091353996737,
+      "grad_norm": 0.010639780201017857,
+      "learning_rate": 0.0008154781897653251,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 93883280,
+      "step": 43450
+    },
+    {
+      "epoch": 7.088907014681892,
+      "grad_norm": 0.23465438187122345,
+      "learning_rate": 0.0008154229639591324,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 93894928,
+      "step": 43455
+    },
+    {
+      "epoch": 7.089722675367048,
+      "grad_norm": 0.008510327897965908,
+      "learning_rate": 0.0008153677317604935,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 93906320,
+      "step": 43460
+    },
+    {
+      "epoch": 7.0905383360522025,
+      "grad_norm": 0.02426774427294731,
+      "learning_rate": 0.0008153124931705271,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 93917520,
+      "step": 43465
+    },
+    {
+      "epoch": 7.091353996737357,
+      "grad_norm": 0.08482329547405243,
+      "learning_rate": 0.0008152572481903533,
+      "loss": 0.101,
+      "num_input_tokens_seen": 93928560,
+      "step": 43470
+    },
+    {
+      "epoch": 7.092169657422512,
+      "grad_norm": 0.25256073474884033,
+      "learning_rate": 0.0008152019968210913,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 93939536,
+      "step": 43475
+    },
+    {
+      "epoch": 7.092985318107667,
+      "grad_norm": 0.08296633511781693,
+      "learning_rate": 0.0008151467390638611,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 93950032,
+      "step": 43480
+    },
+    {
+      "epoch": 7.093800978792822,
+      "grad_norm": 0.08412051200866699,
+      "learning_rate": 0.0008150914749197823,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 93961744,
+      "step": 43485
+    },
+    {
+      "epoch": 7.0946166394779775,
+      "grad_norm": 0.004528961610049009,
+      "learning_rate": 0.0008150362043899751,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 93972656,
+      "step": 43490
+    },
+    {
+      "epoch": 7.095432300163132,
+      "grad_norm": 0.05135902389883995,
+      "learning_rate": 0.0008149809274755595,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 93983248,
+      "step": 43495
+    },
+    {
+      "epoch": 7.096247960848287,
+      "grad_norm": 0.09717827290296555,
+      "learning_rate": 0.0008149256441776559,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 93993904,
+      "step": 43500
+    },
+    {
+      "epoch": 7.097063621533442,
+      "grad_norm": 0.054743360728025436,
+      "learning_rate": 0.0008148703544973846,
+      "loss": 0.2156,
+      "num_input_tokens_seen": 94004784,
+      "step": 43505
+    },
+    {
+      "epoch": 7.097879282218597,
+      "grad_norm": 0.05458596348762512,
+      "learning_rate": 0.000814815058435866,
+      "loss": 0.1561,
+      "num_input_tokens_seen": 94015472,
+      "step": 43510
+    },
+    {
+      "epoch": 7.0986949429037525,
+      "grad_norm": 0.022231120616197586,
+      "learning_rate": 0.0008147597559942211,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 94026000,
+      "step": 43515
+    },
+    {
+      "epoch": 7.099510603588907,
+      "grad_norm": 0.2611452639102936,
+      "learning_rate": 0.0008147044471735703,
+      "loss": 0.1484,
+      "num_input_tokens_seen": 94037680,
+      "step": 43520
+    },
+    {
+      "epoch": 7.100326264274062,
+      "grad_norm": 0.12025828659534454,
+      "learning_rate": 0.0008146491319750346,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 94048528,
+      "step": 43525
+    },
+    {
+      "epoch": 7.101141924959217,
+      "grad_norm": 0.09317224472761154,
+      "learning_rate": 0.0008145938103997352,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 94059248,
+      "step": 43530
+    },
+    {
+      "epoch": 7.101957585644372,
+      "grad_norm": 0.09532984346151352,
+      "learning_rate": 0.0008145384824487931,
+      "loss": 0.12,
+      "num_input_tokens_seen": 94069680,
+      "step": 43535
+    },
+    {
+      "epoch": 7.102773246329527,
+      "grad_norm": 0.2917781472206116,
+      "learning_rate": 0.0008144831481233296,
+      "loss": 0.184,
+      "num_input_tokens_seen": 94079632,
+      "step": 43540
+    },
+    {
+      "epoch": 7.103588907014682,
+      "grad_norm": 0.18950186669826508,
+      "learning_rate": 0.0008144278074244662,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 94090288,
+      "step": 43545
+    },
+    {
+      "epoch": 7.104404567699837,
+      "grad_norm": 0.00261941971257329,
+      "learning_rate": 0.0008143724603533243,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 94101168,
+      "step": 43550
+    },
+    {
+      "epoch": 7.105220228384992,
+      "grad_norm": 0.04184950143098831,
+      "learning_rate": 0.0008143171069110258,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 94111088,
+      "step": 43555
+    },
+    {
+      "epoch": 7.106035889070147,
+      "grad_norm": 0.009390073828399181,
+      "learning_rate": 0.0008142617470986924,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 94121872,
+      "step": 43560
+    },
+    {
+      "epoch": 7.1068515497553015,
+      "grad_norm": 0.10224417597055435,
+      "learning_rate": 0.000814206380917446,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 94133776,
+      "step": 43565
+    },
+    {
+      "epoch": 7.107667210440456,
+      "grad_norm": 0.004597066435962915,
+      "learning_rate": 0.0008141510083684087,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 94143600,
+      "step": 43570
+    },
+    {
+      "epoch": 7.108482871125612,
+      "grad_norm": 0.042119644582271576,
+      "learning_rate": 0.0008140956294527026,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 94154704,
+      "step": 43575
+    },
+    {
+      "epoch": 7.109298531810767,
+      "grad_norm": 0.2623211145401001,
+      "learning_rate": 0.00081404024417145,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 94164592,
+      "step": 43580
+    },
+    {
+      "epoch": 7.110114192495922,
+      "grad_norm": 0.006643175147473812,
+      "learning_rate": 0.0008139848525257737,
+      "loss": 0.0998,
+      "num_input_tokens_seen": 94174960,
+      "step": 43585
+    },
+    {
+      "epoch": 7.1109298531810765,
+      "grad_norm": 0.14614737033843994,
+      "learning_rate": 0.000813929454516796,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 94185328,
+      "step": 43590
+    },
+    {
+      "epoch": 7.111745513866231,
+      "grad_norm": 0.2504687011241913,
+      "learning_rate": 0.0008138740501456396,
+      "loss": 0.1811,
+      "num_input_tokens_seen": 94194896,
+      "step": 43595
+    },
+    {
+      "epoch": 7.112561174551387,
+      "grad_norm": 0.19602181017398834,
+      "learning_rate": 0.0008138186394134275,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 94203920,
+      "step": 43600
+    },
+    {
+      "epoch": 7.113376835236542,
+      "grad_norm": 0.06594168394804001,
+      "learning_rate": 0.0008137632223212824,
+      "loss": 0.094,
+      "num_input_tokens_seen": 94215408,
+      "step": 43605
+    },
+    {
+      "epoch": 7.114192495921697,
+      "grad_norm": 0.3192061185836792,
+      "learning_rate": 0.0008137077988703276,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 94225840,
+      "step": 43610
+    },
+    {
+      "epoch": 7.1150081566068515,
+      "grad_norm": 0.028179455548524857,
+      "learning_rate": 0.0008136523690616864,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 94235120,
+      "step": 43615
+    },
+    {
+      "epoch": 7.115823817292006,
+      "grad_norm": 0.01822386495769024,
+      "learning_rate": 0.000813596932896482,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 94247312,
+      "step": 43620
+    },
+    {
+      "epoch": 7.116639477977161,
+      "grad_norm": 0.06899786740541458,
+      "learning_rate": 0.000813541490375838,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 94258128,
+      "step": 43625
+    },
+    {
+      "epoch": 7.117455138662317,
+      "grad_norm": 0.19595955312252045,
+      "learning_rate": 0.0008134860415008778,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 94268048,
+      "step": 43630
+    },
+    {
+      "epoch": 7.118270799347472,
+      "grad_norm": 0.08394555747509003,
+      "learning_rate": 0.0008134305862727253,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 94279184,
+      "step": 43635
+    },
+    {
+      "epoch": 7.1190864600326265,
+      "grad_norm": 0.3096727132797241,
+      "learning_rate": 0.0008133751246925046,
+      "loss": 0.0491,
+      "num_input_tokens_seen": 94289744,
+      "step": 43640
+    },
+    {
+      "epoch": 7.119902120717781,
+      "grad_norm": 0.21318064630031586,
+      "learning_rate": 0.0008133196567613391,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 94300656,
+      "step": 43645
+    },
+    {
+      "epoch": 7.120717781402936,
+      "grad_norm": 0.2673552632331848,
+      "learning_rate": 0.0008132641824803534,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 94310608,
+      "step": 43650
+    },
+    {
+      "epoch": 7.121533442088092,
+      "grad_norm": 0.0654841959476471,
+      "learning_rate": 0.0008132087018506716,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 94321584,
+      "step": 43655
+    },
+    {
+      "epoch": 7.122349102773247,
+      "grad_norm": 0.010458219796419144,
+      "learning_rate": 0.0008131532148734182,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 94331056,
+      "step": 43660
+    },
+    {
+      "epoch": 7.123164763458401,
+      "grad_norm": 0.03026103600859642,
+      "learning_rate": 0.0008130977215497177,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 94341840,
+      "step": 43665
+    },
+    {
+      "epoch": 7.123980424143556,
+      "grad_norm": 0.27282023429870605,
+      "learning_rate": 0.0008130422218806945,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 94353232,
+      "step": 43670
+    },
+    {
+      "epoch": 7.124796084828711,
+      "grad_norm": 0.006859856657683849,
+      "learning_rate": 0.0008129867158674737,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 94364368,
+      "step": 43675
+    },
+    {
+      "epoch": 7.125611745513866,
+      "grad_norm": 0.23025669157505035,
+      "learning_rate": 0.00081293120351118,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 94375216,
+      "step": 43680
+    },
+    {
+      "epoch": 7.126427406199022,
+      "grad_norm": 0.10104181617498398,
+      "learning_rate": 0.0008128756848129386,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 94384144,
+      "step": 43685
+    },
+    {
+      "epoch": 7.127243066884176,
+      "grad_norm": 0.005190078169107437,
+      "learning_rate": 0.0008128201597738744,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 94394288,
+      "step": 43690
+    },
+    {
+      "epoch": 7.128058727569331,
+      "grad_norm": 0.020754588767886162,
+      "learning_rate": 0.0008127646283951129,
+      "loss": 0.1413,
+      "num_input_tokens_seen": 94405808,
+      "step": 43695
+    },
+    {
+      "epoch": 7.128874388254486,
+      "grad_norm": 0.2567387521266937,
+      "learning_rate": 0.0008127090906777793,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 94417680,
+      "step": 43700
+    },
+    {
+      "epoch": 7.129690048939641,
+      "grad_norm": 0.23241105675697327,
+      "learning_rate": 0.0008126535466229993,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 94428912,
+      "step": 43705
+    },
+    {
+      "epoch": 7.130505709624796,
+      "grad_norm": 0.031064637005329132,
+      "learning_rate": 0.0008125979962318987,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 94439344,
+      "step": 43710
+    },
+    {
+      "epoch": 7.131321370309951,
+      "grad_norm": 0.11722356826066971,
+      "learning_rate": 0.000812542439505603,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 94450992,
+      "step": 43715
+    },
+    {
+      "epoch": 7.132137030995106,
+      "grad_norm": 0.04877146705985069,
+      "learning_rate": 0.0008124868764452384,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 94462064,
+      "step": 43720
+    },
+    {
+      "epoch": 7.132952691680261,
+      "grad_norm": 0.262928307056427,
+      "learning_rate": 0.0008124313070519307,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 94472880,
+      "step": 43725
+    },
+    {
+      "epoch": 7.133768352365416,
+      "grad_norm": 0.20131583511829376,
+      "learning_rate": 0.0008123757313268064,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 94483600,
+      "step": 43730
+    },
+    {
+      "epoch": 7.134584013050571,
+      "grad_norm": 0.03627254441380501,
+      "learning_rate": 0.0008123201492709915,
+      "loss": 0.2043,
+      "num_input_tokens_seen": 94494160,
+      "step": 43735
+    },
+    {
+      "epoch": 7.135399673735726,
+      "grad_norm": 0.0354943573474884,
+      "learning_rate": 0.0008122645608856125,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 94505104,
+      "step": 43740
+    },
+    {
+      "epoch": 7.136215334420881,
+      "grad_norm": 0.2703050374984741,
+      "learning_rate": 0.0008122089661717961,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 94513680,
+      "step": 43745
+    },
+    {
+      "epoch": 7.137030995106036,
+      "grad_norm": 0.00605939282104373,
+      "learning_rate": 0.000812153365130669,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 94523792,
+      "step": 43750
+    },
+    {
+      "epoch": 7.137846655791191,
+      "grad_norm": 0.33780086040496826,
+      "learning_rate": 0.0008120977577633578,
+      "loss": 0.1763,
+      "num_input_tokens_seen": 94534896,
+      "step": 43755
+    },
+    {
+      "epoch": 7.138662316476346,
+      "grad_norm": 0.29291245341300964,
+      "learning_rate": 0.0008120421440709897,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 94544592,
+      "step": 43760
+    },
+    {
+      "epoch": 7.1394779771615005,
+      "grad_norm": 0.024935364723205566,
+      "learning_rate": 0.0008119865240546918,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 94555056,
+      "step": 43765
+    },
+    {
+      "epoch": 7.140293637846656,
+      "grad_norm": 0.06435410678386688,
+      "learning_rate": 0.000811930897715591,
+      "loss": 0.04,
+      "num_input_tokens_seen": 94564272,
+      "step": 43770
+    },
+    {
+      "epoch": 7.141109298531811,
+      "grad_norm": 0.01669169031083584,
+      "learning_rate": 0.0008118752650548151,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 94574832,
+      "step": 43775
+    },
+    {
+      "epoch": 7.141924959216966,
+      "grad_norm": 0.17030321061611176,
+      "learning_rate": 0.0008118196260734911,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 94585616,
+      "step": 43780
+    },
+    {
+      "epoch": 7.142740619902121,
+      "grad_norm": 0.015497151762247086,
+      "learning_rate": 0.000811763980772747,
+      "loss": 0.1636,
+      "num_input_tokens_seen": 94596432,
+      "step": 43785
+    },
+    {
+      "epoch": 7.143556280587275,
+      "grad_norm": 0.17114491760730743,
+      "learning_rate": 0.0008117083291537102,
+      "loss": 0.2757,
+      "num_input_tokens_seen": 94607600,
+      "step": 43790
+    },
+    {
+      "epoch": 7.14437194127243,
+      "grad_norm": 0.12084033340215683,
+      "learning_rate": 0.0008116526712175087,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 94618288,
+      "step": 43795
+    },
+    {
+      "epoch": 7.145187601957586,
+      "grad_norm": 0.04583222046494484,
+      "learning_rate": 0.0008115970069652705,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 94628656,
+      "step": 43800
+    },
+    {
+      "epoch": 7.146003262642741,
+      "grad_norm": 0.029846591874957085,
+      "learning_rate": 0.0008115413363981237,
+      "loss": 0.018,
+      "num_input_tokens_seen": 94639696,
+      "step": 43805
+    },
+    {
+      "epoch": 7.146818923327896,
+      "grad_norm": 0.05696532502770424,
+      "learning_rate": 0.0008114856595171963,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 94651216,
+      "step": 43810
+    },
+    {
+      "epoch": 7.14763458401305,
+      "grad_norm": 0.015203659422695637,
+      "learning_rate": 0.000811429976323617,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 94661328,
+      "step": 43815
+    },
+    {
+      "epoch": 7.148450244698205,
+      "grad_norm": 0.020137041807174683,
+      "learning_rate": 0.0008113742868185142,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 94672464,
+      "step": 43820
+    },
+    {
+      "epoch": 7.149265905383361,
+      "grad_norm": 0.017115939408540726,
+      "learning_rate": 0.0008113185910030163,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 94683888,
+      "step": 43825
+    },
+    {
+      "epoch": 7.150081566068516,
+      "grad_norm": 0.2196558266878128,
+      "learning_rate": 0.0008112628888782523,
+      "loss": 0.179,
+      "num_input_tokens_seen": 94695504,
+      "step": 43830
+    },
+    {
+      "epoch": 7.150897226753671,
+      "grad_norm": 0.011017675511538982,
+      "learning_rate": 0.0008112071804453511,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 94706768,
+      "step": 43835
+    },
+    {
+      "epoch": 7.151712887438825,
+      "grad_norm": 0.2845572233200073,
+      "learning_rate": 0.0008111514657054415,
+      "loss": 0.199,
+      "num_input_tokens_seen": 94718288,
+      "step": 43840
+    },
+    {
+      "epoch": 7.15252854812398,
+      "grad_norm": 0.009154774248600006,
+      "learning_rate": 0.0008110957446596527,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 94728752,
+      "step": 43845
+    },
+    {
+      "epoch": 7.153344208809135,
+      "grad_norm": 0.015152211301028728,
+      "learning_rate": 0.0008110400173091142,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 94740464,
+      "step": 43850
+    },
+    {
+      "epoch": 7.154159869494291,
+      "grad_norm": 0.3790530562400818,
+      "learning_rate": 0.0008109842836549549,
+      "loss": 0.1817,
+      "num_input_tokens_seen": 94751152,
+      "step": 43855
+    },
+    {
+      "epoch": 7.1549755301794455,
+      "grad_norm": 0.13960027694702148,
+      "learning_rate": 0.0008109285436983047,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 94761584,
+      "step": 43860
+    },
+    {
+      "epoch": 7.1557911908646,
+      "grad_norm": 0.22438912093639374,
+      "learning_rate": 0.000810872797440293,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 94772816,
+      "step": 43865
+    },
+    {
+      "epoch": 7.156606851549755,
+      "grad_norm": 0.007492088247090578,
+      "learning_rate": 0.0008108170448820498,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 94784112,
+      "step": 43870
+    },
+    {
+      "epoch": 7.15742251223491,
+      "grad_norm": 0.1964537799358368,
+      "learning_rate": 0.0008107612860247049,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 94796240,
+      "step": 43875
+    },
+    {
+      "epoch": 7.158238172920065,
+      "grad_norm": 0.013916724361479282,
+      "learning_rate": 0.0008107055208693882,
+      "loss": 0.1627,
+      "num_input_tokens_seen": 94807280,
+      "step": 43880
+    },
+    {
+      "epoch": 7.1590538336052205,
+      "grad_norm": 0.04685168340802193,
+      "learning_rate": 0.00081064974941723,
+      "loss": 0.0447,
+      "num_input_tokens_seen": 94816720,
+      "step": 43885
+    },
+    {
+      "epoch": 7.159869494290375,
+      "grad_norm": 0.03049752674996853,
+      "learning_rate": 0.0008105939716693606,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 94827984,
+      "step": 43890
+    },
+    {
+      "epoch": 7.16068515497553,
+      "grad_norm": 0.006316207814961672,
+      "learning_rate": 0.0008105381876269104,
+      "loss": 0.099,
+      "num_input_tokens_seen": 94839632,
+      "step": 43895
+    },
+    {
+      "epoch": 7.161500815660685,
+      "grad_norm": 0.0397644080221653,
+      "learning_rate": 0.0008104823972910098,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 94849168,
+      "step": 43900
+    },
+    {
+      "epoch": 7.16231647634584,
+      "grad_norm": 0.025401227176189423,
+      "learning_rate": 0.0008104266006627895,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 94859664,
+      "step": 43905
+    },
+    {
+      "epoch": 7.1631321370309955,
+      "grad_norm": 0.3657297194004059,
+      "learning_rate": 0.0008103707977433804,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 94870736,
+      "step": 43910
+    },
+    {
+      "epoch": 7.16394779771615,
+      "grad_norm": 0.10411134362220764,
+      "learning_rate": 0.0008103149885339134,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 94881456,
+      "step": 43915
+    },
+    {
+      "epoch": 7.164763458401305,
+      "grad_norm": 0.014874082058668137,
+      "learning_rate": 0.0008102591730355193,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 94892976,
+      "step": 43920
+    },
+    {
+      "epoch": 7.16557911908646,
+      "grad_norm": 0.03545144945383072,
+      "learning_rate": 0.0008102033512493297,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 94904464,
+      "step": 43925
+    },
+    {
+      "epoch": 7.166394779771615,
+      "grad_norm": 0.21843662858009338,
+      "learning_rate": 0.0008101475231764756,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 94917008,
+      "step": 43930
+    },
+    {
+      "epoch": 7.16721044045677,
+      "grad_norm": 0.13957096636295319,
+      "learning_rate": 0.0008100916888180884,
+      "loss": 0.061,
+      "num_input_tokens_seen": 94928560,
+      "step": 43935
+    },
+    {
+      "epoch": 7.168026101141925,
+      "grad_norm": 0.26728448271751404,
+      "learning_rate": 0.0008100358481752998,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 94939536,
+      "step": 43940
+    },
+    {
+      "epoch": 7.16884176182708,
+      "grad_norm": 0.006182427518069744,
+      "learning_rate": 0.0008099800012492415,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 94950640,
+      "step": 43945
+    },
+    {
+      "epoch": 7.169657422512235,
+      "grad_norm": 0.004266462288796902,
+      "learning_rate": 0.0008099241480410451,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 94961968,
+      "step": 43950
+    },
+    {
+      "epoch": 7.17047308319739,
+      "grad_norm": 0.17784513533115387,
+      "learning_rate": 0.0008098682885518427,
+      "loss": 0.1978,
+      "num_input_tokens_seen": 94972272,
+      "step": 43955
+    },
+    {
+      "epoch": 7.171288743882545,
+      "grad_norm": 0.008746275678277016,
+      "learning_rate": 0.0008098124227827663,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 94983088,
+      "step": 43960
+    },
+    {
+      "epoch": 7.1721044045677,
+      "grad_norm": 0.009621957316994667,
+      "learning_rate": 0.0008097565507349482,
+      "loss": 0.166,
+      "num_input_tokens_seen": 94992560,
+      "step": 43965
+    },
+    {
+      "epoch": 7.172920065252855,
+      "grad_norm": 0.34376588463783264,
+      "learning_rate": 0.0008097006724095208,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 95003568,
+      "step": 43970
+    },
+    {
+      "epoch": 7.17373572593801,
+      "grad_norm": 0.11799240112304688,
+      "learning_rate": 0.0008096447878076161,
+      "loss": 0.1875,
+      "num_input_tokens_seen": 95014768,
+      "step": 43975
+    },
+    {
+      "epoch": 7.174551386623165,
+      "grad_norm": 0.2644333839416504,
+      "learning_rate": 0.0008095888969303672,
+      "loss": 0.2692,
+      "num_input_tokens_seen": 95025296,
+      "step": 43980
+    },
+    {
+      "epoch": 7.1753670473083195,
+      "grad_norm": 0.052062440663576126,
+      "learning_rate": 0.0008095329997789063,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 95036464,
+      "step": 43985
+    },
+    {
+      "epoch": 7.176182707993474,
+      "grad_norm": 0.012716952711343765,
+      "learning_rate": 0.0008094770963543667,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 95047344,
+      "step": 43990
+    },
+    {
+      "epoch": 7.17699836867863,
+      "grad_norm": 0.03887278586626053,
+      "learning_rate": 0.0008094211866578812,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 95058320,
+      "step": 43995
+    },
+    {
+      "epoch": 7.177814029363785,
+      "grad_norm": 0.14700531959533691,
+      "learning_rate": 0.0008093652706905827,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 95069488,
+      "step": 44000
+    },
+    {
+      "epoch": 7.17862969004894,
+      "grad_norm": 0.018018363043665886,
+      "learning_rate": 0.0008093093484536045,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 95079792,
+      "step": 44005
+    },
+    {
+      "epoch": 7.1794453507340945,
+      "grad_norm": 0.03422345593571663,
+      "learning_rate": 0.0008092534199480801,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 95090832,
+      "step": 44010
+    },
+    {
+      "epoch": 7.180261011419249,
+      "grad_norm": 0.10804907977581024,
+      "learning_rate": 0.0008091974851751427,
+      "loss": 0.0491,
+      "num_input_tokens_seen": 95102736,
+      "step": 44015
+    },
+    {
+      "epoch": 7.181076672104404,
+      "grad_norm": 0.20800091326236725,
+      "learning_rate": 0.0008091415441359261,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 95112496,
+      "step": 44020
+    },
+    {
+      "epoch": 7.18189233278956,
+      "grad_norm": 0.0028511809650808573,
+      "learning_rate": 0.000809085596831564,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 95122896,
+      "step": 44025
+    },
+    {
+      "epoch": 7.182707993474715,
+      "grad_norm": 0.25854846835136414,
+      "learning_rate": 0.0008090296432631901,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 95133808,
+      "step": 44030
+    },
+    {
+      "epoch": 7.1835236541598695,
+      "grad_norm": 0.017109766602516174,
+      "learning_rate": 0.0008089736834319384,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 95143952,
+      "step": 44035
+    },
+    {
+      "epoch": 7.184339314845024,
+      "grad_norm": 0.07196343690156937,
+      "learning_rate": 0.0008089177173389431,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 95154096,
+      "step": 44040
+    },
+    {
+      "epoch": 7.185154975530179,
+      "grad_norm": 0.2786267101764679,
+      "learning_rate": 0.0008088617449853382,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 95164816,
+      "step": 44045
+    },
+    {
+      "epoch": 7.185970636215335,
+      "grad_norm": 0.0031654785852879286,
+      "learning_rate": 0.0008088057663722583,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 95174608,
+      "step": 44050
+    },
+    {
+      "epoch": 7.18678629690049,
+      "grad_norm": 0.006744810845702887,
+      "learning_rate": 0.000808749781500838,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 95185552,
+      "step": 44055
+    },
+    {
+      "epoch": 7.1876019575856445,
+      "grad_norm": 0.23967309296131134,
+      "learning_rate": 0.0008086937903722114,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 95196816,
+      "step": 44060
+    },
+    {
+      "epoch": 7.188417618270799,
+      "grad_norm": 0.060102108865976334,
+      "learning_rate": 0.0008086377929875137,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 95207856,
+      "step": 44065
+    },
+    {
+      "epoch": 7.189233278955954,
+      "grad_norm": 0.012995628640055656,
+      "learning_rate": 0.0008085817893478797,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 95217968,
+      "step": 44070
+    },
+    {
+      "epoch": 7.190048939641109,
+      "grad_norm": 0.3781433403491974,
+      "learning_rate": 0.0008085257794544441,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 95229488,
+      "step": 44075
+    },
+    {
+      "epoch": 7.190864600326265,
+      "grad_norm": 0.47650331258773804,
+      "learning_rate": 0.0008084697633083422,
+      "loss": 0.2665,
+      "num_input_tokens_seen": 95239312,
+      "step": 44080
+    },
+    {
+      "epoch": 7.191680261011419,
+      "grad_norm": 0.05169449746608734,
+      "learning_rate": 0.0008084137409107093,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 95248784,
+      "step": 44085
+    },
+    {
+      "epoch": 7.192495921696574,
+      "grad_norm": 0.22721447050571442,
+      "learning_rate": 0.0008083577122626806,
+      "loss": 0.1741,
+      "num_input_tokens_seen": 95260176,
+      "step": 44090
+    },
+    {
+      "epoch": 7.193311582381729,
+      "grad_norm": 0.004407059401273727,
+      "learning_rate": 0.0008083016773653917,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 95271248,
+      "step": 44095
+    },
+    {
+      "epoch": 7.194127243066884,
+      "grad_norm": 0.004881150089204311,
+      "learning_rate": 0.0008082456362199783,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 95281104,
+      "step": 44100
+    },
+    {
+      "epoch": 7.19494290375204,
+      "grad_norm": 0.1279035061597824,
+      "learning_rate": 0.000808189588827576,
+      "loss": 0.0558,
+      "num_input_tokens_seen": 95291344,
+      "step": 44105
+    },
+    {
+      "epoch": 7.195758564437194,
+      "grad_norm": 0.07432336360216141,
+      "learning_rate": 0.0008081335351893206,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 95301904,
+      "step": 44110
+    },
+    {
+      "epoch": 7.196574225122349,
+      "grad_norm": 0.02257407084107399,
+      "learning_rate": 0.0008080774753063485,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 95312144,
+      "step": 44115
+    },
+    {
+      "epoch": 7.197389885807504,
+      "grad_norm": 0.22624976933002472,
+      "learning_rate": 0.0008080214091797953,
+      "loss": 0.1775,
+      "num_input_tokens_seen": 95321360,
+      "step": 44120
+    },
+    {
+      "epoch": 7.198205546492659,
+      "grad_norm": 0.005118417553603649,
+      "learning_rate": 0.0008079653368107975,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 95331888,
+      "step": 44125
+    },
+    {
+      "epoch": 7.199021207177814,
+      "grad_norm": 0.006295321509242058,
+      "learning_rate": 0.0008079092582004915,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 95343152,
+      "step": 44130
+    },
+    {
+      "epoch": 7.199836867862969,
+      "grad_norm": 0.02929351106286049,
+      "learning_rate": 0.0008078531733500137,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 95353936,
+      "step": 44135
+    },
+    {
+      "epoch": 7.200652528548124,
+      "grad_norm": 0.16848796606063843,
+      "learning_rate": 0.000807797082260501,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 95364240,
+      "step": 44140
+    },
+    {
+      "epoch": 7.201468189233279,
+      "grad_norm": 0.015281510539352894,
+      "learning_rate": 0.0008077409849330898,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 95374448,
+      "step": 44145
+    },
+    {
+      "epoch": 7.202283849918434,
+      "grad_norm": 0.3676411807537079,
+      "learning_rate": 0.0008076848813689171,
+      "loss": 0.155,
+      "num_input_tokens_seen": 95384528,
+      "step": 44150
+    },
+    {
+      "epoch": 7.203099510603589,
+      "grad_norm": 0.035579223185777664,
+      "learning_rate": 0.0008076287715691201,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 95395728,
+      "step": 44155
+    },
+    {
+      "epoch": 7.2039151712887435,
+      "grad_norm": 0.31866884231567383,
+      "learning_rate": 0.0008075726555348357,
+      "loss": 0.1915,
+      "num_input_tokens_seen": 95407120,
+      "step": 44160
+    },
+    {
+      "epoch": 7.204730831973899,
+      "grad_norm": 0.2983294725418091,
+      "learning_rate": 0.0008075165332672013,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 95417008,
+      "step": 44165
+    },
+    {
+      "epoch": 7.205546492659054,
+      "grad_norm": 0.2822973430156708,
+      "learning_rate": 0.0008074604047673542,
+      "loss": 0.0586,
+      "num_input_tokens_seen": 95427632,
+      "step": 44170
+    },
+    {
+      "epoch": 7.206362153344209,
+      "grad_norm": 0.3057224154472351,
+      "learning_rate": 0.000807404270036432,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 95437424,
+      "step": 44175
+    },
+    {
+      "epoch": 7.207177814029364,
+      "grad_norm": 0.009443351998925209,
+      "learning_rate": 0.0008073481290755723,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 95449424,
+      "step": 44180
+    },
+    {
+      "epoch": 7.2079934747145185,
+      "grad_norm": 0.13818103075027466,
+      "learning_rate": 0.0008072919818859128,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 95460624,
+      "step": 44185
+    },
+    {
+      "epoch": 7.208809135399674,
+      "grad_norm": 0.022867241874337196,
+      "learning_rate": 0.0008072358284685915,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 95470672,
+      "step": 44190
+    },
+    {
+      "epoch": 7.209624796084829,
+      "grad_norm": 0.3809795379638672,
+      "learning_rate": 0.0008071796688247463,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 95481936,
+      "step": 44195
+    },
+    {
+      "epoch": 7.210440456769984,
+      "grad_norm": 0.05303087458014488,
+      "learning_rate": 0.0008071235029555155,
+      "loss": 0.0491,
+      "num_input_tokens_seen": 95492368,
+      "step": 44200
+    },
+    {
+      "epoch": 7.211256117455139,
+      "grad_norm": 0.30895814299583435,
+      "learning_rate": 0.0008070673308620373,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 95503280,
+      "step": 44205
+    },
+    {
+      "epoch": 7.212071778140293,
+      "grad_norm": 0.05848781764507294,
+      "learning_rate": 0.0008070111525454501,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 95514544,
+      "step": 44210
+    },
+    {
+      "epoch": 7.212887438825448,
+      "grad_norm": 0.016617875546216965,
+      "learning_rate": 0.0008069549680068923,
+      "loss": 0.037,
+      "num_input_tokens_seen": 95525200,
+      "step": 44215
+    },
+    {
+      "epoch": 7.213703099510604,
+      "grad_norm": 0.010751327499747276,
+      "learning_rate": 0.0008068987772475029,
+      "loss": 0.1975,
+      "num_input_tokens_seen": 95536144,
+      "step": 44220
+    },
+    {
+      "epoch": 7.214518760195759,
+      "grad_norm": 0.3213596045970917,
+      "learning_rate": 0.0008068425802684204,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 95547664,
+      "step": 44225
+    },
+    {
+      "epoch": 7.215334420880914,
+      "grad_norm": 0.012682809494435787,
+      "learning_rate": 0.0008067863770707838,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 95559024,
+      "step": 44230
+    },
+    {
+      "epoch": 7.216150081566068,
+      "grad_norm": 0.02761760540306568,
+      "learning_rate": 0.0008067301676557319,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 95569680,
+      "step": 44235
+    },
+    {
+      "epoch": 7.216965742251223,
+      "grad_norm": 0.22118832170963287,
+      "learning_rate": 0.0008066739520244042,
+      "loss": 0.1241,
+      "num_input_tokens_seen": 95580944,
+      "step": 44240
+    },
+    {
+      "epoch": 7.217781402936378,
+      "grad_norm": 0.44345036149024963,
+      "learning_rate": 0.0008066177301779396,
+      "loss": 0.116,
+      "num_input_tokens_seen": 95590928,
+      "step": 44245
+    },
+    {
+      "epoch": 7.218597063621534,
+      "grad_norm": 0.07468734681606293,
+      "learning_rate": 0.0008065615021174779,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 95602128,
+      "step": 44250
+    },
+    {
+      "epoch": 7.219412724306689,
+      "grad_norm": 0.2577841281890869,
+      "learning_rate": 0.0008065052678441584,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 95613264,
+      "step": 44255
+    },
+    {
+      "epoch": 7.220228384991843,
+      "grad_norm": 0.04845619201660156,
+      "learning_rate": 0.0008064490273591209,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 95623600,
+      "step": 44260
+    },
+    {
+      "epoch": 7.221044045676998,
+      "grad_norm": 0.3292473256587982,
+      "learning_rate": 0.000806392780663505,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 95635696,
+      "step": 44265
+    },
+    {
+      "epoch": 7.221859706362153,
+      "grad_norm": 0.11419453471899033,
+      "learning_rate": 0.0008063365277584508,
+      "loss": 0.0303,
+      "num_input_tokens_seen": 95647088,
+      "step": 44270
+    },
+    {
+      "epoch": 7.222675367047309,
+      "grad_norm": 0.01460292749106884,
+      "learning_rate": 0.0008062802686450982,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 95657936,
+      "step": 44275
+    },
+    {
+      "epoch": 7.2234910277324635,
+      "grad_norm": 0.03610467538237572,
+      "learning_rate": 0.0008062240033245875,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 95668400,
+      "step": 44280
+    },
+    {
+      "epoch": 7.224306688417618,
+      "grad_norm": 0.01440652459859848,
+      "learning_rate": 0.0008061677317980587,
+      "loss": 0.1672,
+      "num_input_tokens_seen": 95678256,
+      "step": 44285
+    },
+    {
+      "epoch": 7.225122349102773,
+      "grad_norm": 0.002639458980411291,
+      "learning_rate": 0.0008061114540666525,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 95688112,
+      "step": 44290
+    },
+    {
+      "epoch": 7.225938009787928,
+      "grad_norm": 0.0032658553682267666,
+      "learning_rate": 0.0008060551701315093,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 95699088,
+      "step": 44295
+    },
+    {
+      "epoch": 7.226753670473083,
+      "grad_norm": 0.09494752436876297,
+      "learning_rate": 0.00080599887999377,
+      "loss": 0.081,
+      "num_input_tokens_seen": 95709392,
+      "step": 44300
+    },
+    {
+      "epoch": 7.2275693311582385,
+      "grad_norm": 0.0071384357288479805,
+      "learning_rate": 0.0008059425836545751,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 95719952,
+      "step": 44305
+    },
+    {
+      "epoch": 7.228384991843393,
+      "grad_norm": 0.010850159451365471,
+      "learning_rate": 0.0008058862811150657,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 95730032,
+      "step": 44310
+    },
+    {
+      "epoch": 7.229200652528548,
+      "grad_norm": 0.1265016794204712,
+      "learning_rate": 0.0008058299723763826,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 95740752,
+      "step": 44315
+    },
+    {
+      "epoch": 7.230016313213703,
+      "grad_norm": 0.2655118703842163,
+      "learning_rate": 0.0008057736574396673,
+      "loss": 0.048,
+      "num_input_tokens_seen": 95751888,
+      "step": 44320
+    },
+    {
+      "epoch": 7.230831973898858,
+      "grad_norm": 0.025311551988124847,
+      "learning_rate": 0.000805717336306061,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 95762512,
+      "step": 44325
+    },
+    {
+      "epoch": 7.231647634584013,
+      "grad_norm": 0.0299469456076622,
+      "learning_rate": 0.000805661008976705,
+      "loss": 0.261,
+      "num_input_tokens_seen": 95773424,
+      "step": 44330
+    },
+    {
+      "epoch": 7.232463295269168,
+      "grad_norm": 0.09730672836303711,
+      "learning_rate": 0.0008056046754527406,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 95783888,
+      "step": 44335
+    },
+    {
+      "epoch": 7.233278955954323,
+      "grad_norm": 0.2526463568210602,
+      "learning_rate": 0.00080554833573531,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 95794992,
+      "step": 44340
+    },
+    {
+      "epoch": 7.234094616639478,
+      "grad_norm": 0.03998822346329689,
+      "learning_rate": 0.0008054919898255548,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 95806224,
+      "step": 44345
+    },
+    {
+      "epoch": 7.234910277324633,
+      "grad_norm": 0.252896785736084,
+      "learning_rate": 0.0008054356377246168,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 95817168,
+      "step": 44350
+    },
+    {
+      "epoch": 7.235725938009788,
+      "grad_norm": 0.01774667389690876,
+      "learning_rate": 0.0008053792794336381,
+      "loss": 0.1547,
+      "num_input_tokens_seen": 95827792,
+      "step": 44355
+    },
+    {
+      "epoch": 7.236541598694943,
+      "grad_norm": 0.015287657268345356,
+      "learning_rate": 0.0008053229149537611,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 95837488,
+      "step": 44360
+    },
+    {
+      "epoch": 7.237357259380098,
+      "grad_norm": 0.05477646738290787,
+      "learning_rate": 0.0008052665442861278,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 95849744,
+      "step": 44365
+    },
+    {
+      "epoch": 7.238172920065253,
+      "grad_norm": 0.22003793716430664,
+      "learning_rate": 0.0008052101674318805,
+      "loss": 0.056,
+      "num_input_tokens_seen": 95861328,
+      "step": 44370
+    },
+    {
+      "epoch": 7.238988580750408,
+      "grad_norm": 0.017607053741812706,
+      "learning_rate": 0.0008051537843921623,
+      "loss": 0.153,
+      "num_input_tokens_seen": 95872752,
+      "step": 44375
+    },
+    {
+      "epoch": 7.239804241435563,
+      "grad_norm": 0.015592445619404316,
+      "learning_rate": 0.0008050973951681153,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 95883984,
+      "step": 44380
+    },
+    {
+      "epoch": 7.240619902120717,
+      "grad_norm": 0.10997194796800613,
+      "learning_rate": 0.0008050409997608827,
+      "loss": 0.2259,
+      "num_input_tokens_seen": 95895056,
+      "step": 44385
+    },
+    {
+      "epoch": 7.241435562805873,
+      "grad_norm": 0.025174317881464958,
+      "learning_rate": 0.0008049845981716072,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 95905104,
+      "step": 44390
+    },
+    {
+      "epoch": 7.242251223491028,
+      "grad_norm": 0.2000531107187271,
+      "learning_rate": 0.0008049281904014318,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 95915216,
+      "step": 44395
+    },
+    {
+      "epoch": 7.243066884176183,
+      "grad_norm": 0.12257369607686996,
+      "learning_rate": 0.0008048717764514999,
+      "loss": 0.033,
+      "num_input_tokens_seen": 95924560,
+      "step": 44400
+    },
+    {
+      "epoch": 7.2438825448613375,
+      "grad_norm": 0.27642714977264404,
+      "learning_rate": 0.0008048153563229548,
+      "loss": 0.083,
+      "num_input_tokens_seen": 95935024,
+      "step": 44405
+    },
+    {
+      "epoch": 7.244698205546492,
+      "grad_norm": 0.113319993019104,
+      "learning_rate": 0.0008047589300169398,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 95944464,
+      "step": 44410
+    },
+    {
+      "epoch": 7.245513866231648,
+      "grad_norm": 0.007153376936912537,
+      "learning_rate": 0.0008047024975345983,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 95954704,
+      "step": 44415
+    },
+    {
+      "epoch": 7.246329526916803,
+      "grad_norm": 0.01275695487856865,
+      "learning_rate": 0.0008046460588770743,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 95965456,
+      "step": 44420
+    },
+    {
+      "epoch": 7.247145187601958,
+      "grad_norm": 0.14486052095890045,
+      "learning_rate": 0.0008045896140455114,
+      "loss": 0.1648,
+      "num_input_tokens_seen": 95976752,
+      "step": 44425
+    },
+    {
+      "epoch": 7.2479608482871125,
+      "grad_norm": 0.24699799716472626,
+      "learning_rate": 0.0008045331630410535,
+      "loss": 0.065,
+      "num_input_tokens_seen": 95988400,
+      "step": 44430
+    },
+    {
+      "epoch": 7.248776508972267,
+      "grad_norm": 0.015178795903921127,
+      "learning_rate": 0.0008044767058648448,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 95999280,
+      "step": 44435
+    },
+    {
+      "epoch": 7.249592169657422,
+      "grad_norm": 0.04336842894554138,
+      "learning_rate": 0.0008044202425180293,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 96008144,
+      "step": 44440
+    },
+    {
+      "epoch": 7.250407830342578,
+      "grad_norm": 0.11812159419059753,
+      "learning_rate": 0.0008043637730017515,
+      "loss": 0.2407,
+      "num_input_tokens_seen": 96018768,
+      "step": 44445
+    },
+    {
+      "epoch": 7.251223491027733,
+      "grad_norm": 0.25787487626075745,
+      "learning_rate": 0.0008043072973171557,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 96028688,
+      "step": 44450
+    },
+    {
+      "epoch": 7.2520391517128875,
+      "grad_norm": 0.04251531511545181,
+      "learning_rate": 0.0008042508154653865,
+      "loss": 0.068,
+      "num_input_tokens_seen": 96040368,
+      "step": 44455
+    },
+    {
+      "epoch": 7.252854812398042,
+      "grad_norm": 0.019232304766774178,
+      "learning_rate": 0.0008041943274475886,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 96051120,
+      "step": 44460
+    },
+    {
+      "epoch": 7.253670473083197,
+      "grad_norm": 0.3413325548171997,
+      "learning_rate": 0.0008041378332649067,
+      "loss": 0.1559,
+      "num_input_tokens_seen": 96062224,
+      "step": 44465
+    },
+    {
+      "epoch": 7.254486133768353,
+      "grad_norm": 0.006722092628479004,
+      "learning_rate": 0.0008040813329184857,
+      "loss": 0.102,
+      "num_input_tokens_seen": 96073072,
+      "step": 44470
+    },
+    {
+      "epoch": 7.255301794453508,
+      "grad_norm": 0.053375717252492905,
+      "learning_rate": 0.000804024826409471,
+      "loss": 0.1075,
+      "num_input_tokens_seen": 96082992,
+      "step": 44475
+    },
+    {
+      "epoch": 7.2561174551386625,
+      "grad_norm": 0.14441102743148804,
+      "learning_rate": 0.0008039683137390073,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 96093136,
+      "step": 44480
+    },
+    {
+      "epoch": 7.256933115823817,
+      "grad_norm": 0.22683408856391907,
+      "learning_rate": 0.0008039117949082401,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 96103376,
+      "step": 44485
+    },
+    {
+      "epoch": 7.257748776508972,
+      "grad_norm": 0.2603529989719391,
+      "learning_rate": 0.0008038552699183148,
+      "loss": 0.049,
+      "num_input_tokens_seen": 96114672,
+      "step": 44490
+    },
+    {
+      "epoch": 7.258564437194127,
+      "grad_norm": 0.03789392486214638,
+      "learning_rate": 0.0008037987387703771,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 96125136,
+      "step": 44495
+    },
+    {
+      "epoch": 7.259380097879283,
+      "grad_norm": 0.008358441293239594,
+      "learning_rate": 0.0008037422014655725,
+      "loss": 0.1643,
+      "num_input_tokens_seen": 96135856,
+      "step": 44500
+    },
+    {
+      "epoch": 7.260195758564437,
+      "grad_norm": 0.3523517847061157,
+      "learning_rate": 0.0008036856580050469,
+      "loss": 0.2079,
+      "num_input_tokens_seen": 96145712,
+      "step": 44505
+    },
+    {
+      "epoch": 7.261011419249592,
+      "grad_norm": 0.07002881169319153,
+      "learning_rate": 0.000803629108389946,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 96156304,
+      "step": 44510
+    },
+    {
+      "epoch": 7.261827079934747,
+      "grad_norm": 0.05014079064130783,
+      "learning_rate": 0.0008035725526214164,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 96166864,
+      "step": 44515
+    },
+    {
+      "epoch": 7.262642740619902,
+      "grad_norm": 0.2250353842973709,
+      "learning_rate": 0.0008035159907006037,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 96177552,
+      "step": 44520
+    },
+    {
+      "epoch": 7.263458401305057,
+      "grad_norm": 0.2552667260169983,
+      "learning_rate": 0.0008034594226286545,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 96188592,
+      "step": 44525
+    },
+    {
+      "epoch": 7.264274061990212,
+      "grad_norm": 0.22745175659656525,
+      "learning_rate": 0.0008034028484067149,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 96199376,
+      "step": 44530
+    },
+    {
+      "epoch": 7.265089722675367,
+      "grad_norm": 0.1307612508535385,
+      "learning_rate": 0.0008033462680359319,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 96210800,
+      "step": 44535
+    },
+    {
+      "epoch": 7.265905383360522,
+      "grad_norm": 0.015104546211659908,
+      "learning_rate": 0.000803289681517452,
+      "loss": 0.018,
+      "num_input_tokens_seen": 96221488,
+      "step": 44540
+    },
+    {
+      "epoch": 7.266721044045677,
+      "grad_norm": 0.2224571257829666,
+      "learning_rate": 0.0008032330888524217,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 96231024,
+      "step": 44545
+    },
+    {
+      "epoch": 7.267536704730832,
+      "grad_norm": 0.05627712979912758,
+      "learning_rate": 0.0008031764900419885,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 96241328,
+      "step": 44550
+    },
+    {
+      "epoch": 7.268352365415987,
+      "grad_norm": 0.12514592707157135,
+      "learning_rate": 0.000803119885087299,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 96253072,
+      "step": 44555
+    },
+    {
+      "epoch": 7.269168026101142,
+      "grad_norm": 0.052119843661785126,
+      "learning_rate": 0.0008030632739895004,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 96262928,
+      "step": 44560
+    },
+    {
+      "epoch": 7.269983686786297,
+      "grad_norm": 0.030936799943447113,
+      "learning_rate": 0.0008030066567497401,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 96274640,
+      "step": 44565
+    },
+    {
+      "epoch": 7.270799347471452,
+      "grad_norm": 0.00539214164018631,
+      "learning_rate": 0.0008029500333691656,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 96285104,
+      "step": 44570
+    },
+    {
+      "epoch": 7.271615008156607,
+      "grad_norm": 0.012339390814304352,
+      "learning_rate": 0.0008028934038489243,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 96296720,
+      "step": 44575
+    },
+    {
+      "epoch": 7.2724306688417615,
+      "grad_norm": 0.08805263042449951,
+      "learning_rate": 0.000802836768190164,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 96307280,
+      "step": 44580
+    },
+    {
+      "epoch": 7.273246329526917,
+      "grad_norm": 0.03065626323223114,
+      "learning_rate": 0.0008027801263940322,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 96317424,
+      "step": 44585
+    },
+    {
+      "epoch": 7.274061990212072,
+      "grad_norm": 0.2728951871395111,
+      "learning_rate": 0.0008027234784616773,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 96328528,
+      "step": 44590
+    },
+    {
+      "epoch": 7.274877650897227,
+      "grad_norm": 0.198155015707016,
+      "learning_rate": 0.0008026668243942469,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 96338864,
+      "step": 44595
+    },
+    {
+      "epoch": 7.275693311582382,
+      "grad_norm": 0.1933411955833435,
+      "learning_rate": 0.0008026101641928895,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 96349936,
+      "step": 44600
+    },
+    {
+      "epoch": 7.2765089722675365,
+      "grad_norm": 0.04269864410161972,
+      "learning_rate": 0.000802553497858753,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 96360944,
+      "step": 44605
+    },
+    {
+      "epoch": 7.277324632952691,
+      "grad_norm": 0.02413656748831272,
+      "learning_rate": 0.0008024968253929861,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 96372016,
+      "step": 44610
+    },
+    {
+      "epoch": 7.278140293637847,
+      "grad_norm": 0.0752306878566742,
+      "learning_rate": 0.0008024401467967375,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 96382064,
+      "step": 44615
+    },
+    {
+      "epoch": 7.278955954323002,
+      "grad_norm": 0.20823276042938232,
+      "learning_rate": 0.0008023834620711555,
+      "loss": 0.1745,
+      "num_input_tokens_seen": 96392592,
+      "step": 44620
+    },
+    {
+      "epoch": 7.279771615008157,
+      "grad_norm": 0.0009308802546001971,
+      "learning_rate": 0.000802326771217389,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 96403760,
+      "step": 44625
+    },
+    {
+      "epoch": 7.280587275693311,
+      "grad_norm": 0.06344801187515259,
+      "learning_rate": 0.0008022700742365871,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 96415600,
+      "step": 44630
+    },
+    {
+      "epoch": 7.281402936378466,
+      "grad_norm": 0.02278982475399971,
+      "learning_rate": 0.0008022133711298987,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 96424592,
+      "step": 44635
+    },
+    {
+      "epoch": 7.282218597063622,
+      "grad_norm": 0.2168564349412918,
+      "learning_rate": 0.0008021566618984728,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 96435376,
+      "step": 44640
+    },
+    {
+      "epoch": 7.283034257748777,
+      "grad_norm": 0.014572087675333023,
+      "learning_rate": 0.0008020999465434589,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 96445680,
+      "step": 44645
+    },
+    {
+      "epoch": 7.283849918433932,
+      "grad_norm": 0.003936320077627897,
+      "learning_rate": 0.0008020432250660063,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 96455440,
+      "step": 44650
+    },
+    {
+      "epoch": 7.284665579119086,
+      "grad_norm": 0.422513872385025,
+      "learning_rate": 0.0008019864974672646,
+      "loss": 0.077,
+      "num_input_tokens_seen": 96465328,
+      "step": 44655
+    },
+    {
+      "epoch": 7.285481239804241,
+      "grad_norm": 0.006895182654261589,
+      "learning_rate": 0.0008019297637483836,
+      "loss": 0.1485,
+      "num_input_tokens_seen": 96476304,
+      "step": 44660
+    },
+    {
+      "epoch": 7.286296900489396,
+      "grad_norm": 0.021543532609939575,
+      "learning_rate": 0.0008018730239105127,
+      "loss": 0.031,
+      "num_input_tokens_seen": 96486928,
+      "step": 44665
+    },
+    {
+      "epoch": 7.287112561174552,
+      "grad_norm": 0.08389617502689362,
+      "learning_rate": 0.000801816277954802,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 96496592,
+      "step": 44670
+    },
+    {
+      "epoch": 7.287928221859707,
+      "grad_norm": 0.0032530969474464655,
+      "learning_rate": 0.0008017595258824016,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 96507216,
+      "step": 44675
+    },
+    {
+      "epoch": 7.288743882544861,
+      "grad_norm": 0.052641693502664566,
+      "learning_rate": 0.0008017027676944617,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 96518160,
+      "step": 44680
+    },
+    {
+      "epoch": 7.289559543230016,
+      "grad_norm": 0.02181733213365078,
+      "learning_rate": 0.0008016460033921323,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 96531568,
+      "step": 44685
+    },
+    {
+      "epoch": 7.290375203915171,
+      "grad_norm": 0.14702098071575165,
+      "learning_rate": 0.0008015892329765642,
+      "loss": 0.199,
+      "num_input_tokens_seen": 96541840,
+      "step": 44690
+    },
+    {
+      "epoch": 7.291190864600326,
+      "grad_norm": 0.016916362568736076,
+      "learning_rate": 0.0008015324564489075,
+      "loss": 0.1729,
+      "num_input_tokens_seen": 96553072,
+      "step": 44695
+    },
+    {
+      "epoch": 7.2920065252854815,
+      "grad_norm": 0.02293366566300392,
+      "learning_rate": 0.0008014756738103132,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 96563568,
+      "step": 44700
+    },
+    {
+      "epoch": 7.292822185970636,
+      "grad_norm": 0.031679704785346985,
+      "learning_rate": 0.0008014188850619318,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 96573392,
+      "step": 44705
+    },
+    {
+      "epoch": 7.293637846655791,
+      "grad_norm": 0.06691129505634308,
+      "learning_rate": 0.0008013620902049143,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 96584464,
+      "step": 44710
+    },
+    {
+      "epoch": 7.294453507340946,
+      "grad_norm": 0.632112443447113,
+      "learning_rate": 0.0008013052892404118,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 96595824,
+      "step": 44715
+    },
+    {
+      "epoch": 7.295269168026101,
+      "grad_norm": 0.01686936616897583,
+      "learning_rate": 0.0008012484821695754,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 96607312,
+      "step": 44720
+    },
+    {
+      "epoch": 7.2960848287112565,
+      "grad_norm": 0.008439785800874233,
+      "learning_rate": 0.0008011916689935563,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 96617680,
+      "step": 44725
+    },
+    {
+      "epoch": 7.296900489396411,
+      "grad_norm": 0.020563535392284393,
+      "learning_rate": 0.000801134849713506,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 96627440,
+      "step": 44730
+    },
+    {
+      "epoch": 7.297716150081566,
+      "grad_norm": 0.012274558655917645,
+      "learning_rate": 0.0008010780243305758,
+      "loss": 0.054,
+      "num_input_tokens_seen": 96638064,
+      "step": 44735
+    },
+    {
+      "epoch": 7.298531810766721,
+      "grad_norm": 0.03836611658334732,
+      "learning_rate": 0.0008010211928459177,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 96649840,
+      "step": 44740
+    },
+    {
+      "epoch": 7.299347471451876,
+      "grad_norm": 0.02701750211417675,
+      "learning_rate": 0.0008009643552606831,
+      "loss": 0.008,
+      "num_input_tokens_seen": 96660784,
+      "step": 44745
+    },
+    {
+      "epoch": 7.300163132137031,
+      "grad_norm": 0.06201131269335747,
+      "learning_rate": 0.0008009075115760243,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 96672144,
+      "step": 44750
+    },
+    {
+      "epoch": 7.300978792822186,
+      "grad_norm": 0.004208603873848915,
+      "learning_rate": 0.0008008506617930926,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 96684784,
+      "step": 44755
+    },
+    {
+      "epoch": 7.301794453507341,
+      "grad_norm": 0.022887179628014565,
+      "learning_rate": 0.000800793805913041,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 96694576,
+      "step": 44760
+    },
+    {
+      "epoch": 7.302610114192496,
+      "grad_norm": 0.014200643636286259,
+      "learning_rate": 0.0008007369439370211,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 96705072,
+      "step": 44765
+    },
+    {
+      "epoch": 7.303425774877651,
+      "grad_norm": 0.0050778696313500404,
+      "learning_rate": 0.0008006800758661856,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 96716368,
+      "step": 44770
+    },
+    {
+      "epoch": 7.304241435562806,
+      "grad_norm": 0.09507616609334946,
+      "learning_rate": 0.000800623201701687,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 96726576,
+      "step": 44775
+    },
+    {
+      "epoch": 7.30505709624796,
+      "grad_norm": 0.009630247950553894,
+      "learning_rate": 0.0008005663214446777,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 96735952,
+      "step": 44780
+    },
+    {
+      "epoch": 7.305872756933116,
+      "grad_norm": 0.0041391802951693535,
+      "learning_rate": 0.0008005094350963107,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 96746064,
+      "step": 44785
+    },
+    {
+      "epoch": 7.306688417618271,
+      "grad_norm": 0.09530620276927948,
+      "learning_rate": 0.0008004525426577387,
+      "loss": 0.1831,
+      "num_input_tokens_seen": 96755504,
+      "step": 44790
+    },
+    {
+      "epoch": 7.307504078303426,
+      "grad_norm": 0.010489806532859802,
+      "learning_rate": 0.0008003956441301149,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 96766800,
+      "step": 44795
+    },
+    {
+      "epoch": 7.308319738988581,
+      "grad_norm": 0.05959814041852951,
+      "learning_rate": 0.0008003387395145922,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 96776944,
+      "step": 44800
+    },
+    {
+      "epoch": 7.309135399673735,
+      "grad_norm": 0.017102934420108795,
+      "learning_rate": 0.0008002818288123239,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 96788528,
+      "step": 44805
+    },
+    {
+      "epoch": 7.309951060358891,
+      "grad_norm": 0.06432080268859863,
+      "learning_rate": 0.0008002249120244635,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 96799632,
+      "step": 44810
+    },
+    {
+      "epoch": 7.310766721044046,
+      "grad_norm": 0.011474508792161942,
+      "learning_rate": 0.0008001679891521642,
+      "loss": 0.1318,
+      "num_input_tokens_seen": 96810288,
+      "step": 44815
+    },
+    {
+      "epoch": 7.311582381729201,
+      "grad_norm": 0.013832269236445427,
+      "learning_rate": 0.00080011106019658,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 96821360,
+      "step": 44820
+    },
+    {
+      "epoch": 7.3123980424143555,
+      "grad_norm": 0.3839665949344635,
+      "learning_rate": 0.0008000541251588644,
+      "loss": 0.1622,
+      "num_input_tokens_seen": 96832944,
+      "step": 44825
+    },
+    {
+      "epoch": 7.31321370309951,
+      "grad_norm": 0.1246161013841629,
+      "learning_rate": 0.0007999971840401714,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 96843824,
+      "step": 44830
+    },
+    {
+      "epoch": 7.314029363784665,
+      "grad_norm": 0.0059314328245818615,
+      "learning_rate": 0.0007999402368416548,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 96854416,
+      "step": 44835
+    },
+    {
+      "epoch": 7.314845024469821,
+      "grad_norm": 0.31664329767227173,
+      "learning_rate": 0.0007998832835644687,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 96864976,
+      "step": 44840
+    },
+    {
+      "epoch": 7.315660685154976,
+      "grad_norm": 0.28005892038345337,
+      "learning_rate": 0.0007998263242097675,
+      "loss": 0.1451,
+      "num_input_tokens_seen": 96876400,
+      "step": 44845
+    },
+    {
+      "epoch": 7.3164763458401305,
+      "grad_norm": 0.04676670581102371,
+      "learning_rate": 0.0007997693587787056,
+      "loss": 0.1371,
+      "num_input_tokens_seen": 96887152,
+      "step": 44850
+    },
+    {
+      "epoch": 7.317292006525285,
+      "grad_norm": 0.01653682440519333,
+      "learning_rate": 0.0007997123872724373,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 96896976,
+      "step": 44855
+    },
+    {
+      "epoch": 7.31810766721044,
+      "grad_norm": 0.011989987455308437,
+      "learning_rate": 0.0007996554096921172,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 96908048,
+      "step": 44860
+    },
+    {
+      "epoch": 7.318923327895595,
+      "grad_norm": 0.030787119641900063,
+      "learning_rate": 0.0007995984260389001,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 96918960,
+      "step": 44865
+    },
+    {
+      "epoch": 7.319738988580751,
+      "grad_norm": 0.16728070378303528,
+      "learning_rate": 0.0007995414363139408,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 96929520,
+      "step": 44870
+    },
+    {
+      "epoch": 7.3205546492659055,
+      "grad_norm": 0.009303702041506767,
+      "learning_rate": 0.0007994844405183944,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 96940560,
+      "step": 44875
+    },
+    {
+      "epoch": 7.32137030995106,
+      "grad_norm": 0.10620930045843124,
+      "learning_rate": 0.0007994274386534158,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 96952496,
+      "step": 44880
+    },
+    {
+      "epoch": 7.322185970636215,
+      "grad_norm": 0.251691609621048,
+      "learning_rate": 0.0007993704307201604,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 96963120,
+      "step": 44885
+    },
+    {
+      "epoch": 7.32300163132137,
+      "grad_norm": 0.12604647874832153,
+      "learning_rate": 0.0007993134167197833,
+      "loss": 0.1191,
+      "num_input_tokens_seen": 96973168,
+      "step": 44890
+    },
+    {
+      "epoch": 7.323817292006526,
+      "grad_norm": 0.040935318917036057,
+      "learning_rate": 0.0007992563966534403,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 96984240,
+      "step": 44895
+    },
+    {
+      "epoch": 7.3246329526916805,
+      "grad_norm": 0.020672090351581573,
+      "learning_rate": 0.0007991993705222867,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 96995504,
+      "step": 44900
+    },
+    {
+      "epoch": 7.325448613376835,
+      "grad_norm": 0.3290887176990509,
+      "learning_rate": 0.0007991423383274782,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 97007312,
+      "step": 44905
+    },
+    {
+      "epoch": 7.32626427406199,
+      "grad_norm": 0.05711958557367325,
+      "learning_rate": 0.0007990853000701708,
+      "loss": 0.067,
+      "num_input_tokens_seen": 97019408,
+      "step": 44910
+    },
+    {
+      "epoch": 7.327079934747145,
+      "grad_norm": 0.05303024500608444,
+      "learning_rate": 0.0007990282557515204,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 97031344,
+      "step": 44915
+    },
+    {
+      "epoch": 7.327895595432301,
+      "grad_norm": 0.005337063688784838,
+      "learning_rate": 0.0007989712053726829,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 97041648,
+      "step": 44920
+    },
+    {
+      "epoch": 7.328711256117455,
+      "grad_norm": 0.032504886388778687,
+      "learning_rate": 0.0007989141489348149,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 97052432,
+      "step": 44925
+    },
+    {
+      "epoch": 7.32952691680261,
+      "grad_norm": 0.07863004505634308,
+      "learning_rate": 0.0007988570864390723,
+      "loss": 0.1965,
+      "num_input_tokens_seen": 97062928,
+      "step": 44930
+    },
+    {
+      "epoch": 7.330342577487765,
+      "grad_norm": 0.07831018418073654,
+      "learning_rate": 0.0007988000178866117,
+      "loss": 0.1547,
+      "num_input_tokens_seen": 97073968,
+      "step": 44935
+    },
+    {
+      "epoch": 7.33115823817292,
+      "grad_norm": 0.17209608852863312,
+      "learning_rate": 0.0007987429432785897,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 97085520,
+      "step": 44940
+    },
+    {
+      "epoch": 7.331973898858075,
+      "grad_norm": 0.037289805710315704,
+      "learning_rate": 0.000798685862616163,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 97096080,
+      "step": 44945
+    },
+    {
+      "epoch": 7.33278955954323,
+      "grad_norm": 0.05421232804656029,
+      "learning_rate": 0.0007986287759004884,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 97107152,
+      "step": 44950
+    },
+    {
+      "epoch": 7.333605220228385,
+      "grad_norm": 0.01405141968280077,
+      "learning_rate": 0.000798571683132723,
+      "loss": 0.0802,
+      "num_input_tokens_seen": 97117296,
+      "step": 44955
+    },
+    {
+      "epoch": 7.33442088091354,
+      "grad_norm": 0.015522617846727371,
+      "learning_rate": 0.0007985145843140233,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 97127440,
+      "step": 44960
+    },
+    {
+      "epoch": 7.335236541598695,
+      "grad_norm": 0.09611742943525314,
+      "learning_rate": 0.0007984574794455472,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 97138288,
+      "step": 44965
+    },
+    {
+      "epoch": 7.33605220228385,
+      "grad_norm": 0.2853439450263977,
+      "learning_rate": 0.0007984003685284516,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 97150864,
+      "step": 44970
+    },
+    {
+      "epoch": 7.3368678629690045,
+      "grad_norm": 0.14586283266544342,
+      "learning_rate": 0.0007983432515638937,
+      "loss": 0.023,
+      "num_input_tokens_seen": 97161776,
+      "step": 44975
+    },
+    {
+      "epoch": 7.33768352365416,
+      "grad_norm": 0.03794190287590027,
+      "learning_rate": 0.0007982861285530317,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 97175184,
+      "step": 44980
+    },
+    {
+      "epoch": 7.338499184339315,
+      "grad_norm": 0.07810980826616287,
+      "learning_rate": 0.0007982289994970227,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 97185488,
+      "step": 44985
+    },
+    {
+      "epoch": 7.33931484502447,
+      "grad_norm": 0.07301853597164154,
+      "learning_rate": 0.0007981718643970246,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 97196368,
+      "step": 44990
+    },
+    {
+      "epoch": 7.340130505709625,
+      "grad_norm": 0.00231625372543931,
+      "learning_rate": 0.0007981147232541956,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 97205872,
+      "step": 44995
+    },
+    {
+      "epoch": 7.3409461663947795,
+      "grad_norm": 0.007339373230934143,
+      "learning_rate": 0.0007980575760696935,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 97217072,
+      "step": 45000
+    },
+    {
+      "epoch": 7.341761827079935,
+      "grad_norm": 0.002107437001541257,
+      "learning_rate": 0.0007980004228446765,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 97227216,
+      "step": 45005
+    },
+    {
+      "epoch": 7.34257748776509,
+      "grad_norm": 0.4507990777492523,
+      "learning_rate": 0.0007979432635803029,
+      "loss": 0.2407,
+      "num_input_tokens_seen": 97238064,
+      "step": 45010
+    },
+    {
+      "epoch": 7.343393148450245,
+      "grad_norm": 0.054382532835006714,
+      "learning_rate": 0.000797886098277731,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 97249328,
+      "step": 45015
+    },
+    {
+      "epoch": 7.3442088091354,
+      "grad_norm": 0.04891600459814072,
+      "learning_rate": 0.0007978289269381196,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 97260144,
+      "step": 45020
+    },
+    {
+      "epoch": 7.3450244698205545,
+      "grad_norm": 0.4334297180175781,
+      "learning_rate": 0.0007977717495626271,
+      "loss": 0.1371,
+      "num_input_tokens_seen": 97271024,
+      "step": 45025
+    },
+    {
+      "epoch": 7.345840130505709,
+      "grad_norm": 0.024992918595671654,
+      "learning_rate": 0.0007977145661524123,
+      "loss": 0.1881,
+      "num_input_tokens_seen": 97281776,
+      "step": 45030
+    },
+    {
+      "epoch": 7.346655791190865,
+      "grad_norm": 0.06149057671427727,
+      "learning_rate": 0.000797657376708634,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 97292368,
+      "step": 45035
+    },
+    {
+      "epoch": 7.34747145187602,
+      "grad_norm": 0.3460540175437927,
+      "learning_rate": 0.0007976001812324516,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 97303088,
+      "step": 45040
+    },
+    {
+      "epoch": 7.348287112561175,
+      "grad_norm": 0.05683022737503052,
+      "learning_rate": 0.0007975429797250239,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 97313776,
+      "step": 45045
+    },
+    {
+      "epoch": 7.349102773246329,
+      "grad_norm": 0.1997668594121933,
+      "learning_rate": 0.0007974857721875102,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 97323952,
+      "step": 45050
+    },
+    {
+      "epoch": 7.349918433931484,
+      "grad_norm": 0.06268063187599182,
+      "learning_rate": 0.0007974285586210701,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 97334448,
+      "step": 45055
+    },
+    {
+      "epoch": 7.350734094616639,
+      "grad_norm": 0.010480429045855999,
+      "learning_rate": 0.0007973713390268629,
+      "loss": 0.0375,
+      "num_input_tokens_seen": 97345360,
+      "step": 45060
+    },
+    {
+      "epoch": 7.351549755301795,
+      "grad_norm": 0.006281863432377577,
+      "learning_rate": 0.0007973141134060483,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 97356080,
+      "step": 45065
+    },
+    {
+      "epoch": 7.35236541598695,
+      "grad_norm": 0.10553544759750366,
+      "learning_rate": 0.0007972568817597857,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 97367248,
+      "step": 45070
+    },
+    {
+      "epoch": 7.353181076672104,
+      "grad_norm": 0.1673373132944107,
+      "learning_rate": 0.0007971996440892356,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 97378000,
+      "step": 45075
+    },
+    {
+      "epoch": 7.353996737357259,
+      "grad_norm": 0.13530519604682922,
+      "learning_rate": 0.0007971424003955577,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 97388432,
+      "step": 45080
+    },
+    {
+      "epoch": 7.354812398042414,
+      "grad_norm": 0.02766413986682892,
+      "learning_rate": 0.0007970851506799119,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 97397520,
+      "step": 45085
+    },
+    {
+      "epoch": 7.35562805872757,
+      "grad_norm": 0.0584256574511528,
+      "learning_rate": 0.0007970278949434588,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 97407952,
+      "step": 45090
+    },
+    {
+      "epoch": 7.356443719412725,
+      "grad_norm": 0.28726014494895935,
+      "learning_rate": 0.0007969706331873586,
+      "loss": 0.2492,
+      "num_input_tokens_seen": 97419824,
+      "step": 45095
+    },
+    {
+      "epoch": 7.357259380097879,
+      "grad_norm": 0.2784290313720703,
+      "learning_rate": 0.0007969133654127718,
+      "loss": 0.1095,
+      "num_input_tokens_seen": 97431056,
+      "step": 45100
+    },
+    {
+      "epoch": 7.358075040783034,
+      "grad_norm": 0.07640790939331055,
+      "learning_rate": 0.0007968560916208589,
+      "loss": 0.016,
+      "num_input_tokens_seen": 97440976,
+      "step": 45105
+    },
+    {
+      "epoch": 7.358890701468189,
+      "grad_norm": 0.06213083863258362,
+      "learning_rate": 0.0007967988118127808,
+      "loss": 0.1767,
+      "num_input_tokens_seen": 97452720,
+      "step": 45110
+    },
+    {
+      "epoch": 7.359706362153344,
+      "grad_norm": 0.0668218657374382,
+      "learning_rate": 0.0007967415259896982,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 97464240,
+      "step": 45115
+    },
+    {
+      "epoch": 7.3605220228384995,
+      "grad_norm": 0.038856931030750275,
+      "learning_rate": 0.0007966842341527722,
+      "loss": 0.021,
+      "num_input_tokens_seen": 97474032,
+      "step": 45120
+    },
+    {
+      "epoch": 7.361337683523654,
+      "grad_norm": 0.03655475750565529,
+      "learning_rate": 0.0007966269363031637,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 97483952,
+      "step": 45125
+    },
+    {
+      "epoch": 7.362153344208809,
+      "grad_norm": 0.005070575047284365,
+      "learning_rate": 0.0007965696324420342,
+      "loss": 0.045,
+      "num_input_tokens_seen": 97495728,
+      "step": 45130
+    },
+    {
+      "epoch": 7.362969004893964,
+      "grad_norm": 0.007292062509804964,
+      "learning_rate": 0.0007965123225705447,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 97507216,
+      "step": 45135
+    },
+    {
+      "epoch": 7.363784665579119,
+      "grad_norm": 0.028081052005290985,
+      "learning_rate": 0.000796455006689857,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 97516880,
+      "step": 45140
+    },
+    {
+      "epoch": 7.364600326264274,
+      "grad_norm": 0.19714754819869995,
+      "learning_rate": 0.0007963976848011324,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 97526928,
+      "step": 45145
+    },
+    {
+      "epoch": 7.365415986949429,
+      "grad_norm": 0.006840975489467382,
+      "learning_rate": 0.0007963403569055328,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 97538192,
+      "step": 45150
+    },
+    {
+      "epoch": 7.366231647634584,
+      "grad_norm": 0.016417210921645164,
+      "learning_rate": 0.0007962830230042197,
+      "loss": 0.009,
+      "num_input_tokens_seen": 97547024,
+      "step": 45155
+    },
+    {
+      "epoch": 7.367047308319739,
+      "grad_norm": 0.15059006214141846,
+      "learning_rate": 0.0007962256830983556,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 97557840,
+      "step": 45160
+    },
+    {
+      "epoch": 7.367862969004894,
+      "grad_norm": 0.01066130492836237,
+      "learning_rate": 0.0007961683371891019,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 97569616,
+      "step": 45165
+    },
+    {
+      "epoch": 7.368678629690049,
+      "grad_norm": 0.017685212194919586,
+      "learning_rate": 0.0007961109852776214,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 97580944,
+      "step": 45170
+    },
+    {
+      "epoch": 7.369494290375204,
+      "grad_norm": 0.046484678983688354,
+      "learning_rate": 0.0007960536273650761,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 97590512,
+      "step": 45175
+    },
+    {
+      "epoch": 7.370309951060359,
+      "grad_norm": 0.07047548145055771,
+      "learning_rate": 0.0007959962634526285,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 97600944,
+      "step": 45180
+    },
+    {
+      "epoch": 7.371125611745514,
+      "grad_norm": 0.06450872123241425,
+      "learning_rate": 0.0007959388935414411,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 97611952,
+      "step": 45185
+    },
+    {
+      "epoch": 7.371941272430669,
+      "grad_norm": 0.24986594915390015,
+      "learning_rate": 0.0007958815176326764,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 97624208,
+      "step": 45190
+    },
+    {
+      "epoch": 7.372756933115824,
+      "grad_norm": 0.19626054167747498,
+      "learning_rate": 0.0007958241357274976,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 97635152,
+      "step": 45195
+    },
+    {
+      "epoch": 7.373572593800978,
+      "grad_norm": 0.01864909753203392,
+      "learning_rate": 0.0007957667478270674,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 97646064,
+      "step": 45200
+    },
+    {
+      "epoch": 7.374388254486134,
+      "grad_norm": 0.025611115619540215,
+      "learning_rate": 0.0007957093539325489,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 97657232,
+      "step": 45205
+    },
+    {
+      "epoch": 7.375203915171289,
+      "grad_norm": 0.17264457046985626,
+      "learning_rate": 0.000795651954045105,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 97668176,
+      "step": 45210
+    },
+    {
+      "epoch": 7.376019575856444,
+      "grad_norm": 0.021459899842739105,
+      "learning_rate": 0.0007955945481658992,
+      "loss": 0.069,
+      "num_input_tokens_seen": 97678480,
+      "step": 45215
+    },
+    {
+      "epoch": 7.376835236541599,
+      "grad_norm": 0.008294719271361828,
+      "learning_rate": 0.0007955371362960951,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 97688944,
+      "step": 45220
+    },
+    {
+      "epoch": 7.377650897226753,
+      "grad_norm": 0.11790649592876434,
+      "learning_rate": 0.000795479718436856,
+      "loss": 0.1997,
+      "num_input_tokens_seen": 97700592,
+      "step": 45225
+    },
+    {
+      "epoch": 7.378466557911908,
+      "grad_norm": 0.0033008514437824488,
+      "learning_rate": 0.0007954222945893455,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 97710224,
+      "step": 45230
+    },
+    {
+      "epoch": 7.379282218597064,
+      "grad_norm": 0.1821359246969223,
+      "learning_rate": 0.0007953648647547274,
+      "loss": 0.1602,
+      "num_input_tokens_seen": 97720976,
+      "step": 45235
+    },
+    {
+      "epoch": 7.380097879282219,
+      "grad_norm": 0.03195223957300186,
+      "learning_rate": 0.0007953074289341655,
+      "loss": 0.1326,
+      "num_input_tokens_seen": 97732752,
+      "step": 45240
+    },
+    {
+      "epoch": 7.3809135399673735,
+      "grad_norm": 0.008191731758415699,
+      "learning_rate": 0.0007952499871288241,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 97741648,
+      "step": 45245
+    },
+    {
+      "epoch": 7.381729200652528,
+      "grad_norm": 0.28001055121421814,
+      "learning_rate": 0.0007951925393398672,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 97752816,
+      "step": 45250
+    },
+    {
+      "epoch": 7.382544861337683,
+      "grad_norm": 0.13458704948425293,
+      "learning_rate": 0.0007951350855684588,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 97762864,
+      "step": 45255
+    },
+    {
+      "epoch": 7.383360522022839,
+      "grad_norm": 0.14959220588207245,
+      "learning_rate": 0.0007950776258157637,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 97773424,
+      "step": 45260
+    },
+    {
+      "epoch": 7.384176182707994,
+      "grad_norm": 0.20786850154399872,
+      "learning_rate": 0.000795020160082946,
+      "loss": 0.1556,
+      "num_input_tokens_seen": 97783088,
+      "step": 45265
+    },
+    {
+      "epoch": 7.3849918433931485,
+      "grad_norm": 0.012430977076292038,
+      "learning_rate": 0.0007949626883711707,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 97794032,
+      "step": 45270
+    },
+    {
+      "epoch": 7.385807504078303,
+      "grad_norm": 0.01813976839184761,
+      "learning_rate": 0.0007949052106816022,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 97804336,
+      "step": 45275
+    },
+    {
+      "epoch": 7.386623164763458,
+      "grad_norm": 0.2485961616039276,
+      "learning_rate": 0.0007948477270154056,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 97815312,
+      "step": 45280
+    },
+    {
+      "epoch": 7.387438825448613,
+      "grad_norm": 0.021446917206048965,
+      "learning_rate": 0.0007947902373737456,
+      "loss": 0.024,
+      "num_input_tokens_seen": 97825872,
+      "step": 45285
+    },
+    {
+      "epoch": 7.388254486133769,
+      "grad_norm": 0.002523197792470455,
+      "learning_rate": 0.0007947327417577875,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 97836656,
+      "step": 45290
+    },
+    {
+      "epoch": 7.3890701468189235,
+      "grad_norm": 0.006098889745771885,
+      "learning_rate": 0.0007946752401686966,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 97847824,
+      "step": 45295
+    },
+    {
+      "epoch": 7.389885807504078,
+      "grad_norm": 0.04989955946803093,
+      "learning_rate": 0.000794617732607638,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 97857904,
+      "step": 45300
+    },
+    {
+      "epoch": 7.390701468189233,
+      "grad_norm": 0.24254950881004333,
+      "learning_rate": 0.0007945602190757775,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 97867824,
+      "step": 45305
+    },
+    {
+      "epoch": 7.391517128874388,
+      "grad_norm": 0.007170901633799076,
+      "learning_rate": 0.0007945026995742803,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 97876976,
+      "step": 45310
+    },
+    {
+      "epoch": 7.392332789559543,
+      "grad_norm": 0.033077552914619446,
+      "learning_rate": 0.0007944451741043124,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 97887568,
+      "step": 45315
+    },
+    {
+      "epoch": 7.3931484502446985,
+      "grad_norm": 0.03981386125087738,
+      "learning_rate": 0.0007943876426670395,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 97898576,
+      "step": 45320
+    },
+    {
+      "epoch": 7.393964110929853,
+      "grad_norm": 0.027024945244193077,
+      "learning_rate": 0.0007943301052636276,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 97909072,
+      "step": 45325
+    },
+    {
+      "epoch": 7.394779771615008,
+      "grad_norm": 0.02054162509739399,
+      "learning_rate": 0.0007942725618952426,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 97920016,
+      "step": 45330
+    },
+    {
+      "epoch": 7.395595432300163,
+      "grad_norm": 0.0020551327615976334,
+      "learning_rate": 0.000794215012563051,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 97931888,
+      "step": 45335
+    },
+    {
+      "epoch": 7.396411092985318,
+      "grad_norm": 0.1443719118833542,
+      "learning_rate": 0.0007941574572682187,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 97942896,
+      "step": 45340
+    },
+    {
+      "epoch": 7.397226753670473,
+      "grad_norm": 0.0606955960392952,
+      "learning_rate": 0.0007940998960119126,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 97955152,
+      "step": 45345
+    },
+    {
+      "epoch": 7.398042414355628,
+      "grad_norm": 0.016795361414551735,
+      "learning_rate": 0.0007940423287952989,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 97965776,
+      "step": 45350
+    },
+    {
+      "epoch": 7.398858075040783,
+      "grad_norm": 0.004982766695320606,
+      "learning_rate": 0.0007939847556195443,
+      "loss": 0.014,
+      "num_input_tokens_seen": 97976240,
+      "step": 45355
+    },
+    {
+      "epoch": 7.399673735725938,
+      "grad_norm": 0.004065237939357758,
+      "learning_rate": 0.0007939271764858158,
+      "loss": 0.1471,
+      "num_input_tokens_seen": 97986800,
+      "step": 45360
+    },
+    {
+      "epoch": 7.400489396411093,
+      "grad_norm": 0.3481471836566925,
+      "learning_rate": 0.0007938695913952802,
+      "loss": 0.1904,
+      "num_input_tokens_seen": 97997840,
+      "step": 45365
+    },
+    {
+      "epoch": 7.401305057096248,
+      "grad_norm": 0.006440913304686546,
+      "learning_rate": 0.0007938120003491045,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 98008688,
+      "step": 45370
+    },
+    {
+      "epoch": 7.402120717781403,
+      "grad_norm": 0.0016812963876873255,
+      "learning_rate": 0.0007937544033484558,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 98019920,
+      "step": 45375
+    },
+    {
+      "epoch": 7.402936378466558,
+      "grad_norm": 0.004809595178812742,
+      "learning_rate": 0.0007936968003945015,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 98030576,
+      "step": 45380
+    },
+    {
+      "epoch": 7.403752039151713,
+      "grad_norm": 0.057477615773677826,
+      "learning_rate": 0.0007936391914884092,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 98041104,
+      "step": 45385
+    },
+    {
+      "epoch": 7.404567699836868,
+      "grad_norm": 0.009014656767249107,
+      "learning_rate": 0.0007935815766313459,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 98052048,
+      "step": 45390
+    },
+    {
+      "epoch": 7.4053833605220225,
+      "grad_norm": 0.1354934573173523,
+      "learning_rate": 0.0007935239558244795,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 98062384,
+      "step": 45395
+    },
+    {
+      "epoch": 7.406199021207178,
+      "grad_norm": 0.17773400247097015,
+      "learning_rate": 0.000793466329068978,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 98073232,
+      "step": 45400
+    },
+    {
+      "epoch": 7.407014681892333,
+      "grad_norm": 0.07813189923763275,
+      "learning_rate": 0.000793408696366009,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 98085232,
+      "step": 45405
+    },
+    {
+      "epoch": 7.407830342577488,
+      "grad_norm": 0.035286080092191696,
+      "learning_rate": 0.0007933510577167404,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 98095824,
+      "step": 45410
+    },
+    {
+      "epoch": 7.408646003262643,
+      "grad_norm": 0.1701454520225525,
+      "learning_rate": 0.0007932934131223406,
+      "loss": 0.3416,
+      "num_input_tokens_seen": 98106640,
+      "step": 45415
+    },
+    {
+      "epoch": 7.4094616639477975,
+      "grad_norm": 0.011776736006140709,
+      "learning_rate": 0.0007932357625839776,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 98118384,
+      "step": 45420
+    },
+    {
+      "epoch": 7.410277324632952,
+      "grad_norm": 0.2138156294822693,
+      "learning_rate": 0.0007931781061028201,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 98129168,
+      "step": 45425
+    },
+    {
+      "epoch": 7.411092985318108,
+      "grad_norm": 0.01285554189234972,
+      "learning_rate": 0.0007931204436800361,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 98139408,
+      "step": 45430
+    },
+    {
+      "epoch": 7.411908646003263,
+      "grad_norm": 0.2702222764492035,
+      "learning_rate": 0.0007930627753167945,
+      "loss": 0.1871,
+      "num_input_tokens_seen": 98149744,
+      "step": 45435
+    },
+    {
+      "epoch": 7.412724306688418,
+      "grad_norm": 0.1068132221698761,
+      "learning_rate": 0.0007930051010142641,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 98160528,
+      "step": 45440
+    },
+    {
+      "epoch": 7.4135399673735725,
+      "grad_norm": 0.13657432794570923,
+      "learning_rate": 0.0007929474207736136,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 98170768,
+      "step": 45445
+    },
+    {
+      "epoch": 7.414355628058727,
+      "grad_norm": 0.0018624071963131428,
+      "learning_rate": 0.000792889734596012,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 98180816,
+      "step": 45450
+    },
+    {
+      "epoch": 7.415171288743883,
+      "grad_norm": 0.00952328834682703,
+      "learning_rate": 0.0007928320424826284,
+      "loss": 0.1863,
+      "num_input_tokens_seen": 98191376,
+      "step": 45455
+    },
+    {
+      "epoch": 7.415986949429038,
+      "grad_norm": 0.0030028768815100193,
+      "learning_rate": 0.0007927743444346317,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 98202320,
+      "step": 45460
+    },
+    {
+      "epoch": 7.416802610114193,
+      "grad_norm": 0.555898904800415,
+      "learning_rate": 0.0007927166404531916,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 98212912,
+      "step": 45465
+    },
+    {
+      "epoch": 7.417618270799347,
+      "grad_norm": 0.010686096735298634,
+      "learning_rate": 0.0007926589305394776,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 98224688,
+      "step": 45470
+    },
+    {
+      "epoch": 7.418433931484502,
+      "grad_norm": 0.1383063644170761,
+      "learning_rate": 0.0007926012146946591,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 98235216,
+      "step": 45475
+    },
+    {
+      "epoch": 7.419249592169657,
+      "grad_norm": 0.14411990344524384,
+      "learning_rate": 0.0007925434929199058,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 98245104,
+      "step": 45480
+    },
+    {
+      "epoch": 7.420065252854813,
+      "grad_norm": 0.15971876680850983,
+      "learning_rate": 0.0007924857652163873,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 98256912,
+      "step": 45485
+    },
+    {
+      "epoch": 7.420880913539968,
+      "grad_norm": 0.009572381153702736,
+      "learning_rate": 0.0007924280315852739,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 98266992,
+      "step": 45490
+    },
+    {
+      "epoch": 7.421696574225122,
+      "grad_norm": 0.01877368800342083,
+      "learning_rate": 0.0007923702920277355,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 98277488,
+      "step": 45495
+    },
+    {
+      "epoch": 7.422512234910277,
+      "grad_norm": 0.5380867123603821,
+      "learning_rate": 0.0007923125465449421,
+      "loss": 0.1168,
+      "num_input_tokens_seen": 98287408,
+      "step": 45500
+    },
+    {
+      "epoch": 7.423327895595432,
+      "grad_norm": 0.017852267250418663,
+      "learning_rate": 0.0007922547951380643,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 98299568,
+      "step": 45505
+    },
+    {
+      "epoch": 7.424143556280587,
+      "grad_norm": 0.0074815042316913605,
+      "learning_rate": 0.0007921970378082722,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 98310800,
+      "step": 45510
+    },
+    {
+      "epoch": 7.424959216965743,
+      "grad_norm": 0.4314858317375183,
+      "learning_rate": 0.0007921392745567364,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 98321104,
+      "step": 45515
+    },
+    {
+      "epoch": 7.425774877650897,
+      "grad_norm": 0.012821875512599945,
+      "learning_rate": 0.0007920815053846277,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 98331312,
+      "step": 45520
+    },
+    {
+      "epoch": 7.426590538336052,
+      "grad_norm": 0.10156050324440002,
+      "learning_rate": 0.0007920237302931167,
+      "loss": 0.049,
+      "num_input_tokens_seen": 98341584,
+      "step": 45525
+    },
+    {
+      "epoch": 7.427406199021207,
+      "grad_norm": 0.08236122131347656,
+      "learning_rate": 0.0007919659492833744,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 98351024,
+      "step": 45530
+    },
+    {
+      "epoch": 7.428221859706362,
+      "grad_norm": 0.549354076385498,
+      "learning_rate": 0.0007919081623565717,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 98362224,
+      "step": 45535
+    },
+    {
+      "epoch": 7.4290375203915175,
+      "grad_norm": 0.21111354231834412,
+      "learning_rate": 0.0007918503695138799,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 98373616,
+      "step": 45540
+    },
+    {
+      "epoch": 7.429853181076672,
+      "grad_norm": 0.015019206330180168,
+      "learning_rate": 0.0007917925707564699,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 98384464,
+      "step": 45545
+    },
+    {
+      "epoch": 7.430668841761827,
+      "grad_norm": 0.2213941514492035,
+      "learning_rate": 0.0007917347660855134,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 98394544,
+      "step": 45550
+    },
+    {
+      "epoch": 7.431484502446982,
+      "grad_norm": 0.2764107286930084,
+      "learning_rate": 0.0007916769555021819,
+      "loss": 0.258,
+      "num_input_tokens_seen": 98405904,
+      "step": 45555
+    },
+    {
+      "epoch": 7.432300163132137,
+      "grad_norm": 0.005178771913051605,
+      "learning_rate": 0.0007916191390076468,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 98417296,
+      "step": 45560
+    },
+    {
+      "epoch": 7.433115823817292,
+      "grad_norm": 0.006140346638858318,
+      "learning_rate": 0.0007915613166030799,
+      "loss": 0.1488,
+      "num_input_tokens_seen": 98428496,
+      "step": 45565
+    },
+    {
+      "epoch": 7.433931484502447,
+      "grad_norm": 0.05736982077360153,
+      "learning_rate": 0.0007915034882896528,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 98438480,
+      "step": 45570
+    },
+    {
+      "epoch": 7.434747145187602,
+      "grad_norm": 0.018076226115226746,
+      "learning_rate": 0.0007914456540685379,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 98448784,
+      "step": 45575
+    },
+    {
+      "epoch": 7.435562805872757,
+      "grad_norm": 0.5139619708061218,
+      "learning_rate": 0.0007913878139409072,
+      "loss": 0.1692,
+      "num_input_tokens_seen": 98459952,
+      "step": 45580
+    },
+    {
+      "epoch": 7.436378466557912,
+      "grad_norm": 0.09341350197792053,
+      "learning_rate": 0.0007913299679079326,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 98470256,
+      "step": 45585
+    },
+    {
+      "epoch": 7.437194127243067,
+      "grad_norm": 0.025008317083120346,
+      "learning_rate": 0.000791272115970787,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 98481552,
+      "step": 45590
+    },
+    {
+      "epoch": 7.438009787928221,
+      "grad_norm": 0.031664974987506866,
+      "learning_rate": 0.0007912142581306421,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 98492208,
+      "step": 45595
+    },
+    {
+      "epoch": 7.438825448613377,
+      "grad_norm": 0.28572022914886475,
+      "learning_rate": 0.0007911563943886709,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 98502672,
+      "step": 45600
+    },
+    {
+      "epoch": 7.439641109298532,
+      "grad_norm": 0.051957886666059494,
+      "learning_rate": 0.000791098524746046,
+      "loss": 0.074,
+      "num_input_tokens_seen": 98514000,
+      "step": 45605
+    },
+    {
+      "epoch": 7.440456769983687,
+      "grad_norm": 0.10540501028299332,
+      "learning_rate": 0.0007910406492039404,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 98525712,
+      "step": 45610
+    },
+    {
+      "epoch": 7.441272430668842,
+      "grad_norm": 0.00548113789409399,
+      "learning_rate": 0.0007909827677635267,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 98535984,
+      "step": 45615
+    },
+    {
+      "epoch": 7.442088091353996,
+      "grad_norm": 0.07310794293880463,
+      "learning_rate": 0.000790924880425978,
+      "loss": 0.049,
+      "num_input_tokens_seen": 98548016,
+      "step": 45620
+    },
+    {
+      "epoch": 7.442903752039152,
+      "grad_norm": 0.05371404439210892,
+      "learning_rate": 0.0007908669871924676,
+      "loss": 0.102,
+      "num_input_tokens_seen": 98558736,
+      "step": 45625
+    },
+    {
+      "epoch": 7.443719412724307,
+      "grad_norm": 0.033556073904037476,
+      "learning_rate": 0.0007908090880641688,
+      "loss": 0.148,
+      "num_input_tokens_seen": 98570192,
+      "step": 45630
+    },
+    {
+      "epoch": 7.444535073409462,
+      "grad_norm": 0.011591989547014236,
+      "learning_rate": 0.0007907511830422547,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 98582320,
+      "step": 45635
+    },
+    {
+      "epoch": 7.445350734094617,
+      "grad_norm": 0.30247440934181213,
+      "learning_rate": 0.0007906932721278992,
+      "loss": 0.181,
+      "num_input_tokens_seen": 98592656,
+      "step": 45640
+    },
+    {
+      "epoch": 7.446166394779771,
+      "grad_norm": 0.004149232525378466,
+      "learning_rate": 0.0007906353553222757,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 98601936,
+      "step": 45645
+    },
+    {
+      "epoch": 7.446982055464926,
+      "grad_norm": 0.2527449131011963,
+      "learning_rate": 0.000790577432626558,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 98613424,
+      "step": 45650
+    },
+    {
+      "epoch": 7.447797716150082,
+      "grad_norm": 0.012989042326807976,
+      "learning_rate": 0.0007905195040419202,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 98623056,
+      "step": 45655
+    },
+    {
+      "epoch": 7.448613376835237,
+      "grad_norm": 0.014558068476617336,
+      "learning_rate": 0.0007904615695695359,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 98633904,
+      "step": 45660
+    },
+    {
+      "epoch": 7.4494290375203915,
+      "grad_norm": 0.037499744445085526,
+      "learning_rate": 0.0007904036292105794,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 98644560,
+      "step": 45665
+    },
+    {
+      "epoch": 7.450244698205546,
+      "grad_norm": 0.06032086908817291,
+      "learning_rate": 0.000790345682966225,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 98655216,
+      "step": 45670
+    },
+    {
+      "epoch": 7.451060358890701,
+      "grad_norm": 0.035724010318517685,
+      "learning_rate": 0.000790287730837647,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 98666288,
+      "step": 45675
+    },
+    {
+      "epoch": 7.451876019575856,
+      "grad_norm": 0.19834664463996887,
+      "learning_rate": 0.0007902297728260199,
+      "loss": 0.1434,
+      "num_input_tokens_seen": 98677584,
+      "step": 45680
+    },
+    {
+      "epoch": 7.452691680261012,
+      "grad_norm": 0.11141058057546616,
+      "learning_rate": 0.0007901718089325183,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 98688016,
+      "step": 45685
+    },
+    {
+      "epoch": 7.4535073409461665,
+      "grad_norm": 0.04874371364712715,
+      "learning_rate": 0.0007901138391583169,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 98698960,
+      "step": 45690
+    },
+    {
+      "epoch": 7.454323001631321,
+      "grad_norm": 0.09582873433828354,
+      "learning_rate": 0.0007900558635045904,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 98709456,
+      "step": 45695
+    },
+    {
+      "epoch": 7.455138662316476,
+      "grad_norm": 0.10680019855499268,
+      "learning_rate": 0.000789997881972514,
+      "loss": 0.13,
+      "num_input_tokens_seen": 98720752,
+      "step": 45700
+    },
+    {
+      "epoch": 7.455954323001631,
+      "grad_norm": 0.007165440358221531,
+      "learning_rate": 0.0007899398945632626,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 98731856,
+      "step": 45705
+    },
+    {
+      "epoch": 7.456769983686787,
+      "grad_norm": 0.03316681459546089,
+      "learning_rate": 0.0007898819012780114,
+      "loss": 0.245,
+      "num_input_tokens_seen": 98742160,
+      "step": 45710
+    },
+    {
+      "epoch": 7.4575856443719415,
+      "grad_norm": 0.22914770245552063,
+      "learning_rate": 0.0007898239021179356,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 98751568,
+      "step": 45715
+    },
+    {
+      "epoch": 7.458401305057096,
+      "grad_norm": 0.251247763633728,
+      "learning_rate": 0.000789765897084211,
+      "loss": 0.1455,
+      "num_input_tokens_seen": 98763664,
+      "step": 45720
+    },
+    {
+      "epoch": 7.459216965742251,
+      "grad_norm": 0.023140182718634605,
+      "learning_rate": 0.0007897078861780127,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 98774640,
+      "step": 45725
+    },
+    {
+      "epoch": 7.460032626427406,
+      "grad_norm": 0.15593160688877106,
+      "learning_rate": 0.0007896498694005168,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 98784656,
+      "step": 45730
+    },
+    {
+      "epoch": 7.460848287112561,
+      "grad_norm": 0.060400452464818954,
+      "learning_rate": 0.0007895918467528987,
+      "loss": 0.087,
+      "num_input_tokens_seen": 98795792,
+      "step": 45735
+    },
+    {
+      "epoch": 7.4616639477977165,
+      "grad_norm": 0.008460725657641888,
+      "learning_rate": 0.0007895338182363343,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 98806416,
+      "step": 45740
+    },
+    {
+      "epoch": 7.462479608482871,
+      "grad_norm": 0.11589276045560837,
+      "learning_rate": 0.0007894757838519999,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 98817616,
+      "step": 45745
+    },
+    {
+      "epoch": 7.463295269168026,
+      "grad_norm": 0.20811273157596588,
+      "learning_rate": 0.0007894177436010716,
+      "loss": 0.134,
+      "num_input_tokens_seen": 98828304,
+      "step": 45750
+    },
+    {
+      "epoch": 7.464110929853181,
+      "grad_norm": 0.02944091148674488,
+      "learning_rate": 0.0007893596974847255,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 98837648,
+      "step": 45755
+    },
+    {
+      "epoch": 7.464926590538336,
+      "grad_norm": 0.2792534828186035,
+      "learning_rate": 0.000789301645504138,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 98849168,
+      "step": 45760
+    },
+    {
+      "epoch": 7.465742251223491,
+      "grad_norm": 0.011199427768588066,
+      "learning_rate": 0.0007892435876604857,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 98859984,
+      "step": 45765
+    },
+    {
+      "epoch": 7.466557911908646,
+      "grad_norm": 0.17388412356376648,
+      "learning_rate": 0.0007891855239549453,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 98870992,
+      "step": 45770
+    },
+    {
+      "epoch": 7.467373572593801,
+      "grad_norm": 0.004538760520517826,
+      "learning_rate": 0.0007891274543886933,
+      "loss": 0.053,
+      "num_input_tokens_seen": 98882160,
+      "step": 45775
+    },
+    {
+      "epoch": 7.468189233278956,
+      "grad_norm": 0.22801204025745392,
+      "learning_rate": 0.0007890693789629064,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 98892880,
+      "step": 45780
+    },
+    {
+      "epoch": 7.469004893964111,
+      "grad_norm": 0.049073074012994766,
+      "learning_rate": 0.0007890112976787621,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 98903984,
+      "step": 45785
+    },
+    {
+      "epoch": 7.4698205546492655,
+      "grad_norm": 0.023845715448260307,
+      "learning_rate": 0.0007889532105374373,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 98914992,
+      "step": 45790
+    },
+    {
+      "epoch": 7.470636215334421,
+      "grad_norm": 0.0964706763625145,
+      "learning_rate": 0.0007888951175401089,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 98924752,
+      "step": 45795
+    },
+    {
+      "epoch": 7.471451876019576,
+      "grad_norm": 0.040027473121881485,
+      "learning_rate": 0.0007888370186879545,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 98935536,
+      "step": 45800
+    },
+    {
+      "epoch": 7.472267536704731,
+      "grad_norm": 0.019557340070605278,
+      "learning_rate": 0.0007887789139821516,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 98946672,
+      "step": 45805
+    },
+    {
+      "epoch": 7.473083197389886,
+      "grad_norm": 0.06337641179561615,
+      "learning_rate": 0.0007887208034238777,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 98956880,
+      "step": 45810
+    },
+    {
+      "epoch": 7.4738988580750405,
+      "grad_norm": 0.019905684515833855,
+      "learning_rate": 0.0007886626870143103,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 98966192,
+      "step": 45815
+    },
+    {
+      "epoch": 7.474714518760196,
+      "grad_norm": 0.18070393800735474,
+      "learning_rate": 0.0007886045647546274,
+      "loss": 0.2547,
+      "num_input_tokens_seen": 98976528,
+      "step": 45820
+    },
+    {
+      "epoch": 7.475530179445351,
+      "grad_norm": 0.16771891713142395,
+      "learning_rate": 0.0007885464366460069,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 98987152,
+      "step": 45825
+    },
+    {
+      "epoch": 7.476345840130506,
+      "grad_norm": 0.04264623671770096,
+      "learning_rate": 0.0007884883026896268,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 98998992,
+      "step": 45830
+    },
+    {
+      "epoch": 7.477161500815661,
+      "grad_norm": 0.006334866862744093,
+      "learning_rate": 0.0007884301628866652,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 99009328,
+      "step": 45835
+    },
+    {
+      "epoch": 7.4779771615008155,
+      "grad_norm": 0.005012247245758772,
+      "learning_rate": 0.0007883720172383007,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 99019728,
+      "step": 45840
+    },
+    {
+      "epoch": 7.47879282218597,
+      "grad_norm": 0.18069060146808624,
+      "learning_rate": 0.0007883138657457111,
+      "loss": 0.2113,
+      "num_input_tokens_seen": 99031440,
+      "step": 45845
+    },
+    {
+      "epoch": 7.479608482871126,
+      "grad_norm": 0.18505054712295532,
+      "learning_rate": 0.0007882557084100755,
+      "loss": 0.1176,
+      "num_input_tokens_seen": 99042192,
+      "step": 45850
+    },
+    {
+      "epoch": 7.480424143556281,
+      "grad_norm": 0.26251259446144104,
+      "learning_rate": 0.0007881975452325722,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 99053552,
+      "step": 45855
+    },
+    {
+      "epoch": 7.481239804241436,
+      "grad_norm": 0.04688497632741928,
+      "learning_rate": 0.00078813937621438,
+      "loss": 0.1765,
+      "num_input_tokens_seen": 99064208,
+      "step": 45860
+    },
+    {
+      "epoch": 7.4820554649265905,
+      "grad_norm": 0.20419980585575104,
+      "learning_rate": 0.000788081201356678,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 99073680,
+      "step": 45865
+    },
+    {
+      "epoch": 7.482871125611745,
+      "grad_norm": 0.026826782152056694,
+      "learning_rate": 0.0007880230206606449,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 99085360,
+      "step": 45870
+    },
+    {
+      "epoch": 7.4836867862969,
+      "grad_norm": 0.09688873589038849,
+      "learning_rate": 0.0007879648341274599,
+      "loss": 0.065,
+      "num_input_tokens_seen": 99096112,
+      "step": 45875
+    },
+    {
+      "epoch": 7.484502446982056,
+      "grad_norm": 0.13799415528774261,
+      "learning_rate": 0.0007879066417583021,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 99106832,
+      "step": 45880
+    },
+    {
+      "epoch": 7.485318107667211,
+      "grad_norm": 0.05497647821903229,
+      "learning_rate": 0.0007878484435543511,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 99118832,
+      "step": 45885
+    },
+    {
+      "epoch": 7.486133768352365,
+      "grad_norm": 0.3244342505931854,
+      "learning_rate": 0.0007877902395167862,
+      "loss": 0.226,
+      "num_input_tokens_seen": 99129776,
+      "step": 45890
+    },
+    {
+      "epoch": 7.48694942903752,
+      "grad_norm": 0.03948109596967697,
+      "learning_rate": 0.000787732029646787,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 99141424,
+      "step": 45895
+    },
+    {
+      "epoch": 7.487765089722675,
+      "grad_norm": 0.02498193085193634,
+      "learning_rate": 0.0007876738139455332,
+      "loss": 0.019,
+      "num_input_tokens_seen": 99151888,
+      "step": 45900
+    },
+    {
+      "epoch": 7.488580750407831,
+      "grad_norm": 0.1953345686197281,
+      "learning_rate": 0.0007876155924142046,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 99162128,
+      "step": 45905
+    },
+    {
+      "epoch": 7.489396411092986,
+      "grad_norm": 0.0279481690376997,
+      "learning_rate": 0.0007875573650539811,
+      "loss": 0.222,
+      "num_input_tokens_seen": 99172592,
+      "step": 45910
+    },
+    {
+      "epoch": 7.49021207177814,
+      "grad_norm": 0.03121795877814293,
+      "learning_rate": 0.0007874991318660429,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 99183856,
+      "step": 45915
+    },
+    {
+      "epoch": 7.491027732463295,
+      "grad_norm": 0.016351960599422455,
+      "learning_rate": 0.0007874408928515702,
+      "loss": 0.0499,
+      "num_input_tokens_seen": 99195216,
+      "step": 45920
+    },
+    {
+      "epoch": 7.49184339314845,
+      "grad_norm": 0.006542586255818605,
+      "learning_rate": 0.000787382648011743,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 99203984,
+      "step": 45925
+    },
+    {
+      "epoch": 7.492659053833605,
+      "grad_norm": 0.16917765140533447,
+      "learning_rate": 0.0007873243973477419,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 99214448,
+      "step": 45930
+    },
+    {
+      "epoch": 7.493474714518761,
+      "grad_norm": 0.05392063409090042,
+      "learning_rate": 0.0007872661408607473,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 99224976,
+      "step": 45935
+    },
+    {
+      "epoch": 7.494290375203915,
+      "grad_norm": 0.10604605078697205,
+      "learning_rate": 0.0007872078785519401,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 99236944,
+      "step": 45940
+    },
+    {
+      "epoch": 7.49510603588907,
+      "grad_norm": 0.13532358407974243,
+      "learning_rate": 0.0007871496104225007,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 99247984,
+      "step": 45945
+    },
+    {
+      "epoch": 7.495921696574225,
+      "grad_norm": 0.05853382125496864,
+      "learning_rate": 0.0007870913364736103,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 99259344,
+      "step": 45950
+    },
+    {
+      "epoch": 7.49673735725938,
+      "grad_norm": 0.03759206831455231,
+      "learning_rate": 0.0007870330567064499,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 99270576,
+      "step": 45955
+    },
+    {
+      "epoch": 7.497553017944535,
+      "grad_norm": 0.12168195843696594,
+      "learning_rate": 0.0007869747711222001,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 99280848,
+      "step": 45960
+    },
+    {
+      "epoch": 7.49836867862969,
+      "grad_norm": 0.22778406739234924,
+      "learning_rate": 0.0007869164797220429,
+      "loss": 0.2144,
+      "num_input_tokens_seen": 99291536,
+      "step": 45965
+    },
+    {
+      "epoch": 7.499184339314845,
+      "grad_norm": 0.17280970513820648,
+      "learning_rate": 0.000786858182507159,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 99302640,
+      "step": 45970
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.03377150744199753,
+      "learning_rate": 0.0007867998794787303,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 99314160,
+      "step": 45975
+    },
+    {
+      "epoch": 7.500815660685155,
+      "grad_norm": 0.06262348592281342,
+      "learning_rate": 0.0007867415706379381,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 99325456,
+      "step": 45980
+    },
+    {
+      "epoch": 7.50163132137031,
+      "grad_norm": 0.005712342448532581,
+      "learning_rate": 0.0007866832559859642,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 99336976,
+      "step": 45985
+    },
+    {
+      "epoch": 7.502446982055465,
+      "grad_norm": 0.3855852782726288,
+      "learning_rate": 0.0007866249355239905,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 99347536,
+      "step": 45990
+    },
+    {
+      "epoch": 7.50326264274062,
+      "grad_norm": 0.005695751868188381,
+      "learning_rate": 0.0007865666092531989,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 99359504,
+      "step": 45995
+    },
+    {
+      "epoch": 7.504078303425775,
+      "grad_norm": 0.0534052737057209,
+      "learning_rate": 0.0007865082771747713,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 99370032,
+      "step": 46000
+    },
+    {
+      "epoch": 7.50489396411093,
+      "grad_norm": 0.038309045135974884,
+      "learning_rate": 0.00078644993928989,
+      "loss": 0.0391,
+      "num_input_tokens_seen": 99380816,
+      "step": 46005
+    },
+    {
+      "epoch": 7.505709624796085,
+      "grad_norm": 0.010843995958566666,
+      "learning_rate": 0.0007863915955997374,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 99392592,
+      "step": 46010
+    },
+    {
+      "epoch": 7.506525285481239,
+      "grad_norm": 0.017481878399848938,
+      "learning_rate": 0.0007863332461054957,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 99403760,
+      "step": 46015
+    },
+    {
+      "epoch": 7.507340946166395,
+      "grad_norm": 0.03930390253663063,
+      "learning_rate": 0.0007862748908083477,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 99414768,
+      "step": 46020
+    },
+    {
+      "epoch": 7.50815660685155,
+      "grad_norm": 0.07113105058670044,
+      "learning_rate": 0.0007862165297094758,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 99425040,
+      "step": 46025
+    },
+    {
+      "epoch": 7.508972267536705,
+      "grad_norm": 0.015223911963403225,
+      "learning_rate": 0.0007861581628100628,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 99436016,
+      "step": 46030
+    },
+    {
+      "epoch": 7.50978792822186,
+      "grad_norm": 0.03532985597848892,
+      "learning_rate": 0.0007860997901112917,
+      "loss": 0.091,
+      "num_input_tokens_seen": 99448624,
+      "step": 46035
+    },
+    {
+      "epoch": 7.510603588907014,
+      "grad_norm": 0.013420658186078072,
+      "learning_rate": 0.0007860414116143453,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 99458608,
+      "step": 46040
+    },
+    {
+      "epoch": 7.511419249592169,
+      "grad_norm": 0.06856658309698105,
+      "learning_rate": 0.0007859830273204069,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 99469040,
+      "step": 46045
+    },
+    {
+      "epoch": 7.512234910277325,
+      "grad_norm": 0.05944625288248062,
+      "learning_rate": 0.0007859246372306595,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 99479888,
+      "step": 46050
+    },
+    {
+      "epoch": 7.51305057096248,
+      "grad_norm": 0.3955201208591461,
+      "learning_rate": 0.0007858662413462867,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 99489520,
+      "step": 46055
+    },
+    {
+      "epoch": 7.513866231647635,
+      "grad_norm": 0.2453528493642807,
+      "learning_rate": 0.000785807839668472,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 99501136,
+      "step": 46060
+    },
+    {
+      "epoch": 7.514681892332789,
+      "grad_norm": 0.3181774616241455,
+      "learning_rate": 0.0007857494321983987,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 99513040,
+      "step": 46065
+    },
+    {
+      "epoch": 7.515497553017944,
+      "grad_norm": 0.05358253791928291,
+      "learning_rate": 0.0007856910189372506,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 99523760,
+      "step": 46070
+    },
+    {
+      "epoch": 7.5163132137031,
+      "grad_norm": 0.005161238834261894,
+      "learning_rate": 0.0007856325998862118,
+      "loss": 0.051,
+      "num_input_tokens_seen": 99533456,
+      "step": 46075
+    },
+    {
+      "epoch": 7.517128874388255,
+      "grad_norm": 0.02480381354689598,
+      "learning_rate": 0.0007855741750464658,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 99544944,
+      "step": 46080
+    },
+    {
+      "epoch": 7.5179445350734095,
+      "grad_norm": 0.02038867212831974,
+      "learning_rate": 0.0007855157444191969,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 99555152,
+      "step": 46085
+    },
+    {
+      "epoch": 7.518760195758564,
+      "grad_norm": 0.006652286276221275,
+      "learning_rate": 0.0007854573080055894,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 99566256,
+      "step": 46090
+    },
+    {
+      "epoch": 7.519575856443719,
+      "grad_norm": 0.31422188878059387,
+      "learning_rate": 0.0007853988658068274,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 99575952,
+      "step": 46095
+    },
+    {
+      "epoch": 7.520391517128875,
+      "grad_norm": 0.26823487877845764,
+      "learning_rate": 0.000785340417824095,
+      "loss": 0.1506,
+      "num_input_tokens_seen": 99588688,
+      "step": 46100
+    },
+    {
+      "epoch": 7.52120717781403,
+      "grad_norm": 0.04891170188784599,
+      "learning_rate": 0.0007852819640585773,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 99599280,
+      "step": 46105
+    },
+    {
+      "epoch": 7.5220228384991845,
+      "grad_norm": 0.11184188723564148,
+      "learning_rate": 0.0007852235045114588,
+      "loss": 0.0441,
+      "num_input_tokens_seen": 99609776,
+      "step": 46110
+    },
+    {
+      "epoch": 7.522838499184339,
+      "grad_norm": 0.07456564158201218,
+      "learning_rate": 0.000785165039183924,
+      "loss": 0.2539,
+      "num_input_tokens_seen": 99620208,
+      "step": 46115
+    },
+    {
+      "epoch": 7.523654159869494,
+      "grad_norm": 0.2406882345676422,
+      "learning_rate": 0.0007851065680771581,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 99631088,
+      "step": 46120
+    },
+    {
+      "epoch": 7.524469820554649,
+      "grad_norm": 0.058970607817173004,
+      "learning_rate": 0.0007850480911923457,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 99643664,
+      "step": 46125
+    },
+    {
+      "epoch": 7.525285481239804,
+      "grad_norm": 0.3528447151184082,
+      "learning_rate": 0.0007849896085306723,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 99652304,
+      "step": 46130
+    },
+    {
+      "epoch": 7.5261011419249595,
+      "grad_norm": 0.08873096853494644,
+      "learning_rate": 0.0007849311200933228,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 99662416,
+      "step": 46135
+    },
+    {
+      "epoch": 7.526916802610114,
+      "grad_norm": 0.041165851056575775,
+      "learning_rate": 0.0007848726258814826,
+      "loss": 0.045,
+      "num_input_tokens_seen": 99672400,
+      "step": 46140
+    },
+    {
+      "epoch": 7.527732463295269,
+      "grad_norm": 0.005180297419428825,
+      "learning_rate": 0.0007848141258963375,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 99683216,
+      "step": 46145
+    },
+    {
+      "epoch": 7.528548123980424,
+      "grad_norm": 0.18040695786476135,
+      "learning_rate": 0.0007847556201390727,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 99695056,
+      "step": 46150
+    },
+    {
+      "epoch": 7.529363784665579,
+      "grad_norm": 0.09594681859016418,
+      "learning_rate": 0.0007846971086108741,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 99704816,
+      "step": 46155
+    },
+    {
+      "epoch": 7.5301794453507345,
+      "grad_norm": 0.0594286173582077,
+      "learning_rate": 0.0007846385913129273,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 99714704,
+      "step": 46160
+    },
+    {
+      "epoch": 7.530995106035889,
+      "grad_norm": 0.32255420088768005,
+      "learning_rate": 0.0007845800682464185,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 99726000,
+      "step": 46165
+    },
+    {
+      "epoch": 7.531810766721044,
+      "grad_norm": 0.3754183351993561,
+      "learning_rate": 0.0007845215394125336,
+      "loss": 0.1829,
+      "num_input_tokens_seen": 99736688,
+      "step": 46170
+    },
+    {
+      "epoch": 7.532626427406199,
+      "grad_norm": 0.25886958837509155,
+      "learning_rate": 0.0007844630048124586,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 99748400,
+      "step": 46175
+    },
+    {
+      "epoch": 7.533442088091354,
+      "grad_norm": 0.38430964946746826,
+      "learning_rate": 0.00078440446444738,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 99759344,
+      "step": 46180
+    },
+    {
+      "epoch": 7.5342577487765094,
+      "grad_norm": 0.02618015743792057,
+      "learning_rate": 0.0007843459183184843,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 99769616,
+      "step": 46185
+    },
+    {
+      "epoch": 7.535073409461664,
+      "grad_norm": 0.23281855881214142,
+      "learning_rate": 0.0007842873664269576,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 99780656,
+      "step": 46190
+    },
+    {
+      "epoch": 7.535889070146819,
+      "grad_norm": 0.265331894159317,
+      "learning_rate": 0.0007842288087739868,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 99790544,
+      "step": 46195
+    },
+    {
+      "epoch": 7.536704730831974,
+      "grad_norm": 0.2676144242286682,
+      "learning_rate": 0.0007841702453607589,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 99801616,
+      "step": 46200
+    },
+    {
+      "epoch": 7.537520391517129,
+      "grad_norm": 0.2378363013267517,
+      "learning_rate": 0.0007841116761884601,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 99812848,
+      "step": 46205
+    },
+    {
+      "epoch": 7.5383360522022835,
+      "grad_norm": 0.02555975876748562,
+      "learning_rate": 0.000784053101258278,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 99823152,
+      "step": 46210
+    },
+    {
+      "epoch": 7.539151712887438,
+      "grad_norm": 0.01895485259592533,
+      "learning_rate": 0.0007839945205713995,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 99834160,
+      "step": 46215
+    },
+    {
+      "epoch": 7.539967373572594,
+      "grad_norm": 0.021273165941238403,
+      "learning_rate": 0.0007839359341290116,
+      "loss": 0.0391,
+      "num_input_tokens_seen": 99844784,
+      "step": 46220
+    },
+    {
+      "epoch": 7.540783034257749,
+      "grad_norm": 0.1254192292690277,
+      "learning_rate": 0.0007838773419323019,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 99855536,
+      "step": 46225
+    },
+    {
+      "epoch": 7.541598694942904,
+      "grad_norm": 0.17011789977550507,
+      "learning_rate": 0.0007838187439824577,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 99866800,
+      "step": 46230
+    },
+    {
+      "epoch": 7.5424143556280585,
+      "grad_norm": 0.272366464138031,
+      "learning_rate": 0.0007837601402806666,
+      "loss": 0.257,
+      "num_input_tokens_seen": 99877520,
+      "step": 46235
+    },
+    {
+      "epoch": 7.543230016313213,
+      "grad_norm": 0.4665481448173523,
+      "learning_rate": 0.0007837015308281163,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 99887632,
+      "step": 46240
+    },
+    {
+      "epoch": 7.544045676998369,
+      "grad_norm": 0.007717117201536894,
+      "learning_rate": 0.0007836429156259946,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 99899664,
+      "step": 46245
+    },
+    {
+      "epoch": 7.544861337683524,
+      "grad_norm": 0.3290517330169678,
+      "learning_rate": 0.0007835842946754893,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 99910928,
+      "step": 46250
+    },
+    {
+      "epoch": 7.545676998368679,
+      "grad_norm": 0.18104241788387299,
+      "learning_rate": 0.0007835256679777887,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 99922128,
+      "step": 46255
+    },
+    {
+      "epoch": 7.5464926590538335,
+      "grad_norm": 0.2232947051525116,
+      "learning_rate": 0.0007834670355340805,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 99932112,
+      "step": 46260
+    },
+    {
+      "epoch": 7.547308319738988,
+      "grad_norm": 0.04595812410116196,
+      "learning_rate": 0.0007834083973455535,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 99942096,
+      "step": 46265
+    },
+    {
+      "epoch": 7.548123980424144,
+      "grad_norm": 0.04887615144252777,
+      "learning_rate": 0.0007833497534133955,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 99953712,
+      "step": 46270
+    },
+    {
+      "epoch": 7.548939641109299,
+      "grad_norm": 0.03450680151581764,
+      "learning_rate": 0.0007832911037387955,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 99965904,
+      "step": 46275
+    },
+    {
+      "epoch": 7.549755301794454,
+      "grad_norm": 0.1929694563150406,
+      "learning_rate": 0.000783232448322942,
+      "loss": 0.044,
+      "num_input_tokens_seen": 99977424,
+      "step": 46280
+    },
+    {
+      "epoch": 7.5505709624796085,
+      "grad_norm": 0.12964440882205963,
+      "learning_rate": 0.0007831737871670235,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 99989072,
+      "step": 46285
+    },
+    {
+      "epoch": 7.551386623164763,
+      "grad_norm": 0.009152422659099102,
+      "learning_rate": 0.0007831151202722288,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 99998992,
+      "step": 46290
+    },
+    {
+      "epoch": 7.552202283849918,
+      "grad_norm": 0.01057891920208931,
+      "learning_rate": 0.0007830564476397473,
+      "loss": 0.2981,
+      "num_input_tokens_seen": 100008976,
+      "step": 46295
+    },
+    {
+      "epoch": 7.553017944535073,
+      "grad_norm": 0.09518894553184509,
+      "learning_rate": 0.0007829977692707676,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 100018672,
+      "step": 46300
+    },
+    {
+      "epoch": 7.553833605220229,
+      "grad_norm": 0.24947939813137054,
+      "learning_rate": 0.0007829390851664793,
+      "loss": 0.2036,
+      "num_input_tokens_seen": 100029904,
+      "step": 46305
+    },
+    {
+      "epoch": 7.554649265905383,
+      "grad_norm": 0.14291471242904663,
+      "learning_rate": 0.0007828803953280713,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 100040304,
+      "step": 46310
+    },
+    {
+      "epoch": 7.555464926590538,
+      "grad_norm": 0.04056019335985184,
+      "learning_rate": 0.0007828216997567333,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 100050544,
+      "step": 46315
+    },
+    {
+      "epoch": 7.556280587275693,
+      "grad_norm": 0.027434013783931732,
+      "learning_rate": 0.0007827629984536548,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 100060496,
+      "step": 46320
+    },
+    {
+      "epoch": 7.557096247960848,
+      "grad_norm": 0.014924759976565838,
+      "learning_rate": 0.0007827042914200254,
+      "loss": 0.057,
+      "num_input_tokens_seen": 100071568,
+      "step": 46325
+    },
+    {
+      "epoch": 7.557911908646004,
+      "grad_norm": 0.24778462946414948,
+      "learning_rate": 0.000782645578657035,
+      "loss": 0.2794,
+      "num_input_tokens_seen": 100081840,
+      "step": 46330
+    },
+    {
+      "epoch": 7.558727569331158,
+      "grad_norm": 0.1591310203075409,
+      "learning_rate": 0.0007825868601658733,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 100091472,
+      "step": 46335
+    },
+    {
+      "epoch": 7.559543230016313,
+      "grad_norm": 0.13435420393943787,
+      "learning_rate": 0.0007825281359477303,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 100102448,
+      "step": 46340
+    },
+    {
+      "epoch": 7.560358890701468,
+      "grad_norm": 0.029477981850504875,
+      "learning_rate": 0.0007824694060037964,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 100113360,
+      "step": 46345
+    },
+    {
+      "epoch": 7.561174551386623,
+      "grad_norm": 0.10839947313070297,
+      "learning_rate": 0.0007824106703352616,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 100124912,
+      "step": 46350
+    },
+    {
+      "epoch": 7.561990212071779,
+      "grad_norm": 0.2539820075035095,
+      "learning_rate": 0.0007823519289433162,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 100134512,
+      "step": 46355
+    },
+    {
+      "epoch": 7.562805872756933,
+      "grad_norm": 0.29448628425598145,
+      "learning_rate": 0.0007822931818291508,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 100146160,
+      "step": 46360
+    },
+    {
+      "epoch": 7.563621533442088,
+      "grad_norm": 0.007594697643071413,
+      "learning_rate": 0.0007822344289939561,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 100157264,
+      "step": 46365
+    },
+    {
+      "epoch": 7.564437194127243,
+      "grad_norm": 0.045168206095695496,
+      "learning_rate": 0.0007821756704389224,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 100168400,
+      "step": 46370
+    },
+    {
+      "epoch": 7.565252854812398,
+      "grad_norm": 0.4243335723876953,
+      "learning_rate": 0.000782116906165241,
+      "loss": 0.1991,
+      "num_input_tokens_seen": 100179632,
+      "step": 46375
+    },
+    {
+      "epoch": 7.566068515497553,
+      "grad_norm": 0.08852332830429077,
+      "learning_rate": 0.0007820581361741025,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 100191600,
+      "step": 46380
+    },
+    {
+      "epoch": 7.566884176182708,
+      "grad_norm": 0.07176997512578964,
+      "learning_rate": 0.0007819993604666982,
+      "loss": 0.2055,
+      "num_input_tokens_seen": 100202736,
+      "step": 46385
+    },
+    {
+      "epoch": 7.567699836867863,
+      "grad_norm": 0.09689157456159592,
+      "learning_rate": 0.0007819405790442189,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 100213104,
+      "step": 46390
+    },
+    {
+      "epoch": 7.568515497553018,
+      "grad_norm": 0.002046206733211875,
+      "learning_rate": 0.0007818817919078562,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 100223408,
+      "step": 46395
+    },
+    {
+      "epoch": 7.569331158238173,
+      "grad_norm": 0.005216080229729414,
+      "learning_rate": 0.0007818229990588013,
+      "loss": 0.2068,
+      "num_input_tokens_seen": 100233872,
+      "step": 46400
+    },
+    {
+      "epoch": 7.570146818923328,
+      "grad_norm": 0.0509600006043911,
+      "learning_rate": 0.000781764200498246,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 100244528,
+      "step": 46405
+    },
+    {
+      "epoch": 7.5709624796084825,
+      "grad_norm": 0.061129264533519745,
+      "learning_rate": 0.0007817053962273817,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 100255344,
+      "step": 46410
+    },
+    {
+      "epoch": 7.571778140293638,
+      "grad_norm": 0.08482226729393005,
+      "learning_rate": 0.0007816465862474,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 100266448,
+      "step": 46415
+    },
+    {
+      "epoch": 7.572593800978793,
+      "grad_norm": 0.007290207780897617,
+      "learning_rate": 0.000781587770559493,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 100277584,
+      "step": 46420
+    },
+    {
+      "epoch": 7.573409461663948,
+      "grad_norm": 0.00973653793334961,
+      "learning_rate": 0.0007815289491648527,
+      "loss": 0.039,
+      "num_input_tokens_seen": 100290160,
+      "step": 46425
+    },
+    {
+      "epoch": 7.574225122349103,
+      "grad_norm": 0.0023570421617478132,
+      "learning_rate": 0.000781470122064671,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 100300784,
+      "step": 46430
+    },
+    {
+      "epoch": 7.575040783034257,
+      "grad_norm": 0.001977626234292984,
+      "learning_rate": 0.0007814112892601403,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 100311344,
+      "step": 46435
+    },
+    {
+      "epoch": 7.575856443719413,
+      "grad_norm": 0.0060659232549369335,
+      "learning_rate": 0.0007813524507524527,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 100322608,
+      "step": 46440
+    },
+    {
+      "epoch": 7.576672104404568,
+      "grad_norm": 0.060652635991573334,
+      "learning_rate": 0.0007812936065428009,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 100332912,
+      "step": 46445
+    },
+    {
+      "epoch": 7.577487765089723,
+      "grad_norm": 0.0259055495262146,
+      "learning_rate": 0.0007812347566323774,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 100344144,
+      "step": 46450
+    },
+    {
+      "epoch": 7.578303425774878,
+      "grad_norm": 0.02046637050807476,
+      "learning_rate": 0.0007811759010223747,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 100355856,
+      "step": 46455
+    },
+    {
+      "epoch": 7.579119086460032,
+      "grad_norm": 0.18777872622013092,
+      "learning_rate": 0.0007811170397139855,
+      "loss": 0.056,
+      "num_input_tokens_seen": 100366960,
+      "step": 46460
+    },
+    {
+      "epoch": 7.579934747145187,
+      "grad_norm": 0.10581226646900177,
+      "learning_rate": 0.000781058172708403,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 100377584,
+      "step": 46465
+    },
+    {
+      "epoch": 7.580750407830343,
+      "grad_norm": 0.22157377004623413,
+      "learning_rate": 0.00078099930000682,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 100389424,
+      "step": 46470
+    },
+    {
+      "epoch": 7.581566068515498,
+      "grad_norm": 0.39631515741348267,
+      "learning_rate": 0.0007809404216104299,
+      "loss": 0.1734,
+      "num_input_tokens_seen": 100400688,
+      "step": 46475
+    },
+    {
+      "epoch": 7.582381729200653,
+      "grad_norm": 0.09392768889665604,
+      "learning_rate": 0.0007808815375204257,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 100410448,
+      "step": 46480
+    },
+    {
+      "epoch": 7.583197389885807,
+      "grad_norm": 0.044808097183704376,
+      "learning_rate": 0.0007808226477380007,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 100421232,
+      "step": 46485
+    },
+    {
+      "epoch": 7.584013050570962,
+      "grad_norm": 0.009121015667915344,
+      "learning_rate": 0.0007807637522643484,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 100431312,
+      "step": 46490
+    },
+    {
+      "epoch": 7.584828711256117,
+      "grad_norm": 0.08114711195230484,
+      "learning_rate": 0.0007807048511006628,
+      "loss": 0.1994,
+      "num_input_tokens_seen": 100441936,
+      "step": 46495
+    },
+    {
+      "epoch": 7.585644371941273,
+      "grad_norm": 0.20501329004764557,
+      "learning_rate": 0.0007806459442481372,
+      "loss": 0.1497,
+      "num_input_tokens_seen": 100453488,
+      "step": 46500
+    },
+    {
+      "epoch": 7.5864600326264275,
+      "grad_norm": 0.2496049851179123,
+      "learning_rate": 0.0007805870317079654,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 100466224,
+      "step": 46505
+    },
+    {
+      "epoch": 7.587275693311582,
+      "grad_norm": 0.04062649607658386,
+      "learning_rate": 0.0007805281134813416,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 100476560,
+      "step": 46510
+    },
+    {
+      "epoch": 7.588091353996737,
+      "grad_norm": 0.266244500875473,
+      "learning_rate": 0.0007804691895694595,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 100487184,
+      "step": 46515
+    },
+    {
+      "epoch": 7.588907014681892,
+      "grad_norm": 0.010720369406044483,
+      "learning_rate": 0.0007804102599735137,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 100498608,
+      "step": 46520
+    },
+    {
+      "epoch": 7.589722675367048,
+      "grad_norm": 0.009115898050367832,
+      "learning_rate": 0.0007803513246946981,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 100509104,
+      "step": 46525
+    },
+    {
+      "epoch": 7.5905383360522025,
+      "grad_norm": 0.019223831593990326,
+      "learning_rate": 0.0007802923837342072,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 100520368,
+      "step": 46530
+    },
+    {
+      "epoch": 7.591353996737357,
+      "grad_norm": 0.04066868871450424,
+      "learning_rate": 0.0007802334370932357,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 100530928,
+      "step": 46535
+    },
+    {
+      "epoch": 7.592169657422512,
+      "grad_norm": 0.10982602834701538,
+      "learning_rate": 0.0007801744847729781,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 100542960,
+      "step": 46540
+    },
+    {
+      "epoch": 7.592985318107667,
+      "grad_norm": 0.006750395521521568,
+      "learning_rate": 0.0007801155267746291,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 100553232,
+      "step": 46545
+    },
+    {
+      "epoch": 7.593800978792823,
+      "grad_norm": 0.008056842721998692,
+      "learning_rate": 0.0007800565630993834,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 100565552,
+      "step": 46550
+    },
+    {
+      "epoch": 7.5946166394779775,
+      "grad_norm": 0.07503590732812881,
+      "learning_rate": 0.0007799975937484365,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 100576592,
+      "step": 46555
+    },
+    {
+      "epoch": 7.595432300163132,
+      "grad_norm": 0.011532962322235107,
+      "learning_rate": 0.000779938618722983,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 100586512,
+      "step": 46560
+    },
+    {
+      "epoch": 7.596247960848287,
+      "grad_norm": 0.3396737575531006,
+      "learning_rate": 0.0007798796380242183,
+      "loss": 0.2314,
+      "num_input_tokens_seen": 100597584,
+      "step": 46565
+    },
+    {
+      "epoch": 7.597063621533442,
+      "grad_norm": 0.06101497262716293,
+      "learning_rate": 0.0007798206516533377,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 100609168,
+      "step": 46570
+    },
+    {
+      "epoch": 7.597879282218597,
+      "grad_norm": 0.2853509187698364,
+      "learning_rate": 0.0007797616596115365,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 100620368,
+      "step": 46575
+    },
+    {
+      "epoch": 7.598694942903752,
+      "grad_norm": 0.08300846070051193,
+      "learning_rate": 0.0007797026619000105,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 100630160,
+      "step": 46580
+    },
+    {
+      "epoch": 7.599510603588907,
+      "grad_norm": 0.12231241166591644,
+      "learning_rate": 0.0007796436585199553,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 100641872,
+      "step": 46585
+    },
+    {
+      "epoch": 7.600326264274062,
+      "grad_norm": 0.46338924765586853,
+      "learning_rate": 0.0007795846494725665,
+      "loss": 0.2078,
+      "num_input_tokens_seen": 100653168,
+      "step": 46590
+    },
+    {
+      "epoch": 7.601141924959217,
+      "grad_norm": 0.11617031693458557,
+      "learning_rate": 0.00077952563475904,
+      "loss": 0.056,
+      "num_input_tokens_seen": 100664144,
+      "step": 46595
+    },
+    {
+      "epoch": 7.601957585644372,
+      "grad_norm": 0.1972285658121109,
+      "learning_rate": 0.000779466614380572,
+      "loss": 0.1623,
+      "num_input_tokens_seen": 100674640,
+      "step": 46600
+    },
+    {
+      "epoch": 7.602773246329527,
+      "grad_norm": 0.00785736832767725,
+      "learning_rate": 0.0007794075883383586,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 100685040,
+      "step": 46605
+    },
+    {
+      "epoch": 7.603588907014682,
+      "grad_norm": 0.09408126026391983,
+      "learning_rate": 0.0007793485566335958,
+      "loss": 0.1419,
+      "num_input_tokens_seen": 100695408,
+      "step": 46610
+    },
+    {
+      "epoch": 7.604404567699837,
+      "grad_norm": 0.08680996298789978,
+      "learning_rate": 0.0007792895192674802,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 100705840,
+      "step": 46615
+    },
+    {
+      "epoch": 7.605220228384992,
+      "grad_norm": 0.37143993377685547,
+      "learning_rate": 0.0007792304762412084,
+      "loss": 0.1415,
+      "num_input_tokens_seen": 100716944,
+      "step": 46620
+    },
+    {
+      "epoch": 7.606035889070147,
+      "grad_norm": 0.0823369175195694,
+      "learning_rate": 0.0007791714275559765,
+      "loss": 0.032,
+      "num_input_tokens_seen": 100729072,
+      "step": 46625
+    },
+    {
+      "epoch": 7.6068515497553015,
+      "grad_norm": 0.01576918736100197,
+      "learning_rate": 0.0007791123732129815,
+      "loss": 0.1349,
+      "num_input_tokens_seen": 100739952,
+      "step": 46630
+    },
+    {
+      "epoch": 7.607667210440457,
+      "grad_norm": 1.0202510356903076,
+      "learning_rate": 0.0007790533132134201,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 100751344,
+      "step": 46635
+    },
+    {
+      "epoch": 7.608482871125612,
+      "grad_norm": 0.010519228875637054,
+      "learning_rate": 0.0007789942475584894,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 100761712,
+      "step": 46640
+    },
+    {
+      "epoch": 7.609298531810767,
+      "grad_norm": 0.07782994210720062,
+      "learning_rate": 0.0007789351762493865,
+      "loss": 0.086,
+      "num_input_tokens_seen": 100773040,
+      "step": 46645
+    },
+    {
+      "epoch": 7.610114192495922,
+      "grad_norm": 0.09352076053619385,
+      "learning_rate": 0.0007788760992873083,
+      "loss": 0.0475,
+      "num_input_tokens_seen": 100782448,
+      "step": 46650
+    },
+    {
+      "epoch": 7.6109298531810765,
+      "grad_norm": 0.16804049909114838,
+      "learning_rate": 0.000778817016673452,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 100792720,
+      "step": 46655
+    },
+    {
+      "epoch": 7.611745513866231,
+      "grad_norm": 0.05742299184203148,
+      "learning_rate": 0.0007787579284090154,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 100804400,
+      "step": 46660
+    },
+    {
+      "epoch": 7.612561174551386,
+      "grad_norm": 0.002605182584375143,
+      "learning_rate": 0.0007786988344951956,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 100814704,
+      "step": 46665
+    },
+    {
+      "epoch": 7.613376835236542,
+      "grad_norm": 0.2340633124113083,
+      "learning_rate": 0.0007786397349331904,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 100823632,
+      "step": 46670
+    },
+    {
+      "epoch": 7.614192495921697,
+      "grad_norm": 0.011929473839700222,
+      "learning_rate": 0.0007785806297241976,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 100834544,
+      "step": 46675
+    },
+    {
+      "epoch": 7.6150081566068515,
+      "grad_norm": 0.1309245228767395,
+      "learning_rate": 0.0007785215188694148,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 100846864,
+      "step": 46680
+    },
+    {
+      "epoch": 7.615823817292006,
+      "grad_norm": 0.0732983872294426,
+      "learning_rate": 0.0007784624023700402,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 100858480,
+      "step": 46685
+    },
+    {
+      "epoch": 7.616639477977161,
+      "grad_norm": 0.2625514566898346,
+      "learning_rate": 0.0007784032802272716,
+      "loss": 0.2307,
+      "num_input_tokens_seen": 100869584,
+      "step": 46690
+    },
+    {
+      "epoch": 7.617455138662317,
+      "grad_norm": 0.1511547863483429,
+      "learning_rate": 0.0007783441524423074,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 100879248,
+      "step": 46695
+    },
+    {
+      "epoch": 7.618270799347472,
+      "grad_norm": 0.05024776607751846,
+      "learning_rate": 0.0007782850190163459,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 100890288,
+      "step": 46700
+    },
+    {
+      "epoch": 7.6190864600326265,
+      "grad_norm": 0.2799839377403259,
+      "learning_rate": 0.0007782258799505855,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 100901616,
+      "step": 46705
+    },
+    {
+      "epoch": 7.619902120717781,
+      "grad_norm": 0.08367808163166046,
+      "learning_rate": 0.0007781667352462245,
+      "loss": 0.2048,
+      "num_input_tokens_seen": 100912496,
+      "step": 46710
+    },
+    {
+      "epoch": 7.620717781402936,
+      "grad_norm": 0.07492048293352127,
+      "learning_rate": 0.0007781075849044619,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 100924656,
+      "step": 46715
+    },
+    {
+      "epoch": 7.621533442088092,
+      "grad_norm": 0.36795780062675476,
+      "learning_rate": 0.0007780484289264961,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 100936176,
+      "step": 46720
+    },
+    {
+      "epoch": 7.622349102773247,
+      "grad_norm": 0.14871415495872498,
+      "learning_rate": 0.0007779892673135264,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 100947312,
+      "step": 46725
+    },
+    {
+      "epoch": 7.623164763458401,
+      "grad_norm": 0.03786802291870117,
+      "learning_rate": 0.0007779301000667516,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 100957232,
+      "step": 46730
+    },
+    {
+      "epoch": 7.623980424143556,
+      "grad_norm": 0.20446109771728516,
+      "learning_rate": 0.0007778709271873706,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 100968592,
+      "step": 46735
+    },
+    {
+      "epoch": 7.624796084828711,
+      "grad_norm": 0.030702682211995125,
+      "learning_rate": 0.0007778117486765825,
+      "loss": 0.1157,
+      "num_input_tokens_seen": 100979024,
+      "step": 46740
+    },
+    {
+      "epoch": 7.625611745513866,
+      "grad_norm": 0.02638734132051468,
+      "learning_rate": 0.0007777525645355872,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 100989712,
+      "step": 46745
+    },
+    {
+      "epoch": 7.626427406199021,
+      "grad_norm": 0.004499876406043768,
+      "learning_rate": 0.0007776933747655838,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 101000784,
+      "step": 46750
+    },
+    {
+      "epoch": 7.627243066884176,
+      "grad_norm": 0.056049101054668427,
+      "learning_rate": 0.0007776341793677719,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 101011600,
+      "step": 46755
+    },
+    {
+      "epoch": 7.628058727569331,
+      "grad_norm": 0.14655882120132446,
+      "learning_rate": 0.000777574978343351,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 101022160,
+      "step": 46760
+    },
+    {
+      "epoch": 7.628874388254486,
+      "grad_norm": 0.04394836723804474,
+      "learning_rate": 0.000777515771693521,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 101034192,
+      "step": 46765
+    },
+    {
+      "epoch": 7.629690048939641,
+      "grad_norm": 0.01639639027416706,
+      "learning_rate": 0.0007774565594194821,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 101044592,
+      "step": 46770
+    },
+    {
+      "epoch": 7.630505709624796,
+      "grad_norm": 0.14619885385036469,
+      "learning_rate": 0.0007773973415224339,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 101054640,
+      "step": 46775
+    },
+    {
+      "epoch": 7.631321370309951,
+      "grad_norm": 0.017432374879717827,
+      "learning_rate": 0.0007773381180035766,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 101066160,
+      "step": 46780
+    },
+    {
+      "epoch": 7.632137030995106,
+      "grad_norm": 0.15743707120418549,
+      "learning_rate": 0.0007772788888641107,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 101078000,
+      "step": 46785
+    },
+    {
+      "epoch": 7.632952691680261,
+      "grad_norm": 0.1914764940738678,
+      "learning_rate": 0.0007772196541052361,
+      "loss": 0.1399,
+      "num_input_tokens_seen": 101088272,
+      "step": 46790
+    },
+    {
+      "epoch": 7.633768352365416,
+      "grad_norm": 0.05888279527425766,
+      "learning_rate": 0.0007771604137281538,
+      "loss": 0.08,
+      "num_input_tokens_seen": 101098384,
+      "step": 46795
+    },
+    {
+      "epoch": 7.634584013050571,
+      "grad_norm": 0.005790786352008581,
+      "learning_rate": 0.0007771011677340639,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 101110064,
+      "step": 46800
+    },
+    {
+      "epoch": 7.635399673735726,
+      "grad_norm": 0.13105180859565735,
+      "learning_rate": 0.0007770419161241675,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 101121200,
+      "step": 46805
+    },
+    {
+      "epoch": 7.636215334420881,
+      "grad_norm": 0.06090496852993965,
+      "learning_rate": 0.0007769826588996651,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 101132208,
+      "step": 46810
+    },
+    {
+      "epoch": 7.637030995106036,
+      "grad_norm": 0.023098204284906387,
+      "learning_rate": 0.0007769233960617576,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 101141744,
+      "step": 46815
+    },
+    {
+      "epoch": 7.637846655791191,
+      "grad_norm": 0.03087800368666649,
+      "learning_rate": 0.0007768641276116465,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 101151728,
+      "step": 46820
+    },
+    {
+      "epoch": 7.638662316476346,
+      "grad_norm": 0.31353387236595154,
+      "learning_rate": 0.0007768048535505324,
+      "loss": 0.116,
+      "num_input_tokens_seen": 101162160,
+      "step": 46825
+    },
+    {
+      "epoch": 7.6394779771615005,
+      "grad_norm": 0.27113598585128784,
+      "learning_rate": 0.0007767455738796169,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 101172816,
+      "step": 46830
+    },
+    {
+      "epoch": 7.640293637846656,
+      "grad_norm": 0.14102505147457123,
+      "learning_rate": 0.0007766862886001011,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 101183344,
+      "step": 46835
+    },
+    {
+      "epoch": 7.641109298531811,
+      "grad_norm": 0.028963766992092133,
+      "learning_rate": 0.0007766269977131868,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 101193680,
+      "step": 46840
+    },
+    {
+      "epoch": 7.641924959216966,
+      "grad_norm": 0.007863939739763737,
+      "learning_rate": 0.0007765677012200753,
+      "loss": 0.0303,
+      "num_input_tokens_seen": 101205808,
+      "step": 46845
+    },
+    {
+      "epoch": 7.642740619902121,
+      "grad_norm": 0.11236032843589783,
+      "learning_rate": 0.0007765083991219688,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 101216400,
+      "step": 46850
+    },
+    {
+      "epoch": 7.643556280587275,
+      "grad_norm": 0.20675627887248993,
+      "learning_rate": 0.0007764490914200686,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 101226480,
+      "step": 46855
+    },
+    {
+      "epoch": 7.64437194127243,
+      "grad_norm": 0.03227461874485016,
+      "learning_rate": 0.0007763897781155769,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 101235952,
+      "step": 46860
+    },
+    {
+      "epoch": 7.645187601957586,
+      "grad_norm": 0.07756864279508591,
+      "learning_rate": 0.0007763304592096956,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 101247280,
+      "step": 46865
+    },
+    {
+      "epoch": 7.646003262642741,
+      "grad_norm": 0.23163361847400665,
+      "learning_rate": 0.0007762711347036273,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 101258224,
+      "step": 46870
+    },
+    {
+      "epoch": 7.646818923327896,
+      "grad_norm": 0.01285717636346817,
+      "learning_rate": 0.0007762118045985738,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 101268688,
+      "step": 46875
+    },
+    {
+      "epoch": 7.64763458401305,
+      "grad_norm": 0.019179528579115868,
+      "learning_rate": 0.0007761524688957377,
+      "loss": 0.0728,
+      "num_input_tokens_seen": 101279568,
+      "step": 46880
+    },
+    {
+      "epoch": 7.648450244698205,
+      "grad_norm": 0.03536270931363106,
+      "learning_rate": 0.0007760931275963215,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 101291568,
+      "step": 46885
+    },
+    {
+      "epoch": 7.649265905383361,
+      "grad_norm": 0.021652111783623695,
+      "learning_rate": 0.0007760337807015276,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 101302320,
+      "step": 46890
+    },
+    {
+      "epoch": 7.650081566068516,
+      "grad_norm": 0.007089455612003803,
+      "learning_rate": 0.0007759744282125593,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 101313328,
+      "step": 46895
+    },
+    {
+      "epoch": 7.650897226753671,
+      "grad_norm": 0.06724183261394501,
+      "learning_rate": 0.000775915070130619,
+      "loss": 0.1505,
+      "num_input_tokens_seen": 101323888,
+      "step": 46900
+    },
+    {
+      "epoch": 7.651712887438825,
+      "grad_norm": 0.02761230431497097,
+      "learning_rate": 0.0007758557064569096,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 101334416,
+      "step": 46905
+    },
+    {
+      "epoch": 7.65252854812398,
+      "grad_norm": 0.049123216420412064,
+      "learning_rate": 0.0007757963371926346,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 101345552,
+      "step": 46910
+    },
+    {
+      "epoch": 7.653344208809135,
+      "grad_norm": 0.03470964357256889,
+      "learning_rate": 0.000775736962338997,
+      "loss": 0.1807,
+      "num_input_tokens_seen": 101357168,
+      "step": 46915
+    },
+    {
+      "epoch": 7.654159869494291,
+      "grad_norm": 0.25555697083473206,
+      "learning_rate": 0.0007756775818971998,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 101368336,
+      "step": 46920
+    },
+    {
+      "epoch": 7.6549755301794455,
+      "grad_norm": 0.2521311640739441,
+      "learning_rate": 0.0007756181958684467,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 101379088,
+      "step": 46925
+    },
+    {
+      "epoch": 7.6557911908646,
+      "grad_norm": 0.03777456283569336,
+      "learning_rate": 0.0007755588042539414,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 101389360,
+      "step": 46930
+    },
+    {
+      "epoch": 7.656606851549755,
+      "grad_norm": 0.25904545187950134,
+      "learning_rate": 0.0007754994070548873,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 101401264,
+      "step": 46935
+    },
+    {
+      "epoch": 7.65742251223491,
+      "grad_norm": 0.008663099259138107,
+      "learning_rate": 0.0007754400042724881,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 101411248,
+      "step": 46940
+    },
+    {
+      "epoch": 7.658238172920065,
+      "grad_norm": 0.15806740522384644,
+      "learning_rate": 0.0007753805959079481,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 101420752,
+      "step": 46945
+    },
+    {
+      "epoch": 7.6590538336052205,
+      "grad_norm": 0.008633045479655266,
+      "learning_rate": 0.0007753211819624706,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 101432272,
+      "step": 46950
+    },
+    {
+      "epoch": 7.659869494290375,
+      "grad_norm": 0.47052812576293945,
+      "learning_rate": 0.0007752617624372602,
+      "loss": 0.047,
+      "num_input_tokens_seen": 101443824,
+      "step": 46955
+    },
+    {
+      "epoch": 7.66068515497553,
+      "grad_norm": 0.22263245284557343,
+      "learning_rate": 0.000775202337333521,
+      "loss": 0.0303,
+      "num_input_tokens_seen": 101454512,
+      "step": 46960
+    },
+    {
+      "epoch": 7.661500815660685,
+      "grad_norm": 0.0009532614494673908,
+      "learning_rate": 0.0007751429066524575,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 101465968,
+      "step": 46965
+    },
+    {
+      "epoch": 7.66231647634584,
+      "grad_norm": 0.0020556438248604536,
+      "learning_rate": 0.0007750834703952738,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 101476720,
+      "step": 46970
+    },
+    {
+      "epoch": 7.6631321370309955,
+      "grad_norm": 0.0666525810956955,
+      "learning_rate": 0.0007750240285631745,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 101487600,
+      "step": 46975
+    },
+    {
+      "epoch": 7.66394779771615,
+      "grad_norm": 0.09244846552610397,
+      "learning_rate": 0.0007749645811573646,
+      "loss": 0.065,
+      "num_input_tokens_seen": 101498832,
+      "step": 46980
+    },
+    {
+      "epoch": 7.664763458401305,
+      "grad_norm": 0.2173173427581787,
+      "learning_rate": 0.0007749051281790484,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 101510000,
+      "step": 46985
+    },
+    {
+      "epoch": 7.66557911908646,
+      "grad_norm": 0.006644314154982567,
+      "learning_rate": 0.0007748456696294312,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 101520528,
+      "step": 46990
+    },
+    {
+      "epoch": 7.666394779771615,
+      "grad_norm": 0.006989603862166405,
+      "learning_rate": 0.0007747862055097179,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 101531504,
+      "step": 46995
+    },
+    {
+      "epoch": 7.6672104404567705,
+      "grad_norm": 0.36260828375816345,
+      "learning_rate": 0.0007747267358211135,
+      "loss": 0.1973,
+      "num_input_tokens_seen": 101542640,
+      "step": 47000
+    },
+    {
+      "epoch": 7.668026101141925,
+      "grad_norm": 0.11980457603931427,
+      "learning_rate": 0.0007746672605648231,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 101553040,
+      "step": 47005
+    },
+    {
+      "epoch": 7.66884176182708,
+      "grad_norm": 0.2689124643802643,
+      "learning_rate": 0.0007746077797420524,
+      "loss": 0.1872,
+      "num_input_tokens_seen": 101564272,
+      "step": 47010
+    },
+    {
+      "epoch": 7.669657422512235,
+      "grad_norm": 0.04494722560048103,
+      "learning_rate": 0.0007745482933540067,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 101574896,
+      "step": 47015
+    },
+    {
+      "epoch": 7.67047308319739,
+      "grad_norm": 0.005968465004116297,
+      "learning_rate": 0.0007744888014018914,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 101586032,
+      "step": 47020
+    },
+    {
+      "epoch": 7.671288743882545,
+      "grad_norm": 0.004824151284992695,
+      "learning_rate": 0.0007744293038869125,
+      "loss": 0.018,
+      "num_input_tokens_seen": 101596784,
+      "step": 47025
+    },
+    {
+      "epoch": 7.672104404567699,
+      "grad_norm": 0.01978217624127865,
+      "learning_rate": 0.0007743698008102755,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 101607632,
+      "step": 47030
+    },
+    {
+      "epoch": 7.672920065252855,
+      "grad_norm": 0.11269936710596085,
+      "learning_rate": 0.0007743102921731864,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 101618064,
+      "step": 47035
+    },
+    {
+      "epoch": 7.67373572593801,
+      "grad_norm": 0.4015054702758789,
+      "learning_rate": 0.0007742507779768513,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 101629712,
+      "step": 47040
+    },
+    {
+      "epoch": 7.674551386623165,
+      "grad_norm": 0.014630908146500587,
+      "learning_rate": 0.0007741912582224764,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 101639920,
+      "step": 47045
+    },
+    {
+      "epoch": 7.6753670473083195,
+      "grad_norm": 0.004438962321728468,
+      "learning_rate": 0.0007741317329112675,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 101650448,
+      "step": 47050
+    },
+    {
+      "epoch": 7.676182707993474,
+      "grad_norm": 0.06496120244264603,
+      "learning_rate": 0.0007740722020444315,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 101661136,
+      "step": 47055
+    },
+    {
+      "epoch": 7.67699836867863,
+      "grad_norm": 0.25175753235816956,
+      "learning_rate": 0.0007740126656231746,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 101671600,
+      "step": 47060
+    },
+    {
+      "epoch": 7.677814029363785,
+      "grad_norm": 0.23091796040534973,
+      "learning_rate": 0.0007739531236487034,
+      "loss": 0.1631,
+      "num_input_tokens_seen": 101681200,
+      "step": 47065
+    },
+    {
+      "epoch": 7.67862969004894,
+      "grad_norm": 0.012666295282542706,
+      "learning_rate": 0.0007738935761222247,
+      "loss": 0.114,
+      "num_input_tokens_seen": 101691824,
+      "step": 47070
+    },
+    {
+      "epoch": 7.6794453507340945,
+      "grad_norm": 0.08096782118082047,
+      "learning_rate": 0.0007738340230449451,
+      "loss": 0.1061,
+      "num_input_tokens_seen": 101701552,
+      "step": 47075
+    },
+    {
+      "epoch": 7.680261011419249,
+      "grad_norm": 0.21125862002372742,
+      "learning_rate": 0.0007737744644180718,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 101713136,
+      "step": 47080
+    },
+    {
+      "epoch": 7.681076672104405,
+      "grad_norm": 0.11040032655000687,
+      "learning_rate": 0.0007737149002428114,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 101723792,
+      "step": 47085
+    },
+    {
+      "epoch": 7.68189233278956,
+      "grad_norm": 0.0034124937374144793,
+      "learning_rate": 0.0007736553305203715,
+      "loss": 0.079,
+      "num_input_tokens_seen": 101733136,
+      "step": 47090
+    },
+    {
+      "epoch": 7.682707993474715,
+      "grad_norm": 0.01145437452942133,
+      "learning_rate": 0.0007735957552519592,
+      "loss": 0.081,
+      "num_input_tokens_seen": 101744496,
+      "step": 47095
+    },
+    {
+      "epoch": 7.6835236541598695,
+      "grad_norm": 0.02029622718691826,
+      "learning_rate": 0.0007735361744387818,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 101755088,
+      "step": 47100
+    },
+    {
+      "epoch": 7.684339314845024,
+      "grad_norm": 0.029110131785273552,
+      "learning_rate": 0.0007734765880820468,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 101764144,
+      "step": 47105
+    },
+    {
+      "epoch": 7.685154975530179,
+      "grad_norm": 0.0040335459634661674,
+      "learning_rate": 0.0007734169961829618,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 101774960,
+      "step": 47110
+    },
+    {
+      "epoch": 7.685970636215334,
+      "grad_norm": 0.1551961600780487,
+      "learning_rate": 0.0007733573987427346,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 101785488,
+      "step": 47115
+    },
+    {
+      "epoch": 7.68678629690049,
+      "grad_norm": 0.0011410359293222427,
+      "learning_rate": 0.0007732977957625729,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 101795792,
+      "step": 47120
+    },
+    {
+      "epoch": 7.6876019575856445,
+      "grad_norm": 0.009819770231842995,
+      "learning_rate": 0.0007732381872436846,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 101805168,
+      "step": 47125
+    },
+    {
+      "epoch": 7.688417618270799,
+      "grad_norm": 0.36888980865478516,
+      "learning_rate": 0.0007731785731872778,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 101817104,
+      "step": 47130
+    },
+    {
+      "epoch": 7.689233278955954,
+      "grad_norm": 0.009072404354810715,
+      "learning_rate": 0.0007731189535945609,
+      "loss": 0.084,
+      "num_input_tokens_seen": 101826768,
+      "step": 47135
+    },
+    {
+      "epoch": 7.690048939641109,
+      "grad_norm": 0.14182324707508087,
+      "learning_rate": 0.0007730593284667416,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 101835696,
+      "step": 47140
+    },
+    {
+      "epoch": 7.690864600326265,
+      "grad_norm": 0.2949478328227997,
+      "learning_rate": 0.0007729996978050287,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 101847280,
+      "step": 47145
+    },
+    {
+      "epoch": 7.691680261011419,
+      "grad_norm": 0.010478787124156952,
+      "learning_rate": 0.0007729400616106308,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 101859056,
+      "step": 47150
+    },
+    {
+      "epoch": 7.692495921696574,
+      "grad_norm": 0.1508476883172989,
+      "learning_rate": 0.0007728804198847561,
+      "loss": 0.2044,
+      "num_input_tokens_seen": 101871184,
+      "step": 47155
+    },
+    {
+      "epoch": 7.693311582381729,
+      "grad_norm": 0.12415754795074463,
+      "learning_rate": 0.0007728207726286136,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 101881616,
+      "step": 47160
+    },
+    {
+      "epoch": 7.694127243066884,
+      "grad_norm": 0.01569686271250248,
+      "learning_rate": 0.000772761119843412,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 101892688,
+      "step": 47165
+    },
+    {
+      "epoch": 7.69494290375204,
+      "grad_norm": 0.07221835851669312,
+      "learning_rate": 0.0007727014615303602,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 101903696,
+      "step": 47170
+    },
+    {
+      "epoch": 7.695758564437194,
+      "grad_norm": 0.03987114503979683,
+      "learning_rate": 0.0007726417976906674,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 101913808,
+      "step": 47175
+    },
+    {
+      "epoch": 7.696574225122349,
+      "grad_norm": 0.0109365563839674,
+      "learning_rate": 0.0007725821283255427,
+      "loss": 0.0375,
+      "num_input_tokens_seen": 101924304,
+      "step": 47180
+    },
+    {
+      "epoch": 7.697389885807504,
+      "grad_norm": 0.020825443789362907,
+      "learning_rate": 0.0007725224534361955,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 101934320,
+      "step": 47185
+    },
+    {
+      "epoch": 7.698205546492659,
+      "grad_norm": 0.386552095413208,
+      "learning_rate": 0.000772462773023835,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 101944912,
+      "step": 47190
+    },
+    {
+      "epoch": 7.699021207177814,
+      "grad_norm": 0.055130232125520706,
+      "learning_rate": 0.0007724030870896707,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 101954992,
+      "step": 47195
+    },
+    {
+      "epoch": 7.699836867862969,
+      "grad_norm": 0.38049188256263733,
+      "learning_rate": 0.0007723433956349123,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 101965552,
+      "step": 47200
+    },
+    {
+      "epoch": 7.700652528548124,
+      "grad_norm": 0.025845926254987717,
+      "learning_rate": 0.0007722836986607696,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 101976304,
+      "step": 47205
+    },
+    {
+      "epoch": 7.701468189233279,
+      "grad_norm": 0.009440034627914429,
+      "learning_rate": 0.000772223996168452,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 101987568,
+      "step": 47210
+    },
+    {
+      "epoch": 7.702283849918434,
+      "grad_norm": 0.2705138027667999,
+      "learning_rate": 0.0007721642881591701,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 101998992,
+      "step": 47215
+    },
+    {
+      "epoch": 7.703099510603589,
+      "grad_norm": 0.01270539965480566,
+      "learning_rate": 0.0007721045746341335,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 102009744,
+      "step": 47220
+    },
+    {
+      "epoch": 7.7039151712887435,
+      "grad_norm": 0.009581586346030235,
+      "learning_rate": 0.0007720448555945527,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 102020528,
+      "step": 47225
+    },
+    {
+      "epoch": 7.704730831973899,
+      "grad_norm": 0.00414057495072484,
+      "learning_rate": 0.0007719851310416376,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 102031056,
+      "step": 47230
+    },
+    {
+      "epoch": 7.705546492659054,
+      "grad_norm": 0.14105384051799774,
+      "learning_rate": 0.0007719254009765988,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 102042480,
+      "step": 47235
+    },
+    {
+      "epoch": 7.706362153344209,
+      "grad_norm": 0.09803734719753265,
+      "learning_rate": 0.0007718656654006469,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 102053904,
+      "step": 47240
+    },
+    {
+      "epoch": 7.707177814029364,
+      "grad_norm": 0.0025712084025144577,
+      "learning_rate": 0.0007718059243149921,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 102064464,
+      "step": 47245
+    },
+    {
+      "epoch": 7.7079934747145185,
+      "grad_norm": 0.017207970842719078,
+      "learning_rate": 0.0007717461777208458,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 102074832,
+      "step": 47250
+    },
+    {
+      "epoch": 7.708809135399674,
+      "grad_norm": 0.006477975752204657,
+      "learning_rate": 0.0007716864256194182,
+      "loss": 0.16,
+      "num_input_tokens_seen": 102087088,
+      "step": 47255
+    },
+    {
+      "epoch": 7.709624796084829,
+      "grad_norm": 0.0029095339123159647,
+      "learning_rate": 0.0007716266680119207,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 102098576,
+      "step": 47260
+    },
+    {
+      "epoch": 7.710440456769984,
+      "grad_norm": 0.042995352298021317,
+      "learning_rate": 0.0007715669048995641,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 102109360,
+      "step": 47265
+    },
+    {
+      "epoch": 7.711256117455139,
+      "grad_norm": 0.013274877332150936,
+      "learning_rate": 0.0007715071362835597,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 102119344,
+      "step": 47270
+    },
+    {
+      "epoch": 7.712071778140293,
+      "grad_norm": 0.28431835770606995,
+      "learning_rate": 0.0007714473621651188,
+      "loss": 0.0345,
+      "num_input_tokens_seen": 102130192,
+      "step": 47275
+    },
+    {
+      "epoch": 7.712887438825448,
+      "grad_norm": 0.06582538783550262,
+      "learning_rate": 0.0007713875825454526,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 102140496,
+      "step": 47280
+    },
+    {
+      "epoch": 7.713703099510604,
+      "grad_norm": 0.02666584588587284,
+      "learning_rate": 0.0007713277974257729,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 102150448,
+      "step": 47285
+    },
+    {
+      "epoch": 7.714518760195759,
+      "grad_norm": 0.045763175934553146,
+      "learning_rate": 0.0007712680068072911,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 102160848,
+      "step": 47290
+    },
+    {
+      "epoch": 7.715334420880914,
+      "grad_norm": 0.005454830825328827,
+      "learning_rate": 0.000771208210691219,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 102171152,
+      "step": 47295
+    },
+    {
+      "epoch": 7.716150081566068,
+      "grad_norm": 0.0028063564095646143,
+      "learning_rate": 0.0007711484090787686,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 102181840,
+      "step": 47300
+    },
+    {
+      "epoch": 7.716965742251223,
+      "grad_norm": 0.026000995188951492,
+      "learning_rate": 0.0007710886019711516,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 102193328,
+      "step": 47305
+    },
+    {
+      "epoch": 7.717781402936378,
+      "grad_norm": 0.21542233228683472,
+      "learning_rate": 0.0007710287893695803,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 102203632,
+      "step": 47310
+    },
+    {
+      "epoch": 7.718597063621534,
+      "grad_norm": 0.004267824813723564,
+      "learning_rate": 0.0007709689712752666,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 102214864,
+      "step": 47315
+    },
+    {
+      "epoch": 7.719412724306689,
+      "grad_norm": 0.05040392652153969,
+      "learning_rate": 0.000770909147689423,
+      "loss": 0.049,
+      "num_input_tokens_seen": 102225392,
+      "step": 47320
+    },
+    {
+      "epoch": 7.720228384991843,
+      "grad_norm": 0.003110036253929138,
+      "learning_rate": 0.000770849318613262,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 102235408,
+      "step": 47325
+    },
+    {
+      "epoch": 7.721044045676998,
+      "grad_norm": 0.007758749648928642,
+      "learning_rate": 0.0007707894840479957,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 102246672,
+      "step": 47330
+    },
+    {
+      "epoch": 7.721859706362153,
+      "grad_norm": 0.12128084897994995,
+      "learning_rate": 0.0007707296439948372,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 102256752,
+      "step": 47335
+    },
+    {
+      "epoch": 7.722675367047309,
+      "grad_norm": 0.08663403242826462,
+      "learning_rate": 0.0007706697984549988,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 102267280,
+      "step": 47340
+    },
+    {
+      "epoch": 7.7234910277324635,
+      "grad_norm": 0.021859407424926758,
+      "learning_rate": 0.0007706099474296938,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 102278928,
+      "step": 47345
+    },
+    {
+      "epoch": 7.724306688417618,
+      "grad_norm": 0.013470686972141266,
+      "learning_rate": 0.0007705500909201349,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 102290608,
+      "step": 47350
+    },
+    {
+      "epoch": 7.725122349102773,
+      "grad_norm": 0.31886106729507446,
+      "learning_rate": 0.0007704902289275351,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 102301456,
+      "step": 47355
+    },
+    {
+      "epoch": 7.725938009787928,
+      "grad_norm": 0.016273748129606247,
+      "learning_rate": 0.0007704303614531076,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 102311760,
+      "step": 47360
+    },
+    {
+      "epoch": 7.726753670473083,
+      "grad_norm": 0.0390392541885376,
+      "learning_rate": 0.0007703704884980659,
+      "loss": 0.01,
+      "num_input_tokens_seen": 102322928,
+      "step": 47365
+    },
+    {
+      "epoch": 7.7275693311582385,
+      "grad_norm": 0.022559884935617447,
+      "learning_rate": 0.0007703106100636233,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 102333488,
+      "step": 47370
+    },
+    {
+      "epoch": 7.728384991843393,
+      "grad_norm": 0.1979581117630005,
+      "learning_rate": 0.0007702507261509932,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 102344240,
+      "step": 47375
+    },
+    {
+      "epoch": 7.729200652528548,
+      "grad_norm": 0.03317411243915558,
+      "learning_rate": 0.000770190836761389,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 102354544,
+      "step": 47380
+    },
+    {
+      "epoch": 7.730016313213703,
+      "grad_norm": 0.13358907401561737,
+      "learning_rate": 0.0007701309418960252,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 102365456,
+      "step": 47385
+    },
+    {
+      "epoch": 7.730831973898858,
+      "grad_norm": 0.010089668445289135,
+      "learning_rate": 0.000770071041556115,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 102376560,
+      "step": 47390
+    },
+    {
+      "epoch": 7.731647634584013,
+      "grad_norm": 0.22938187420368195,
+      "learning_rate": 0.0007700111357428724,
+      "loss": 0.2544,
+      "num_input_tokens_seen": 102387184,
+      "step": 47395
+    },
+    {
+      "epoch": 7.732463295269168,
+      "grad_norm": 0.005095354747027159,
+      "learning_rate": 0.0007699512244575118,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 102398128,
+      "step": 47400
+    },
+    {
+      "epoch": 7.733278955954323,
+      "grad_norm": 0.3448812961578369,
+      "learning_rate": 0.0007698913077012471,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 102409840,
+      "step": 47405
+    },
+    {
+      "epoch": 7.734094616639478,
+      "grad_norm": 0.013782687485218048,
+      "learning_rate": 0.0007698313854752925,
+      "loss": 0.1804,
+      "num_input_tokens_seen": 102418544,
+      "step": 47410
+    },
+    {
+      "epoch": 7.734910277324633,
+      "grad_norm": 0.036323726177215576,
+      "learning_rate": 0.0007697714577808627,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 102429872,
+      "step": 47415
+    },
+    {
+      "epoch": 7.735725938009788,
+      "grad_norm": 0.35927650332450867,
+      "learning_rate": 0.0007697115246191723,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 102441424,
+      "step": 47420
+    },
+    {
+      "epoch": 7.736541598694943,
+      "grad_norm": 0.12467711418867111,
+      "learning_rate": 0.0007696515859914355,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 102451568,
+      "step": 47425
+    },
+    {
+      "epoch": 7.737357259380098,
+      "grad_norm": 0.13213302195072174,
+      "learning_rate": 0.0007695916418988672,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 102463312,
+      "step": 47430
+    },
+    {
+      "epoch": 7.738172920065253,
+      "grad_norm": 0.060174569487571716,
+      "learning_rate": 0.0007695316923426823,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 102473584,
+      "step": 47435
+    },
+    {
+      "epoch": 7.738988580750408,
+      "grad_norm": 0.01953984424471855,
+      "learning_rate": 0.0007694717373240957,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 102484592,
+      "step": 47440
+    },
+    {
+      "epoch": 7.739804241435563,
+      "grad_norm": 0.02944285422563553,
+      "learning_rate": 0.0007694117768443225,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 102494960,
+      "step": 47445
+    },
+    {
+      "epoch": 7.740619902120718,
+      "grad_norm": 0.06595656275749207,
+      "learning_rate": 0.0007693518109045779,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 102505872,
+      "step": 47450
+    },
+    {
+      "epoch": 7.741435562805873,
+      "grad_norm": 0.0057144612073898315,
+      "learning_rate": 0.0007692918395060772,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 102518320,
+      "step": 47455
+    },
+    {
+      "epoch": 7.742251223491028,
+      "grad_norm": 0.22104227542877197,
+      "learning_rate": 0.0007692318626500357,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 102529488,
+      "step": 47460
+    },
+    {
+      "epoch": 7.743066884176183,
+      "grad_norm": 0.09873582422733307,
+      "learning_rate": 0.000769171880337669,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 102539920,
+      "step": 47465
+    },
+    {
+      "epoch": 7.7438825448613375,
+      "grad_norm": 0.011355056427419186,
+      "learning_rate": 0.0007691118925701927,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 102550832,
+      "step": 47470
+    },
+    {
+      "epoch": 7.744698205546492,
+      "grad_norm": 0.0603439062833786,
+      "learning_rate": 0.0007690518993488225,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 102560784,
+      "step": 47475
+    },
+    {
+      "epoch": 7.745513866231647,
+      "grad_norm": 0.004944812506437302,
+      "learning_rate": 0.0007689919006747741,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 102571920,
+      "step": 47480
+    },
+    {
+      "epoch": 7.746329526916803,
+      "grad_norm": 0.04303191974759102,
+      "learning_rate": 0.0007689318965492637,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 102582288,
+      "step": 47485
+    },
+    {
+      "epoch": 7.747145187601958,
+      "grad_norm": 0.1496291607618332,
+      "learning_rate": 0.0007688718869735072,
+      "loss": 0.2258,
+      "num_input_tokens_seen": 102592400,
+      "step": 47490
+    },
+    {
+      "epoch": 7.7479608482871125,
+      "grad_norm": 0.13335032761096954,
+      "learning_rate": 0.0007688118719487209,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 102604112,
+      "step": 47495
+    },
+    {
+      "epoch": 7.748776508972267,
+      "grad_norm": 0.02721407637000084,
+      "learning_rate": 0.000768751851476121,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 102615760,
+      "step": 47500
+    },
+    {
+      "epoch": 7.749592169657422,
+      "grad_norm": 0.009211353026330471,
+      "learning_rate": 0.0007686918255569238,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 102626640,
+      "step": 47505
+    },
+    {
+      "epoch": 7.750407830342578,
+      "grad_norm": 0.00823135394603014,
+      "learning_rate": 0.000768631794192346,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 102635280,
+      "step": 47510
+    },
+    {
+      "epoch": 7.751223491027733,
+      "grad_norm": 0.21994829177856445,
+      "learning_rate": 0.0007685717573836041,
+      "loss": 0.2531,
+      "num_input_tokens_seen": 102644592,
+      "step": 47515
+    },
+    {
+      "epoch": 7.7520391517128875,
+      "grad_norm": 0.1314292550086975,
+      "learning_rate": 0.0007685117151319148,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 102655792,
+      "step": 47520
+    },
+    {
+      "epoch": 7.752854812398042,
+      "grad_norm": 0.07114052772521973,
+      "learning_rate": 0.000768451667438495,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 102664912,
+      "step": 47525
+    },
+    {
+      "epoch": 7.753670473083197,
+      "grad_norm": 0.26361361145973206,
+      "learning_rate": 0.0007683916143045615,
+      "loss": 0.1825,
+      "num_input_tokens_seen": 102675952,
+      "step": 47530
+    },
+    {
+      "epoch": 7.754486133768353,
+      "grad_norm": 0.0912046879529953,
+      "learning_rate": 0.0007683315557313315,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 102686352,
+      "step": 47535
+    },
+    {
+      "epoch": 7.755301794453508,
+      "grad_norm": 0.13648521900177002,
+      "learning_rate": 0.0007682714917200222,
+      "loss": 0.272,
+      "num_input_tokens_seen": 102697136,
+      "step": 47540
+    },
+    {
+      "epoch": 7.7561174551386625,
+      "grad_norm": 0.11068026721477509,
+      "learning_rate": 0.0007682114222718507,
+      "loss": 0.1335,
+      "num_input_tokens_seen": 102708496,
+      "step": 47545
+    },
+    {
+      "epoch": 7.756933115823817,
+      "grad_norm": 0.07234393805265427,
+      "learning_rate": 0.0007681513473880345,
+      "loss": 0.047,
+      "num_input_tokens_seen": 102718736,
+      "step": 47550
+    },
+    {
+      "epoch": 7.757748776508972,
+      "grad_norm": 0.16802458465099335,
+      "learning_rate": 0.000768091267069791,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 102729904,
+      "step": 47555
+    },
+    {
+      "epoch": 7.758564437194127,
+      "grad_norm": 0.03538018837571144,
+      "learning_rate": 0.000768031181318338,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 102739664,
+      "step": 47560
+    },
+    {
+      "epoch": 7.759380097879282,
+      "grad_norm": 0.08238279074430466,
+      "learning_rate": 0.000767971090134893,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 102750480,
+      "step": 47565
+    },
+    {
+      "epoch": 7.760195758564437,
+      "grad_norm": 0.23739773035049438,
+      "learning_rate": 0.0007679109935206741,
+      "loss": 0.3616,
+      "num_input_tokens_seen": 102762256,
+      "step": 47570
+    },
+    {
+      "epoch": 7.761011419249592,
+      "grad_norm": 0.002562036272138357,
+      "learning_rate": 0.0007678508914768989,
+      "loss": 0.0531,
+      "num_input_tokens_seen": 102771856,
+      "step": 47575
+    },
+    {
+      "epoch": 7.761827079934747,
+      "grad_norm": 0.5261669158935547,
+      "learning_rate": 0.0007677907840047855,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 102781744,
+      "step": 47580
+    },
+    {
+      "epoch": 7.762642740619902,
+      "grad_norm": 0.013511805795133114,
+      "learning_rate": 0.0007677306711055523,
+      "loss": 0.1552,
+      "num_input_tokens_seen": 102792272,
+      "step": 47585
+    },
+    {
+      "epoch": 7.763458401305057,
+      "grad_norm": 0.050765104591846466,
+      "learning_rate": 0.0007676705527804173,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 102802608,
+      "step": 47590
+    },
+    {
+      "epoch": 7.764274061990212,
+      "grad_norm": 0.010733344592154026,
+      "learning_rate": 0.000767610429030599,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 102812784,
+      "step": 47595
+    },
+    {
+      "epoch": 7.765089722675367,
+      "grad_norm": 0.16465511918067932,
+      "learning_rate": 0.0007675502998573159,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 102823792,
+      "step": 47600
+    },
+    {
+      "epoch": 7.765905383360522,
+      "grad_norm": 0.005473458673804998,
+      "learning_rate": 0.0007674901652617865,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 102833712,
+      "step": 47605
+    },
+    {
+      "epoch": 7.766721044045677,
+      "grad_norm": 0.2899492681026459,
+      "learning_rate": 0.0007674300252452297,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 102845232,
+      "step": 47610
+    },
+    {
+      "epoch": 7.767536704730832,
+      "grad_norm": 0.012640978209674358,
+      "learning_rate": 0.000767369879808864,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 102856944,
+      "step": 47615
+    },
+    {
+      "epoch": 7.768352365415987,
+      "grad_norm": 0.0032530981115996838,
+      "learning_rate": 0.0007673097289539086,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 102867856,
+      "step": 47620
+    },
+    {
+      "epoch": 7.769168026101142,
+      "grad_norm": 0.050850965082645416,
+      "learning_rate": 0.0007672495726815825,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 102878064,
+      "step": 47625
+    },
+    {
+      "epoch": 7.769983686786297,
+      "grad_norm": 0.004038092214614153,
+      "learning_rate": 0.0007671894109931048,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 102890320,
+      "step": 47630
+    },
+    {
+      "epoch": 7.770799347471452,
+      "grad_norm": 0.007436644751578569,
+      "learning_rate": 0.0007671292438896946,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 102901296,
+      "step": 47635
+    },
+    {
+      "epoch": 7.771615008156607,
+      "grad_norm": 0.12992477416992188,
+      "learning_rate": 0.0007670690713725715,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 102911856,
+      "step": 47640
+    },
+    {
+      "epoch": 7.7724306688417615,
+      "grad_norm": 0.08481542021036148,
+      "learning_rate": 0.0007670088934429548,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 102921488,
+      "step": 47645
+    },
+    {
+      "epoch": 7.773246329526917,
+      "grad_norm": 0.012516772374510765,
+      "learning_rate": 0.0007669487101020642,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 102931984,
+      "step": 47650
+    },
+    {
+      "epoch": 7.774061990212072,
+      "grad_norm": 0.08736187219619751,
+      "learning_rate": 0.0007668885213511193,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 102943568,
+      "step": 47655
+    },
+    {
+      "epoch": 7.774877650897227,
+      "grad_norm": 0.012583942152559757,
+      "learning_rate": 0.0007668283271913399,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 102954288,
+      "step": 47660
+    },
+    {
+      "epoch": 7.775693311582382,
+      "grad_norm": 0.09388376772403717,
+      "learning_rate": 0.000766768127623946,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 102964304,
+      "step": 47665
+    },
+    {
+      "epoch": 7.7765089722675365,
+      "grad_norm": 0.0643705278635025,
+      "learning_rate": 0.0007667079226501576,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 102975248,
+      "step": 47670
+    },
+    {
+      "epoch": 7.777324632952691,
+      "grad_norm": 0.008023286238312721,
+      "learning_rate": 0.0007666477122711948,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 102986576,
+      "step": 47675
+    },
+    {
+      "epoch": 7.778140293637847,
+      "grad_norm": 0.30081382393836975,
+      "learning_rate": 0.000766587496488278,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 102997584,
+      "step": 47680
+    },
+    {
+      "epoch": 7.778955954323002,
+      "grad_norm": 0.03647547587752342,
+      "learning_rate": 0.0007665272753026271,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 103008368,
+      "step": 47685
+    },
+    {
+      "epoch": 7.779771615008157,
+      "grad_norm": 0.004456724505871534,
+      "learning_rate": 0.000766467048715463,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 103019568,
+      "step": 47690
+    },
+    {
+      "epoch": 7.780587275693311,
+      "grad_norm": 0.055073726922273636,
+      "learning_rate": 0.000766406816728006,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 103030256,
+      "step": 47695
+    },
+    {
+      "epoch": 7.781402936378466,
+      "grad_norm": 0.3227660357952118,
+      "learning_rate": 0.000766346579341477,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 103041168,
+      "step": 47700
+    },
+    {
+      "epoch": 7.782218597063622,
+      "grad_norm": 0.06537395715713501,
+      "learning_rate": 0.0007662863365570967,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 103052464,
+      "step": 47705
+    },
+    {
+      "epoch": 7.783034257748777,
+      "grad_norm": 0.3882252871990204,
+      "learning_rate": 0.000766226088376086,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 103063376,
+      "step": 47710
+    },
+    {
+      "epoch": 7.783849918433932,
+      "grad_norm": 0.04566549137234688,
+      "learning_rate": 0.0007661658347996659,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 103074448,
+      "step": 47715
+    },
+    {
+      "epoch": 7.784665579119086,
+      "grad_norm": 0.039481550455093384,
+      "learning_rate": 0.0007661055758290574,
+      "loss": 0.204,
+      "num_input_tokens_seen": 103084912,
+      "step": 47720
+    },
+    {
+      "epoch": 7.785481239804241,
+      "grad_norm": 0.24234062433242798,
+      "learning_rate": 0.0007660453114654819,
+      "loss": 0.1593,
+      "num_input_tokens_seen": 103095408,
+      "step": 47725
+    },
+    {
+      "epoch": 7.786296900489396,
+      "grad_norm": 0.24106614291667938,
+      "learning_rate": 0.0007659850417101606,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 103105776,
+      "step": 47730
+    },
+    {
+      "epoch": 7.787112561174552,
+      "grad_norm": 0.013635087758302689,
+      "learning_rate": 0.0007659247665643151,
+      "loss": 0.1237,
+      "num_input_tokens_seen": 103117392,
+      "step": 47735
+    },
+    {
+      "epoch": 7.787928221859707,
+      "grad_norm": 0.05942991003394127,
+      "learning_rate": 0.0007658644860291668,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 103127344,
+      "step": 47740
+    },
+    {
+      "epoch": 7.788743882544861,
+      "grad_norm": 0.008099487982690334,
+      "learning_rate": 0.0007658042001059373,
+      "loss": 0.1783,
+      "num_input_tokens_seen": 103136848,
+      "step": 47745
+    },
+    {
+      "epoch": 7.789559543230016,
+      "grad_norm": 0.01683001220226288,
+      "learning_rate": 0.0007657439087958486,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 103148208,
+      "step": 47750
+    },
+    {
+      "epoch": 7.790375203915171,
+      "grad_norm": 0.05494864284992218,
+      "learning_rate": 0.0007656836121001225,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 103158832,
+      "step": 47755
+    },
+    {
+      "epoch": 7.791190864600326,
+      "grad_norm": 0.1892729550600052,
+      "learning_rate": 0.0007656233100199809,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 103168688,
+      "step": 47760
+    },
+    {
+      "epoch": 7.7920065252854815,
+      "grad_norm": 0.05981948971748352,
+      "learning_rate": 0.000765563002556646,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 103178736,
+      "step": 47765
+    },
+    {
+      "epoch": 7.792822185970636,
+      "grad_norm": 0.216399148106575,
+      "learning_rate": 0.00076550268971134,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 103188528,
+      "step": 47770
+    },
+    {
+      "epoch": 7.793637846655791,
+      "grad_norm": 0.09204624593257904,
+      "learning_rate": 0.0007654423714852852,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 103198736,
+      "step": 47775
+    },
+    {
+      "epoch": 7.794453507340946,
+      "grad_norm": 0.11351175606250763,
+      "learning_rate": 0.0007653820478797038,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 103209296,
+      "step": 47780
+    },
+    {
+      "epoch": 7.795269168026101,
+      "grad_norm": 0.2176835536956787,
+      "learning_rate": 0.0007653217188958188,
+      "loss": 0.188,
+      "num_input_tokens_seen": 103219632,
+      "step": 47785
+    },
+    {
+      "epoch": 7.7960848287112565,
+      "grad_norm": 0.025288639590144157,
+      "learning_rate": 0.0007652613845348524,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 103230960,
+      "step": 47790
+    },
+    {
+      "epoch": 7.796900489396411,
+      "grad_norm": 0.03485998511314392,
+      "learning_rate": 0.0007652010447980276,
+      "loss": 0.047,
+      "num_input_tokens_seen": 103240912,
+      "step": 47795
+    },
+    {
+      "epoch": 7.797716150081566,
+      "grad_norm": 0.004971094895154238,
+      "learning_rate": 0.0007651406996865672,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 103252752,
+      "step": 47800
+    },
+    {
+      "epoch": 7.798531810766721,
+      "grad_norm": 0.2158200442790985,
+      "learning_rate": 0.000765080349201694,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 103262800,
+      "step": 47805
+    },
+    {
+      "epoch": 7.799347471451876,
+      "grad_norm": 0.0057363430969417095,
+      "learning_rate": 0.0007650199933446314,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 103273680,
+      "step": 47810
+    },
+    {
+      "epoch": 7.800163132137031,
+      "grad_norm": 0.13042238354682922,
+      "learning_rate": 0.0007649596321166025,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 103285200,
+      "step": 47815
+    },
+    {
+      "epoch": 7.800978792822186,
+      "grad_norm": 0.010898235253989697,
+      "learning_rate": 0.0007648992655188305,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 103295568,
+      "step": 47820
+    },
+    {
+      "epoch": 7.801794453507341,
+      "grad_norm": 0.08140433579683304,
+      "learning_rate": 0.0007648388935525388,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 103305648,
+      "step": 47825
+    },
+    {
+      "epoch": 7.802610114192496,
+      "grad_norm": 0.036025699228048325,
+      "learning_rate": 0.0007647785162189509,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 103317264,
+      "step": 47830
+    },
+    {
+      "epoch": 7.803425774877651,
+      "grad_norm": 0.026536036282777786,
+      "learning_rate": 0.0007647181335192905,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 103328720,
+      "step": 47835
+    },
+    {
+      "epoch": 7.804241435562806,
+      "grad_norm": 0.1489490419626236,
+      "learning_rate": 0.0007646577454547814,
+      "loss": 0.038,
+      "num_input_tokens_seen": 103340464,
+      "step": 47840
+    },
+    {
+      "epoch": 7.80505709624796,
+      "grad_norm": 0.016447249799966812,
+      "learning_rate": 0.0007645973520266472,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 103350992,
+      "step": 47845
+    },
+    {
+      "epoch": 7.805872756933116,
+      "grad_norm": 0.23225589096546173,
+      "learning_rate": 0.000764536953236112,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 103362736,
+      "step": 47850
+    },
+    {
+      "epoch": 7.806688417618271,
+      "grad_norm": 0.024745440110564232,
+      "learning_rate": 0.0007644765490844,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 103373136,
+      "step": 47855
+    },
+    {
+      "epoch": 7.807504078303426,
+      "grad_norm": 0.18811935186386108,
+      "learning_rate": 0.0007644161395727352,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 103383504,
+      "step": 47860
+    },
+    {
+      "epoch": 7.808319738988581,
+      "grad_norm": 0.2695559561252594,
+      "learning_rate": 0.0007643557247023418,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 103393808,
+      "step": 47865
+    },
+    {
+      "epoch": 7.809135399673735,
+      "grad_norm": 0.03419940173625946,
+      "learning_rate": 0.0007642953044744443,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 103405936,
+      "step": 47870
+    },
+    {
+      "epoch": 7.809951060358891,
+      "grad_norm": 0.018129676580429077,
+      "learning_rate": 0.0007642348788902672,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 103416464,
+      "step": 47875
+    },
+    {
+      "epoch": 7.810766721044046,
+      "grad_norm": 0.2084517925977707,
+      "learning_rate": 0.000764174447951035,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 103426768,
+      "step": 47880
+    },
+    {
+      "epoch": 7.811582381729201,
+      "grad_norm": 0.08284687250852585,
+      "learning_rate": 0.0007641140116579725,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 103436656,
+      "step": 47885
+    },
+    {
+      "epoch": 7.8123980424143555,
+      "grad_norm": 0.07356946915388107,
+      "learning_rate": 0.0007640535700123047,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 103447504,
+      "step": 47890
+    },
+    {
+      "epoch": 7.81321370309951,
+      "grad_norm": 0.018549971282482147,
+      "learning_rate": 0.000763993123015256,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 103458800,
+      "step": 47895
+    },
+    {
+      "epoch": 7.814029363784666,
+      "grad_norm": 0.001164857647381723,
+      "learning_rate": 0.0007639326706680521,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 103468944,
+      "step": 47900
+    },
+    {
+      "epoch": 7.814845024469821,
+      "grad_norm": 0.0029101655818521976,
+      "learning_rate": 0.0007638722129719175,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 103478928,
+      "step": 47905
+    },
+    {
+      "epoch": 7.815660685154976,
+      "grad_norm": 0.005133399274200201,
+      "learning_rate": 0.0007638117499280778,
+      "loss": 0.014,
+      "num_input_tokens_seen": 103491024,
+      "step": 47910
+    },
+    {
+      "epoch": 7.8164763458401305,
+      "grad_norm": 0.10789318382740021,
+      "learning_rate": 0.0007637512815377585,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 103503600,
+      "step": 47915
+    },
+    {
+      "epoch": 7.817292006525285,
+      "grad_norm": 0.417122483253479,
+      "learning_rate": 0.0007636908078021848,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 103513136,
+      "step": 47920
+    },
+    {
+      "epoch": 7.81810766721044,
+      "grad_norm": 0.1550966501235962,
+      "learning_rate": 0.0007636303287225823,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 103523696,
+      "step": 47925
+    },
+    {
+      "epoch": 7.818923327895595,
+      "grad_norm": 0.24719803035259247,
+      "learning_rate": 0.0007635698443001768,
+      "loss": 0.1584,
+      "num_input_tokens_seen": 103535088,
+      "step": 47930
+    },
+    {
+      "epoch": 7.819738988580751,
+      "grad_norm": 0.1656491756439209,
+      "learning_rate": 0.0007635093545361942,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 103544976,
+      "step": 47935
+    },
+    {
+      "epoch": 7.8205546492659055,
+      "grad_norm": 0.011646476574242115,
+      "learning_rate": 0.00076344885943186,
+      "loss": 0.158,
+      "num_input_tokens_seen": 103555824,
+      "step": 47940
+    },
+    {
+      "epoch": 7.82137030995106,
+      "grad_norm": 0.2617485821247101,
+      "learning_rate": 0.0007633883589884007,
+      "loss": 0.1808,
+      "num_input_tokens_seen": 103566544,
+      "step": 47945
+    },
+    {
+      "epoch": 7.822185970636215,
+      "grad_norm": 0.0567353293299675,
+      "learning_rate": 0.000763327853207042,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 103577680,
+      "step": 47950
+    },
+    {
+      "epoch": 7.82300163132137,
+      "grad_norm": 0.07070982456207275,
+      "learning_rate": 0.0007632673420890104,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 103587280,
+      "step": 47955
+    },
+    {
+      "epoch": 7.823817292006526,
+      "grad_norm": 0.08610428869724274,
+      "learning_rate": 0.000763206825635532,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 103598896,
+      "step": 47960
+    },
+    {
+      "epoch": 7.8246329526916805,
+      "grad_norm": 0.28003424406051636,
+      "learning_rate": 0.0007631463038478334,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 103608976,
+      "step": 47965
+    },
+    {
+      "epoch": 7.825448613376835,
+      "grad_norm": 0.015281864441931248,
+      "learning_rate": 0.0007630857767271413,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 103620080,
+      "step": 47970
+    },
+    {
+      "epoch": 7.82626427406199,
+      "grad_norm": 0.08863025903701782,
+      "learning_rate": 0.000763025244274682,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 103631312,
+      "step": 47975
+    },
+    {
+      "epoch": 7.827079934747145,
+      "grad_norm": 0.5021570324897766,
+      "learning_rate": 0.0007629647064916825,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 103641360,
+      "step": 47980
+    },
+    {
+      "epoch": 7.827895595432301,
+      "grad_norm": 0.07482955604791641,
+      "learning_rate": 0.0007629041633793696,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 103652944,
+      "step": 47985
+    },
+    {
+      "epoch": 7.828711256117455,
+      "grad_norm": 0.1137724220752716,
+      "learning_rate": 0.0007628436149389703,
+      "loss": 0.1346,
+      "num_input_tokens_seen": 103662544,
+      "step": 47990
+    },
+    {
+      "epoch": 7.82952691680261,
+      "grad_norm": 0.07171276956796646,
+      "learning_rate": 0.000762783061171712,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 103672496,
+      "step": 47995
+    },
+    {
+      "epoch": 7.830342577487765,
+      "grad_norm": 0.01498460490256548,
+      "learning_rate": 0.0007627225020788213,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 103683312,
+      "step": 48000
+    },
+    {
+      "epoch": 7.83115823817292,
+      "grad_norm": 0.08065731823444366,
+      "learning_rate": 0.0007626619376615258,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 103694320,
+      "step": 48005
+    },
+    {
+      "epoch": 7.831973898858075,
+      "grad_norm": 0.22067171335220337,
+      "learning_rate": 0.000762601367921053,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 103705712,
+      "step": 48010
+    },
+    {
+      "epoch": 7.8327895595432295,
+      "grad_norm": 0.2833503484725952,
+      "learning_rate": 0.0007625407928586303,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 103717424,
+      "step": 48015
+    },
+    {
+      "epoch": 7.833605220228385,
+      "grad_norm": 0.053285736590623856,
+      "learning_rate": 0.0007624802124754855,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 103729008,
+      "step": 48020
+    },
+    {
+      "epoch": 7.83442088091354,
+      "grad_norm": 0.3245934844017029,
+      "learning_rate": 0.000762419626772846,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 103740464,
+      "step": 48025
+    },
+    {
+      "epoch": 7.835236541598695,
+      "grad_norm": 0.5312497019767761,
+      "learning_rate": 0.0007623590357519401,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 103751088,
+      "step": 48030
+    },
+    {
+      "epoch": 7.83605220228385,
+      "grad_norm": 0.0032611230853945017,
+      "learning_rate": 0.0007622984394139953,
+      "loss": 0.1581,
+      "num_input_tokens_seen": 103760432,
+      "step": 48035
+    },
+    {
+      "epoch": 7.8368678629690045,
+      "grad_norm": 0.0028083904180675745,
+      "learning_rate": 0.00076223783776024,
+      "loss": 0.015,
+      "num_input_tokens_seen": 103771120,
+      "step": 48040
+    },
+    {
+      "epoch": 7.83768352365416,
+      "grad_norm": 0.09268619865179062,
+      "learning_rate": 0.0007621772307919022,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 103780144,
+      "step": 48045
+    },
+    {
+      "epoch": 7.838499184339315,
+      "grad_norm": 0.012299345806241035,
+      "learning_rate": 0.0007621166185102104,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 103790928,
+      "step": 48050
+    },
+    {
+      "epoch": 7.83931484502447,
+      "grad_norm": 0.32112395763397217,
+      "learning_rate": 0.0007620560009163926,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 103802064,
+      "step": 48055
+    },
+    {
+      "epoch": 7.840130505709625,
+      "grad_norm": 0.01307889074087143,
+      "learning_rate": 0.0007619953780116775,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 103813872,
+      "step": 48060
+    },
+    {
+      "epoch": 7.8409461663947795,
+      "grad_norm": 0.045404642820358276,
+      "learning_rate": 0.0007619347497972937,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 103825232,
+      "step": 48065
+    },
+    {
+      "epoch": 7.841761827079935,
+      "grad_norm": 0.2753269672393799,
+      "learning_rate": 0.00076187411627447,
+      "loss": 0.1738,
+      "num_input_tokens_seen": 103834992,
+      "step": 48070
+    },
+    {
+      "epoch": 7.84257748776509,
+      "grad_norm": 0.008529874496161938,
+      "learning_rate": 0.0007618134774444351,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 103846384,
+      "step": 48075
+    },
+    {
+      "epoch": 7.843393148450245,
+      "grad_norm": 0.22419241070747375,
+      "learning_rate": 0.0007617528333084178,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 103855888,
+      "step": 48080
+    },
+    {
+      "epoch": 7.8442088091354,
+      "grad_norm": 0.15129628777503967,
+      "learning_rate": 0.0007616921838676475,
+      "loss": 0.102,
+      "num_input_tokens_seen": 103867568,
+      "step": 48085
+    },
+    {
+      "epoch": 7.8450244698205545,
+      "grad_norm": 0.23662333190441132,
+      "learning_rate": 0.0007616315291233531,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 103878960,
+      "step": 48090
+    },
+    {
+      "epoch": 7.845840130505709,
+      "grad_norm": 0.0883672758936882,
+      "learning_rate": 0.0007615708690767637,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 103888432,
+      "step": 48095
+    },
+    {
+      "epoch": 7.846655791190865,
+      "grad_norm": 0.057228852063417435,
+      "learning_rate": 0.0007615102037291089,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 103899632,
+      "step": 48100
+    },
+    {
+      "epoch": 7.84747145187602,
+      "grad_norm": 0.013155256398022175,
+      "learning_rate": 0.000761449533081618,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 103910128,
+      "step": 48105
+    },
+    {
+      "epoch": 7.848287112561175,
+      "grad_norm": 0.02147751860320568,
+      "learning_rate": 0.0007613888571355208,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 103922160,
+      "step": 48110
+    },
+    {
+      "epoch": 7.849102773246329,
+      "grad_norm": 0.003036431735381484,
+      "learning_rate": 0.0007613281758920467,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 103933232,
+      "step": 48115
+    },
+    {
+      "epoch": 7.849918433931484,
+      "grad_norm": 0.03485213965177536,
+      "learning_rate": 0.0007612674893524256,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 103946160,
+      "step": 48120
+    },
+    {
+      "epoch": 7.850734094616639,
+      "grad_norm": 0.04104197025299072,
+      "learning_rate": 0.0007612067975178874,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 103958000,
+      "step": 48125
+    },
+    {
+      "epoch": 7.851549755301795,
+      "grad_norm": 0.2663140892982483,
+      "learning_rate": 0.0007611461003896621,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 103968912,
+      "step": 48130
+    },
+    {
+      "epoch": 7.85236541598695,
+      "grad_norm": 0.8700830340385437,
+      "learning_rate": 0.0007610853979689797,
+      "loss": 0.096,
+      "num_input_tokens_seen": 103978960,
+      "step": 48135
+    },
+    {
+      "epoch": 7.853181076672104,
+      "grad_norm": 0.28547972440719604,
+      "learning_rate": 0.0007610246902570706,
+      "loss": 0.1672,
+      "num_input_tokens_seen": 103989008,
+      "step": 48140
+    },
+    {
+      "epoch": 7.853996737357259,
+      "grad_norm": 0.20221035182476044,
+      "learning_rate": 0.000760963977255165,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 104001712,
+      "step": 48145
+    },
+    {
+      "epoch": 7.854812398042414,
+      "grad_norm": 0.01691204123198986,
+      "learning_rate": 0.0007609032589644934,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 104013648,
+      "step": 48150
+    },
+    {
+      "epoch": 7.85562805872757,
+      "grad_norm": 0.22434313595294952,
+      "learning_rate": 0.0007608425353862863,
+      "loss": 0.1619,
+      "num_input_tokens_seen": 104024496,
+      "step": 48155
+    },
+    {
+      "epoch": 7.856443719412725,
+      "grad_norm": 0.520187497138977,
+      "learning_rate": 0.000760781806521774,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 104034256,
+      "step": 48160
+    },
+    {
+      "epoch": 7.857259380097879,
+      "grad_norm": 0.2626437842845917,
+      "learning_rate": 0.0007607210723721879,
+      "loss": 0.1844,
+      "num_input_tokens_seen": 104045456,
+      "step": 48165
+    },
+    {
+      "epoch": 7.858075040783034,
+      "grad_norm": 0.2683877646923065,
+      "learning_rate": 0.0007606603329387585,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 104056368,
+      "step": 48170
+    },
+    {
+      "epoch": 7.858890701468189,
+      "grad_norm": 0.05445249378681183,
+      "learning_rate": 0.0007605995882227166,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 104067280,
+      "step": 48175
+    },
+    {
+      "epoch": 7.859706362153344,
+      "grad_norm": 0.18587210774421692,
+      "learning_rate": 0.0007605388382252936,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 104079120,
+      "step": 48180
+    },
+    {
+      "epoch": 7.8605220228384995,
+      "grad_norm": 0.1920372098684311,
+      "learning_rate": 0.0007604780829477205,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 104090288,
+      "step": 48185
+    },
+    {
+      "epoch": 7.861337683523654,
+      "grad_norm": 0.007299771066755056,
+      "learning_rate": 0.0007604173223912285,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 104099952,
+      "step": 48190
+    },
+    {
+      "epoch": 7.862153344208809,
+      "grad_norm": 0.0069532874040305614,
+      "learning_rate": 0.0007603565565570493,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 104111344,
+      "step": 48195
+    },
+    {
+      "epoch": 7.862969004893964,
+      "grad_norm": 0.023784659802913666,
+      "learning_rate": 0.0007602957854464141,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 104123056,
+      "step": 48200
+    },
+    {
+      "epoch": 7.863784665579119,
+      "grad_norm": 0.18003705143928528,
+      "learning_rate": 0.0007602350090605546,
+      "loss": 0.1692,
+      "num_input_tokens_seen": 104132208,
+      "step": 48205
+    },
+    {
+      "epoch": 7.864600326264274,
+      "grad_norm": 0.03283815085887909,
+      "learning_rate": 0.0007601742274007023,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 104143376,
+      "step": 48210
+    },
+    {
+      "epoch": 7.865415986949429,
+      "grad_norm": 0.04933464154601097,
+      "learning_rate": 0.0007601134404680894,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 104153584,
+      "step": 48215
+    },
+    {
+      "epoch": 7.866231647634584,
+      "grad_norm": 0.0056173368357121944,
+      "learning_rate": 0.0007600526482639477,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 104164880,
+      "step": 48220
+    },
+    {
+      "epoch": 7.867047308319739,
+      "grad_norm": 0.5657948851585388,
+      "learning_rate": 0.0007599918507895092,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 104175920,
+      "step": 48225
+    },
+    {
+      "epoch": 7.867862969004894,
+      "grad_norm": 0.06797628104686737,
+      "learning_rate": 0.000759931048046006,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 104186640,
+      "step": 48230
+    },
+    {
+      "epoch": 7.868678629690049,
+      "grad_norm": 0.15060186386108398,
+      "learning_rate": 0.0007598702400346703,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 104197872,
+      "step": 48235
+    },
+    {
+      "epoch": 7.869494290375204,
+      "grad_norm": 0.16141721606254578,
+      "learning_rate": 0.0007598094267567345,
+      "loss": 0.1611,
+      "num_input_tokens_seen": 104208816,
+      "step": 48240
+    },
+    {
+      "epoch": 7.870309951060359,
+      "grad_norm": 0.14451834559440613,
+      "learning_rate": 0.0007597486082134311,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 104219952,
+      "step": 48245
+    },
+    {
+      "epoch": 7.871125611745514,
+      "grad_norm": 0.010201388970017433,
+      "learning_rate": 0.0007596877844059926,
+      "loss": 0.11,
+      "num_input_tokens_seen": 104230640,
+      "step": 48250
+    },
+    {
+      "epoch": 7.871941272430669,
+      "grad_norm": 0.22415506839752197,
+      "learning_rate": 0.0007596269553356518,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 104242000,
+      "step": 48255
+    },
+    {
+      "epoch": 7.872756933115824,
+      "grad_norm": 0.02670017071068287,
+      "learning_rate": 0.0007595661210036414,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 104252144,
+      "step": 48260
+    },
+    {
+      "epoch": 7.873572593800979,
+      "grad_norm": 0.20463339984416962,
+      "learning_rate": 0.0007595052814111942,
+      "loss": 0.031,
+      "num_input_tokens_seen": 104263984,
+      "step": 48265
+    },
+    {
+      "epoch": 7.874388254486134,
+      "grad_norm": 0.13383440673351288,
+      "learning_rate": 0.0007594444365595435,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 104274320,
+      "step": 48270
+    },
+    {
+      "epoch": 7.875203915171289,
+      "grad_norm": 0.6233965754508972,
+      "learning_rate": 0.0007593835864499219,
+      "loss": 0.1259,
+      "num_input_tokens_seen": 104285776,
+      "step": 48275
+    },
+    {
+      "epoch": 7.876019575856444,
+      "grad_norm": 0.0012839973205700517,
+      "learning_rate": 0.0007593227310835629,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 104297104,
+      "step": 48280
+    },
+    {
+      "epoch": 7.876835236541599,
+      "grad_norm": 0.5068719983100891,
+      "learning_rate": 0.0007592618704616998,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 104307600,
+      "step": 48285
+    },
+    {
+      "epoch": 7.877650897226753,
+      "grad_norm": 0.1758025586605072,
+      "learning_rate": 0.0007592010045855662,
+      "loss": 0.14,
+      "num_input_tokens_seen": 104319664,
+      "step": 48290
+    },
+    {
+      "epoch": 7.878466557911908,
+      "grad_norm": 0.02141629531979561,
+      "learning_rate": 0.0007591401334563952,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 104331184,
+      "step": 48295
+    },
+    {
+      "epoch": 7.879282218597064,
+      "grad_norm": 0.14108148217201233,
+      "learning_rate": 0.0007590792570754207,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 104342352,
+      "step": 48300
+    },
+    {
+      "epoch": 7.880097879282219,
+      "grad_norm": 0.027795322239398956,
+      "learning_rate": 0.0007590183754438764,
+      "loss": 0.078,
+      "num_input_tokens_seen": 104354704,
+      "step": 48305
+    },
+    {
+      "epoch": 7.8809135399673735,
+      "grad_norm": 0.16794262826442719,
+      "learning_rate": 0.0007589574885629961,
+      "loss": 0.093,
+      "num_input_tokens_seen": 104365872,
+      "step": 48310
+    },
+    {
+      "epoch": 7.881729200652528,
+      "grad_norm": 0.30435100197792053,
+      "learning_rate": 0.0007588965964340137,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 104377008,
+      "step": 48315
+    },
+    {
+      "epoch": 7.882544861337683,
+      "grad_norm": 0.007787167094647884,
+      "learning_rate": 0.0007588356990581635,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 104388016,
+      "step": 48320
+    },
+    {
+      "epoch": 7.883360522022839,
+      "grad_norm": 0.19416892528533936,
+      "learning_rate": 0.0007587747964366796,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 104397968,
+      "step": 48325
+    },
+    {
+      "epoch": 7.884176182707994,
+      "grad_norm": 0.012199878692626953,
+      "learning_rate": 0.0007587138885707959,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 104408944,
+      "step": 48330
+    },
+    {
+      "epoch": 7.8849918433931485,
+      "grad_norm": 0.6253767013549805,
+      "learning_rate": 0.000758652975461747,
+      "loss": 0.168,
+      "num_input_tokens_seen": 104419440,
+      "step": 48335
+    },
+    {
+      "epoch": 7.885807504078303,
+      "grad_norm": 0.003849747823551297,
+      "learning_rate": 0.0007585920571107677,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 104428560,
+      "step": 48340
+    },
+    {
+      "epoch": 7.886623164763458,
+      "grad_norm": 0.08811540901660919,
+      "learning_rate": 0.0007585311335190923,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 104438256,
+      "step": 48345
+    },
+    {
+      "epoch": 7.887438825448614,
+      "grad_norm": 0.020213250070810318,
+      "learning_rate": 0.0007584702046879554,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 104448624,
+      "step": 48350
+    },
+    {
+      "epoch": 7.888254486133769,
+      "grad_norm": 0.41347524523735046,
+      "learning_rate": 0.0007584092706185919,
+      "loss": 0.228,
+      "num_input_tokens_seen": 104460528,
+      "step": 48355
+    },
+    {
+      "epoch": 7.8890701468189235,
+      "grad_norm": 0.0025836778804659843,
+      "learning_rate": 0.0007583483313122368,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 104472016,
+      "step": 48360
+    },
+    {
+      "epoch": 7.889885807504078,
+      "grad_norm": 0.012997115030884743,
+      "learning_rate": 0.000758287386770125,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 104482288,
+      "step": 48365
+    },
+    {
+      "epoch": 7.890701468189233,
+      "grad_norm": 0.041280992329120636,
+      "learning_rate": 0.0007582264369934915,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 104492304,
+      "step": 48370
+    },
+    {
+      "epoch": 7.891517128874388,
+      "grad_norm": 0.0031451070681214333,
+      "learning_rate": 0.0007581654819835717,
+      "loss": 0.1548,
+      "num_input_tokens_seen": 104503472,
+      "step": 48375
+    },
+    {
+      "epoch": 7.892332789559543,
+      "grad_norm": 0.017510058358311653,
+      "learning_rate": 0.0007581045217416011,
+      "loss": 0.1972,
+      "num_input_tokens_seen": 104513872,
+      "step": 48380
+    },
+    {
+      "epoch": 7.8931484502446985,
+      "grad_norm": 0.00507473386824131,
+      "learning_rate": 0.0007580435562688148,
+      "loss": 0.1909,
+      "num_input_tokens_seen": 104524336,
+      "step": 48385
+    },
+    {
+      "epoch": 7.893964110929853,
+      "grad_norm": 0.0073803444392979145,
+      "learning_rate": 0.0007579825855664486,
+      "loss": 0.1623,
+      "num_input_tokens_seen": 104535600,
+      "step": 48390
+    },
+    {
+      "epoch": 7.894779771615008,
+      "grad_norm": 0.06939529627561569,
+      "learning_rate": 0.0007579216096357378,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 104544688,
+      "step": 48395
+    },
+    {
+      "epoch": 7.895595432300163,
+      "grad_norm": 0.2730625569820404,
+      "learning_rate": 0.0007578606284779185,
+      "loss": 0.2875,
+      "num_input_tokens_seen": 104555952,
+      "step": 48400
+    },
+    {
+      "epoch": 7.896411092985318,
+      "grad_norm": 0.054563023149967194,
+      "learning_rate": 0.0007577996420942266,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 104566928,
+      "step": 48405
+    },
+    {
+      "epoch": 7.897226753670473,
+      "grad_norm": 0.2631271183490753,
+      "learning_rate": 0.0007577386504858978,
+      "loss": 0.116,
+      "num_input_tokens_seen": 104578544,
+      "step": 48410
+    },
+    {
+      "epoch": 7.898042414355628,
+      "grad_norm": 0.014852375723421574,
+      "learning_rate": 0.0007576776536541682,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 104588496,
+      "step": 48415
+    },
+    {
+      "epoch": 7.898858075040783,
+      "grad_norm": 0.06987016648054123,
+      "learning_rate": 0.0007576166516002741,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 104599760,
+      "step": 48420
+    },
+    {
+      "epoch": 7.899673735725938,
+      "grad_norm": 0.03241053223609924,
+      "learning_rate": 0.0007575556443254518,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 104610192,
+      "step": 48425
+    },
+    {
+      "epoch": 7.900489396411093,
+      "grad_norm": 0.8125465512275696,
+      "learning_rate": 0.0007574946318309376,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 104621072,
+      "step": 48430
+    },
+    {
+      "epoch": 7.901305057096248,
+      "grad_norm": 0.015340335667133331,
+      "learning_rate": 0.000757433614117968,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 104632080,
+      "step": 48435
+    },
+    {
+      "epoch": 7.902120717781403,
+      "grad_norm": 0.04143735393881798,
+      "learning_rate": 0.0007573725911877797,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 104643792,
+      "step": 48440
+    },
+    {
+      "epoch": 7.902936378466558,
+      "grad_norm": 0.01662031188607216,
+      "learning_rate": 0.0007573115630416092,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 104654960,
+      "step": 48445
+    },
+    {
+      "epoch": 7.903752039151713,
+      "grad_norm": 0.23152291774749756,
+      "learning_rate": 0.0007572505296806935,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 104666320,
+      "step": 48450
+    },
+    {
+      "epoch": 7.904567699836868,
+      "grad_norm": 0.20455844700336456,
+      "learning_rate": 0.0007571894911062696,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 104675600,
+      "step": 48455
+    },
+    {
+      "epoch": 7.9053833605220225,
+      "grad_norm": 0.2332301288843155,
+      "learning_rate": 0.0007571284473195743,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 104686928,
+      "step": 48460
+    },
+    {
+      "epoch": 7.906199021207177,
+      "grad_norm": 0.15824279189109802,
+      "learning_rate": 0.0007570673983218448,
+      "loss": 0.053,
+      "num_input_tokens_seen": 104698512,
+      "step": 48465
+    },
+    {
+      "epoch": 7.907014681892333,
+      "grad_norm": 0.031252142041921616,
+      "learning_rate": 0.0007570063441143185,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 104709552,
+      "step": 48470
+    },
+    {
+      "epoch": 7.907830342577488,
+      "grad_norm": 0.01947942189872265,
+      "learning_rate": 0.0007569452846982325,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 104719184,
+      "step": 48475
+    },
+    {
+      "epoch": 7.908646003262643,
+      "grad_norm": 0.296113520860672,
+      "learning_rate": 0.0007568842200748243,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 104730160,
+      "step": 48480
+    },
+    {
+      "epoch": 7.9094616639477975,
+      "grad_norm": 0.636048436164856,
+      "learning_rate": 0.0007568231502453317,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 104740816,
+      "step": 48485
+    },
+    {
+      "epoch": 7.910277324632952,
+      "grad_norm": 0.07422137260437012,
+      "learning_rate": 0.000756762075210992,
+      "loss": 0.144,
+      "num_input_tokens_seen": 104750672,
+      "step": 48490
+    },
+    {
+      "epoch": 7.911092985318108,
+      "grad_norm": 0.016525914892554283,
+      "learning_rate": 0.0007567009949730431,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 104761584,
+      "step": 48495
+    },
+    {
+      "epoch": 7.911908646003263,
+      "grad_norm": 0.011553775519132614,
+      "learning_rate": 0.000756639909532723,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 104771376,
+      "step": 48500
+    },
+    {
+      "epoch": 7.912724306688418,
+      "grad_norm": 0.047472815960645676,
+      "learning_rate": 0.0007565788188912694,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 104783440,
+      "step": 48505
+    },
+    {
+      "epoch": 7.9135399673735725,
+      "grad_norm": 0.006028347183018923,
+      "learning_rate": 0.0007565177230499206,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 104794256,
+      "step": 48510
+    },
+    {
+      "epoch": 7.914355628058727,
+      "grad_norm": 0.009613900445401669,
+      "learning_rate": 0.0007564566220099147,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 104804944,
+      "step": 48515
+    },
+    {
+      "epoch": 7.915171288743883,
+      "grad_norm": 0.35099858045578003,
+      "learning_rate": 0.00075639551577249,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 104816656,
+      "step": 48520
+    },
+    {
+      "epoch": 7.915986949429038,
+      "grad_norm": 0.02365029975771904,
+      "learning_rate": 0.0007563344043388851,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 104828016,
+      "step": 48525
+    },
+    {
+      "epoch": 7.916802610114193,
+      "grad_norm": 0.013142816722393036,
+      "learning_rate": 0.0007562732877103382,
+      "loss": 0.1559,
+      "num_input_tokens_seen": 104839696,
+      "step": 48530
+    },
+    {
+      "epoch": 7.917618270799347,
+      "grad_norm": 0.00743667408823967,
+      "learning_rate": 0.000756212165888088,
+      "loss": 0.05,
+      "num_input_tokens_seen": 104850576,
+      "step": 48535
+    },
+    {
+      "epoch": 7.918433931484502,
+      "grad_norm": 0.012738938443362713,
+      "learning_rate": 0.0007561510388733732,
+      "loss": 0.1381,
+      "num_input_tokens_seen": 104861008,
+      "step": 48540
+    },
+    {
+      "epoch": 7.919249592169657,
+      "grad_norm": 0.027310442179441452,
+      "learning_rate": 0.0007560899066674327,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 104872144,
+      "step": 48545
+    },
+    {
+      "epoch": 7.920065252854813,
+      "grad_norm": 0.2208627462387085,
+      "learning_rate": 0.0007560287692715053,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 104882608,
+      "step": 48550
+    },
+    {
+      "epoch": 7.920880913539968,
+      "grad_norm": 0.11449895054101944,
+      "learning_rate": 0.0007559676266868302,
+      "loss": 0.066,
+      "num_input_tokens_seen": 104892688,
+      "step": 48555
+    },
+    {
+      "epoch": 7.921696574225122,
+      "grad_norm": 0.006951616611331701,
+      "learning_rate": 0.0007559064789146464,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 104902640,
+      "step": 48560
+    },
+    {
+      "epoch": 7.922512234910277,
+      "grad_norm": 0.36576905846595764,
+      "learning_rate": 0.000755845325956193,
+      "loss": 0.2786,
+      "num_input_tokens_seen": 104913168,
+      "step": 48565
+    },
+    {
+      "epoch": 7.923327895595432,
+      "grad_norm": 0.19045992195606232,
+      "learning_rate": 0.0007557841678127097,
+      "loss": 0.2578,
+      "num_input_tokens_seen": 104922896,
+      "step": 48570
+    },
+    {
+      "epoch": 7.924143556280587,
+      "grad_norm": 0.009913114830851555,
+      "learning_rate": 0.0007557230044854357,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 104934672,
+      "step": 48575
+    },
+    {
+      "epoch": 7.924959216965743,
+      "grad_norm": 0.17396552860736847,
+      "learning_rate": 0.0007556618359756107,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 104947120,
+      "step": 48580
+    },
+    {
+      "epoch": 7.925774877650897,
+      "grad_norm": 0.07783018052577972,
+      "learning_rate": 0.0007556006622844742,
+      "loss": 0.102,
+      "num_input_tokens_seen": 104957616,
+      "step": 48585
+    },
+    {
+      "epoch": 7.926590538336052,
+      "grad_norm": 0.04610704258084297,
+      "learning_rate": 0.000755539483413266,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 104968112,
+      "step": 48590
+    },
+    {
+      "epoch": 7.927406199021207,
+      "grad_norm": 0.18525907397270203,
+      "learning_rate": 0.0007554782993632259,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 104978672,
+      "step": 48595
+    },
+    {
+      "epoch": 7.928221859706362,
+      "grad_norm": 0.21388539671897888,
+      "learning_rate": 0.0007554171101355941,
+      "loss": 0.1034,
+      "num_input_tokens_seen": 104989360,
+      "step": 48600
+    },
+    {
+      "epoch": 7.9290375203915175,
+      "grad_norm": 0.026249831542372704,
+      "learning_rate": 0.0007553559157316105,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 105000080,
+      "step": 48605
+    },
+    {
+      "epoch": 7.929853181076672,
+      "grad_norm": 0.013661502860486507,
+      "learning_rate": 0.0007552947161525153,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 105010768,
+      "step": 48610
+    },
+    {
+      "epoch": 7.930668841761827,
+      "grad_norm": 0.7273470163345337,
+      "learning_rate": 0.0007552335113995489,
+      "loss": 0.0613,
+      "num_input_tokens_seen": 105022128,
+      "step": 48615
+    },
+    {
+      "epoch": 7.931484502446982,
+      "grad_norm": 0.1308993399143219,
+      "learning_rate": 0.0007551723014739515,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 105033168,
+      "step": 48620
+    },
+    {
+      "epoch": 7.932300163132137,
+      "grad_norm": 0.0197969488799572,
+      "learning_rate": 0.0007551110863769638,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 105043728,
+      "step": 48625
+    },
+    {
+      "epoch": 7.933115823817292,
+      "grad_norm": 0.1168442964553833,
+      "learning_rate": 0.0007550498661098263,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 105053008,
+      "step": 48630
+    },
+    {
+      "epoch": 7.933931484502447,
+      "grad_norm": 0.063286192715168,
+      "learning_rate": 0.0007549886406737796,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 105063312,
+      "step": 48635
+    },
+    {
+      "epoch": 7.934747145187602,
+      "grad_norm": 0.01165692787617445,
+      "learning_rate": 0.0007549274100700647,
+      "loss": 0.2042,
+      "num_input_tokens_seen": 105073712,
+      "step": 48640
+    },
+    {
+      "epoch": 7.935562805872757,
+      "grad_norm": 0.2161632776260376,
+      "learning_rate": 0.0007548661742999225,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 105084560,
+      "step": 48645
+    },
+    {
+      "epoch": 7.936378466557912,
+      "grad_norm": 0.03843540698289871,
+      "learning_rate": 0.0007548049333645939,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 105095984,
+      "step": 48650
+    },
+    {
+      "epoch": 7.937194127243067,
+      "grad_norm": 0.010381447151303291,
+      "learning_rate": 0.00075474368726532,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 105107024,
+      "step": 48655
+    },
+    {
+      "epoch": 7.938009787928221,
+      "grad_norm": 0.16924302279949188,
+      "learning_rate": 0.0007546824360033421,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 105118448,
+      "step": 48660
+    },
+    {
+      "epoch": 7.938825448613377,
+      "grad_norm": 0.15478937327861786,
+      "learning_rate": 0.0007546211795799016,
+      "loss": 0.1476,
+      "num_input_tokens_seen": 105128592,
+      "step": 48665
+    },
+    {
+      "epoch": 7.939641109298532,
+      "grad_norm": 0.015761559829115868,
+      "learning_rate": 0.0007545599179962399,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 105139888,
+      "step": 48670
+    },
+    {
+      "epoch": 7.940456769983687,
+      "grad_norm": 0.06137595698237419,
+      "learning_rate": 0.0007544986512535985,
+      "loss": 0.2636,
+      "num_input_tokens_seen": 105150192,
+      "step": 48675
+    },
+    {
+      "epoch": 7.941272430668842,
+      "grad_norm": 0.15942196547985077,
+      "learning_rate": 0.0007544373793532191,
+      "loss": 0.187,
+      "num_input_tokens_seen": 105160912,
+      "step": 48680
+    },
+    {
+      "epoch": 7.942088091353996,
+      "grad_norm": 0.036675989627838135,
+      "learning_rate": 0.0007543761022963436,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 105171792,
+      "step": 48685
+    },
+    {
+      "epoch": 7.942903752039152,
+      "grad_norm": 0.020440716296434402,
+      "learning_rate": 0.0007543148200842134,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 105183408,
+      "step": 48690
+    },
+    {
+      "epoch": 7.943719412724307,
+      "grad_norm": 0.09116707742214203,
+      "learning_rate": 0.0007542535327180708,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 105194736,
+      "step": 48695
+    },
+    {
+      "epoch": 7.944535073409462,
+      "grad_norm": 0.0569356270134449,
+      "learning_rate": 0.0007541922401991579,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 105205008,
+      "step": 48700
+    },
+    {
+      "epoch": 7.945350734094617,
+      "grad_norm": 0.008786008693277836,
+      "learning_rate": 0.0007541309425287168,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 105216592,
+      "step": 48705
+    },
+    {
+      "epoch": 7.946166394779771,
+      "grad_norm": 0.1885114312171936,
+      "learning_rate": 0.0007540696397079898,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 105227504,
+      "step": 48710
+    },
+    {
+      "epoch": 7.946982055464927,
+      "grad_norm": 0.00608594436198473,
+      "learning_rate": 0.0007540083317382192,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 105237904,
+      "step": 48715
+    },
+    {
+      "epoch": 7.947797716150082,
+      "grad_norm": 0.08031502366065979,
+      "learning_rate": 0.0007539470186206474,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 105247504,
+      "step": 48720
+    },
+    {
+      "epoch": 7.948613376835237,
+      "grad_norm": 0.026645051315426826,
+      "learning_rate": 0.0007538857003565174,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 105256400,
+      "step": 48725
+    },
+    {
+      "epoch": 7.9494290375203915,
+      "grad_norm": 0.015550825744867325,
+      "learning_rate": 0.0007538243769470714,
+      "loss": 0.0345,
+      "num_input_tokens_seen": 105267440,
+      "step": 48730
+    },
+    {
+      "epoch": 7.950244698205546,
+      "grad_norm": 0.03166070580482483,
+      "learning_rate": 0.0007537630483935524,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 105278928,
+      "step": 48735
+    },
+    {
+      "epoch": 7.951060358890701,
+      "grad_norm": 0.2161301076412201,
+      "learning_rate": 0.0007537017146972033,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 105290320,
+      "step": 48740
+    },
+    {
+      "epoch": 7.951876019575856,
+      "grad_norm": 0.04890443757176399,
+      "learning_rate": 0.0007536403758592672,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 105302320,
+      "step": 48745
+    },
+    {
+      "epoch": 7.952691680261012,
+      "grad_norm": 0.0032995252404361963,
+      "learning_rate": 0.000753579031880987,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 105312336,
+      "step": 48750
+    },
+    {
+      "epoch": 7.9535073409461665,
+      "grad_norm": 0.04470792040228844,
+      "learning_rate": 0.0007535176827636061,
+      "loss": 0.0997,
+      "num_input_tokens_seen": 105323216,
+      "step": 48755
+    },
+    {
+      "epoch": 7.954323001631321,
+      "grad_norm": 0.03811972588300705,
+      "learning_rate": 0.0007534563285083678,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 105333680,
+      "step": 48760
+    },
+    {
+      "epoch": 7.955138662316476,
+      "grad_norm": 0.004735193680971861,
+      "learning_rate": 0.0007533949691165152,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 105344624,
+      "step": 48765
+    },
+    {
+      "epoch": 7.955954323001631,
+      "grad_norm": 0.02903125435113907,
+      "learning_rate": 0.0007533336045892925,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 105355568,
+      "step": 48770
+    },
+    {
+      "epoch": 7.956769983686787,
+      "grad_norm": 0.06740237772464752,
+      "learning_rate": 0.0007532722349279426,
+      "loss": 0.1862,
+      "num_input_tokens_seen": 105365328,
+      "step": 48775
+    },
+    {
+      "epoch": 7.9575856443719415,
+      "grad_norm": 0.3388029932975769,
+      "learning_rate": 0.0007532108601337097,
+      "loss": 0.1106,
+      "num_input_tokens_seen": 105376144,
+      "step": 48780
+    },
+    {
+      "epoch": 7.958401305057096,
+      "grad_norm": 0.09516182541847229,
+      "learning_rate": 0.0007531494802078376,
+      "loss": 0.093,
+      "num_input_tokens_seen": 105386928,
+      "step": 48785
+    },
+    {
+      "epoch": 7.959216965742251,
+      "grad_norm": 0.023860549554228783,
+      "learning_rate": 0.00075308809515157,
+      "loss": 0.062,
+      "num_input_tokens_seen": 105398352,
+      "step": 48790
+    },
+    {
+      "epoch": 7.960032626427406,
+      "grad_norm": 0.016818996518850327,
+      "learning_rate": 0.0007530267049661511,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 105408528,
+      "step": 48795
+    },
+    {
+      "epoch": 7.960848287112562,
+      "grad_norm": 0.01870405301451683,
+      "learning_rate": 0.000752965309652825,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 105418224,
+      "step": 48800
+    },
+    {
+      "epoch": 7.9616639477977165,
+      "grad_norm": 0.02412063628435135,
+      "learning_rate": 0.0007529039092128361,
+      "loss": 0.04,
+      "num_input_tokens_seen": 105429072,
+      "step": 48805
+    },
+    {
+      "epoch": 7.962479608482871,
+      "grad_norm": 0.24175409972667694,
+      "learning_rate": 0.0007528425036474287,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 105440240,
+      "step": 48810
+    },
+    {
+      "epoch": 7.963295269168026,
+      "grad_norm": 0.006044411100447178,
+      "learning_rate": 0.000752781092957847,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 105450352,
+      "step": 48815
+    },
+    {
+      "epoch": 7.964110929853181,
+      "grad_norm": 0.010947907343506813,
+      "learning_rate": 0.000752719677145336,
+      "loss": 0.167,
+      "num_input_tokens_seen": 105461072,
+      "step": 48820
+    },
+    {
+      "epoch": 7.964926590538336,
+      "grad_norm": 0.04575859382748604,
+      "learning_rate": 0.0007526582562111399,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 105471440,
+      "step": 48825
+    },
+    {
+      "epoch": 7.9657422512234906,
+      "grad_norm": 0.005048078019171953,
+      "learning_rate": 0.0007525968301565038,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 105480816,
+      "step": 48830
+    },
+    {
+      "epoch": 7.966557911908646,
+      "grad_norm": 0.31248384714126587,
+      "learning_rate": 0.0007525353989826726,
+      "loss": 0.2006,
+      "num_input_tokens_seen": 105490800,
+      "step": 48835
+    },
+    {
+      "epoch": 7.967373572593801,
+      "grad_norm": 0.012551373802125454,
+      "learning_rate": 0.000752473962690891,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 105501104,
+      "step": 48840
+    },
+    {
+      "epoch": 7.968189233278956,
+      "grad_norm": 0.11429378390312195,
+      "learning_rate": 0.0007524125212824044,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 105510128,
+      "step": 48845
+    },
+    {
+      "epoch": 7.969004893964111,
+      "grad_norm": 0.17006027698516846,
+      "learning_rate": 0.0007523510747584578,
+      "loss": 0.1937,
+      "num_input_tokens_seen": 105520976,
+      "step": 48850
+    },
+    {
+      "epoch": 7.9698205546492655,
+      "grad_norm": 0.07592868059873581,
+      "learning_rate": 0.0007522896231202967,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 105532400,
+      "step": 48855
+    },
+    {
+      "epoch": 7.970636215334421,
+      "grad_norm": 0.061747901141643524,
+      "learning_rate": 0.0007522281663691661,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 105543184,
+      "step": 48860
+    },
+    {
+      "epoch": 7.971451876019576,
+      "grad_norm": 0.061240021139383316,
+      "learning_rate": 0.0007521667045063119,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 105553680,
+      "step": 48865
+    },
+    {
+      "epoch": 7.972267536704731,
+      "grad_norm": 0.15075771510601044,
+      "learning_rate": 0.0007521052375329793,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 105563472,
+      "step": 48870
+    },
+    {
+      "epoch": 7.973083197389886,
+      "grad_norm": 0.2989932596683502,
+      "learning_rate": 0.0007520437654504144,
+      "loss": 0.1824,
+      "num_input_tokens_seen": 105574224,
+      "step": 48875
+    },
+    {
+      "epoch": 7.9738988580750405,
+      "grad_norm": 0.05400446057319641,
+      "learning_rate": 0.0007519822882598629,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 105585712,
+      "step": 48880
+    },
+    {
+      "epoch": 7.974714518760196,
+      "grad_norm": 0.08582861721515656,
+      "learning_rate": 0.0007519208059625707,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 105596304,
+      "step": 48885
+    },
+    {
+      "epoch": 7.975530179445351,
+      "grad_norm": 0.1772875189781189,
+      "learning_rate": 0.0007518593185597837,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 105607600,
+      "step": 48890
+    },
+    {
+      "epoch": 7.976345840130506,
+      "grad_norm": 0.039883363991975784,
+      "learning_rate": 0.000751797826052748,
+      "loss": 0.046,
+      "num_input_tokens_seen": 105618192,
+      "step": 48895
+    },
+    {
+      "epoch": 7.977161500815661,
+      "grad_norm": 0.03105618990957737,
+      "learning_rate": 0.0007517363284427101,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 105629392,
+      "step": 48900
+    },
+    {
+      "epoch": 7.9779771615008155,
+      "grad_norm": 0.16668418049812317,
+      "learning_rate": 0.0007516748257309162,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 105639056,
+      "step": 48905
+    },
+    {
+      "epoch": 7.97879282218597,
+      "grad_norm": 0.039331886917352676,
+      "learning_rate": 0.0007516133179186125,
+      "loss": 0.129,
+      "num_input_tokens_seen": 105651024,
+      "step": 48910
+    },
+    {
+      "epoch": 7.979608482871125,
+      "grad_norm": 0.34375035762786865,
+      "learning_rate": 0.0007515518050070458,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 105662128,
+      "step": 48915
+    },
+    {
+      "epoch": 7.980424143556281,
+      "grad_norm": 0.014578046277165413,
+      "learning_rate": 0.0007514902869974627,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 105673552,
+      "step": 48920
+    },
+    {
+      "epoch": 7.981239804241436,
+      "grad_norm": 0.005937238223850727,
+      "learning_rate": 0.0007514287638911099,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 105684464,
+      "step": 48925
+    },
+    {
+      "epoch": 7.9820554649265905,
+      "grad_norm": 0.024509524926543236,
+      "learning_rate": 0.0007513672356892342,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 105696272,
+      "step": 48930
+    },
+    {
+      "epoch": 7.982871125611745,
+      "grad_norm": 0.174819678068161,
+      "learning_rate": 0.0007513057023930825,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 105708208,
+      "step": 48935
+    },
+    {
+      "epoch": 7.9836867862969,
+      "grad_norm": 0.18815754354000092,
+      "learning_rate": 0.000751244164003902,
+      "loss": 0.1564,
+      "num_input_tokens_seen": 105718928,
+      "step": 48940
+    },
+    {
+      "epoch": 7.984502446982056,
+      "grad_norm": 0.17951254546642303,
+      "learning_rate": 0.00075118262052294,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 105729296,
+      "step": 48945
+    },
+    {
+      "epoch": 7.985318107667211,
+      "grad_norm": 0.012976273894309998,
+      "learning_rate": 0.0007511210719514432,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 105739664,
+      "step": 48950
+    },
+    {
+      "epoch": 7.986133768352365,
+      "grad_norm": 0.009064053185284138,
+      "learning_rate": 0.0007510595182906595,
+      "loss": 0.025,
+      "num_input_tokens_seen": 105749872,
+      "step": 48955
+    },
+    {
+      "epoch": 7.98694942903752,
+      "grad_norm": 0.16349948942661285,
+      "learning_rate": 0.0007509979595418362,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 105761008,
+      "step": 48960
+    },
+    {
+      "epoch": 7.987765089722675,
+      "grad_norm": 0.149709090590477,
+      "learning_rate": 0.0007509363957062207,
+      "loss": 0.076,
+      "num_input_tokens_seen": 105771824,
+      "step": 48965
+    },
+    {
+      "epoch": 7.988580750407831,
+      "grad_norm": 0.3649735152721405,
+      "learning_rate": 0.0007508748267850609,
+      "loss": 0.4246,
+      "num_input_tokens_seen": 105783056,
+      "step": 48970
+    },
+    {
+      "epoch": 7.989396411092986,
+      "grad_norm": 0.031553879380226135,
+      "learning_rate": 0.0007508132527796043,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 105794192,
+      "step": 48975
+    },
+    {
+      "epoch": 7.99021207177814,
+      "grad_norm": 0.10740819573402405,
+      "learning_rate": 0.0007507516736910992,
+      "loss": 0.2098,
+      "num_input_tokens_seen": 105804528,
+      "step": 48980
+    },
+    {
+      "epoch": 7.991027732463295,
+      "grad_norm": 0.011156396940350533,
+      "learning_rate": 0.0007506900895207932,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 105815824,
+      "step": 48985
+    },
+    {
+      "epoch": 7.99184339314845,
+      "grad_norm": 0.008487922139465809,
+      "learning_rate": 0.0007506285002699346,
+      "loss": 0.009,
+      "num_input_tokens_seen": 105827440,
+      "step": 48990
+    },
+    {
+      "epoch": 7.992659053833605,
+      "grad_norm": 0.12116503715515137,
+      "learning_rate": 0.0007505669059397715,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 105838288,
+      "step": 48995
+    },
+    {
+      "epoch": 7.993474714518761,
+      "grad_norm": 0.015823280438780785,
+      "learning_rate": 0.0007505053065315521,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 105849584,
+      "step": 49000
+    },
+    {
+      "epoch": 7.994290375203915,
+      "grad_norm": 0.0266315545886755,
+      "learning_rate": 0.0007504437020465248,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 105861232,
+      "step": 49005
+    },
+    {
+      "epoch": 7.99510603588907,
+      "grad_norm": 0.005523244384676218,
+      "learning_rate": 0.0007503820924859382,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 105871600,
+      "step": 49010
+    },
+    {
+      "epoch": 7.995921696574225,
+      "grad_norm": 0.43169787526130676,
+      "learning_rate": 0.000750320477851041,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 105882992,
+      "step": 49015
+    },
+    {
+      "epoch": 7.99673735725938,
+      "grad_norm": 0.015888521447777748,
+      "learning_rate": 0.0007502588581430817,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 105893360,
+      "step": 49020
+    },
+    {
+      "epoch": 7.997553017944535,
+      "grad_norm": 0.12559035420417786,
+      "learning_rate": 0.0007501972333633091,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 105903728,
+      "step": 49025
+    },
+    {
+      "epoch": 7.99836867862969,
+      "grad_norm": 0.19304737448692322,
+      "learning_rate": 0.0007501356035129723,
+      "loss": 0.1411,
+      "num_input_tokens_seen": 105915600,
+      "step": 49030
+    },
+    {
+      "epoch": 7.999184339314845,
+      "grad_norm": 0.105661541223526,
+      "learning_rate": 0.0007500739685933201,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 105925808,
+      "step": 49035
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.05994661524891853,
+      "learning_rate": 0.0007500123286056018,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 105934480,
+      "step": 49040
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.12728162109851837,
+      "eval_runtime": 103.6319,
+      "eval_samples_per_second": 26.295,
+      "eval_steps_per_second": 6.581,
+      "num_input_tokens_seen": 105934480,
+      "step": 49040
+    },
+    {
+      "epoch": 8.000815660685156,
+      "grad_norm": 0.014739147387444973,
+      "learning_rate": 0.0007499506835510663,
+      "loss": 0.032,
+      "num_input_tokens_seen": 105946192,
+      "step": 49045
+    },
+    {
+      "epoch": 8.00163132137031,
+      "grad_norm": 0.07827870547771454,
+      "learning_rate": 0.0007498890334309633,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 105956304,
+      "step": 49050
+    },
+    {
+      "epoch": 8.002446982055465,
+      "grad_norm": 0.0049188388511538506,
+      "learning_rate": 0.000749827378246542,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 105968240,
+      "step": 49055
+    },
+    {
+      "epoch": 8.00326264274062,
+      "grad_norm": 0.1784546822309494,
+      "learning_rate": 0.0007497657179990518,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 105980080,
+      "step": 49060
+    },
+    {
+      "epoch": 8.004078303425775,
+      "grad_norm": 0.037165481597185135,
+      "learning_rate": 0.0007497040526897426,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 105990224,
+      "step": 49065
+    },
+    {
+      "epoch": 8.00489396411093,
+      "grad_norm": 0.3894607424736023,
+      "learning_rate": 0.0007496423823198639,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 106000944,
+      "step": 49070
+    },
+    {
+      "epoch": 8.005709624796085,
+      "grad_norm": 0.008682585321366787,
+      "learning_rate": 0.0007495807068906657,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 106012368,
+      "step": 49075
+    },
+    {
+      "epoch": 8.00652528548124,
+      "grad_norm": 0.033180102705955505,
+      "learning_rate": 0.0007495190264033978,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 106023696,
+      "step": 49080
+    },
+    {
+      "epoch": 8.007340946166394,
+      "grad_norm": 0.00399895990267396,
+      "learning_rate": 0.0007494573408593103,
+      "loss": 0.1288,
+      "num_input_tokens_seen": 106033840,
+      "step": 49085
+    },
+    {
+      "epoch": 8.00815660685155,
+      "grad_norm": 0.07352360337972641,
+      "learning_rate": 0.0007493956502596533,
+      "loss": 0.034,
+      "num_input_tokens_seen": 106044144,
+      "step": 49090
+    },
+    {
+      "epoch": 8.008972267536704,
+      "grad_norm": 0.01003354787826538,
+      "learning_rate": 0.0007493339546056772,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 106054800,
+      "step": 49095
+    },
+    {
+      "epoch": 8.00978792822186,
+      "grad_norm": 0.03879820555448532,
+      "learning_rate": 0.0007492722538986321,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 106065392,
+      "step": 49100
+    },
+    {
+      "epoch": 8.010603588907015,
+      "grad_norm": 0.053220439702272415,
+      "learning_rate": 0.0007492105481397686,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 106076528,
+      "step": 49105
+    },
+    {
+      "epoch": 8.01141924959217,
+      "grad_norm": 0.059041813015937805,
+      "learning_rate": 0.0007491488373303373,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 106087664,
+      "step": 49110
+    },
+    {
+      "epoch": 8.012234910277325,
+      "grad_norm": 0.011349274776875973,
+      "learning_rate": 0.0007490871214715885,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 106099184,
+      "step": 49115
+    },
+    {
+      "epoch": 8.013050570962479,
+      "grad_norm": 0.057813651859760284,
+      "learning_rate": 0.0007490254005647735,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 106109776,
+      "step": 49120
+    },
+    {
+      "epoch": 8.013866231647635,
+      "grad_norm": 0.017140861600637436,
+      "learning_rate": 0.0007489636746111426,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 106120464,
+      "step": 49125
+    },
+    {
+      "epoch": 8.01468189233279,
+      "grad_norm": 0.015432114712893963,
+      "learning_rate": 0.0007489019436119471,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 106131568,
+      "step": 49130
+    },
+    {
+      "epoch": 8.015497553017944,
+      "grad_norm": 0.0168614462018013,
+      "learning_rate": 0.0007488402075684379,
+      "loss": 0.017,
+      "num_input_tokens_seen": 106142416,
+      "step": 49135
+    },
+    {
+      "epoch": 8.0163132137031,
+      "grad_norm": 0.004921023268252611,
+      "learning_rate": 0.0007487784664818662,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 106152592,
+      "step": 49140
+    },
+    {
+      "epoch": 8.017128874388254,
+      "grad_norm": 0.25885462760925293,
+      "learning_rate": 0.0007487167203534834,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 106162992,
+      "step": 49145
+    },
+    {
+      "epoch": 8.01794453507341,
+      "grad_norm": 0.09149748086929321,
+      "learning_rate": 0.0007486549691845405,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 106174736,
+      "step": 49150
+    },
+    {
+      "epoch": 8.018760195758565,
+      "grad_norm": 0.004045677836984396,
+      "learning_rate": 0.0007485932129762895,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 106185936,
+      "step": 49155
+    },
+    {
+      "epoch": 8.01957585644372,
+      "grad_norm": 0.013637539930641651,
+      "learning_rate": 0.0007485314517299815,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 106196688,
+      "step": 49160
+    },
+    {
+      "epoch": 8.020391517128875,
+      "grad_norm": 0.02192877233028412,
+      "learning_rate": 0.0007484696854468684,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 106206768,
+      "step": 49165
+    },
+    {
+      "epoch": 8.021207177814029,
+      "grad_norm": 0.0217854306101799,
+      "learning_rate": 0.0007484079141282018,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 106216208,
+      "step": 49170
+    },
+    {
+      "epoch": 8.022022838499185,
+      "grad_norm": 0.1591954380273819,
+      "learning_rate": 0.0007483461377752339,
+      "loss": 0.0885,
+      "num_input_tokens_seen": 106226704,
+      "step": 49175
+    },
+    {
+      "epoch": 8.022838499184338,
+      "grad_norm": 0.2401871681213379,
+      "learning_rate": 0.0007482843563892164,
+      "loss": 0.1582,
+      "num_input_tokens_seen": 106238640,
+      "step": 49180
+    },
+    {
+      "epoch": 8.023654159869494,
+      "grad_norm": 0.12886598706245422,
+      "learning_rate": 0.0007482225699714014,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 106249200,
+      "step": 49185
+    },
+    {
+      "epoch": 8.02446982055465,
+      "grad_norm": 0.0026838481426239014,
+      "learning_rate": 0.0007481607785230411,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 106259920,
+      "step": 49190
+    },
+    {
+      "epoch": 8.025285481239804,
+      "grad_norm": 0.07842859625816345,
+      "learning_rate": 0.0007480989820453878,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 106271088,
+      "step": 49195
+    },
+    {
+      "epoch": 8.02610114192496,
+      "grad_norm": 0.1295957714319229,
+      "learning_rate": 0.0007480371805396941,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 106281488,
+      "step": 49200
+    },
+    {
+      "epoch": 8.026916802610113,
+      "grad_norm": 0.005239915568381548,
+      "learning_rate": 0.0007479753740072121,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 106291920,
+      "step": 49205
+    },
+    {
+      "epoch": 8.02773246329527,
+      "grad_norm": 0.02723226509988308,
+      "learning_rate": 0.0007479135624491946,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 106302896,
+      "step": 49210
+    },
+    {
+      "epoch": 8.028548123980425,
+      "grad_norm": 0.19069083034992218,
+      "learning_rate": 0.0007478517458668943,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 106313968,
+      "step": 49215
+    },
+    {
+      "epoch": 8.029363784665579,
+      "grad_norm": 0.07725605368614197,
+      "learning_rate": 0.0007477899242615639,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 106325328,
+      "step": 49220
+    },
+    {
+      "epoch": 8.030179445350734,
+      "grad_norm": 0.34236836433410645,
+      "learning_rate": 0.0007477280976344563,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 106336720,
+      "step": 49225
+    },
+    {
+      "epoch": 8.030995106035888,
+      "grad_norm": 0.01022479310631752,
+      "learning_rate": 0.0007476662659868246,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 106347888,
+      "step": 49230
+    },
+    {
+      "epoch": 8.031810766721044,
+      "grad_norm": 0.0006199624622240663,
+      "learning_rate": 0.0007476044293199218,
+      "loss": 0.009,
+      "num_input_tokens_seen": 106359440,
+      "step": 49235
+    },
+    {
+      "epoch": 8.0326264274062,
+      "grad_norm": 0.025253375992178917,
+      "learning_rate": 0.0007475425876350011,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 106371152,
+      "step": 49240
+    },
+    {
+      "epoch": 8.033442088091354,
+      "grad_norm": 0.00817878171801567,
+      "learning_rate": 0.000747480740933316,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 106382640,
+      "step": 49245
+    },
+    {
+      "epoch": 8.03425774877651,
+      "grad_norm": 0.029934866353869438,
+      "learning_rate": 0.0007474188892161196,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 106393712,
+      "step": 49250
+    },
+    {
+      "epoch": 8.035073409461663,
+      "grad_norm": 0.3806656301021576,
+      "learning_rate": 0.0007473570324846656,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 106403664,
+      "step": 49255
+    },
+    {
+      "epoch": 8.035889070146819,
+      "grad_norm": 0.039969995617866516,
+      "learning_rate": 0.0007472951707402074,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 106415664,
+      "step": 49260
+    },
+    {
+      "epoch": 8.036704730831975,
+      "grad_norm": 0.1323152780532837,
+      "learning_rate": 0.0007472333039839989,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 106426672,
+      "step": 49265
+    },
+    {
+      "epoch": 8.037520391517129,
+      "grad_norm": 0.035253897309303284,
+      "learning_rate": 0.000747171432217294,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 106437296,
+      "step": 49270
+    },
+    {
+      "epoch": 8.038336052202284,
+      "grad_norm": 0.08336462080478668,
+      "learning_rate": 0.0007471095554413463,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 106447024,
+      "step": 49275
+    },
+    {
+      "epoch": 8.039151712887438,
+      "grad_norm": 0.03029344044625759,
+      "learning_rate": 0.0007470476736574102,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 106456976,
+      "step": 49280
+    },
+    {
+      "epoch": 8.039967373572594,
+      "grad_norm": 0.3142164647579193,
+      "learning_rate": 0.0007469857868667393,
+      "loss": 0.2818,
+      "num_input_tokens_seen": 106467888,
+      "step": 49285
+    },
+    {
+      "epoch": 8.040783034257748,
+      "grad_norm": 0.02353101409971714,
+      "learning_rate": 0.0007469238950705883,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 106479024,
+      "step": 49290
+    },
+    {
+      "epoch": 8.041598694942904,
+      "grad_norm": 0.003246279200538993,
+      "learning_rate": 0.0007468619982702112,
+      "loss": 0.005,
+      "num_input_tokens_seen": 106488912,
+      "step": 49295
+    },
+    {
+      "epoch": 8.04241435562806,
+      "grad_norm": 0.33486485481262207,
+      "learning_rate": 0.0007468000964668625,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 106500336,
+      "step": 49300
+    },
+    {
+      "epoch": 8.043230016313213,
+      "grad_norm": 0.044109445065259933,
+      "learning_rate": 0.0007467381896617968,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 106511280,
+      "step": 49305
+    },
+    {
+      "epoch": 8.044045676998369,
+      "grad_norm": 0.2685130536556244,
+      "learning_rate": 0.0007466762778562687,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 106521776,
+      "step": 49310
+    },
+    {
+      "epoch": 8.044861337683523,
+      "grad_norm": 0.07512059807777405,
+      "learning_rate": 0.000746614361051533,
+      "loss": 0.1613,
+      "num_input_tokens_seen": 106532976,
+      "step": 49315
+    },
+    {
+      "epoch": 8.045676998368679,
+      "grad_norm": 0.1503468155860901,
+      "learning_rate": 0.0007465524392488443,
+      "loss": 0.1,
+      "num_input_tokens_seen": 106543792,
+      "step": 49320
+    },
+    {
+      "epoch": 8.046492659053834,
+      "grad_norm": 0.14477421343326569,
+      "learning_rate": 0.0007464905124494578,
+      "loss": 0.23,
+      "num_input_tokens_seen": 106555632,
+      "step": 49325
+    },
+    {
+      "epoch": 8.047308319738988,
+      "grad_norm": 0.20425103604793549,
+      "learning_rate": 0.0007464285806546283,
+      "loss": 0.07,
+      "num_input_tokens_seen": 106566608,
+      "step": 49330
+    },
+    {
+      "epoch": 8.048123980424144,
+      "grad_norm": 0.007286466658115387,
+      "learning_rate": 0.0007463666438656109,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 106576976,
+      "step": 49335
+    },
+    {
+      "epoch": 8.048939641109298,
+      "grad_norm": 0.007894366048276424,
+      "learning_rate": 0.000746304702083661,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 106586896,
+      "step": 49340
+    },
+    {
+      "epoch": 8.049755301794454,
+      "grad_norm": 0.044826071709394455,
+      "learning_rate": 0.0007462427553100339,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 106595760,
+      "step": 49345
+    },
+    {
+      "epoch": 8.05057096247961,
+      "grad_norm": 0.09864915162324905,
+      "learning_rate": 0.0007461808035459848,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 106606480,
+      "step": 49350
+    },
+    {
+      "epoch": 8.051386623164763,
+      "grad_norm": 0.08167116343975067,
+      "learning_rate": 0.0007461188467927695,
+      "loss": 0.023,
+      "num_input_tokens_seen": 106616720,
+      "step": 49355
+    },
+    {
+      "epoch": 8.052202283849919,
+      "grad_norm": 0.0640343576669693,
+      "learning_rate": 0.0007460568850516436,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 106626512,
+      "step": 49360
+    },
+    {
+      "epoch": 8.053017944535073,
+      "grad_norm": 0.39939889311790466,
+      "learning_rate": 0.0007459949183238627,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 106637296,
+      "step": 49365
+    },
+    {
+      "epoch": 8.053833605220229,
+      "grad_norm": 0.036775026470422745,
+      "learning_rate": 0.0007459329466106829,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 106647888,
+      "step": 49370
+    },
+    {
+      "epoch": 8.054649265905383,
+      "grad_norm": 0.20606455206871033,
+      "learning_rate": 0.0007458709699133597,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 106659408,
+      "step": 49375
+    },
+    {
+      "epoch": 8.055464926590538,
+      "grad_norm": 0.007144047878682613,
+      "learning_rate": 0.0007458089882331495,
+      "loss": 0.079,
+      "num_input_tokens_seen": 106670576,
+      "step": 49380
+    },
+    {
+      "epoch": 8.056280587275694,
+      "grad_norm": 0.4637611210346222,
+      "learning_rate": 0.0007457470015713085,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 106681040,
+      "step": 49385
+    },
+    {
+      "epoch": 8.057096247960848,
+      "grad_norm": 0.00918448157608509,
+      "learning_rate": 0.0007456850099290927,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 106691376,
+      "step": 49390
+    },
+    {
+      "epoch": 8.057911908646004,
+      "grad_norm": 0.09710443019866943,
+      "learning_rate": 0.0007456230133077583,
+      "loss": 0.012,
+      "num_input_tokens_seen": 106703312,
+      "step": 49395
+    },
+    {
+      "epoch": 8.058727569331158,
+      "grad_norm": 0.004849865101277828,
+      "learning_rate": 0.0007455610117085618,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 106713328,
+      "step": 49400
+    },
+    {
+      "epoch": 8.059543230016313,
+      "grad_norm": 0.22771984338760376,
+      "learning_rate": 0.0007454990051327602,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 106723984,
+      "step": 49405
+    },
+    {
+      "epoch": 8.060358890701469,
+      "grad_norm": 0.018330955877900124,
+      "learning_rate": 0.0007454369935816098,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 106735216,
+      "step": 49410
+    },
+    {
+      "epoch": 8.061174551386623,
+      "grad_norm": 0.02104993537068367,
+      "learning_rate": 0.0007453749770563673,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 106746160,
+      "step": 49415
+    },
+    {
+      "epoch": 8.061990212071779,
+      "grad_norm": 0.0019923443906009197,
+      "learning_rate": 0.0007453129555582896,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 106756912,
+      "step": 49420
+    },
+    {
+      "epoch": 8.062805872756933,
+      "grad_norm": 0.019411850720643997,
+      "learning_rate": 0.0007452509290886336,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 106768560,
+      "step": 49425
+    },
+    {
+      "epoch": 8.063621533442088,
+      "grad_norm": 0.09938501566648483,
+      "learning_rate": 0.0007451888976486565,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 106780656,
+      "step": 49430
+    },
+    {
+      "epoch": 8.064437194127244,
+      "grad_norm": 0.30560827255249023,
+      "learning_rate": 0.0007451268612396154,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 106789968,
+      "step": 49435
+    },
+    {
+      "epoch": 8.065252854812398,
+      "grad_norm": 0.002016686834394932,
+      "learning_rate": 0.0007450648198627673,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 106800144,
+      "step": 49440
+    },
+    {
+      "epoch": 8.066068515497554,
+      "grad_norm": 0.04060761258006096,
+      "learning_rate": 0.0007450027735193699,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 106811248,
+      "step": 49445
+    },
+    {
+      "epoch": 8.066884176182707,
+      "grad_norm": 0.004460466559976339,
+      "learning_rate": 0.0007449407222106804,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 106821136,
+      "step": 49450
+    },
+    {
+      "epoch": 8.067699836867863,
+      "grad_norm": 0.006339784245938063,
+      "learning_rate": 0.0007448786659379565,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 106832368,
+      "step": 49455
+    },
+    {
+      "epoch": 8.068515497553017,
+      "grad_norm": 0.012937436811625957,
+      "learning_rate": 0.0007448166047024556,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 106842096,
+      "step": 49460
+    },
+    {
+      "epoch": 8.069331158238173,
+      "grad_norm": 0.0679636299610138,
+      "learning_rate": 0.0007447545385054358,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 106853200,
+      "step": 49465
+    },
+    {
+      "epoch": 8.070146818923329,
+      "grad_norm": 0.0034860328305512667,
+      "learning_rate": 0.0007446924673481548,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 106865104,
+      "step": 49470
+    },
+    {
+      "epoch": 8.070962479608482,
+      "grad_norm": 0.011176558211445808,
+      "learning_rate": 0.0007446303912318705,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 106876560,
+      "step": 49475
+    },
+    {
+      "epoch": 8.071778140293638,
+      "grad_norm": 0.38480356335639954,
+      "learning_rate": 0.000744568310157841,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 106888176,
+      "step": 49480
+    },
+    {
+      "epoch": 8.072593800978792,
+      "grad_norm": 0.00534833362326026,
+      "learning_rate": 0.0007445062241273244,
+      "loss": 0.1502,
+      "num_input_tokens_seen": 106899696,
+      "step": 49485
+    },
+    {
+      "epoch": 8.073409461663948,
+      "grad_norm": 0.05332694947719574,
+      "learning_rate": 0.000744444133141579,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 106910480,
+      "step": 49490
+    },
+    {
+      "epoch": 8.074225122349104,
+      "grad_norm": 0.007500792853534222,
+      "learning_rate": 0.0007443820372018631,
+      "loss": 0.007,
+      "num_input_tokens_seen": 106921072,
+      "step": 49495
+    },
+    {
+      "epoch": 8.075040783034257,
+      "grad_norm": 0.03552490100264549,
+      "learning_rate": 0.0007443199363094353,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 106933392,
+      "step": 49500
+    },
+    {
+      "epoch": 8.075856443719413,
+      "grad_norm": 0.3780343234539032,
+      "learning_rate": 0.0007442578304655541,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 106942928,
+      "step": 49505
+    },
+    {
+      "epoch": 8.076672104404567,
+      "grad_norm": 0.041732337325811386,
+      "learning_rate": 0.0007441957196714778,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 106952912,
+      "step": 49510
+    },
+    {
+      "epoch": 8.077487765089723,
+      "grad_norm": 0.0023167598992586136,
+      "learning_rate": 0.0007441336039284656,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 106962704,
+      "step": 49515
+    },
+    {
+      "epoch": 8.078303425774878,
+      "grad_norm": 0.2755075693130493,
+      "learning_rate": 0.0007440714832377764,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 106973008,
+      "step": 49520
+    },
+    {
+      "epoch": 8.079119086460032,
+      "grad_norm": 0.05139836296439171,
+      "learning_rate": 0.0007440093576006688,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 106983632,
+      "step": 49525
+    },
+    {
+      "epoch": 8.079934747145188,
+      "grad_norm": 0.3967004120349884,
+      "learning_rate": 0.000743947227018402,
+      "loss": 0.2202,
+      "num_input_tokens_seen": 106995152,
+      "step": 49530
+    },
+    {
+      "epoch": 8.080750407830342,
+      "grad_norm": 0.1344999372959137,
+      "learning_rate": 0.0007438850914922352,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 107005936,
+      "step": 49535
+    },
+    {
+      "epoch": 8.081566068515498,
+      "grad_norm": 0.05749267339706421,
+      "learning_rate": 0.0007438229510234278,
+      "loss": 0.015,
+      "num_input_tokens_seen": 107014960,
+      "step": 49540
+    },
+    {
+      "epoch": 8.082381729200652,
+      "grad_norm": 0.001101077999919653,
+      "learning_rate": 0.0007437608056132388,
+      "loss": 0.025,
+      "num_input_tokens_seen": 107026448,
+      "step": 49545
+    },
+    {
+      "epoch": 8.083197389885807,
+      "grad_norm": 0.003104017348960042,
+      "learning_rate": 0.0007436986552629279,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 107038768,
+      "step": 49550
+    },
+    {
+      "epoch": 8.084013050570963,
+      "grad_norm": 0.012065582908689976,
+      "learning_rate": 0.0007436364999737546,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 107049936,
+      "step": 49555
+    },
+    {
+      "epoch": 8.084828711256117,
+      "grad_norm": 0.1463005393743515,
+      "learning_rate": 0.0007435743397469785,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 107061808,
+      "step": 49560
+    },
+    {
+      "epoch": 8.085644371941273,
+      "grad_norm": 0.024028457701206207,
+      "learning_rate": 0.0007435121745838595,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 107072464,
+      "step": 49565
+    },
+    {
+      "epoch": 8.086460032626427,
+      "grad_norm": 0.24131129682064056,
+      "learning_rate": 0.0007434500044856574,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 107082704,
+      "step": 49570
+    },
+    {
+      "epoch": 8.087275693311582,
+      "grad_norm": 0.2152007669210434,
+      "learning_rate": 0.000743387829453632,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 107093680,
+      "step": 49575
+    },
+    {
+      "epoch": 8.088091353996738,
+      "grad_norm": 0.2218417227268219,
+      "learning_rate": 0.0007433256494890435,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 107103824,
+      "step": 49580
+    },
+    {
+      "epoch": 8.088907014681892,
+      "grad_norm": 0.01789860427379608,
+      "learning_rate": 0.000743263464593152,
+      "loss": 0.062,
+      "num_input_tokens_seen": 107114512,
+      "step": 49585
+    },
+    {
+      "epoch": 8.089722675367048,
+      "grad_norm": 0.4298427104949951,
+      "learning_rate": 0.0007432012747672179,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 107125904,
+      "step": 49590
+    },
+    {
+      "epoch": 8.090538336052202,
+      "grad_norm": 0.0065206796862185,
+      "learning_rate": 0.0007431390800125013,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 107137136,
+      "step": 49595
+    },
+    {
+      "epoch": 8.091353996737357,
+      "grad_norm": 0.020476138219237328,
+      "learning_rate": 0.0007430768803302629,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 107148912,
+      "step": 49600
+    },
+    {
+      "epoch": 8.092169657422513,
+      "grad_norm": 0.017311519011855125,
+      "learning_rate": 0.0007430146757217631,
+      "loss": 0.2111,
+      "num_input_tokens_seen": 107159792,
+      "step": 49605
+    },
+    {
+      "epoch": 8.092985318107667,
+      "grad_norm": 0.022033190354704857,
+      "learning_rate": 0.0007429524661882626,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 107170640,
+      "step": 49610
+    },
+    {
+      "epoch": 8.093800978792823,
+      "grad_norm": 0.05615110695362091,
+      "learning_rate": 0.0007428902517310222,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 107180816,
+      "step": 49615
+    },
+    {
+      "epoch": 8.094616639477977,
+      "grad_norm": 0.03126392140984535,
+      "learning_rate": 0.0007428280323513028,
+      "loss": 0.049,
+      "num_input_tokens_seen": 107192016,
+      "step": 49620
+    },
+    {
+      "epoch": 8.095432300163132,
+      "grad_norm": 0.622178316116333,
+      "learning_rate": 0.0007427658080503652,
+      "loss": 0.2196,
+      "num_input_tokens_seen": 107202160,
+      "step": 49625
+    },
+    {
+      "epoch": 8.096247960848286,
+      "grad_norm": 0.1008746325969696,
+      "learning_rate": 0.0007427035788294704,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 107213776,
+      "step": 49630
+    },
+    {
+      "epoch": 8.097063621533442,
+      "grad_norm": 0.04118318483233452,
+      "learning_rate": 0.0007426413446898799,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 107224048,
+      "step": 49635
+    },
+    {
+      "epoch": 8.097879282218598,
+      "grad_norm": 0.3178521990776062,
+      "learning_rate": 0.0007425791056328546,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 107234800,
+      "step": 49640
+    },
+    {
+      "epoch": 8.098694942903752,
+      "grad_norm": 0.24075457453727722,
+      "learning_rate": 0.0007425168616596561,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 107245872,
+      "step": 49645
+    },
+    {
+      "epoch": 8.099510603588907,
+      "grad_norm": 0.22038891911506653,
+      "learning_rate": 0.0007424546127715456,
+      "loss": 0.057,
+      "num_input_tokens_seen": 107255760,
+      "step": 49650
+    },
+    {
+      "epoch": 8.100326264274061,
+      "grad_norm": 0.13066186010837555,
+      "learning_rate": 0.0007423923589697849,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 107266992,
+      "step": 49655
+    },
+    {
+      "epoch": 8.101141924959217,
+      "grad_norm": 0.009751847945153713,
+      "learning_rate": 0.0007423301002556355,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 107275536,
+      "step": 49660
+    },
+    {
+      "epoch": 8.101957585644373,
+      "grad_norm": 0.11319594085216522,
+      "learning_rate": 0.0007422678366303592,
+      "loss": 0.0525,
+      "num_input_tokens_seen": 107286960,
+      "step": 49665
+    },
+    {
+      "epoch": 8.102773246329527,
+      "grad_norm": 0.051054831594228745,
+      "learning_rate": 0.000742205568095218,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 107297360,
+      "step": 49670
+    },
+    {
+      "epoch": 8.103588907014682,
+      "grad_norm": 0.059771161526441574,
+      "learning_rate": 0.0007421432946514736,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 107308272,
+      "step": 49675
+    },
+    {
+      "epoch": 8.104404567699836,
+      "grad_norm": 0.042254697531461716,
+      "learning_rate": 0.0007420810163003881,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 107318640,
+      "step": 49680
+    },
+    {
+      "epoch": 8.105220228384992,
+      "grad_norm": 0.004530859179794788,
+      "learning_rate": 0.0007420187330432238,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 107328656,
+      "step": 49685
+    },
+    {
+      "epoch": 8.106035889070148,
+      "grad_norm": 0.48277902603149414,
+      "learning_rate": 0.0007419564448812428,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 107338832,
+      "step": 49690
+    },
+    {
+      "epoch": 8.106851549755302,
+      "grad_norm": 0.053494442254304886,
+      "learning_rate": 0.0007418941518157075,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 107349456,
+      "step": 49695
+    },
+    {
+      "epoch": 8.107667210440457,
+      "grad_norm": 0.3123549520969391,
+      "learning_rate": 0.0007418318538478803,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 107361360,
+      "step": 49700
+    },
+    {
+      "epoch": 8.108482871125611,
+      "grad_norm": 0.3388768136501312,
+      "learning_rate": 0.0007417695509790239,
+      "loss": 0.11,
+      "num_input_tokens_seen": 107372496,
+      "step": 49705
+    },
+    {
+      "epoch": 8.109298531810767,
+      "grad_norm": 0.07602295279502869,
+      "learning_rate": 0.0007417072432104007,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 107383376,
+      "step": 49710
+    },
+    {
+      "epoch": 8.11011419249592,
+      "grad_norm": 0.08169770240783691,
+      "learning_rate": 0.0007416449305432738,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 107394448,
+      "step": 49715
+    },
+    {
+      "epoch": 8.110929853181077,
+      "grad_norm": 0.02449674718081951,
+      "learning_rate": 0.0007415826129789057,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 107404944,
+      "step": 49720
+    },
+    {
+      "epoch": 8.111745513866232,
+      "grad_norm": 0.16801486909389496,
+      "learning_rate": 0.0007415202905185594,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 107416080,
+      "step": 49725
+    },
+    {
+      "epoch": 8.112561174551386,
+      "grad_norm": 0.03335743770003319,
+      "learning_rate": 0.0007414579631634981,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 107426224,
+      "step": 49730
+    },
+    {
+      "epoch": 8.113376835236542,
+      "grad_norm": 0.053683776408433914,
+      "learning_rate": 0.0007413956309149848,
+      "loss": 0.1636,
+      "num_input_tokens_seen": 107437328,
+      "step": 49735
+    },
+    {
+      "epoch": 8.114192495921696,
+      "grad_norm": 0.15747734904289246,
+      "learning_rate": 0.000741333293774283,
+      "loss": 0.0375,
+      "num_input_tokens_seen": 107446736,
+      "step": 49740
+    },
+    {
+      "epoch": 8.115008156606851,
+      "grad_norm": 0.039649732410907745,
+      "learning_rate": 0.0007412709517426556,
+      "loss": 0.011,
+      "num_input_tokens_seen": 107456784,
+      "step": 49745
+    },
+    {
+      "epoch": 8.115823817292007,
+      "grad_norm": 0.015954799950122833,
+      "learning_rate": 0.0007412086048213665,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 107466640,
+      "step": 49750
+    },
+    {
+      "epoch": 8.116639477977161,
+      "grad_norm": 0.005059359595179558,
+      "learning_rate": 0.000741146253011679,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 107477168,
+      "step": 49755
+    },
+    {
+      "epoch": 8.117455138662317,
+      "grad_norm": 0.010598313063383102,
+      "learning_rate": 0.0007410838963148568,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 107487920,
+      "step": 49760
+    },
+    {
+      "epoch": 8.11827079934747,
+      "grad_norm": 0.006887549534440041,
+      "learning_rate": 0.0007410215347321634,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 107499632,
+      "step": 49765
+    },
+    {
+      "epoch": 8.119086460032626,
+      "grad_norm": 0.026491384953260422,
+      "learning_rate": 0.000740959168264863,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 107510192,
+      "step": 49770
+    },
+    {
+      "epoch": 8.119902120717782,
+      "grad_norm": 0.02549799717962742,
+      "learning_rate": 0.0007408967969142193,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 107521040,
+      "step": 49775
+    },
+    {
+      "epoch": 8.120717781402936,
+      "grad_norm": 0.6434139013290405,
+      "learning_rate": 0.0007408344206814965,
+      "loss": 0.0789,
+      "num_input_tokens_seen": 107532816,
+      "step": 49780
+    },
+    {
+      "epoch": 8.121533442088092,
+      "grad_norm": 0.4618445038795471,
+      "learning_rate": 0.0007407720395679585,
+      "loss": 0.1924,
+      "num_input_tokens_seen": 107543984,
+      "step": 49785
+    },
+    {
+      "epoch": 8.122349102773246,
+      "grad_norm": 0.024171195924282074,
+      "learning_rate": 0.0007407096535748698,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 107555824,
+      "step": 49790
+    },
+    {
+      "epoch": 8.123164763458401,
+      "grad_norm": 0.052864234894514084,
+      "learning_rate": 0.0007406472627034946,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 107566800,
+      "step": 49795
+    },
+    {
+      "epoch": 8.123980424143557,
+      "grad_norm": 0.0018474479438737035,
+      "learning_rate": 0.0007405848669550973,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 107577456,
+      "step": 49800
+    },
+    {
+      "epoch": 8.124796084828711,
+      "grad_norm": 0.17964208126068115,
+      "learning_rate": 0.0007405224663309425,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 107589328,
+      "step": 49805
+    },
+    {
+      "epoch": 8.125611745513867,
+      "grad_norm": 0.1299470216035843,
+      "learning_rate": 0.0007404600608322948,
+      "loss": 0.146,
+      "num_input_tokens_seen": 107600784,
+      "step": 49810
+    },
+    {
+      "epoch": 8.12642740619902,
+      "grad_norm": 0.005026193335652351,
+      "learning_rate": 0.0007403976504604189,
+      "loss": 0.0586,
+      "num_input_tokens_seen": 107612592,
+      "step": 49815
+    },
+    {
+      "epoch": 8.127243066884176,
+      "grad_norm": 0.06259380280971527,
+      "learning_rate": 0.0007403352352165797,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 107623184,
+      "step": 49820
+    },
+    {
+      "epoch": 8.12805872756933,
+      "grad_norm": 0.016340158879756927,
+      "learning_rate": 0.0007402728151020419,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 107633456,
+      "step": 49825
+    },
+    {
+      "epoch": 8.128874388254486,
+      "grad_norm": 0.19695636630058289,
+      "learning_rate": 0.0007402103901180708,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 107644688,
+      "step": 49830
+    },
+    {
+      "epoch": 8.129690048939642,
+      "grad_norm": 0.01583622582256794,
+      "learning_rate": 0.0007401479602659315,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 107654960,
+      "step": 49835
+    },
+    {
+      "epoch": 8.130505709624796,
+      "grad_norm": 0.13566166162490845,
+      "learning_rate": 0.000740085525546889,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 107665104,
+      "step": 49840
+    },
+    {
+      "epoch": 8.131321370309951,
+      "grad_norm": 0.0025712582282721996,
+      "learning_rate": 0.0007400230859622088,
+      "loss": 0.024,
+      "num_input_tokens_seen": 107675920,
+      "step": 49845
+    },
+    {
+      "epoch": 8.132137030995105,
+      "grad_norm": 0.07446157187223434,
+      "learning_rate": 0.0007399606415131563,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 107686544,
+      "step": 49850
+    },
+    {
+      "epoch": 8.132952691680261,
+      "grad_norm": 0.08578246086835861,
+      "learning_rate": 0.0007398981922009971,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 107698320,
+      "step": 49855
+    },
+    {
+      "epoch": 8.133768352365417,
+      "grad_norm": 0.06800012290477753,
+      "learning_rate": 0.0007398357380269966,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 107709360,
+      "step": 49860
+    },
+    {
+      "epoch": 8.13458401305057,
+      "grad_norm": 0.007951917126774788,
+      "learning_rate": 0.0007397732789924205,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 107720560,
+      "step": 49865
+    },
+    {
+      "epoch": 8.135399673735726,
+      "grad_norm": 0.010952308773994446,
+      "learning_rate": 0.0007397108150985349,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 107730864,
+      "step": 49870
+    },
+    {
+      "epoch": 8.13621533442088,
+      "grad_norm": 0.1421835869550705,
+      "learning_rate": 0.0007396483463466055,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 107740720,
+      "step": 49875
+    },
+    {
+      "epoch": 8.137030995106036,
+      "grad_norm": 0.00989621039479971,
+      "learning_rate": 0.0007395858727378982,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 107750096,
+      "step": 49880
+    },
+    {
+      "epoch": 8.137846655791192,
+      "grad_norm": 0.0596698634326458,
+      "learning_rate": 0.0007395233942736794,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 107761584,
+      "step": 49885
+    },
+    {
+      "epoch": 8.138662316476346,
+      "grad_norm": 0.028497813269495964,
+      "learning_rate": 0.0007394609109552152,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 107772464,
+      "step": 49890
+    },
+    {
+      "epoch": 8.139477977161501,
+      "grad_norm": 0.08234116435050964,
+      "learning_rate": 0.0007393984227837718,
+      "loss": 0.1797,
+      "num_input_tokens_seen": 107783248,
+      "step": 49895
+    },
+    {
+      "epoch": 8.140293637846655,
+      "grad_norm": 0.02983970381319523,
+      "learning_rate": 0.0007393359297606155,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 107793584,
+      "step": 49900
+    },
+    {
+      "epoch": 8.141109298531811,
+      "grad_norm": 0.23107391595840454,
+      "learning_rate": 0.0007392734318870133,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 107803440,
+      "step": 49905
+    },
+    {
+      "epoch": 8.141924959216965,
+      "grad_norm": 0.06202094629406929,
+      "learning_rate": 0.0007392109291642311,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 107813424,
+      "step": 49910
+    },
+    {
+      "epoch": 8.14274061990212,
+      "grad_norm": 0.31579720973968506,
+      "learning_rate": 0.0007391484215935363,
+      "loss": 0.1542,
+      "num_input_tokens_seen": 107823152,
+      "step": 49915
+    },
+    {
+      "epoch": 8.143556280587276,
+      "grad_norm": 0.14060421288013458,
+      "learning_rate": 0.000739085909176195,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 107834736,
+      "step": 49920
+    },
+    {
+      "epoch": 8.14437194127243,
+      "grad_norm": 0.2537612020969391,
+      "learning_rate": 0.0007390233919134747,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 107847120,
+      "step": 49925
+    },
+    {
+      "epoch": 8.145187601957586,
+      "grad_norm": 0.1196332573890686,
+      "learning_rate": 0.0007389608698066422,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 107858448,
+      "step": 49930
+    },
+    {
+      "epoch": 8.14600326264274,
+      "grad_norm": 0.0030300780199468136,
+      "learning_rate": 0.0007388983428569643,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 107870288,
+      "step": 49935
+    },
+    {
+      "epoch": 8.146818923327896,
+      "grad_norm": 0.005464842543005943,
+      "learning_rate": 0.0007388358110657085,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 107881232,
+      "step": 49940
+    },
+    {
+      "epoch": 8.147634584013051,
+      "grad_norm": 0.12564074993133545,
+      "learning_rate": 0.000738773274434142,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 107891024,
+      "step": 49945
+    },
+    {
+      "epoch": 8.148450244698205,
+      "grad_norm": 0.021209627389907837,
+      "learning_rate": 0.0007387107329635322,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 107902224,
+      "step": 49950
+    },
+    {
+      "epoch": 8.149265905383361,
+      "grad_norm": 0.0424620546400547,
+      "learning_rate": 0.0007386481866551466,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 107913776,
+      "step": 49955
+    },
+    {
+      "epoch": 8.150081566068515,
+      "grad_norm": 0.13068750500679016,
+      "learning_rate": 0.0007385856355102528,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 107925488,
+      "step": 49960
+    },
+    {
+      "epoch": 8.15089722675367,
+      "grad_norm": 0.04212689772248268,
+      "learning_rate": 0.0007385230795301183,
+      "loss": 0.1603,
+      "num_input_tokens_seen": 107937040,
+      "step": 49965
+    },
+    {
+      "epoch": 8.151712887438826,
+      "grad_norm": 0.41780608892440796,
+      "learning_rate": 0.000738460518716011,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 107947824,
+      "step": 49970
+    },
+    {
+      "epoch": 8.15252854812398,
+      "grad_norm": 0.2264157235622406,
+      "learning_rate": 0.0007383979530691989,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 107957904,
+      "step": 49975
+    },
+    {
+      "epoch": 8.153344208809136,
+      "grad_norm": 0.10788124054670334,
+      "learning_rate": 0.0007383353825909498,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 107968336,
+      "step": 49980
+    },
+    {
+      "epoch": 8.15415986949429,
+      "grad_norm": 0.16582083702087402,
+      "learning_rate": 0.0007382728072825318,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 107978768,
+      "step": 49985
+    },
+    {
+      "epoch": 8.154975530179446,
+      "grad_norm": 0.23172712326049805,
+      "learning_rate": 0.0007382102271452132,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 107989168,
+      "step": 49990
+    },
+    {
+      "epoch": 8.1557911908646,
+      "grad_norm": 0.11851934343576431,
+      "learning_rate": 0.0007381476421802621,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 107999664,
+      "step": 49995
+    },
+    {
+      "epoch": 8.156606851549755,
+      "grad_norm": 0.022425547242164612,
+      "learning_rate": 0.0007380850523889469,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 108008560,
+      "step": 50000
+    },
+    {
+      "epoch": 8.15742251223491,
+      "grad_norm": 0.17704157531261444,
+      "learning_rate": 0.0007380224577725361,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 108019504,
+      "step": 50005
+    },
+    {
+      "epoch": 8.158238172920065,
+      "grad_norm": 0.22146500647068024,
+      "learning_rate": 0.0007379598583322982,
+      "loss": 0.2091,
+      "num_input_tokens_seen": 108030224,
+      "step": 50010
+    },
+    {
+      "epoch": 8.15905383360522,
+      "grad_norm": 0.0075067877769470215,
+      "learning_rate": 0.0007378972540695019,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 108041936,
+      "step": 50015
+    },
+    {
+      "epoch": 8.159869494290374,
+      "grad_norm": 0.007990765385329723,
+      "learning_rate": 0.0007378346449854159,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 108052688,
+      "step": 50020
+    },
+    {
+      "epoch": 8.16068515497553,
+      "grad_norm": 0.003241181606426835,
+      "learning_rate": 0.0007377720310813092,
+      "loss": 0.1593,
+      "num_input_tokens_seen": 108063440,
+      "step": 50025
+    },
+    {
+      "epoch": 8.161500815660686,
+      "grad_norm": 0.17617450654506683,
+      "learning_rate": 0.0007377094123584507,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 108074448,
+      "step": 50030
+    },
+    {
+      "epoch": 8.16231647634584,
+      "grad_norm": 0.04974460229277611,
+      "learning_rate": 0.0007376467888181094,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 108085840,
+      "step": 50035
+    },
+    {
+      "epoch": 8.163132137030995,
+      "grad_norm": 0.028729038313031197,
+      "learning_rate": 0.0007375841604615542,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 108096816,
+      "step": 50040
+    },
+    {
+      "epoch": 8.16394779771615,
+      "grad_norm": 0.22961454093456268,
+      "learning_rate": 0.0007375215272900548,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 108106448,
+      "step": 50045
+    },
+    {
+      "epoch": 8.164763458401305,
+      "grad_norm": 0.010329188778996468,
+      "learning_rate": 0.0007374588893048803,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 108116816,
+      "step": 50050
+    },
+    {
+      "epoch": 8.16557911908646,
+      "grad_norm": 0.010221997275948524,
+      "learning_rate": 0.0007373962465073002,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 108127440,
+      "step": 50055
+    },
+    {
+      "epoch": 8.166394779771615,
+      "grad_norm": 0.23573219776153564,
+      "learning_rate": 0.0007373335988985839,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 108138128,
+      "step": 50060
+    },
+    {
+      "epoch": 8.16721044045677,
+      "grad_norm": 0.007467462215572596,
+      "learning_rate": 0.0007372709464800013,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 108148912,
+      "step": 50065
+    },
+    {
+      "epoch": 8.168026101141924,
+      "grad_norm": 0.23514242470264435,
+      "learning_rate": 0.0007372082892528218,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 108160240,
+      "step": 50070
+    },
+    {
+      "epoch": 8.16884176182708,
+      "grad_norm": 0.24603112041950226,
+      "learning_rate": 0.0007371456272183156,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 108171280,
+      "step": 50075
+    },
+    {
+      "epoch": 8.169657422512234,
+      "grad_norm": 0.013973649591207504,
+      "learning_rate": 0.0007370829603777523,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 108183088,
+      "step": 50080
+    },
+    {
+      "epoch": 8.17047308319739,
+      "grad_norm": 0.05473875626921654,
+      "learning_rate": 0.000737020288732402,
+      "loss": 0.1722,
+      "num_input_tokens_seen": 108194320,
+      "step": 50085
+    },
+    {
+      "epoch": 8.171288743882545,
+      "grad_norm": 0.075847327709198,
+      "learning_rate": 0.0007369576122835349,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 108205296,
+      "step": 50090
+    },
+    {
+      "epoch": 8.1721044045677,
+      "grad_norm": 0.5191269516944885,
+      "learning_rate": 0.0007368949310324211,
+      "loss": 0.2405,
+      "num_input_tokens_seen": 108215696,
+      "step": 50095
+    },
+    {
+      "epoch": 8.172920065252855,
+      "grad_norm": 0.15466056764125824,
+      "learning_rate": 0.0007368322449803311,
+      "loss": 0.1787,
+      "num_input_tokens_seen": 108225456,
+      "step": 50100
+    },
+    {
+      "epoch": 8.173735725938009,
+      "grad_norm": 0.26574286818504333,
+      "learning_rate": 0.0007367695541285353,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 108236560,
+      "step": 50105
+    },
+    {
+      "epoch": 8.174551386623165,
+      "grad_norm": 0.04187563434243202,
+      "learning_rate": 0.0007367068584783041,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 108247568,
+      "step": 50110
+    },
+    {
+      "epoch": 8.17536704730832,
+      "grad_norm": 0.1134595200419426,
+      "learning_rate": 0.000736644158030908,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 108258192,
+      "step": 50115
+    },
+    {
+      "epoch": 8.176182707993474,
+      "grad_norm": 0.004802480805665255,
+      "learning_rate": 0.0007365814527876179,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 108268944,
+      "step": 50120
+    },
+    {
+      "epoch": 8.17699836867863,
+      "grad_norm": 0.3093656599521637,
+      "learning_rate": 0.0007365187427497045,
+      "loss": 0.1294,
+      "num_input_tokens_seen": 108279344,
+      "step": 50125
+    },
+    {
+      "epoch": 8.177814029363784,
+      "grad_norm": 0.020289601758122444,
+      "learning_rate": 0.0007364560279184387,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 108290768,
+      "step": 50130
+    },
+    {
+      "epoch": 8.17862969004894,
+      "grad_norm": 0.019983666017651558,
+      "learning_rate": 0.0007363933082950917,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 108302192,
+      "step": 50135
+    },
+    {
+      "epoch": 8.179445350734095,
+      "grad_norm": 0.009791013784706593,
+      "learning_rate": 0.0007363305838809344,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 108312720,
+      "step": 50140
+    },
+    {
+      "epoch": 8.18026101141925,
+      "grad_norm": 0.007855056785047054,
+      "learning_rate": 0.0007362678546772379,
+      "loss": 0.2655,
+      "num_input_tokens_seen": 108322480,
+      "step": 50145
+    },
+    {
+      "epoch": 8.181076672104405,
+      "grad_norm": 0.023270519450306892,
+      "learning_rate": 0.0007362051206852736,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 108332976,
+      "step": 50150
+    },
+    {
+      "epoch": 8.181892332789559,
+      "grad_norm": 0.15803292393684387,
+      "learning_rate": 0.0007361423819063128,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 108344112,
+      "step": 50155
+    },
+    {
+      "epoch": 8.182707993474715,
+      "grad_norm": 0.2568044364452362,
+      "learning_rate": 0.0007360796383416273,
+      "loss": 0.1826,
+      "num_input_tokens_seen": 108354960,
+      "step": 50160
+    },
+    {
+      "epoch": 8.18352365415987,
+      "grad_norm": 0.011066235601902008,
+      "learning_rate": 0.0007360168899924883,
+      "loss": 0.055,
+      "num_input_tokens_seen": 108365008,
+      "step": 50165
+    },
+    {
+      "epoch": 8.184339314845024,
+      "grad_norm": 0.08335398137569427,
+      "learning_rate": 0.0007359541368601675,
+      "loss": 0.1744,
+      "num_input_tokens_seen": 108374544,
+      "step": 50170
+    },
+    {
+      "epoch": 8.18515497553018,
+      "grad_norm": 0.23367607593536377,
+      "learning_rate": 0.0007358913789459369,
+      "loss": 0.161,
+      "num_input_tokens_seen": 108384304,
+      "step": 50175
+    },
+    {
+      "epoch": 8.185970636215334,
+      "grad_norm": 0.04029659181833267,
+      "learning_rate": 0.0007358286162510683,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 108394992,
+      "step": 50180
+    },
+    {
+      "epoch": 8.18678629690049,
+      "grad_norm": 0.04990570619702339,
+      "learning_rate": 0.0007357658487768337,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 108407568,
+      "step": 50185
+    },
+    {
+      "epoch": 8.187601957585644,
+      "grad_norm": 0.009469253942370415,
+      "learning_rate": 0.0007357030765245049,
+      "loss": 0.022,
+      "num_input_tokens_seen": 108417904,
+      "step": 50190
+    },
+    {
+      "epoch": 8.1884176182708,
+      "grad_norm": 0.026664957404136658,
+      "learning_rate": 0.0007356402994953544,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 108428400,
+      "step": 50195
+    },
+    {
+      "epoch": 8.189233278955955,
+      "grad_norm": 0.015516448765993118,
+      "learning_rate": 0.0007355775176906543,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 108438864,
+      "step": 50200
+    },
+    {
+      "epoch": 8.190048939641109,
+      "grad_norm": 0.014006822369992733,
+      "learning_rate": 0.0007355147311116768,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 108448720,
+      "step": 50205
+    },
+    {
+      "epoch": 8.190864600326265,
+      "grad_norm": 0.1970442533493042,
+      "learning_rate": 0.0007354519397596946,
+      "loss": 0.049,
+      "num_input_tokens_seen": 108459344,
+      "step": 50210
+    },
+    {
+      "epoch": 8.191680261011419,
+      "grad_norm": 0.015166080556809902,
+      "learning_rate": 0.0007353891436359801,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 108470000,
+      "step": 50215
+    },
+    {
+      "epoch": 8.192495921696574,
+      "grad_norm": 0.0828956738114357,
+      "learning_rate": 0.000735326342741806,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 108479856,
+      "step": 50220
+    },
+    {
+      "epoch": 8.19331158238173,
+      "grad_norm": 0.1197994202375412,
+      "learning_rate": 0.0007352635370784451,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 108490576,
+      "step": 50225
+    },
+    {
+      "epoch": 8.194127243066884,
+      "grad_norm": 0.047717440873384476,
+      "learning_rate": 0.00073520072664717,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 108502960,
+      "step": 50230
+    },
+    {
+      "epoch": 8.19494290375204,
+      "grad_norm": 0.08582471311092377,
+      "learning_rate": 0.000735137911449254,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 108512944,
+      "step": 50235
+    },
+    {
+      "epoch": 8.195758564437194,
+      "grad_norm": 0.1752943992614746,
+      "learning_rate": 0.0007350750914859698,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 108523664,
+      "step": 50240
+    },
+    {
+      "epoch": 8.19657422512235,
+      "grad_norm": 0.008756861090660095,
+      "learning_rate": 0.0007350122667585908,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 108534704,
+      "step": 50245
+    },
+    {
+      "epoch": 8.197389885807505,
+      "grad_norm": 0.01668260246515274,
+      "learning_rate": 0.0007349494372683899,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 108545936,
+      "step": 50250
+    },
+    {
+      "epoch": 8.198205546492659,
+      "grad_norm": 0.7298435568809509,
+      "learning_rate": 0.0007348866030166407,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 108555536,
+      "step": 50255
+    },
+    {
+      "epoch": 8.199021207177815,
+      "grad_norm": 0.015028917230665684,
+      "learning_rate": 0.0007348237640046165,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 108566896,
+      "step": 50260
+    },
+    {
+      "epoch": 8.199836867862969,
+      "grad_norm": 0.013336896896362305,
+      "learning_rate": 0.0007347609202335907,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 108577520,
+      "step": 50265
+    },
+    {
+      "epoch": 8.200652528548124,
+      "grad_norm": 0.0023462544195353985,
+      "learning_rate": 0.0007346980717048373,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 108589104,
+      "step": 50270
+    },
+    {
+      "epoch": 8.201468189233278,
+      "grad_norm": 0.02456527017056942,
+      "learning_rate": 0.0007346352184196296,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 108599440,
+      "step": 50275
+    },
+    {
+      "epoch": 8.202283849918434,
+      "grad_norm": 0.23470385372638702,
+      "learning_rate": 0.0007345723603792415,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 108610608,
+      "step": 50280
+    },
+    {
+      "epoch": 8.20309951060359,
+      "grad_norm": 0.03273777663707733,
+      "learning_rate": 0.000734509497584947,
+      "loss": 0.0784,
+      "num_input_tokens_seen": 108621680,
+      "step": 50285
+    },
+    {
+      "epoch": 8.203915171288743,
+      "grad_norm": 0.20122350752353668,
+      "learning_rate": 0.0007344466300380201,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 108633712,
+      "step": 50290
+    },
+    {
+      "epoch": 8.2047308319739,
+      "grad_norm": 0.03938678279519081,
+      "learning_rate": 0.0007343837577397347,
+      "loss": 0.0923,
+      "num_input_tokens_seen": 108643888,
+      "step": 50295
+    },
+    {
+      "epoch": 8.205546492659053,
+      "grad_norm": 0.023820001631975174,
+      "learning_rate": 0.0007343208806913651,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 108654160,
+      "step": 50300
+    },
+    {
+      "epoch": 8.206362153344209,
+      "grad_norm": 0.0029546052683144808,
+      "learning_rate": 0.0007342579988941858,
+      "loss": 0.1322,
+      "num_input_tokens_seen": 108665072,
+      "step": 50305
+    },
+    {
+      "epoch": 8.207177814029365,
+      "grad_norm": 0.09167854487895966,
+      "learning_rate": 0.0007341951123494708,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 108676432,
+      "step": 50310
+    },
+    {
+      "epoch": 8.207993474714518,
+      "grad_norm": 0.13153241574764252,
+      "learning_rate": 0.0007341322210584947,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 108687088,
+      "step": 50315
+    },
+    {
+      "epoch": 8.208809135399674,
+      "grad_norm": 0.27671709656715393,
+      "learning_rate": 0.0007340693250225322,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 108698736,
+      "step": 50320
+    },
+    {
+      "epoch": 8.209624796084828,
+      "grad_norm": 0.0030362617690116167,
+      "learning_rate": 0.0007340064242428579,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 108709616,
+      "step": 50325
+    },
+    {
+      "epoch": 8.210440456769984,
+      "grad_norm": 0.02015618234872818,
+      "learning_rate": 0.0007339435187207466,
+      "loss": 0.006,
+      "num_input_tokens_seen": 108720688,
+      "step": 50330
+    },
+    {
+      "epoch": 8.21125611745514,
+      "grad_norm": 0.017543811351060867,
+      "learning_rate": 0.0007338806084574731,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 108730928,
+      "step": 50335
+    },
+    {
+      "epoch": 8.212071778140293,
+      "grad_norm": 0.003998770844191313,
+      "learning_rate": 0.0007338176934543124,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 108742832,
+      "step": 50340
+    },
+    {
+      "epoch": 8.21288743882545,
+      "grad_norm": 0.0968787744641304,
+      "learning_rate": 0.0007337547737125394,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 108753616,
+      "step": 50345
+    },
+    {
+      "epoch": 8.213703099510603,
+      "grad_norm": 0.3040590286254883,
+      "learning_rate": 0.0007336918492334294,
+      "loss": 0.1554,
+      "num_input_tokens_seen": 108764592,
+      "step": 50350
+    },
+    {
+      "epoch": 8.214518760195759,
+      "grad_norm": 0.09109804034233093,
+      "learning_rate": 0.0007336289200182576,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 108776688,
+      "step": 50355
+    },
+    {
+      "epoch": 8.215334420880913,
+      "grad_norm": 0.04389248788356781,
+      "learning_rate": 0.0007335659860682994,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 108787792,
+      "step": 50360
+    },
+    {
+      "epoch": 8.216150081566068,
+      "grad_norm": 0.12057659029960632,
+      "learning_rate": 0.0007335030473848302,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 108798032,
+      "step": 50365
+    },
+    {
+      "epoch": 8.216965742251224,
+      "grad_norm": 0.02155953273177147,
+      "learning_rate": 0.0007334401039691255,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 108808976,
+      "step": 50370
+    },
+    {
+      "epoch": 8.217781402936378,
+      "grad_norm": 0.011279478669166565,
+      "learning_rate": 0.000733377155822461,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 108818928,
+      "step": 50375
+    },
+    {
+      "epoch": 8.218597063621534,
+      "grad_norm": 0.042144011706113815,
+      "learning_rate": 0.0007333142029461124,
+      "loss": 0.2277,
+      "num_input_tokens_seen": 108829744,
+      "step": 50380
+    },
+    {
+      "epoch": 8.219412724306688,
+      "grad_norm": 0.3779882788658142,
+      "learning_rate": 0.0007332512453413555,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 108841008,
+      "step": 50385
+    },
+    {
+      "epoch": 8.220228384991843,
+      "grad_norm": 0.029292693361639977,
+      "learning_rate": 0.0007331882830094661,
+      "loss": 0.1683,
+      "num_input_tokens_seen": 108852208,
+      "step": 50390
+    },
+    {
+      "epoch": 8.221044045676999,
+      "grad_norm": 0.058450907468795776,
+      "learning_rate": 0.0007331253159517204,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 108863440,
+      "step": 50395
+    },
+    {
+      "epoch": 8.221859706362153,
+      "grad_norm": 0.016852879896759987,
+      "learning_rate": 0.0007330623441693944,
+      "loss": 0.0701,
+      "num_input_tokens_seen": 108874256,
+      "step": 50400
+    },
+    {
+      "epoch": 8.222675367047309,
+      "grad_norm": 0.030780978500843048,
+      "learning_rate": 0.0007329993676637643,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 108885808,
+      "step": 50405
+    },
+    {
+      "epoch": 8.223491027732463,
+      "grad_norm": 0.1959686279296875,
+      "learning_rate": 0.0007329363864361065,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 108896880,
+      "step": 50410
+    },
+    {
+      "epoch": 8.224306688417618,
+      "grad_norm": 0.3598119616508484,
+      "learning_rate": 0.0007328734004876974,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 108908336,
+      "step": 50415
+    },
+    {
+      "epoch": 8.225122349102774,
+      "grad_norm": 0.004757583606988192,
+      "learning_rate": 0.0007328104098198131,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 108919312,
+      "step": 50420
+    },
+    {
+      "epoch": 8.225938009787928,
+      "grad_norm": 0.40510547161102295,
+      "learning_rate": 0.000732747414433731,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 108930992,
+      "step": 50425
+    },
+    {
+      "epoch": 8.226753670473084,
+      "grad_norm": 0.3972322344779968,
+      "learning_rate": 0.000732684414330727,
+      "loss": 0.062,
+      "num_input_tokens_seen": 108942864,
+      "step": 50430
+    },
+    {
+      "epoch": 8.227569331158238,
+      "grad_norm": 0.008180802688002586,
+      "learning_rate": 0.0007326214095120781,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 108952880,
+      "step": 50435
+    },
+    {
+      "epoch": 8.228384991843393,
+      "grad_norm": 0.007211578544229269,
+      "learning_rate": 0.0007325583999790613,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 108964560,
+      "step": 50440
+    },
+    {
+      "epoch": 8.229200652528547,
+      "grad_norm": 0.017740648239850998,
+      "learning_rate": 0.0007324953857329535,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 108976336,
+      "step": 50445
+    },
+    {
+      "epoch": 8.230016313213703,
+      "grad_norm": 0.009635083377361298,
+      "learning_rate": 0.0007324323667750319,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 108987216,
+      "step": 50450
+    },
+    {
+      "epoch": 8.230831973898859,
+      "grad_norm": 0.007957677356898785,
+      "learning_rate": 0.0007323693431065734,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 108997328,
+      "step": 50455
+    },
+    {
+      "epoch": 8.231647634584013,
+      "grad_norm": 0.013457262888550758,
+      "learning_rate": 0.0007323063147288553,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 109007088,
+      "step": 50460
+    },
+    {
+      "epoch": 8.232463295269168,
+      "grad_norm": 0.22362826764583588,
+      "learning_rate": 0.0007322432816431551,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 109017488,
+      "step": 50465
+    },
+    {
+      "epoch": 8.233278955954322,
+      "grad_norm": 0.17243242263793945,
+      "learning_rate": 0.0007321802438507502,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 109028240,
+      "step": 50470
+    },
+    {
+      "epoch": 8.234094616639478,
+      "grad_norm": 0.003037064801901579,
+      "learning_rate": 0.0007321172013529182,
+      "loss": 0.129,
+      "num_input_tokens_seen": 109038224,
+      "step": 50475
+    },
+    {
+      "epoch": 8.234910277324634,
+      "grad_norm": 0.007365551311522722,
+      "learning_rate": 0.0007320541541509366,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 109048592,
+      "step": 50480
+    },
+    {
+      "epoch": 8.235725938009788,
+      "grad_norm": 0.020375186577439308,
+      "learning_rate": 0.0007319911022460831,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 109058512,
+      "step": 50485
+    },
+    {
+      "epoch": 8.236541598694943,
+      "grad_norm": 0.22685709595680237,
+      "learning_rate": 0.0007319280456396357,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 109069392,
+      "step": 50490
+    },
+    {
+      "epoch": 8.237357259380097,
+      "grad_norm": 0.27163517475128174,
+      "learning_rate": 0.0007318649843328722,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 109080176,
+      "step": 50495
+    },
+    {
+      "epoch": 8.238172920065253,
+      "grad_norm": 0.008194385096430779,
+      "learning_rate": 0.0007318019183270707,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 109091216,
+      "step": 50500
+    },
+    {
+      "epoch": 8.238988580750409,
+      "grad_norm": 0.03463249281048775,
+      "learning_rate": 0.0007317388476235091,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 109101872,
+      "step": 50505
+    },
+    {
+      "epoch": 8.239804241435563,
+      "grad_norm": 0.02676951140165329,
+      "learning_rate": 0.0007316757722234659,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 109111600,
+      "step": 50510
+    },
+    {
+      "epoch": 8.240619902120718,
+      "grad_norm": 0.012483866885304451,
+      "learning_rate": 0.0007316126921282193,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 109121872,
+      "step": 50515
+    },
+    {
+      "epoch": 8.241435562805872,
+      "grad_norm": 0.2171943187713623,
+      "learning_rate": 0.0007315496073390477,
+      "loss": 0.029,
+      "num_input_tokens_seen": 109133136,
+      "step": 50520
+    },
+    {
+      "epoch": 8.242251223491028,
+      "grad_norm": 0.0367184579372406,
+      "learning_rate": 0.0007314865178572295,
+      "loss": 0.2034,
+      "num_input_tokens_seen": 109143216,
+      "step": 50525
+    },
+    {
+      "epoch": 8.243066884176184,
+      "grad_norm": 0.04937918111681938,
+      "learning_rate": 0.0007314234236840434,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 109153104,
+      "step": 50530
+    },
+    {
+      "epoch": 8.243882544861338,
+      "grad_norm": 0.0748000219464302,
+      "learning_rate": 0.000731360324820768,
+      "loss": 0.035,
+      "num_input_tokens_seen": 109163568,
+      "step": 50535
+    },
+    {
+      "epoch": 8.244698205546493,
+      "grad_norm": 0.008928696624934673,
+      "learning_rate": 0.000731297221268682,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 109174096,
+      "step": 50540
+    },
+    {
+      "epoch": 8.245513866231647,
+      "grad_norm": 0.003620315110310912,
+      "learning_rate": 0.0007312341130290645,
+      "loss": 0.1859,
+      "num_input_tokens_seen": 109185328,
+      "step": 50545
+    },
+    {
+      "epoch": 8.246329526916803,
+      "grad_norm": 0.03834008425474167,
+      "learning_rate": 0.0007311710001031943,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 109195568,
+      "step": 50550
+    },
+    {
+      "epoch": 8.247145187601957,
+      "grad_norm": 0.2103102058172226,
+      "learning_rate": 0.0007311078824923506,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 109205712,
+      "step": 50555
+    },
+    {
+      "epoch": 8.247960848287113,
+      "grad_norm": 0.0034484812058508396,
+      "learning_rate": 0.0007310447601978125,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 109217200,
+      "step": 50560
+    },
+    {
+      "epoch": 8.248776508972268,
+      "grad_norm": 0.05513901263475418,
+      "learning_rate": 0.0007309816332208592,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 109227312,
+      "step": 50565
+    },
+    {
+      "epoch": 8.249592169657422,
+      "grad_norm": 0.3575925827026367,
+      "learning_rate": 0.00073091850156277,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 109239664,
+      "step": 50570
+    },
+    {
+      "epoch": 8.250407830342578,
+      "grad_norm": 0.02116283029317856,
+      "learning_rate": 0.0007308553652248244,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 109250320,
+      "step": 50575
+    },
+    {
+      "epoch": 8.251223491027732,
+      "grad_norm": 0.006838952656835318,
+      "learning_rate": 0.0007307922242083022,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 109260048,
+      "step": 50580
+    },
+    {
+      "epoch": 8.252039151712887,
+      "grad_norm": 0.04055549204349518,
+      "learning_rate": 0.0007307290785144826,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 109270896,
+      "step": 50585
+    },
+    {
+      "epoch": 8.252854812398043,
+      "grad_norm": 0.17573504149913788,
+      "learning_rate": 0.0007306659281446456,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 109279440,
+      "step": 50590
+    },
+    {
+      "epoch": 8.253670473083197,
+      "grad_norm": 0.03469372168183327,
+      "learning_rate": 0.000730602773100071,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 109291824,
+      "step": 50595
+    },
+    {
+      "epoch": 8.254486133768353,
+      "grad_norm": 0.021459020674228668,
+      "learning_rate": 0.0007305396133820385,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 109302256,
+      "step": 50600
+    },
+    {
+      "epoch": 8.255301794453507,
+      "grad_norm": 0.029705122113227844,
+      "learning_rate": 0.0007304764489918284,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 109312624,
+      "step": 50605
+    },
+    {
+      "epoch": 8.256117455138662,
+      "grad_norm": 0.050352420657873154,
+      "learning_rate": 0.0007304132799307206,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 109324304,
+      "step": 50610
+    },
+    {
+      "epoch": 8.256933115823816,
+      "grad_norm": 0.017651639878749847,
+      "learning_rate": 0.0007303501061999956,
+      "loss": 0.125,
+      "num_input_tokens_seen": 109336208,
+      "step": 50615
+    },
+    {
+      "epoch": 8.257748776508972,
+      "grad_norm": 0.008997799828648567,
+      "learning_rate": 0.0007302869278009332,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 109346672,
+      "step": 50620
+    },
+    {
+      "epoch": 8.258564437194128,
+      "grad_norm": 0.25991567969322205,
+      "learning_rate": 0.0007302237447348141,
+      "loss": 0.1863,
+      "num_input_tokens_seen": 109356656,
+      "step": 50625
+    },
+    {
+      "epoch": 8.259380097879282,
+      "grad_norm": 0.008971529081463814,
+      "learning_rate": 0.0007301605570029189,
+      "loss": 0.1918,
+      "num_input_tokens_seen": 109365168,
+      "step": 50630
+    },
+    {
+      "epoch": 8.260195758564437,
+      "grad_norm": 0.014313746243715286,
+      "learning_rate": 0.000730097364606528,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 109375376,
+      "step": 50635
+    },
+    {
+      "epoch": 8.261011419249591,
+      "grad_norm": 0.2412402629852295,
+      "learning_rate": 0.000730034167546922,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 109386576,
+      "step": 50640
+    },
+    {
+      "epoch": 8.261827079934747,
+      "grad_norm": 0.008197726681828499,
+      "learning_rate": 0.0007299709658253819,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 109398352,
+      "step": 50645
+    },
+    {
+      "epoch": 8.262642740619903,
+      "grad_norm": 0.20047369599342346,
+      "learning_rate": 0.0007299077594431885,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 109407056,
+      "step": 50650
+    },
+    {
+      "epoch": 8.263458401305057,
+      "grad_norm": 0.2139945924282074,
+      "learning_rate": 0.0007298445484016225,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 109416912,
+      "step": 50655
+    },
+    {
+      "epoch": 8.264274061990212,
+      "grad_norm": 0.05942140519618988,
+      "learning_rate": 0.0007297813327019652,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 109428144,
+      "step": 50660
+    },
+    {
+      "epoch": 8.265089722675366,
+      "grad_norm": 0.2181319147348404,
+      "learning_rate": 0.0007297181123454977,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 109436976,
+      "step": 50665
+    },
+    {
+      "epoch": 8.265905383360522,
+      "grad_norm": 0.10995151102542877,
+      "learning_rate": 0.0007296548873335013,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 109448336,
+      "step": 50670
+    },
+    {
+      "epoch": 8.266721044045678,
+      "grad_norm": 0.3578730523586273,
+      "learning_rate": 0.0007295916576672572,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 109458992,
+      "step": 50675
+    },
+    {
+      "epoch": 8.267536704730832,
+      "grad_norm": 0.22147579491138458,
+      "learning_rate": 0.0007295284233480468,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 109469392,
+      "step": 50680
+    },
+    {
+      "epoch": 8.268352365415987,
+      "grad_norm": 0.028804771602153778,
+      "learning_rate": 0.0007294651843771519,
+      "loss": 0.113,
+      "num_input_tokens_seen": 109480112,
+      "step": 50685
+    },
+    {
+      "epoch": 8.269168026101141,
+      "grad_norm": 0.09923944622278214,
+      "learning_rate": 0.0007294019407558538,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 109491344,
+      "step": 50690
+    },
+    {
+      "epoch": 8.269983686786297,
+      "grad_norm": 0.006381940096616745,
+      "learning_rate": 0.0007293386924854346,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 109502640,
+      "step": 50695
+    },
+    {
+      "epoch": 8.270799347471453,
+      "grad_norm": 0.03557540103793144,
+      "learning_rate": 0.0007292754395671757,
+      "loss": 0.1572,
+      "num_input_tokens_seen": 109512464,
+      "step": 50700
+    },
+    {
+      "epoch": 8.271615008156607,
+      "grad_norm": 0.13613596558570862,
+      "learning_rate": 0.0007292121820023592,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 109524816,
+      "step": 50705
+    },
+    {
+      "epoch": 8.272430668841762,
+      "grad_norm": 0.48386117815971375,
+      "learning_rate": 0.000729148919792267,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 109535568,
+      "step": 50710
+    },
+    {
+      "epoch": 8.273246329526916,
+      "grad_norm": 0.005705375224351883,
+      "learning_rate": 0.000729085652938181,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 109546704,
+      "step": 50715
+    },
+    {
+      "epoch": 8.274061990212072,
+      "grad_norm": 0.023817330598831177,
+      "learning_rate": 0.0007290223814413841,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 109557648,
+      "step": 50720
+    },
+    {
+      "epoch": 8.274877650897226,
+      "grad_norm": 0.06411412358283997,
+      "learning_rate": 0.0007289591053031578,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 109569136,
+      "step": 50725
+    },
+    {
+      "epoch": 8.275693311582382,
+      "grad_norm": 0.11758533865213394,
+      "learning_rate": 0.000728895824524785,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 109580144,
+      "step": 50730
+    },
+    {
+      "epoch": 8.276508972267537,
+      "grad_norm": 0.16610552370548248,
+      "learning_rate": 0.0007288325391075478,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 109590928,
+      "step": 50735
+    },
+    {
+      "epoch": 8.277324632952691,
+      "grad_norm": 0.021982286125421524,
+      "learning_rate": 0.000728769249052729,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 109601584,
+      "step": 50740
+    },
+    {
+      "epoch": 8.278140293637847,
+      "grad_norm": 0.1610334813594818,
+      "learning_rate": 0.000728705954361611,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 109611728,
+      "step": 50745
+    },
+    {
+      "epoch": 8.278955954323001,
+      "grad_norm": 0.003985857591032982,
+      "learning_rate": 0.0007286426550354768,
+      "loss": 0.1684,
+      "num_input_tokens_seen": 109622896,
+      "step": 50750
+    },
+    {
+      "epoch": 8.279771615008157,
+      "grad_norm": 0.0630965307354927,
+      "learning_rate": 0.000728579351075609,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 109633296,
+      "step": 50755
+    },
+    {
+      "epoch": 8.280587275693312,
+      "grad_norm": 0.13424259424209595,
+      "learning_rate": 0.0007285160424832909,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 109644336,
+      "step": 50760
+    },
+    {
+      "epoch": 8.281402936378466,
+      "grad_norm": 0.014872642233967781,
+      "learning_rate": 0.0007284527292598051,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 109653776,
+      "step": 50765
+    },
+    {
+      "epoch": 8.282218597063622,
+      "grad_norm": 0.009358805604279041,
+      "learning_rate": 0.0007283894114064351,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 109665328,
+      "step": 50770
+    },
+    {
+      "epoch": 8.283034257748776,
+      "grad_norm": 0.12680892646312714,
+      "learning_rate": 0.0007283260889244639,
+      "loss": 0.145,
+      "num_input_tokens_seen": 109676176,
+      "step": 50775
+    },
+    {
+      "epoch": 8.283849918433932,
+      "grad_norm": 0.13732105493545532,
+      "learning_rate": 0.0007282627618151747,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 109687120,
+      "step": 50780
+    },
+    {
+      "epoch": 8.284665579119087,
+      "grad_norm": 0.18857133388519287,
+      "learning_rate": 0.0007281994300798511,
+      "loss": 0.1352,
+      "num_input_tokens_seen": 109697552,
+      "step": 50785
+    },
+    {
+      "epoch": 8.285481239804241,
+      "grad_norm": 0.16515469551086426,
+      "learning_rate": 0.0007281360937197767,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 109708368,
+      "step": 50790
+    },
+    {
+      "epoch": 8.286296900489397,
+      "grad_norm": 0.008306358940899372,
+      "learning_rate": 0.0007280727527362349,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 109719536,
+      "step": 50795
+    },
+    {
+      "epoch": 8.28711256117455,
+      "grad_norm": 0.01918146014213562,
+      "learning_rate": 0.0007280094071305095,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 109730032,
+      "step": 50800
+    },
+    {
+      "epoch": 8.287928221859707,
+      "grad_norm": 0.09741424024105072,
+      "learning_rate": 0.0007279460569038841,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 109738992,
+      "step": 50805
+    },
+    {
+      "epoch": 8.28874388254486,
+      "grad_norm": 0.016544492915272713,
+      "learning_rate": 0.0007278827020576427,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 109749776,
+      "step": 50810
+    },
+    {
+      "epoch": 8.289559543230016,
+      "grad_norm": 0.014726830646395683,
+      "learning_rate": 0.0007278193425930692,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 109761264,
+      "step": 50815
+    },
+    {
+      "epoch": 8.290375203915172,
+      "grad_norm": 0.0035396378953009844,
+      "learning_rate": 0.0007277559785114478,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 109772304,
+      "step": 50820
+    },
+    {
+      "epoch": 8.291190864600326,
+      "grad_norm": 0.06589116901159286,
+      "learning_rate": 0.0007276926098140626,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 109783600,
+      "step": 50825
+    },
+    {
+      "epoch": 8.292006525285482,
+      "grad_norm": 0.010147838853299618,
+      "learning_rate": 0.0007276292365021979,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 109794096,
+      "step": 50830
+    },
+    {
+      "epoch": 8.292822185970635,
+      "grad_norm": 0.002056955127045512,
+      "learning_rate": 0.0007275658585771378,
+      "loss": 0.021,
+      "num_input_tokens_seen": 109804400,
+      "step": 50835
+    },
+    {
+      "epoch": 8.293637846655791,
+      "grad_norm": 0.005161386914551258,
+      "learning_rate": 0.0007275024760401668,
+      "loss": 0.013,
+      "num_input_tokens_seen": 109814704,
+      "step": 50840
+    },
+    {
+      "epoch": 8.294453507340947,
+      "grad_norm": 0.19297684729099274,
+      "learning_rate": 0.0007274390888925697,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 109825264,
+      "step": 50845
+    },
+    {
+      "epoch": 8.2952691680261,
+      "grad_norm": 0.3012802004814148,
+      "learning_rate": 0.0007273756971356308,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 109837072,
+      "step": 50850
+    },
+    {
+      "epoch": 8.296084828711257,
+      "grad_norm": 0.17966091632843018,
+      "learning_rate": 0.000727312300770635,
+      "loss": 0.04,
+      "num_input_tokens_seen": 109847920,
+      "step": 50855
+    },
+    {
+      "epoch": 8.29690048939641,
+      "grad_norm": 0.019909987226128578,
+      "learning_rate": 0.0007272488997988671,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 109858768,
+      "step": 50860
+    },
+    {
+      "epoch": 8.297716150081566,
+      "grad_norm": 0.02569238841533661,
+      "learning_rate": 0.000727185494221612,
+      "loss": 0.1047,
+      "num_input_tokens_seen": 109869072,
+      "step": 50865
+    },
+    {
+      "epoch": 8.298531810766722,
+      "grad_norm": 0.002372046699747443,
+      "learning_rate": 0.0007271220840401546,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 109881232,
+      "step": 50870
+    },
+    {
+      "epoch": 8.299347471451876,
+      "grad_norm": 0.005322215147316456,
+      "learning_rate": 0.0007270586692557799,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 109892368,
+      "step": 50875
+    },
+    {
+      "epoch": 8.300163132137031,
+      "grad_norm": 0.007450290489941835,
+      "learning_rate": 0.0007269952498697733,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 109903888,
+      "step": 50880
+    },
+    {
+      "epoch": 8.300978792822185,
+      "grad_norm": 0.09495791792869568,
+      "learning_rate": 0.0007269318258834202,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 109915120,
+      "step": 50885
+    },
+    {
+      "epoch": 8.301794453507341,
+      "grad_norm": 0.008407175540924072,
+      "learning_rate": 0.0007268683972980056,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 109925840,
+      "step": 50890
+    },
+    {
+      "epoch": 8.302610114192497,
+      "grad_norm": 0.024781066924333572,
+      "learning_rate": 0.0007268049641148152,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 109936304,
+      "step": 50895
+    },
+    {
+      "epoch": 8.30342577487765,
+      "grad_norm": 0.01070436555892229,
+      "learning_rate": 0.0007267415263351343,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 109946448,
+      "step": 50900
+    },
+    {
+      "epoch": 8.304241435562806,
+      "grad_norm": 0.19071489572525024,
+      "learning_rate": 0.0007266780839602488,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 109956432,
+      "step": 50905
+    },
+    {
+      "epoch": 8.30505709624796,
+      "grad_norm": 0.3626735806465149,
+      "learning_rate": 0.0007266146369914445,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 109967248,
+      "step": 50910
+    },
+    {
+      "epoch": 8.305872756933116,
+      "grad_norm": 0.38729625940322876,
+      "learning_rate": 0.0007265511854300069,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 109979792,
+      "step": 50915
+    },
+    {
+      "epoch": 8.30668841761827,
+      "grad_norm": 0.3133726716041565,
+      "learning_rate": 0.0007264877292772223,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 109990480,
+      "step": 50920
+    },
+    {
+      "epoch": 8.307504078303426,
+      "grad_norm": 0.24243846535682678,
+      "learning_rate": 0.0007264242685343765,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 109999760,
+      "step": 50925
+    },
+    {
+      "epoch": 8.308319738988581,
+      "grad_norm": 0.19307786226272583,
+      "learning_rate": 0.0007263608032027557,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 110010192,
+      "step": 50930
+    },
+    {
+      "epoch": 8.309135399673735,
+      "grad_norm": 0.017839960753917694,
+      "learning_rate": 0.000726297333283646,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 110022192,
+      "step": 50935
+    },
+    {
+      "epoch": 8.309951060358891,
+      "grad_norm": 0.00453083124011755,
+      "learning_rate": 0.0007262338587783338,
+      "loss": 0.017,
+      "num_input_tokens_seen": 110032944,
+      "step": 50940
+    },
+    {
+      "epoch": 8.310766721044045,
+      "grad_norm": 0.1239013820886612,
+      "learning_rate": 0.0007261703796881054,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 110043408,
+      "step": 50945
+    },
+    {
+      "epoch": 8.3115823817292,
+      "grad_norm": 0.18398962914943695,
+      "learning_rate": 0.0007261068960142474,
+      "loss": 0.035,
+      "num_input_tokens_seen": 110054448,
+      "step": 50950
+    },
+    {
+      "epoch": 8.312398042414356,
+      "grad_norm": 0.07020730525255203,
+      "learning_rate": 0.0007260434077580463,
+      "loss": 0.018,
+      "num_input_tokens_seen": 110065072,
+      "step": 50955
+    },
+    {
+      "epoch": 8.31321370309951,
+      "grad_norm": 0.02656623162329197,
+      "learning_rate": 0.0007259799149207887,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 110075664,
+      "step": 50960
+    },
+    {
+      "epoch": 8.314029363784666,
+      "grad_norm": 0.0020199622958898544,
+      "learning_rate": 0.0007259164175037616,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 110086672,
+      "step": 50965
+    },
+    {
+      "epoch": 8.31484502446982,
+      "grad_norm": 0.12150160223245621,
+      "learning_rate": 0.0007258529155082516,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 110097840,
+      "step": 50970
+    },
+    {
+      "epoch": 8.315660685154976,
+      "grad_norm": 0.031684860587120056,
+      "learning_rate": 0.0007257894089355458,
+      "loss": 0.2559,
+      "num_input_tokens_seen": 110109552,
+      "step": 50975
+    },
+    {
+      "epoch": 8.31647634584013,
+      "grad_norm": 0.23399962484836578,
+      "learning_rate": 0.0007257258977869313,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 110121072,
+      "step": 50980
+    },
+    {
+      "epoch": 8.317292006525285,
+      "grad_norm": 0.14578203856945038,
+      "learning_rate": 0.000725662382063695,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 110132432,
+      "step": 50985
+    },
+    {
+      "epoch": 8.318107667210441,
+      "grad_norm": 0.10246943682432175,
+      "learning_rate": 0.0007255988617671241,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 110144464,
+      "step": 50990
+    },
+    {
+      "epoch": 8.318923327895595,
+      "grad_norm": 0.0060472646728158,
+      "learning_rate": 0.0007255353368985063,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 110155280,
+      "step": 50995
+    },
+    {
+      "epoch": 8.31973898858075,
+      "grad_norm": 0.22746527194976807,
+      "learning_rate": 0.0007254718074591285,
+      "loss": 0.027,
+      "num_input_tokens_seen": 110165360,
+      "step": 51000
+    },
+    {
+      "epoch": 8.320554649265905,
+      "grad_norm": 0.3178712725639343,
+      "learning_rate": 0.0007254082734502788,
+      "loss": 0.116,
+      "num_input_tokens_seen": 110176336,
+      "step": 51005
+    },
+    {
+      "epoch": 8.32137030995106,
+      "grad_norm": 0.3559790849685669,
+      "learning_rate": 0.0007253447348732443,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 110188624,
+      "step": 51010
+    },
+    {
+      "epoch": 8.322185970636216,
+      "grad_norm": 0.22412791848182678,
+      "learning_rate": 0.000725281191729313,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 110198768,
+      "step": 51015
+    },
+    {
+      "epoch": 8.32300163132137,
+      "grad_norm": 0.01915472373366356,
+      "learning_rate": 0.0007252176440197726,
+      "loss": 0.013,
+      "num_input_tokens_seen": 110209456,
+      "step": 51020
+    },
+    {
+      "epoch": 8.323817292006526,
+      "grad_norm": 0.018906638026237488,
+      "learning_rate": 0.0007251540917459109,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 110220656,
+      "step": 51025
+    },
+    {
+      "epoch": 8.32463295269168,
+      "grad_norm": 0.09125878661870956,
+      "learning_rate": 0.0007250905349090158,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 110231504,
+      "step": 51030
+    },
+    {
+      "epoch": 8.325448613376835,
+      "grad_norm": 0.28258514404296875,
+      "learning_rate": 0.0007250269735103754,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 110242704,
+      "step": 51035
+    },
+    {
+      "epoch": 8.326264274061991,
+      "grad_norm": 0.026500288397073746,
+      "learning_rate": 0.0007249634075512781,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 110253104,
+      "step": 51040
+    },
+    {
+      "epoch": 8.327079934747145,
+      "grad_norm": 0.002784762065857649,
+      "learning_rate": 0.0007248998370330119,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 110263408,
+      "step": 51045
+    },
+    {
+      "epoch": 8.3278955954323,
+      "grad_norm": 0.02501026540994644,
+      "learning_rate": 0.0007248362619568651,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 110275536,
+      "step": 51050
+    },
+    {
+      "epoch": 8.328711256117455,
+      "grad_norm": 0.005268088076263666,
+      "learning_rate": 0.0007247726823241264,
+      "loss": 0.1713,
+      "num_input_tokens_seen": 110285616,
+      "step": 51055
+    },
+    {
+      "epoch": 8.32952691680261,
+      "grad_norm": 0.004592955578118563,
+      "learning_rate": 0.0007247090981360841,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 110297680,
+      "step": 51060
+    },
+    {
+      "epoch": 8.330342577487766,
+      "grad_norm": 0.2294696718454361,
+      "learning_rate": 0.0007246455093940268,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 110307120,
+      "step": 51065
+    },
+    {
+      "epoch": 8.33115823817292,
+      "grad_norm": 0.01248850580304861,
+      "learning_rate": 0.0007245819160992434,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 110317424,
+      "step": 51070
+    },
+    {
+      "epoch": 8.331973898858076,
+      "grad_norm": 0.15484943985939026,
+      "learning_rate": 0.0007245183182530224,
+      "loss": 0.083,
+      "num_input_tokens_seen": 110328240,
+      "step": 51075
+    },
+    {
+      "epoch": 8.33278955954323,
+      "grad_norm": 0.01719985157251358,
+      "learning_rate": 0.0007244547158566531,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 110338448,
+      "step": 51080
+    },
+    {
+      "epoch": 8.333605220228385,
+      "grad_norm": 0.09124539792537689,
+      "learning_rate": 0.0007243911089114239,
+      "loss": 0.032,
+      "num_input_tokens_seen": 110348496,
+      "step": 51085
+    },
+    {
+      "epoch": 8.33442088091354,
+      "grad_norm": 0.05580779165029526,
+      "learning_rate": 0.0007243274974186245,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 110360400,
+      "step": 51090
+    },
+    {
+      "epoch": 8.335236541598695,
+      "grad_norm": 0.09825216233730316,
+      "learning_rate": 0.0007242638813795437,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 110371664,
+      "step": 51095
+    },
+    {
+      "epoch": 8.33605220228385,
+      "grad_norm": 0.009273175150156021,
+      "learning_rate": 0.0007242002607954708,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 110383024,
+      "step": 51100
+    },
+    {
+      "epoch": 8.336867862969005,
+      "grad_norm": 0.11133985221385956,
+      "learning_rate": 0.000724136635667695,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 110393808,
+      "step": 51105
+    },
+    {
+      "epoch": 8.33768352365416,
+      "grad_norm": 0.5067927241325378,
+      "learning_rate": 0.0007240730059975063,
+      "loss": 0.123,
+      "num_input_tokens_seen": 110404912,
+      "step": 51110
+    },
+    {
+      "epoch": 8.338499184339314,
+      "grad_norm": 0.008333737030625343,
+      "learning_rate": 0.0007240093717861937,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 110415920,
+      "step": 51115
+    },
+    {
+      "epoch": 8.33931484502447,
+      "grad_norm": 0.007308666128665209,
+      "learning_rate": 0.000723945733035047,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 110426416,
+      "step": 51120
+    },
+    {
+      "epoch": 8.340130505709626,
+      "grad_norm": 0.05521797761321068,
+      "learning_rate": 0.0007238820897453559,
+      "loss": 0.2082,
+      "num_input_tokens_seen": 110438480,
+      "step": 51125
+    },
+    {
+      "epoch": 8.34094616639478,
+      "grad_norm": 0.02290504239499569,
+      "learning_rate": 0.0007238184419184104,
+      "loss": 0.0267,
+      "num_input_tokens_seen": 110449168,
+      "step": 51130
+    },
+    {
+      "epoch": 8.341761827079935,
+      "grad_norm": 0.018945492804050446,
+      "learning_rate": 0.0007237547895555001,
+      "loss": 0.0522,
+      "num_input_tokens_seen": 110459472,
+      "step": 51135
+    },
+    {
+      "epoch": 8.34257748776509,
+      "grad_norm": 0.04555573686957359,
+      "learning_rate": 0.0007236911326579152,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 110469584,
+      "step": 51140
+    },
+    {
+      "epoch": 8.343393148450245,
+      "grad_norm": 0.012672092765569687,
+      "learning_rate": 0.0007236274712269457,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 110479600,
+      "step": 51145
+    },
+    {
+      "epoch": 8.3442088091354,
+      "grad_norm": 0.01710429973900318,
+      "learning_rate": 0.0007235638052638819,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 110491600,
+      "step": 51150
+    },
+    {
+      "epoch": 8.345024469820554,
+      "grad_norm": 0.0054277884773910046,
+      "learning_rate": 0.0007235001347700139,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 110501872,
+      "step": 51155
+    },
+    {
+      "epoch": 8.34584013050571,
+      "grad_norm": 0.018640436232089996,
+      "learning_rate": 0.0007234364597466321,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 110513328,
+      "step": 51160
+    },
+    {
+      "epoch": 8.346655791190864,
+      "grad_norm": 0.05840952321887016,
+      "learning_rate": 0.000723372780195027,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 110524496,
+      "step": 51165
+    },
+    {
+      "epoch": 8.34747145187602,
+      "grad_norm": 0.004298006650060415,
+      "learning_rate": 0.0007233090961164892,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 110535120,
+      "step": 51170
+    },
+    {
+      "epoch": 8.348287112561174,
+      "grad_norm": 0.12360477447509766,
+      "learning_rate": 0.000723245407512309,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 110545712,
+      "step": 51175
+    },
+    {
+      "epoch": 8.34910277324633,
+      "grad_norm": 0.19511815905570984,
+      "learning_rate": 0.0007231817143837778,
+      "loss": 0.051,
+      "num_input_tokens_seen": 110555952,
+      "step": 51180
+    },
+    {
+      "epoch": 8.349918433931485,
+      "grad_norm": 0.002610130002722144,
+      "learning_rate": 0.0007231180167321858,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 110566320,
+      "step": 51185
+    },
+    {
+      "epoch": 8.350734094616639,
+      "grad_norm": 0.17444966733455658,
+      "learning_rate": 0.0007230543145588242,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 110577744,
+      "step": 51190
+    },
+    {
+      "epoch": 8.351549755301795,
+      "grad_norm": 0.22752845287322998,
+      "learning_rate": 0.000722990607864984,
+      "loss": 0.1407,
+      "num_input_tokens_seen": 110589392,
+      "step": 51195
+    },
+    {
+      "epoch": 8.352365415986949,
+      "grad_norm": 0.19195815920829773,
+      "learning_rate": 0.0007229268966519562,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 110600880,
+      "step": 51200
+    },
+    {
+      "epoch": 8.353181076672104,
+      "grad_norm": 0.08895209431648254,
+      "learning_rate": 0.0007228631809210321,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 110611120,
+      "step": 51205
+    },
+    {
+      "epoch": 8.35399673735726,
+      "grad_norm": 0.048343852162361145,
+      "learning_rate": 0.0007227994606735029,
+      "loss": 0.091,
+      "num_input_tokens_seen": 110621584,
+      "step": 51210
+    },
+    {
+      "epoch": 8.354812398042414,
+      "grad_norm": 0.30052274465560913,
+      "learning_rate": 0.0007227357359106598,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 110632656,
+      "step": 51215
+    },
+    {
+      "epoch": 8.35562805872757,
+      "grad_norm": 0.00870759878307581,
+      "learning_rate": 0.0007226720066337946,
+      "loss": 0.0447,
+      "num_input_tokens_seen": 110644208,
+      "step": 51220
+    },
+    {
+      "epoch": 8.356443719412724,
+      "grad_norm": 0.051032643765211105,
+      "learning_rate": 0.0007226082728441989,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 110654832,
+      "step": 51225
+    },
+    {
+      "epoch": 8.35725938009788,
+      "grad_norm": 0.015562736429274082,
+      "learning_rate": 0.0007225445345431638,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 110665648,
+      "step": 51230
+    },
+    {
+      "epoch": 8.358075040783035,
+      "grad_norm": 0.008317803032696247,
+      "learning_rate": 0.0007224807917319817,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 110675280,
+      "step": 51235
+    },
+    {
+      "epoch": 8.358890701468189,
+      "grad_norm": 0.01899358443915844,
+      "learning_rate": 0.000722417044411944,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 110685296,
+      "step": 51240
+    },
+    {
+      "epoch": 8.359706362153345,
+      "grad_norm": 0.009460066445171833,
+      "learning_rate": 0.0007223532925843427,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 110695408,
+      "step": 51245
+    },
+    {
+      "epoch": 8.360522022838499,
+      "grad_norm": 0.02281215600669384,
+      "learning_rate": 0.0007222895362504698,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 110707312,
+      "step": 51250
+    },
+    {
+      "epoch": 8.361337683523654,
+      "grad_norm": 0.1802525818347931,
+      "learning_rate": 0.0007222257754116176,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 110718288,
+      "step": 51255
+    },
+    {
+      "epoch": 8.362153344208808,
+      "grad_norm": 0.011667085811495781,
+      "learning_rate": 0.000722162010069078,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 110728880,
+      "step": 51260
+    },
+    {
+      "epoch": 8.362969004893964,
+      "grad_norm": 0.005664953961968422,
+      "learning_rate": 0.0007220982402241436,
+      "loss": 0.1559,
+      "num_input_tokens_seen": 110741104,
+      "step": 51265
+    },
+    {
+      "epoch": 8.36378466557912,
+      "grad_norm": 0.005667020566761494,
+      "learning_rate": 0.0007220344658781065,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 110751888,
+      "step": 51270
+    },
+    {
+      "epoch": 8.364600326264274,
+      "grad_norm": 0.025366060435771942,
+      "learning_rate": 0.0007219706870322594,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 110762640,
+      "step": 51275
+    },
+    {
+      "epoch": 8.36541598694943,
+      "grad_norm": 0.19890545308589935,
+      "learning_rate": 0.0007219069036878945,
+      "loss": 0.161,
+      "num_input_tokens_seen": 110772912,
+      "step": 51280
+    },
+    {
+      "epoch": 8.366231647634583,
+      "grad_norm": 0.07803814113140106,
+      "learning_rate": 0.0007218431158463048,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 110784592,
+      "step": 51285
+    },
+    {
+      "epoch": 8.367047308319739,
+      "grad_norm": 0.19067999720573425,
+      "learning_rate": 0.000721779323508783,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 110795216,
+      "step": 51290
+    },
+    {
+      "epoch": 8.367862969004895,
+      "grad_norm": 0.43747133016586304,
+      "learning_rate": 0.0007217155266766217,
+      "loss": 0.166,
+      "num_input_tokens_seen": 110805968,
+      "step": 51295
+    },
+    {
+      "epoch": 8.368678629690049,
+      "grad_norm": 0.020700732246041298,
+      "learning_rate": 0.0007216517253511143,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 110816112,
+      "step": 51300
+    },
+    {
+      "epoch": 8.369494290375204,
+      "grad_norm": 0.2714422941207886,
+      "learning_rate": 0.0007215879195335531,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 110826384,
+      "step": 51305
+    },
+    {
+      "epoch": 8.370309951060358,
+      "grad_norm": 0.02906269021332264,
+      "learning_rate": 0.0007215241092252319,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 110835728,
+      "step": 51310
+    },
+    {
+      "epoch": 8.371125611745514,
+      "grad_norm": 0.006266695912927389,
+      "learning_rate": 0.0007214602944274435,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 110846768,
+      "step": 51315
+    },
+    {
+      "epoch": 8.37194127243067,
+      "grad_norm": 0.019487502053380013,
+      "learning_rate": 0.0007213964751414812,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 110856720,
+      "step": 51320
+    },
+    {
+      "epoch": 8.372756933115824,
+      "grad_norm": 0.005166689399629831,
+      "learning_rate": 0.0007213326513686386,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 110867536,
+      "step": 51325
+    },
+    {
+      "epoch": 8.37357259380098,
+      "grad_norm": 0.0032772270496934652,
+      "learning_rate": 0.0007212688231102091,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 110878320,
+      "step": 51330
+    },
+    {
+      "epoch": 8.374388254486133,
+      "grad_norm": 0.022973116487264633,
+      "learning_rate": 0.000721204990367486,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 110888816,
+      "step": 51335
+    },
+    {
+      "epoch": 8.375203915171289,
+      "grad_norm": 0.2152455896139145,
+      "learning_rate": 0.0007211411531417633,
+      "loss": 0.223,
+      "num_input_tokens_seen": 110899792,
+      "step": 51340
+    },
+    {
+      "epoch": 8.376019575856443,
+      "grad_norm": 0.2188149094581604,
+      "learning_rate": 0.0007210773114343345,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 110909584,
+      "step": 51345
+    },
+    {
+      "epoch": 8.376835236541599,
+      "grad_norm": 0.020212259143590927,
+      "learning_rate": 0.0007210134652464935,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 110920752,
+      "step": 51350
+    },
+    {
+      "epoch": 8.377650897226754,
+      "grad_norm": 0.004299887455999851,
+      "learning_rate": 0.0007209496145795343,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 110931248,
+      "step": 51355
+    },
+    {
+      "epoch": 8.378466557911908,
+      "grad_norm": 0.011292368173599243,
+      "learning_rate": 0.000720885759434751,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 110940432,
+      "step": 51360
+    },
+    {
+      "epoch": 8.379282218597064,
+      "grad_norm": 0.017861951142549515,
+      "learning_rate": 0.0007208218998134375,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 110950832,
+      "step": 51365
+    },
+    {
+      "epoch": 8.380097879282218,
+      "grad_norm": 0.02082081325352192,
+      "learning_rate": 0.000720758035716888,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 110960624,
+      "step": 51370
+    },
+    {
+      "epoch": 8.380913539967374,
+      "grad_norm": 0.13963234424591064,
+      "learning_rate": 0.0007206941671463969,
+      "loss": 0.1249,
+      "num_input_tokens_seen": 110969840,
+      "step": 51375
+    },
+    {
+      "epoch": 8.38172920065253,
+      "grad_norm": 0.005206751171499491,
+      "learning_rate": 0.0007206302941032586,
+      "loss": 0.1266,
+      "num_input_tokens_seen": 110981680,
+      "step": 51380
+    },
+    {
+      "epoch": 8.382544861337683,
+      "grad_norm": 0.04112826660275459,
+      "learning_rate": 0.0007205664165887673,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 110992112,
+      "step": 51385
+    },
+    {
+      "epoch": 8.383360522022839,
+      "grad_norm": 0.05072109028697014,
+      "learning_rate": 0.000720502534604218,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 111001616,
+      "step": 51390
+    },
+    {
+      "epoch": 8.384176182707993,
+      "grad_norm": 0.026560001075267792,
+      "learning_rate": 0.0007204386481509049,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 111011568,
+      "step": 51395
+    },
+    {
+      "epoch": 8.384991843393149,
+      "grad_norm": 0.32577085494995117,
+      "learning_rate": 0.0007203747572301231,
+      "loss": 0.1754,
+      "num_input_tokens_seen": 111022128,
+      "step": 51400
+    },
+    {
+      "epoch": 8.385807504078304,
+      "grad_norm": 0.09001737087965012,
+      "learning_rate": 0.0007203108618431672,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 111032496,
+      "step": 51405
+    },
+    {
+      "epoch": 8.386623164763458,
+      "grad_norm": 0.04394825920462608,
+      "learning_rate": 0.0007202469619913322,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 111043216,
+      "step": 51410
+    },
+    {
+      "epoch": 8.387438825448614,
+      "grad_norm": 0.16462813317775726,
+      "learning_rate": 0.0007201830576759132,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 111054032,
+      "step": 51415
+    },
+    {
+      "epoch": 8.388254486133768,
+      "grad_norm": 0.34273892641067505,
+      "learning_rate": 0.0007201191488982051,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 111065072,
+      "step": 51420
+    },
+    {
+      "epoch": 8.389070146818923,
+      "grad_norm": 0.018835965543985367,
+      "learning_rate": 0.0007200552356595031,
+      "loss": 0.1901,
+      "num_input_tokens_seen": 111076208,
+      "step": 51425
+    },
+    {
+      "epoch": 8.38988580750408,
+      "grad_norm": 0.004108819179236889,
+      "learning_rate": 0.0007199913179611029,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 111087728,
+      "step": 51430
+    },
+    {
+      "epoch": 8.390701468189233,
+      "grad_norm": 0.03467337414622307,
+      "learning_rate": 0.0007199273958042994,
+      "loss": 0.1125,
+      "num_input_tokens_seen": 111098928,
+      "step": 51435
+    },
+    {
+      "epoch": 8.391517128874389,
+      "grad_norm": 0.04100308567285538,
+      "learning_rate": 0.0007198634691903882,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 111110320,
+      "step": 51440
+    },
+    {
+      "epoch": 8.392332789559543,
+      "grad_norm": 0.27813297510147095,
+      "learning_rate": 0.0007197995381206649,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 111120112,
+      "step": 51445
+    },
+    {
+      "epoch": 8.393148450244698,
+      "grad_norm": 0.2542005777359009,
+      "learning_rate": 0.0007197356025964252,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 111131568,
+      "step": 51450
+    },
+    {
+      "epoch": 8.393964110929852,
+      "grad_norm": 0.016471102833747864,
+      "learning_rate": 0.0007196716626189646,
+      "loss": 0.0473,
+      "num_input_tokens_seen": 111142992,
+      "step": 51455
+    },
+    {
+      "epoch": 8.394779771615008,
+      "grad_norm": 0.06641436368227005,
+      "learning_rate": 0.0007196077181895792,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 111154512,
+      "step": 51460
+    },
+    {
+      "epoch": 8.395595432300164,
+      "grad_norm": 0.1935798078775406,
+      "learning_rate": 0.0007195437693095647,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 111164304,
+      "step": 51465
+    },
+    {
+      "epoch": 8.396411092985318,
+      "grad_norm": 0.019165636971592903,
+      "learning_rate": 0.0007194798159802174,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 111174832,
+      "step": 51470
+    },
+    {
+      "epoch": 8.397226753670473,
+      "grad_norm": 0.2816579043865204,
+      "learning_rate": 0.0007194158582028332,
+      "loss": 0.2435,
+      "num_input_tokens_seen": 111184496,
+      "step": 51475
+    },
+    {
+      "epoch": 8.398042414355627,
+      "grad_norm": 0.010307567194104195,
+      "learning_rate": 0.0007193518959787081,
+      "loss": 0.1182,
+      "num_input_tokens_seen": 111194672,
+      "step": 51480
+    },
+    {
+      "epoch": 8.398858075040783,
+      "grad_norm": 0.43253281712532043,
+      "learning_rate": 0.0007192879293091386,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 111205328,
+      "step": 51485
+    },
+    {
+      "epoch": 8.399673735725939,
+      "grad_norm": 0.026115600019693375,
+      "learning_rate": 0.000719223958195421,
+      "loss": 0.029,
+      "num_input_tokens_seen": 111216944,
+      "step": 51490
+    },
+    {
+      "epoch": 8.400489396411093,
+      "grad_norm": 0.004687016364187002,
+      "learning_rate": 0.0007191599826388518,
+      "loss": 0.1128,
+      "num_input_tokens_seen": 111228400,
+      "step": 51495
+    },
+    {
+      "epoch": 8.401305057096248,
+      "grad_norm": 0.003850112436339259,
+      "learning_rate": 0.0007190960026407276,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 111239216,
+      "step": 51500
+    },
+    {
+      "epoch": 8.402120717781402,
+      "grad_norm": 0.02196848951280117,
+      "learning_rate": 0.0007190320182023449,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 111249904,
+      "step": 51505
+    },
+    {
+      "epoch": 8.402936378466558,
+      "grad_norm": 0.10487034171819687,
+      "learning_rate": 0.0007189680293250005,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 111261808,
+      "step": 51510
+    },
+    {
+      "epoch": 8.403752039151712,
+      "grad_norm": 0.03270275518298149,
+      "learning_rate": 0.0007189040360099913,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 111273136,
+      "step": 51515
+    },
+    {
+      "epoch": 8.404567699836868,
+      "grad_norm": 0.04307975620031357,
+      "learning_rate": 0.000718840038258614,
+      "loss": 0.03,
+      "num_input_tokens_seen": 111285488,
+      "step": 51520
+    },
+    {
+      "epoch": 8.405383360522023,
+      "grad_norm": 0.05347808450460434,
+      "learning_rate": 0.0007187760360721658,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 111297296,
+      "step": 51525
+    },
+    {
+      "epoch": 8.406199021207177,
+      "grad_norm": 0.046753790229558945,
+      "learning_rate": 0.0007187120294519434,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 111308784,
+      "step": 51530
+    },
+    {
+      "epoch": 8.407014681892333,
+      "grad_norm": 0.016464874148368835,
+      "learning_rate": 0.0007186480183992446,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 111318928,
+      "step": 51535
+    },
+    {
+      "epoch": 8.407830342577487,
+      "grad_norm": 0.022152036428451538,
+      "learning_rate": 0.0007185840029153663,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 111330320,
+      "step": 51540
+    },
+    {
+      "epoch": 8.408646003262643,
+      "grad_norm": 0.06510874629020691,
+      "learning_rate": 0.0007185199830016058,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 111341712,
+      "step": 51545
+    },
+    {
+      "epoch": 8.409461663947798,
+      "grad_norm": 0.39695748686790466,
+      "learning_rate": 0.0007184559586592606,
+      "loss": 0.078,
+      "num_input_tokens_seen": 111352688,
+      "step": 51550
+    },
+    {
+      "epoch": 8.410277324632952,
+      "grad_norm": 0.06608985364437103,
+      "learning_rate": 0.0007183919298896283,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 111364144,
+      "step": 51555
+    },
+    {
+      "epoch": 8.411092985318108,
+      "grad_norm": 0.23177236318588257,
+      "learning_rate": 0.0007183278966940065,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 111374512,
+      "step": 51560
+    },
+    {
+      "epoch": 8.411908646003262,
+      "grad_norm": 0.014381797052919865,
+      "learning_rate": 0.000718263859073693,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 111384592,
+      "step": 51565
+    },
+    {
+      "epoch": 8.412724306688418,
+      "grad_norm": 0.3006967306137085,
+      "learning_rate": 0.0007181998170299854,
+      "loss": 0.1615,
+      "num_input_tokens_seen": 111396112,
+      "step": 51570
+    },
+    {
+      "epoch": 8.413539967373573,
+      "grad_norm": 0.029067158699035645,
+      "learning_rate": 0.0007181357705641818,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 111407920,
+      "step": 51575
+    },
+    {
+      "epoch": 8.414355628058727,
+      "grad_norm": 0.4092482924461365,
+      "learning_rate": 0.0007180717196775799,
+      "loss": 0.157,
+      "num_input_tokens_seen": 111418320,
+      "step": 51580
+    },
+    {
+      "epoch": 8.415171288743883,
+      "grad_norm": 0.02459162473678589,
+      "learning_rate": 0.0007180076643714781,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 111429200,
+      "step": 51585
+    },
+    {
+      "epoch": 8.415986949429037,
+      "grad_norm": 0.03159189224243164,
+      "learning_rate": 0.0007179436046471743,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 111440336,
+      "step": 51590
+    },
+    {
+      "epoch": 8.416802610114193,
+      "grad_norm": 0.2111511081457138,
+      "learning_rate": 0.0007178795405059671,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 111451920,
+      "step": 51595
+    },
+    {
+      "epoch": 8.417618270799348,
+      "grad_norm": 0.2789364457130432,
+      "learning_rate": 0.0007178154719491545,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 111463344,
+      "step": 51600
+    },
+    {
+      "epoch": 8.418433931484502,
+      "grad_norm": 0.06086054444313049,
+      "learning_rate": 0.0007177513989780349,
+      "loss": 0.1239,
+      "num_input_tokens_seen": 111474256,
+      "step": 51605
+    },
+    {
+      "epoch": 8.419249592169658,
+      "grad_norm": 0.019520027562975883,
+      "learning_rate": 0.0007176873215939072,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 111486544,
+      "step": 51610
+    },
+    {
+      "epoch": 8.420065252854812,
+      "grad_norm": 0.14331720769405365,
+      "learning_rate": 0.0007176232397980696,
+      "loss": 0.1271,
+      "num_input_tokens_seen": 111496752,
+      "step": 51615
+    },
+    {
+      "epoch": 8.420880913539968,
+      "grad_norm": 0.0736565813422203,
+      "learning_rate": 0.000717559153591821,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 111507696,
+      "step": 51620
+    },
+    {
+      "epoch": 8.421696574225122,
+      "grad_norm": 0.028831366449594498,
+      "learning_rate": 0.0007174950629764602,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 111517040,
+      "step": 51625
+    },
+    {
+      "epoch": 8.422512234910277,
+      "grad_norm": 0.020894574001431465,
+      "learning_rate": 0.0007174309679532859,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 111527824,
+      "step": 51630
+    },
+    {
+      "epoch": 8.423327895595433,
+      "grad_norm": 0.3167615830898285,
+      "learning_rate": 0.0007173668685235973,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 111538576,
+      "step": 51635
+    },
+    {
+      "epoch": 8.424143556280587,
+      "grad_norm": 0.23885099589824677,
+      "learning_rate": 0.0007173027646886934,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 111548976,
+      "step": 51640
+    },
+    {
+      "epoch": 8.424959216965743,
+      "grad_norm": 0.008945178240537643,
+      "learning_rate": 0.0007172386564498733,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 111560560,
+      "step": 51645
+    },
+    {
+      "epoch": 8.425774877650896,
+      "grad_norm": 0.03208020329475403,
+      "learning_rate": 0.0007171745438084362,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 111571600,
+      "step": 51650
+    },
+    {
+      "epoch": 8.426590538336052,
+      "grad_norm": 0.008227204903960228,
+      "learning_rate": 0.0007171104267656814,
+      "loss": 0.0583,
+      "num_input_tokens_seen": 111583920,
+      "step": 51655
+    },
+    {
+      "epoch": 8.427406199021208,
+      "grad_norm": 0.08085020631551743,
+      "learning_rate": 0.0007170463053229085,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 111593264,
+      "step": 51660
+    },
+    {
+      "epoch": 8.428221859706362,
+      "grad_norm": 0.11244131624698639,
+      "learning_rate": 0.0007169821794814168,
+      "loss": 0.056,
+      "num_input_tokens_seen": 111602416,
+      "step": 51665
+    },
+    {
+      "epoch": 8.429037520391518,
+      "grad_norm": 0.02487485483288765,
+      "learning_rate": 0.000716918049242506,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 111614448,
+      "step": 51670
+    },
+    {
+      "epoch": 8.429853181076671,
+      "grad_norm": 0.01839791052043438,
+      "learning_rate": 0.0007168539146074757,
+      "loss": 0.015,
+      "num_input_tokens_seen": 111625360,
+      "step": 51675
+    },
+    {
+      "epoch": 8.430668841761827,
+      "grad_norm": 0.20842097699642181,
+      "learning_rate": 0.0007167897755776258,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 111636720,
+      "step": 51680
+    },
+    {
+      "epoch": 8.431484502446983,
+      "grad_norm": 0.07622958719730377,
+      "learning_rate": 0.0007167256321542561,
+      "loss": 0.1013,
+      "num_input_tokens_seen": 111647312,
+      "step": 51685
+    },
+    {
+      "epoch": 8.432300163132137,
+      "grad_norm": 0.07612695544958115,
+      "learning_rate": 0.0007166614843386666,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 111657968,
+      "step": 51690
+    },
+    {
+      "epoch": 8.433115823817293,
+      "grad_norm": 0.20850707590579987,
+      "learning_rate": 0.0007165973321321571,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 111669040,
+      "step": 51695
+    },
+    {
+      "epoch": 8.433931484502446,
+      "grad_norm": 0.13440640270709991,
+      "learning_rate": 0.0007165331755360281,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 111680560,
+      "step": 51700
+    },
+    {
+      "epoch": 8.434747145187602,
+      "grad_norm": 0.004296013154089451,
+      "learning_rate": 0.0007164690145515793,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 111691408,
+      "step": 51705
+    },
+    {
+      "epoch": 8.435562805872756,
+      "grad_norm": 0.026044311001896858,
+      "learning_rate": 0.0007164048491801116,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 111701776,
+      "step": 51710
+    },
+    {
+      "epoch": 8.436378466557912,
+      "grad_norm": 0.218144953250885,
+      "learning_rate": 0.0007163406794229249,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 111712880,
+      "step": 51715
+    },
+    {
+      "epoch": 8.437194127243067,
+      "grad_norm": 0.06459010392427444,
+      "learning_rate": 0.0007162765052813199,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 111725520,
+      "step": 51720
+    },
+    {
+      "epoch": 8.438009787928221,
+      "grad_norm": 0.009473503567278385,
+      "learning_rate": 0.0007162123267565972,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 111736240,
+      "step": 51725
+    },
+    {
+      "epoch": 8.438825448613377,
+      "grad_norm": 0.1754245012998581,
+      "learning_rate": 0.0007161481438500574,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 111747632,
+      "step": 51730
+    },
+    {
+      "epoch": 8.439641109298531,
+      "grad_norm": 0.007052075117826462,
+      "learning_rate": 0.0007160839565630014,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 111758224,
+      "step": 51735
+    },
+    {
+      "epoch": 8.440456769983687,
+      "grad_norm": 0.06561672687530518,
+      "learning_rate": 0.0007160197648967298,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 111770096,
+      "step": 51740
+    },
+    {
+      "epoch": 8.441272430668842,
+      "grad_norm": 0.4638075530529022,
+      "learning_rate": 0.0007159555688525434,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 111780560,
+      "step": 51745
+    },
+    {
+      "epoch": 8.442088091353996,
+      "grad_norm": 0.25027647614479065,
+      "learning_rate": 0.0007158913684317437,
+      "loss": 0.118,
+      "num_input_tokens_seen": 111791408,
+      "step": 51750
+    },
+    {
+      "epoch": 8.442903752039152,
+      "grad_norm": 0.010236898437142372,
+      "learning_rate": 0.0007158271636356315,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 111802096,
+      "step": 51755
+    },
+    {
+      "epoch": 8.443719412724306,
+      "grad_norm": 0.021024169400334358,
+      "learning_rate": 0.000715762954465508,
+      "loss": 0.089,
+      "num_input_tokens_seen": 111813136,
+      "step": 51760
+    },
+    {
+      "epoch": 8.444535073409462,
+      "grad_norm": 0.0077271731570363045,
+      "learning_rate": 0.0007156987409226745,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 111824624,
+      "step": 51765
+    },
+    {
+      "epoch": 8.445350734094617,
+      "grad_norm": 0.010105198249220848,
+      "learning_rate": 0.0007156345230084325,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 111834736,
+      "step": 51770
+    },
+    {
+      "epoch": 8.446166394779771,
+      "grad_norm": 0.012942255474627018,
+      "learning_rate": 0.0007155703007240832,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 111846192,
+      "step": 51775
+    },
+    {
+      "epoch": 8.446982055464927,
+      "grad_norm": 0.0030060415156185627,
+      "learning_rate": 0.0007155060740709284,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 111858096,
+      "step": 51780
+    },
+    {
+      "epoch": 8.447797716150081,
+      "grad_norm": 0.04821230471134186,
+      "learning_rate": 0.0007154418430502696,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 111868720,
+      "step": 51785
+    },
+    {
+      "epoch": 8.448613376835237,
+      "grad_norm": 0.005300053860992193,
+      "learning_rate": 0.0007153776076634084,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 111879888,
+      "step": 51790
+    },
+    {
+      "epoch": 8.449429037520392,
+      "grad_norm": 0.05414601042866707,
+      "learning_rate": 0.0007153133679116469,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 111890672,
+      "step": 51795
+    },
+    {
+      "epoch": 8.450244698205546,
+      "grad_norm": 0.09117277711629868,
+      "learning_rate": 0.0007152491237962867,
+      "loss": 0.018,
+      "num_input_tokens_seen": 111901936,
+      "step": 51800
+    },
+    {
+      "epoch": 8.451060358890702,
+      "grad_norm": 0.23480220139026642,
+      "learning_rate": 0.0007151848753186301,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 111912656,
+      "step": 51805
+    },
+    {
+      "epoch": 8.451876019575856,
+      "grad_norm": 0.2549675405025482,
+      "learning_rate": 0.000715120622479979,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 111922448,
+      "step": 51810
+    },
+    {
+      "epoch": 8.452691680261012,
+      "grad_norm": 0.004847115837037563,
+      "learning_rate": 0.0007150563652816355,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 111933200,
+      "step": 51815
+    },
+    {
+      "epoch": 8.453507340946166,
+      "grad_norm": 0.2996913194656372,
+      "learning_rate": 0.0007149921037249021,
+      "loss": 0.2818,
+      "num_input_tokens_seen": 111944048,
+      "step": 51820
+    },
+    {
+      "epoch": 8.454323001631321,
+      "grad_norm": 0.08265216648578644,
+      "learning_rate": 0.0007149278378110808,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 111955184,
+      "step": 51825
+    },
+    {
+      "epoch": 8.455138662316477,
+      "grad_norm": 0.033596016466617584,
+      "learning_rate": 0.0007148635675414743,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 111967632,
+      "step": 51830
+    },
+    {
+      "epoch": 8.455954323001631,
+      "grad_norm": 0.014473401010036469,
+      "learning_rate": 0.000714799292917385,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 111978160,
+      "step": 51835
+    },
+    {
+      "epoch": 8.456769983686787,
+      "grad_norm": 0.10292612016201019,
+      "learning_rate": 0.0007147350139401156,
+      "loss": 0.024,
+      "num_input_tokens_seen": 111988688,
+      "step": 51840
+    },
+    {
+      "epoch": 8.45758564437194,
+      "grad_norm": 0.011349059641361237,
+      "learning_rate": 0.0007146707306109687,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 111999024,
+      "step": 51845
+    },
+    {
+      "epoch": 8.458401305057096,
+      "grad_norm": 0.07083631306886673,
+      "learning_rate": 0.000714606442931247,
+      "loss": 0.039,
+      "num_input_tokens_seen": 112010544,
+      "step": 51850
+    },
+    {
+      "epoch": 8.459216965742252,
+      "grad_norm": 0.0234207920730114,
+      "learning_rate": 0.0007145421509022536,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 112021456,
+      "step": 51855
+    },
+    {
+      "epoch": 8.460032626427406,
+      "grad_norm": 0.10967404395341873,
+      "learning_rate": 0.0007144778545252914,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 112032528,
+      "step": 51860
+    },
+    {
+      "epoch": 8.460848287112562,
+      "grad_norm": 0.04319612681865692,
+      "learning_rate": 0.0007144135538016633,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 112043376,
+      "step": 51865
+    },
+    {
+      "epoch": 8.461663947797716,
+      "grad_norm": 0.02937161736190319,
+      "learning_rate": 0.0007143492487326726,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 112054928,
+      "step": 51870
+    },
+    {
+      "epoch": 8.462479608482871,
+      "grad_norm": 0.04233347997069359,
+      "learning_rate": 0.0007142849393196223,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 112066352,
+      "step": 51875
+    },
+    {
+      "epoch": 8.463295269168025,
+      "grad_norm": 0.003394125262275338,
+      "learning_rate": 0.000714220625563816,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 112077584,
+      "step": 51880
+    },
+    {
+      "epoch": 8.464110929853181,
+      "grad_norm": 0.20848369598388672,
+      "learning_rate": 0.0007141563074665571,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 112088560,
+      "step": 51885
+    },
+    {
+      "epoch": 8.464926590538337,
+      "grad_norm": 0.2927113175392151,
+      "learning_rate": 0.0007140919850291488,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 112099696,
+      "step": 51890
+    },
+    {
+      "epoch": 8.46574225122349,
+      "grad_norm": 0.18456770479679108,
+      "learning_rate": 0.0007140276582528947,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 112111728,
+      "step": 51895
+    },
+    {
+      "epoch": 8.466557911908646,
+      "grad_norm": 0.01184168178588152,
+      "learning_rate": 0.0007139633271390988,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 112121904,
+      "step": 51900
+    },
+    {
+      "epoch": 8.4673735725938,
+      "grad_norm": 0.01245115976780653,
+      "learning_rate": 0.0007138989916890644,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 112133168,
+      "step": 51905
+    },
+    {
+      "epoch": 8.468189233278956,
+      "grad_norm": 0.003608755301684141,
+      "learning_rate": 0.0007138346519040959,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 112144176,
+      "step": 51910
+    },
+    {
+      "epoch": 8.469004893964112,
+      "grad_norm": 0.017230842262506485,
+      "learning_rate": 0.0007137703077854967,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 112155664,
+      "step": 51915
+    },
+    {
+      "epoch": 8.469820554649266,
+      "grad_norm": 0.00256637716665864,
+      "learning_rate": 0.0007137059593345711,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 112167184,
+      "step": 51920
+    },
+    {
+      "epoch": 8.470636215334421,
+      "grad_norm": 0.00391194224357605,
+      "learning_rate": 0.0007136416065526231,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 112177936,
+      "step": 51925
+    },
+    {
+      "epoch": 8.471451876019575,
+      "grad_norm": 0.07863806933164597,
+      "learning_rate": 0.0007135772494409569,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 112189520,
+      "step": 51930
+    },
+    {
+      "epoch": 8.47226753670473,
+      "grad_norm": 0.004654384218156338,
+      "learning_rate": 0.0007135128880008768,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 112199984,
+      "step": 51935
+    },
+    {
+      "epoch": 8.473083197389887,
+      "grad_norm": 0.0199937354773283,
+      "learning_rate": 0.0007134485222336873,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 112210704,
+      "step": 51940
+    },
+    {
+      "epoch": 8.47389885807504,
+      "grad_norm": 0.302824467420578,
+      "learning_rate": 0.0007133841521406925,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 112222224,
+      "step": 51945
+    },
+    {
+      "epoch": 8.474714518760196,
+      "grad_norm": 0.017630685120821,
+      "learning_rate": 0.0007133197777231973,
+      "loss": 0.014,
+      "num_input_tokens_seen": 112233456,
+      "step": 51950
+    },
+    {
+      "epoch": 8.47553017944535,
+      "grad_norm": 0.11950056254863739,
+      "learning_rate": 0.0007132553989825061,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 112244720,
+      "step": 51955
+    },
+    {
+      "epoch": 8.476345840130506,
+      "grad_norm": 0.0019255392253398895,
+      "learning_rate": 0.0007131910159199238,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 112253680,
+      "step": 51960
+    },
+    {
+      "epoch": 8.477161500815662,
+      "grad_norm": 0.002990216948091984,
+      "learning_rate": 0.000713126628536755,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 112264144,
+      "step": 51965
+    },
+    {
+      "epoch": 8.477977161500815,
+      "grad_norm": 0.009614250622689724,
+      "learning_rate": 0.0007130622368343048,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 112275088,
+      "step": 51970
+    },
+    {
+      "epoch": 8.478792822185971,
+      "grad_norm": 0.2912578284740448,
+      "learning_rate": 0.000712997840813878,
+      "loss": 0.1088,
+      "num_input_tokens_seen": 112284944,
+      "step": 51975
+    },
+    {
+      "epoch": 8.479608482871125,
+      "grad_norm": 0.021116318181157112,
+      "learning_rate": 0.0007129334404767797,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 112296336,
+      "step": 51980
+    },
+    {
+      "epoch": 8.48042414355628,
+      "grad_norm": 0.30992650985717773,
+      "learning_rate": 0.0007128690358243153,
+      "loss": 0.127,
+      "num_input_tokens_seen": 112307248,
+      "step": 51985
+    },
+    {
+      "epoch": 8.481239804241435,
+      "grad_norm": 0.2787032425403595,
+      "learning_rate": 0.0007128046268577898,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 112318672,
+      "step": 51990
+    },
+    {
+      "epoch": 8.48205546492659,
+      "grad_norm": 0.016766250133514404,
+      "learning_rate": 0.0007127402135785086,
+      "loss": 0.022,
+      "num_input_tokens_seen": 112329648,
+      "step": 51995
+    },
+    {
+      "epoch": 8.482871125611746,
+      "grad_norm": 0.006805556360632181,
+      "learning_rate": 0.000712675795987777,
+      "loss": 0.1846,
+      "num_input_tokens_seen": 112340816,
+      "step": 52000
+    },
+    {
+      "epoch": 8.4836867862969,
+      "grad_norm": 0.3869755268096924,
+      "learning_rate": 0.0007126113740869006,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 112351344,
+      "step": 52005
+    },
+    {
+      "epoch": 8.484502446982056,
+      "grad_norm": 0.026312250643968582,
+      "learning_rate": 0.000712546947877185,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 112361456,
+      "step": 52010
+    },
+    {
+      "epoch": 8.48531810766721,
+      "grad_norm": 0.01061819028109312,
+      "learning_rate": 0.0007124825173599359,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 112374352,
+      "step": 52015
+    },
+    {
+      "epoch": 8.486133768352365,
+      "grad_norm": 0.004045186098664999,
+      "learning_rate": 0.000712418082536459,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 112385520,
+      "step": 52020
+    },
+    {
+      "epoch": 8.486949429037521,
+      "grad_norm": 0.004907793365418911,
+      "learning_rate": 0.0007123536434080602,
+      "loss": 0.156,
+      "num_input_tokens_seen": 112395312,
+      "step": 52025
+    },
+    {
+      "epoch": 8.487765089722675,
+      "grad_norm": 0.04804065078496933,
+      "learning_rate": 0.0007122891999760454,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 112406192,
+      "step": 52030
+    },
+    {
+      "epoch": 8.48858075040783,
+      "grad_norm": 0.15240783989429474,
+      "learning_rate": 0.0007122247522417206,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 112417840,
+      "step": 52035
+    },
+    {
+      "epoch": 8.489396411092985,
+      "grad_norm": 0.14023399353027344,
+      "learning_rate": 0.0007121603002063921,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 112427760,
+      "step": 52040
+    },
+    {
+      "epoch": 8.49021207177814,
+      "grad_norm": 0.3805373013019562,
+      "learning_rate": 0.000712095843871366,
+      "loss": 0.119,
+      "num_input_tokens_seen": 112438768,
+      "step": 52045
+    },
+    {
+      "epoch": 8.491027732463296,
+      "grad_norm": 0.065114825963974,
+      "learning_rate": 0.0007120313832379483,
+      "loss": 0.1752,
+      "num_input_tokens_seen": 112449840,
+      "step": 52050
+    },
+    {
+      "epoch": 8.49184339314845,
+      "grad_norm": 0.42016083002090454,
+      "learning_rate": 0.000711966918307446,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 112460272,
+      "step": 52055
+    },
+    {
+      "epoch": 8.492659053833606,
+      "grad_norm": 0.023709211498498917,
+      "learning_rate": 0.000711902449081165,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 112471056,
+      "step": 52060
+    },
+    {
+      "epoch": 8.49347471451876,
+      "grad_norm": 0.0041375719010829926,
+      "learning_rate": 0.000711837975560412,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 112481584,
+      "step": 52065
+    },
+    {
+      "epoch": 8.494290375203915,
+      "grad_norm": 0.18444637954235077,
+      "learning_rate": 0.0007117734977464937,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 112493040,
+      "step": 52070
+    },
+    {
+      "epoch": 8.49510603588907,
+      "grad_norm": 0.20939184725284576,
+      "learning_rate": 0.0007117090156407168,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 112502960,
+      "step": 52075
+    },
+    {
+      "epoch": 8.495921696574225,
+      "grad_norm": 0.0033792341127991676,
+      "learning_rate": 0.0007116445292443883,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 112513968,
+      "step": 52080
+    },
+    {
+      "epoch": 8.49673735725938,
+      "grad_norm": 0.010220236144959927,
+      "learning_rate": 0.0007115800385588148,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 112525040,
+      "step": 52085
+    },
+    {
+      "epoch": 8.497553017944535,
+      "grad_norm": 0.2910071015357971,
+      "learning_rate": 0.0007115155435853034,
+      "loss": 0.1471,
+      "num_input_tokens_seen": 112536944,
+      "step": 52090
+    },
+    {
+      "epoch": 8.49836867862969,
+      "grad_norm": 0.009880652651190758,
+      "learning_rate": 0.0007114510443251613,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 112547888,
+      "step": 52095
+    },
+    {
+      "epoch": 8.499184339314844,
+      "grad_norm": 0.039387013763189316,
+      "learning_rate": 0.0007113865407796955,
+      "loss": 0.2248,
+      "num_input_tokens_seen": 112557264,
+      "step": 52100
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 0.007032784633338451,
+      "learning_rate": 0.0007113220329502131,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 112568496,
+      "step": 52105
+    },
+    {
+      "epoch": 8.500815660685156,
+      "grad_norm": 0.0679621696472168,
+      "learning_rate": 0.0007112575208380219,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 112578832,
+      "step": 52110
+    },
+    {
+      "epoch": 8.50163132137031,
+      "grad_norm": 0.01735229603946209,
+      "learning_rate": 0.0007111930044444288,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 112590224,
+      "step": 52115
+    },
+    {
+      "epoch": 8.502446982055465,
+      "grad_norm": 0.014939922839403152,
+      "learning_rate": 0.0007111284837707416,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 112601808,
+      "step": 52120
+    },
+    {
+      "epoch": 8.50326264274062,
+      "grad_norm": 0.012377532199025154,
+      "learning_rate": 0.0007110639588182679,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 112611856,
+      "step": 52125
+    },
+    {
+      "epoch": 8.504078303425775,
+      "grad_norm": 0.7738260626792908,
+      "learning_rate": 0.0007109994295883154,
+      "loss": 0.135,
+      "num_input_tokens_seen": 112621648,
+      "step": 52130
+    },
+    {
+      "epoch": 8.50489396411093,
+      "grad_norm": 0.114794060587883,
+      "learning_rate": 0.0007109348960821916,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 112631472,
+      "step": 52135
+    },
+    {
+      "epoch": 8.505709624796085,
+      "grad_norm": 0.12063523381948471,
+      "learning_rate": 0.0007108703583012047,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 112641104,
+      "step": 52140
+    },
+    {
+      "epoch": 8.50652528548124,
+      "grad_norm": 0.035221684724092484,
+      "learning_rate": 0.0007108058162466624,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 112651984,
+      "step": 52145
+    },
+    {
+      "epoch": 8.507340946166394,
+      "grad_norm": 0.3090044856071472,
+      "learning_rate": 0.0007107412699198729,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 112662288,
+      "step": 52150
+    },
+    {
+      "epoch": 8.50815660685155,
+      "grad_norm": 0.21309930086135864,
+      "learning_rate": 0.0007106767193221442,
+      "loss": 0.0886,
+      "num_input_tokens_seen": 112674160,
+      "step": 52155
+    },
+    {
+      "epoch": 8.508972267536706,
+      "grad_norm": 0.028279351070523262,
+      "learning_rate": 0.0007106121644547844,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 112685200,
+      "step": 52160
+    },
+    {
+      "epoch": 8.50978792822186,
+      "grad_norm": 0.962195634841919,
+      "learning_rate": 0.000710547605319102,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 112695600,
+      "step": 52165
+    },
+    {
+      "epoch": 8.510603588907015,
+      "grad_norm": 0.06181253492832184,
+      "learning_rate": 0.0007104830419164052,
+      "loss": 0.1228,
+      "num_input_tokens_seen": 112708304,
+      "step": 52170
+    },
+    {
+      "epoch": 8.51141924959217,
+      "grad_norm": 0.13785938918590546,
+      "learning_rate": 0.0007104184742480025,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 112718672,
+      "step": 52175
+    },
+    {
+      "epoch": 8.512234910277325,
+      "grad_norm": 0.001226426218636334,
+      "learning_rate": 0.0007103539023152025,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 112728304,
+      "step": 52180
+    },
+    {
+      "epoch": 8.513050570962479,
+      "grad_norm": 0.007094322703778744,
+      "learning_rate": 0.0007102893261193141,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 112738288,
+      "step": 52185
+    },
+    {
+      "epoch": 8.513866231647635,
+      "grad_norm": 0.08791056275367737,
+      "learning_rate": 0.0007102247456616456,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 112749008,
+      "step": 52190
+    },
+    {
+      "epoch": 8.51468189233279,
+      "grad_norm": 0.1945263296365738,
+      "learning_rate": 0.0007101601609435057,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 112759472,
+      "step": 52195
+    },
+    {
+      "epoch": 8.515497553017944,
+      "grad_norm": 0.17970463633537292,
+      "learning_rate": 0.0007100955719662038,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 112770928,
+      "step": 52200
+    },
+    {
+      "epoch": 8.5163132137031,
+      "grad_norm": 0.13630010187625885,
+      "learning_rate": 0.0007100309787310485,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 112780784,
+      "step": 52205
+    },
+    {
+      "epoch": 8.517128874388254,
+      "grad_norm": 0.008806428872048855,
+      "learning_rate": 0.0007099663812393489,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 112792528,
+      "step": 52210
+    },
+    {
+      "epoch": 8.51794453507341,
+      "grad_norm": 0.5296904444694519,
+      "learning_rate": 0.0007099017794924144,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 112804496,
+      "step": 52215
+    },
+    {
+      "epoch": 8.518760195758565,
+      "grad_norm": 0.014076504856348038,
+      "learning_rate": 0.000709837173491554,
+      "loss": 0.023,
+      "num_input_tokens_seen": 112815472,
+      "step": 52220
+    },
+    {
+      "epoch": 8.51957585644372,
+      "grad_norm": 0.010113160125911236,
+      "learning_rate": 0.0007097725632380771,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 112826288,
+      "step": 52225
+    },
+    {
+      "epoch": 8.520391517128875,
+      "grad_norm": 0.05956968665122986,
+      "learning_rate": 0.0007097079487332931,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 112837072,
+      "step": 52230
+    },
+    {
+      "epoch": 8.521207177814029,
+      "grad_norm": 0.013660747557878494,
+      "learning_rate": 0.0007096433299785113,
+      "loss": 0.023,
+      "num_input_tokens_seen": 112846736,
+      "step": 52235
+    },
+    {
+      "epoch": 8.522022838499185,
+      "grad_norm": 0.03401073068380356,
+      "learning_rate": 0.0007095787069750416,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 112858864,
+      "step": 52240
+    },
+    {
+      "epoch": 8.522838499184338,
+      "grad_norm": 0.00827324390411377,
+      "learning_rate": 0.0007095140797241936,
+      "loss": 0.041,
+      "num_input_tokens_seen": 112870032,
+      "step": 52245
+    },
+    {
+      "epoch": 8.523654159869494,
+      "grad_norm": 0.005122459959238768,
+      "learning_rate": 0.0007094494482272768,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 112880016,
+      "step": 52250
+    },
+    {
+      "epoch": 8.52446982055465,
+      "grad_norm": 0.22027291357517242,
+      "learning_rate": 0.0007093848124856014,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 112890576,
+      "step": 52255
+    },
+    {
+      "epoch": 8.525285481239804,
+      "grad_norm": 0.08939344435930252,
+      "learning_rate": 0.000709320172500477,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 112899920,
+      "step": 52260
+    },
+    {
+      "epoch": 8.52610114192496,
+      "grad_norm": 0.13552896678447723,
+      "learning_rate": 0.0007092555282732139,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 112911696,
+      "step": 52265
+    },
+    {
+      "epoch": 8.526916802610113,
+      "grad_norm": 0.034195221960544586,
+      "learning_rate": 0.000709190879805122,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 112922608,
+      "step": 52270
+    },
+    {
+      "epoch": 8.52773246329527,
+      "grad_norm": 0.003045213408768177,
+      "learning_rate": 0.0007091262270975116,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 112931952,
+      "step": 52275
+    },
+    {
+      "epoch": 8.528548123980425,
+      "grad_norm": 0.009350604377686977,
+      "learning_rate": 0.0007090615701516929,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 112942608,
+      "step": 52280
+    },
+    {
+      "epoch": 8.529363784665579,
+      "grad_norm": 0.00833084899932146,
+      "learning_rate": 0.0007089969089689761,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 112953616,
+      "step": 52285
+    },
+    {
+      "epoch": 8.530179445350734,
+      "grad_norm": 0.04479145631194115,
+      "learning_rate": 0.0007089322435506719,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 112964624,
+      "step": 52290
+    },
+    {
+      "epoch": 8.530995106035888,
+      "grad_norm": 0.34924301505088806,
+      "learning_rate": 0.0007088675738980909,
+      "loss": 0.142,
+      "num_input_tokens_seen": 112973936,
+      "step": 52295
+    },
+    {
+      "epoch": 8.531810766721044,
+      "grad_norm": 0.0031820894218981266,
+      "learning_rate": 0.0007088029000125435,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 112983408,
+      "step": 52300
+    },
+    {
+      "epoch": 8.5326264274062,
+      "grad_norm": 0.011126089841127396,
+      "learning_rate": 0.0007087382218953403,
+      "loss": 0.069,
+      "num_input_tokens_seen": 112994384,
+      "step": 52305
+    },
+    {
+      "epoch": 8.533442088091354,
+      "grad_norm": 0.7672825455665588,
+      "learning_rate": 0.0007086735395477923,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 113003632,
+      "step": 52310
+    },
+    {
+      "epoch": 8.53425774877651,
+      "grad_norm": 0.019653482362627983,
+      "learning_rate": 0.0007086088529712103,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 113013584,
+      "step": 52315
+    },
+    {
+      "epoch": 8.535073409461663,
+      "grad_norm": 0.068137988448143,
+      "learning_rate": 0.0007085441621669053,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 113024432,
+      "step": 52320
+    },
+    {
+      "epoch": 8.535889070146819,
+      "grad_norm": 0.4487306475639343,
+      "learning_rate": 0.0007084794671361883,
+      "loss": 0.0535,
+      "num_input_tokens_seen": 113034640,
+      "step": 52325
+    },
+    {
+      "epoch": 8.536704730831975,
+      "grad_norm": 0.006371349096298218,
+      "learning_rate": 0.0007084147678803703,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 113044816,
+      "step": 52330
+    },
+    {
+      "epoch": 8.537520391517129,
+      "grad_norm": 0.2185864895582199,
+      "learning_rate": 0.0007083500644007628,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 113055152,
+      "step": 52335
+    },
+    {
+      "epoch": 8.538336052202284,
+      "grad_norm": 0.06938138604164124,
+      "learning_rate": 0.0007082853566986769,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 113066608,
+      "step": 52340
+    },
+    {
+      "epoch": 8.539151712887438,
+      "grad_norm": 0.3545314371585846,
+      "learning_rate": 0.0007082206447754239,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 113076944,
+      "step": 52345
+    },
+    {
+      "epoch": 8.539967373572594,
+      "grad_norm": 0.033213697373867035,
+      "learning_rate": 0.0007081559286323155,
+      "loss": 0.03,
+      "num_input_tokens_seen": 113088240,
+      "step": 52350
+    },
+    {
+      "epoch": 8.540783034257748,
+      "grad_norm": 0.0024236650206148624,
+      "learning_rate": 0.0007080912082706631,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 113100688,
+      "step": 52355
+    },
+    {
+      "epoch": 8.541598694942904,
+      "grad_norm": 0.01018419861793518,
+      "learning_rate": 0.0007080264836917783,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 113110352,
+      "step": 52360
+    },
+    {
+      "epoch": 8.54241435562806,
+      "grad_norm": 0.002987699583172798,
+      "learning_rate": 0.000707961754896973,
+      "loss": 0.2497,
+      "num_input_tokens_seen": 113120048,
+      "step": 52365
+    },
+    {
+      "epoch": 8.543230016313213,
+      "grad_norm": 0.011956961825489998,
+      "learning_rate": 0.0007078970218875589,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 113130960,
+      "step": 52370
+    },
+    {
+      "epoch": 8.544045676998369,
+      "grad_norm": 0.06541749089956284,
+      "learning_rate": 0.0007078322846648479,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 113142192,
+      "step": 52375
+    },
+    {
+      "epoch": 8.544861337683523,
+      "grad_norm": 0.27652621269226074,
+      "learning_rate": 0.0007077675432301521,
+      "loss": 0.1562,
+      "num_input_tokens_seen": 113154256,
+      "step": 52380
+    },
+    {
+      "epoch": 8.545676998368679,
+      "grad_norm": 0.27194124460220337,
+      "learning_rate": 0.0007077027975847833,
+      "loss": 0.2258,
+      "num_input_tokens_seen": 113166640,
+      "step": 52385
+    },
+    {
+      "epoch": 8.546492659053834,
+      "grad_norm": 0.18163374066352844,
+      "learning_rate": 0.0007076380477300539,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 113177744,
+      "step": 52390
+    },
+    {
+      "epoch": 8.547308319738988,
+      "grad_norm": 0.26939302682876587,
+      "learning_rate": 0.0007075732936672761,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 113188688,
+      "step": 52395
+    },
+    {
+      "epoch": 8.548123980424144,
+      "grad_norm": 0.007374065462499857,
+      "learning_rate": 0.0007075085353977622,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 113198704,
+      "step": 52400
+    },
+    {
+      "epoch": 8.548939641109298,
+      "grad_norm": 0.19838181138038635,
+      "learning_rate": 0.0007074437729228245,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 113209296,
+      "step": 52405
+    },
+    {
+      "epoch": 8.549755301794454,
+      "grad_norm": 0.021237578243017197,
+      "learning_rate": 0.0007073790062437755,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 113218896,
+      "step": 52410
+    },
+    {
+      "epoch": 8.550570962479608,
+      "grad_norm": 0.0337057039141655,
+      "learning_rate": 0.000707314235361928,
+      "loss": 0.058,
+      "num_input_tokens_seen": 113229520,
+      "step": 52415
+    },
+    {
+      "epoch": 8.551386623164763,
+      "grad_norm": 0.07322728633880615,
+      "learning_rate": 0.0007072494602785945,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 113240048,
+      "step": 52420
+    },
+    {
+      "epoch": 8.552202283849919,
+      "grad_norm": 0.42627814412117004,
+      "learning_rate": 0.0007071846809950878,
+      "loss": 0.144,
+      "num_input_tokens_seen": 113251984,
+      "step": 52425
+    },
+    {
+      "epoch": 8.553017944535073,
+      "grad_norm": 0.02343291975557804,
+      "learning_rate": 0.0007071198975127206,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 113262512,
+      "step": 52430
+    },
+    {
+      "epoch": 8.553833605220229,
+      "grad_norm": 0.008681093342602253,
+      "learning_rate": 0.000707055109832806,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 113274768,
+      "step": 52435
+    },
+    {
+      "epoch": 8.554649265905383,
+      "grad_norm": 0.03344331681728363,
+      "learning_rate": 0.0007069903179566569,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 113286512,
+      "step": 52440
+    },
+    {
+      "epoch": 8.555464926590538,
+      "grad_norm": 0.015263247303664684,
+      "learning_rate": 0.0007069255218855865,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 113296944,
+      "step": 52445
+    },
+    {
+      "epoch": 8.556280587275694,
+      "grad_norm": 0.008519859984517097,
+      "learning_rate": 0.0007068607216209078,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 113307760,
+      "step": 52450
+    },
+    {
+      "epoch": 8.557096247960848,
+      "grad_norm": 0.1599939614534378,
+      "learning_rate": 0.0007067959171639342,
+      "loss": 0.1706,
+      "num_input_tokens_seen": 113317776,
+      "step": 52455
+    },
+    {
+      "epoch": 8.557911908646004,
+      "grad_norm": 0.027809320017695427,
+      "learning_rate": 0.000706731108515979,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 113328912,
+      "step": 52460
+    },
+    {
+      "epoch": 8.558727569331158,
+      "grad_norm": 0.10448624938726425,
+      "learning_rate": 0.0007066662956783556,
+      "loss": 0.035,
+      "num_input_tokens_seen": 113339056,
+      "step": 52465
+    },
+    {
+      "epoch": 8.559543230016313,
+      "grad_norm": 0.010518464259803295,
+      "learning_rate": 0.0007066014786523776,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 113349488,
+      "step": 52470
+    },
+    {
+      "epoch": 8.560358890701469,
+      "grad_norm": 0.23149004578590393,
+      "learning_rate": 0.0007065366574393585,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 113361616,
+      "step": 52475
+    },
+    {
+      "epoch": 8.561174551386623,
+      "grad_norm": 0.009577560238540173,
+      "learning_rate": 0.000706471832040612,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 113371728,
+      "step": 52480
+    },
+    {
+      "epoch": 8.561990212071779,
+      "grad_norm": 0.03113245777785778,
+      "learning_rate": 0.000706407002457452,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 113383280,
+      "step": 52485
+    },
+    {
+      "epoch": 8.562805872756933,
+      "grad_norm": 0.18912045657634735,
+      "learning_rate": 0.0007063421686911921,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 113394160,
+      "step": 52490
+    },
+    {
+      "epoch": 8.563621533442088,
+      "grad_norm": 0.2634306848049164,
+      "learning_rate": 0.0007062773307431465,
+      "loss": 0.1875,
+      "num_input_tokens_seen": 113405552,
+      "step": 52495
+    },
+    {
+      "epoch": 8.564437194127244,
+      "grad_norm": 0.33455103635787964,
+      "learning_rate": 0.000706212488614629,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 113415920,
+      "step": 52500
+    },
+    {
+      "epoch": 8.565252854812398,
+      "grad_norm": 0.00712059810757637,
+      "learning_rate": 0.0007061476423069539,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 113427088,
+      "step": 52505
+    },
+    {
+      "epoch": 8.566068515497554,
+      "grad_norm": 0.1418961137533188,
+      "learning_rate": 0.0007060827918214353,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 113438032,
+      "step": 52510
+    },
+    {
+      "epoch": 8.566884176182707,
+      "grad_norm": 0.0014664334012195468,
+      "learning_rate": 0.0007060179371593876,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 113449424,
+      "step": 52515
+    },
+    {
+      "epoch": 8.567699836867863,
+      "grad_norm": 0.25699958205223083,
+      "learning_rate": 0.0007059530783221249,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 113461232,
+      "step": 52520
+    },
+    {
+      "epoch": 8.568515497553017,
+      "grad_norm": 0.006246160715818405,
+      "learning_rate": 0.0007058882153109618,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 113472432,
+      "step": 52525
+    },
+    {
+      "epoch": 8.569331158238173,
+      "grad_norm": 0.021962016820907593,
+      "learning_rate": 0.000705823348127213,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 113482640,
+      "step": 52530
+    },
+    {
+      "epoch": 8.570146818923329,
+      "grad_norm": 0.004425059538334608,
+      "learning_rate": 0.0007057584767721927,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 113492464,
+      "step": 52535
+    },
+    {
+      "epoch": 8.570962479608482,
+      "grad_norm": 0.003864873433485627,
+      "learning_rate": 0.000705693601247216,
+      "loss": 0.1789,
+      "num_input_tokens_seen": 113503152,
+      "step": 52540
+    },
+    {
+      "epoch": 8.571778140293638,
+      "grad_norm": 0.006510365754365921,
+      "learning_rate": 0.0007056287215535976,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 113514416,
+      "step": 52545
+    },
+    {
+      "epoch": 8.572593800978792,
+      "grad_norm": 0.189361110329628,
+      "learning_rate": 0.0007055638376926522,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 113525808,
+      "step": 52550
+    },
+    {
+      "epoch": 8.573409461663948,
+      "grad_norm": 0.03475072607398033,
+      "learning_rate": 0.0007054989496656949,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 113536880,
+      "step": 52555
+    },
+    {
+      "epoch": 8.574225122349104,
+      "grad_norm": 0.0047148847952485085,
+      "learning_rate": 0.0007054340574740405,
+      "loss": 0.021,
+      "num_input_tokens_seen": 113549200,
+      "step": 52560
+    },
+    {
+      "epoch": 8.575040783034257,
+      "grad_norm": 0.2840512990951538,
+      "learning_rate": 0.0007053691611190045,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 113559824,
+      "step": 52565
+    },
+    {
+      "epoch": 8.575856443719413,
+      "grad_norm": 0.14973792433738708,
+      "learning_rate": 0.0007053042606019017,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 113571056,
+      "step": 52570
+    },
+    {
+      "epoch": 8.576672104404567,
+      "grad_norm": 0.002990563167259097,
+      "learning_rate": 0.0007052393559240479,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 113581840,
+      "step": 52575
+    },
+    {
+      "epoch": 8.577487765089723,
+      "grad_norm": 0.004023312591016293,
+      "learning_rate": 0.0007051744470867581,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 113593392,
+      "step": 52580
+    },
+    {
+      "epoch": 8.578303425774878,
+      "grad_norm": 0.23519225418567657,
+      "learning_rate": 0.0007051095340913478,
+      "loss": 0.2013,
+      "num_input_tokens_seen": 113604624,
+      "step": 52585
+    },
+    {
+      "epoch": 8.579119086460032,
+      "grad_norm": 0.17504338920116425,
+      "learning_rate": 0.0007050446169391326,
+      "loss": 0.1504,
+      "num_input_tokens_seen": 113615920,
+      "step": 52590
+    },
+    {
+      "epoch": 8.579934747145188,
+      "grad_norm": 0.035556066781282425,
+      "learning_rate": 0.0007049796956314281,
+      "loss": 0.046,
+      "num_input_tokens_seen": 113625840,
+      "step": 52595
+    },
+    {
+      "epoch": 8.580750407830342,
+      "grad_norm": 0.014154000207781792,
+      "learning_rate": 0.00070491477016955,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 113636784,
+      "step": 52600
+    },
+    {
+      "epoch": 8.581566068515498,
+      "grad_norm": 0.03693210706114769,
+      "learning_rate": 0.0007048498405548142,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 113647920,
+      "step": 52605
+    },
+    {
+      "epoch": 8.582381729200652,
+      "grad_norm": 0.03940049931406975,
+      "learning_rate": 0.0007047849067885366,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 113658288,
+      "step": 52610
+    },
+    {
+      "epoch": 8.583197389885807,
+      "grad_norm": 0.012887493707239628,
+      "learning_rate": 0.000704719968872033,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 113668368,
+      "step": 52615
+    },
+    {
+      "epoch": 8.584013050570963,
+      "grad_norm": 0.05204826593399048,
+      "learning_rate": 0.0007046550268066194,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 113678288,
+      "step": 52620
+    },
+    {
+      "epoch": 8.584828711256117,
+      "grad_norm": 0.22619600594043732,
+      "learning_rate": 0.0007045900805936122,
+      "loss": 0.1762,
+      "num_input_tokens_seen": 113689392,
+      "step": 52625
+    },
+    {
+      "epoch": 8.585644371941273,
+      "grad_norm": 0.160128653049469,
+      "learning_rate": 0.0007045251302343276,
+      "loss": 0.1142,
+      "num_input_tokens_seen": 113700016,
+      "step": 52630
+    },
+    {
+      "epoch": 8.586460032626427,
+      "grad_norm": 0.01484632957726717,
+      "learning_rate": 0.0007044601757300815,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 113712048,
+      "step": 52635
+    },
+    {
+      "epoch": 8.587275693311582,
+      "grad_norm": 0.0061071184463799,
+      "learning_rate": 0.0007043952170821907,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 113722512,
+      "step": 52640
+    },
+    {
+      "epoch": 8.588091353996738,
+      "grad_norm": 0.023335954174399376,
+      "learning_rate": 0.0007043302542919715,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 113732784,
+      "step": 52645
+    },
+    {
+      "epoch": 8.588907014681892,
+      "grad_norm": 0.21892686188220978,
+      "learning_rate": 0.0007042652873607405,
+      "loss": 0.1033,
+      "num_input_tokens_seen": 113742960,
+      "step": 52650
+    },
+    {
+      "epoch": 8.589722675367048,
+      "grad_norm": 0.008176966570317745,
+      "learning_rate": 0.0007042003162898143,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 113753712,
+      "step": 52655
+    },
+    {
+      "epoch": 8.590538336052202,
+      "grad_norm": 0.028112633153796196,
+      "learning_rate": 0.0007041353410805097,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 113765136,
+      "step": 52660
+    },
+    {
+      "epoch": 8.591353996737357,
+      "grad_norm": 0.013970048166811466,
+      "learning_rate": 0.0007040703617341434,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 113775056,
+      "step": 52665
+    },
+    {
+      "epoch": 8.592169657422513,
+      "grad_norm": 0.0035523215774446726,
+      "learning_rate": 0.0007040053782520324,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 113786512,
+      "step": 52670
+    },
+    {
+      "epoch": 8.592985318107667,
+      "grad_norm": 0.24162547290325165,
+      "learning_rate": 0.0007039403906354936,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 113796880,
+      "step": 52675
+    },
+    {
+      "epoch": 8.593800978792823,
+      "grad_norm": 0.09258195012807846,
+      "learning_rate": 0.0007038753988858439,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 113809360,
+      "step": 52680
+    },
+    {
+      "epoch": 8.594616639477977,
+      "grad_norm": 0.1602240353822708,
+      "learning_rate": 0.0007038104030044008,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 113820592,
+      "step": 52685
+    },
+    {
+      "epoch": 8.595432300163132,
+      "grad_norm": 0.0038400774355977774,
+      "learning_rate": 0.0007037454029924814,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 113832176,
+      "step": 52690
+    },
+    {
+      "epoch": 8.596247960848288,
+      "grad_norm": 0.02949357032775879,
+      "learning_rate": 0.0007036803988514028,
+      "loss": 0.046,
+      "num_input_tokens_seen": 113844496,
+      "step": 52695
+    },
+    {
+      "epoch": 8.597063621533442,
+      "grad_norm": 0.41612306237220764,
+      "learning_rate": 0.0007036153905824825,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 113854544,
+      "step": 52700
+    },
+    {
+      "epoch": 8.597879282218598,
+      "grad_norm": 0.14093731343746185,
+      "learning_rate": 0.0007035503781870379,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 113865008,
+      "step": 52705
+    },
+    {
+      "epoch": 8.598694942903752,
+      "grad_norm": 0.27731600403785706,
+      "learning_rate": 0.0007034853616663868,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 113875952,
+      "step": 52710
+    },
+    {
+      "epoch": 8.599510603588907,
+      "grad_norm": 0.014228510670363903,
+      "learning_rate": 0.0007034203410218467,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 113885552,
+      "step": 52715
+    },
+    {
+      "epoch": 8.600326264274061,
+      "grad_norm": 0.07596822828054428,
+      "learning_rate": 0.0007033553162547355,
+      "loss": 0.0467,
+      "num_input_tokens_seen": 113897104,
+      "step": 52720
+    },
+    {
+      "epoch": 8.601141924959217,
+      "grad_norm": 0.048214759677648544,
+      "learning_rate": 0.0007032902873663707,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 113908944,
+      "step": 52725
+    },
+    {
+      "epoch": 8.601957585644373,
+      "grad_norm": 0.14651963114738464,
+      "learning_rate": 0.0007032252543580702,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 113920624,
+      "step": 52730
+    },
+    {
+      "epoch": 8.602773246329527,
+      "grad_norm": 0.012341699562966824,
+      "learning_rate": 0.0007031602172311523,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 113932432,
+      "step": 52735
+    },
+    {
+      "epoch": 8.603588907014682,
+      "grad_norm": 0.054182104766368866,
+      "learning_rate": 0.0007030951759869347,
+      "loss": 0.1926,
+      "num_input_tokens_seen": 113943632,
+      "step": 52740
+    },
+    {
+      "epoch": 8.604404567699836,
+      "grad_norm": 0.08766784518957138,
+      "learning_rate": 0.0007030301306267358,
+      "loss": 0.1292,
+      "num_input_tokens_seen": 113954928,
+      "step": 52745
+    },
+    {
+      "epoch": 8.605220228384992,
+      "grad_norm": 0.018275413662195206,
+      "learning_rate": 0.0007029650811518737,
+      "loss": 0.1261,
+      "num_input_tokens_seen": 113965296,
+      "step": 52750
+    },
+    {
+      "epoch": 8.606035889070148,
+      "grad_norm": 0.03040480799973011,
+      "learning_rate": 0.0007029000275636669,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 113976176,
+      "step": 52755
+    },
+    {
+      "epoch": 8.606851549755302,
+      "grad_norm": 0.11693539470434189,
+      "learning_rate": 0.0007028349698634335,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 113986288,
+      "step": 52760
+    },
+    {
+      "epoch": 8.607667210440457,
+      "grad_norm": 0.19277828931808472,
+      "learning_rate": 0.0007027699080524923,
+      "loss": 0.129,
+      "num_input_tokens_seen": 113997360,
+      "step": 52765
+    },
+    {
+      "epoch": 8.608482871125611,
+      "grad_norm": 0.049259208142757416,
+      "learning_rate": 0.0007027048421321616,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 114009360,
+      "step": 52770
+    },
+    {
+      "epoch": 8.609298531810767,
+      "grad_norm": 0.16560588777065277,
+      "learning_rate": 0.0007026397721037601,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 114021104,
+      "step": 52775
+    },
+    {
+      "epoch": 8.61011419249592,
+      "grad_norm": 0.29161280393600464,
+      "learning_rate": 0.0007025746979686065,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 114032176,
+      "step": 52780
+    },
+    {
+      "epoch": 8.610929853181077,
+      "grad_norm": 0.006784006953239441,
+      "learning_rate": 0.0007025096197280196,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 114042352,
+      "step": 52785
+    },
+    {
+      "epoch": 8.611745513866232,
+      "grad_norm": 0.3216829299926758,
+      "learning_rate": 0.0007024445373833185,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 114052112,
+      "step": 52790
+    },
+    {
+      "epoch": 8.612561174551386,
+      "grad_norm": 0.03260602802038193,
+      "learning_rate": 0.000702379450935822,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 114062928,
+      "step": 52795
+    },
+    {
+      "epoch": 8.613376835236542,
+      "grad_norm": 0.1370018720626831,
+      "learning_rate": 0.0007023143603868492,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 114073392,
+      "step": 52800
+    },
+    {
+      "epoch": 8.614192495921696,
+      "grad_norm": 0.17849183082580566,
+      "learning_rate": 0.0007022492657377192,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 114084464,
+      "step": 52805
+    },
+    {
+      "epoch": 8.615008156606851,
+      "grad_norm": 0.019710781052708626,
+      "learning_rate": 0.0007021841669897511,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 114096240,
+      "step": 52810
+    },
+    {
+      "epoch": 8.615823817292007,
+      "grad_norm": 0.03188520297408104,
+      "learning_rate": 0.0007021190641442645,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 114105168,
+      "step": 52815
+    },
+    {
+      "epoch": 8.616639477977161,
+      "grad_norm": 0.0067170062102377415,
+      "learning_rate": 0.0007020539572025788,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 114115024,
+      "step": 52820
+    },
+    {
+      "epoch": 8.617455138662317,
+      "grad_norm": 0.006065691821277142,
+      "learning_rate": 0.0007019888461660132,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 114126416,
+      "step": 52825
+    },
+    {
+      "epoch": 8.61827079934747,
+      "grad_norm": 0.256100058555603,
+      "learning_rate": 0.0007019237310358874,
+      "loss": 0.1274,
+      "num_input_tokens_seen": 114137008,
+      "step": 52830
+    },
+    {
+      "epoch": 8.619086460032626,
+      "grad_norm": 0.1438518464565277,
+      "learning_rate": 0.000701858611813521,
+      "loss": 0.155,
+      "num_input_tokens_seen": 114148144,
+      "step": 52835
+    },
+    {
+      "epoch": 8.619902120717782,
+      "grad_norm": 0.025290878489613533,
+      "learning_rate": 0.0007017934885002339,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 114157872,
+      "step": 52840
+    },
+    {
+      "epoch": 8.620717781402936,
+      "grad_norm": 0.013580790720880032,
+      "learning_rate": 0.0007017283610973456,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 114169168,
+      "step": 52845
+    },
+    {
+      "epoch": 8.621533442088092,
+      "grad_norm": 0.08735395967960358,
+      "learning_rate": 0.0007016632296061762,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 114179984,
+      "step": 52850
+    },
+    {
+      "epoch": 8.622349102773246,
+      "grad_norm": 0.13977889716625214,
+      "learning_rate": 0.0007015980940280458,
+      "loss": 0.163,
+      "num_input_tokens_seen": 114191120,
+      "step": 52855
+    },
+    {
+      "epoch": 8.623164763458401,
+      "grad_norm": 0.06077880784869194,
+      "learning_rate": 0.0007015329543642741,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 114201424,
+      "step": 52860
+    },
+    {
+      "epoch": 8.623980424143557,
+      "grad_norm": 0.005568662192672491,
+      "learning_rate": 0.0007014678106161814,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 114212976,
+      "step": 52865
+    },
+    {
+      "epoch": 8.624796084828711,
+      "grad_norm": 0.013049778528511524,
+      "learning_rate": 0.000701402662785088,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 114224432,
+      "step": 52870
+    },
+    {
+      "epoch": 8.625611745513867,
+      "grad_norm": 0.01467926986515522,
+      "learning_rate": 0.0007013375108723141,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 114234256,
+      "step": 52875
+    },
+    {
+      "epoch": 8.62642740619902,
+      "grad_norm": 0.23037031292915344,
+      "learning_rate": 0.0007012723548791802,
+      "loss": 0.039,
+      "num_input_tokens_seen": 114244912,
+      "step": 52880
+    },
+    {
+      "epoch": 8.627243066884176,
+      "grad_norm": 0.03196464106440544,
+      "learning_rate": 0.0007012071948070065,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 114257008,
+      "step": 52885
+    },
+    {
+      "epoch": 8.62805872756933,
+      "grad_norm": 0.2203933745622635,
+      "learning_rate": 0.0007011420306571139,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 114266800,
+      "step": 52890
+    },
+    {
+      "epoch": 8.628874388254486,
+      "grad_norm": 0.35956448316574097,
+      "learning_rate": 0.0007010768624308228,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 114278320,
+      "step": 52895
+    },
+    {
+      "epoch": 8.629690048939642,
+      "grad_norm": 0.027677489444613457,
+      "learning_rate": 0.0007010116901294541,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 114288624,
+      "step": 52900
+    },
+    {
+      "epoch": 8.630505709624796,
+      "grad_norm": 0.09585878998041153,
+      "learning_rate": 0.0007009465137543285,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 114299184,
+      "step": 52905
+    },
+    {
+      "epoch": 8.631321370309951,
+      "grad_norm": 0.012258858419954777,
+      "learning_rate": 0.0007008813333067668,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 114309744,
+      "step": 52910
+    },
+    {
+      "epoch": 8.632137030995105,
+      "grad_norm": 0.030114926397800446,
+      "learning_rate": 0.00070081614878809,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 114320496,
+      "step": 52915
+    },
+    {
+      "epoch": 8.632952691680261,
+      "grad_norm": 0.06548038870096207,
+      "learning_rate": 0.0007007509601996193,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 114331728,
+      "step": 52920
+    },
+    {
+      "epoch": 8.633768352365417,
+      "grad_norm": 0.06908722221851349,
+      "learning_rate": 0.0007006857675426757,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 114341776,
+      "step": 52925
+    },
+    {
+      "epoch": 8.63458401305057,
+      "grad_norm": 0.22732791304588318,
+      "learning_rate": 0.0007006205708185804,
+      "loss": 0.1991,
+      "num_input_tokens_seen": 114353264,
+      "step": 52930
+    },
+    {
+      "epoch": 8.635399673735726,
+      "grad_norm": 0.007982817478477955,
+      "learning_rate": 0.0007005553700286549,
+      "loss": 0.2081,
+      "num_input_tokens_seen": 114364784,
+      "step": 52935
+    },
+    {
+      "epoch": 8.63621533442088,
+      "grad_norm": 0.011525883339345455,
+      "learning_rate": 0.0007004901651742201,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 114375920,
+      "step": 52940
+    },
+    {
+      "epoch": 8.637030995106036,
+      "grad_norm": 0.11902187764644623,
+      "learning_rate": 0.000700424956256598,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 114386448,
+      "step": 52945
+    },
+    {
+      "epoch": 8.63784665579119,
+      "grad_norm": 0.057894494384527206,
+      "learning_rate": 0.0007003597432771098,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 114397296,
+      "step": 52950
+    },
+    {
+      "epoch": 8.638662316476346,
+      "grad_norm": 0.029431601986289024,
+      "learning_rate": 0.0007002945262370773,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 114408336,
+      "step": 52955
+    },
+    {
+      "epoch": 8.639477977161501,
+      "grad_norm": 0.02109280601143837,
+      "learning_rate": 0.0007002293051378221,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 114419024,
+      "step": 52960
+    },
+    {
+      "epoch": 8.640293637846655,
+      "grad_norm": 0.24475204944610596,
+      "learning_rate": 0.0007001640799806662,
+      "loss": 0.1841,
+      "num_input_tokens_seen": 114430704,
+      "step": 52965
+    },
+    {
+      "epoch": 8.641109298531811,
+      "grad_norm": 0.12317442893981934,
+      "learning_rate": 0.000700098850766931,
+      "loss": 0.026,
+      "num_input_tokens_seen": 114441424,
+      "step": 52970
+    },
+    {
+      "epoch": 8.641924959216965,
+      "grad_norm": 0.08731578290462494,
+      "learning_rate": 0.0007000336174979389,
+      "loss": 0.2159,
+      "num_input_tokens_seen": 114452720,
+      "step": 52975
+    },
+    {
+      "epoch": 8.64274061990212,
+      "grad_norm": 0.1497471034526825,
+      "learning_rate": 0.0006999683801750116,
+      "loss": 0.034,
+      "num_input_tokens_seen": 114463920,
+      "step": 52980
+    },
+    {
+      "epoch": 8.643556280587276,
+      "grad_norm": 0.06633875519037247,
+      "learning_rate": 0.0006999031387994717,
+      "loss": 0.106,
+      "num_input_tokens_seen": 114474768,
+      "step": 52985
+    },
+    {
+      "epoch": 8.64437194127243,
+      "grad_norm": 0.1102503314614296,
+      "learning_rate": 0.0006998378933726408,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 114483984,
+      "step": 52990
+    },
+    {
+      "epoch": 8.645187601957586,
+      "grad_norm": 0.056301407516002655,
+      "learning_rate": 0.0006997726438958417,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 114494032,
+      "step": 52995
+    },
+    {
+      "epoch": 8.64600326264274,
+      "grad_norm": 0.2921803593635559,
+      "learning_rate": 0.0006997073903703964,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 114504720,
+      "step": 53000
+    },
+    {
+      "epoch": 8.646818923327896,
+      "grad_norm": 0.05801844969391823,
+      "learning_rate": 0.0006996421327976276,
+      "loss": 0.1848,
+      "num_input_tokens_seen": 114515536,
+      "step": 53005
+    },
+    {
+      "epoch": 8.647634584013051,
+      "grad_norm": 0.05805162340402603,
+      "learning_rate": 0.0006995768711788577,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 114527312,
+      "step": 53010
+    },
+    {
+      "epoch": 8.648450244698205,
+      "grad_norm": 0.38928350806236267,
+      "learning_rate": 0.0006995116055154093,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 114539728,
+      "step": 53015
+    },
+    {
+      "epoch": 8.649265905383361,
+      "grad_norm": 0.018125947564840317,
+      "learning_rate": 0.000699446335808605,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 114551184,
+      "step": 53020
+    },
+    {
+      "epoch": 8.650081566068515,
+      "grad_norm": 0.02418561838567257,
+      "learning_rate": 0.0006993810620597677,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 114561936,
+      "step": 53025
+    },
+    {
+      "epoch": 8.65089722675367,
+      "grad_norm": 0.007253970485180616,
+      "learning_rate": 0.0006993157842702203,
+      "loss": 0.2023,
+      "num_input_tokens_seen": 114571728,
+      "step": 53030
+    },
+    {
+      "epoch": 8.651712887438826,
+      "grad_norm": 0.2686326801776886,
+      "learning_rate": 0.0006992505024412858,
+      "loss": 0.0473,
+      "num_input_tokens_seen": 114581264,
+      "step": 53035
+    },
+    {
+      "epoch": 8.65252854812398,
+      "grad_norm": 0.5314196944236755,
+      "learning_rate": 0.000699185216574287,
+      "loss": 0.1753,
+      "num_input_tokens_seen": 114591664,
+      "step": 53040
+    },
+    {
+      "epoch": 8.653344208809136,
+      "grad_norm": 0.06350405514240265,
+      "learning_rate": 0.0006991199266705472,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 114602864,
+      "step": 53045
+    },
+    {
+      "epoch": 8.65415986949429,
+      "grad_norm": 0.014382350258529186,
+      "learning_rate": 0.0006990546327313894,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 114614000,
+      "step": 53050
+    },
+    {
+      "epoch": 8.654975530179446,
+      "grad_norm": 0.011114361695945263,
+      "learning_rate": 0.0006989893347581368,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 114625360,
+      "step": 53055
+    },
+    {
+      "epoch": 8.655791190864601,
+      "grad_norm": 0.01948225125670433,
+      "learning_rate": 0.000698924032752113,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 114635536,
+      "step": 53060
+    },
+    {
+      "epoch": 8.656606851549755,
+      "grad_norm": 0.006442820653319359,
+      "learning_rate": 0.0006988587267146414,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 114647088,
+      "step": 53065
+    },
+    {
+      "epoch": 8.65742251223491,
+      "grad_norm": 0.5618607401847839,
+      "learning_rate": 0.0006987934166470454,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 114658864,
+      "step": 53070
+    },
+    {
+      "epoch": 8.658238172920065,
+      "grad_norm": 0.05817626416683197,
+      "learning_rate": 0.0006987281025506487,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 114670576,
+      "step": 53075
+    },
+    {
+      "epoch": 8.65905383360522,
+      "grad_norm": 0.13771042227745056,
+      "learning_rate": 0.0006986627844267748,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 114682416,
+      "step": 53080
+    },
+    {
+      "epoch": 8.659869494290374,
+      "grad_norm": 0.0055312663316726685,
+      "learning_rate": 0.0006985974622767475,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 114692496,
+      "step": 53085
+    },
+    {
+      "epoch": 8.66068515497553,
+      "grad_norm": 0.04500410705804825,
+      "learning_rate": 0.0006985321361018908,
+      "loss": 0.1105,
+      "num_input_tokens_seen": 114701872,
+      "step": 53090
+    },
+    {
+      "epoch": 8.661500815660686,
+      "grad_norm": 0.0751497745513916,
+      "learning_rate": 0.0006984668059035284,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 114713392,
+      "step": 53095
+    },
+    {
+      "epoch": 8.66231647634584,
+      "grad_norm": 0.012522445991635323,
+      "learning_rate": 0.0006984014716829845,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 114723056,
+      "step": 53100
+    },
+    {
+      "epoch": 8.663132137030995,
+      "grad_norm": 0.07139261066913605,
+      "learning_rate": 0.0006983361334415831,
+      "loss": 0.03,
+      "num_input_tokens_seen": 114735056,
+      "step": 53105
+    },
+    {
+      "epoch": 8.66394779771615,
+      "grad_norm": 0.08267118781805038,
+      "learning_rate": 0.0006982707911806483,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 114746352,
+      "step": 53110
+    },
+    {
+      "epoch": 8.664763458401305,
+      "grad_norm": 0.007913434877991676,
+      "learning_rate": 0.0006982054449015044,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 114757840,
+      "step": 53115
+    },
+    {
+      "epoch": 8.66557911908646,
+      "grad_norm": 0.01678098551928997,
+      "learning_rate": 0.0006981400946054758,
+      "loss": 0.016,
+      "num_input_tokens_seen": 114768848,
+      "step": 53120
+    },
+    {
+      "epoch": 8.666394779771615,
+      "grad_norm": 0.2976462244987488,
+      "learning_rate": 0.0006980747402938868,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 114779952,
+      "step": 53125
+    },
+    {
+      "epoch": 8.66721044045677,
+      "grad_norm": 0.09854038804769516,
+      "learning_rate": 0.0006980093819680616,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 114788880,
+      "step": 53130
+    },
+    {
+      "epoch": 8.668026101141924,
+      "grad_norm": 0.006026748567819595,
+      "learning_rate": 0.0006979440196293254,
+      "loss": 0.0977,
+      "num_input_tokens_seen": 114800528,
+      "step": 53135
+    },
+    {
+      "epoch": 8.66884176182708,
+      "grad_norm": 0.017739087343215942,
+      "learning_rate": 0.0006978786532790025,
+      "loss": 0.04,
+      "num_input_tokens_seen": 114811088,
+      "step": 53140
+    },
+    {
+      "epoch": 8.669657422512234,
+      "grad_norm": 0.031023986637592316,
+      "learning_rate": 0.0006978132829184176,
+      "loss": 0.1588,
+      "num_input_tokens_seen": 114822256,
+      "step": 53145
+    },
+    {
+      "epoch": 8.67047308319739,
+      "grad_norm": 0.002542394446209073,
+      "learning_rate": 0.0006977479085488956,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 114834352,
+      "step": 53150
+    },
+    {
+      "epoch": 8.671288743882545,
+      "grad_norm": 0.13473205268383026,
+      "learning_rate": 0.0006976825301717615,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 114844272,
+      "step": 53155
+    },
+    {
+      "epoch": 8.6721044045677,
+      "grad_norm": 0.09745965898036957,
+      "learning_rate": 0.0006976171477883399,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 114855216,
+      "step": 53160
+    },
+    {
+      "epoch": 8.672920065252855,
+      "grad_norm": 0.11454571783542633,
+      "learning_rate": 0.0006975517613999562,
+      "loss": 0.0267,
+      "num_input_tokens_seen": 114866992,
+      "step": 53165
+    },
+    {
+      "epoch": 8.673735725938009,
+      "grad_norm": 0.011554248631000519,
+      "learning_rate": 0.0006974863710079355,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 114878032,
+      "step": 53170
+    },
+    {
+      "epoch": 8.674551386623165,
+      "grad_norm": 0.04244585707783699,
+      "learning_rate": 0.0006974209766136031,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 114889104,
+      "step": 53175
+    },
+    {
+      "epoch": 8.67536704730832,
+      "grad_norm": 0.033876482397317886,
+      "learning_rate": 0.0006973555782182839,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 114899792,
+      "step": 53180
+    },
+    {
+      "epoch": 8.676182707993474,
+      "grad_norm": 0.01323134358972311,
+      "learning_rate": 0.0006972901758233037,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 114911184,
+      "step": 53185
+    },
+    {
+      "epoch": 8.67699836867863,
+      "grad_norm": 0.004896457307040691,
+      "learning_rate": 0.0006972247694299877,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 114921936,
+      "step": 53190
+    },
+    {
+      "epoch": 8.677814029363784,
+      "grad_norm": 0.09365899115800858,
+      "learning_rate": 0.0006971593590396616,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 114932752,
+      "step": 53195
+    },
+    {
+      "epoch": 8.67862969004894,
+      "grad_norm": 0.315121591091156,
+      "learning_rate": 0.000697093944653651,
+      "loss": 0.0879,
+      "num_input_tokens_seen": 114943632,
+      "step": 53200
+    },
+    {
+      "epoch": 8.679445350734095,
+      "grad_norm": 0.008210898377001286,
+      "learning_rate": 0.0006970285262732815,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 114955088,
+      "step": 53205
+    },
+    {
+      "epoch": 8.68026101141925,
+      "grad_norm": 0.07787376642227173,
+      "learning_rate": 0.000696963103899879,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 114966416,
+      "step": 53210
+    },
+    {
+      "epoch": 8.681076672104405,
+      "grad_norm": 0.04467257484793663,
+      "learning_rate": 0.0006968976775347694,
+      "loss": 0.1604,
+      "num_input_tokens_seen": 114978032,
+      "step": 53215
+    },
+    {
+      "epoch": 8.681892332789559,
+      "grad_norm": 0.07246481627225876,
+      "learning_rate": 0.0006968322471792785,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 114990416,
+      "step": 53220
+    },
+    {
+      "epoch": 8.682707993474715,
+      "grad_norm": 0.04033525288105011,
+      "learning_rate": 0.0006967668128347324,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 115000336,
+      "step": 53225
+    },
+    {
+      "epoch": 8.68352365415987,
+      "grad_norm": 0.0070259906351566315,
+      "learning_rate": 0.0006967013745024573,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 115010192,
+      "step": 53230
+    },
+    {
+      "epoch": 8.684339314845024,
+      "grad_norm": 0.019295837730169296,
+      "learning_rate": 0.0006966359321837792,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 115021072,
+      "step": 53235
+    },
+    {
+      "epoch": 8.68515497553018,
+      "grad_norm": 0.24232225120067596,
+      "learning_rate": 0.0006965704858800246,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 115031760,
+      "step": 53240
+    },
+    {
+      "epoch": 8.685970636215334,
+      "grad_norm": 0.015037334524095058,
+      "learning_rate": 0.0006965050355925197,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 115042480,
+      "step": 53245
+    },
+    {
+      "epoch": 8.68678629690049,
+      "grad_norm": 0.02515346184372902,
+      "learning_rate": 0.000696439581322591,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 115054384,
+      "step": 53250
+    },
+    {
+      "epoch": 8.687601957585644,
+      "grad_norm": 0.1145104393362999,
+      "learning_rate": 0.000696374123071565,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 115064048,
+      "step": 53255
+    },
+    {
+      "epoch": 8.6884176182708,
+      "grad_norm": 0.03403741493821144,
+      "learning_rate": 0.0006963086608407683,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 115075088,
+      "step": 53260
+    },
+    {
+      "epoch": 8.689233278955955,
+      "grad_norm": 0.01130970474332571,
+      "learning_rate": 0.0006962431946315274,
+      "loss": 0.079,
+      "num_input_tokens_seen": 115085008,
+      "step": 53265
+    },
+    {
+      "epoch": 8.690048939641109,
+      "grad_norm": 0.09057468175888062,
+      "learning_rate": 0.0006961777244451694,
+      "loss": 0.1347,
+      "num_input_tokens_seen": 115096688,
+      "step": 53270
+    },
+    {
+      "epoch": 8.690864600326265,
+      "grad_norm": 0.05597497150301933,
+      "learning_rate": 0.0006961122502830208,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 115108080,
+      "step": 53275
+    },
+    {
+      "epoch": 8.691680261011419,
+      "grad_norm": 0.24031208455562592,
+      "learning_rate": 0.0006960467721464086,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 115118864,
+      "step": 53280
+    },
+    {
+      "epoch": 8.692495921696574,
+      "grad_norm": 0.22548261284828186,
+      "learning_rate": 0.00069598129003666,
+      "loss": 0.052,
+      "num_input_tokens_seen": 115128944,
+      "step": 53285
+    },
+    {
+      "epoch": 8.69331158238173,
+      "grad_norm": 0.1766250878572464,
+      "learning_rate": 0.0006959158039551019,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 115139600,
+      "step": 53290
+    },
+    {
+      "epoch": 8.694127243066884,
+      "grad_norm": 0.007115835323929787,
+      "learning_rate": 0.0006958503139030616,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 115149552,
+      "step": 53295
+    },
+    {
+      "epoch": 8.69494290375204,
+      "grad_norm": 0.05052676051855087,
+      "learning_rate": 0.0006957848198818661,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 115160624,
+      "step": 53300
+    },
+    {
+      "epoch": 8.695758564437194,
+      "grad_norm": 0.0866311639547348,
+      "learning_rate": 0.0006957193218928429,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 115172304,
+      "step": 53305
+    },
+    {
+      "epoch": 8.69657422512235,
+      "grad_norm": 0.2571766972541809,
+      "learning_rate": 0.0006956538199373194,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 115183824,
+      "step": 53310
+    },
+    {
+      "epoch": 8.697389885807503,
+      "grad_norm": 0.02091350592672825,
+      "learning_rate": 0.000695588314016623,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 115194832,
+      "step": 53315
+    },
+    {
+      "epoch": 8.698205546492659,
+      "grad_norm": 0.06575371325016022,
+      "learning_rate": 0.0006955228041320811,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 115204528,
+      "step": 53320
+    },
+    {
+      "epoch": 8.699021207177815,
+      "grad_norm": 0.03311387449502945,
+      "learning_rate": 0.0006954572902850218,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 115213840,
+      "step": 53325
+    },
+    {
+      "epoch": 8.699836867862969,
+      "grad_norm": 0.01601443998515606,
+      "learning_rate": 0.0006953917724767724,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 115223600,
+      "step": 53330
+    },
+    {
+      "epoch": 8.700652528548124,
+      "grad_norm": 0.15040957927703857,
+      "learning_rate": 0.0006953262507086611,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 115233168,
+      "step": 53335
+    },
+    {
+      "epoch": 8.701468189233278,
+      "grad_norm": 0.03878360241651535,
+      "learning_rate": 0.0006952607249820153,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 115244592,
+      "step": 53340
+    },
+    {
+      "epoch": 8.702283849918434,
+      "grad_norm": 0.2561344504356384,
+      "learning_rate": 0.0006951951952981631,
+      "loss": 0.2158,
+      "num_input_tokens_seen": 115254192,
+      "step": 53345
+    },
+    {
+      "epoch": 8.70309951060359,
+      "grad_norm": 0.05164014548063278,
+      "learning_rate": 0.0006951296616584329,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 115266384,
+      "step": 53350
+    },
+    {
+      "epoch": 8.703915171288743,
+      "grad_norm": 0.021563317626714706,
+      "learning_rate": 0.0006950641240641524,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 115277776,
+      "step": 53355
+    },
+    {
+      "epoch": 8.7047308319739,
+      "grad_norm": 0.8428294658660889,
+      "learning_rate": 0.0006949985825166501,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 115289168,
+      "step": 53360
+    },
+    {
+      "epoch": 8.705546492659053,
+      "grad_norm": 0.010905325412750244,
+      "learning_rate": 0.0006949330370172541,
+      "loss": 0.1883,
+      "num_input_tokens_seen": 115299216,
+      "step": 53365
+    },
+    {
+      "epoch": 8.706362153344209,
+      "grad_norm": 0.00984366238117218,
+      "learning_rate": 0.0006948674875672927,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 115309968,
+      "step": 53370
+    },
+    {
+      "epoch": 8.707177814029365,
+      "grad_norm": 0.01519181951880455,
+      "learning_rate": 0.0006948019341680945,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 115321264,
+      "step": 53375
+    },
+    {
+      "epoch": 8.707993474714518,
+      "grad_norm": 0.015593461692333221,
+      "learning_rate": 0.0006947363768209882,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 115331472,
+      "step": 53380
+    },
+    {
+      "epoch": 8.708809135399674,
+      "grad_norm": 0.15758588910102844,
+      "learning_rate": 0.000694670815527302,
+      "loss": 0.0611,
+      "num_input_tokens_seen": 115342480,
+      "step": 53385
+    },
+    {
+      "epoch": 8.709624796084828,
+      "grad_norm": 0.006150087807327509,
+      "learning_rate": 0.0006946052502883648,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 115351184,
+      "step": 53390
+    },
+    {
+      "epoch": 8.710440456769984,
+      "grad_norm": 0.12416129559278488,
+      "learning_rate": 0.0006945396811055053,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 115363152,
+      "step": 53395
+    },
+    {
+      "epoch": 8.71125611745514,
+      "grad_norm": 0.05409393459558487,
+      "learning_rate": 0.0006944741079800525,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 115373648,
+      "step": 53400
+    },
+    {
+      "epoch": 8.712071778140293,
+      "grad_norm": 0.39778071641921997,
+      "learning_rate": 0.000694408530913335,
+      "loss": 0.1524,
+      "num_input_tokens_seen": 115384560,
+      "step": 53405
+    },
+    {
+      "epoch": 8.71288743882545,
+      "grad_norm": 0.0031305132433772087,
+      "learning_rate": 0.0006943429499066821,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 115396272,
+      "step": 53410
+    },
+    {
+      "epoch": 8.713703099510603,
+      "grad_norm": 0.008841861970722675,
+      "learning_rate": 0.0006942773649614228,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 115407600,
+      "step": 53415
+    },
+    {
+      "epoch": 8.714518760195759,
+      "grad_norm": 0.337829053401947,
+      "learning_rate": 0.0006942117760788862,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 115418288,
+      "step": 53420
+    },
+    {
+      "epoch": 8.715334420880914,
+      "grad_norm": 0.22501158714294434,
+      "learning_rate": 0.0006941461832604017,
+      "loss": 0.1335,
+      "num_input_tokens_seen": 115428592,
+      "step": 53425
+    },
+    {
+      "epoch": 8.716150081566068,
+      "grad_norm": 0.2836399972438812,
+      "learning_rate": 0.0006940805865072984,
+      "loss": 0.3035,
+      "num_input_tokens_seen": 115439824,
+      "step": 53430
+    },
+    {
+      "epoch": 8.716965742251224,
+      "grad_norm": 0.30257099866867065,
+      "learning_rate": 0.0006940149858209058,
+      "loss": 0.1856,
+      "num_input_tokens_seen": 115450960,
+      "step": 53435
+    },
+    {
+      "epoch": 8.717781402936378,
+      "grad_norm": 0.18512238562107086,
+      "learning_rate": 0.0006939493812025534,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 115461584,
+      "step": 53440
+    },
+    {
+      "epoch": 8.718597063621534,
+      "grad_norm": 0.05251099169254303,
+      "learning_rate": 0.0006938837726535707,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 115470992,
+      "step": 53445
+    },
+    {
+      "epoch": 8.719412724306688,
+      "grad_norm": 0.28675875067710876,
+      "learning_rate": 0.0006938181601752873,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 115482736,
+      "step": 53450
+    },
+    {
+      "epoch": 8.720228384991843,
+      "grad_norm": 0.03428531438112259,
+      "learning_rate": 0.0006937525437690332,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 115493680,
+      "step": 53455
+    },
+    {
+      "epoch": 8.721044045676999,
+      "grad_norm": 0.007960710674524307,
+      "learning_rate": 0.0006936869234361379,
+      "loss": 0.064,
+      "num_input_tokens_seen": 115503568,
+      "step": 53460
+    },
+    {
+      "epoch": 8.721859706362153,
+      "grad_norm": 0.025951100513339043,
+      "learning_rate": 0.0006936212991779314,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 115514512,
+      "step": 53465
+    },
+    {
+      "epoch": 8.722675367047309,
+      "grad_norm": 0.31575798988342285,
+      "learning_rate": 0.0006935556709957437,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 115525840,
+      "step": 53470
+    },
+    {
+      "epoch": 8.723491027732463,
+      "grad_norm": 0.0034322626888751984,
+      "learning_rate": 0.0006934900388909048,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 115535856,
+      "step": 53475
+    },
+    {
+      "epoch": 8.724306688417618,
+      "grad_norm": 0.011164214462041855,
+      "learning_rate": 0.0006934244028647447,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 115547376,
+      "step": 53480
+    },
+    {
+      "epoch": 8.725122349102774,
+      "grad_norm": 0.27567970752716064,
+      "learning_rate": 0.0006933587629185938,
+      "loss": 0.1887,
+      "num_input_tokens_seen": 115557200,
+      "step": 53485
+    },
+    {
+      "epoch": 8.725938009787928,
+      "grad_norm": 0.23501868546009064,
+      "learning_rate": 0.0006932931190537822,
+      "loss": 0.1783,
+      "num_input_tokens_seen": 115568048,
+      "step": 53490
+    },
+    {
+      "epoch": 8.726753670473084,
+      "grad_norm": 0.017488988116383553,
+      "learning_rate": 0.0006932274712716405,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 115578736,
+      "step": 53495
+    },
+    {
+      "epoch": 8.727569331158238,
+      "grad_norm": 0.025671212002635002,
+      "learning_rate": 0.0006931618195734988,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 115588656,
+      "step": 53500
+    },
+    {
+      "epoch": 8.728384991843393,
+      "grad_norm": 0.30542680621147156,
+      "learning_rate": 0.0006930961639606878,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 115599280,
+      "step": 53505
+    },
+    {
+      "epoch": 8.729200652528547,
+      "grad_norm": 0.04574590176343918,
+      "learning_rate": 0.0006930305044345381,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 115610544,
+      "step": 53510
+    },
+    {
+      "epoch": 8.730016313213703,
+      "grad_norm": 0.016665812581777573,
+      "learning_rate": 0.0006929648409963802,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 115621104,
+      "step": 53515
+    },
+    {
+      "epoch": 8.730831973898859,
+      "grad_norm": 0.06146889925003052,
+      "learning_rate": 0.0006928991736475452,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 115633104,
+      "step": 53520
+    },
+    {
+      "epoch": 8.731647634584013,
+      "grad_norm": 0.6150043606758118,
+      "learning_rate": 0.0006928335023893637,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 115644048,
+      "step": 53525
+    },
+    {
+      "epoch": 8.732463295269168,
+      "grad_norm": 0.028153996914625168,
+      "learning_rate": 0.0006927678272231667,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 115656304,
+      "step": 53530
+    },
+    {
+      "epoch": 8.733278955954322,
+      "grad_norm": 0.07091391086578369,
+      "learning_rate": 0.0006927021481502851,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 115667120,
+      "step": 53535
+    },
+    {
+      "epoch": 8.734094616639478,
+      "grad_norm": 0.049456529319286346,
+      "learning_rate": 0.0006926364651720499,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 115676880,
+      "step": 53540
+    },
+    {
+      "epoch": 8.734910277324634,
+      "grad_norm": 0.32859930396080017,
+      "learning_rate": 0.0006925707782897925,
+      "loss": 0.2128,
+      "num_input_tokens_seen": 115687344,
+      "step": 53545
+    },
+    {
+      "epoch": 8.735725938009788,
+      "grad_norm": 0.02055169828236103,
+      "learning_rate": 0.000692505087504844,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 115697936,
+      "step": 53550
+    },
+    {
+      "epoch": 8.736541598694943,
+      "grad_norm": 0.016683807596564293,
+      "learning_rate": 0.0006924393928185354,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 115707056,
+      "step": 53555
+    },
+    {
+      "epoch": 8.737357259380097,
+      "grad_norm": 0.07922355085611343,
+      "learning_rate": 0.0006923736942321987,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 115718384,
+      "step": 53560
+    },
+    {
+      "epoch": 8.738172920065253,
+      "grad_norm": 0.04225243628025055,
+      "learning_rate": 0.0006923079917471648,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 115729168,
+      "step": 53565
+    },
+    {
+      "epoch": 8.738988580750409,
+      "grad_norm": 0.047049473971128464,
+      "learning_rate": 0.0006922422853647656,
+      "loss": 0.1753,
+      "num_input_tokens_seen": 115739344,
+      "step": 53570
+    },
+    {
+      "epoch": 8.739804241435563,
+      "grad_norm": 0.061708804219961166,
+      "learning_rate": 0.0006921765750863327,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 115749360,
+      "step": 53575
+    },
+    {
+      "epoch": 8.740619902120718,
+      "grad_norm": 0.3257828652858734,
+      "learning_rate": 0.0006921108609131976,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 115759664,
+      "step": 53580
+    },
+    {
+      "epoch": 8.741435562805872,
+      "grad_norm": 0.10550856590270996,
+      "learning_rate": 0.0006920451428466923,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 115770192,
+      "step": 53585
+    },
+    {
+      "epoch": 8.742251223491028,
+      "grad_norm": 0.037641484290361404,
+      "learning_rate": 0.0006919794208881486,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 115782000,
+      "step": 53590
+    },
+    {
+      "epoch": 8.743066884176184,
+      "grad_norm": 0.07037726789712906,
+      "learning_rate": 0.0006919136950388982,
+      "loss": 0.033,
+      "num_input_tokens_seen": 115792560,
+      "step": 53595
+    },
+    {
+      "epoch": 8.743882544861338,
+      "grad_norm": 0.09038639813661575,
+      "learning_rate": 0.0006918479653002734,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 115803248,
+      "step": 53600
+    },
+    {
+      "epoch": 8.744698205546493,
+      "grad_norm": 0.26753684878349304,
+      "learning_rate": 0.0006917822316736062,
+      "loss": 0.2313,
+      "num_input_tokens_seen": 115813776,
+      "step": 53605
+    },
+    {
+      "epoch": 8.745513866231647,
+      "grad_norm": 0.004256491083651781,
+      "learning_rate": 0.0006917164941602289,
+      "loss": 0.215,
+      "num_input_tokens_seen": 115824144,
+      "step": 53610
+    },
+    {
+      "epoch": 8.746329526916803,
+      "grad_norm": 0.49793606996536255,
+      "learning_rate": 0.0006916507527614735,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 115834896,
+      "step": 53615
+    },
+    {
+      "epoch": 8.747145187601957,
+      "grad_norm": 0.03849693387746811,
+      "learning_rate": 0.0006915850074786725,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 115844976,
+      "step": 53620
+    },
+    {
+      "epoch": 8.747960848287113,
+      "grad_norm": 0.1075640395283699,
+      "learning_rate": 0.0006915192583131582,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 115856752,
+      "step": 53625
+    },
+    {
+      "epoch": 8.748776508972268,
+      "grad_norm": 0.014227380976080894,
+      "learning_rate": 0.0006914535052662633,
+      "loss": 0.032,
+      "num_input_tokens_seen": 115866064,
+      "step": 53630
+    },
+    {
+      "epoch": 8.749592169657422,
+      "grad_norm": 0.07204482704401016,
+      "learning_rate": 0.0006913877483393202,
+      "loss": 0.1358,
+      "num_input_tokens_seen": 115875856,
+      "step": 53635
+    },
+    {
+      "epoch": 8.750407830342578,
+      "grad_norm": 0.03224179521203041,
+      "learning_rate": 0.0006913219875336616,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 115886608,
+      "step": 53640
+    },
+    {
+      "epoch": 8.751223491027732,
+      "grad_norm": 0.02999437227845192,
+      "learning_rate": 0.0006912562228506201,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 115898672,
+      "step": 53645
+    },
+    {
+      "epoch": 8.752039151712887,
+      "grad_norm": 0.012919296510517597,
+      "learning_rate": 0.0006911904542915288,
+      "loss": 0.1489,
+      "num_input_tokens_seen": 115910448,
+      "step": 53650
+    },
+    {
+      "epoch": 8.752854812398043,
+      "grad_norm": 0.3587695360183716,
+      "learning_rate": 0.0006911246818577201,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 115920944,
+      "step": 53655
+    },
+    {
+      "epoch": 8.753670473083197,
+      "grad_norm": 0.17896397411823273,
+      "learning_rate": 0.0006910589055505275,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 115930480,
+      "step": 53660
+    },
+    {
+      "epoch": 8.754486133768353,
+      "grad_norm": 0.09359142929315567,
+      "learning_rate": 0.0006909931253712838,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 115940144,
+      "step": 53665
+    },
+    {
+      "epoch": 8.755301794453507,
+      "grad_norm": 0.3921225965023041,
+      "learning_rate": 0.0006909273413213222,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 115951216,
+      "step": 53670
+    },
+    {
+      "epoch": 8.756117455138662,
+      "grad_norm": 0.1849663108587265,
+      "learning_rate": 0.0006908615534019757,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 115961680,
+      "step": 53675
+    },
+    {
+      "epoch": 8.756933115823816,
+      "grad_norm": 0.07306811958551407,
+      "learning_rate": 0.0006907957616145777,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 115972720,
+      "step": 53680
+    },
+    {
+      "epoch": 8.757748776508972,
+      "grad_norm": 0.13053929805755615,
+      "learning_rate": 0.0006907299659604613,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 115983632,
+      "step": 53685
+    },
+    {
+      "epoch": 8.758564437194128,
+      "grad_norm": 0.265766441822052,
+      "learning_rate": 0.0006906641664409605,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 115993552,
+      "step": 53690
+    },
+    {
+      "epoch": 8.759380097879282,
+      "grad_norm": 0.018430359661579132,
+      "learning_rate": 0.0006905983630574084,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 116004752,
+      "step": 53695
+    },
+    {
+      "epoch": 8.760195758564437,
+      "grad_norm": 0.03611930087208748,
+      "learning_rate": 0.0006905325558111389,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 116015056,
+      "step": 53700
+    },
+    {
+      "epoch": 8.761011419249591,
+      "grad_norm": 0.023959677666425705,
+      "learning_rate": 0.0006904667447034851,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 116026512,
+      "step": 53705
+    },
+    {
+      "epoch": 8.761827079934747,
+      "grad_norm": 0.005680852569639683,
+      "learning_rate": 0.0006904009297357814,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 116036144,
+      "step": 53710
+    },
+    {
+      "epoch": 8.762642740619903,
+      "grad_norm": 0.03747767210006714,
+      "learning_rate": 0.000690335110909361,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 116047056,
+      "step": 53715
+    },
+    {
+      "epoch": 8.763458401305057,
+      "grad_norm": 0.01141283754259348,
+      "learning_rate": 0.0006902692882255583,
+      "loss": 0.013,
+      "num_input_tokens_seen": 116057360,
+      "step": 53720
+    },
+    {
+      "epoch": 8.764274061990212,
+      "grad_norm": 0.039775773882865906,
+      "learning_rate": 0.0006902034616857073,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 116066992,
+      "step": 53725
+    },
+    {
+      "epoch": 8.765089722675366,
+      "grad_norm": 0.12590359151363373,
+      "learning_rate": 0.0006901376312911416,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 116079344,
+      "step": 53730
+    },
+    {
+      "epoch": 8.765905383360522,
+      "grad_norm": 0.011169610545039177,
+      "learning_rate": 0.0006900717970431956,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 116089648,
+      "step": 53735
+    },
+    {
+      "epoch": 8.766721044045678,
+      "grad_norm": 0.31761443614959717,
+      "learning_rate": 0.0006900059589432036,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 116100656,
+      "step": 53740
+    },
+    {
+      "epoch": 8.767536704730832,
+      "grad_norm": 0.004789343569427729,
+      "learning_rate": 0.0006899401169924997,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 116111184,
+      "step": 53745
+    },
+    {
+      "epoch": 8.768352365415987,
+      "grad_norm": 0.18085156381130219,
+      "learning_rate": 0.0006898742711924185,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 116121648,
+      "step": 53750
+    },
+    {
+      "epoch": 8.769168026101141,
+      "grad_norm": 0.19203798472881317,
+      "learning_rate": 0.0006898084215442942,
+      "loss": 0.3073,
+      "num_input_tokens_seen": 116132144,
+      "step": 53755
+    },
+    {
+      "epoch": 8.769983686786297,
+      "grad_norm": 0.005764484871178865,
+      "learning_rate": 0.0006897425680494616,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 116144176,
+      "step": 53760
+    },
+    {
+      "epoch": 8.770799347471453,
+      "grad_norm": 0.005528958048671484,
+      "learning_rate": 0.000689676710709255,
+      "loss": 0.125,
+      "num_input_tokens_seen": 116154704,
+      "step": 53765
+    },
+    {
+      "epoch": 8.771615008156607,
+      "grad_norm": 0.018419597297906876,
+      "learning_rate": 0.0006896108495250092,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 116165904,
+      "step": 53770
+    },
+    {
+      "epoch": 8.772430668841762,
+      "grad_norm": 0.18632349371910095,
+      "learning_rate": 0.0006895449844980592,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 116177040,
+      "step": 53775
+    },
+    {
+      "epoch": 8.773246329526916,
+      "grad_norm": 0.012830687686800957,
+      "learning_rate": 0.0006894791156297394,
+      "loss": 0.072,
+      "num_input_tokens_seen": 116187248,
+      "step": 53780
+    },
+    {
+      "epoch": 8.774061990212072,
+      "grad_norm": 0.002509468700736761,
+      "learning_rate": 0.0006894132429213851,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 116198640,
+      "step": 53785
+    },
+    {
+      "epoch": 8.774877650897226,
+      "grad_norm": 0.037770144641399384,
+      "learning_rate": 0.0006893473663743311,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 116208944,
+      "step": 53790
+    },
+    {
+      "epoch": 8.775693311582382,
+      "grad_norm": 0.1476047933101654,
+      "learning_rate": 0.0006892814859899126,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 116220784,
+      "step": 53795
+    },
+    {
+      "epoch": 8.776508972267537,
+      "grad_norm": 0.004433739464730024,
+      "learning_rate": 0.0006892156017694646,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 116231600,
+      "step": 53800
+    },
+    {
+      "epoch": 8.777324632952691,
+      "grad_norm": 0.027068404480814934,
+      "learning_rate": 0.0006891497137143224,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 116243280,
+      "step": 53805
+    },
+    {
+      "epoch": 8.778140293637847,
+      "grad_norm": 0.008436436764895916,
+      "learning_rate": 0.0006890838218258213,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 116253584,
+      "step": 53810
+    },
+    {
+      "epoch": 8.778955954323001,
+      "grad_norm": 0.017870329320430756,
+      "learning_rate": 0.0006890179261052967,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 116263824,
+      "step": 53815
+    },
+    {
+      "epoch": 8.779771615008157,
+      "grad_norm": 0.023240847513079643,
+      "learning_rate": 0.000688952026554084,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 116274224,
+      "step": 53820
+    },
+    {
+      "epoch": 8.780587275693312,
+      "grad_norm": 0.018025638535618782,
+      "learning_rate": 0.0006888861231735186,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 116284944,
+      "step": 53825
+    },
+    {
+      "epoch": 8.781402936378466,
+      "grad_norm": 0.017300186678767204,
+      "learning_rate": 0.0006888202159649366,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 116295696,
+      "step": 53830
+    },
+    {
+      "epoch": 8.782218597063622,
+      "grad_norm": 0.09028012305498123,
+      "learning_rate": 0.0006887543049296733,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 116306512,
+      "step": 53835
+    },
+    {
+      "epoch": 8.783034257748776,
+      "grad_norm": 0.06694075465202332,
+      "learning_rate": 0.0006886883900690645,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 116316944,
+      "step": 53840
+    },
+    {
+      "epoch": 8.783849918433932,
+      "grad_norm": 0.02075386978685856,
+      "learning_rate": 0.0006886224713844461,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 116327664,
+      "step": 53845
+    },
+    {
+      "epoch": 8.784665579119086,
+      "grad_norm": 0.2526707947254181,
+      "learning_rate": 0.0006885565488771541,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 116339184,
+      "step": 53850
+    },
+    {
+      "epoch": 8.785481239804241,
+      "grad_norm": 0.01189572736620903,
+      "learning_rate": 0.0006884906225485245,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 116349104,
+      "step": 53855
+    },
+    {
+      "epoch": 8.786296900489397,
+      "grad_norm": 0.13445112109184265,
+      "learning_rate": 0.0006884246923998932,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 116359856,
+      "step": 53860
+    },
+    {
+      "epoch": 8.78711256117455,
+      "grad_norm": 0.21758858859539032,
+      "learning_rate": 0.0006883587584325965,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 116370672,
+      "step": 53865
+    },
+    {
+      "epoch": 8.787928221859707,
+      "grad_norm": 0.007030788343399763,
+      "learning_rate": 0.0006882928206479707,
+      "loss": 0.042,
+      "num_input_tokens_seen": 116381648,
+      "step": 53870
+    },
+    {
+      "epoch": 8.78874388254486,
+      "grad_norm": 0.1571875512599945,
+      "learning_rate": 0.0006882268790473517,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 116392912,
+      "step": 53875
+    },
+    {
+      "epoch": 8.789559543230016,
+      "grad_norm": 0.05002790316939354,
+      "learning_rate": 0.0006881609336320764,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 116402448,
+      "step": 53880
+    },
+    {
+      "epoch": 8.790375203915172,
+      "grad_norm": 0.25340625643730164,
+      "learning_rate": 0.0006880949844034811,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 116412496,
+      "step": 53885
+    },
+    {
+      "epoch": 8.791190864600326,
+      "grad_norm": 0.12071508914232254,
+      "learning_rate": 0.0006880290313629026,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 116422736,
+      "step": 53890
+    },
+    {
+      "epoch": 8.792006525285482,
+      "grad_norm": 0.3033401370048523,
+      "learning_rate": 0.0006879630745116769,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 116432464,
+      "step": 53895
+    },
+    {
+      "epoch": 8.792822185970635,
+      "grad_norm": 0.2533930838108063,
+      "learning_rate": 0.0006878971138511412,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 116442224,
+      "step": 53900
+    },
+    {
+      "epoch": 8.793637846655791,
+      "grad_norm": 0.11267364770174026,
+      "learning_rate": 0.000687831149382632,
+      "loss": 0.1089,
+      "num_input_tokens_seen": 116454352,
+      "step": 53905
+    },
+    {
+      "epoch": 8.794453507340947,
+      "grad_norm": 0.021168632432818413,
+      "learning_rate": 0.0006877651811074863,
+      "loss": 0.064,
+      "num_input_tokens_seen": 116465264,
+      "step": 53910
+    },
+    {
+      "epoch": 8.7952691680261,
+      "grad_norm": 0.05451773852109909,
+      "learning_rate": 0.0006876992090270411,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 116475760,
+      "step": 53915
+    },
+    {
+      "epoch": 8.796084828711257,
+      "grad_norm": 0.060790155082941055,
+      "learning_rate": 0.0006876332331426332,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 116485744,
+      "step": 53920
+    },
+    {
+      "epoch": 8.79690048939641,
+      "grad_norm": 0.06983616203069687,
+      "learning_rate": 0.0006875672534556,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 116497488,
+      "step": 53925
+    },
+    {
+      "epoch": 8.797716150081566,
+      "grad_norm": 0.20969927310943604,
+      "learning_rate": 0.0006875012699672783,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 116507728,
+      "step": 53930
+    },
+    {
+      "epoch": 8.798531810766722,
+      "grad_norm": 0.0036327510606497526,
+      "learning_rate": 0.0006874352826790055,
+      "loss": 0.1238,
+      "num_input_tokens_seen": 116517552,
+      "step": 53935
+    },
+    {
+      "epoch": 8.799347471451876,
+      "grad_norm": 0.050834622234106064,
+      "learning_rate": 0.000687369291592119,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 116528144,
+      "step": 53940
+    },
+    {
+      "epoch": 8.800163132137031,
+      "grad_norm": 0.22240811586380005,
+      "learning_rate": 0.0006873032967079561,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 116537968,
+      "step": 53945
+    },
+    {
+      "epoch": 8.800978792822185,
+      "grad_norm": 0.10322391241788864,
+      "learning_rate": 0.0006872372980278543,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 116548208,
+      "step": 53950
+    },
+    {
+      "epoch": 8.801794453507341,
+      "grad_norm": 0.027097368612885475,
+      "learning_rate": 0.0006871712955531511,
+      "loss": 0.0971,
+      "num_input_tokens_seen": 116558480,
+      "step": 53955
+    },
+    {
+      "epoch": 8.802610114192497,
+      "grad_norm": 0.23474834859371185,
+      "learning_rate": 0.0006871052892851842,
+      "loss": 0.2162,
+      "num_input_tokens_seen": 116569776,
+      "step": 53960
+    },
+    {
+      "epoch": 8.80342577487765,
+      "grad_norm": 0.02830558642745018,
+      "learning_rate": 0.0006870392792252911,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 116580144,
+      "step": 53965
+    },
+    {
+      "epoch": 8.804241435562806,
+      "grad_norm": 0.010453589260578156,
+      "learning_rate": 0.0006869732653748096,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 116590064,
+      "step": 53970
+    },
+    {
+      "epoch": 8.80505709624796,
+      "grad_norm": 0.17776353657245636,
+      "learning_rate": 0.000686907247735078,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 116600080,
+      "step": 53975
+    },
+    {
+      "epoch": 8.805872756933116,
+      "grad_norm": 0.006603384390473366,
+      "learning_rate": 0.0006868412263074337,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 116610160,
+      "step": 53980
+    },
+    {
+      "epoch": 8.80668841761827,
+      "grad_norm": 0.020314160734415054,
+      "learning_rate": 0.0006867752010932151,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 116620688,
+      "step": 53985
+    },
+    {
+      "epoch": 8.807504078303426,
+      "grad_norm": 0.13206049799919128,
+      "learning_rate": 0.00068670917209376,
+      "loss": 0.1469,
+      "num_input_tokens_seen": 116630064,
+      "step": 53990
+    },
+    {
+      "epoch": 8.808319738988581,
+      "grad_norm": 0.08112114667892456,
+      "learning_rate": 0.0006866431393104067,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 116641520,
+      "step": 53995
+    },
+    {
+      "epoch": 8.809135399673735,
+      "grad_norm": 0.3721643388271332,
+      "learning_rate": 0.0006865771027444933,
+      "loss": 0.2034,
+      "num_input_tokens_seen": 116653456,
+      "step": 54000
+    },
+    {
+      "epoch": 8.809951060358891,
+      "grad_norm": 0.18222694098949432,
+      "learning_rate": 0.0006865110623973585,
+      "loss": 0.1046,
+      "num_input_tokens_seen": 116663408,
+      "step": 54005
+    },
+    {
+      "epoch": 8.810766721044045,
+      "grad_norm": 0.5798073410987854,
+      "learning_rate": 0.0006864450182703403,
+      "loss": 0.0734,
+      "num_input_tokens_seen": 116674256,
+      "step": 54010
+    },
+    {
+      "epoch": 8.8115823817292,
+      "grad_norm": 0.06881486624479294,
+      "learning_rate": 0.0006863789703647771,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 116685552,
+      "step": 54015
+    },
+    {
+      "epoch": 8.812398042414356,
+      "grad_norm": 0.022122984752058983,
+      "learning_rate": 0.0006863129186820079,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 116695824,
+      "step": 54020
+    },
+    {
+      "epoch": 8.81321370309951,
+      "grad_norm": 0.03289042413234711,
+      "learning_rate": 0.0006862468632233709,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 116706128,
+      "step": 54025
+    },
+    {
+      "epoch": 8.814029363784666,
+      "grad_norm": 0.07637394964694977,
+      "learning_rate": 0.000686180803990205,
+      "loss": 0.1307,
+      "num_input_tokens_seen": 116715728,
+      "step": 54030
+    },
+    {
+      "epoch": 8.81484502446982,
+      "grad_norm": 0.016515476629137993,
+      "learning_rate": 0.0006861147409838489,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 116726992,
+      "step": 54035
+    },
+    {
+      "epoch": 8.815660685154976,
+      "grad_norm": 0.3054102063179016,
+      "learning_rate": 0.0006860486742056415,
+      "loss": 0.1445,
+      "num_input_tokens_seen": 116737968,
+      "step": 54040
+    },
+    {
+      "epoch": 8.81647634584013,
+      "grad_norm": 0.007263507228344679,
+      "learning_rate": 0.0006859826036569216,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 116748240,
+      "step": 54045
+    },
+    {
+      "epoch": 8.817292006525285,
+      "grad_norm": 0.1208798810839653,
+      "learning_rate": 0.0006859165293390284,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 116759504,
+      "step": 54050
+    },
+    {
+      "epoch": 8.818107667210441,
+      "grad_norm": 0.22497281432151794,
+      "learning_rate": 0.0006858504512533008,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 116770768,
+      "step": 54055
+    },
+    {
+      "epoch": 8.818923327895595,
+      "grad_norm": 0.1389174610376358,
+      "learning_rate": 0.000685784369401078,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 116782352,
+      "step": 54060
+    },
+    {
+      "epoch": 8.81973898858075,
+      "grad_norm": 0.3582153916358948,
+      "learning_rate": 0.0006857182837836994,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 116793712,
+      "step": 54065
+    },
+    {
+      "epoch": 8.820554649265905,
+      "grad_norm": 0.004126532934606075,
+      "learning_rate": 0.0006856521944025041,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 116804816,
+      "step": 54070
+    },
+    {
+      "epoch": 8.82137030995106,
+      "grad_norm": 0.0762988030910492,
+      "learning_rate": 0.0006855861012588316,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 116815824,
+      "step": 54075
+    },
+    {
+      "epoch": 8.822185970636216,
+      "grad_norm": 0.12311746925115585,
+      "learning_rate": 0.0006855200043540213,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 116826960,
+      "step": 54080
+    },
+    {
+      "epoch": 8.82300163132137,
+      "grad_norm": 0.004039400722831488,
+      "learning_rate": 0.0006854539036894128,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 116837680,
+      "step": 54085
+    },
+    {
+      "epoch": 8.823817292006526,
+      "grad_norm": 0.060211095958948135,
+      "learning_rate": 0.0006853877992663456,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 116847120,
+      "step": 54090
+    },
+    {
+      "epoch": 8.82463295269168,
+      "grad_norm": 0.01676938310265541,
+      "learning_rate": 0.0006853216910861595,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 116857456,
+      "step": 54095
+    },
+    {
+      "epoch": 8.825448613376835,
+      "grad_norm": 0.04738698527216911,
+      "learning_rate": 0.0006852555791501942,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 116869264,
+      "step": 54100
+    },
+    {
+      "epoch": 8.826264274061991,
+      "grad_norm": 0.26809951663017273,
+      "learning_rate": 0.0006851894634597898,
+      "loss": 0.1946,
+      "num_input_tokens_seen": 116879504,
+      "step": 54105
+    },
+    {
+      "epoch": 8.827079934747145,
+      "grad_norm": 0.06636186689138412,
+      "learning_rate": 0.0006851233440162858,
+      "loss": 0.1837,
+      "num_input_tokens_seen": 116889808,
+      "step": 54110
+    },
+    {
+      "epoch": 8.8278955954323,
+      "grad_norm": 0.048026785254478455,
+      "learning_rate": 0.0006850572208210223,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 116900816,
+      "step": 54115
+    },
+    {
+      "epoch": 8.828711256117455,
+      "grad_norm": 0.010122005827724934,
+      "learning_rate": 0.0006849910938753396,
+      "loss": 0.2698,
+      "num_input_tokens_seen": 116912208,
+      "step": 54120
+    },
+    {
+      "epoch": 8.82952691680261,
+      "grad_norm": 0.31122568249702454,
+      "learning_rate": 0.0006849249631805777,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 116922864,
+      "step": 54125
+    },
+    {
+      "epoch": 8.830342577487766,
+      "grad_norm": 0.12743504345417023,
+      "learning_rate": 0.0006848588287380769,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 116933552,
+      "step": 54130
+    },
+    {
+      "epoch": 8.83115823817292,
+      "grad_norm": 0.01123537216335535,
+      "learning_rate": 0.0006847926905491771,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 116944208,
+      "step": 54135
+    },
+    {
+      "epoch": 8.831973898858076,
+      "grad_norm": 0.01716950722038746,
+      "learning_rate": 0.0006847265486152192,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 116955248,
+      "step": 54140
+    },
+    {
+      "epoch": 8.83278955954323,
+      "grad_norm": 0.07278816401958466,
+      "learning_rate": 0.0006846604029375435,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 116966768,
+      "step": 54145
+    },
+    {
+      "epoch": 8.833605220228385,
+      "grad_norm": 0.005184966139495373,
+      "learning_rate": 0.0006845942535174905,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 116977392,
+      "step": 54150
+    },
+    {
+      "epoch": 8.83442088091354,
+      "grad_norm": 0.30484655499458313,
+      "learning_rate": 0.0006845281003564007,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 116988528,
+      "step": 54155
+    },
+    {
+      "epoch": 8.835236541598695,
+      "grad_norm": 0.14823204278945923,
+      "learning_rate": 0.0006844619434556149,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 116999280,
+      "step": 54160
+    },
+    {
+      "epoch": 8.83605220228385,
+      "grad_norm": 0.024366330355405807,
+      "learning_rate": 0.0006843957828164737,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 117008368,
+      "step": 54165
+    },
+    {
+      "epoch": 8.836867862969005,
+      "grad_norm": 0.161958709359169,
+      "learning_rate": 0.0006843296184403182,
+      "loss": 0.0811,
+      "num_input_tokens_seen": 117019472,
+      "step": 54170
+    },
+    {
+      "epoch": 8.83768352365416,
+      "grad_norm": 0.031379345804452896,
+      "learning_rate": 0.0006842634503284891,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 117029136,
+      "step": 54175
+    },
+    {
+      "epoch": 8.838499184339314,
+      "grad_norm": 0.030218927189707756,
+      "learning_rate": 0.0006841972784823274,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 117039888,
+      "step": 54180
+    },
+    {
+      "epoch": 8.83931484502447,
+      "grad_norm": 0.0450090654194355,
+      "learning_rate": 0.0006841311029031742,
+      "loss": 0.2128,
+      "num_input_tokens_seen": 117050224,
+      "step": 54185
+    },
+    {
+      "epoch": 8.840130505709626,
+      "grad_norm": 0.20938782393932343,
+      "learning_rate": 0.0006840649235923706,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 117061840,
+      "step": 54190
+    },
+    {
+      "epoch": 8.84094616639478,
+      "grad_norm": 0.0133676053956151,
+      "learning_rate": 0.0006839987405512577,
+      "loss": 0.153,
+      "num_input_tokens_seen": 117073040,
+      "step": 54195
+    },
+    {
+      "epoch": 8.841761827079935,
+      "grad_norm": 0.22873623669147491,
+      "learning_rate": 0.000683932553781177,
+      "loss": 0.157,
+      "num_input_tokens_seen": 117084240,
+      "step": 54200
+    },
+    {
+      "epoch": 8.84257748776509,
+      "grad_norm": 0.02595687285065651,
+      "learning_rate": 0.0006838663632834697,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 117095568,
+      "step": 54205
+    },
+    {
+      "epoch": 8.843393148450245,
+      "grad_norm": 0.20884649455547333,
+      "learning_rate": 0.0006838001690594775,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 117106288,
+      "step": 54210
+    },
+    {
+      "epoch": 8.844208809135399,
+      "grad_norm": 0.03644806891679764,
+      "learning_rate": 0.0006837339711105414,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 117116912,
+      "step": 54215
+    },
+    {
+      "epoch": 8.845024469820554,
+      "grad_norm": 0.17615261673927307,
+      "learning_rate": 0.0006836677694380035,
+      "loss": 0.2627,
+      "num_input_tokens_seen": 117128048,
+      "step": 54220
+    },
+    {
+      "epoch": 8.84584013050571,
+      "grad_norm": 0.27721107006073,
+      "learning_rate": 0.0006836015640432054,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 117139376,
+      "step": 54225
+    },
+    {
+      "epoch": 8.846655791190864,
+      "grad_norm": 0.003872593864798546,
+      "learning_rate": 0.0006835353549274885,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 117151472,
+      "step": 54230
+    },
+    {
+      "epoch": 8.84747145187602,
+      "grad_norm": 0.02096593752503395,
+      "learning_rate": 0.0006834691420921948,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 117160848,
+      "step": 54235
+    },
+    {
+      "epoch": 8.848287112561174,
+      "grad_norm": 0.0623176284134388,
+      "learning_rate": 0.0006834029255386663,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 117171664,
+      "step": 54240
+    },
+    {
+      "epoch": 8.84910277324633,
+      "grad_norm": 0.01989927887916565,
+      "learning_rate": 0.0006833367052682446,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 117181488,
+      "step": 54245
+    },
+    {
+      "epoch": 8.849918433931485,
+      "grad_norm": 0.23223379254341125,
+      "learning_rate": 0.0006832704812822722,
+      "loss": 0.1932,
+      "num_input_tokens_seen": 117191984,
+      "step": 54250
+    },
+    {
+      "epoch": 8.850734094616639,
+      "grad_norm": 0.11960668861865997,
+      "learning_rate": 0.0006832042535820911,
+      "loss": 0.046,
+      "num_input_tokens_seen": 117201776,
+      "step": 54255
+    },
+    {
+      "epoch": 8.851549755301795,
+      "grad_norm": 0.1948905736207962,
+      "learning_rate": 0.0006831380221690431,
+      "loss": 0.093,
+      "num_input_tokens_seen": 117212944,
+      "step": 54260
+    },
+    {
+      "epoch": 8.852365415986949,
+      "grad_norm": 0.16176442801952362,
+      "learning_rate": 0.0006830717870444709,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 117223312,
+      "step": 54265
+    },
+    {
+      "epoch": 8.853181076672104,
+      "grad_norm": 0.09057550132274628,
+      "learning_rate": 0.0006830055482097168,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 117233744,
+      "step": 54270
+    },
+    {
+      "epoch": 8.85399673735726,
+      "grad_norm": 0.15768930315971375,
+      "learning_rate": 0.000682939305666123,
+      "loss": 0.2155,
+      "num_input_tokens_seen": 117245328,
+      "step": 54275
+    },
+    {
+      "epoch": 8.854812398042414,
+      "grad_norm": 0.30745288729667664,
+      "learning_rate": 0.000682873059415032,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 117256176,
+      "step": 54280
+    },
+    {
+      "epoch": 8.85562805872757,
+      "grad_norm": 0.04249805584549904,
+      "learning_rate": 0.0006828068094577864,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 117267664,
+      "step": 54285
+    },
+    {
+      "epoch": 8.856443719412724,
+      "grad_norm": 0.30030643939971924,
+      "learning_rate": 0.0006827405557957291,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 117277744,
+      "step": 54290
+    },
+    {
+      "epoch": 8.85725938009788,
+      "grad_norm": 0.11320184171199799,
+      "learning_rate": 0.0006826742984302026,
+      "loss": 0.1424,
+      "num_input_tokens_seen": 117289168,
+      "step": 54295
+    },
+    {
+      "epoch": 8.858075040783035,
+      "grad_norm": 0.07032129168510437,
+      "learning_rate": 0.0006826080373625496,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 117298896,
+      "step": 54300
+    },
+    {
+      "epoch": 8.858890701468189,
+      "grad_norm": 0.35693272948265076,
+      "learning_rate": 0.0006825417725941132,
+      "loss": 0.1395,
+      "num_input_tokens_seen": 117310000,
+      "step": 54305
+    },
+    {
+      "epoch": 8.859706362153345,
+      "grad_norm": 0.2755097448825836,
+      "learning_rate": 0.0006824755041262361,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 117319088,
+      "step": 54310
+    },
+    {
+      "epoch": 8.860522022838499,
+      "grad_norm": 0.024103153496980667,
+      "learning_rate": 0.0006824092319602614,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 117329552,
+      "step": 54315
+    },
+    {
+      "epoch": 8.861337683523654,
+      "grad_norm": 0.04700141400098801,
+      "learning_rate": 0.0006823429560975323,
+      "loss": 0.066,
+      "num_input_tokens_seen": 117340336,
+      "step": 54320
+    },
+    {
+      "epoch": 8.86215334420881,
+      "grad_norm": 0.06457889080047607,
+      "learning_rate": 0.0006822766765393919,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 117352272,
+      "step": 54325
+    },
+    {
+      "epoch": 8.862969004893964,
+      "grad_norm": 0.10260617733001709,
+      "learning_rate": 0.0006822103932871832,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 117362192,
+      "step": 54330
+    },
+    {
+      "epoch": 8.86378466557912,
+      "grad_norm": 0.05182819440960884,
+      "learning_rate": 0.00068214410634225,
+      "loss": 0.037,
+      "num_input_tokens_seen": 117373328,
+      "step": 54335
+    },
+    {
+      "epoch": 8.864600326264274,
+      "grad_norm": 0.4678332209587097,
+      "learning_rate": 0.0006820778157059353,
+      "loss": 0.2525,
+      "num_input_tokens_seen": 117383824,
+      "step": 54340
+    },
+    {
+      "epoch": 8.86541598694943,
+      "grad_norm": 0.006274137180298567,
+      "learning_rate": 0.0006820115213795827,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 117395856,
+      "step": 54345
+    },
+    {
+      "epoch": 8.866231647634583,
+      "grad_norm": 0.025420423597097397,
+      "learning_rate": 0.0006819452233645357,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 117406768,
+      "step": 54350
+    },
+    {
+      "epoch": 8.867047308319739,
+      "grad_norm": 0.025930307805538177,
+      "learning_rate": 0.0006818789216621379,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 117418224,
+      "step": 54355
+    },
+    {
+      "epoch": 8.867862969004895,
+      "grad_norm": 0.17869673669338226,
+      "learning_rate": 0.0006818126162737332,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 117429776,
+      "step": 54360
+    },
+    {
+      "epoch": 8.868678629690049,
+      "grad_norm": 0.003503937041386962,
+      "learning_rate": 0.000681746307200665,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 117441296,
+      "step": 54365
+    },
+    {
+      "epoch": 8.869494290375204,
+      "grad_norm": 0.18694375455379486,
+      "learning_rate": 0.0006816799944442774,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 117452880,
+      "step": 54370
+    },
+    {
+      "epoch": 8.870309951060358,
+      "grad_norm": 0.08532639592885971,
+      "learning_rate": 0.0006816136780059142,
+      "loss": 0.145,
+      "num_input_tokens_seen": 117464272,
+      "step": 54375
+    },
+    {
+      "epoch": 8.871125611745514,
+      "grad_norm": 0.09267734736204147,
+      "learning_rate": 0.0006815473578869194,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 117476272,
+      "step": 54380
+    },
+    {
+      "epoch": 8.87194127243067,
+      "grad_norm": 0.03818744048476219,
+      "learning_rate": 0.0006814810340886372,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 117487504,
+      "step": 54385
+    },
+    {
+      "epoch": 8.872756933115824,
+      "grad_norm": 0.01406745333224535,
+      "learning_rate": 0.0006814147066124116,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 117497808,
+      "step": 54390
+    },
+    {
+      "epoch": 8.87357259380098,
+      "grad_norm": 0.03349088132381439,
+      "learning_rate": 0.0006813483754595867,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 117510480,
+      "step": 54395
+    },
+    {
+      "epoch": 8.874388254486133,
+      "grad_norm": 0.17432676255702972,
+      "learning_rate": 0.000681282040631507,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 117521872,
+      "step": 54400
+    },
+    {
+      "epoch": 8.875203915171289,
+      "grad_norm": 0.07740618288516998,
+      "learning_rate": 0.0006812157021295167,
+      "loss": 0.2157,
+      "num_input_tokens_seen": 117531760,
+      "step": 54405
+    },
+    {
+      "epoch": 8.876019575856443,
+      "grad_norm": 0.20691031217575073,
+      "learning_rate": 0.0006811493599549603,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 117541872,
+      "step": 54410
+    },
+    {
+      "epoch": 8.876835236541599,
+      "grad_norm": 0.12131853401660919,
+      "learning_rate": 0.0006810830141091825,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 117552336,
+      "step": 54415
+    },
+    {
+      "epoch": 8.877650897226754,
+      "grad_norm": 0.36007246375083923,
+      "learning_rate": 0.0006810166645935276,
+      "loss": 0.1905,
+      "num_input_tokens_seen": 117562704,
+      "step": 54420
+    },
+    {
+      "epoch": 8.878466557911908,
+      "grad_norm": 0.028180794790387154,
+      "learning_rate": 0.0006809503114093403,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 117574032,
+      "step": 54425
+    },
+    {
+      "epoch": 8.879282218597064,
+      "grad_norm": 0.009340302087366581,
+      "learning_rate": 0.0006808839545579655,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 117583984,
+      "step": 54430
+    },
+    {
+      "epoch": 8.880097879282218,
+      "grad_norm": 0.04891321435570717,
+      "learning_rate": 0.0006808175940407477,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 117593200,
+      "step": 54435
+    },
+    {
+      "epoch": 8.880913539967374,
+      "grad_norm": 0.3209296762943268,
+      "learning_rate": 0.0006807512298590321,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 117604688,
+      "step": 54440
+    },
+    {
+      "epoch": 8.88172920065253,
+      "grad_norm": 0.3639463186264038,
+      "learning_rate": 0.0006806848620141636,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 117614960,
+      "step": 54445
+    },
+    {
+      "epoch": 8.882544861337683,
+      "grad_norm": 0.02138776332139969,
+      "learning_rate": 0.0006806184905074871,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 117625616,
+      "step": 54450
+    },
+    {
+      "epoch": 8.883360522022839,
+      "grad_norm": 0.9454212188720703,
+      "learning_rate": 0.0006805521153403476,
+      "loss": 0.1509,
+      "num_input_tokens_seen": 117635216,
+      "step": 54455
+    },
+    {
+      "epoch": 8.884176182707993,
+      "grad_norm": 0.02996288612484932,
+      "learning_rate": 0.0006804857365140906,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 117645008,
+      "step": 54460
+    },
+    {
+      "epoch": 8.884991843393149,
+      "grad_norm": 0.016237854957580566,
+      "learning_rate": 0.0006804193540300612,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 117654992,
+      "step": 54465
+    },
+    {
+      "epoch": 8.885807504078304,
+      "grad_norm": 0.13553477823734283,
+      "learning_rate": 0.0006803529678896047,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 117665520,
+      "step": 54470
+    },
+    {
+      "epoch": 8.886623164763458,
+      "grad_norm": 0.21454428136348724,
+      "learning_rate": 0.0006802865780940663,
+      "loss": 0.1178,
+      "num_input_tokens_seen": 117676240,
+      "step": 54475
+    },
+    {
+      "epoch": 8.887438825448614,
+      "grad_norm": 0.005688629578799009,
+      "learning_rate": 0.000680220184644792,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 117686288,
+      "step": 54480
+    },
+    {
+      "epoch": 8.888254486133768,
+      "grad_norm": 0.004805149510502815,
+      "learning_rate": 0.0006801537875431269,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 117696528,
+      "step": 54485
+    },
+    {
+      "epoch": 8.889070146818923,
+      "grad_norm": 0.003945660311728716,
+      "learning_rate": 0.0006800873867904167,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 117707856,
+      "step": 54490
+    },
+    {
+      "epoch": 8.88988580750408,
+      "grad_norm": 0.011920423246920109,
+      "learning_rate": 0.0006800209823880072,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 117719024,
+      "step": 54495
+    },
+    {
+      "epoch": 8.890701468189233,
+      "grad_norm": 0.0690336748957634,
+      "learning_rate": 0.0006799545743372442,
+      "loss": 0.1799,
+      "num_input_tokens_seen": 117728528,
+      "step": 54500
+    },
+    {
+      "epoch": 8.891517128874389,
+      "grad_norm": 0.021867262199521065,
+      "learning_rate": 0.0006798881626394734,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 117738704,
+      "step": 54505
+    },
+    {
+      "epoch": 8.892332789559543,
+      "grad_norm": 0.005222649779170752,
+      "learning_rate": 0.0006798217472960407,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 117750448,
+      "step": 54510
+    },
+    {
+      "epoch": 8.893148450244698,
+      "grad_norm": 0.26809030771255493,
+      "learning_rate": 0.0006797553283082922,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 117760848,
+      "step": 54515
+    },
+    {
+      "epoch": 8.893964110929852,
+      "grad_norm": 0.004433480557054281,
+      "learning_rate": 0.000679688905677574,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 117770960,
+      "step": 54520
+    },
+    {
+      "epoch": 8.894779771615008,
+      "grad_norm": 0.006452389992773533,
+      "learning_rate": 0.0006796224794052322,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 117781744,
+      "step": 54525
+    },
+    {
+      "epoch": 8.895595432300164,
+      "grad_norm": 0.13232830166816711,
+      "learning_rate": 0.0006795560494926129,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 117792368,
+      "step": 54530
+    },
+    {
+      "epoch": 8.896411092985318,
+      "grad_norm": 0.0037049497477710247,
+      "learning_rate": 0.0006794896159410625,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 117802800,
+      "step": 54535
+    },
+    {
+      "epoch": 8.897226753670473,
+      "grad_norm": 0.005620979238301516,
+      "learning_rate": 0.0006794231787519274,
+      "loss": 0.124,
+      "num_input_tokens_seen": 117812624,
+      "step": 54540
+    },
+    {
+      "epoch": 8.898042414355627,
+      "grad_norm": 0.004999668337404728,
+      "learning_rate": 0.000679356737926554,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 117823984,
+      "step": 54545
+    },
+    {
+      "epoch": 8.898858075040783,
+      "grad_norm": 0.044155821204185486,
+      "learning_rate": 0.0006792902934662885,
+      "loss": 0.048,
+      "num_input_tokens_seen": 117834448,
+      "step": 54550
+    },
+    {
+      "epoch": 8.899673735725939,
+      "grad_norm": 0.031155651435256004,
+      "learning_rate": 0.000679223845372478,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 117845104,
+      "step": 54555
+    },
+    {
+      "epoch": 8.900489396411093,
+      "grad_norm": 0.1095210388302803,
+      "learning_rate": 0.0006791573936464689,
+      "loss": 0.3007,
+      "num_input_tokens_seen": 117854992,
+      "step": 54560
+    },
+    {
+      "epoch": 8.901305057096248,
+      "grad_norm": 0.1805056929588318,
+      "learning_rate": 0.0006790909382896079,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 117864592,
+      "step": 54565
+    },
+    {
+      "epoch": 8.902120717781402,
+      "grad_norm": 0.012045920826494694,
+      "learning_rate": 0.0006790244793032418,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 117875472,
+      "step": 54570
+    },
+    {
+      "epoch": 8.902936378466558,
+      "grad_norm": 0.3896695375442505,
+      "learning_rate": 0.0006789580166887176,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 117886416,
+      "step": 54575
+    },
+    {
+      "epoch": 8.903752039151712,
+      "grad_norm": 0.13602808117866516,
+      "learning_rate": 0.0006788915504473822,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 117897872,
+      "step": 54580
+    },
+    {
+      "epoch": 8.904567699836868,
+      "grad_norm": 0.13074855506420135,
+      "learning_rate": 0.0006788250805805824,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 117908112,
+      "step": 54585
+    },
+    {
+      "epoch": 8.905383360522023,
+      "grad_norm": 0.02051844261586666,
+      "learning_rate": 0.0006787586070896657,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 117919248,
+      "step": 54590
+    },
+    {
+      "epoch": 8.906199021207177,
+      "grad_norm": 0.020327605307102203,
+      "learning_rate": 0.0006786921299759789,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 117928624,
+      "step": 54595
+    },
+    {
+      "epoch": 8.907014681892333,
+      "grad_norm": 0.06539393216371536,
+      "learning_rate": 0.0006786256492408694,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 117940624,
+      "step": 54600
+    },
+    {
+      "epoch": 8.907830342577487,
+      "grad_norm": 0.0312392208725214,
+      "learning_rate": 0.0006785591648856846,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 117952304,
+      "step": 54605
+    },
+    {
+      "epoch": 8.908646003262643,
+      "grad_norm": 0.010261873714625835,
+      "learning_rate": 0.0006784926769117717,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 117964048,
+      "step": 54610
+    },
+    {
+      "epoch": 8.909461663947798,
+      "grad_norm": 0.04237981513142586,
+      "learning_rate": 0.0006784261853204783,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 117975472,
+      "step": 54615
+    },
+    {
+      "epoch": 8.910277324632952,
+      "grad_norm": 0.43529877066612244,
+      "learning_rate": 0.0006783596901131521,
+      "loss": 0.2285,
+      "num_input_tokens_seen": 117986192,
+      "step": 54620
+    },
+    {
+      "epoch": 8.911092985318108,
+      "grad_norm": 0.8742546439170837,
+      "learning_rate": 0.0006782931912911402,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 117997200,
+      "step": 54625
+    },
+    {
+      "epoch": 8.911908646003262,
+      "grad_norm": 0.07040494680404663,
+      "learning_rate": 0.0006782266888557909,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 118007952,
+      "step": 54630
+    },
+    {
+      "epoch": 8.912724306688418,
+      "grad_norm": 0.02308201789855957,
+      "learning_rate": 0.0006781601828084513,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 118019824,
+      "step": 54635
+    },
+    {
+      "epoch": 8.913539967373573,
+      "grad_norm": 0.05983942374587059,
+      "learning_rate": 0.0006780936731504699,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 118030160,
+      "step": 54640
+    },
+    {
+      "epoch": 8.914355628058727,
+      "grad_norm": 0.02567743882536888,
+      "learning_rate": 0.0006780271598831942,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 118040784,
+      "step": 54645
+    },
+    {
+      "epoch": 8.915171288743883,
+      "grad_norm": 0.09421033412218094,
+      "learning_rate": 0.0006779606430079723,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 118050928,
+      "step": 54650
+    },
+    {
+      "epoch": 8.915986949429037,
+      "grad_norm": 0.1930844634771347,
+      "learning_rate": 0.0006778941225261522,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 118062096,
+      "step": 54655
+    },
+    {
+      "epoch": 8.916802610114193,
+      "grad_norm": 0.006250257138162851,
+      "learning_rate": 0.0006778275984390819,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 118073968,
+      "step": 54660
+    },
+    {
+      "epoch": 8.917618270799348,
+      "grad_norm": 0.032026421278715134,
+      "learning_rate": 0.0006777610707481099,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 118084912,
+      "step": 54665
+    },
+    {
+      "epoch": 8.918433931484502,
+      "grad_norm": 0.29081985354423523,
+      "learning_rate": 0.0006776945394545841,
+      "loss": 0.1938,
+      "num_input_tokens_seen": 118095056,
+      "step": 54670
+    },
+    {
+      "epoch": 8.919249592169658,
+      "grad_norm": 0.2211325615644455,
+      "learning_rate": 0.0006776280045598533,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 118106352,
+      "step": 54675
+    },
+    {
+      "epoch": 8.920065252854812,
+      "grad_norm": 0.21044909954071045,
+      "learning_rate": 0.0006775614660652655,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 118118576,
+      "step": 54680
+    },
+    {
+      "epoch": 8.920880913539968,
+      "grad_norm": 0.26746198534965515,
+      "learning_rate": 0.0006774949239721692,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 118130320,
+      "step": 54685
+    },
+    {
+      "epoch": 8.921696574225122,
+      "grad_norm": 0.005159418564289808,
+      "learning_rate": 0.0006774283782819133,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 118141232,
+      "step": 54690
+    },
+    {
+      "epoch": 8.922512234910277,
+      "grad_norm": 0.00886352825909853,
+      "learning_rate": 0.0006773618289958462,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 118152304,
+      "step": 54695
+    },
+    {
+      "epoch": 8.923327895595433,
+      "grad_norm": 0.04698998108506203,
+      "learning_rate": 0.0006772952761153167,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 118162960,
+      "step": 54700
+    },
+    {
+      "epoch": 8.924143556280587,
+      "grad_norm": 0.026449838653206825,
+      "learning_rate": 0.0006772287196416733,
+      "loss": 0.1556,
+      "num_input_tokens_seen": 118173840,
+      "step": 54705
+    },
+    {
+      "epoch": 8.924959216965743,
+      "grad_norm": 0.09392181783914566,
+      "learning_rate": 0.0006771621595762652,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 118184272,
+      "step": 54710
+    },
+    {
+      "epoch": 8.925774877650896,
+      "grad_norm": 0.011575781740248203,
+      "learning_rate": 0.0006770955959204412,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 118195408,
+      "step": 54715
+    },
+    {
+      "epoch": 8.926590538336052,
+      "grad_norm": 0.0434119813144207,
+      "learning_rate": 0.0006770290286755503,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 118204784,
+      "step": 54720
+    },
+    {
+      "epoch": 8.927406199021208,
+      "grad_norm": 0.1033087745308876,
+      "learning_rate": 0.0006769624578429414,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 118214448,
+      "step": 54725
+    },
+    {
+      "epoch": 8.928221859706362,
+      "grad_norm": 0.01915070414543152,
+      "learning_rate": 0.0006768958834239639,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 118223952,
+      "step": 54730
+    },
+    {
+      "epoch": 8.929037520391518,
+      "grad_norm": 0.05163106694817543,
+      "learning_rate": 0.0006768293054199669,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 118235856,
+      "step": 54735
+    },
+    {
+      "epoch": 8.929853181076671,
+      "grad_norm": 0.0274738110601902,
+      "learning_rate": 0.0006767627238322998,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 118247536,
+      "step": 54740
+    },
+    {
+      "epoch": 8.930668841761827,
+      "grad_norm": 0.03914555907249451,
+      "learning_rate": 0.0006766961386623118,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 118258512,
+      "step": 54745
+    },
+    {
+      "epoch": 8.931484502446983,
+      "grad_norm": 0.009585415944457054,
+      "learning_rate": 0.0006766295499113524,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 118268144,
+      "step": 54750
+    },
+    {
+      "epoch": 8.932300163132137,
+      "grad_norm": 0.05026097968220711,
+      "learning_rate": 0.000676562957580771,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 118279216,
+      "step": 54755
+    },
+    {
+      "epoch": 8.933115823817293,
+      "grad_norm": 0.08081215620040894,
+      "learning_rate": 0.0006764963616719174,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 118291312,
+      "step": 54760
+    },
+    {
+      "epoch": 8.933931484502446,
+      "grad_norm": 0.08607519418001175,
+      "learning_rate": 0.000676429762186141,
+      "loss": 0.016,
+      "num_input_tokens_seen": 118302832,
+      "step": 54765
+    },
+    {
+      "epoch": 8.934747145187602,
+      "grad_norm": 0.5207202434539795,
+      "learning_rate": 0.0006763631591247917,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 118314224,
+      "step": 54770
+    },
+    {
+      "epoch": 8.935562805872756,
+      "grad_norm": 0.007003180216997862,
+      "learning_rate": 0.0006762965524892194,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 118325552,
+      "step": 54775
+    },
+    {
+      "epoch": 8.936378466557912,
+      "grad_norm": 0.030011018738150597,
+      "learning_rate": 0.0006762299422807737,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 118335376,
+      "step": 54780
+    },
+    {
+      "epoch": 8.937194127243067,
+      "grad_norm": 0.006405920721590519,
+      "learning_rate": 0.0006761633285008046,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 118346640,
+      "step": 54785
+    },
+    {
+      "epoch": 8.938009787928221,
+      "grad_norm": 0.49705770611763,
+      "learning_rate": 0.0006760967111506623,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 118356464,
+      "step": 54790
+    },
+    {
+      "epoch": 8.938825448613377,
+      "grad_norm": 0.3860141932964325,
+      "learning_rate": 0.0006760300902316967,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 118365744,
+      "step": 54795
+    },
+    {
+      "epoch": 8.939641109298531,
+      "grad_norm": 0.16810378432273865,
+      "learning_rate": 0.000675963465745258,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 118376240,
+      "step": 54800
+    },
+    {
+      "epoch": 8.940456769983687,
+      "grad_norm": 0.009920637123286724,
+      "learning_rate": 0.0006758968376926965,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 118387440,
+      "step": 54805
+    },
+    {
+      "epoch": 8.941272430668842,
+      "grad_norm": 0.024205774068832397,
+      "learning_rate": 0.0006758302060753624,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 118398576,
+      "step": 54810
+    },
+    {
+      "epoch": 8.942088091353996,
+      "grad_norm": 0.006671852432191372,
+      "learning_rate": 0.000675763570894606,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 118410384,
+      "step": 54815
+    },
+    {
+      "epoch": 8.942903752039152,
+      "grad_norm": 0.015929104760289192,
+      "learning_rate": 0.0006756969321517781,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 118420720,
+      "step": 54820
+    },
+    {
+      "epoch": 8.943719412724306,
+      "grad_norm": 0.023308448493480682,
+      "learning_rate": 0.0006756302898482288,
+      "loss": 0.014,
+      "num_input_tokens_seen": 118432688,
+      "step": 54825
+    },
+    {
+      "epoch": 8.944535073409462,
+      "grad_norm": 0.016953030601143837,
+      "learning_rate": 0.0006755636439853089,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 118444144,
+      "step": 54830
+    },
+    {
+      "epoch": 8.945350734094617,
+      "grad_norm": 0.1932719647884369,
+      "learning_rate": 0.0006754969945643689,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 118455184,
+      "step": 54835
+    },
+    {
+      "epoch": 8.946166394779771,
+      "grad_norm": 0.028529340401291847,
+      "learning_rate": 0.0006754303415867599,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 118465936,
+      "step": 54840
+    },
+    {
+      "epoch": 8.946982055464927,
+      "grad_norm": 0.041322022676467896,
+      "learning_rate": 0.0006753636850538325,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 118477392,
+      "step": 54845
+    },
+    {
+      "epoch": 8.947797716150081,
+      "grad_norm": 0.04866543412208557,
+      "learning_rate": 0.0006752970249669374,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 118488816,
+      "step": 54850
+    },
+    {
+      "epoch": 8.948613376835237,
+      "grad_norm": 0.028561508283019066,
+      "learning_rate": 0.0006752303613274257,
+      "loss": 0.2118,
+      "num_input_tokens_seen": 118500848,
+      "step": 54855
+    },
+    {
+      "epoch": 8.949429037520392,
+      "grad_norm": 0.5350882411003113,
+      "learning_rate": 0.0006751636941366486,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 118511376,
+      "step": 54860
+    },
+    {
+      "epoch": 8.950244698205546,
+      "grad_norm": 0.08346492052078247,
+      "learning_rate": 0.000675097023395957,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 118521776,
+      "step": 54865
+    },
+    {
+      "epoch": 8.951060358890702,
+      "grad_norm": 0.10249694436788559,
+      "learning_rate": 0.0006750303491067021,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 118532400,
+      "step": 54870
+    },
+    {
+      "epoch": 8.951876019575856,
+      "grad_norm": 0.07672520726919174,
+      "learning_rate": 0.0006749636712702349,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 118541424,
+      "step": 54875
+    },
+    {
+      "epoch": 8.952691680261012,
+      "grad_norm": 0.3835560381412506,
+      "learning_rate": 0.0006748969898879071,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 118551856,
+      "step": 54880
+    },
+    {
+      "epoch": 8.953507340946166,
+      "grad_norm": 0.003387624863535166,
+      "learning_rate": 0.00067483030496107,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 118562192,
+      "step": 54885
+    },
+    {
+      "epoch": 8.954323001631321,
+      "grad_norm": 0.007898389361798763,
+      "learning_rate": 0.000674763616491075,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 118572624,
+      "step": 54890
+    },
+    {
+      "epoch": 8.955138662316477,
+      "grad_norm": 0.019596073776483536,
+      "learning_rate": 0.0006746969244792734,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 118584048,
+      "step": 54895
+    },
+    {
+      "epoch": 8.955954323001631,
+      "grad_norm": 0.005080987699329853,
+      "learning_rate": 0.0006746302289270172,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 118595696,
+      "step": 54900
+    },
+    {
+      "epoch": 8.956769983686787,
+      "grad_norm": 0.012511802837252617,
+      "learning_rate": 0.0006745635298356579,
+      "loss": 0.079,
+      "num_input_tokens_seen": 118605392,
+      "step": 54905
+    },
+    {
+      "epoch": 8.95758564437194,
+      "grad_norm": 0.11990555375814438,
+      "learning_rate": 0.0006744968272065469,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 118615024,
+      "step": 54910
+    },
+    {
+      "epoch": 8.958401305057096,
+      "grad_norm": 0.019289560616016388,
+      "learning_rate": 0.0006744301210410366,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 118625968,
+      "step": 54915
+    },
+    {
+      "epoch": 8.959216965742252,
+      "grad_norm": 0.0528937429189682,
+      "learning_rate": 0.0006743634113404786,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 118635824,
+      "step": 54920
+    },
+    {
+      "epoch": 8.960032626427406,
+      "grad_norm": 0.04663698002696037,
+      "learning_rate": 0.0006742966981062249,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 118644624,
+      "step": 54925
+    },
+    {
+      "epoch": 8.960848287112562,
+      "grad_norm": 0.0013387626968324184,
+      "learning_rate": 0.0006742299813396274,
+      "loss": 0.0941,
+      "num_input_tokens_seen": 118653168,
+      "step": 54930
+    },
+    {
+      "epoch": 8.961663947797716,
+      "grad_norm": 0.02348313294351101,
+      "learning_rate": 0.0006741632610420384,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 118663856,
+      "step": 54935
+    },
+    {
+      "epoch": 8.962479608482871,
+      "grad_norm": 0.19825030863285065,
+      "learning_rate": 0.0006740965372148098,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 118674480,
+      "step": 54940
+    },
+    {
+      "epoch": 8.963295269168025,
+      "grad_norm": 0.36576709151268005,
+      "learning_rate": 0.0006740298098592941,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 118684848,
+      "step": 54945
+    },
+    {
+      "epoch": 8.964110929853181,
+      "grad_norm": 0.25725460052490234,
+      "learning_rate": 0.0006739630789768436,
+      "loss": 0.081,
+      "num_input_tokens_seen": 118696400,
+      "step": 54950
+    },
+    {
+      "epoch": 8.964926590538337,
+      "grad_norm": 0.06459327787160873,
+      "learning_rate": 0.0006738963445688107,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 118707120,
+      "step": 54955
+    },
+    {
+      "epoch": 8.96574225122349,
+      "grad_norm": 0.043718330562114716,
+      "learning_rate": 0.0006738296066365476,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 118717200,
+      "step": 54960
+    },
+    {
+      "epoch": 8.966557911908646,
+      "grad_norm": 0.09502162039279938,
+      "learning_rate": 0.000673762865181407,
+      "loss": 0.2014,
+      "num_input_tokens_seen": 118728336,
+      "step": 54965
+    },
+    {
+      "epoch": 8.9673735725938,
+      "grad_norm": 0.094657763838768,
+      "learning_rate": 0.0006736961202047417,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 118738928,
+      "step": 54970
+    },
+    {
+      "epoch": 8.968189233278956,
+      "grad_norm": 0.017213786020874977,
+      "learning_rate": 0.0006736293717079041,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 118750096,
+      "step": 54975
+    },
+    {
+      "epoch": 8.969004893964112,
+      "grad_norm": 0.019299479201436043,
+      "learning_rate": 0.0006735626196922469,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 118760176,
+      "step": 54980
+    },
+    {
+      "epoch": 8.969820554649266,
+      "grad_norm": 0.21472111344337463,
+      "learning_rate": 0.0006734958641591231,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 118770928,
+      "step": 54985
+    },
+    {
+      "epoch": 8.970636215334421,
+      "grad_norm": 0.022455843165516853,
+      "learning_rate": 0.0006734291051098856,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 118782576,
+      "step": 54990
+    },
+    {
+      "epoch": 8.971451876019575,
+      "grad_norm": 0.003710412187501788,
+      "learning_rate": 0.0006733623425458871,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 118794128,
+      "step": 54995
+    },
+    {
+      "epoch": 8.97226753670473,
+      "grad_norm": 0.005927415564656258,
+      "learning_rate": 0.000673295576468481,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 118804048,
+      "step": 55000
+    },
+    {
+      "epoch": 8.973083197389887,
+      "grad_norm": 0.19900697469711304,
+      "learning_rate": 0.00067322880687902,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 118814800,
+      "step": 55005
+    },
+    {
+      "epoch": 8.97389885807504,
+      "grad_norm": 0.2374364286661148,
+      "learning_rate": 0.0006731620337788576,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 118825616,
+      "step": 55010
+    },
+    {
+      "epoch": 8.974714518760196,
+      "grad_norm": 0.05746473744511604,
+      "learning_rate": 0.0006730952571693469,
+      "loss": 0.0391,
+      "num_input_tokens_seen": 118836208,
+      "step": 55015
+    },
+    {
+      "epoch": 8.97553017944535,
+      "grad_norm": 0.020573321729898453,
+      "learning_rate": 0.0006730284770518412,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 118847344,
+      "step": 55020
+    },
+    {
+      "epoch": 8.976345840130506,
+      "grad_norm": 0.009821916930377483,
+      "learning_rate": 0.0006729616934276939,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 118857840,
+      "step": 55025
+    },
+    {
+      "epoch": 8.977161500815662,
+      "grad_norm": 0.005163253750652075,
+      "learning_rate": 0.0006728949062982585,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 118867984,
+      "step": 55030
+    },
+    {
+      "epoch": 8.977977161500815,
+      "grad_norm": 0.0437258705496788,
+      "learning_rate": 0.0006728281156648885,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 118879696,
+      "step": 55035
+    },
+    {
+      "epoch": 8.978792822185971,
+      "grad_norm": 0.02063642628490925,
+      "learning_rate": 0.0006727613215289374,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 118891088,
+      "step": 55040
+    },
+    {
+      "epoch": 8.979608482871125,
+      "grad_norm": 0.00389106129296124,
+      "learning_rate": 0.0006726945238917589,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 118902672,
+      "step": 55045
+    },
+    {
+      "epoch": 8.98042414355628,
+      "grad_norm": 0.3619442880153656,
+      "learning_rate": 0.000672627722754707,
+      "loss": 0.2283,
+      "num_input_tokens_seen": 118913200,
+      "step": 55050
+    },
+    {
+      "epoch": 8.981239804241435,
+      "grad_norm": 0.014173166826367378,
+      "learning_rate": 0.0006725609181191352,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 118924816,
+      "step": 55055
+    },
+    {
+      "epoch": 8.98205546492659,
+      "grad_norm": 0.017785949632525444,
+      "learning_rate": 0.0006724941099863975,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 118934896,
+      "step": 55060
+    },
+    {
+      "epoch": 8.982871125611746,
+      "grad_norm": 0.01947389915585518,
+      "learning_rate": 0.0006724272983578478,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 118943728,
+      "step": 55065
+    },
+    {
+      "epoch": 8.9836867862969,
+      "grad_norm": 0.08733158558607101,
+      "learning_rate": 0.0006723604832348403,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 118955024,
+      "step": 55070
+    },
+    {
+      "epoch": 8.984502446982056,
+      "grad_norm": 0.038850247859954834,
+      "learning_rate": 0.0006722936646187288,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 118966320,
+      "step": 55075
+    },
+    {
+      "epoch": 8.98531810766721,
+      "grad_norm": 0.018704602494835854,
+      "learning_rate": 0.0006722268425108675,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 118976656,
+      "step": 55080
+    },
+    {
+      "epoch": 8.986133768352365,
+      "grad_norm": 0.15029045939445496,
+      "learning_rate": 0.000672160016912611,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 118987472,
+      "step": 55085
+    },
+    {
+      "epoch": 8.986949429037521,
+      "grad_norm": 0.4871756434440613,
+      "learning_rate": 0.0006720931878253133,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 118997904,
+      "step": 55090
+    },
+    {
+      "epoch": 8.987765089722675,
+      "grad_norm": 0.00840507447719574,
+      "learning_rate": 0.0006720263552503288,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 119008080,
+      "step": 55095
+    },
+    {
+      "epoch": 8.98858075040783,
+      "grad_norm": 0.2138519436120987,
+      "learning_rate": 0.000671959519189012,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 119018064,
+      "step": 55100
+    },
+    {
+      "epoch": 8.989396411092985,
+      "grad_norm": 0.04366368055343628,
+      "learning_rate": 0.0006718926796427174,
+      "loss": 0.1852,
+      "num_input_tokens_seen": 119027472,
+      "step": 55105
+    },
+    {
+      "epoch": 8.99021207177814,
+      "grad_norm": 0.26440298557281494,
+      "learning_rate": 0.0006718258366127995,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 119038160,
+      "step": 55110
+    },
+    {
+      "epoch": 8.991027732463294,
+      "grad_norm": 0.026875967159867287,
+      "learning_rate": 0.0006717589901006131,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 119048464,
+      "step": 55115
+    },
+    {
+      "epoch": 8.99184339314845,
+      "grad_norm": 0.2834641933441162,
+      "learning_rate": 0.0006716921401075129,
+      "loss": 0.2825,
+      "num_input_tokens_seen": 119059056,
+      "step": 55120
+    },
+    {
+      "epoch": 8.992659053833606,
+      "grad_norm": 0.2926873564720154,
+      "learning_rate": 0.0006716252866348537,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 119069648,
+      "step": 55125
+    },
+    {
+      "epoch": 8.99347471451876,
+      "grad_norm": 0.2594529986381531,
+      "learning_rate": 0.0006715584296839903,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 119079920,
+      "step": 55130
+    },
+    {
+      "epoch": 8.994290375203915,
+      "grad_norm": 0.018395302817225456,
+      "learning_rate": 0.0006714915692562777,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 119090896,
+      "step": 55135
+    },
+    {
+      "epoch": 8.99510603588907,
+      "grad_norm": 0.043946582823991776,
+      "learning_rate": 0.0006714247053530709,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 119101360,
+      "step": 55140
+    },
+    {
+      "epoch": 8.995921696574225,
+      "grad_norm": 0.04027822986245155,
+      "learning_rate": 0.0006713578379757251,
+      "loss": 0.068,
+      "num_input_tokens_seen": 119112336,
+      "step": 55145
+    },
+    {
+      "epoch": 8.99673735725938,
+      "grad_norm": 0.14224760234355927,
+      "learning_rate": 0.0006712909671255952,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 119121712,
+      "step": 55150
+    },
+    {
+      "epoch": 8.997553017944535,
+      "grad_norm": 0.085087850689888,
+      "learning_rate": 0.0006712240928040363,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 119133424,
+      "step": 55155
+    },
+    {
+      "epoch": 8.99836867862969,
+      "grad_norm": 0.0085781030356884,
+      "learning_rate": 0.0006711572150124043,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 119145360,
+      "step": 55160
+    },
+    {
+      "epoch": 8.999184339314844,
+      "grad_norm": 0.0073289647698402405,
+      "learning_rate": 0.0006710903337520539,
+      "loss": 0.0478,
+      "num_input_tokens_seen": 119155568,
+      "step": 55165
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.013840760104358196,
+      "learning_rate": 0.0006710234490243412,
+      "loss": 0.2284,
+      "num_input_tokens_seen": 119164864,
+      "step": 55170
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.1312951296567917,
+      "eval_runtime": 103.641,
+      "eval_samples_per_second": 26.293,
+      "eval_steps_per_second": 6.58,
+      "num_input_tokens_seen": 119164864,
+      "step": 55170
+    },
+    {
+      "epoch": 9.000815660685156,
+      "grad_norm": 0.012224181555211544,
+      "learning_rate": 0.0006709565608306212,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 119176256,
+      "step": 55175
+    },
+    {
+      "epoch": 9.00163132137031,
+      "grad_norm": 0.18823717534542084,
+      "learning_rate": 0.0006708896691722495,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 119187200,
+      "step": 55180
+    },
+    {
+      "epoch": 9.002446982055465,
+      "grad_norm": 0.006239529699087143,
+      "learning_rate": 0.0006708227740505822,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 119199072,
+      "step": 55185
+    },
+    {
+      "epoch": 9.00326264274062,
+      "grad_norm": 0.0993809700012207,
+      "learning_rate": 0.0006707558754669744,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 119210016,
+      "step": 55190
+    },
+    {
+      "epoch": 9.004078303425775,
+      "grad_norm": 0.16244710981845856,
+      "learning_rate": 0.0006706889734227823,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 119221376,
+      "step": 55195
+    },
+    {
+      "epoch": 9.00489396411093,
+      "grad_norm": 0.14778240025043488,
+      "learning_rate": 0.0006706220679193614,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 119232672,
+      "step": 55200
+    },
+    {
+      "epoch": 9.005709624796085,
+      "grad_norm": 0.04779522493481636,
+      "learning_rate": 0.000670555158958068,
+      "loss": 0.2511,
+      "num_input_tokens_seen": 119243072,
+      "step": 55205
+    },
+    {
+      "epoch": 9.00652528548124,
+      "grad_norm": 0.05503462255001068,
+      "learning_rate": 0.0006704882465402579,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 119254016,
+      "step": 55210
+    },
+    {
+      "epoch": 9.007340946166394,
+      "grad_norm": 0.02401323802769184,
+      "learning_rate": 0.0006704213306672873,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 119264448,
+      "step": 55215
+    },
+    {
+      "epoch": 9.00815660685155,
+      "grad_norm": 0.11283843219280243,
+      "learning_rate": 0.0006703544113405122,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 119275424,
+      "step": 55220
+    },
+    {
+      "epoch": 9.008972267536704,
+      "grad_norm": 0.09734462946653366,
+      "learning_rate": 0.0006702874885612887,
+      "loss": 0.071,
+      "num_input_tokens_seen": 119287392,
+      "step": 55225
+    },
+    {
+      "epoch": 9.00978792822186,
+      "grad_norm": 0.24100083112716675,
+      "learning_rate": 0.0006702205623309734,
+      "loss": 0.102,
+      "num_input_tokens_seen": 119297472,
+      "step": 55230
+    },
+    {
+      "epoch": 9.010603588907015,
+      "grad_norm": 0.011355135589838028,
+      "learning_rate": 0.0006701536326509224,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 119308416,
+      "step": 55235
+    },
+    {
+      "epoch": 9.01141924959217,
+      "grad_norm": 0.004279524087905884,
+      "learning_rate": 0.0006700866995224921,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 119318592,
+      "step": 55240
+    },
+    {
+      "epoch": 9.012234910277325,
+      "grad_norm": 0.1352081000804901,
+      "learning_rate": 0.0006700197629470393,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 119329696,
+      "step": 55245
+    },
+    {
+      "epoch": 9.013050570962479,
+      "grad_norm": 0.013182039372622967,
+      "learning_rate": 0.00066995282292592,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 119339936,
+      "step": 55250
+    },
+    {
+      "epoch": 9.013866231647635,
+      "grad_norm": 0.019128017127513885,
+      "learning_rate": 0.0006698858794604914,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 119350752,
+      "step": 55255
+    },
+    {
+      "epoch": 9.01468189233279,
+      "grad_norm": 0.10801997780799866,
+      "learning_rate": 0.0006698189325521097,
+      "loss": 0.1493,
+      "num_input_tokens_seen": 119362048,
+      "step": 55260
+    },
+    {
+      "epoch": 9.015497553017944,
+      "grad_norm": 0.020492171868681908,
+      "learning_rate": 0.000669751982202132,
+      "loss": 0.016,
+      "num_input_tokens_seen": 119371488,
+      "step": 55265
+    },
+    {
+      "epoch": 9.0163132137031,
+      "grad_norm": 0.00517929857596755,
+      "learning_rate": 0.0006696850284119151,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 119382336,
+      "step": 55270
+    },
+    {
+      "epoch": 9.017128874388254,
+      "grad_norm": 0.10492771118879318,
+      "learning_rate": 0.0006696180711828159,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 119392384,
+      "step": 55275
+    },
+    {
+      "epoch": 9.01794453507341,
+      "grad_norm": 0.01910402998328209,
+      "learning_rate": 0.0006695511105161913,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 119404640,
+      "step": 55280
+    },
+    {
+      "epoch": 9.018760195758565,
+      "grad_norm": 0.01113252155482769,
+      "learning_rate": 0.0006694841464133981,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 119414816,
+      "step": 55285
+    },
+    {
+      "epoch": 9.01957585644372,
+      "grad_norm": 0.0077075595036149025,
+      "learning_rate": 0.0006694171788757939,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 119425824,
+      "step": 55290
+    },
+    {
+      "epoch": 9.020391517128875,
+      "grad_norm": 0.29589682817459106,
+      "learning_rate": 0.0006693502079047356,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 119437344,
+      "step": 55295
+    },
+    {
+      "epoch": 9.021207177814029,
+      "grad_norm": 0.08724862337112427,
+      "learning_rate": 0.0006692832335015806,
+      "loss": 0.2134,
+      "num_input_tokens_seen": 119448896,
+      "step": 55300
+    },
+    {
+      "epoch": 9.022022838499185,
+      "grad_norm": 0.045984670519828796,
+      "learning_rate": 0.000669216255667686,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 119459904,
+      "step": 55305
+    },
+    {
+      "epoch": 9.022838499184338,
+      "grad_norm": 0.0032309559173882008,
+      "learning_rate": 0.0006691492744044093,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 119470624,
+      "step": 55310
+    },
+    {
+      "epoch": 9.023654159869494,
+      "grad_norm": 0.6814609169960022,
+      "learning_rate": 0.000669082289713108,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 119481408,
+      "step": 55315
+    },
+    {
+      "epoch": 9.02446982055465,
+      "grad_norm": 0.009352785535156727,
+      "learning_rate": 0.0006690153015951397,
+      "loss": 0.03,
+      "num_input_tokens_seen": 119493376,
+      "step": 55320
+    },
+    {
+      "epoch": 9.025285481239804,
+      "grad_norm": 0.06866900622844696,
+      "learning_rate": 0.0006689483100518617,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 119505056,
+      "step": 55325
+    },
+    {
+      "epoch": 9.02610114192496,
+      "grad_norm": 0.06737705320119858,
+      "learning_rate": 0.000668881315084632,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 119516096,
+      "step": 55330
+    },
+    {
+      "epoch": 9.026916802610113,
+      "grad_norm": 0.14733898639678955,
+      "learning_rate": 0.0006688143166948082,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 119526944,
+      "step": 55335
+    },
+    {
+      "epoch": 9.02773246329527,
+      "grad_norm": 0.031115690246224403,
+      "learning_rate": 0.0006687473148837482,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 119537280,
+      "step": 55340
+    },
+    {
+      "epoch": 9.028548123980425,
+      "grad_norm": 0.0266889575868845,
+      "learning_rate": 0.0006686803096528096,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 119547744,
+      "step": 55345
+    },
+    {
+      "epoch": 9.029363784665579,
+      "grad_norm": 0.0063073355704545975,
+      "learning_rate": 0.0006686133010033507,
+      "loss": 0.1827,
+      "num_input_tokens_seen": 119558784,
+      "step": 55350
+    },
+    {
+      "epoch": 9.030179445350734,
+      "grad_norm": 0.15066297352313995,
+      "learning_rate": 0.0006685462889367293,
+      "loss": 0.0953,
+      "num_input_tokens_seen": 119569056,
+      "step": 55355
+    },
+    {
+      "epoch": 9.030995106035888,
+      "grad_norm": 0.6305835843086243,
+      "learning_rate": 0.0006684792734543036,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 119579808,
+      "step": 55360
+    },
+    {
+      "epoch": 9.031810766721044,
+      "grad_norm": 0.05144287645816803,
+      "learning_rate": 0.0006684122545574315,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 119590816,
+      "step": 55365
+    },
+    {
+      "epoch": 9.0326264274062,
+      "grad_norm": 0.07655679434537888,
+      "learning_rate": 0.0006683452322474715,
+      "loss": 0.1697,
+      "num_input_tokens_seen": 119600640,
+      "step": 55370
+    },
+    {
+      "epoch": 9.033442088091354,
+      "grad_norm": 0.08831831812858582,
+      "learning_rate": 0.0006682782065257818,
+      "loss": 0.007,
+      "num_input_tokens_seen": 119611328,
+      "step": 55375
+    },
+    {
+      "epoch": 9.03425774877651,
+      "grad_norm": 0.04714163392782211,
+      "learning_rate": 0.000668211177393721,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 119622368,
+      "step": 55380
+    },
+    {
+      "epoch": 9.035073409461663,
+      "grad_norm": 0.17070084810256958,
+      "learning_rate": 0.0006681441448526471,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 119632960,
+      "step": 55385
+    },
+    {
+      "epoch": 9.035889070146819,
+      "grad_norm": 0.1857834756374359,
+      "learning_rate": 0.0006680771089039188,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 119644096,
+      "step": 55390
+    },
+    {
+      "epoch": 9.036704730831975,
+      "grad_norm": 0.14468571543693542,
+      "learning_rate": 0.0006680100695488946,
+      "loss": 0.088,
+      "num_input_tokens_seen": 119655456,
+      "step": 55395
+    },
+    {
+      "epoch": 9.037520391517129,
+      "grad_norm": 0.0060724965296685696,
+      "learning_rate": 0.0006679430267889332,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 119666240,
+      "step": 55400
+    },
+    {
+      "epoch": 9.038336052202284,
+      "grad_norm": 0.08735064417123795,
+      "learning_rate": 0.0006678759806253933,
+      "loss": 0.1389,
+      "num_input_tokens_seen": 119678272,
+      "step": 55405
+    },
+    {
+      "epoch": 9.039151712887438,
+      "grad_norm": 0.08246026933193207,
+      "learning_rate": 0.0006678089310596339,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 119688224,
+      "step": 55410
+    },
+    {
+      "epoch": 9.039967373572594,
+      "grad_norm": 0.011172840371727943,
+      "learning_rate": 0.0006677418780930136,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 119698752,
+      "step": 55415
+    },
+    {
+      "epoch": 9.040783034257748,
+      "grad_norm": 0.007427356671541929,
+      "learning_rate": 0.0006676748217268912,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 119709600,
+      "step": 55420
+    },
+    {
+      "epoch": 9.041598694942904,
+      "grad_norm": 0.22098654508590698,
+      "learning_rate": 0.0006676077619626259,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 119719552,
+      "step": 55425
+    },
+    {
+      "epoch": 9.04241435562806,
+      "grad_norm": 0.717595636844635,
+      "learning_rate": 0.0006675406988015766,
+      "loss": 0.0553,
+      "num_input_tokens_seen": 119730112,
+      "step": 55430
+    },
+    {
+      "epoch": 9.043230016313213,
+      "grad_norm": 0.06307411193847656,
+      "learning_rate": 0.0006674736322451027,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 119741120,
+      "step": 55435
+    },
+    {
+      "epoch": 9.044045676998369,
+      "grad_norm": 0.021658165380358696,
+      "learning_rate": 0.000667406562294563,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 119752480,
+      "step": 55440
+    },
+    {
+      "epoch": 9.044861337683523,
+      "grad_norm": 0.03899122402071953,
+      "learning_rate": 0.0006673394889513169,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 119763552,
+      "step": 55445
+    },
+    {
+      "epoch": 9.045676998368679,
+      "grad_norm": 0.1413194090127945,
+      "learning_rate": 0.000667272412216724,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 119774944,
+      "step": 55450
+    },
+    {
+      "epoch": 9.046492659053834,
+      "grad_norm": 0.017150040715932846,
+      "learning_rate": 0.0006672053320921433,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 119786112,
+      "step": 55455
+    },
+    {
+      "epoch": 9.047308319738988,
+      "grad_norm": 0.016458654776215553,
+      "learning_rate": 0.0006671382485789344,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 119797920,
+      "step": 55460
+    },
+    {
+      "epoch": 9.048123980424144,
+      "grad_norm": 0.026537369936704636,
+      "learning_rate": 0.0006670711616784571,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 119808768,
+      "step": 55465
+    },
+    {
+      "epoch": 9.048939641109298,
+      "grad_norm": 0.020560389384627342,
+      "learning_rate": 0.0006670040713920704,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 119818720,
+      "step": 55470
+    },
+    {
+      "epoch": 9.049755301794454,
+      "grad_norm": 0.04738950356841087,
+      "learning_rate": 0.0006669369777211344,
+      "loss": 0.1724,
+      "num_input_tokens_seen": 119830336,
+      "step": 55475
+    },
+    {
+      "epoch": 9.05057096247961,
+      "grad_norm": 0.003236339660361409,
+      "learning_rate": 0.000666869880667009,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 119840416,
+      "step": 55480
+    },
+    {
+      "epoch": 9.051386623164763,
+      "grad_norm": 0.005051568150520325,
+      "learning_rate": 0.0006668027802310537,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 119851104,
+      "step": 55485
+    },
+    {
+      "epoch": 9.052202283849919,
+      "grad_norm": 0.0035680499859154224,
+      "learning_rate": 0.0006667356764146284,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 119862144,
+      "step": 55490
+    },
+    {
+      "epoch": 9.053017944535073,
+      "grad_norm": 0.05445701628923416,
+      "learning_rate": 0.0006666685692190931,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 119873952,
+      "step": 55495
+    },
+    {
+      "epoch": 9.053833605220229,
+      "grad_norm": 0.44816941022872925,
+      "learning_rate": 0.0006666014586458079,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 119884288,
+      "step": 55500
+    },
+    {
+      "epoch": 9.054649265905383,
+      "grad_norm": 0.08904964476823807,
+      "learning_rate": 0.0006665343446961327,
+      "loss": 0.011,
+      "num_input_tokens_seen": 119893696,
+      "step": 55505
+    },
+    {
+      "epoch": 9.055464926590538,
+      "grad_norm": 0.0033945401664823294,
+      "learning_rate": 0.0006664672273714278,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 119905760,
+      "step": 55510
+    },
+    {
+      "epoch": 9.056280587275694,
+      "grad_norm": 0.00631315354257822,
+      "learning_rate": 0.0006664001066730532,
+      "loss": 0.004,
+      "num_input_tokens_seen": 119916992,
+      "step": 55515
+    },
+    {
+      "epoch": 9.057096247960848,
+      "grad_norm": 0.01878887228667736,
+      "learning_rate": 0.0006663329826023696,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 119928192,
+      "step": 55520
+    },
+    {
+      "epoch": 9.057911908646004,
+      "grad_norm": 0.010319680906832218,
+      "learning_rate": 0.000666265855160737,
+      "loss": 0.088,
+      "num_input_tokens_seen": 119939360,
+      "step": 55525
+    },
+    {
+      "epoch": 9.058727569331158,
+      "grad_norm": 0.12095552682876587,
+      "learning_rate": 0.0006661987243495159,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 119950432,
+      "step": 55530
+    },
+    {
+      "epoch": 9.059543230016313,
+      "grad_norm": 0.029308486729860306,
+      "learning_rate": 0.0006661315901700668,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 119960768,
+      "step": 55535
+    },
+    {
+      "epoch": 9.060358890701469,
+      "grad_norm": 0.03496725484728813,
+      "learning_rate": 0.0006660644526237502,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 119972032,
+      "step": 55540
+    },
+    {
+      "epoch": 9.061174551386623,
+      "grad_norm": 0.020432081073522568,
+      "learning_rate": 0.0006659973117119269,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 119983072,
+      "step": 55545
+    },
+    {
+      "epoch": 9.061990212071779,
+      "grad_norm": 0.005481477826833725,
+      "learning_rate": 0.0006659301674359575,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 119993472,
+      "step": 55550
+    },
+    {
+      "epoch": 9.062805872756933,
+      "grad_norm": 0.04623018950223923,
+      "learning_rate": 0.0006658630197972027,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 120002656,
+      "step": 55555
+    },
+    {
+      "epoch": 9.063621533442088,
+      "grad_norm": 0.06435194611549377,
+      "learning_rate": 0.0006657958687970233,
+      "loss": 0.1708,
+      "num_input_tokens_seen": 120012224,
+      "step": 55560
+    },
+    {
+      "epoch": 9.064437194127244,
+      "grad_norm": 0.021413441747426987,
+      "learning_rate": 0.0006657287144367805,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 120024128,
+      "step": 55565
+    },
+    {
+      "epoch": 9.065252854812398,
+      "grad_norm": 0.020738402381539345,
+      "learning_rate": 0.000665661556717835,
+      "loss": 0.007,
+      "num_input_tokens_seen": 120034112,
+      "step": 55570
+    },
+    {
+      "epoch": 9.066068515497554,
+      "grad_norm": 0.0270835030823946,
+      "learning_rate": 0.0006655943956415479,
+      "loss": 0.011,
+      "num_input_tokens_seen": 120045216,
+      "step": 55575
+    },
+    {
+      "epoch": 9.066884176182707,
+      "grad_norm": 0.013338779099285603,
+      "learning_rate": 0.0006655272312092802,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 120056256,
+      "step": 55580
+    },
+    {
+      "epoch": 9.067699836867863,
+      "grad_norm": 0.23012396693229675,
+      "learning_rate": 0.0006654600634223933,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 120067008,
+      "step": 55585
+    },
+    {
+      "epoch": 9.068515497553017,
+      "grad_norm": 0.1102285236120224,
+      "learning_rate": 0.0006653928922822482,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 120078752,
+      "step": 55590
+    },
+    {
+      "epoch": 9.069331158238173,
+      "grad_norm": 0.09096402674913406,
+      "learning_rate": 0.0006653257177902063,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 120090528,
+      "step": 55595
+    },
+    {
+      "epoch": 9.070146818923329,
+      "grad_norm": 0.002108287997543812,
+      "learning_rate": 0.0006652585399476292,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 120101376,
+      "step": 55600
+    },
+    {
+      "epoch": 9.070962479608482,
+      "grad_norm": 0.03092172183096409,
+      "learning_rate": 0.000665191358755878,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 120111648,
+      "step": 55605
+    },
+    {
+      "epoch": 9.071778140293638,
+      "grad_norm": 0.29341599345207214,
+      "learning_rate": 0.0006651241742163143,
+      "loss": 0.05,
+      "num_input_tokens_seen": 120121760,
+      "step": 55610
+    },
+    {
+      "epoch": 9.072593800978792,
+      "grad_norm": 0.003775701392441988,
+      "learning_rate": 0.0006650569863302999,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 120133184,
+      "step": 55615
+    },
+    {
+      "epoch": 9.073409461663948,
+      "grad_norm": 0.27860262989997864,
+      "learning_rate": 0.0006649897950991962,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 120143360,
+      "step": 55620
+    },
+    {
+      "epoch": 9.074225122349104,
+      "grad_norm": 0.0017340558115392923,
+      "learning_rate": 0.000664922600524365,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 120153728,
+      "step": 55625
+    },
+    {
+      "epoch": 9.075040783034257,
+      "grad_norm": 0.00711076008155942,
+      "learning_rate": 0.000664855402607168,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 120164160,
+      "step": 55630
+    },
+    {
+      "epoch": 9.075856443719413,
+      "grad_norm": 0.009782101027667522,
+      "learning_rate": 0.0006647882013489674,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 120173472,
+      "step": 55635
+    },
+    {
+      "epoch": 9.076672104404567,
+      "grad_norm": 0.0022454196587204933,
+      "learning_rate": 0.0006647209967511245,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 120184576,
+      "step": 55640
+    },
+    {
+      "epoch": 9.077487765089723,
+      "grad_norm": 0.009879418648779392,
+      "learning_rate": 0.0006646537888150019,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 120196064,
+      "step": 55645
+    },
+    {
+      "epoch": 9.078303425774878,
+      "grad_norm": 0.249136283993721,
+      "learning_rate": 0.0006645865775419613,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 120208096,
+      "step": 55650
+    },
+    {
+      "epoch": 9.079119086460032,
+      "grad_norm": 0.225576713681221,
+      "learning_rate": 0.0006645193629333649,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 120218624,
+      "step": 55655
+    },
+    {
+      "epoch": 9.079934747145188,
+      "grad_norm": 0.012649464420974255,
+      "learning_rate": 0.0006644521449905749,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 120230304,
+      "step": 55660
+    },
+    {
+      "epoch": 9.080750407830342,
+      "grad_norm": 0.002151126740500331,
+      "learning_rate": 0.0006643849237149536,
+      "loss": 0.023,
+      "num_input_tokens_seen": 120241248,
+      "step": 55665
+    },
+    {
+      "epoch": 9.081566068515498,
+      "grad_norm": 0.004632554017007351,
+      "learning_rate": 0.0006643176991078632,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 120251584,
+      "step": 55670
+    },
+    {
+      "epoch": 9.082381729200652,
+      "grad_norm": 0.016930658370256424,
+      "learning_rate": 0.0006642504711706663,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 120262336,
+      "step": 55675
+    },
+    {
+      "epoch": 9.083197389885807,
+      "grad_norm": 0.010655293241143227,
+      "learning_rate": 0.000664183239904725,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 120274432,
+      "step": 55680
+    },
+    {
+      "epoch": 9.084013050570963,
+      "grad_norm": 0.04127860441803932,
+      "learning_rate": 0.0006641160053114021,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 120283392,
+      "step": 55685
+    },
+    {
+      "epoch": 9.084828711256117,
+      "grad_norm": 0.05015069618821144,
+      "learning_rate": 0.0006640487673920605,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 120293792,
+      "step": 55690
+    },
+    {
+      "epoch": 9.085644371941273,
+      "grad_norm": 0.022326963022351265,
+      "learning_rate": 0.0006639815261480622,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 120305312,
+      "step": 55695
+    },
+    {
+      "epoch": 9.086460032626427,
+      "grad_norm": 0.02016095258295536,
+      "learning_rate": 0.0006639142815807704,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 120315264,
+      "step": 55700
+    },
+    {
+      "epoch": 9.087275693311582,
+      "grad_norm": 0.042222410440444946,
+      "learning_rate": 0.0006638470336915477,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 120326752,
+      "step": 55705
+    },
+    {
+      "epoch": 9.088091353996738,
+      "grad_norm": 0.1003473624587059,
+      "learning_rate": 0.0006637797824817569,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 120337984,
+      "step": 55710
+    },
+    {
+      "epoch": 9.088907014681892,
+      "grad_norm": 0.15232303738594055,
+      "learning_rate": 0.000663712527952761,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 120347872,
+      "step": 55715
+    },
+    {
+      "epoch": 9.089722675367048,
+      "grad_norm": 0.004314785357564688,
+      "learning_rate": 0.0006636452701059232,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 120358656,
+      "step": 55720
+    },
+    {
+      "epoch": 9.090538336052202,
+      "grad_norm": 0.20391501486301422,
+      "learning_rate": 0.0006635780089426065,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 120369696,
+      "step": 55725
+    },
+    {
+      "epoch": 9.091353996737357,
+      "grad_norm": 0.019305676221847534,
+      "learning_rate": 0.0006635107444641737,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 120381440,
+      "step": 55730
+    },
+    {
+      "epoch": 9.092169657422513,
+      "grad_norm": 0.24267306923866272,
+      "learning_rate": 0.0006634434766719883,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 120393344,
+      "step": 55735
+    },
+    {
+      "epoch": 9.092985318107667,
+      "grad_norm": 0.05459204688668251,
+      "learning_rate": 0.0006633762055674136,
+      "loss": 0.181,
+      "num_input_tokens_seen": 120403456,
+      "step": 55740
+    },
+    {
+      "epoch": 9.093800978792823,
+      "grad_norm": 0.1435762494802475,
+      "learning_rate": 0.0006633089311518128,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 120414240,
+      "step": 55745
+    },
+    {
+      "epoch": 9.094616639477977,
+      "grad_norm": 0.2441323846578598,
+      "learning_rate": 0.0006632416534265493,
+      "loss": 0.05,
+      "num_input_tokens_seen": 120425696,
+      "step": 55750
+    },
+    {
+      "epoch": 9.095432300163132,
+      "grad_norm": 0.0228540301322937,
+      "learning_rate": 0.0006631743723929867,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 120435424,
+      "step": 55755
+    },
+    {
+      "epoch": 9.096247960848286,
+      "grad_norm": 0.020277827978134155,
+      "learning_rate": 0.0006631070880524883,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 120445184,
+      "step": 55760
+    },
+    {
+      "epoch": 9.097063621533442,
+      "grad_norm": 0.19620034098625183,
+      "learning_rate": 0.0006630398004064179,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 120455648,
+      "step": 55765
+    },
+    {
+      "epoch": 9.097879282218598,
+      "grad_norm": 0.013875322416424751,
+      "learning_rate": 0.0006629725094561392,
+      "loss": 0.04,
+      "num_input_tokens_seen": 120467456,
+      "step": 55770
+    },
+    {
+      "epoch": 9.098694942903752,
+      "grad_norm": 0.011110931634902954,
+      "learning_rate": 0.0006629052152030158,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 120477568,
+      "step": 55775
+    },
+    {
+      "epoch": 9.099510603588907,
+      "grad_norm": 0.015466023236513138,
+      "learning_rate": 0.0006628379176484115,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 120487296,
+      "step": 55780
+    },
+    {
+      "epoch": 9.100326264274061,
+      "grad_norm": 0.5825760364532471,
+      "learning_rate": 0.0006627706167936903,
+      "loss": 0.2598,
+      "num_input_tokens_seen": 120498784,
+      "step": 55785
+    },
+    {
+      "epoch": 9.101141924959217,
+      "grad_norm": 0.03466307371854782,
+      "learning_rate": 0.0006627033126402159,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 120509504,
+      "step": 55790
+    },
+    {
+      "epoch": 9.101957585644373,
+      "grad_norm": 0.003099187510088086,
+      "learning_rate": 0.0006626360051893526,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 120520320,
+      "step": 55795
+    },
+    {
+      "epoch": 9.102773246329527,
+      "grad_norm": 0.07016048580408096,
+      "learning_rate": 0.0006625686944424642,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 120530912,
+      "step": 55800
+    },
+    {
+      "epoch": 9.103588907014682,
+      "grad_norm": 0.008897113613784313,
+      "learning_rate": 0.0006625013804009152,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 120541760,
+      "step": 55805
+    },
+    {
+      "epoch": 9.104404567699836,
+      "grad_norm": 0.022372784093022346,
+      "learning_rate": 0.0006624340630660695,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 120552640,
+      "step": 55810
+    },
+    {
+      "epoch": 9.105220228384992,
+      "grad_norm": 0.027728265151381493,
+      "learning_rate": 0.0006623667424392914,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 120564256,
+      "step": 55815
+    },
+    {
+      "epoch": 9.106035889070148,
+      "grad_norm": 0.31177589297294617,
+      "learning_rate": 0.0006622994185219453,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 120574912,
+      "step": 55820
+    },
+    {
+      "epoch": 9.106851549755302,
+      "grad_norm": 0.04539692774415016,
+      "learning_rate": 0.0006622320913153957,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 120585120,
+      "step": 55825
+    },
+    {
+      "epoch": 9.107667210440457,
+      "grad_norm": 0.004602258093655109,
+      "learning_rate": 0.0006621647608210068,
+      "loss": 0.1413,
+      "num_input_tokens_seen": 120595392,
+      "step": 55830
+    },
+    {
+      "epoch": 9.108482871125611,
+      "grad_norm": 0.0793989822268486,
+      "learning_rate": 0.0006620974270401434,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 120607488,
+      "step": 55835
+    },
+    {
+      "epoch": 9.109298531810767,
+      "grad_norm": 0.01831854321062565,
+      "learning_rate": 0.00066203008997417,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 120619136,
+      "step": 55840
+    },
+    {
+      "epoch": 9.11011419249592,
+      "grad_norm": 0.2046804577112198,
+      "learning_rate": 0.0006619627496244513,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 120631808,
+      "step": 55845
+    },
+    {
+      "epoch": 9.110929853181077,
+      "grad_norm": 0.6116275787353516,
+      "learning_rate": 0.0006618954059923517,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 120642752,
+      "step": 55850
+    },
+    {
+      "epoch": 9.111745513866232,
+      "grad_norm": 0.0629836916923523,
+      "learning_rate": 0.0006618280590792367,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 120653312,
+      "step": 55855
+    },
+    {
+      "epoch": 9.112561174551386,
+      "grad_norm": 0.05145289748907089,
+      "learning_rate": 0.0006617607088864706,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 120664384,
+      "step": 55860
+    },
+    {
+      "epoch": 9.113376835236542,
+      "grad_norm": 0.009486453607678413,
+      "learning_rate": 0.0006616933554154186,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 120675520,
+      "step": 55865
+    },
+    {
+      "epoch": 9.114192495921696,
+      "grad_norm": 0.07350229471921921,
+      "learning_rate": 0.0006616259986674456,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 120685856,
+      "step": 55870
+    },
+    {
+      "epoch": 9.115008156606851,
+      "grad_norm": 0.11855614185333252,
+      "learning_rate": 0.0006615586386439169,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 120696864,
+      "step": 55875
+    },
+    {
+      "epoch": 9.115823817292007,
+      "grad_norm": 0.46437859535217285,
+      "learning_rate": 0.0006614912753461973,
+      "loss": 0.1984,
+      "num_input_tokens_seen": 120708352,
+      "step": 55880
+    },
+    {
+      "epoch": 9.116639477977161,
+      "grad_norm": 0.007540303748100996,
+      "learning_rate": 0.0006614239087756519,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 120720128,
+      "step": 55885
+    },
+    {
+      "epoch": 9.117455138662317,
+      "grad_norm": 0.017881179228425026,
+      "learning_rate": 0.0006613565389336465,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 120730048,
+      "step": 55890
+    },
+    {
+      "epoch": 9.11827079934747,
+      "grad_norm": 0.29263004660606384,
+      "learning_rate": 0.0006612891658215461,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 120740576,
+      "step": 55895
+    },
+    {
+      "epoch": 9.119086460032626,
+      "grad_norm": 0.01154404878616333,
+      "learning_rate": 0.000661221789440716,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 120752544,
+      "step": 55900
+    },
+    {
+      "epoch": 9.119902120717782,
+      "grad_norm": 0.01328980177640915,
+      "learning_rate": 0.0006611544097925219,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 120763456,
+      "step": 55905
+    },
+    {
+      "epoch": 9.120717781402936,
+      "grad_norm": 0.05561533570289612,
+      "learning_rate": 0.0006610870268783292,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 120774400,
+      "step": 55910
+    },
+    {
+      "epoch": 9.121533442088092,
+      "grad_norm": 0.11454028636217117,
+      "learning_rate": 0.0006610196406995038,
+      "loss": 0.0478,
+      "num_input_tokens_seen": 120785920,
+      "step": 55915
+    },
+    {
+      "epoch": 9.122349102773246,
+      "grad_norm": 0.0025789556093513966,
+      "learning_rate": 0.0006609522512574107,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 120796960,
+      "step": 55920
+    },
+    {
+      "epoch": 9.123164763458401,
+      "grad_norm": 0.048425693064928055,
+      "learning_rate": 0.0006608848585534164,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 120807840,
+      "step": 55925
+    },
+    {
+      "epoch": 9.123980424143557,
+      "grad_norm": 0.031781259924173355,
+      "learning_rate": 0.0006608174625888862,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 120818944,
+      "step": 55930
+    },
+    {
+      "epoch": 9.124796084828711,
+      "grad_norm": 0.004460108932107687,
+      "learning_rate": 0.000660750063365186,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 120830112,
+      "step": 55935
+    },
+    {
+      "epoch": 9.125611745513867,
+      "grad_norm": 0.029495006427168846,
+      "learning_rate": 0.000660682660883682,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 120841248,
+      "step": 55940
+    },
+    {
+      "epoch": 9.12642740619902,
+      "grad_norm": 0.010408415459096432,
+      "learning_rate": 0.0006606152551457401,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 120851840,
+      "step": 55945
+    },
+    {
+      "epoch": 9.127243066884176,
+      "grad_norm": 0.004695413634181023,
+      "learning_rate": 0.0006605478461527262,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 120863520,
+      "step": 55950
+    },
+    {
+      "epoch": 9.12805872756933,
+      "grad_norm": 0.03372404724359512,
+      "learning_rate": 0.0006604804339060065,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 120874176,
+      "step": 55955
+    },
+    {
+      "epoch": 9.128874388254486,
+      "grad_norm": 0.12020575255155563,
+      "learning_rate": 0.0006604130184069472,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 120884736,
+      "step": 55960
+    },
+    {
+      "epoch": 9.129690048939642,
+      "grad_norm": 0.033447980880737305,
+      "learning_rate": 0.0006603455996569146,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 120895296,
+      "step": 55965
+    },
+    {
+      "epoch": 9.130505709624796,
+      "grad_norm": 0.015460162423551083,
+      "learning_rate": 0.0006602781776572752,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 120905472,
+      "step": 55970
+    },
+    {
+      "epoch": 9.131321370309951,
+      "grad_norm": 0.023283349350094795,
+      "learning_rate": 0.000660210752409395,
+      "loss": 0.053,
+      "num_input_tokens_seen": 120916576,
+      "step": 55975
+    },
+    {
+      "epoch": 9.132137030995105,
+      "grad_norm": 0.007297954987734556,
+      "learning_rate": 0.0006601433239146407,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 120927232,
+      "step": 55980
+    },
+    {
+      "epoch": 9.132952691680261,
+      "grad_norm": 0.004983537830412388,
+      "learning_rate": 0.0006600758921743788,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 120937280,
+      "step": 55985
+    },
+    {
+      "epoch": 9.133768352365417,
+      "grad_norm": 0.6522960662841797,
+      "learning_rate": 0.0006600084571899758,
+      "loss": 0.0495,
+      "num_input_tokens_seen": 120948992,
+      "step": 55990
+    },
+    {
+      "epoch": 9.13458401305057,
+      "grad_norm": 0.0034484846983104944,
+      "learning_rate": 0.0006599410189627985,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 120958496,
+      "step": 55995
+    },
+    {
+      "epoch": 9.135399673735726,
+      "grad_norm": 0.10356710851192474,
+      "learning_rate": 0.0006598735774942135,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 120971168,
+      "step": 56000
+    },
+    {
+      "epoch": 9.13621533442088,
+      "grad_norm": 0.02262182906270027,
+      "learning_rate": 0.0006598061327855876,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 120982624,
+      "step": 56005
+    },
+    {
+      "epoch": 9.137030995106036,
+      "grad_norm": 0.018539773300290108,
+      "learning_rate": 0.0006597386848382878,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 120994176,
+      "step": 56010
+    },
+    {
+      "epoch": 9.137846655791192,
+      "grad_norm": 0.010305029340088367,
+      "learning_rate": 0.000659671233653681,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 121003968,
+      "step": 56015
+    },
+    {
+      "epoch": 9.138662316476346,
+      "grad_norm": 0.013459831476211548,
+      "learning_rate": 0.0006596037792331338,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 121014112,
+      "step": 56020
+    },
+    {
+      "epoch": 9.139477977161501,
+      "grad_norm": 0.002566079143434763,
+      "learning_rate": 0.0006595363215780137,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 121024800,
+      "step": 56025
+    },
+    {
+      "epoch": 9.140293637846655,
+      "grad_norm": 0.0190932247787714,
+      "learning_rate": 0.0006594688606896877,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 121035552,
+      "step": 56030
+    },
+    {
+      "epoch": 9.141109298531811,
+      "grad_norm": 0.008819978684186935,
+      "learning_rate": 0.0006594013965695229,
+      "loss": 0.1523,
+      "num_input_tokens_seen": 121046208,
+      "step": 56035
+    },
+    {
+      "epoch": 9.141924959216965,
+      "grad_norm": 0.25872063636779785,
+      "learning_rate": 0.0006593339292188865,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 121057312,
+      "step": 56040
+    },
+    {
+      "epoch": 9.14274061990212,
+      "grad_norm": 0.05374641716480255,
+      "learning_rate": 0.0006592664586391461,
+      "loss": 0.031,
+      "num_input_tokens_seen": 121068960,
+      "step": 56045
+    },
+    {
+      "epoch": 9.143556280587276,
+      "grad_norm": 0.03318631649017334,
+      "learning_rate": 0.0006591989848316687,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 121079840,
+      "step": 56050
+    },
+    {
+      "epoch": 9.14437194127243,
+      "grad_norm": 0.002823259448632598,
+      "learning_rate": 0.0006591315077978221,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 121089760,
+      "step": 56055
+    },
+    {
+      "epoch": 9.145187601957586,
+      "grad_norm": 0.16577103734016418,
+      "learning_rate": 0.0006590640275389734,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 121100096,
+      "step": 56060
+    },
+    {
+      "epoch": 9.14600326264274,
+      "grad_norm": 0.00289472215808928,
+      "learning_rate": 0.0006589965440564905,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 121110368,
+      "step": 56065
+    },
+    {
+      "epoch": 9.146818923327896,
+      "grad_norm": 0.263703316450119,
+      "learning_rate": 0.000658929057351741,
+      "loss": 0.0508,
+      "num_input_tokens_seen": 121119392,
+      "step": 56070
+    },
+    {
+      "epoch": 9.147634584013051,
+      "grad_norm": 0.29043954610824585,
+      "learning_rate": 0.0006588615674260925,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 121129216,
+      "step": 56075
+    },
+    {
+      "epoch": 9.148450244698205,
+      "grad_norm": 0.013290850445628166,
+      "learning_rate": 0.0006587940742809127,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 121139072,
+      "step": 56080
+    },
+    {
+      "epoch": 9.149265905383361,
+      "grad_norm": 0.47222426533699036,
+      "learning_rate": 0.0006587265779175696,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 121149856,
+      "step": 56085
+    },
+    {
+      "epoch": 9.150081566068515,
+      "grad_norm": 0.004278893116861582,
+      "learning_rate": 0.0006586590783374311,
+      "loss": 0.005,
+      "num_input_tokens_seen": 121160608,
+      "step": 56090
+    },
+    {
+      "epoch": 9.15089722675367,
+      "grad_norm": 0.3925560414791107,
+      "learning_rate": 0.000658591575541865,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 121170944,
+      "step": 56095
+    },
+    {
+      "epoch": 9.151712887438826,
+      "grad_norm": 0.011311687529087067,
+      "learning_rate": 0.0006585240695322395,
+      "loss": 0.0404,
+      "num_input_tokens_seen": 121181216,
+      "step": 56100
+    },
+    {
+      "epoch": 9.15252854812398,
+      "grad_norm": 0.005556880030781031,
+      "learning_rate": 0.0006584565603099227,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 121192160,
+      "step": 56105
+    },
+    {
+      "epoch": 9.153344208809136,
+      "grad_norm": 0.004971515852957964,
+      "learning_rate": 0.0006583890478762824,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 121203776,
+      "step": 56110
+    },
+    {
+      "epoch": 9.15415986949429,
+      "grad_norm": 0.007574469782412052,
+      "learning_rate": 0.0006583215322326874,
+      "loss": 0.014,
+      "num_input_tokens_seen": 121215040,
+      "step": 56115
+    },
+    {
+      "epoch": 9.154975530179446,
+      "grad_norm": 0.3267376720905304,
+      "learning_rate": 0.0006582540133805056,
+      "loss": 0.027,
+      "num_input_tokens_seen": 121226496,
+      "step": 56120
+    },
+    {
+      "epoch": 9.1557911908646,
+      "grad_norm": 0.020117826759815216,
+      "learning_rate": 0.0006581864913211055,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 121237696,
+      "step": 56125
+    },
+    {
+      "epoch": 9.156606851549755,
+      "grad_norm": 0.005197125021368265,
+      "learning_rate": 0.0006581189660558554,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 121248416,
+      "step": 56130
+    },
+    {
+      "epoch": 9.15742251223491,
+      "grad_norm": 0.020636849105358124,
+      "learning_rate": 0.000658051437586124,
+      "loss": 0.028,
+      "num_input_tokens_seen": 121259936,
+      "step": 56135
+    },
+    {
+      "epoch": 9.158238172920065,
+      "grad_norm": 0.01939970813691616,
+      "learning_rate": 0.0006579839059132796,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 121271584,
+      "step": 56140
+    },
+    {
+      "epoch": 9.15905383360522,
+      "grad_norm": 0.004743052180856466,
+      "learning_rate": 0.000657916371038691,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 121283072,
+      "step": 56145
+    },
+    {
+      "epoch": 9.159869494290374,
+      "grad_norm": 1.1395015716552734,
+      "learning_rate": 0.0006578488329637268,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 121295264,
+      "step": 56150
+    },
+    {
+      "epoch": 9.16068515497553,
+      "grad_norm": 0.0044103991240262985,
+      "learning_rate": 0.0006577812916897558,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 121306944,
+      "step": 56155
+    },
+    {
+      "epoch": 9.161500815660686,
+      "grad_norm": 0.006278656888753176,
+      "learning_rate": 0.0006577137472181466,
+      "loss": 0.2067,
+      "num_input_tokens_seen": 121316768,
+      "step": 56160
+    },
+    {
+      "epoch": 9.16231647634584,
+      "grad_norm": 0.09036379307508469,
+      "learning_rate": 0.0006576461995502682,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 121327456,
+      "step": 56165
+    },
+    {
+      "epoch": 9.163132137030995,
+      "grad_norm": 0.5136862397193909,
+      "learning_rate": 0.0006575786486874897,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 121339008,
+      "step": 56170
+    },
+    {
+      "epoch": 9.16394779771615,
+      "grad_norm": 0.09326247125864029,
+      "learning_rate": 0.0006575110946311801,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 121350112,
+      "step": 56175
+    },
+    {
+      "epoch": 9.164763458401305,
+      "grad_norm": 0.09577307105064392,
+      "learning_rate": 0.0006574435373827083,
+      "loss": 0.2164,
+      "num_input_tokens_seen": 121361664,
+      "step": 56180
+    },
+    {
+      "epoch": 9.16557911908646,
+      "grad_norm": 0.4209381639957428,
+      "learning_rate": 0.0006573759769434433,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 121372416,
+      "step": 56185
+    },
+    {
+      "epoch": 9.166394779771615,
+      "grad_norm": 0.009589829482138157,
+      "learning_rate": 0.0006573084133147547,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 121381600,
+      "step": 56190
+    },
+    {
+      "epoch": 9.16721044045677,
+      "grad_norm": 0.014700385741889477,
+      "learning_rate": 0.0006572408464980115,
+      "loss": 0.051,
+      "num_input_tokens_seen": 121392000,
+      "step": 56195
+    },
+    {
+      "epoch": 9.168026101141924,
+      "grad_norm": 0.1325574666261673,
+      "learning_rate": 0.000657173276494583,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 121402144,
+      "step": 56200
+    },
+    {
+      "epoch": 9.16884176182708,
+      "grad_norm": 0.5163242816925049,
+      "learning_rate": 0.0006571057033058386,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 121413312,
+      "step": 56205
+    },
+    {
+      "epoch": 9.169657422512234,
+      "grad_norm": 0.7403216361999512,
+      "learning_rate": 0.000657038126933148,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 121424384,
+      "step": 56210
+    },
+    {
+      "epoch": 9.17047308319739,
+      "grad_norm": 0.003989236429333687,
+      "learning_rate": 0.0006569705473778804,
+      "loss": 0.094,
+      "num_input_tokens_seen": 121434144,
+      "step": 56215
+    },
+    {
+      "epoch": 9.171288743882545,
+      "grad_norm": 0.01190384291112423,
+      "learning_rate": 0.0006569029646414055,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 121445472,
+      "step": 56220
+    },
+    {
+      "epoch": 9.1721044045677,
+      "grad_norm": 0.3108609914779663,
+      "learning_rate": 0.0006568353787250931,
+      "loss": 0.069,
+      "num_input_tokens_seen": 121456704,
+      "step": 56225
+    },
+    {
+      "epoch": 9.172920065252855,
+      "grad_norm": 0.002502848394215107,
+      "learning_rate": 0.0006567677896303127,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 121467264,
+      "step": 56230
+    },
+    {
+      "epoch": 9.173735725938009,
+      "grad_norm": 0.024630989879369736,
+      "learning_rate": 0.0006567001973584343,
+      "loss": 0.025,
+      "num_input_tokens_seen": 121477536,
+      "step": 56235
+    },
+    {
+      "epoch": 9.174551386623165,
+      "grad_norm": 0.2676560580730438,
+      "learning_rate": 0.0006566326019108275,
+      "loss": 0.1971,
+      "num_input_tokens_seen": 121489056,
+      "step": 56240
+    },
+    {
+      "epoch": 9.17536704730832,
+      "grad_norm": 0.030201373621821404,
+      "learning_rate": 0.0006565650032888624,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 121500352,
+      "step": 56245
+    },
+    {
+      "epoch": 9.176182707993474,
+      "grad_norm": 0.04962538927793503,
+      "learning_rate": 0.0006564974014939088,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 121511584,
+      "step": 56250
+    },
+    {
+      "epoch": 9.17699836867863,
+      "grad_norm": 0.3099713623523712,
+      "learning_rate": 0.0006564297965273369,
+      "loss": 0.1156,
+      "num_input_tokens_seen": 121521536,
+      "step": 56255
+    },
+    {
+      "epoch": 9.177814029363784,
+      "grad_norm": 0.42166343331336975,
+      "learning_rate": 0.0006563621883905167,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 121531456,
+      "step": 56260
+    },
+    {
+      "epoch": 9.17862969004894,
+      "grad_norm": 0.012773294001817703,
+      "learning_rate": 0.0006562945770848183,
+      "loss": 0.1584,
+      "num_input_tokens_seen": 121542336,
+      "step": 56265
+    },
+    {
+      "epoch": 9.179445350734095,
+      "grad_norm": 0.03006591834127903,
+      "learning_rate": 0.0006562269626116122,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 121553408,
+      "step": 56270
+    },
+    {
+      "epoch": 9.18026101141925,
+      "grad_norm": 0.044128891080617905,
+      "learning_rate": 0.0006561593449722683,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 121563136,
+      "step": 56275
+    },
+    {
+      "epoch": 9.181076672104405,
+      "grad_norm": 0.04296493902802467,
+      "learning_rate": 0.0006560917241681573,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 121573696,
+      "step": 56280
+    },
+    {
+      "epoch": 9.181892332789559,
+      "grad_norm": 0.47510603070259094,
+      "learning_rate": 0.0006560241002006495,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 121584416,
+      "step": 56285
+    },
+    {
+      "epoch": 9.182707993474715,
+      "grad_norm": 0.017805377021431923,
+      "learning_rate": 0.0006559564730711153,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 121595552,
+      "step": 56290
+    },
+    {
+      "epoch": 9.18352365415987,
+      "grad_norm": 0.027597038075327873,
+      "learning_rate": 0.0006558888427809255,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 121606240,
+      "step": 56295
+    },
+    {
+      "epoch": 9.184339314845024,
+      "grad_norm": 0.0038924135733395815,
+      "learning_rate": 0.0006558212093314504,
+      "loss": 0.2137,
+      "num_input_tokens_seen": 121616352,
+      "step": 56300
+    },
+    {
+      "epoch": 9.18515497553018,
+      "grad_norm": 0.15157592296600342,
+      "learning_rate": 0.0006557535727240609,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 121627776,
+      "step": 56305
+    },
+    {
+      "epoch": 9.185970636215334,
+      "grad_norm": 0.018170544877648354,
+      "learning_rate": 0.0006556859329601275,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 121640672,
+      "step": 56310
+    },
+    {
+      "epoch": 9.18678629690049,
+      "grad_norm": 0.005017032381147146,
+      "learning_rate": 0.0006556182900410213,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 121650976,
+      "step": 56315
+    },
+    {
+      "epoch": 9.187601957585644,
+      "grad_norm": 0.004428547341376543,
+      "learning_rate": 0.0006555506439681131,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 121661856,
+      "step": 56320
+    },
+    {
+      "epoch": 9.1884176182708,
+      "grad_norm": 0.004647783003747463,
+      "learning_rate": 0.0006554829947427736,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 121673024,
+      "step": 56325
+    },
+    {
+      "epoch": 9.189233278955955,
+      "grad_norm": 0.0270043034106493,
+      "learning_rate": 0.0006554153423663741,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 121684000,
+      "step": 56330
+    },
+    {
+      "epoch": 9.190048939641109,
+      "grad_norm": 0.16975529491901398,
+      "learning_rate": 0.0006553476868402854,
+      "loss": 0.096,
+      "num_input_tokens_seen": 121693728,
+      "step": 56335
+    },
+    {
+      "epoch": 9.190864600326265,
+      "grad_norm": 0.00935075618326664,
+      "learning_rate": 0.0006552800281658789,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 121703904,
+      "step": 56340
+    },
+    {
+      "epoch": 9.191680261011419,
+      "grad_norm": 0.02370108850300312,
+      "learning_rate": 0.0006552123663445255,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 121714208,
+      "step": 56345
+    },
+    {
+      "epoch": 9.192495921696574,
+      "grad_norm": 0.012804976664483547,
+      "learning_rate": 0.0006551447013775967,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 121723872,
+      "step": 56350
+    },
+    {
+      "epoch": 9.19331158238173,
+      "grad_norm": 0.03224405273795128,
+      "learning_rate": 0.0006550770332664637,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 121735648,
+      "step": 56355
+    },
+    {
+      "epoch": 9.194127243066884,
+      "grad_norm": 0.12478592246770859,
+      "learning_rate": 0.0006550093620124979,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 121747136,
+      "step": 56360
+    },
+    {
+      "epoch": 9.19494290375204,
+      "grad_norm": 0.0019217646913602948,
+      "learning_rate": 0.0006549416876170707,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 121756544,
+      "step": 56365
+    },
+    {
+      "epoch": 9.195758564437194,
+      "grad_norm": 0.0025901400949805975,
+      "learning_rate": 0.0006548740100815537,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 121767072,
+      "step": 56370
+    },
+    {
+      "epoch": 9.19657422512235,
+      "grad_norm": 0.22183768451213837,
+      "learning_rate": 0.0006548063294073183,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 121777920,
+      "step": 56375
+    },
+    {
+      "epoch": 9.197389885807505,
+      "grad_norm": 0.017956186085939407,
+      "learning_rate": 0.0006547386455957364,
+      "loss": 0.1983,
+      "num_input_tokens_seen": 121788224,
+      "step": 56380
+    },
+    {
+      "epoch": 9.198205546492659,
+      "grad_norm": 0.00347818317823112,
+      "learning_rate": 0.0006546709586481794,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 121799328,
+      "step": 56385
+    },
+    {
+      "epoch": 9.199021207177815,
+      "grad_norm": 0.05604798346757889,
+      "learning_rate": 0.0006546032685660193,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 121810688,
+      "step": 56390
+    },
+    {
+      "epoch": 9.199836867862969,
+      "grad_norm": 0.07729680836200714,
+      "learning_rate": 0.000654535575350628,
+      "loss": 0.161,
+      "num_input_tokens_seen": 121821632,
+      "step": 56395
+    },
+    {
+      "epoch": 9.200652528548124,
+      "grad_norm": 0.3953785002231598,
+      "learning_rate": 0.0006544678790033769,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 121832992,
+      "step": 56400
+    },
+    {
+      "epoch": 9.201468189233278,
+      "grad_norm": 0.013939537107944489,
+      "learning_rate": 0.0006544001795256385,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 121842272,
+      "step": 56405
+    },
+    {
+      "epoch": 9.202283849918434,
+      "grad_norm": 0.025160158053040504,
+      "learning_rate": 0.0006543324769187844,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 121852928,
+      "step": 56410
+    },
+    {
+      "epoch": 9.20309951060359,
+      "grad_norm": 0.014282099902629852,
+      "learning_rate": 0.0006542647711841869,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 121864352,
+      "step": 56415
+    },
+    {
+      "epoch": 9.203915171288743,
+      "grad_norm": 0.1687372922897339,
+      "learning_rate": 0.0006541970623232183,
+      "loss": 0.1539,
+      "num_input_tokens_seen": 121875072,
+      "step": 56420
+    },
+    {
+      "epoch": 9.2047308319739,
+      "grad_norm": 0.22237369418144226,
+      "learning_rate": 0.0006541293503372506,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 121886464,
+      "step": 56425
+    },
+    {
+      "epoch": 9.205546492659053,
+      "grad_norm": 0.025881322100758553,
+      "learning_rate": 0.0006540616352276558,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 121897952,
+      "step": 56430
+    },
+    {
+      "epoch": 9.206362153344209,
+      "grad_norm": 0.27931275963783264,
+      "learning_rate": 0.0006539939169958067,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 121907360,
+      "step": 56435
+    },
+    {
+      "epoch": 9.207177814029365,
+      "grad_norm": 0.005891446024179459,
+      "learning_rate": 0.0006539261956430755,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 121918656,
+      "step": 56440
+    },
+    {
+      "epoch": 9.207993474714518,
+      "grad_norm": 0.031058935448527336,
+      "learning_rate": 0.0006538584711708348,
+      "loss": 0.1126,
+      "num_input_tokens_seen": 121929824,
+      "step": 56445
+    },
+    {
+      "epoch": 9.208809135399674,
+      "grad_norm": 0.06801172345876694,
+      "learning_rate": 0.0006537907435804569,
+      "loss": 0.1866,
+      "num_input_tokens_seen": 121939680,
+      "step": 56450
+    },
+    {
+      "epoch": 9.209624796084828,
+      "grad_norm": 0.2498117983341217,
+      "learning_rate": 0.0006537230128733144,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 121950400,
+      "step": 56455
+    },
+    {
+      "epoch": 9.210440456769984,
+      "grad_norm": 0.41223159432411194,
+      "learning_rate": 0.0006536552790507802,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 121960256,
+      "step": 56460
+    },
+    {
+      "epoch": 9.21125611745514,
+      "grad_norm": 0.1966393142938614,
+      "learning_rate": 0.0006535875421142267,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 121970272,
+      "step": 56465
+    },
+    {
+      "epoch": 9.212071778140293,
+      "grad_norm": 0.01200894545763731,
+      "learning_rate": 0.0006535198020650269,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 121979008,
+      "step": 56470
+    },
+    {
+      "epoch": 9.21288743882545,
+      "grad_norm": 0.014986738562583923,
+      "learning_rate": 0.0006534520589045537,
+      "loss": 0.029,
+      "num_input_tokens_seen": 121989504,
+      "step": 56475
+    },
+    {
+      "epoch": 9.213703099510603,
+      "grad_norm": 0.014505613595247269,
+      "learning_rate": 0.0006533843126341795,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 122000320,
+      "step": 56480
+    },
+    {
+      "epoch": 9.214518760195759,
+      "grad_norm": 0.03650680184364319,
+      "learning_rate": 0.0006533165632552777,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 122010592,
+      "step": 56485
+    },
+    {
+      "epoch": 9.215334420880913,
+      "grad_norm": 0.022520599886775017,
+      "learning_rate": 0.0006532488107692214,
+      "loss": 0.01,
+      "num_input_tokens_seen": 122020704,
+      "step": 56490
+    },
+    {
+      "epoch": 9.216150081566068,
+      "grad_norm": 0.0102704968303442,
+      "learning_rate": 0.0006531810551773836,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 122031776,
+      "step": 56495
+    },
+    {
+      "epoch": 9.216965742251224,
+      "grad_norm": 0.6189824938774109,
+      "learning_rate": 0.0006531132964811374,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 122042944,
+      "step": 56500
+    },
+    {
+      "epoch": 9.217781402936378,
+      "grad_norm": 0.002442688215523958,
+      "learning_rate": 0.0006530455346818559,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 122053824,
+      "step": 56505
+    },
+    {
+      "epoch": 9.218597063621534,
+      "grad_norm": 0.007630040869116783,
+      "learning_rate": 0.0006529777697809125,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 122064864,
+      "step": 56510
+    },
+    {
+      "epoch": 9.219412724306688,
+      "grad_norm": 0.009317480958998203,
+      "learning_rate": 0.0006529100017796805,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 122075968,
+      "step": 56515
+    },
+    {
+      "epoch": 9.220228384991843,
+      "grad_norm": 0.0036200080066919327,
+      "learning_rate": 0.0006528422306795334,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 122086912,
+      "step": 56520
+    },
+    {
+      "epoch": 9.221044045676999,
+      "grad_norm": 0.1551111936569214,
+      "learning_rate": 0.0006527744564818446,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 122098368,
+      "step": 56525
+    },
+    {
+      "epoch": 9.221859706362153,
+      "grad_norm": 0.02000151202082634,
+      "learning_rate": 0.0006527066791879875,
+      "loss": 0.159,
+      "num_input_tokens_seen": 122108384,
+      "step": 56530
+    },
+    {
+      "epoch": 9.222675367047309,
+      "grad_norm": 0.5325279235839844,
+      "learning_rate": 0.000652638898799336,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 122119808,
+      "step": 56535
+    },
+    {
+      "epoch": 9.223491027732463,
+      "grad_norm": 0.03554704412817955,
+      "learning_rate": 0.0006525711153172635,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 122131424,
+      "step": 56540
+    },
+    {
+      "epoch": 9.224306688417618,
+      "grad_norm": 0.043445706367492676,
+      "learning_rate": 0.0006525033287431436,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 122141536,
+      "step": 56545
+    },
+    {
+      "epoch": 9.225122349102774,
+      "grad_norm": 0.20792369544506073,
+      "learning_rate": 0.0006524355390783506,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 122151840,
+      "step": 56550
+    },
+    {
+      "epoch": 9.225938009787928,
+      "grad_norm": 0.0052780830301344395,
+      "learning_rate": 0.0006523677463242579,
+      "loss": 0.011,
+      "num_input_tokens_seen": 122162624,
+      "step": 56555
+    },
+    {
+      "epoch": 9.226753670473084,
+      "grad_norm": 0.15979614853858948,
+      "learning_rate": 0.0006522999504822395,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 122173664,
+      "step": 56560
+    },
+    {
+      "epoch": 9.227569331158238,
+      "grad_norm": 0.20983552932739258,
+      "learning_rate": 0.0006522321515536694,
+      "loss": 0.2322,
+      "num_input_tokens_seen": 122184480,
+      "step": 56565
+    },
+    {
+      "epoch": 9.228384991843393,
+      "grad_norm": 0.007776240352541208,
+      "learning_rate": 0.0006521643495399217,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 122196032,
+      "step": 56570
+    },
+    {
+      "epoch": 9.229200652528547,
+      "grad_norm": 0.30364108085632324,
+      "learning_rate": 0.0006520965444423704,
+      "loss": 0.2579,
+      "num_input_tokens_seen": 122207392,
+      "step": 56575
+    },
+    {
+      "epoch": 9.230016313213703,
+      "grad_norm": 1.1685848236083984,
+      "learning_rate": 0.0006520287362623896,
+      "loss": 0.083,
+      "num_input_tokens_seen": 122218784,
+      "step": 56580
+    },
+    {
+      "epoch": 9.230831973898859,
+      "grad_norm": 0.006376779638230801,
+      "learning_rate": 0.0006519609250013538,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 122230496,
+      "step": 56585
+    },
+    {
+      "epoch": 9.231647634584013,
+      "grad_norm": 0.018893474712967873,
+      "learning_rate": 0.000651893110660637,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 122240512,
+      "step": 56590
+    },
+    {
+      "epoch": 9.232463295269168,
+      "grad_norm": 0.0246660728007555,
+      "learning_rate": 0.0006518252932416135,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 122251200,
+      "step": 56595
+    },
+    {
+      "epoch": 9.233278955954322,
+      "grad_norm": 0.018446508795022964,
+      "learning_rate": 0.0006517574727456579,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 122261184,
+      "step": 56600
+    },
+    {
+      "epoch": 9.234094616639478,
+      "grad_norm": 0.017274249345064163,
+      "learning_rate": 0.0006516896491741446,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 122270048,
+      "step": 56605
+    },
+    {
+      "epoch": 9.234910277324634,
+      "grad_norm": 0.03069995529949665,
+      "learning_rate": 0.000651621822528448,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 122280928,
+      "step": 56610
+    },
+    {
+      "epoch": 9.235725938009788,
+      "grad_norm": 0.5565629005432129,
+      "learning_rate": 0.000651553992809943,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 122291488,
+      "step": 56615
+    },
+    {
+      "epoch": 9.236541598694943,
+      "grad_norm": 0.03480347990989685,
+      "learning_rate": 0.0006514861600200039,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 122301408,
+      "step": 56620
+    },
+    {
+      "epoch": 9.237357259380097,
+      "grad_norm": 0.013822119683027267,
+      "learning_rate": 0.0006514183241600057,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 122312416,
+      "step": 56625
+    },
+    {
+      "epoch": 9.238172920065253,
+      "grad_norm": 0.42332392930984497,
+      "learning_rate": 0.000651350485231323,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 122324224,
+      "step": 56630
+    },
+    {
+      "epoch": 9.238988580750409,
+      "grad_norm": 0.02906874567270279,
+      "learning_rate": 0.0006512826432353308,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 122335840,
+      "step": 56635
+    },
+    {
+      "epoch": 9.239804241435563,
+      "grad_norm": 0.01386654656380415,
+      "learning_rate": 0.000651214798173404,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 122346208,
+      "step": 56640
+    },
+    {
+      "epoch": 9.240619902120718,
+      "grad_norm": 0.0913848802447319,
+      "learning_rate": 0.0006511469500469173,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 122355808,
+      "step": 56645
+    },
+    {
+      "epoch": 9.241435562805872,
+      "grad_norm": 0.4897230267524719,
+      "learning_rate": 0.0006510790988572459,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 122366656,
+      "step": 56650
+    },
+    {
+      "epoch": 9.242251223491028,
+      "grad_norm": 0.006247374229133129,
+      "learning_rate": 0.0006510112446057651,
+      "loss": 0.038,
+      "num_input_tokens_seen": 122375872,
+      "step": 56655
+    },
+    {
+      "epoch": 9.243066884176184,
+      "grad_norm": 0.00599702401086688,
+      "learning_rate": 0.0006509433872938497,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 122387392,
+      "step": 56660
+    },
+    {
+      "epoch": 9.243882544861338,
+      "grad_norm": 0.024100353941321373,
+      "learning_rate": 0.0006508755269228752,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 122396960,
+      "step": 56665
+    },
+    {
+      "epoch": 9.244698205546493,
+      "grad_norm": 0.3259066343307495,
+      "learning_rate": 0.0006508076634942167,
+      "loss": 0.0854,
+      "num_input_tokens_seen": 122408352,
+      "step": 56670
+    },
+    {
+      "epoch": 9.245513866231647,
+      "grad_norm": 0.0508267804980278,
+      "learning_rate": 0.0006507397970092496,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 122420672,
+      "step": 56675
+    },
+    {
+      "epoch": 9.246329526916803,
+      "grad_norm": 0.020270129665732384,
+      "learning_rate": 0.0006506719274693492,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 122431680,
+      "step": 56680
+    },
+    {
+      "epoch": 9.247145187601957,
+      "grad_norm": 0.016229957342147827,
+      "learning_rate": 0.0006506040548758911,
+      "loss": 0.147,
+      "num_input_tokens_seen": 122441984,
+      "step": 56685
+    },
+    {
+      "epoch": 9.247960848287113,
+      "grad_norm": 0.004499287344515324,
+      "learning_rate": 0.0006505361792302509,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 122451616,
+      "step": 56690
+    },
+    {
+      "epoch": 9.248776508972268,
+      "grad_norm": 0.006004804745316505,
+      "learning_rate": 0.0006504683005338039,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 122462848,
+      "step": 56695
+    },
+    {
+      "epoch": 9.249592169657422,
+      "grad_norm": 0.12613023817539215,
+      "learning_rate": 0.0006504004187879259,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 122472960,
+      "step": 56700
+    },
+    {
+      "epoch": 9.250407830342578,
+      "grad_norm": 0.00950097106397152,
+      "learning_rate": 0.0006503325339939927,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 122484064,
+      "step": 56705
+    },
+    {
+      "epoch": 9.251223491027732,
+      "grad_norm": 0.33747807145118713,
+      "learning_rate": 0.0006502646461533798,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 122494816,
+      "step": 56710
+    },
+    {
+      "epoch": 9.252039151712887,
+      "grad_norm": 0.07069870829582214,
+      "learning_rate": 0.0006501967552674635,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 122505024,
+      "step": 56715
+    },
+    {
+      "epoch": 9.252854812398043,
+      "grad_norm": 0.22603590786457062,
+      "learning_rate": 0.0006501288613376193,
+      "loss": 0.1817,
+      "num_input_tokens_seen": 122515680,
+      "step": 56720
+    },
+    {
+      "epoch": 9.253670473083197,
+      "grad_norm": 0.21570582687854767,
+      "learning_rate": 0.0006500609643652234,
+      "loss": 0.2376,
+      "num_input_tokens_seen": 122526368,
+      "step": 56725
+    },
+    {
+      "epoch": 9.254486133768353,
+      "grad_norm": 0.09161341190338135,
+      "learning_rate": 0.0006499930643516514,
+      "loss": 0.2312,
+      "num_input_tokens_seen": 122536448,
+      "step": 56730
+    },
+    {
+      "epoch": 9.255301794453507,
+      "grad_norm": 0.017243504524230957,
+      "learning_rate": 0.0006499251612982798,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 122546464,
+      "step": 56735
+    },
+    {
+      "epoch": 9.256117455138662,
+      "grad_norm": 0.22162210941314697,
+      "learning_rate": 0.0006498572552064847,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 122557152,
+      "step": 56740
+    },
+    {
+      "epoch": 9.256933115823816,
+      "grad_norm": 0.008149663917720318,
+      "learning_rate": 0.0006497893460776421,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 122566848,
+      "step": 56745
+    },
+    {
+      "epoch": 9.257748776508972,
+      "grad_norm": 0.07649563997983932,
+      "learning_rate": 0.0006497214339131284,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 122577568,
+      "step": 56750
+    },
+    {
+      "epoch": 9.258564437194128,
+      "grad_norm": 0.004069112706929445,
+      "learning_rate": 0.00064965351871432,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 122587040,
+      "step": 56755
+    },
+    {
+      "epoch": 9.259380097879282,
+      "grad_norm": 0.0017357214819639921,
+      "learning_rate": 0.0006495856004825931,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 122597856,
+      "step": 56760
+    },
+    {
+      "epoch": 9.260195758564437,
+      "grad_norm": 0.032659392803907394,
+      "learning_rate": 0.0006495176792193243,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 122608032,
+      "step": 56765
+    },
+    {
+      "epoch": 9.261011419249591,
+      "grad_norm": 0.01769702136516571,
+      "learning_rate": 0.00064944975492589,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 122620032,
+      "step": 56770
+    },
+    {
+      "epoch": 9.261827079934747,
+      "grad_norm": 0.23506838083267212,
+      "learning_rate": 0.0006493818276036669,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 122629696,
+      "step": 56775
+    },
+    {
+      "epoch": 9.262642740619903,
+      "grad_norm": 0.06442558020353317,
+      "learning_rate": 0.0006493138972540316,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 122639776,
+      "step": 56780
+    },
+    {
+      "epoch": 9.263458401305057,
+      "grad_norm": 0.06317390501499176,
+      "learning_rate": 0.0006492459638783606,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 122650240,
+      "step": 56785
+    },
+    {
+      "epoch": 9.264274061990212,
+      "grad_norm": 0.29172617197036743,
+      "learning_rate": 0.0006491780274780308,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 122661056,
+      "step": 56790
+    },
+    {
+      "epoch": 9.265089722675366,
+      "grad_norm": 0.008959591388702393,
+      "learning_rate": 0.0006491100880544191,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 122671936,
+      "step": 56795
+    },
+    {
+      "epoch": 9.265905383360522,
+      "grad_norm": 0.2516701817512512,
+      "learning_rate": 0.0006490421456089023,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 122683808,
+      "step": 56800
+    },
+    {
+      "epoch": 9.266721044045678,
+      "grad_norm": 0.03728965297341347,
+      "learning_rate": 0.0006489742001428573,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 122695520,
+      "step": 56805
+    },
+    {
+      "epoch": 9.267536704730832,
+      "grad_norm": 0.006289742887020111,
+      "learning_rate": 0.0006489062516576613,
+      "loss": 0.008,
+      "num_input_tokens_seen": 122706624,
+      "step": 56810
+    },
+    {
+      "epoch": 9.268352365415987,
+      "grad_norm": 0.03731833025813103,
+      "learning_rate": 0.0006488383001546911,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 122718016,
+      "step": 56815
+    },
+    {
+      "epoch": 9.269168026101141,
+      "grad_norm": 0.004130576737225056,
+      "learning_rate": 0.000648770345635324,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 122727872,
+      "step": 56820
+    },
+    {
+      "epoch": 9.269983686786297,
+      "grad_norm": 0.0015647370601072907,
+      "learning_rate": 0.000648702388100937,
+      "loss": 0.1372,
+      "num_input_tokens_seen": 122737984,
+      "step": 56825
+    },
+    {
+      "epoch": 9.270799347471453,
+      "grad_norm": 0.006820981856435537,
+      "learning_rate": 0.0006486344275529076,
+      "loss": 0.1507,
+      "num_input_tokens_seen": 122749088,
+      "step": 56830
+    },
+    {
+      "epoch": 9.271615008156607,
+      "grad_norm": 0.0026828646659851074,
+      "learning_rate": 0.0006485664639926128,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 122760128,
+      "step": 56835
+    },
+    {
+      "epoch": 9.272430668841762,
+      "grad_norm": 0.2718150019645691,
+      "learning_rate": 0.0006484984974214303,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 122770592,
+      "step": 56840
+    },
+    {
+      "epoch": 9.273246329526916,
+      "grad_norm": 0.030774256214499474,
+      "learning_rate": 0.0006484305278407373,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 122781536,
+      "step": 56845
+    },
+    {
+      "epoch": 9.274061990212072,
+      "grad_norm": 0.13015435636043549,
+      "learning_rate": 0.0006483625552519114,
+      "loss": 0.045,
+      "num_input_tokens_seen": 122791680,
+      "step": 56850
+    },
+    {
+      "epoch": 9.274877650897226,
+      "grad_norm": 0.03489632159471512,
+      "learning_rate": 0.00064829457965633,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 122801728,
+      "step": 56855
+    },
+    {
+      "epoch": 9.275693311582382,
+      "grad_norm": 0.5021911263465881,
+      "learning_rate": 0.0006482266010553707,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 122812896,
+      "step": 56860
+    },
+    {
+      "epoch": 9.276508972267537,
+      "grad_norm": 0.012664350681006908,
+      "learning_rate": 0.0006481586194504117,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 122823488,
+      "step": 56865
+    },
+    {
+      "epoch": 9.277324632952691,
+      "grad_norm": 0.07986239343881607,
+      "learning_rate": 0.00064809063484283,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 122834752,
+      "step": 56870
+    },
+    {
+      "epoch": 9.278140293637847,
+      "grad_norm": 0.0034950373228639364,
+      "learning_rate": 0.0006480226472340039,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 122846080,
+      "step": 56875
+    },
+    {
+      "epoch": 9.278955954323001,
+      "grad_norm": 0.044152747839689255,
+      "learning_rate": 0.0006479546566253109,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 122856896,
+      "step": 56880
+    },
+    {
+      "epoch": 9.279771615008157,
+      "grad_norm": 0.10844366997480392,
+      "learning_rate": 0.0006478866630181293,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 122867456,
+      "step": 56885
+    },
+    {
+      "epoch": 9.280587275693312,
+      "grad_norm": 0.03289483115077019,
+      "learning_rate": 0.0006478186664138366,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 122878944,
+      "step": 56890
+    },
+    {
+      "epoch": 9.281402936378466,
+      "grad_norm": 0.020551707595586777,
+      "learning_rate": 0.0006477506668138113,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 122889408,
+      "step": 56895
+    },
+    {
+      "epoch": 9.282218597063622,
+      "grad_norm": 0.022187283262610435,
+      "learning_rate": 0.0006476826642194313,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 122899584,
+      "step": 56900
+    },
+    {
+      "epoch": 9.283034257748776,
+      "grad_norm": 0.006548890843987465,
+      "learning_rate": 0.0006476146586320747,
+      "loss": 0.0859,
+      "num_input_tokens_seen": 122910976,
+      "step": 56905
+    },
+    {
+      "epoch": 9.283849918433932,
+      "grad_norm": 0.17593686282634735,
+      "learning_rate": 0.0006475466500531198,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 122922336,
+      "step": 56910
+    },
+    {
+      "epoch": 9.284665579119087,
+      "grad_norm": 0.007709556259214878,
+      "learning_rate": 0.0006474786384839448,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 122934208,
+      "step": 56915
+    },
+    {
+      "epoch": 9.285481239804241,
+      "grad_norm": 0.03171587735414505,
+      "learning_rate": 0.0006474106239259282,
+      "loss": 0.054,
+      "num_input_tokens_seen": 122945216,
+      "step": 56920
+    },
+    {
+      "epoch": 9.286296900489397,
+      "grad_norm": 0.01960030384361744,
+      "learning_rate": 0.0006473426063804483,
+      "loss": 0.007,
+      "num_input_tokens_seen": 122955904,
+      "step": 56925
+    },
+    {
+      "epoch": 9.28711256117455,
+      "grad_norm": 0.0011323639191687107,
+      "learning_rate": 0.0006472745858488835,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 122967040,
+      "step": 56930
+    },
+    {
+      "epoch": 9.287928221859707,
+      "grad_norm": 0.012678350321948528,
+      "learning_rate": 0.0006472065623326123,
+      "loss": 0.008,
+      "num_input_tokens_seen": 122978080,
+      "step": 56935
+    },
+    {
+      "epoch": 9.28874388254486,
+      "grad_norm": 0.0027061044238507748,
+      "learning_rate": 0.0006471385358330135,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 122988928,
+      "step": 56940
+    },
+    {
+      "epoch": 9.289559543230016,
+      "grad_norm": 0.004366982262581587,
+      "learning_rate": 0.0006470705063514656,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 123000192,
+      "step": 56945
+    },
+    {
+      "epoch": 9.290375203915172,
+      "grad_norm": 0.0069068376906216145,
+      "learning_rate": 0.0006470024738893473,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 123011264,
+      "step": 56950
+    },
+    {
+      "epoch": 9.291190864600326,
+      "grad_norm": 0.03688400238752365,
+      "learning_rate": 0.0006469344384480374,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 123022336,
+      "step": 56955
+    },
+    {
+      "epoch": 9.292006525285482,
+      "grad_norm": 0.035516850650310516,
+      "learning_rate": 0.0006468664000289147,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 123034304,
+      "step": 56960
+    },
+    {
+      "epoch": 9.292822185970635,
+      "grad_norm": 0.01059263851493597,
+      "learning_rate": 0.000646798358633358,
+      "loss": 0.1205,
+      "num_input_tokens_seen": 123044224,
+      "step": 56965
+    },
+    {
+      "epoch": 9.293637846655791,
+      "grad_norm": 0.1201028898358345,
+      "learning_rate": 0.0006467303142627465,
+      "loss": 0.104,
+      "num_input_tokens_seen": 123054624,
+      "step": 56970
+    },
+    {
+      "epoch": 9.294453507340947,
+      "grad_norm": 0.3978259861469269,
+      "learning_rate": 0.0006466622669184589,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 123066368,
+      "step": 56975
+    },
+    {
+      "epoch": 9.2952691680261,
+      "grad_norm": 0.007530895993113518,
+      "learning_rate": 0.0006465942166018745,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 123076224,
+      "step": 56980
+    },
+    {
+      "epoch": 9.296084828711257,
+      "grad_norm": 0.0026840101927518845,
+      "learning_rate": 0.0006465261633143722,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 123088256,
+      "step": 56985
+    },
+    {
+      "epoch": 9.29690048939641,
+      "grad_norm": 0.03933865576982498,
+      "learning_rate": 0.0006464581070573315,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 123098400,
+      "step": 56990
+    },
+    {
+      "epoch": 9.297716150081566,
+      "grad_norm": 0.18984612822532654,
+      "learning_rate": 0.0006463900478321314,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 123108928,
+      "step": 56995
+    },
+    {
+      "epoch": 9.298531810766722,
+      "grad_norm": 0.047432951629161835,
+      "learning_rate": 0.0006463219856401513,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 123120160,
+      "step": 57000
+    },
+    {
+      "epoch": 9.299347471451876,
+      "grad_norm": 0.005672098137438297,
+      "learning_rate": 0.0006462539204827705,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 123129440,
+      "step": 57005
+    },
+    {
+      "epoch": 9.300163132137031,
+      "grad_norm": 0.011451846919953823,
+      "learning_rate": 0.0006461858523613684,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 123139648,
+      "step": 57010
+    },
+    {
+      "epoch": 9.300978792822185,
+      "grad_norm": 0.05032016709446907,
+      "learning_rate": 0.0006461177812773246,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 123150304,
+      "step": 57015
+    },
+    {
+      "epoch": 9.301794453507341,
+      "grad_norm": 0.009700275957584381,
+      "learning_rate": 0.0006460497072320186,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 123160768,
+      "step": 57020
+    },
+    {
+      "epoch": 9.302610114192497,
+      "grad_norm": 0.03388618305325508,
+      "learning_rate": 0.00064598163022683,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 123170336,
+      "step": 57025
+    },
+    {
+      "epoch": 9.30342577487765,
+      "grad_norm": 0.0011625054758042097,
+      "learning_rate": 0.0006459135502631386,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 123181216,
+      "step": 57030
+    },
+    {
+      "epoch": 9.304241435562806,
+      "grad_norm": 0.02638522908091545,
+      "learning_rate": 0.0006458454673423238,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 123192384,
+      "step": 57035
+    },
+    {
+      "epoch": 9.30505709624796,
+      "grad_norm": 0.21478807926177979,
+      "learning_rate": 0.0006457773814657657,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 123203424,
+      "step": 57040
+    },
+    {
+      "epoch": 9.305872756933116,
+      "grad_norm": 0.04131392389535904,
+      "learning_rate": 0.000645709292634844,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 123213152,
+      "step": 57045
+    },
+    {
+      "epoch": 9.30668841761827,
+      "grad_norm": 0.04098490625619888,
+      "learning_rate": 0.0006456412008509387,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 123223616,
+      "step": 57050
+    },
+    {
+      "epoch": 9.307504078303426,
+      "grad_norm": 0.24334684014320374,
+      "learning_rate": 0.0006455731061154297,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 123233632,
+      "step": 57055
+    },
+    {
+      "epoch": 9.308319738988581,
+      "grad_norm": 0.03460830822587013,
+      "learning_rate": 0.0006455050084296969,
+      "loss": 0.0976,
+      "num_input_tokens_seen": 123244608,
+      "step": 57060
+    },
+    {
+      "epoch": 9.309135399673735,
+      "grad_norm": 0.06306884437799454,
+      "learning_rate": 0.0006454369077951206,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 123253952,
+      "step": 57065
+    },
+    {
+      "epoch": 9.309951060358891,
+      "grad_norm": 0.0017151982756331563,
+      "learning_rate": 0.0006453688042130808,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 123263968,
+      "step": 57070
+    },
+    {
+      "epoch": 9.310766721044045,
+      "grad_norm": 0.013023875653743744,
+      "learning_rate": 0.0006453006976849578,
+      "loss": 0.012,
+      "num_input_tokens_seen": 123273312,
+      "step": 57075
+    },
+    {
+      "epoch": 9.3115823817292,
+      "grad_norm": 0.5808905363082886,
+      "learning_rate": 0.0006452325882121319,
+      "loss": 0.1844,
+      "num_input_tokens_seen": 123284864,
+      "step": 57080
+    },
+    {
+      "epoch": 9.312398042414356,
+      "grad_norm": 0.020586438477039337,
+      "learning_rate": 0.0006451644757959834,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 123295840,
+      "step": 57085
+    },
+    {
+      "epoch": 9.31321370309951,
+      "grad_norm": 0.007403132040053606,
+      "learning_rate": 0.0006450963604378926,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 123304992,
+      "step": 57090
+    },
+    {
+      "epoch": 9.314029363784666,
+      "grad_norm": 0.05940420553088188,
+      "learning_rate": 0.0006450282421392399,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 123314720,
+      "step": 57095
+    },
+    {
+      "epoch": 9.31484502446982,
+      "grad_norm": 0.15579479932785034,
+      "learning_rate": 0.0006449601209014059,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 123323168,
+      "step": 57100
+    },
+    {
+      "epoch": 9.315660685154976,
+      "grad_norm": 0.29078125953674316,
+      "learning_rate": 0.0006448919967257711,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 123333952,
+      "step": 57105
+    },
+    {
+      "epoch": 9.31647634584013,
+      "grad_norm": 0.008018561638891697,
+      "learning_rate": 0.0006448238696137163,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 123344928,
+      "step": 57110
+    },
+    {
+      "epoch": 9.317292006525285,
+      "grad_norm": 0.0108210863545537,
+      "learning_rate": 0.0006447557395666221,
+      "loss": 0.0491,
+      "num_input_tokens_seen": 123354720,
+      "step": 57115
+    },
+    {
+      "epoch": 9.318107667210441,
+      "grad_norm": 0.21279096603393555,
+      "learning_rate": 0.0006446876065858691,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 123366272,
+      "step": 57120
+    },
+    {
+      "epoch": 9.318923327895595,
+      "grad_norm": 0.2715965211391449,
+      "learning_rate": 0.0006446194706728383,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 123377472,
+      "step": 57125
+    },
+    {
+      "epoch": 9.31973898858075,
+      "grad_norm": 0.0017662273021414876,
+      "learning_rate": 0.0006445513318289104,
+      "loss": 0.048,
+      "num_input_tokens_seen": 123389280,
+      "step": 57130
+    },
+    {
+      "epoch": 9.320554649265905,
+      "grad_norm": 0.01154270675033331,
+      "learning_rate": 0.0006444831900554664,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 123400352,
+      "step": 57135
+    },
+    {
+      "epoch": 9.32137030995106,
+      "grad_norm": 0.004029486328363419,
+      "learning_rate": 0.0006444150453538873,
+      "loss": 0.036,
+      "num_input_tokens_seen": 123411616,
+      "step": 57140
+    },
+    {
+      "epoch": 9.322185970636216,
+      "grad_norm": 0.01075716968625784,
+      "learning_rate": 0.000644346897725554,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 123422304,
+      "step": 57145
+    },
+    {
+      "epoch": 9.32300163132137,
+      "grad_norm": 0.003960131201893091,
+      "learning_rate": 0.0006442787471718479,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 123433024,
+      "step": 57150
+    },
+    {
+      "epoch": 9.323817292006526,
+      "grad_norm": 0.005982367787510157,
+      "learning_rate": 0.0006442105936941498,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 123444416,
+      "step": 57155
+    },
+    {
+      "epoch": 9.32463295269168,
+      "grad_norm": 0.038486577570438385,
+      "learning_rate": 0.000644142437293841,
+      "loss": 0.1482,
+      "num_input_tokens_seen": 123454880,
+      "step": 57160
+    },
+    {
+      "epoch": 9.325448613376835,
+      "grad_norm": 0.11881979554891586,
+      "learning_rate": 0.000644074277972303,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 123465472,
+      "step": 57165
+    },
+    {
+      "epoch": 9.326264274061991,
+      "grad_norm": 0.010927199386060238,
+      "learning_rate": 0.000644006115730917,
+      "loss": 0.0554,
+      "num_input_tokens_seen": 123477120,
+      "step": 57170
+    },
+    {
+      "epoch": 9.327079934747145,
+      "grad_norm": 0.01006519515067339,
+      "learning_rate": 0.000643937950571064,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 123487296,
+      "step": 57175
+    },
+    {
+      "epoch": 9.3278955954323,
+      "grad_norm": 0.008437362499535084,
+      "learning_rate": 0.0006438697824941263,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 123497440,
+      "step": 57180
+    },
+    {
+      "epoch": 9.328711256117455,
+      "grad_norm": 0.011827422305941582,
+      "learning_rate": 0.0006438016115014848,
+      "loss": 0.009,
+      "num_input_tokens_seen": 123508384,
+      "step": 57185
+    },
+    {
+      "epoch": 9.32952691680261,
+      "grad_norm": 0.0015898183919489384,
+      "learning_rate": 0.0006437334375945212,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 123519296,
+      "step": 57190
+    },
+    {
+      "epoch": 9.330342577487766,
+      "grad_norm": 0.019101936370134354,
+      "learning_rate": 0.0006436652607746171,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 123532256,
+      "step": 57195
+    },
+    {
+      "epoch": 9.33115823817292,
+      "grad_norm": 0.0033209563698619604,
+      "learning_rate": 0.0006435970810431544,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 123542112,
+      "step": 57200
+    },
+    {
+      "epoch": 9.331973898858076,
+      "grad_norm": 0.029729114845395088,
+      "learning_rate": 0.0006435288984015146,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 123552352,
+      "step": 57205
+    },
+    {
+      "epoch": 9.33278955954323,
+      "grad_norm": 0.36488205194473267,
+      "learning_rate": 0.0006434607128510796,
+      "loss": 0.1586,
+      "num_input_tokens_seen": 123562880,
+      "step": 57210
+    },
+    {
+      "epoch": 9.333605220228385,
+      "grad_norm": 0.3097657561302185,
+      "learning_rate": 0.0006433925243932312,
+      "loss": 0.1643,
+      "num_input_tokens_seen": 123573536,
+      "step": 57215
+    },
+    {
+      "epoch": 9.33442088091354,
+      "grad_norm": 0.008041603490710258,
+      "learning_rate": 0.0006433243330293514,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 123584416,
+      "step": 57220
+    },
+    {
+      "epoch": 9.335236541598695,
+      "grad_norm": 0.003848917316645384,
+      "learning_rate": 0.0006432561387608222,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 123596352,
+      "step": 57225
+    },
+    {
+      "epoch": 9.33605220228385,
+      "grad_norm": 0.004652928560972214,
+      "learning_rate": 0.0006431879415890256,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 123607008,
+      "step": 57230
+    },
+    {
+      "epoch": 9.336867862969005,
+      "grad_norm": 0.04283025488257408,
+      "learning_rate": 0.0006431197415153437,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 123617632,
+      "step": 57235
+    },
+    {
+      "epoch": 9.33768352365416,
+      "grad_norm": 0.01733693666756153,
+      "learning_rate": 0.0006430515385411588,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 123628192,
+      "step": 57240
+    },
+    {
+      "epoch": 9.338499184339314,
+      "grad_norm": 0.2398867905139923,
+      "learning_rate": 0.0006429833326678529,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 123638304,
+      "step": 57245
+    },
+    {
+      "epoch": 9.33931484502447,
+      "grad_norm": 0.331961452960968,
+      "learning_rate": 0.0006429151238968083,
+      "loss": 0.0822,
+      "num_input_tokens_seen": 123649792,
+      "step": 57250
+    },
+    {
+      "epoch": 9.340130505709626,
+      "grad_norm": 0.1437341868877411,
+      "learning_rate": 0.0006428469122294075,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 123661024,
+      "step": 57255
+    },
+    {
+      "epoch": 9.34094616639478,
+      "grad_norm": 0.09274806827306747,
+      "learning_rate": 0.0006427786976670328,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 123672672,
+      "step": 57260
+    },
+    {
+      "epoch": 9.341761827079935,
+      "grad_norm": 0.0013064906233921647,
+      "learning_rate": 0.0006427104802110667,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 123683296,
+      "step": 57265
+    },
+    {
+      "epoch": 9.34257748776509,
+      "grad_norm": 0.4128345549106598,
+      "learning_rate": 0.0006426422598628916,
+      "loss": 0.094,
+      "num_input_tokens_seen": 123694848,
+      "step": 57270
+    },
+    {
+      "epoch": 9.343393148450245,
+      "grad_norm": 0.6230624318122864,
+      "learning_rate": 0.0006425740366238903,
+      "loss": 0.1,
+      "num_input_tokens_seen": 123705760,
+      "step": 57275
+    },
+    {
+      "epoch": 9.3442088091354,
+      "grad_norm": 0.01017848402261734,
+      "learning_rate": 0.0006425058104954451,
+      "loss": 0.018,
+      "num_input_tokens_seen": 123716000,
+      "step": 57280
+    },
+    {
+      "epoch": 9.345024469820554,
+      "grad_norm": 0.18681271374225616,
+      "learning_rate": 0.0006424375814789388,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 123727616,
+      "step": 57285
+    },
+    {
+      "epoch": 9.34584013050571,
+      "grad_norm": 0.419785737991333,
+      "learning_rate": 0.0006423693495757545,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 123738400,
+      "step": 57290
+    },
+    {
+      "epoch": 9.346655791190864,
+      "grad_norm": 0.005531011614948511,
+      "learning_rate": 0.0006423011147872745,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 123747616,
+      "step": 57295
+    },
+    {
+      "epoch": 9.34747145187602,
+      "grad_norm": 0.04268835484981537,
+      "learning_rate": 0.000642232877114882,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 123759424,
+      "step": 57300
+    },
+    {
+      "epoch": 9.348287112561174,
+      "grad_norm": 0.012237378396093845,
+      "learning_rate": 0.0006421646365599597,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 123771072,
+      "step": 57305
+    },
+    {
+      "epoch": 9.34910277324633,
+      "grad_norm": 0.05506362393498421,
+      "learning_rate": 0.0006420963931238907,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 123782816,
+      "step": 57310
+    },
+    {
+      "epoch": 9.349918433931485,
+      "grad_norm": 0.0642736479640007,
+      "learning_rate": 0.0006420281468080582,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 123792416,
+      "step": 57315
+    },
+    {
+      "epoch": 9.350734094616639,
+      "grad_norm": 0.2579999566078186,
+      "learning_rate": 0.0006419598976138451,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 123803680,
+      "step": 57320
+    },
+    {
+      "epoch": 9.351549755301795,
+      "grad_norm": 0.009822947904467583,
+      "learning_rate": 0.0006418916455426344,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 123814912,
+      "step": 57325
+    },
+    {
+      "epoch": 9.352365415986949,
+      "grad_norm": 0.0744229406118393,
+      "learning_rate": 0.0006418233905958097,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 123825856,
+      "step": 57330
+    },
+    {
+      "epoch": 9.353181076672104,
+      "grad_norm": 0.012941932305693626,
+      "learning_rate": 0.000641755132774754,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 123836032,
+      "step": 57335
+    },
+    {
+      "epoch": 9.35399673735726,
+      "grad_norm": 0.027866492047905922,
+      "learning_rate": 0.0006416868720808507,
+      "loss": 0.181,
+      "num_input_tokens_seen": 123846080,
+      "step": 57340
+    },
+    {
+      "epoch": 9.354812398042414,
+      "grad_norm": 0.007846455089747906,
+      "learning_rate": 0.0006416186085154833,
+      "loss": 0.1681,
+      "num_input_tokens_seen": 123856928,
+      "step": 57345
+    },
+    {
+      "epoch": 9.35562805872757,
+      "grad_norm": 0.029931560158729553,
+      "learning_rate": 0.0006415503420800349,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 123867072,
+      "step": 57350
+    },
+    {
+      "epoch": 9.356443719412724,
+      "grad_norm": 0.036976058036088943,
+      "learning_rate": 0.0006414820727758894,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 123877280,
+      "step": 57355
+    },
+    {
+      "epoch": 9.35725938009788,
+      "grad_norm": 0.08427825570106506,
+      "learning_rate": 0.0006414138006044303,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 123887040,
+      "step": 57360
+    },
+    {
+      "epoch": 9.358075040783035,
+      "grad_norm": 0.009288780391216278,
+      "learning_rate": 0.0006413455255670409,
+      "loss": 0.0601,
+      "num_input_tokens_seen": 123897632,
+      "step": 57365
+    },
+    {
+      "epoch": 9.358890701468189,
+      "grad_norm": 0.007328356616199017,
+      "learning_rate": 0.0006412772476651053,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 123909024,
+      "step": 57370
+    },
+    {
+      "epoch": 9.359706362153345,
+      "grad_norm": 0.012570452876389027,
+      "learning_rate": 0.0006412089669000071,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 123920864,
+      "step": 57375
+    },
+    {
+      "epoch": 9.360522022838499,
+      "grad_norm": 0.01703028939664364,
+      "learning_rate": 0.0006411406832731299,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 123932224,
+      "step": 57380
+    },
+    {
+      "epoch": 9.361337683523654,
+      "grad_norm": 0.01287777628749609,
+      "learning_rate": 0.0006410723967858577,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 123944064,
+      "step": 57385
+    },
+    {
+      "epoch": 9.362153344208808,
+      "grad_norm": 0.10792047530412674,
+      "learning_rate": 0.0006410041074395744,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 123955168,
+      "step": 57390
+    },
+    {
+      "epoch": 9.362969004893964,
+      "grad_norm": 0.2537194788455963,
+      "learning_rate": 0.0006409358152356642,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 123965920,
+      "step": 57395
+    },
+    {
+      "epoch": 9.36378466557912,
+      "grad_norm": 0.04030577838420868,
+      "learning_rate": 0.0006408675201755107,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 123978048,
+      "step": 57400
+    },
+    {
+      "epoch": 9.364600326264274,
+      "grad_norm": 0.7500656247138977,
+      "learning_rate": 0.0006407992222604983,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 123989216,
+      "step": 57405
+    },
+    {
+      "epoch": 9.36541598694943,
+      "grad_norm": 0.0026482176035642624,
+      "learning_rate": 0.000640730921492011,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 124001408,
+      "step": 57410
+    },
+    {
+      "epoch": 9.366231647634583,
+      "grad_norm": 0.09167847037315369,
+      "learning_rate": 0.000640662617871433,
+      "loss": 0.1328,
+      "num_input_tokens_seen": 124011904,
+      "step": 57415
+    },
+    {
+      "epoch": 9.367047308319739,
+      "grad_norm": 0.023537907749414444,
+      "learning_rate": 0.0006405943114001486,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 124023040,
+      "step": 57420
+    },
+    {
+      "epoch": 9.367862969004895,
+      "grad_norm": 0.722507655620575,
+      "learning_rate": 0.0006405260020795421,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 124033728,
+      "step": 57425
+    },
+    {
+      "epoch": 9.368678629690049,
+      "grad_norm": 0.07008686661720276,
+      "learning_rate": 0.0006404576899109981,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 124043840,
+      "step": 57430
+    },
+    {
+      "epoch": 9.369494290375204,
+      "grad_norm": 0.392330527305603,
+      "learning_rate": 0.0006403893748959007,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 124055040,
+      "step": 57435
+    },
+    {
+      "epoch": 9.370309951060358,
+      "grad_norm": 0.008758448995649815,
+      "learning_rate": 0.0006403210570356346,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 124065056,
+      "step": 57440
+    },
+    {
+      "epoch": 9.371125611745514,
+      "grad_norm": 0.0045740483328700066,
+      "learning_rate": 0.0006402527363315843,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 124076224,
+      "step": 57445
+    },
+    {
+      "epoch": 9.37194127243067,
+      "grad_norm": 0.002997696865350008,
+      "learning_rate": 0.0006401844127851342,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 124087424,
+      "step": 57450
+    },
+    {
+      "epoch": 9.372756933115824,
+      "grad_norm": 0.001006297068670392,
+      "learning_rate": 0.0006401160863976691,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 124098144,
+      "step": 57455
+    },
+    {
+      "epoch": 9.37357259380098,
+      "grad_norm": 0.30021172761917114,
+      "learning_rate": 0.000640047757170574,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 124109184,
+      "step": 57460
+    },
+    {
+      "epoch": 9.374388254486133,
+      "grad_norm": 0.21571239829063416,
+      "learning_rate": 0.0006399794251052333,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 124120032,
+      "step": 57465
+    },
+    {
+      "epoch": 9.375203915171289,
+      "grad_norm": 0.21111957728862762,
+      "learning_rate": 0.000639911090203032,
+      "loss": 0.028,
+      "num_input_tokens_seen": 124130752,
+      "step": 57470
+    },
+    {
+      "epoch": 9.376019575856443,
+      "grad_norm": 0.4067305028438568,
+      "learning_rate": 0.000639842752465355,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 124140896,
+      "step": 57475
+    },
+    {
+      "epoch": 9.376835236541599,
+      "grad_norm": 0.1772114485502243,
+      "learning_rate": 0.0006397744118935871,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 124152000,
+      "step": 57480
+    },
+    {
+      "epoch": 9.377650897226754,
+      "grad_norm": 0.057778965681791306,
+      "learning_rate": 0.0006397060684891136,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 124163296,
+      "step": 57485
+    },
+    {
+      "epoch": 9.378466557911908,
+      "grad_norm": 0.009378801099956036,
+      "learning_rate": 0.0006396377222533192,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 124173824,
+      "step": 57490
+    },
+    {
+      "epoch": 9.379282218597064,
+      "grad_norm": 0.004530887119472027,
+      "learning_rate": 0.0006395693731875892,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 124184384,
+      "step": 57495
+    },
+    {
+      "epoch": 9.380097879282218,
+      "grad_norm": 0.0177314355969429,
+      "learning_rate": 0.000639501021293309,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 124196352,
+      "step": 57500
+    },
+    {
+      "epoch": 9.380913539967374,
+      "grad_norm": 0.10000865161418915,
+      "learning_rate": 0.0006394326665718635,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 124206720,
+      "step": 57505
+    },
+    {
+      "epoch": 9.38172920065253,
+      "grad_norm": 0.026358895003795624,
+      "learning_rate": 0.0006393643090246381,
+      "loss": 0.1997,
+      "num_input_tokens_seen": 124217856,
+      "step": 57510
+    },
+    {
+      "epoch": 9.382544861337683,
+      "grad_norm": 0.01959538832306862,
+      "learning_rate": 0.0006392959486530183,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 124227616,
+      "step": 57515
+    },
+    {
+      "epoch": 9.383360522022839,
+      "grad_norm": 0.1922665238380432,
+      "learning_rate": 0.0006392275854583894,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 124236800,
+      "step": 57520
+    },
+    {
+      "epoch": 9.384176182707993,
+      "grad_norm": 0.0030915914103388786,
+      "learning_rate": 0.0006391592194421367,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 124247456,
+      "step": 57525
+    },
+    {
+      "epoch": 9.384991843393149,
+      "grad_norm": 0.02654971182346344,
+      "learning_rate": 0.0006390908506056461,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 124258752,
+      "step": 57530
+    },
+    {
+      "epoch": 9.385807504078304,
+      "grad_norm": 0.008271587081253529,
+      "learning_rate": 0.0006390224789503028,
+      "loss": 0.0834,
+      "num_input_tokens_seen": 124269856,
+      "step": 57535
+    },
+    {
+      "epoch": 9.386623164763458,
+      "grad_norm": 0.31094446778297424,
+      "learning_rate": 0.0006389541044774927,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 124280640,
+      "step": 57540
+    },
+    {
+      "epoch": 9.387438825448614,
+      "grad_norm": 0.20158900320529938,
+      "learning_rate": 0.0006388857271886013,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 124290976,
+      "step": 57545
+    },
+    {
+      "epoch": 9.388254486133768,
+      "grad_norm": 0.26112285256385803,
+      "learning_rate": 0.0006388173470850144,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 124302752,
+      "step": 57550
+    },
+    {
+      "epoch": 9.389070146818923,
+      "grad_norm": 0.003522562561556697,
+      "learning_rate": 0.0006387489641681181,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 124314208,
+      "step": 57555
+    },
+    {
+      "epoch": 9.38988580750408,
+      "grad_norm": 0.08223313838243484,
+      "learning_rate": 0.0006386805784392978,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 124324992,
+      "step": 57560
+    },
+    {
+      "epoch": 9.390701468189233,
+      "grad_norm": 0.09716961532831192,
+      "learning_rate": 0.0006386121898999397,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 124335264,
+      "step": 57565
+    },
+    {
+      "epoch": 9.391517128874389,
+      "grad_norm": 0.1217547208070755,
+      "learning_rate": 0.0006385437985514297,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 124345952,
+      "step": 57570
+    },
+    {
+      "epoch": 9.392332789559543,
+      "grad_norm": 0.005859457887709141,
+      "learning_rate": 0.000638475404395154,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 124357152,
+      "step": 57575
+    },
+    {
+      "epoch": 9.393148450244698,
+      "grad_norm": 0.02815798856317997,
+      "learning_rate": 0.0006384070074324984,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 124368096,
+      "step": 57580
+    },
+    {
+      "epoch": 9.393964110929852,
+      "grad_norm": 0.3322744369506836,
+      "learning_rate": 0.0006383386076648494,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 124378272,
+      "step": 57585
+    },
+    {
+      "epoch": 9.394779771615008,
+      "grad_norm": 0.09620869159698486,
+      "learning_rate": 0.0006382702050935929,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 124389856,
+      "step": 57590
+    },
+    {
+      "epoch": 9.395595432300164,
+      "grad_norm": 0.011701155453920364,
+      "learning_rate": 0.0006382017997201152,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 124402240,
+      "step": 57595
+    },
+    {
+      "epoch": 9.396411092985318,
+      "grad_norm": 0.007712031714618206,
+      "learning_rate": 0.000638133391545803,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 124413344,
+      "step": 57600
+    },
+    {
+      "epoch": 9.397226753670473,
+      "grad_norm": 0.1123395785689354,
+      "learning_rate": 0.000638064980572042,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 124425600,
+      "step": 57605
+    },
+    {
+      "epoch": 9.398042414355627,
+      "grad_norm": 0.017627792432904243,
+      "learning_rate": 0.0006379965668002192,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 124435200,
+      "step": 57610
+    },
+    {
+      "epoch": 9.398858075040783,
+      "grad_norm": 0.0041339038871228695,
+      "learning_rate": 0.0006379281502317209,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 124445888,
+      "step": 57615
+    },
+    {
+      "epoch": 9.399673735725939,
+      "grad_norm": 0.07806552201509476,
+      "learning_rate": 0.0006378597308679338,
+      "loss": 0.0267,
+      "num_input_tokens_seen": 124457696,
+      "step": 57620
+    },
+    {
+      "epoch": 9.400489396411093,
+      "grad_norm": 0.016718747094273567,
+      "learning_rate": 0.0006377913087102443,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 124469312,
+      "step": 57625
+    },
+    {
+      "epoch": 9.401305057096248,
+      "grad_norm": 0.016923511400818825,
+      "learning_rate": 0.0006377228837600391,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 124479584,
+      "step": 57630
+    },
+    {
+      "epoch": 9.402120717781402,
+      "grad_norm": 0.002410069340839982,
+      "learning_rate": 0.0006376544560187049,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 124490432,
+      "step": 57635
+    },
+    {
+      "epoch": 9.402936378466558,
+      "grad_norm": 0.00935316551476717,
+      "learning_rate": 0.0006375860254876286,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 124501312,
+      "step": 57640
+    },
+    {
+      "epoch": 9.403752039151712,
+      "grad_norm": 0.05050384998321533,
+      "learning_rate": 0.0006375175921681968,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 124512256,
+      "step": 57645
+    },
+    {
+      "epoch": 9.404567699836868,
+      "grad_norm": 0.002771280240267515,
+      "learning_rate": 0.0006374491560617967,
+      "loss": 0.2557,
+      "num_input_tokens_seen": 124523328,
+      "step": 57650
+    },
+    {
+      "epoch": 9.405383360522023,
+      "grad_norm": 0.01832154579460621,
+      "learning_rate": 0.0006373807171698151,
+      "loss": 0.1944,
+      "num_input_tokens_seen": 124532832,
+      "step": 57655
+    },
+    {
+      "epoch": 9.406199021207177,
+      "grad_norm": 0.22622382640838623,
+      "learning_rate": 0.0006373122754936389,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 124544288,
+      "step": 57660
+    },
+    {
+      "epoch": 9.407014681892333,
+      "grad_norm": 0.1542602777481079,
+      "learning_rate": 0.0006372438310346553,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 124553952,
+      "step": 57665
+    },
+    {
+      "epoch": 9.407830342577487,
+      "grad_norm": 0.1983586847782135,
+      "learning_rate": 0.0006371753837942513,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 124565344,
+      "step": 57670
+    },
+    {
+      "epoch": 9.408646003262643,
+      "grad_norm": 0.370592325925827,
+      "learning_rate": 0.0006371069337738142,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 124576032,
+      "step": 57675
+    },
+    {
+      "epoch": 9.409461663947798,
+      "grad_norm": 0.004081313032656908,
+      "learning_rate": 0.000637038480974731,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 124586976,
+      "step": 57680
+    },
+    {
+      "epoch": 9.410277324632952,
+      "grad_norm": 0.019369378685951233,
+      "learning_rate": 0.0006369700253983893,
+      "loss": 0.1193,
+      "num_input_tokens_seen": 124598368,
+      "step": 57685
+    },
+    {
+      "epoch": 9.411092985318108,
+      "grad_norm": 0.027157841250300407,
+      "learning_rate": 0.0006369015670461762,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 124608832,
+      "step": 57690
+    },
+    {
+      "epoch": 9.411908646003262,
+      "grad_norm": 0.0030664519872516394,
+      "learning_rate": 0.0006368331059194792,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 124620032,
+      "step": 57695
+    },
+    {
+      "epoch": 9.412724306688418,
+      "grad_norm": 0.47488272190093994,
+      "learning_rate": 0.0006367646420196857,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 124630784,
+      "step": 57700
+    },
+    {
+      "epoch": 9.413539967373573,
+      "grad_norm": 0.007694408297538757,
+      "learning_rate": 0.0006366961753481832,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 124641312,
+      "step": 57705
+    },
+    {
+      "epoch": 9.414355628058727,
+      "grad_norm": 0.014576110988855362,
+      "learning_rate": 0.0006366277059063594,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 124652192,
+      "step": 57710
+    },
+    {
+      "epoch": 9.415171288743883,
+      "grad_norm": 0.35242435336112976,
+      "learning_rate": 0.0006365592336956017,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 124663168,
+      "step": 57715
+    },
+    {
+      "epoch": 9.415986949429037,
+      "grad_norm": 0.023442458361387253,
+      "learning_rate": 0.0006364907587172978,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 124672832,
+      "step": 57720
+    },
+    {
+      "epoch": 9.416802610114193,
+      "grad_norm": 0.08906247466802597,
+      "learning_rate": 0.0006364222809728358,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 124684064,
+      "step": 57725
+    },
+    {
+      "epoch": 9.417618270799348,
+      "grad_norm": 0.21500514447689056,
+      "learning_rate": 0.0006363538004636032,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 124695040,
+      "step": 57730
+    },
+    {
+      "epoch": 9.418433931484502,
+      "grad_norm": 0.008945376612246037,
+      "learning_rate": 0.0006362853171909876,
+      "loss": 0.1661,
+      "num_input_tokens_seen": 124705792,
+      "step": 57735
+    },
+    {
+      "epoch": 9.419249592169658,
+      "grad_norm": 0.09412268549203873,
+      "learning_rate": 0.0006362168311563773,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 124716704,
+      "step": 57740
+    },
+    {
+      "epoch": 9.420065252854812,
+      "grad_norm": 0.05867978557944298,
+      "learning_rate": 0.00063614834236116,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 124727936,
+      "step": 57745
+    },
+    {
+      "epoch": 9.420880913539968,
+      "grad_norm": 0.32948651909828186,
+      "learning_rate": 0.000636079850806724,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 124738112,
+      "step": 57750
+    },
+    {
+      "epoch": 9.421696574225122,
+      "grad_norm": 0.007615845184773207,
+      "learning_rate": 0.0006360113564944571,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 124748192,
+      "step": 57755
+    },
+    {
+      "epoch": 9.422512234910277,
+      "grad_norm": 0.02363566681742668,
+      "learning_rate": 0.0006359428594257476,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 124758592,
+      "step": 57760
+    },
+    {
+      "epoch": 9.423327895595433,
+      "grad_norm": 0.33245760202407837,
+      "learning_rate": 0.0006358743596019836,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 124768128,
+      "step": 57765
+    },
+    {
+      "epoch": 9.424143556280587,
+      "grad_norm": 0.2626391053199768,
+      "learning_rate": 0.0006358058570245532,
+      "loss": 0.1659,
+      "num_input_tokens_seen": 124777984,
+      "step": 57770
+    },
+    {
+      "epoch": 9.424959216965743,
+      "grad_norm": 0.004645919892936945,
+      "learning_rate": 0.0006357373516948451,
+      "loss": 0.0493,
+      "num_input_tokens_seen": 124788960,
+      "step": 57775
+    },
+    {
+      "epoch": 9.425774877650896,
+      "grad_norm": 0.045954253524541855,
+      "learning_rate": 0.0006356688436142471,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 124799968,
+      "step": 57780
+    },
+    {
+      "epoch": 9.426590538336052,
+      "grad_norm": 0.0628044605255127,
+      "learning_rate": 0.000635600332784148,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 124809888,
+      "step": 57785
+    },
+    {
+      "epoch": 9.427406199021208,
+      "grad_norm": 0.003180962521582842,
+      "learning_rate": 0.0006355318192059361,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 124820544,
+      "step": 57790
+    },
+    {
+      "epoch": 9.428221859706362,
+      "grad_norm": 0.005581281613558531,
+      "learning_rate": 0.0006354633028809999,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 124830752,
+      "step": 57795
+    },
+    {
+      "epoch": 9.429037520391518,
+      "grad_norm": 0.014229382388293743,
+      "learning_rate": 0.000635394783810728,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 124842016,
+      "step": 57800
+    },
+    {
+      "epoch": 9.429853181076671,
+      "grad_norm": 0.01770959608256817,
+      "learning_rate": 0.0006353262619965091,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 124854208,
+      "step": 57805
+    },
+    {
+      "epoch": 9.430668841761827,
+      "grad_norm": 0.003146283095702529,
+      "learning_rate": 0.000635257737439732,
+      "loss": 0.0476,
+      "num_input_tokens_seen": 124865600,
+      "step": 57810
+    },
+    {
+      "epoch": 9.431484502446983,
+      "grad_norm": 0.010914292186498642,
+      "learning_rate": 0.0006351892101417849,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 124876736,
+      "step": 57815
+    },
+    {
+      "epoch": 9.432300163132137,
+      "grad_norm": 0.03408697247505188,
+      "learning_rate": 0.0006351206801040571,
+      "loss": 0.112,
+      "num_input_tokens_seen": 124887456,
+      "step": 57820
+    },
+    {
+      "epoch": 9.433115823817293,
+      "grad_norm": 0.01934865489602089,
+      "learning_rate": 0.0006350521473279374,
+      "loss": 0.1592,
+      "num_input_tokens_seen": 124899072,
+      "step": 57825
+    },
+    {
+      "epoch": 9.433931484502446,
+      "grad_norm": 0.12198976427316666,
+      "learning_rate": 0.0006349836118148146,
+      "loss": 0.0581,
+      "num_input_tokens_seen": 124910048,
+      "step": 57830
+    },
+    {
+      "epoch": 9.434747145187602,
+      "grad_norm": 0.0035420190542936325,
+      "learning_rate": 0.0006349150735660776,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 124920736,
+      "step": 57835
+    },
+    {
+      "epoch": 9.435562805872756,
+      "grad_norm": 0.006238948553800583,
+      "learning_rate": 0.0006348465325831155,
+      "loss": 0.012,
+      "num_input_tokens_seen": 124931872,
+      "step": 57840
+    },
+    {
+      "epoch": 9.436378466557912,
+      "grad_norm": 0.15444837510585785,
+      "learning_rate": 0.0006347779888673175,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 124941728,
+      "step": 57845
+    },
+    {
+      "epoch": 9.437194127243067,
+      "grad_norm": 0.022020984441041946,
+      "learning_rate": 0.0006347094424200724,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 124953120,
+      "step": 57850
+    },
+    {
+      "epoch": 9.438009787928221,
+      "grad_norm": 0.017220299690961838,
+      "learning_rate": 0.0006346408932427696,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 124963968,
+      "step": 57855
+    },
+    {
+      "epoch": 9.438825448613377,
+      "grad_norm": 0.13935768604278564,
+      "learning_rate": 0.0006345723413367983,
+      "loss": 0.0712,
+      "num_input_tokens_seen": 124975136,
+      "step": 57860
+    },
+    {
+      "epoch": 9.439641109298531,
+      "grad_norm": 0.225833460688591,
+      "learning_rate": 0.0006345037867035478,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 124986240,
+      "step": 57865
+    },
+    {
+      "epoch": 9.440456769983687,
+      "grad_norm": 0.005525338929146528,
+      "learning_rate": 0.0006344352293444073,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 124996960,
+      "step": 57870
+    },
+    {
+      "epoch": 9.441272430668842,
+      "grad_norm": 0.04588594287633896,
+      "learning_rate": 0.0006343666692607665,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 125007584,
+      "step": 57875
+    },
+    {
+      "epoch": 9.442088091353996,
+      "grad_norm": 0.2472897619009018,
+      "learning_rate": 0.0006342981064540145,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 125018880,
+      "step": 57880
+    },
+    {
+      "epoch": 9.442903752039152,
+      "grad_norm": 0.02394697442650795,
+      "learning_rate": 0.0006342295409255412,
+      "loss": 0.1556,
+      "num_input_tokens_seen": 125029312,
+      "step": 57885
+    },
+    {
+      "epoch": 9.443719412724306,
+      "grad_norm": 0.006148052867501974,
+      "learning_rate": 0.000634160972676736,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 125040384,
+      "step": 57890
+    },
+    {
+      "epoch": 9.444535073409462,
+      "grad_norm": 0.08018513023853302,
+      "learning_rate": 0.0006340924017089884,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 125051872,
+      "step": 57895
+    },
+    {
+      "epoch": 9.445350734094617,
+      "grad_norm": 0.369053453207016,
+      "learning_rate": 0.0006340238280236882,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 125063264,
+      "step": 57900
+    },
+    {
+      "epoch": 9.446166394779771,
+      "grad_norm": 0.04056015610694885,
+      "learning_rate": 0.0006339552516222251,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 125073696,
+      "step": 57905
+    },
+    {
+      "epoch": 9.446982055464927,
+      "grad_norm": 0.010821258649230003,
+      "learning_rate": 0.0006338866725059889,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 125084896,
+      "step": 57910
+    },
+    {
+      "epoch": 9.447797716150081,
+      "grad_norm": 0.003268955973908305,
+      "learning_rate": 0.0006338180906763693,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 125096224,
+      "step": 57915
+    },
+    {
+      "epoch": 9.448613376835237,
+      "grad_norm": 0.055417194962501526,
+      "learning_rate": 0.0006337495061347565,
+      "loss": 0.018,
+      "num_input_tokens_seen": 125106624,
+      "step": 57920
+    },
+    {
+      "epoch": 9.449429037520392,
+      "grad_norm": 0.22811178863048553,
+      "learning_rate": 0.0006336809188825401,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 125116288,
+      "step": 57925
+    },
+    {
+      "epoch": 9.450244698205546,
+      "grad_norm": 0.025044074282050133,
+      "learning_rate": 0.0006336123289211104,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 125125056,
+      "step": 57930
+    },
+    {
+      "epoch": 9.451060358890702,
+      "grad_norm": 0.04807139188051224,
+      "learning_rate": 0.0006335437362518574,
+      "loss": 0.1698,
+      "num_input_tokens_seen": 125136192,
+      "step": 57935
+    },
+    {
+      "epoch": 9.451876019575856,
+      "grad_norm": 0.01002733688801527,
+      "learning_rate": 0.0006334751408761712,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 125147264,
+      "step": 57940
+    },
+    {
+      "epoch": 9.452691680261012,
+      "grad_norm": 0.02477033995091915,
+      "learning_rate": 0.0006334065427954418,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 125158816,
+      "step": 57945
+    },
+    {
+      "epoch": 9.453507340946166,
+      "grad_norm": 0.20859457552433014,
+      "learning_rate": 0.0006333379420110597,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 125168864,
+      "step": 57950
+    },
+    {
+      "epoch": 9.454323001631321,
+      "grad_norm": 0.12974859774112701,
+      "learning_rate": 0.000633269338524415,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 125179968,
+      "step": 57955
+    },
+    {
+      "epoch": 9.455138662316477,
+      "grad_norm": 0.171275794506073,
+      "learning_rate": 0.0006332007323368983,
+      "loss": 0.1068,
+      "num_input_tokens_seen": 125191424,
+      "step": 57960
+    },
+    {
+      "epoch": 9.455954323001631,
+      "grad_norm": 0.2113136202096939,
+      "learning_rate": 0.0006331321234498995,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 125200480,
+      "step": 57965
+    },
+    {
+      "epoch": 9.456769983686787,
+      "grad_norm": 0.008856832049787045,
+      "learning_rate": 0.0006330635118648093,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 125212768,
+      "step": 57970
+    },
+    {
+      "epoch": 9.45758564437194,
+      "grad_norm": 0.22293557226657867,
+      "learning_rate": 0.0006329948975830184,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 125223712,
+      "step": 57975
+    },
+    {
+      "epoch": 9.458401305057096,
+      "grad_norm": 0.20843131840229034,
+      "learning_rate": 0.0006329262806059173,
+      "loss": 0.054,
+      "num_input_tokens_seen": 125236224,
+      "step": 57980
+    },
+    {
+      "epoch": 9.459216965742252,
+      "grad_norm": 0.04087536782026291,
+      "learning_rate": 0.0006328576609348962,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 125247296,
+      "step": 57985
+    },
+    {
+      "epoch": 9.460032626427406,
+      "grad_norm": 0.002280786167830229,
+      "learning_rate": 0.0006327890385713462,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 125257632,
+      "step": 57990
+    },
+    {
+      "epoch": 9.460848287112562,
+      "grad_norm": 0.3266606330871582,
+      "learning_rate": 0.000632720413516658,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 125268416,
+      "step": 57995
+    },
+    {
+      "epoch": 9.461663947797716,
+      "grad_norm": 0.02909723110496998,
+      "learning_rate": 0.000632651785772222,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 125280064,
+      "step": 58000
+    },
+    {
+      "epoch": 9.462479608482871,
+      "grad_norm": 0.002902657026425004,
+      "learning_rate": 0.0006325831553394294,
+      "loss": 0.005,
+      "num_input_tokens_seen": 125291040,
+      "step": 58005
+    },
+    {
+      "epoch": 9.463295269168025,
+      "grad_norm": 0.011866576969623566,
+      "learning_rate": 0.000632514522219671,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 125302400,
+      "step": 58010
+    },
+    {
+      "epoch": 9.464110929853181,
+      "grad_norm": 0.0071860142052173615,
+      "learning_rate": 0.0006324458864143377,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 125314112,
+      "step": 58015
+    },
+    {
+      "epoch": 9.464926590538337,
+      "grad_norm": 0.005821306258440018,
+      "learning_rate": 0.0006323772479248204,
+      "loss": 0.059,
+      "num_input_tokens_seen": 125325088,
+      "step": 58020
+    },
+    {
+      "epoch": 9.46574225122349,
+      "grad_norm": 0.30362415313720703,
+      "learning_rate": 0.0006323086067525103,
+      "loss": 0.1722,
+      "num_input_tokens_seen": 125336256,
+      "step": 58025
+    },
+    {
+      "epoch": 9.466557911908646,
+      "grad_norm": 0.00525606470182538,
+      "learning_rate": 0.0006322399628987984,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 125346848,
+      "step": 58030
+    },
+    {
+      "epoch": 9.4673735725938,
+      "grad_norm": 0.23222877085208893,
+      "learning_rate": 0.000632171316365076,
+      "loss": 0.052,
+      "num_input_tokens_seen": 125356544,
+      "step": 58035
+    },
+    {
+      "epoch": 9.468189233278956,
+      "grad_norm": 0.025633899495005608,
+      "learning_rate": 0.000632102667152734,
+      "loss": 0.014,
+      "num_input_tokens_seen": 125367200,
+      "step": 58040
+    },
+    {
+      "epoch": 9.469004893964112,
+      "grad_norm": 0.014735725708305836,
+      "learning_rate": 0.000632034015263164,
+      "loss": 0.012,
+      "num_input_tokens_seen": 125378688,
+      "step": 58045
+    },
+    {
+      "epoch": 9.469820554649266,
+      "grad_norm": 0.01710418239235878,
+      "learning_rate": 0.0006319653606977571,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 125389664,
+      "step": 58050
+    },
+    {
+      "epoch": 9.470636215334421,
+      "grad_norm": 0.2504916191101074,
+      "learning_rate": 0.0006318967034579048,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 125400096,
+      "step": 58055
+    },
+    {
+      "epoch": 9.471451876019575,
+      "grad_norm": 0.0372481495141983,
+      "learning_rate": 0.0006318280435449985,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 125410656,
+      "step": 58060
+    },
+    {
+      "epoch": 9.47226753670473,
+      "grad_norm": 0.28393882513046265,
+      "learning_rate": 0.0006317593809604298,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 125421152,
+      "step": 58065
+    },
+    {
+      "epoch": 9.473083197389887,
+      "grad_norm": 0.029981283470988274,
+      "learning_rate": 0.00063169071570559,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 125432224,
+      "step": 58070
+    },
+    {
+      "epoch": 9.47389885807504,
+      "grad_norm": 0.17756913602352142,
+      "learning_rate": 0.0006316220477818707,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 125442464,
+      "step": 58075
+    },
+    {
+      "epoch": 9.474714518760196,
+      "grad_norm": 0.2382059395313263,
+      "learning_rate": 0.0006315533771906638,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 125454080,
+      "step": 58080
+    },
+    {
+      "epoch": 9.47553017944535,
+      "grad_norm": 0.010461671277880669,
+      "learning_rate": 0.0006314847039333607,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 125464224,
+      "step": 58085
+    },
+    {
+      "epoch": 9.476345840130506,
+      "grad_norm": 0.42559152841567993,
+      "learning_rate": 0.0006314160280113532,
+      "loss": 0.1037,
+      "num_input_tokens_seen": 125475104,
+      "step": 58090
+    },
+    {
+      "epoch": 9.477161500815662,
+      "grad_norm": 0.37911534309387207,
+      "learning_rate": 0.0006313473494260333,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 125484832,
+      "step": 58095
+    },
+    {
+      "epoch": 9.477977161500815,
+      "grad_norm": 0.00439072959125042,
+      "learning_rate": 0.0006312786681787928,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 125496800,
+      "step": 58100
+    },
+    {
+      "epoch": 9.478792822185971,
+      "grad_norm": 0.25645124912261963,
+      "learning_rate": 0.0006312099842710234,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 125507328,
+      "step": 58105
+    },
+    {
+      "epoch": 9.479608482871125,
+      "grad_norm": 0.006362576503306627,
+      "learning_rate": 0.0006311412977041172,
+      "loss": 0.1536,
+      "num_input_tokens_seen": 125517344,
+      "step": 58110
+    },
+    {
+      "epoch": 9.48042414355628,
+      "grad_norm": 0.6152973175048828,
+      "learning_rate": 0.0006310726084794663,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 125528352,
+      "step": 58115
+    },
+    {
+      "epoch": 9.481239804241435,
+      "grad_norm": 0.10060965269804001,
+      "learning_rate": 0.0006310039165984628,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 125539328,
+      "step": 58120
+    },
+    {
+      "epoch": 9.48205546492659,
+      "grad_norm": 0.3432973623275757,
+      "learning_rate": 0.0006309352220624986,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 125550080,
+      "step": 58125
+    },
+    {
+      "epoch": 9.482871125611746,
+      "grad_norm": 0.22590389847755432,
+      "learning_rate": 0.0006308665248729662,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 125559648,
+      "step": 58130
+    },
+    {
+      "epoch": 9.4836867862969,
+      "grad_norm": 0.04668281227350235,
+      "learning_rate": 0.0006307978250312574,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 125570432,
+      "step": 58135
+    },
+    {
+      "epoch": 9.484502446982056,
+      "grad_norm": 0.3730715811252594,
+      "learning_rate": 0.0006307291225387648,
+      "loss": 0.2305,
+      "num_input_tokens_seen": 125580096,
+      "step": 58140
+    },
+    {
+      "epoch": 9.48531810766721,
+      "grad_norm": 0.1770205795764923,
+      "learning_rate": 0.0006306604173968808,
+      "loss": 0.068,
+      "num_input_tokens_seen": 125591008,
+      "step": 58145
+    },
+    {
+      "epoch": 9.486133768352365,
+      "grad_norm": 0.20119500160217285,
+      "learning_rate": 0.0006305917096069977,
+      "loss": 0.019,
+      "num_input_tokens_seen": 125601248,
+      "step": 58150
+    },
+    {
+      "epoch": 9.486949429037521,
+      "grad_norm": 0.32379111647605896,
+      "learning_rate": 0.000630522999170508,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 125610944,
+      "step": 58155
+    },
+    {
+      "epoch": 9.487765089722675,
+      "grad_norm": 0.0593860000371933,
+      "learning_rate": 0.0006304542860888039,
+      "loss": 0.036,
+      "num_input_tokens_seen": 125622336,
+      "step": 58160
+    },
+    {
+      "epoch": 9.48858075040783,
+      "grad_norm": 0.022446129471063614,
+      "learning_rate": 0.0006303855703632783,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 125633600,
+      "step": 58165
+    },
+    {
+      "epoch": 9.489396411092985,
+      "grad_norm": 0.002450139494612813,
+      "learning_rate": 0.0006303168519953238,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 125645472,
+      "step": 58170
+    },
+    {
+      "epoch": 9.49021207177814,
+      "grad_norm": 0.021858789026737213,
+      "learning_rate": 0.0006302481309863329,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 125656416,
+      "step": 58175
+    },
+    {
+      "epoch": 9.491027732463296,
+      "grad_norm": 0.01752588339149952,
+      "learning_rate": 0.0006301794073376985,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 125667680,
+      "step": 58180
+    },
+    {
+      "epoch": 9.49184339314845,
+      "grad_norm": 0.019962133839726448,
+      "learning_rate": 0.0006301106810508131,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 125678336,
+      "step": 58185
+    },
+    {
+      "epoch": 9.492659053833606,
+      "grad_norm": 0.06252746284008026,
+      "learning_rate": 0.0006300419521270697,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 125688768,
+      "step": 58190
+    },
+    {
+      "epoch": 9.49347471451876,
+      "grad_norm": 0.22887328267097473,
+      "learning_rate": 0.0006299732205678613,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 125699936,
+      "step": 58195
+    },
+    {
+      "epoch": 9.494290375203915,
+      "grad_norm": 0.0024231132119894028,
+      "learning_rate": 0.0006299044863745806,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 125711136,
+      "step": 58200
+    },
+    {
+      "epoch": 9.49510603588907,
+      "grad_norm": 0.003173418343067169,
+      "learning_rate": 0.0006298357495486208,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 125722848,
+      "step": 58205
+    },
+    {
+      "epoch": 9.495921696574225,
+      "grad_norm": 0.003356012748554349,
+      "learning_rate": 0.0006297670100913748,
+      "loss": 0.2534,
+      "num_input_tokens_seen": 125734464,
+      "step": 58210
+    },
+    {
+      "epoch": 9.49673735725938,
+      "grad_norm": 0.06293818354606628,
+      "learning_rate": 0.0006296982680042357,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 125745632,
+      "step": 58215
+    },
+    {
+      "epoch": 9.497553017944535,
+      "grad_norm": 0.015413629822432995,
+      "learning_rate": 0.0006296295232885966,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 125757856,
+      "step": 58220
+    },
+    {
+      "epoch": 9.49836867862969,
+      "grad_norm": 0.011318295262753963,
+      "learning_rate": 0.0006295607759458508,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 125769248,
+      "step": 58225
+    },
+    {
+      "epoch": 9.499184339314844,
+      "grad_norm": 0.14822854101657867,
+      "learning_rate": 0.0006294920259773915,
+      "loss": 0.016,
+      "num_input_tokens_seen": 125780480,
+      "step": 58230
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.37363535165786743,
+      "learning_rate": 0.0006294232733846121,
+      "loss": 0.1286,
+      "num_input_tokens_seen": 125791040,
+      "step": 58235
+    },
+    {
+      "epoch": 9.500815660685156,
+      "grad_norm": 0.07917729765176773,
+      "learning_rate": 0.0006293545181689057,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 125801696,
+      "step": 58240
+    },
+    {
+      "epoch": 9.50163132137031,
+      "grad_norm": 0.06792290508747101,
+      "learning_rate": 0.000629285760331666,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 125810816,
+      "step": 58245
+    },
+    {
+      "epoch": 9.502446982055465,
+      "grad_norm": 0.007692431099712849,
+      "learning_rate": 0.0006292169998742865,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 125822272,
+      "step": 58250
+    },
+    {
+      "epoch": 9.50326264274062,
+      "grad_norm": 0.008680978789925575,
+      "learning_rate": 0.0006291482367981605,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 125831808,
+      "step": 58255
+    },
+    {
+      "epoch": 9.504078303425775,
+      "grad_norm": 0.013723728246986866,
+      "learning_rate": 0.0006290794711046816,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 125843360,
+      "step": 58260
+    },
+    {
+      "epoch": 9.50489396411093,
+      "grad_norm": 0.06591471284627914,
+      "learning_rate": 0.0006290107027952434,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 125853408,
+      "step": 58265
+    },
+    {
+      "epoch": 9.505709624796085,
+      "grad_norm": 0.23483747243881226,
+      "learning_rate": 0.0006289419318712397,
+      "loss": 0.1553,
+      "num_input_tokens_seen": 125865152,
+      "step": 58270
+    },
+    {
+      "epoch": 9.50652528548124,
+      "grad_norm": 0.0060275401920080185,
+      "learning_rate": 0.0006288731583340642,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 125875968,
+      "step": 58275
+    },
+    {
+      "epoch": 9.507340946166394,
+      "grad_norm": 0.012370044365525246,
+      "learning_rate": 0.0006288043821851107,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 125887136,
+      "step": 58280
+    },
+    {
+      "epoch": 9.50815660685155,
+      "grad_norm": 0.005109517835080624,
+      "learning_rate": 0.000628735603425773,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 125897792,
+      "step": 58285
+    },
+    {
+      "epoch": 9.508972267536706,
+      "grad_norm": 0.005160059779882431,
+      "learning_rate": 0.0006286668220574448,
+      "loss": 0.1185,
+      "num_input_tokens_seen": 125907360,
+      "step": 58290
+    },
+    {
+      "epoch": 9.50978792822186,
+      "grad_norm": 0.014347260817885399,
+      "learning_rate": 0.0006285980380815204,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 125918240,
+      "step": 58295
+    },
+    {
+      "epoch": 9.510603588907015,
+      "grad_norm": 0.2521634101867676,
+      "learning_rate": 0.0006285292514993936,
+      "loss": 0.1995,
+      "num_input_tokens_seen": 125928928,
+      "step": 58300
+    },
+    {
+      "epoch": 9.51141924959217,
+      "grad_norm": 0.037277307361364365,
+      "learning_rate": 0.0006284604623124585,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 125940096,
+      "step": 58305
+    },
+    {
+      "epoch": 9.512234910277325,
+      "grad_norm": 0.047494374215602875,
+      "learning_rate": 0.0006283916705221091,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 125950880,
+      "step": 58310
+    },
+    {
+      "epoch": 9.513050570962479,
+      "grad_norm": 0.011362025514245033,
+      "learning_rate": 0.0006283228761297396,
+      "loss": 0.014,
+      "num_input_tokens_seen": 125962144,
+      "step": 58315
+    },
+    {
+      "epoch": 9.513866231647635,
+      "grad_norm": 0.004715372808277607,
+      "learning_rate": 0.0006282540791367442,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 125973152,
+      "step": 58320
+    },
+    {
+      "epoch": 9.51468189233279,
+      "grad_norm": 0.05988180637359619,
+      "learning_rate": 0.0006281852795445173,
+      "loss": 0.1561,
+      "num_input_tokens_seen": 125984128,
+      "step": 58325
+    },
+    {
+      "epoch": 9.515497553017944,
+      "grad_norm": 0.22990791499614716,
+      "learning_rate": 0.000628116477354453,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 125994304,
+      "step": 58330
+    },
+    {
+      "epoch": 9.5163132137031,
+      "grad_norm": 0.01864621788263321,
+      "learning_rate": 0.0006280476725679457,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 126005472,
+      "step": 58335
+    },
+    {
+      "epoch": 9.517128874388254,
+      "grad_norm": 0.040201228111982346,
+      "learning_rate": 0.00062797886518639,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 126015872,
+      "step": 58340
+    },
+    {
+      "epoch": 9.51794453507341,
+      "grad_norm": 0.13366523385047913,
+      "learning_rate": 0.0006279100552111803,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 126026528,
+      "step": 58345
+    },
+    {
+      "epoch": 9.518760195758565,
+      "grad_norm": 0.19599227607250214,
+      "learning_rate": 0.0006278412426437109,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 126037952,
+      "step": 58350
+    },
+    {
+      "epoch": 9.51957585644372,
+      "grad_norm": 0.0015695245238021016,
+      "learning_rate": 0.0006277724274853767,
+      "loss": 0.1863,
+      "num_input_tokens_seen": 126049376,
+      "step": 58355
+    },
+    {
+      "epoch": 9.520391517128875,
+      "grad_norm": 1.7492622137069702,
+      "learning_rate": 0.0006277036097375719,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 126060160,
+      "step": 58360
+    },
+    {
+      "epoch": 9.521207177814029,
+      "grad_norm": 0.008433963172137737,
+      "learning_rate": 0.0006276347894016917,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 126071744,
+      "step": 58365
+    },
+    {
+      "epoch": 9.522022838499185,
+      "grad_norm": 0.007258435245603323,
+      "learning_rate": 0.0006275659664791304,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 126083744,
+      "step": 58370
+    },
+    {
+      "epoch": 9.522838499184338,
+      "grad_norm": 0.012848546728491783,
+      "learning_rate": 0.0006274971409712831,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 126094016,
+      "step": 58375
+    },
+    {
+      "epoch": 9.523654159869494,
+      "grad_norm": 0.39458566904067993,
+      "learning_rate": 0.0006274283128795445,
+      "loss": 0.2455,
+      "num_input_tokens_seen": 126103808,
+      "step": 58380
+    },
+    {
+      "epoch": 9.52446982055465,
+      "grad_norm": 0.03209485858678818,
+      "learning_rate": 0.0006273594822053095,
+      "loss": 0.1695,
+      "num_input_tokens_seen": 126113120,
+      "step": 58385
+    },
+    {
+      "epoch": 9.525285481239804,
+      "grad_norm": 0.011099644005298615,
+      "learning_rate": 0.000627290648949973,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 126123360,
+      "step": 58390
+    },
+    {
+      "epoch": 9.52610114192496,
+      "grad_norm": 0.010915805585682392,
+      "learning_rate": 0.00062722181311493,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 126134240,
+      "step": 58395
+    },
+    {
+      "epoch": 9.526916802610113,
+      "grad_norm": 0.0570676252245903,
+      "learning_rate": 0.0006271529747015755,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 126145952,
+      "step": 58400
+    },
+    {
+      "epoch": 9.52773246329527,
+      "grad_norm": 0.19531919062137604,
+      "learning_rate": 0.0006270841337113047,
+      "loss": 0.2215,
+      "num_input_tokens_seen": 126157024,
+      "step": 58405
+    },
+    {
+      "epoch": 9.528548123980425,
+      "grad_norm": 0.10229338705539703,
+      "learning_rate": 0.0006270152901455128,
+      "loss": 0.0303,
+      "num_input_tokens_seen": 126167648,
+      "step": 58410
+    },
+    {
+      "epoch": 9.529363784665579,
+      "grad_norm": 0.009482331573963165,
+      "learning_rate": 0.0006269464440055948,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 126179424,
+      "step": 58415
+    },
+    {
+      "epoch": 9.530179445350734,
+      "grad_norm": 0.055833905935287476,
+      "learning_rate": 0.0006268775952929462,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 126190048,
+      "step": 58420
+    },
+    {
+      "epoch": 9.530995106035888,
+      "grad_norm": 0.0862567201256752,
+      "learning_rate": 0.000626808744008962,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 126199840,
+      "step": 58425
+    },
+    {
+      "epoch": 9.531810766721044,
+      "grad_norm": 0.01423166785389185,
+      "learning_rate": 0.0006267398901550379,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 126211904,
+      "step": 58430
+    },
+    {
+      "epoch": 9.5326264274062,
+      "grad_norm": 0.22748292982578278,
+      "learning_rate": 0.000626671033732569,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 126224160,
+      "step": 58435
+    },
+    {
+      "epoch": 9.533442088091354,
+      "grad_norm": 0.03178076446056366,
+      "learning_rate": 0.0006266021747429511,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 126234432,
+      "step": 58440
+    },
+    {
+      "epoch": 9.53425774877651,
+      "grad_norm": 0.00904083251953125,
+      "learning_rate": 0.0006265333131875794,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 126246176,
+      "step": 58445
+    },
+    {
+      "epoch": 9.535073409461663,
+      "grad_norm": 0.0102092195302248,
+      "learning_rate": 0.0006264644490678496,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 126256992,
+      "step": 58450
+    },
+    {
+      "epoch": 9.535889070146819,
+      "grad_norm": 0.2707527279853821,
+      "learning_rate": 0.0006263955823851571,
+      "loss": 0.2005,
+      "num_input_tokens_seen": 126267968,
+      "step": 58455
+    },
+    {
+      "epoch": 9.536704730831975,
+      "grad_norm": 0.1802579015493393,
+      "learning_rate": 0.0006263267131408981,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 126278976,
+      "step": 58460
+    },
+    {
+      "epoch": 9.537520391517129,
+      "grad_norm": 0.007812032010406256,
+      "learning_rate": 0.0006262578413364679,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 126290464,
+      "step": 58465
+    },
+    {
+      "epoch": 9.538336052202284,
+      "grad_norm": 0.03092452511191368,
+      "learning_rate": 0.0006261889669732624,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 126301888,
+      "step": 58470
+    },
+    {
+      "epoch": 9.539151712887438,
+      "grad_norm": 0.04860683158040047,
+      "learning_rate": 0.0006261200900526773,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 126312736,
+      "step": 58475
+    },
+    {
+      "epoch": 9.539967373572594,
+      "grad_norm": 0.02373124659061432,
+      "learning_rate": 0.0006260512105761086,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 126323840,
+      "step": 58480
+    },
+    {
+      "epoch": 9.540783034257748,
+      "grad_norm": 0.2580413520336151,
+      "learning_rate": 0.0006259823285449523,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 126335360,
+      "step": 58485
+    },
+    {
+      "epoch": 9.541598694942904,
+      "grad_norm": 0.008553222753107548,
+      "learning_rate": 0.0006259134439606043,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 126345056,
+      "step": 58490
+    },
+    {
+      "epoch": 9.54241435562806,
+      "grad_norm": 0.3394491970539093,
+      "learning_rate": 0.0006258445568244605,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 126355168,
+      "step": 58495
+    },
+    {
+      "epoch": 9.543230016313213,
+      "grad_norm": 0.007404628675431013,
+      "learning_rate": 0.0006257756671379172,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 126365600,
+      "step": 58500
+    },
+    {
+      "epoch": 9.544045676998369,
+      "grad_norm": 0.01686800643801689,
+      "learning_rate": 0.0006257067749023704,
+      "loss": 0.0698,
+      "num_input_tokens_seen": 126375008,
+      "step": 58505
+    },
+    {
+      "epoch": 9.544861337683523,
+      "grad_norm": 0.31130531430244446,
+      "learning_rate": 0.0006256378801192163,
+      "loss": 0.046,
+      "num_input_tokens_seen": 126386048,
+      "step": 58510
+    },
+    {
+      "epoch": 9.545676998368679,
+      "grad_norm": 0.009447862394154072,
+      "learning_rate": 0.0006255689827898512,
+      "loss": 0.1425,
+      "num_input_tokens_seen": 126396896,
+      "step": 58515
+    },
+    {
+      "epoch": 9.546492659053834,
+      "grad_norm": 0.07970761507749557,
+      "learning_rate": 0.0006255000829156714,
+      "loss": 0.029,
+      "num_input_tokens_seen": 126408480,
+      "step": 58520
+    },
+    {
+      "epoch": 9.547308319738988,
+      "grad_norm": 0.19980250298976898,
+      "learning_rate": 0.0006254311804980733,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 126419552,
+      "step": 58525
+    },
+    {
+      "epoch": 9.548123980424144,
+      "grad_norm": 0.03398562967777252,
+      "learning_rate": 0.0006253622755384531,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 126430240,
+      "step": 58530
+    },
+    {
+      "epoch": 9.548939641109298,
+      "grad_norm": 0.18277190625667572,
+      "learning_rate": 0.0006252933680382074,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 126440736,
+      "step": 58535
+    },
+    {
+      "epoch": 9.549755301794454,
+      "grad_norm": 0.020722072571516037,
+      "learning_rate": 0.0006252244579987327,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 126450944,
+      "step": 58540
+    },
+    {
+      "epoch": 9.550570962479608,
+      "grad_norm": 0.13694825768470764,
+      "learning_rate": 0.0006251555454214254,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 126462112,
+      "step": 58545
+    },
+    {
+      "epoch": 9.551386623164763,
+      "grad_norm": 0.018573446199297905,
+      "learning_rate": 0.0006250866303076822,
+      "loss": 0.191,
+      "num_input_tokens_seen": 126472384,
+      "step": 58550
+    },
+    {
+      "epoch": 9.552202283849919,
+      "grad_norm": 0.052989520132541656,
+      "learning_rate": 0.0006250177126588998,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 126483328,
+      "step": 58555
+    },
+    {
+      "epoch": 9.553017944535073,
+      "grad_norm": 0.3053835332393646,
+      "learning_rate": 0.0006249487924764747,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 126494912,
+      "step": 58560
+    },
+    {
+      "epoch": 9.553833605220229,
+      "grad_norm": 0.032893870025873184,
+      "learning_rate": 0.000624879869761804,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 126506944,
+      "step": 58565
+    },
+    {
+      "epoch": 9.554649265905383,
+      "grad_norm": 0.030350077897310257,
+      "learning_rate": 0.0006248109445162843,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 126516160,
+      "step": 58570
+    },
+    {
+      "epoch": 9.555464926590538,
+      "grad_norm": 0.25913652777671814,
+      "learning_rate": 0.0006247420167413124,
+      "loss": 0.3567,
+      "num_input_tokens_seen": 126526144,
+      "step": 58575
+    },
+    {
+      "epoch": 9.556280587275694,
+      "grad_norm": 0.016176484525203705,
+      "learning_rate": 0.0006246730864382853,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 126536608,
+      "step": 58580
+    },
+    {
+      "epoch": 9.557096247960848,
+      "grad_norm": 0.012450575828552246,
+      "learning_rate": 0.0006246041536086,
+      "loss": 0.1263,
+      "num_input_tokens_seen": 126547776,
+      "step": 58585
+    },
+    {
+      "epoch": 9.557911908646004,
+      "grad_norm": 0.24023890495300293,
+      "learning_rate": 0.0006245352182536535,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 126558944,
+      "step": 58590
+    },
+    {
+      "epoch": 9.558727569331158,
+      "grad_norm": 0.03461911529302597,
+      "learning_rate": 0.0006244662803748427,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 126569472,
+      "step": 58595
+    },
+    {
+      "epoch": 9.559543230016313,
+      "grad_norm": 0.06925342977046967,
+      "learning_rate": 0.0006243973399735649,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 126580160,
+      "step": 58600
+    },
+    {
+      "epoch": 9.560358890701469,
+      "grad_norm": 0.024349384009838104,
+      "learning_rate": 0.0006243283970512172,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 126590912,
+      "step": 58605
+    },
+    {
+      "epoch": 9.561174551386623,
+      "grad_norm": 0.01365981251001358,
+      "learning_rate": 0.0006242594516091967,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 126601056,
+      "step": 58610
+    },
+    {
+      "epoch": 9.561990212071779,
+      "grad_norm": 0.02429444156587124,
+      "learning_rate": 0.000624190503648901,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 126611936,
+      "step": 58615
+    },
+    {
+      "epoch": 9.562805872756933,
+      "grad_norm": 0.14289309084415436,
+      "learning_rate": 0.000624121553171727,
+      "loss": 0.1001,
+      "num_input_tokens_seen": 126622272,
+      "step": 58620
+    },
+    {
+      "epoch": 9.563621533442088,
+      "grad_norm": 0.20121271908283234,
+      "learning_rate": 0.0006240526001790723,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 126634080,
+      "step": 58625
+    },
+    {
+      "epoch": 9.564437194127244,
+      "grad_norm": 0.026418212801218033,
+      "learning_rate": 0.0006239836446723343,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 126644608,
+      "step": 58630
+    },
+    {
+      "epoch": 9.565252854812398,
+      "grad_norm": 0.2299506664276123,
+      "learning_rate": 0.0006239146866529105,
+      "loss": 0.0914,
+      "num_input_tokens_seen": 126654976,
+      "step": 58635
+    },
+    {
+      "epoch": 9.566068515497554,
+      "grad_norm": 0.03591744229197502,
+      "learning_rate": 0.0006238457261221983,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 126666272,
+      "step": 58640
+    },
+    {
+      "epoch": 9.566884176182707,
+      "grad_norm": 0.3727372884750366,
+      "learning_rate": 0.0006237767630815955,
+      "loss": 0.0848,
+      "num_input_tokens_seen": 126677824,
+      "step": 58645
+    },
+    {
+      "epoch": 9.567699836867863,
+      "grad_norm": 0.0906633585691452,
+      "learning_rate": 0.0006237077975324994,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 126688832,
+      "step": 58650
+    },
+    {
+      "epoch": 9.568515497553017,
+      "grad_norm": 0.007482402957975864,
+      "learning_rate": 0.0006236388294763079,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 126700000,
+      "step": 58655
+    },
+    {
+      "epoch": 9.569331158238173,
+      "grad_norm": 0.0202884990721941,
+      "learning_rate": 0.0006235698589144188,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 126711136,
+      "step": 58660
+    },
+    {
+      "epoch": 9.570146818923329,
+      "grad_norm": 0.19632995128631592,
+      "learning_rate": 0.0006235008858482295,
+      "loss": 0.069,
+      "num_input_tokens_seen": 126722944,
+      "step": 58665
+    },
+    {
+      "epoch": 9.570962479608482,
+      "grad_norm": 0.02798754721879959,
+      "learning_rate": 0.0006234319102791382,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 126734240,
+      "step": 58670
+    },
+    {
+      "epoch": 9.571778140293638,
+      "grad_norm": 0.06160164624452591,
+      "learning_rate": 0.0006233629322085427,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 126744000,
+      "step": 58675
+    },
+    {
+      "epoch": 9.572593800978792,
+      "grad_norm": 0.18928822875022888,
+      "learning_rate": 0.0006232939516378408,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 126754592,
+      "step": 58680
+    },
+    {
+      "epoch": 9.573409461663948,
+      "grad_norm": 0.0757313072681427,
+      "learning_rate": 0.0006232249685684306,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 126764544,
+      "step": 58685
+    },
+    {
+      "epoch": 9.574225122349104,
+      "grad_norm": 0.16569207608699799,
+      "learning_rate": 0.0006231559830017102,
+      "loss": 0.042,
+      "num_input_tokens_seen": 126775456,
+      "step": 58690
+    },
+    {
+      "epoch": 9.575040783034257,
+      "grad_norm": 0.2607077956199646,
+      "learning_rate": 0.0006230869949390774,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 126787488,
+      "step": 58695
+    },
+    {
+      "epoch": 9.575856443719413,
+      "grad_norm": 0.26447293162345886,
+      "learning_rate": 0.0006230180043819306,
+      "loss": 0.163,
+      "num_input_tokens_seen": 126798944,
+      "step": 58700
+    },
+    {
+      "epoch": 9.576672104404567,
+      "grad_norm": 0.019896386191248894,
+      "learning_rate": 0.0006229490113316678,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 126809696,
+      "step": 58705
+    },
+    {
+      "epoch": 9.577487765089723,
+      "grad_norm": 0.012389651499688625,
+      "learning_rate": 0.0006228800157896874,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 126820288,
+      "step": 58710
+    },
+    {
+      "epoch": 9.578303425774878,
+      "grad_norm": 0.020707737654447556,
+      "learning_rate": 0.0006228110177573876,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 126830400,
+      "step": 58715
+    },
+    {
+      "epoch": 9.579119086460032,
+      "grad_norm": 0.026347359642386436,
+      "learning_rate": 0.0006227420172361667,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 126841440,
+      "step": 58720
+    },
+    {
+      "epoch": 9.579934747145188,
+      "grad_norm": 0.3248952031135559,
+      "learning_rate": 0.0006226730142274232,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 126852256,
+      "step": 58725
+    },
+    {
+      "epoch": 9.580750407830342,
+      "grad_norm": 0.013630959205329418,
+      "learning_rate": 0.0006226040087325553,
+      "loss": 0.025,
+      "num_input_tokens_seen": 126863136,
+      "step": 58730
+    },
+    {
+      "epoch": 9.581566068515498,
+      "grad_norm": 0.4216710329055786,
+      "learning_rate": 0.0006225350007529616,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 126874112,
+      "step": 58735
+    },
+    {
+      "epoch": 9.582381729200652,
+      "grad_norm": 0.04262214154005051,
+      "learning_rate": 0.0006224659902900408,
+      "loss": 0.215,
+      "num_input_tokens_seen": 126885024,
+      "step": 58740
+    },
+    {
+      "epoch": 9.583197389885807,
+      "grad_norm": 0.23827561736106873,
+      "learning_rate": 0.0006223969773451913,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 126896384,
+      "step": 58745
+    },
+    {
+      "epoch": 9.584013050570963,
+      "grad_norm": 0.1313164383172989,
+      "learning_rate": 0.0006223279619198118,
+      "loss": 0.033,
+      "num_input_tokens_seen": 126906912,
+      "step": 58750
+    },
+    {
+      "epoch": 9.584828711256117,
+      "grad_norm": 0.46747714281082153,
+      "learning_rate": 0.000622258944015301,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 126917568,
+      "step": 58755
+    },
+    {
+      "epoch": 9.585644371941273,
+      "grad_norm": 0.031990889459848404,
+      "learning_rate": 0.0006221899236330575,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 126928384,
+      "step": 58760
+    },
+    {
+      "epoch": 9.586460032626427,
+      "grad_norm": 0.35653167963027954,
+      "learning_rate": 0.0006221209007744803,
+      "loss": 0.096,
+      "num_input_tokens_seen": 126939264,
+      "step": 58765
+    },
+    {
+      "epoch": 9.587275693311582,
+      "grad_norm": 0.26260942220687866,
+      "learning_rate": 0.0006220518754409681,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 126949792,
+      "step": 58770
+    },
+    {
+      "epoch": 9.588091353996738,
+      "grad_norm": 0.010245069861412048,
+      "learning_rate": 0.0006219828476339195,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 126961536,
+      "step": 58775
+    },
+    {
+      "epoch": 9.588907014681892,
+      "grad_norm": 0.019048362970352173,
+      "learning_rate": 0.0006219138173547341,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 126971648,
+      "step": 58780
+    },
+    {
+      "epoch": 9.589722675367048,
+      "grad_norm": 0.03487079590559006,
+      "learning_rate": 0.0006218447846048106,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 126982272,
+      "step": 58785
+    },
+    {
+      "epoch": 9.590538336052202,
+      "grad_norm": 0.004236708395183086,
+      "learning_rate": 0.0006217757493855477,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 126993760,
+      "step": 58790
+    },
+    {
+      "epoch": 9.591353996737357,
+      "grad_norm": 0.00880725122988224,
+      "learning_rate": 0.0006217067116983449,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 127004448,
+      "step": 58795
+    },
+    {
+      "epoch": 9.592169657422513,
+      "grad_norm": 0.003701163223013282,
+      "learning_rate": 0.0006216376715446011,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 127014016,
+      "step": 58800
+    },
+    {
+      "epoch": 9.592985318107667,
+      "grad_norm": 0.03611031547188759,
+      "learning_rate": 0.0006215686289257156,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 127024576,
+      "step": 58805
+    },
+    {
+      "epoch": 9.593800978792823,
+      "grad_norm": 0.009452610276639462,
+      "learning_rate": 0.0006214995838430878,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 127035936,
+      "step": 58810
+    },
+    {
+      "epoch": 9.594616639477977,
+      "grad_norm": 0.1101599782705307,
+      "learning_rate": 0.0006214305362981167,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 127046144,
+      "step": 58815
+    },
+    {
+      "epoch": 9.595432300163132,
+      "grad_norm": 0.006794488988816738,
+      "learning_rate": 0.0006213614862922015,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 127056544,
+      "step": 58820
+    },
+    {
+      "epoch": 9.596247960848288,
+      "grad_norm": 0.07736363261938095,
+      "learning_rate": 0.0006212924338267421,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 127067040,
+      "step": 58825
+    },
+    {
+      "epoch": 9.597063621533442,
+      "grad_norm": 0.06632602959871292,
+      "learning_rate": 0.0006212233789031376,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 127076832,
+      "step": 58830
+    },
+    {
+      "epoch": 9.597879282218598,
+      "grad_norm": 0.4707207977771759,
+      "learning_rate": 0.0006211543215227874,
+      "loss": 0.1821,
+      "num_input_tokens_seen": 127088544,
+      "step": 58835
+    },
+    {
+      "epoch": 9.598694942903752,
+      "grad_norm": 0.03901342302560806,
+      "learning_rate": 0.0006210852616870913,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 127099040,
+      "step": 58840
+    },
+    {
+      "epoch": 9.599510603588907,
+      "grad_norm": 0.019769612699747086,
+      "learning_rate": 0.0006210161993974488,
+      "loss": 0.1643,
+      "num_input_tokens_seen": 127109152,
+      "step": 58845
+    },
+    {
+      "epoch": 9.600326264274061,
+      "grad_norm": 0.005478884559124708,
+      "learning_rate": 0.0006209471346552594,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 127121472,
+      "step": 58850
+    },
+    {
+      "epoch": 9.601141924959217,
+      "grad_norm": 0.1525253802537918,
+      "learning_rate": 0.000620878067461923,
+      "loss": 0.015,
+      "num_input_tokens_seen": 127133504,
+      "step": 58855
+    },
+    {
+      "epoch": 9.601957585644373,
+      "grad_norm": 0.18319138884544373,
+      "learning_rate": 0.0006208089978188392,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 127143904,
+      "step": 58860
+    },
+    {
+      "epoch": 9.602773246329527,
+      "grad_norm": 0.014515785500407219,
+      "learning_rate": 0.0006207399257274077,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 127151936,
+      "step": 58865
+    },
+    {
+      "epoch": 9.603588907014682,
+      "grad_norm": 0.006759721785783768,
+      "learning_rate": 0.0006206708511890286,
+      "loss": 0.0826,
+      "num_input_tokens_seen": 127162912,
+      "step": 58870
+    },
+    {
+      "epoch": 9.604404567699836,
+      "grad_norm": 0.021830957382917404,
+      "learning_rate": 0.0006206017742051014,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 127174432,
+      "step": 58875
+    },
+    {
+      "epoch": 9.605220228384992,
+      "grad_norm": 0.5838247537612915,
+      "learning_rate": 0.0006205326947770263,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 127184768,
+      "step": 58880
+    },
+    {
+      "epoch": 9.606035889070148,
+      "grad_norm": 0.0159307811409235,
+      "learning_rate": 0.0006204636129062034,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 127195296,
+      "step": 58885
+    },
+    {
+      "epoch": 9.606851549755302,
+      "grad_norm": 0.012928396463394165,
+      "learning_rate": 0.0006203945285940325,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 127205280,
+      "step": 58890
+    },
+    {
+      "epoch": 9.607667210440457,
+      "grad_norm": 0.008373846299946308,
+      "learning_rate": 0.0006203254418419137,
+      "loss": 0.0993,
+      "num_input_tokens_seen": 127214624,
+      "step": 58895
+    },
+    {
+      "epoch": 9.608482871125611,
+      "grad_norm": 0.10752927511930466,
+      "learning_rate": 0.0006202563526512471,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 127225984,
+      "step": 58900
+    },
+    {
+      "epoch": 9.609298531810767,
+      "grad_norm": 0.012208987027406693,
+      "learning_rate": 0.0006201872610234331,
+      "loss": 0.043,
+      "num_input_tokens_seen": 127237472,
+      "step": 58905
+    },
+    {
+      "epoch": 9.61011419249592,
+      "grad_norm": 0.4600610136985779,
+      "learning_rate": 0.0006201181669598717,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 127247328,
+      "step": 58910
+    },
+    {
+      "epoch": 9.610929853181077,
+      "grad_norm": 0.0066894530318677425,
+      "learning_rate": 0.0006200490704619633,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 127259424,
+      "step": 58915
+    },
+    {
+      "epoch": 9.611745513866232,
+      "grad_norm": 0.005828152410686016,
+      "learning_rate": 0.0006199799715311083,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 127270976,
+      "step": 58920
+    },
+    {
+      "epoch": 9.612561174551386,
+      "grad_norm": 0.27778568863868713,
+      "learning_rate": 0.0006199108701687068,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 127282112,
+      "step": 58925
+    },
+    {
+      "epoch": 9.613376835236542,
+      "grad_norm": 0.007226116955280304,
+      "learning_rate": 0.0006198417663761596,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 127293504,
+      "step": 58930
+    },
+    {
+      "epoch": 9.614192495921696,
+      "grad_norm": 0.0546656958758831,
+      "learning_rate": 0.0006197726601548667,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 127305408,
+      "step": 58935
+    },
+    {
+      "epoch": 9.615008156606851,
+      "grad_norm": 0.323722779750824,
+      "learning_rate": 0.0006197035515062291,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 127317344,
+      "step": 58940
+    },
+    {
+      "epoch": 9.615823817292007,
+      "grad_norm": 0.006941157393157482,
+      "learning_rate": 0.0006196344404316472,
+      "loss": 0.007,
+      "num_input_tokens_seen": 127328352,
+      "step": 58945
+    },
+    {
+      "epoch": 9.616639477977161,
+      "grad_norm": 0.3557772636413574,
+      "learning_rate": 0.0006195653269325214,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 127340096,
+      "step": 58950
+    },
+    {
+      "epoch": 9.617455138662317,
+      "grad_norm": 0.012230448424816132,
+      "learning_rate": 0.0006194962110102528,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 127351200,
+      "step": 58955
+    },
+    {
+      "epoch": 9.61827079934747,
+      "grad_norm": 0.0034625427797436714,
+      "learning_rate": 0.0006194270926662416,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 127362400,
+      "step": 58960
+    },
+    {
+      "epoch": 9.619086460032626,
+      "grad_norm": 0.0702400952577591,
+      "learning_rate": 0.000619357971901889,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 127371904,
+      "step": 58965
+    },
+    {
+      "epoch": 9.619902120717782,
+      "grad_norm": 0.18260350823402405,
+      "learning_rate": 0.0006192888487185958,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 127381984,
+      "step": 58970
+    },
+    {
+      "epoch": 9.620717781402936,
+      "grad_norm": 0.10353845357894897,
+      "learning_rate": 0.0006192197231177627,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 127391584,
+      "step": 58975
+    },
+    {
+      "epoch": 9.621533442088092,
+      "grad_norm": 0.01583891175687313,
+      "learning_rate": 0.0006191505951007906,
+      "loss": 0.1023,
+      "num_input_tokens_seen": 127401728,
+      "step": 58980
+    },
+    {
+      "epoch": 9.622349102773246,
+      "grad_norm": 0.18626467883586884,
+      "learning_rate": 0.0006190814646690805,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 127413184,
+      "step": 58985
+    },
+    {
+      "epoch": 9.623164763458401,
+      "grad_norm": 0.027829086408019066,
+      "learning_rate": 0.0006190123318240335,
+      "loss": 0.024,
+      "num_input_tokens_seen": 127423264,
+      "step": 58990
+    },
+    {
+      "epoch": 9.623980424143557,
+      "grad_norm": 0.0037336426321417093,
+      "learning_rate": 0.0006189431965670507,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 127435488,
+      "step": 58995
+    },
+    {
+      "epoch": 9.624796084828711,
+      "grad_norm": 0.003280236152932048,
+      "learning_rate": 0.0006188740588995331,
+      "loss": 0.046,
+      "num_input_tokens_seen": 127445472,
+      "step": 59000
+    },
+    {
+      "epoch": 9.625611745513867,
+      "grad_norm": 0.036388151347637177,
+      "learning_rate": 0.000618804918822882,
+      "loss": 0.062,
+      "num_input_tokens_seen": 127453984,
+      "step": 59005
+    },
+    {
+      "epoch": 9.62642740619902,
+      "grad_norm": 0.1263275146484375,
+      "learning_rate": 0.0006187357763384982,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 127464960,
+      "step": 59010
+    },
+    {
+      "epoch": 9.627243066884176,
+      "grad_norm": 0.006821201648563147,
+      "learning_rate": 0.0006186666314477835,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 127475040,
+      "step": 59015
+    },
+    {
+      "epoch": 9.62805872756933,
+      "grad_norm": 0.04489858075976372,
+      "learning_rate": 0.0006185974841521389,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 127486496,
+      "step": 59020
+    },
+    {
+      "epoch": 9.628874388254486,
+      "grad_norm": 0.005536007694900036,
+      "learning_rate": 0.0006185283344529659,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 127496416,
+      "step": 59025
+    },
+    {
+      "epoch": 9.629690048939642,
+      "grad_norm": 0.0015038796700537205,
+      "learning_rate": 0.0006184591823516658,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 127508000,
+      "step": 59030
+    },
+    {
+      "epoch": 9.630505709624796,
+      "grad_norm": 0.6168532371520996,
+      "learning_rate": 0.00061839002784964,
+      "loss": 0.0912,
+      "num_input_tokens_seen": 127518016,
+      "step": 59035
+    },
+    {
+      "epoch": 9.631321370309951,
+      "grad_norm": 0.021128684282302856,
+      "learning_rate": 0.0006183208709482903,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 127528576,
+      "step": 59040
+    },
+    {
+      "epoch": 9.632137030995105,
+      "grad_norm": 0.01242469996213913,
+      "learning_rate": 0.0006182517116490179,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 127538336,
+      "step": 59045
+    },
+    {
+      "epoch": 9.632952691680261,
+      "grad_norm": 0.4242917001247406,
+      "learning_rate": 0.0006181825499532247,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 127548672,
+      "step": 59050
+    },
+    {
+      "epoch": 9.633768352365417,
+      "grad_norm": 0.06874293833971024,
+      "learning_rate": 0.000618113385862312,
+      "loss": 0.0584,
+      "num_input_tokens_seen": 127559584,
+      "step": 59055
+    },
+    {
+      "epoch": 9.63458401305057,
+      "grad_norm": 0.026289397850632668,
+      "learning_rate": 0.0006180442193776818,
+      "loss": 0.1536,
+      "num_input_tokens_seen": 127570656,
+      "step": 59060
+    },
+    {
+      "epoch": 9.635399673735726,
+      "grad_norm": 0.0054007284343242645,
+      "learning_rate": 0.0006179750505007357,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 127583008,
+      "step": 59065
+    },
+    {
+      "epoch": 9.63621533442088,
+      "grad_norm": 0.39873865246772766,
+      "learning_rate": 0.0006179058792328756,
+      "loss": 0.2067,
+      "num_input_tokens_seen": 127594464,
+      "step": 59070
+    },
+    {
+      "epoch": 9.637030995106036,
+      "grad_norm": 0.007571790833026171,
+      "learning_rate": 0.0006178367055755032,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 127605568,
+      "step": 59075
+    },
+    {
+      "epoch": 9.63784665579119,
+      "grad_norm": 0.20183655619621277,
+      "learning_rate": 0.0006177675295300206,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 127615328,
+      "step": 59080
+    },
+    {
+      "epoch": 9.638662316476346,
+      "grad_norm": 0.133195161819458,
+      "learning_rate": 0.0006176983510978296,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 127625984,
+      "step": 59085
+    },
+    {
+      "epoch": 9.639477977161501,
+      "grad_norm": 0.08000269532203674,
+      "learning_rate": 0.000617629170280332,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 127637056,
+      "step": 59090
+    },
+    {
+      "epoch": 9.640293637846655,
+      "grad_norm": 0.2687270939350128,
+      "learning_rate": 0.0006175599870789301,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 127647648,
+      "step": 59095
+    },
+    {
+      "epoch": 9.641109298531811,
+      "grad_norm": 0.012075605802237988,
+      "learning_rate": 0.000617490801495026,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 127657728,
+      "step": 59100
+    },
+    {
+      "epoch": 9.641924959216965,
+      "grad_norm": 0.33024096488952637,
+      "learning_rate": 0.0006174216135300219,
+      "loss": 0.1815,
+      "num_input_tokens_seen": 127669568,
+      "step": 59105
+    },
+    {
+      "epoch": 9.64274061990212,
+      "grad_norm": 0.03295661136507988,
+      "learning_rate": 0.0006173524231853197,
+      "loss": 0.027,
+      "num_input_tokens_seen": 127681056,
+      "step": 59110
+    },
+    {
+      "epoch": 9.643556280587276,
+      "grad_norm": 0.006422259379178286,
+      "learning_rate": 0.0006172832304623217,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 127692000,
+      "step": 59115
+    },
+    {
+      "epoch": 9.64437194127243,
+      "grad_norm": 0.6102940440177917,
+      "learning_rate": 0.0006172140353624304,
+      "loss": 0.2075,
+      "num_input_tokens_seen": 127704352,
+      "step": 59120
+    },
+    {
+      "epoch": 9.645187601957586,
+      "grad_norm": 0.01776854135096073,
+      "learning_rate": 0.0006171448378870479,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 127715520,
+      "step": 59125
+    },
+    {
+      "epoch": 9.64600326264274,
+      "grad_norm": 0.08590822666883469,
+      "learning_rate": 0.0006170756380375766,
+      "loss": 0.1248,
+      "num_input_tokens_seen": 127726656,
+      "step": 59130
+    },
+    {
+      "epoch": 9.646818923327896,
+      "grad_norm": 0.009952404536306858,
+      "learning_rate": 0.000617006435815419,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 127738784,
+      "step": 59135
+    },
+    {
+      "epoch": 9.647634584013051,
+      "grad_norm": 0.014745515771210194,
+      "learning_rate": 0.0006169372312219777,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 127748992,
+      "step": 59140
+    },
+    {
+      "epoch": 9.648450244698205,
+      "grad_norm": 0.06781429797410965,
+      "learning_rate": 0.0006168680242586549,
+      "loss": 0.2448,
+      "num_input_tokens_seen": 127760992,
+      "step": 59145
+    },
+    {
+      "epoch": 9.649265905383361,
+      "grad_norm": 0.08127600699663162,
+      "learning_rate": 0.0006167988149268533,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 127772000,
+      "step": 59150
+    },
+    {
+      "epoch": 9.650081566068515,
+      "grad_norm": 0.11132414638996124,
+      "learning_rate": 0.0006167296032279757,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 127781984,
+      "step": 59155
+    },
+    {
+      "epoch": 9.65089722675367,
+      "grad_norm": 0.11625031381845474,
+      "learning_rate": 0.0006166603891634245,
+      "loss": 0.0966,
+      "num_input_tokens_seen": 127793440,
+      "step": 59160
+    },
+    {
+      "epoch": 9.651712887438826,
+      "grad_norm": 0.01904509961605072,
+      "learning_rate": 0.0006165911727346025,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 127803232,
+      "step": 59165
+    },
+    {
+      "epoch": 9.65252854812398,
+      "grad_norm": 0.017921043559908867,
+      "learning_rate": 0.0006165219539429126,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 127813696,
+      "step": 59170
+    },
+    {
+      "epoch": 9.653344208809136,
+      "grad_norm": 0.30042189359664917,
+      "learning_rate": 0.0006164527327897574,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 127824096,
+      "step": 59175
+    },
+    {
+      "epoch": 9.65415986949429,
+      "grad_norm": 0.18783047795295715,
+      "learning_rate": 0.0006163835092765399,
+      "loss": 0.1257,
+      "num_input_tokens_seen": 127833856,
+      "step": 59180
+    },
+    {
+      "epoch": 9.654975530179446,
+      "grad_norm": 0.033547911792993546,
+      "learning_rate": 0.0006163142834046629,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 127845248,
+      "step": 59185
+    },
+    {
+      "epoch": 9.655791190864601,
+      "grad_norm": 0.2385920286178589,
+      "learning_rate": 0.0006162450551755295,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 127855936,
+      "step": 59190
+    },
+    {
+      "epoch": 9.656606851549755,
+      "grad_norm": 0.018533451482653618,
+      "learning_rate": 0.0006161758245905423,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 127866688,
+      "step": 59195
+    },
+    {
+      "epoch": 9.65742251223491,
+      "grad_norm": 0.0036566208582371473,
+      "learning_rate": 0.0006161065916511047,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 127877568,
+      "step": 59200
+    },
+    {
+      "epoch": 9.658238172920065,
+      "grad_norm": 0.08195324242115021,
+      "learning_rate": 0.0006160373563586199,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 127887808,
+      "step": 59205
+    },
+    {
+      "epoch": 9.65905383360522,
+      "grad_norm": 0.018927576020359993,
+      "learning_rate": 0.0006159681187144909,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 127898816,
+      "step": 59210
+    },
+    {
+      "epoch": 9.659869494290374,
+      "grad_norm": 0.01739303395152092,
+      "learning_rate": 0.0006158988787201208,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 127909856,
+      "step": 59215
+    },
+    {
+      "epoch": 9.66068515497553,
+      "grad_norm": 0.006371657829731703,
+      "learning_rate": 0.0006158296363769128,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 127920000,
+      "step": 59220
+    },
+    {
+      "epoch": 9.661500815660686,
+      "grad_norm": 0.20840153098106384,
+      "learning_rate": 0.0006157603916862703,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 127931040,
+      "step": 59225
+    },
+    {
+      "epoch": 9.66231647634584,
+      "grad_norm": 0.0057899076491594315,
+      "learning_rate": 0.0006156911446495967,
+      "loss": 0.038,
+      "num_input_tokens_seen": 127941888,
+      "step": 59230
+    },
+    {
+      "epoch": 9.663132137030995,
+      "grad_norm": 0.02108006179332733,
+      "learning_rate": 0.0006156218952682953,
+      "loss": 0.014,
+      "num_input_tokens_seen": 127951328,
+      "step": 59235
+    },
+    {
+      "epoch": 9.66394779771615,
+      "grad_norm": 0.07076103985309601,
+      "learning_rate": 0.0006155526435437694,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 127962816,
+      "step": 59240
+    },
+    {
+      "epoch": 9.664763458401305,
+      "grad_norm": 0.0183942299336195,
+      "learning_rate": 0.0006154833894774226,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 127974016,
+      "step": 59245
+    },
+    {
+      "epoch": 9.66557911908646,
+      "grad_norm": 0.038768794387578964,
+      "learning_rate": 0.0006154141330706586,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 127983808,
+      "step": 59250
+    },
+    {
+      "epoch": 9.666394779771615,
+      "grad_norm": 0.18464896082878113,
+      "learning_rate": 0.0006153448743248805,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 127994912,
+      "step": 59255
+    },
+    {
+      "epoch": 9.66721044045677,
+      "grad_norm": 0.010973125696182251,
+      "learning_rate": 0.0006152756132414924,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 128003488,
+      "step": 59260
+    },
+    {
+      "epoch": 9.668026101141924,
+      "grad_norm": 0.09602286666631699,
+      "learning_rate": 0.0006152063498218977,
+      "loss": 0.091,
+      "num_input_tokens_seen": 128014272,
+      "step": 59265
+    },
+    {
+      "epoch": 9.66884176182708,
+      "grad_norm": 0.25912317633628845,
+      "learning_rate": 0.0006151370840675001,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 128023808,
+      "step": 59270
+    },
+    {
+      "epoch": 9.669657422512234,
+      "grad_norm": 0.046629659831523895,
+      "learning_rate": 0.0006150678159797034,
+      "loss": 0.04,
+      "num_input_tokens_seen": 128034624,
+      "step": 59275
+    },
+    {
+      "epoch": 9.67047308319739,
+      "grad_norm": 0.052462734282016754,
+      "learning_rate": 0.0006149985455599115,
+      "loss": 0.1757,
+      "num_input_tokens_seen": 128045440,
+      "step": 59280
+    },
+    {
+      "epoch": 9.671288743882545,
+      "grad_norm": 0.06739270687103271,
+      "learning_rate": 0.0006149292728095283,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 128054624,
+      "step": 59285
+    },
+    {
+      "epoch": 9.6721044045677,
+      "grad_norm": 0.02121824584901333,
+      "learning_rate": 0.0006148599977299575,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 128065984,
+      "step": 59290
+    },
+    {
+      "epoch": 9.672920065252855,
+      "grad_norm": 0.0886927992105484,
+      "learning_rate": 0.0006147907203226031,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 128076768,
+      "step": 59295
+    },
+    {
+      "epoch": 9.673735725938009,
+      "grad_norm": 0.013269363902509212,
+      "learning_rate": 0.0006147214405888692,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 128087840,
+      "step": 59300
+    },
+    {
+      "epoch": 9.674551386623165,
+      "grad_norm": 0.06566104292869568,
+      "learning_rate": 0.0006146521585301596,
+      "loss": 0.1646,
+      "num_input_tokens_seen": 128099168,
+      "step": 59305
+    },
+    {
+      "epoch": 9.67536704730832,
+      "grad_norm": 0.013543189503252506,
+      "learning_rate": 0.0006145828741478788,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 128109696,
+      "step": 59310
+    },
+    {
+      "epoch": 9.676182707993474,
+      "grad_norm": 0.010334925726056099,
+      "learning_rate": 0.0006145135874434305,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 128120768,
+      "step": 59315
+    },
+    {
+      "epoch": 9.67699836867863,
+      "grad_norm": 0.003125895978882909,
+      "learning_rate": 0.0006144442984182193,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 128132768,
+      "step": 59320
+    },
+    {
+      "epoch": 9.677814029363784,
+      "grad_norm": 0.025807317346334457,
+      "learning_rate": 0.0006143750070736491,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 128144768,
+      "step": 59325
+    },
+    {
+      "epoch": 9.67862969004894,
+      "grad_norm": 0.016329145058989525,
+      "learning_rate": 0.0006143057134111243,
+      "loss": 0.058,
+      "num_input_tokens_seen": 128155616,
+      "step": 59330
+    },
+    {
+      "epoch": 9.679445350734095,
+      "grad_norm": 0.21162718534469604,
+      "learning_rate": 0.0006142364174320492,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 128166240,
+      "step": 59335
+    },
+    {
+      "epoch": 9.68026101141925,
+      "grad_norm": 0.03283459693193436,
+      "learning_rate": 0.0006141671191378281,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 128177408,
+      "step": 59340
+    },
+    {
+      "epoch": 9.681076672104405,
+      "grad_norm": 0.05063774436712265,
+      "learning_rate": 0.0006140978185298656,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 128188672,
+      "step": 59345
+    },
+    {
+      "epoch": 9.681892332789559,
+      "grad_norm": 0.0327952615916729,
+      "learning_rate": 0.0006140285156095661,
+      "loss": 0.0925,
+      "num_input_tokens_seen": 128199520,
+      "step": 59350
+    },
+    {
+      "epoch": 9.682707993474715,
+      "grad_norm": 0.3350673019886017,
+      "learning_rate": 0.0006139592103783339,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 128211232,
+      "step": 59355
+    },
+    {
+      "epoch": 9.68352365415987,
+      "grad_norm": 0.008121310733258724,
+      "learning_rate": 0.000613889902837574,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 128220672,
+      "step": 59360
+    },
+    {
+      "epoch": 9.684339314845024,
+      "grad_norm": 0.2720755338668823,
+      "learning_rate": 0.0006138205929886905,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 128231680,
+      "step": 59365
+    },
+    {
+      "epoch": 9.68515497553018,
+      "grad_norm": 0.02992718666791916,
+      "learning_rate": 0.0006137512808330884,
+      "loss": 0.2193,
+      "num_input_tokens_seen": 128242016,
+      "step": 59370
+    },
+    {
+      "epoch": 9.685970636215334,
+      "grad_norm": 0.023438721895217896,
+      "learning_rate": 0.0006136819663721722,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 128252736,
+      "step": 59375
+    },
+    {
+      "epoch": 9.68678629690049,
+      "grad_norm": 0.07434836030006409,
+      "learning_rate": 0.0006136126496073469,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 128262016,
+      "step": 59380
+    },
+    {
+      "epoch": 9.687601957585644,
+      "grad_norm": 0.004536564461886883,
+      "learning_rate": 0.0006135433305400169,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 128273440,
+      "step": 59385
+    },
+    {
+      "epoch": 9.6884176182708,
+      "grad_norm": 0.12715773284435272,
+      "learning_rate": 0.0006134740091715875,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 128284096,
+      "step": 59390
+    },
+    {
+      "epoch": 9.689233278955955,
+      "grad_norm": 0.1364831030368805,
+      "learning_rate": 0.0006134046855034631,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 128295264,
+      "step": 59395
+    },
+    {
+      "epoch": 9.690048939641109,
+      "grad_norm": 0.0033251584973186255,
+      "learning_rate": 0.0006133353595370491,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 128305856,
+      "step": 59400
+    },
+    {
+      "epoch": 9.690864600326265,
+      "grad_norm": 0.1248481348156929,
+      "learning_rate": 0.0006132660312737502,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 128316928,
+      "step": 59405
+    },
+    {
+      "epoch": 9.691680261011419,
+      "grad_norm": 0.0053417375311255455,
+      "learning_rate": 0.0006131967007149716,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 128327168,
+      "step": 59410
+    },
+    {
+      "epoch": 9.692495921696574,
+      "grad_norm": 0.03325970470905304,
+      "learning_rate": 0.000613127367862118,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 128338720,
+      "step": 59415
+    },
+    {
+      "epoch": 9.69331158238173,
+      "grad_norm": 0.1174701601266861,
+      "learning_rate": 0.0006130580327165949,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 128349216,
+      "step": 59420
+    },
+    {
+      "epoch": 9.694127243066884,
+      "grad_norm": 0.002682819264009595,
+      "learning_rate": 0.0006129886952798074,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 128359552,
+      "step": 59425
+    },
+    {
+      "epoch": 9.69494290375204,
+      "grad_norm": 0.00796019472181797,
+      "learning_rate": 0.0006129193555531606,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 128370976,
+      "step": 59430
+    },
+    {
+      "epoch": 9.695758564437194,
+      "grad_norm": 0.21734458208084106,
+      "learning_rate": 0.0006128500135380598,
+      "loss": 0.029,
+      "num_input_tokens_seen": 128381472,
+      "step": 59435
+    },
+    {
+      "epoch": 9.69657422512235,
+      "grad_norm": 0.2784644365310669,
+      "learning_rate": 0.0006127806692359103,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 128393088,
+      "step": 59440
+    },
+    {
+      "epoch": 9.697389885807503,
+      "grad_norm": 0.010838964022696018,
+      "learning_rate": 0.0006127113226481175,
+      "loss": 0.044,
+      "num_input_tokens_seen": 128403520,
+      "step": 59445
+    },
+    {
+      "epoch": 9.698205546492659,
+      "grad_norm": 0.0185268372297287,
+      "learning_rate": 0.0006126419737760868,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 128415040,
+      "step": 59450
+    },
+    {
+      "epoch": 9.699021207177815,
+      "grad_norm": 0.29471975564956665,
+      "learning_rate": 0.0006125726226212236,
+      "loss": 0.2644,
+      "num_input_tokens_seen": 128425376,
+      "step": 59455
+    },
+    {
+      "epoch": 9.699836867862969,
+      "grad_norm": 0.2613866627216339,
+      "learning_rate": 0.0006125032691849333,
+      "loss": 0.1377,
+      "num_input_tokens_seen": 128435520,
+      "step": 59460
+    },
+    {
+      "epoch": 9.700652528548124,
+      "grad_norm": 0.01687040366232395,
+      "learning_rate": 0.0006124339134686216,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 128446368,
+      "step": 59465
+    },
+    {
+      "epoch": 9.701468189233278,
+      "grad_norm": 0.07034385949373245,
+      "learning_rate": 0.0006123645554736941,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 128456736,
+      "step": 59470
+    },
+    {
+      "epoch": 9.702283849918434,
+      "grad_norm": 0.13933435082435608,
+      "learning_rate": 0.0006122951952015562,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 128467680,
+      "step": 59475
+    },
+    {
+      "epoch": 9.70309951060359,
+      "grad_norm": 0.008489076048135757,
+      "learning_rate": 0.0006122258326536138,
+      "loss": 0.037,
+      "num_input_tokens_seen": 128478720,
+      "step": 59480
+    },
+    {
+      "epoch": 9.703915171288743,
+      "grad_norm": 0.2870648205280304,
+      "learning_rate": 0.0006121564678312724,
+      "loss": 0.0918,
+      "num_input_tokens_seen": 128489344,
+      "step": 59485
+    },
+    {
+      "epoch": 9.7047308319739,
+      "grad_norm": 0.0050661033019423485,
+      "learning_rate": 0.0006120871007359381,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 128498816,
+      "step": 59490
+    },
+    {
+      "epoch": 9.705546492659053,
+      "grad_norm": 0.004017225466668606,
+      "learning_rate": 0.0006120177313690164,
+      "loss": 0.023,
+      "num_input_tokens_seen": 128509504,
+      "step": 59495
+    },
+    {
+      "epoch": 9.706362153344209,
+      "grad_norm": 0.1601206660270691,
+      "learning_rate": 0.0006119483597319132,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 128521856,
+      "step": 59500
+    },
+    {
+      "epoch": 9.707177814029365,
+      "grad_norm": 0.008326910436153412,
+      "learning_rate": 0.0006118789858260347,
+      "loss": 0.1383,
+      "num_input_tokens_seen": 128532672,
+      "step": 59505
+    },
+    {
+      "epoch": 9.707993474714518,
+      "grad_norm": 0.06540261209011078,
+      "learning_rate": 0.0006118096096527863,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 128543392,
+      "step": 59510
+    },
+    {
+      "epoch": 9.708809135399674,
+      "grad_norm": 0.034490231424570084,
+      "learning_rate": 0.0006117402312135746,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 128554464,
+      "step": 59515
+    },
+    {
+      "epoch": 9.709624796084828,
+      "grad_norm": 0.01300547644495964,
+      "learning_rate": 0.0006116708505098051,
+      "loss": 0.1313,
+      "num_input_tokens_seen": 128565472,
+      "step": 59520
+    },
+    {
+      "epoch": 9.710440456769984,
+      "grad_norm": 0.009446562267839909,
+      "learning_rate": 0.0006116014675428842,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 128576832,
+      "step": 59525
+    },
+    {
+      "epoch": 9.71125611745514,
+      "grad_norm": 0.007366952486336231,
+      "learning_rate": 0.0006115320823142182,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 128587136,
+      "step": 59530
+    },
+    {
+      "epoch": 9.712071778140293,
+      "grad_norm": 0.011812661774456501,
+      "learning_rate": 0.000611462694825213,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 128598176,
+      "step": 59535
+    },
+    {
+      "epoch": 9.71288743882545,
+      "grad_norm": 0.08814537525177002,
+      "learning_rate": 0.0006113933050772749,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 128608736,
+      "step": 59540
+    },
+    {
+      "epoch": 9.713703099510603,
+      "grad_norm": 0.0336206778883934,
+      "learning_rate": 0.00061132391307181,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 128619104,
+      "step": 59545
+    },
+    {
+      "epoch": 9.714518760195759,
+      "grad_norm": 0.06537744402885437,
+      "learning_rate": 0.0006112545188102249,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 128629088,
+      "step": 59550
+    },
+    {
+      "epoch": 9.715334420880914,
+      "grad_norm": 0.03816675767302513,
+      "learning_rate": 0.0006111851222939257,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 128640224,
+      "step": 59555
+    },
+    {
+      "epoch": 9.716150081566068,
+      "grad_norm": 0.09322861582040787,
+      "learning_rate": 0.0006111157235243192,
+      "loss": 0.1321,
+      "num_input_tokens_seen": 128651040,
+      "step": 59560
+    },
+    {
+      "epoch": 9.716965742251224,
+      "grad_norm": 0.0767819806933403,
+      "learning_rate": 0.0006110463225028114,
+      "loss": 0.137,
+      "num_input_tokens_seen": 128660928,
+      "step": 59565
+    },
+    {
+      "epoch": 9.717781402936378,
+      "grad_norm": 0.04609353095293045,
+      "learning_rate": 0.0006109769192308091,
+      "loss": 0.1022,
+      "num_input_tokens_seen": 128670144,
+      "step": 59570
+    },
+    {
+      "epoch": 9.718597063621534,
+      "grad_norm": 0.014793830923736095,
+      "learning_rate": 0.0006109075137097188,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 128680352,
+      "step": 59575
+    },
+    {
+      "epoch": 9.719412724306688,
+      "grad_norm": 0.07300538569688797,
+      "learning_rate": 0.0006108381059409469,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 128690240,
+      "step": 59580
+    },
+    {
+      "epoch": 9.720228384991843,
+      "grad_norm": 0.0640680119395256,
+      "learning_rate": 0.0006107686959259003,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 128700032,
+      "step": 59585
+    },
+    {
+      "epoch": 9.721044045676999,
+      "grad_norm": 0.01870567351579666,
+      "learning_rate": 0.0006106992836659853,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 128710016,
+      "step": 59590
+    },
+    {
+      "epoch": 9.721859706362153,
+      "grad_norm": 0.06907132267951965,
+      "learning_rate": 0.0006106298691626091,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 128719040,
+      "step": 59595
+    },
+    {
+      "epoch": 9.722675367047309,
+      "grad_norm": 0.29290202260017395,
+      "learning_rate": 0.0006105604524171782,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 128729824,
+      "step": 59600
+    },
+    {
+      "epoch": 9.723491027732463,
+      "grad_norm": 0.029978347942233086,
+      "learning_rate": 0.0006104910334310996,
+      "loss": 0.031,
+      "num_input_tokens_seen": 128740960,
+      "step": 59605
+    },
+    {
+      "epoch": 9.724306688417618,
+      "grad_norm": 0.008729356341063976,
+      "learning_rate": 0.0006104216122057799,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 128752224,
+      "step": 59610
+    },
+    {
+      "epoch": 9.725122349102774,
+      "grad_norm": 0.057942282408475876,
+      "learning_rate": 0.0006103521887426262,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 128762304,
+      "step": 59615
+    },
+    {
+      "epoch": 9.725938009787928,
+      "grad_norm": 0.005804257933050394,
+      "learning_rate": 0.0006102827630430454,
+      "loss": 0.055,
+      "num_input_tokens_seen": 128772448,
+      "step": 59620
+    },
+    {
+      "epoch": 9.726753670473084,
+      "grad_norm": 0.27918195724487305,
+      "learning_rate": 0.0006102133351084443,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 128784320,
+      "step": 59625
+    },
+    {
+      "epoch": 9.727569331158238,
+      "grad_norm": 0.39616507291793823,
+      "learning_rate": 0.0006101439049402304,
+      "loss": 0.1558,
+      "num_input_tokens_seen": 128794784,
+      "step": 59630
+    },
+    {
+      "epoch": 9.728384991843393,
+      "grad_norm": 0.0009002613369375467,
+      "learning_rate": 0.0006100744725398105,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 128806688,
+      "step": 59635
+    },
+    {
+      "epoch": 9.729200652528547,
+      "grad_norm": 0.1437094509601593,
+      "learning_rate": 0.0006100050379085918,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 128816768,
+      "step": 59640
+    },
+    {
+      "epoch": 9.730016313213703,
+      "grad_norm": 0.03397361934185028,
+      "learning_rate": 0.0006099356010479814,
+      "loss": 0.104,
+      "num_input_tokens_seen": 128827104,
+      "step": 59645
+    },
+    {
+      "epoch": 9.730831973898859,
+      "grad_norm": 0.06053118407726288,
+      "learning_rate": 0.0006098661619593866,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 128838592,
+      "step": 59650
+    },
+    {
+      "epoch": 9.731647634584013,
+      "grad_norm": 0.0009688441641628742,
+      "learning_rate": 0.0006097967206442147,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 128847936,
+      "step": 59655
+    },
+    {
+      "epoch": 9.732463295269168,
+      "grad_norm": 0.010555686429142952,
+      "learning_rate": 0.0006097272771038728,
+      "loss": 0.008,
+      "num_input_tokens_seen": 128858432,
+      "step": 59660
+    },
+    {
+      "epoch": 9.733278955954322,
+      "grad_norm": 0.02458445355296135,
+      "learning_rate": 0.0006096578313397687,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 128869888,
+      "step": 59665
+    },
+    {
+      "epoch": 9.734094616639478,
+      "grad_norm": 0.19622117280960083,
+      "learning_rate": 0.0006095883833533094,
+      "loss": 0.109,
+      "num_input_tokens_seen": 128879648,
+      "step": 59670
+    },
+    {
+      "epoch": 9.734910277324634,
+      "grad_norm": 0.007972361519932747,
+      "learning_rate": 0.0006095189331459024,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 128891072,
+      "step": 59675
+    },
+    {
+      "epoch": 9.735725938009788,
+      "grad_norm": 0.003296657232567668,
+      "learning_rate": 0.0006094494807189555,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 128903008,
+      "step": 59680
+    },
+    {
+      "epoch": 9.736541598694943,
+      "grad_norm": 0.08102521300315857,
+      "learning_rate": 0.0006093800260738758,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 128913632,
+      "step": 59685
+    },
+    {
+      "epoch": 9.737357259380097,
+      "grad_norm": 0.014509606175124645,
+      "learning_rate": 0.0006093105692120712,
+      "loss": 0.1708,
+      "num_input_tokens_seen": 128924064,
+      "step": 59690
+    },
+    {
+      "epoch": 9.738172920065253,
+      "grad_norm": 0.0067308759316802025,
+      "learning_rate": 0.0006092411101349492,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 128935104,
+      "step": 59695
+    },
+    {
+      "epoch": 9.738988580750409,
+      "grad_norm": 0.01863669790327549,
+      "learning_rate": 0.0006091716488439177,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 128945952,
+      "step": 59700
+    },
+    {
+      "epoch": 9.739804241435563,
+      "grad_norm": 0.3315466344356537,
+      "learning_rate": 0.0006091021853403841,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 128955808,
+      "step": 59705
+    },
+    {
+      "epoch": 9.740619902120718,
+      "grad_norm": 0.0017027267022058368,
+      "learning_rate": 0.0006090327196257562,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 128966304,
+      "step": 59710
+    },
+    {
+      "epoch": 9.741435562805872,
+      "grad_norm": 0.08503128588199615,
+      "learning_rate": 0.000608963251701442,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 128976768,
+      "step": 59715
+    },
+    {
+      "epoch": 9.742251223491028,
+      "grad_norm": 0.017233064398169518,
+      "learning_rate": 0.0006088937815688495,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 128988416,
+      "step": 59720
+    },
+    {
+      "epoch": 9.743066884176184,
+      "grad_norm": 0.4578186571598053,
+      "learning_rate": 0.0006088243092293861,
+      "loss": 0.1782,
+      "num_input_tokens_seen": 129000032,
+      "step": 59725
+    },
+    {
+      "epoch": 9.743882544861338,
+      "grad_norm": 0.0711468756198883,
+      "learning_rate": 0.0006087548346844601,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 129010464,
+      "step": 59730
+    },
+    {
+      "epoch": 9.744698205546493,
+      "grad_norm": 0.0229730773717165,
+      "learning_rate": 0.0006086853579354793,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 129021920,
+      "step": 59735
+    },
+    {
+      "epoch": 9.745513866231647,
+      "grad_norm": 0.008088946342468262,
+      "learning_rate": 0.0006086158789838519,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 129032480,
+      "step": 59740
+    },
+    {
+      "epoch": 9.746329526916803,
+      "grad_norm": 0.018943075090646744,
+      "learning_rate": 0.0006085463978309861,
+      "loss": 0.045,
+      "num_input_tokens_seen": 129043712,
+      "step": 59745
+    },
+    {
+      "epoch": 9.747145187601957,
+      "grad_norm": 0.02913905493915081,
+      "learning_rate": 0.0006084769144782897,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 129054560,
+      "step": 59750
+    },
+    {
+      "epoch": 9.747960848287113,
+      "grad_norm": 0.003888669889420271,
+      "learning_rate": 0.0006084074289271711,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 129065504,
+      "step": 59755
+    },
+    {
+      "epoch": 9.748776508972268,
+      "grad_norm": 0.08220919221639633,
+      "learning_rate": 0.0006083379411790383,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 129075936,
+      "step": 59760
+    },
+    {
+      "epoch": 9.749592169657422,
+      "grad_norm": 0.13562801480293274,
+      "learning_rate": 0.0006082684512352997,
+      "loss": 0.08,
+      "num_input_tokens_seen": 129087168,
+      "step": 59765
+    },
+    {
+      "epoch": 9.750407830342578,
+      "grad_norm": 0.0025733276270329952,
+      "learning_rate": 0.0006081989590973637,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 129096832,
+      "step": 59770
+    },
+    {
+      "epoch": 9.751223491027732,
+      "grad_norm": 0.019972285255789757,
+      "learning_rate": 0.0006081294647666385,
+      "loss": 0.3124,
+      "num_input_tokens_seen": 129107616,
+      "step": 59775
+    },
+    {
+      "epoch": 9.752039151712887,
+      "grad_norm": 0.36964648962020874,
+      "learning_rate": 0.0006080599682445325,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 129119296,
+      "step": 59780
+    },
+    {
+      "epoch": 9.752854812398043,
+      "grad_norm": 0.11169246584177017,
+      "learning_rate": 0.000607990469532454,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 129129792,
+      "step": 59785
+    },
+    {
+      "epoch": 9.753670473083197,
+      "grad_norm": 0.010639806278049946,
+      "learning_rate": 0.0006079209686318119,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 129140320,
+      "step": 59790
+    },
+    {
+      "epoch": 9.754486133768353,
+      "grad_norm": 0.05021905153989792,
+      "learning_rate": 0.0006078514655440144,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 129152288,
+      "step": 59795
+    },
+    {
+      "epoch": 9.755301794453507,
+      "grad_norm": 0.042118266224861145,
+      "learning_rate": 0.0006077819602704702,
+      "loss": 0.035,
+      "num_input_tokens_seen": 129162528,
+      "step": 59800
+    },
+    {
+      "epoch": 9.756117455138662,
+      "grad_norm": 0.8312237858772278,
+      "learning_rate": 0.0006077124528125877,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 129172576,
+      "step": 59805
+    },
+    {
+      "epoch": 9.756933115823816,
+      "grad_norm": 0.0063532376661896706,
+      "learning_rate": 0.0006076429431717757,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 129183744,
+      "step": 59810
+    },
+    {
+      "epoch": 9.757748776508972,
+      "grad_norm": 0.01858111470937729,
+      "learning_rate": 0.000607573431349443,
+      "loss": 0.1904,
+      "num_input_tokens_seen": 129194048,
+      "step": 59815
+    },
+    {
+      "epoch": 9.758564437194128,
+      "grad_norm": 0.23809611797332764,
+      "learning_rate": 0.0006075039173469982,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 129204416,
+      "step": 59820
+    },
+    {
+      "epoch": 9.759380097879282,
+      "grad_norm": 0.006448432803153992,
+      "learning_rate": 0.0006074344011658501,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 129214880,
+      "step": 59825
+    },
+    {
+      "epoch": 9.760195758564437,
+      "grad_norm": 0.0030931164510548115,
+      "learning_rate": 0.0006073648828074077,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 129226176,
+      "step": 59830
+    },
+    {
+      "epoch": 9.761011419249591,
+      "grad_norm": 0.03220542520284653,
+      "learning_rate": 0.0006072953622730796,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 129236896,
+      "step": 59835
+    },
+    {
+      "epoch": 9.761827079934747,
+      "grad_norm": 0.06129692122340202,
+      "learning_rate": 0.0006072258395642748,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 129249088,
+      "step": 59840
+    },
+    {
+      "epoch": 9.762642740619903,
+      "grad_norm": 0.1948278546333313,
+      "learning_rate": 0.0006071563146824024,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 129260096,
+      "step": 59845
+    },
+    {
+      "epoch": 9.763458401305057,
+      "grad_norm": 0.20120300352573395,
+      "learning_rate": 0.0006070867876288715,
+      "loss": 0.0493,
+      "num_input_tokens_seen": 129271744,
+      "step": 59850
+    },
+    {
+      "epoch": 9.764274061990212,
+      "grad_norm": 0.010271182283759117,
+      "learning_rate": 0.0006070172584050908,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 129282688,
+      "step": 59855
+    },
+    {
+      "epoch": 9.765089722675366,
+      "grad_norm": 0.004881757777184248,
+      "learning_rate": 0.0006069477270124697,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 129292576,
+      "step": 59860
+    },
+    {
+      "epoch": 9.765905383360522,
+      "grad_norm": 0.009391111321747303,
+      "learning_rate": 0.0006068781934524172,
+      "loss": 0.011,
+      "num_input_tokens_seen": 129302784,
+      "step": 59865
+    },
+    {
+      "epoch": 9.766721044045678,
+      "grad_norm": 0.014628876000642776,
+      "learning_rate": 0.0006068086577263426,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 129314304,
+      "step": 59870
+    },
+    {
+      "epoch": 9.767536704730832,
+      "grad_norm": 0.29984965920448303,
+      "learning_rate": 0.0006067391198356551,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 129325856,
+      "step": 59875
+    },
+    {
+      "epoch": 9.768352365415987,
+      "grad_norm": 0.06933252513408661,
+      "learning_rate": 0.0006066695797817638,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 129337504,
+      "step": 59880
+    },
+    {
+      "epoch": 9.769168026101141,
+      "grad_norm": 0.3127744495868683,
+      "learning_rate": 0.0006066000375660782,
+      "loss": 0.1433,
+      "num_input_tokens_seen": 129350208,
+      "step": 59885
+    },
+    {
+      "epoch": 9.769983686786297,
+      "grad_norm": 0.02711273729801178,
+      "learning_rate": 0.0006065304931900076,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 129362048,
+      "step": 59890
+    },
+    {
+      "epoch": 9.770799347471453,
+      "grad_norm": 0.18783365190029144,
+      "learning_rate": 0.0006064609466549614,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 129372768,
+      "step": 59895
+    },
+    {
+      "epoch": 9.771615008156607,
+      "grad_norm": 0.928313672542572,
+      "learning_rate": 0.0006063913979623491,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 129383584,
+      "step": 59900
+    },
+    {
+      "epoch": 9.772430668841762,
+      "grad_norm": 0.41291940212249756,
+      "learning_rate": 0.0006063218471135801,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 129395136,
+      "step": 59905
+    },
+    {
+      "epoch": 9.773246329526916,
+      "grad_norm": 0.016780929639935493,
+      "learning_rate": 0.0006062522941100639,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 129406720,
+      "step": 59910
+    },
+    {
+      "epoch": 9.774061990212072,
+      "grad_norm": 0.20784629881381989,
+      "learning_rate": 0.0006061827389532103,
+      "loss": 0.1078,
+      "num_input_tokens_seen": 129417888,
+      "step": 59915
+    },
+    {
+      "epoch": 9.774877650897226,
+      "grad_norm": 0.544096052646637,
+      "learning_rate": 0.0006061131816444287,
+      "loss": 0.071,
+      "num_input_tokens_seen": 129429088,
+      "step": 59920
+    },
+    {
+      "epoch": 9.775693311582382,
+      "grad_norm": 0.05459734797477722,
+      "learning_rate": 0.000606043622185129,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 129439008,
+      "step": 59925
+    },
+    {
+      "epoch": 9.776508972267537,
+      "grad_norm": 0.05036766454577446,
+      "learning_rate": 0.0006059740605767207,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 129450528,
+      "step": 59930
+    },
+    {
+      "epoch": 9.777324632952691,
+      "grad_norm": 0.010146408341825008,
+      "learning_rate": 0.0006059044968206136,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 129460864,
+      "step": 59935
+    },
+    {
+      "epoch": 9.778140293637847,
+      "grad_norm": 0.00299668638035655,
+      "learning_rate": 0.0006058349309182176,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 129471264,
+      "step": 59940
+    },
+    {
+      "epoch": 9.778955954323001,
+      "grad_norm": 0.00625614495947957,
+      "learning_rate": 0.0006057653628709424,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 129482656,
+      "step": 59945
+    },
+    {
+      "epoch": 9.779771615008157,
+      "grad_norm": 0.15388129651546478,
+      "learning_rate": 0.0006056957926801979,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 129493888,
+      "step": 59950
+    },
+    {
+      "epoch": 9.780587275693312,
+      "grad_norm": 0.35571151971817017,
+      "learning_rate": 0.0006056262203473941,
+      "loss": 0.2147,
+      "num_input_tokens_seen": 129505216,
+      "step": 59955
+    },
+    {
+      "epoch": 9.781402936378466,
+      "grad_norm": 0.028294721618294716,
+      "learning_rate": 0.000605556645873941,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 129517216,
+      "step": 59960
+    },
+    {
+      "epoch": 9.782218597063622,
+      "grad_norm": 0.20071174204349518,
+      "learning_rate": 0.0006054870692612487,
+      "loss": 0.1073,
+      "num_input_tokens_seen": 129528896,
+      "step": 59965
+    },
+    {
+      "epoch": 9.783034257748776,
+      "grad_norm": 0.03279627487063408,
+      "learning_rate": 0.0006054174905107269,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 129541088,
+      "step": 59970
+    },
+    {
+      "epoch": 9.783849918433932,
+      "grad_norm": 0.04848659038543701,
+      "learning_rate": 0.0006053479096237859,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 129552320,
+      "step": 59975
+    },
+    {
+      "epoch": 9.784665579119086,
+      "grad_norm": 0.262071430683136,
+      "learning_rate": 0.000605278326601836,
+      "loss": 0.1985,
+      "num_input_tokens_seen": 129563104,
+      "step": 59980
+    },
+    {
+      "epoch": 9.785481239804241,
+      "grad_norm": 0.08661609143018723,
+      "learning_rate": 0.0006052087414462873,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 129575168,
+      "step": 59985
+    },
+    {
+      "epoch": 9.786296900489397,
+      "grad_norm": 0.4128914177417755,
+      "learning_rate": 0.00060513915415855,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 129586592,
+      "step": 59990
+    },
+    {
+      "epoch": 9.78711256117455,
+      "grad_norm": 0.101948581635952,
+      "learning_rate": 0.0006050695647400342,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 129596416,
+      "step": 59995
+    },
+    {
+      "epoch": 9.787928221859707,
+      "grad_norm": 0.008494734764099121,
+      "learning_rate": 0.0006049999731921504,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 129608256,
+      "step": 60000
+    },
+    {
+      "epoch": 9.78874388254486,
+      "grad_norm": 0.1565508395433426,
+      "learning_rate": 0.0006049303795163091,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 129620160,
+      "step": 60005
+    },
+    {
+      "epoch": 9.789559543230016,
+      "grad_norm": 0.0611579567193985,
+      "learning_rate": 0.0006048607837139204,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 129631264,
+      "step": 60010
+    },
+    {
+      "epoch": 9.790375203915172,
+      "grad_norm": 0.013933761976659298,
+      "learning_rate": 0.0006047911857863949,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 129642048,
+      "step": 60015
+    },
+    {
+      "epoch": 9.791190864600326,
+      "grad_norm": 0.07861107587814331,
+      "learning_rate": 0.0006047215857351431,
+      "loss": 0.021,
+      "num_input_tokens_seen": 129652928,
+      "step": 60020
+    },
+    {
+      "epoch": 9.792006525285482,
+      "grad_norm": 0.005836360156536102,
+      "learning_rate": 0.0006046519835615756,
+      "loss": 0.036,
+      "num_input_tokens_seen": 129663008,
+      "step": 60025
+    },
+    {
+      "epoch": 9.792822185970635,
+      "grad_norm": 0.025735294446349144,
+      "learning_rate": 0.0006045823792671029,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 129674688,
+      "step": 60030
+    },
+    {
+      "epoch": 9.793637846655791,
+      "grad_norm": 0.07211139798164368,
+      "learning_rate": 0.0006045127728531354,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 129685312,
+      "step": 60035
+    },
+    {
+      "epoch": 9.794453507340947,
+      "grad_norm": 0.01239249762147665,
+      "learning_rate": 0.0006044431643210842,
+      "loss": 0.046,
+      "num_input_tokens_seen": 129697120,
+      "step": 60040
+    },
+    {
+      "epoch": 9.7952691680261,
+      "grad_norm": 0.15044008195400238,
+      "learning_rate": 0.0006043735536723595,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 129708512,
+      "step": 60045
+    },
+    {
+      "epoch": 9.796084828711257,
+      "grad_norm": 0.1912791132926941,
+      "learning_rate": 0.0006043039409083726,
+      "loss": 0.0484,
+      "num_input_tokens_seen": 129719232,
+      "step": 60050
+    },
+    {
+      "epoch": 9.79690048939641,
+      "grad_norm": 0.013628056272864342,
+      "learning_rate": 0.0006042343260305339,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 129729216,
+      "step": 60055
+    },
+    {
+      "epoch": 9.797716150081566,
+      "grad_norm": 0.024676060304045677,
+      "learning_rate": 0.0006041647090402544,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 129740384,
+      "step": 60060
+    },
+    {
+      "epoch": 9.798531810766722,
+      "grad_norm": 0.018948128446936607,
+      "learning_rate": 0.0006040950899389449,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 129750080,
+      "step": 60065
+    },
+    {
+      "epoch": 9.799347471451876,
+      "grad_norm": 0.06415722519159317,
+      "learning_rate": 0.0006040254687280163,
+      "loss": 0.037,
+      "num_input_tokens_seen": 129761216,
+      "step": 60070
+    },
+    {
+      "epoch": 9.800163132137031,
+      "grad_norm": 1.0381970405578613,
+      "learning_rate": 0.0006039558454088796,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 129771872,
+      "step": 60075
+    },
+    {
+      "epoch": 9.800978792822185,
+      "grad_norm": 0.29000842571258545,
+      "learning_rate": 0.0006038862199829459,
+      "loss": 0.2056,
+      "num_input_tokens_seen": 129782240,
+      "step": 60080
+    },
+    {
+      "epoch": 9.801794453507341,
+      "grad_norm": 0.10297328978776932,
+      "learning_rate": 0.0006038165924516262,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 129793664,
+      "step": 60085
+    },
+    {
+      "epoch": 9.802610114192497,
+      "grad_norm": 0.05766294151544571,
+      "learning_rate": 0.0006037469628163315,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 129803904,
+      "step": 60090
+    },
+    {
+      "epoch": 9.80342577487765,
+      "grad_norm": 0.12936429679393768,
+      "learning_rate": 0.000603677331078473,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 129814400,
+      "step": 60095
+    },
+    {
+      "epoch": 9.804241435562806,
+      "grad_norm": 0.004301194101572037,
+      "learning_rate": 0.0006036076972394618,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 129825856,
+      "step": 60100
+    },
+    {
+      "epoch": 9.80505709624796,
+      "grad_norm": 0.008284702897071838,
+      "learning_rate": 0.0006035380613007093,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 129836192,
+      "step": 60105
+    },
+    {
+      "epoch": 9.805872756933116,
+      "grad_norm": 0.03883660212159157,
+      "learning_rate": 0.0006034684232636266,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 129847424,
+      "step": 60110
+    },
+    {
+      "epoch": 9.80668841761827,
+      "grad_norm": 0.0031957624014467,
+      "learning_rate": 0.0006033987831296251,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 129858944,
+      "step": 60115
+    },
+    {
+      "epoch": 9.807504078303426,
+      "grad_norm": 0.0031466346699744463,
+      "learning_rate": 0.0006033291409001159,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 129869056,
+      "step": 60120
+    },
+    {
+      "epoch": 9.808319738988581,
+      "grad_norm": 0.011443628929555416,
+      "learning_rate": 0.0006032594965765107,
+      "loss": 0.027,
+      "num_input_tokens_seen": 129878976,
+      "step": 60125
+    },
+    {
+      "epoch": 9.809135399673735,
+      "grad_norm": 0.006320877466350794,
+      "learning_rate": 0.0006031898501602207,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 129889984,
+      "step": 60130
+    },
+    {
+      "epoch": 9.809951060358891,
+      "grad_norm": 0.25152286887168884,
+      "learning_rate": 0.0006031202016526576,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 129900832,
+      "step": 60135
+    },
+    {
+      "epoch": 9.810766721044045,
+      "grad_norm": 0.09581360220909119,
+      "learning_rate": 0.0006030505510552329,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 129911872,
+      "step": 60140
+    },
+    {
+      "epoch": 9.8115823817292,
+      "grad_norm": 0.02002377063035965,
+      "learning_rate": 0.0006029808983693579,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 129919808,
+      "step": 60145
+    },
+    {
+      "epoch": 9.812398042414356,
+      "grad_norm": 0.03476516902446747,
+      "learning_rate": 0.0006029112435964444,
+      "loss": 0.016,
+      "num_input_tokens_seen": 129930848,
+      "step": 60150
+    },
+    {
+      "epoch": 9.81321370309951,
+      "grad_norm": 0.005062747281044722,
+      "learning_rate": 0.0006028415867379039,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 129940576,
+      "step": 60155
+    },
+    {
+      "epoch": 9.814029363784666,
+      "grad_norm": 0.003687590127810836,
+      "learning_rate": 0.0006027719277951482,
+      "loss": 0.042,
+      "num_input_tokens_seen": 129952448,
+      "step": 60160
+    },
+    {
+      "epoch": 9.81484502446982,
+      "grad_norm": 0.006466528866440058,
+      "learning_rate": 0.000602702266769589,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 129962752,
+      "step": 60165
+    },
+    {
+      "epoch": 9.815660685154976,
+      "grad_norm": 0.004529135767370462,
+      "learning_rate": 0.0006026326036626382,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 129973184,
+      "step": 60170
+    },
+    {
+      "epoch": 9.81647634584013,
+      "grad_norm": 0.007038953714072704,
+      "learning_rate": 0.0006025629384757075,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 129984608,
+      "step": 60175
+    },
+    {
+      "epoch": 9.817292006525285,
+      "grad_norm": 0.0019257472595199943,
+      "learning_rate": 0.0006024932712102085,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 129995616,
+      "step": 60180
+    },
+    {
+      "epoch": 9.818107667210441,
+      "grad_norm": 0.004110215697437525,
+      "learning_rate": 0.0006024236018675537,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 130007360,
+      "step": 60185
+    },
+    {
+      "epoch": 9.818923327895595,
+      "grad_norm": 0.15984342992305756,
+      "learning_rate": 0.0006023539304491544,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 130018592,
+      "step": 60190
+    },
+    {
+      "epoch": 9.81973898858075,
+      "grad_norm": 0.11752087622880936,
+      "learning_rate": 0.000602284256956423,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 130026720,
+      "step": 60195
+    },
+    {
+      "epoch": 9.820554649265905,
+      "grad_norm": 0.007008385378867388,
+      "learning_rate": 0.0006022145813907713,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 130037728,
+      "step": 60200
+    },
+    {
+      "epoch": 9.82137030995106,
+      "grad_norm": 0.04539079964160919,
+      "learning_rate": 0.0006021449037536114,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 130048928,
+      "step": 60205
+    },
+    {
+      "epoch": 9.822185970636216,
+      "grad_norm": 0.024069270119071007,
+      "learning_rate": 0.0006020752240463555,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 130059968,
+      "step": 60210
+    },
+    {
+      "epoch": 9.82300163132137,
+      "grad_norm": 0.06953584402799606,
+      "learning_rate": 0.0006020055422704156,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 130071712,
+      "step": 60215
+    },
+    {
+      "epoch": 9.823817292006526,
+      "grad_norm": 0.012529253028333187,
+      "learning_rate": 0.0006019358584272042,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 130083360,
+      "step": 60220
+    },
+    {
+      "epoch": 9.82463295269168,
+      "grad_norm": 0.38807380199432373,
+      "learning_rate": 0.0006018661725181332,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 130094368,
+      "step": 60225
+    },
+    {
+      "epoch": 9.825448613376835,
+      "grad_norm": 0.08964411914348602,
+      "learning_rate": 0.0006017964845446149,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 130105184,
+      "step": 60230
+    },
+    {
+      "epoch": 9.826264274061991,
+      "grad_norm": 0.06751274317502975,
+      "learning_rate": 0.0006017267945080618,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 130115584,
+      "step": 60235
+    },
+    {
+      "epoch": 9.827079934747145,
+      "grad_norm": 0.007398010231554508,
+      "learning_rate": 0.000601657102409886,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 130126432,
+      "step": 60240
+    },
+    {
+      "epoch": 9.8278955954323,
+      "grad_norm": 0.4739130735397339,
+      "learning_rate": 0.0006015874082515003,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 130137344,
+      "step": 60245
+    },
+    {
+      "epoch": 9.828711256117455,
+      "grad_norm": 0.06454982608556747,
+      "learning_rate": 0.0006015177120343168,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 130148064,
+      "step": 60250
+    },
+    {
+      "epoch": 9.82952691680261,
+      "grad_norm": 0.035548772662878036,
+      "learning_rate": 0.000601448013759748,
+      "loss": 0.069,
+      "num_input_tokens_seen": 130159744,
+      "step": 60255
+    },
+    {
+      "epoch": 9.830342577487766,
+      "grad_norm": 0.07255587726831436,
+      "learning_rate": 0.0006013783134292067,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 130171072,
+      "step": 60260
+    },
+    {
+      "epoch": 9.83115823817292,
+      "grad_norm": 0.0018127447692677379,
+      "learning_rate": 0.0006013086110441049,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 130182400,
+      "step": 60265
+    },
+    {
+      "epoch": 9.831973898858076,
+      "grad_norm": 0.034299176186323166,
+      "learning_rate": 0.0006012389066058559,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 130193568,
+      "step": 60270
+    },
+    {
+      "epoch": 9.83278955954323,
+      "grad_norm": 0.08214818686246872,
+      "learning_rate": 0.0006011692001158719,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 130203680,
+      "step": 60275
+    },
+    {
+      "epoch": 9.833605220228385,
+      "grad_norm": 0.0023437021300196648,
+      "learning_rate": 0.0006010994915755659,
+      "loss": 0.006,
+      "num_input_tokens_seen": 130213632,
+      "step": 60280
+    },
+    {
+      "epoch": 9.83442088091354,
+      "grad_norm": 0.007850533351302147,
+      "learning_rate": 0.0006010297809863503,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 130224128,
+      "step": 60285
+    },
+    {
+      "epoch": 9.835236541598695,
+      "grad_norm": 0.040578775107860565,
+      "learning_rate": 0.000600960068349638,
+      "loss": 0.1383,
+      "num_input_tokens_seen": 130235648,
+      "step": 60290
+    },
+    {
+      "epoch": 9.83605220228385,
+      "grad_norm": 0.08046291023492813,
+      "learning_rate": 0.000600890353666842,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 130245792,
+      "step": 60295
+    },
+    {
+      "epoch": 9.836867862969005,
+      "grad_norm": 0.002211250364780426,
+      "learning_rate": 0.0006008206369393748,
+      "loss": 0.1303,
+      "num_input_tokens_seen": 130255744,
+      "step": 60300
+    },
+    {
+      "epoch": 9.83768352365416,
+      "grad_norm": 0.1887092888355255,
+      "learning_rate": 0.0006007509181686496,
+      "loss": 0.15,
+      "num_input_tokens_seen": 130266080,
+      "step": 60305
+    },
+    {
+      "epoch": 9.838499184339314,
+      "grad_norm": 0.5672429800033569,
+      "learning_rate": 0.0006006811973560792,
+      "loss": 0.1197,
+      "num_input_tokens_seen": 130277344,
+      "step": 60310
+    },
+    {
+      "epoch": 9.83931484502447,
+      "grad_norm": 0.398388534784317,
+      "learning_rate": 0.0006006114745030766,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 130286656,
+      "step": 60315
+    },
+    {
+      "epoch": 9.840130505709626,
+      "grad_norm": 0.003656855085864663,
+      "learning_rate": 0.0006005417496110549,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 130297344,
+      "step": 60320
+    },
+    {
+      "epoch": 9.84094616639478,
+      "grad_norm": 0.02871028333902359,
+      "learning_rate": 0.0006004720226814271,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 130307200,
+      "step": 60325
+    },
+    {
+      "epoch": 9.841761827079935,
+      "grad_norm": 0.3796071410179138,
+      "learning_rate": 0.0006004022937156062,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 130318144,
+      "step": 60330
+    },
+    {
+      "epoch": 9.84257748776509,
+      "grad_norm": 0.018963851034641266,
+      "learning_rate": 0.0006003325627150054,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 130327904,
+      "step": 60335
+    },
+    {
+      "epoch": 9.843393148450245,
+      "grad_norm": 0.046277206391096115,
+      "learning_rate": 0.0006002628296810381,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 130338176,
+      "step": 60340
+    },
+    {
+      "epoch": 9.844208809135399,
+      "grad_norm": 0.0019071658607572317,
+      "learning_rate": 0.0006001930946151172,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 130349600,
+      "step": 60345
+    },
+    {
+      "epoch": 9.845024469820554,
+      "grad_norm": 0.010552327148616314,
+      "learning_rate": 0.0006001233575186563,
+      "loss": 0.1436,
+      "num_input_tokens_seen": 130360352,
+      "step": 60350
+    },
+    {
+      "epoch": 9.84584013050571,
+      "grad_norm": 0.023848099634051323,
+      "learning_rate": 0.0006000536183930684,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 130370944,
+      "step": 60355
+    },
+    {
+      "epoch": 9.846655791190864,
+      "grad_norm": 0.08024164289236069,
+      "learning_rate": 0.000599983877239767,
+      "loss": 0.0648,
+      "num_input_tokens_seen": 130382336,
+      "step": 60360
+    },
+    {
+      "epoch": 9.84747145187602,
+      "grad_norm": 0.018898021429777145,
+      "learning_rate": 0.0005999141340601657,
+      "loss": 0.01,
+      "num_input_tokens_seen": 130392480,
+      "step": 60365
+    },
+    {
+      "epoch": 9.848287112561174,
+      "grad_norm": 0.03573465347290039,
+      "learning_rate": 0.0005998443888556776,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 130403360,
+      "step": 60370
+    },
+    {
+      "epoch": 9.84910277324633,
+      "grad_norm": 0.09511330723762512,
+      "learning_rate": 0.0005997746416277162,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 130414432,
+      "step": 60375
+    },
+    {
+      "epoch": 9.849918433931485,
+      "grad_norm": 0.00512855825945735,
+      "learning_rate": 0.0005997048923776953,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 130424992,
+      "step": 60380
+    },
+    {
+      "epoch": 9.850734094616639,
+      "grad_norm": 0.26799216866493225,
+      "learning_rate": 0.000599635141107028,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 130433920,
+      "step": 60385
+    },
+    {
+      "epoch": 9.851549755301795,
+      "grad_norm": 0.007397581823170185,
+      "learning_rate": 0.0005995653878171283,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 130444544,
+      "step": 60390
+    },
+    {
+      "epoch": 9.852365415986949,
+      "grad_norm": 0.6185172200202942,
+      "learning_rate": 0.0005994956325094099,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 130455360,
+      "step": 60395
+    },
+    {
+      "epoch": 9.853181076672104,
+      "grad_norm": 0.03895857185125351,
+      "learning_rate": 0.000599425875185286,
+      "loss": 0.2108,
+      "num_input_tokens_seen": 130465824,
+      "step": 60400
+    },
+    {
+      "epoch": 9.85399673735726,
+      "grad_norm": 0.0034981996286660433,
+      "learning_rate": 0.0005993561158461708,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 130477376,
+      "step": 60405
+    },
+    {
+      "epoch": 9.854812398042414,
+      "grad_norm": 0.003301647724583745,
+      "learning_rate": 0.0005992863544934777,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 130487328,
+      "step": 60410
+    },
+    {
+      "epoch": 9.85562805872757,
+      "grad_norm": 0.02783522754907608,
+      "learning_rate": 0.000599216591128621,
+      "loss": 0.031,
+      "num_input_tokens_seen": 130497248,
+      "step": 60415
+    },
+    {
+      "epoch": 9.856443719412724,
+      "grad_norm": 0.004357766360044479,
+      "learning_rate": 0.000599146825753014,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 130507520,
+      "step": 60420
+    },
+    {
+      "epoch": 9.85725938009788,
+      "grad_norm": 0.004188814666122198,
+      "learning_rate": 0.0005990770583680707,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 130519488,
+      "step": 60425
+    },
+    {
+      "epoch": 9.858075040783035,
+      "grad_norm": 0.10563724488019943,
+      "learning_rate": 0.0005990072889752052,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 130530304,
+      "step": 60430
+    },
+    {
+      "epoch": 9.858890701468189,
+      "grad_norm": 0.052509855479002,
+      "learning_rate": 0.0005989375175758315,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 130540544,
+      "step": 60435
+    },
+    {
+      "epoch": 9.859706362153345,
+      "grad_norm": 0.013773845508694649,
+      "learning_rate": 0.0005988677441713633,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 130550336,
+      "step": 60440
+    },
+    {
+      "epoch": 9.860522022838499,
+      "grad_norm": 0.20639842748641968,
+      "learning_rate": 0.000598797968763215,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 130560896,
+      "step": 60445
+    },
+    {
+      "epoch": 9.861337683523654,
+      "grad_norm": 0.009240848943591118,
+      "learning_rate": 0.0005987281913528006,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 130572064,
+      "step": 60450
+    },
+    {
+      "epoch": 9.86215334420881,
+      "grad_norm": 0.025932233780622482,
+      "learning_rate": 0.0005986584119415339,
+      "loss": 0.1094,
+      "num_input_tokens_seen": 130583328,
+      "step": 60455
+    },
+    {
+      "epoch": 9.862969004893964,
+      "grad_norm": 0.009651134721934795,
+      "learning_rate": 0.0005985886305308295,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 130591840,
+      "step": 60460
+    },
+    {
+      "epoch": 9.86378466557912,
+      "grad_norm": 0.030490349978208542,
+      "learning_rate": 0.0005985188471221014,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 130603040,
+      "step": 60465
+    },
+    {
+      "epoch": 9.864600326264274,
+      "grad_norm": 0.05847940593957901,
+      "learning_rate": 0.0005984490617167639,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 130614208,
+      "step": 60470
+    },
+    {
+      "epoch": 9.86541598694943,
+      "grad_norm": 0.13259384036064148,
+      "learning_rate": 0.0005983792743162313,
+      "loss": 0.033,
+      "num_input_tokens_seen": 130624064,
+      "step": 60475
+    },
+    {
+      "epoch": 9.866231647634583,
+      "grad_norm": 0.007011461537331343,
+      "learning_rate": 0.0005983094849219177,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 130633984,
+      "step": 60480
+    },
+    {
+      "epoch": 9.867047308319739,
+      "grad_norm": 0.007801242638379335,
+      "learning_rate": 0.0005982396935352379,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 130644896,
+      "step": 60485
+    },
+    {
+      "epoch": 9.867862969004895,
+      "grad_norm": 0.04473032057285309,
+      "learning_rate": 0.000598169900157606,
+      "loss": 0.1836,
+      "num_input_tokens_seen": 130654752,
+      "step": 60490
+    },
+    {
+      "epoch": 9.868678629690049,
+      "grad_norm": 0.29122939705848694,
+      "learning_rate": 0.0005981001047904365,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 130665568,
+      "step": 60495
+    },
+    {
+      "epoch": 9.869494290375204,
+      "grad_norm": 0.007103382144123316,
+      "learning_rate": 0.000598030307435144,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 130675904,
+      "step": 60500
+    },
+    {
+      "epoch": 9.870309951060358,
+      "grad_norm": 0.04765298217535019,
+      "learning_rate": 0.000597960508093143,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 130686464,
+      "step": 60505
+    },
+    {
+      "epoch": 9.871125611745514,
+      "grad_norm": 0.009073898196220398,
+      "learning_rate": 0.0005978907067658479,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 130697568,
+      "step": 60510
+    },
+    {
+      "epoch": 9.87194127243067,
+      "grad_norm": 0.01489250548183918,
+      "learning_rate": 0.0005978209034546736,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 130708480,
+      "step": 60515
+    },
+    {
+      "epoch": 9.872756933115824,
+      "grad_norm": 0.3078218400478363,
+      "learning_rate": 0.0005977510981610344,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 130719136,
+      "step": 60520
+    },
+    {
+      "epoch": 9.87357259380098,
+      "grad_norm": 0.0026563978753983974,
+      "learning_rate": 0.0005976812908863454,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 130730368,
+      "step": 60525
+    },
+    {
+      "epoch": 9.874388254486133,
+      "grad_norm": 0.02801201492547989,
+      "learning_rate": 0.0005976114816320208,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 130740544,
+      "step": 60530
+    },
+    {
+      "epoch": 9.875203915171289,
+      "grad_norm": 0.03558781370520592,
+      "learning_rate": 0.000597541670399476,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 130752448,
+      "step": 60535
+    },
+    {
+      "epoch": 9.876019575856443,
+      "grad_norm": 0.15019097924232483,
+      "learning_rate": 0.0005974718571901254,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 130763520,
+      "step": 60540
+    },
+    {
+      "epoch": 9.876835236541599,
+      "grad_norm": 0.005682834889739752,
+      "learning_rate": 0.0005974020420053841,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 130774560,
+      "step": 60545
+    },
+    {
+      "epoch": 9.877650897226754,
+      "grad_norm": 0.40169715881347656,
+      "learning_rate": 0.0005973322248466666,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 130784000,
+      "step": 60550
+    },
+    {
+      "epoch": 9.878466557911908,
+      "grad_norm": 0.014299996197223663,
+      "learning_rate": 0.0005972624057153882,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 130793600,
+      "step": 60555
+    },
+    {
+      "epoch": 9.879282218597064,
+      "grad_norm": 0.006953614763915539,
+      "learning_rate": 0.0005971925846129639,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 130805728,
+      "step": 60560
+    },
+    {
+      "epoch": 9.880097879282218,
+      "grad_norm": 0.007064024917781353,
+      "learning_rate": 0.0005971227615408084,
+      "loss": 0.015,
+      "num_input_tokens_seen": 130815936,
+      "step": 60565
+    },
+    {
+      "epoch": 9.880913539967374,
+      "grad_norm": 0.15870408713817596,
+      "learning_rate": 0.0005970529365003371,
+      "loss": 0.1804,
+      "num_input_tokens_seen": 130827456,
+      "step": 60570
+    },
+    {
+      "epoch": 9.88172920065253,
+      "grad_norm": 0.0761968344449997,
+      "learning_rate": 0.0005969831094929648,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 130837664,
+      "step": 60575
+    },
+    {
+      "epoch": 9.882544861337683,
+      "grad_norm": 0.0183928981423378,
+      "learning_rate": 0.0005969132805201067,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 130848928,
+      "step": 60580
+    },
+    {
+      "epoch": 9.883360522022839,
+      "grad_norm": 0.3906119465827942,
+      "learning_rate": 0.0005968434495831781,
+      "loss": 0.029,
+      "num_input_tokens_seen": 130860640,
+      "step": 60585
+    },
+    {
+      "epoch": 9.884176182707993,
+      "grad_norm": 0.004583487752825022,
+      "learning_rate": 0.000596773616683594,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 130872768,
+      "step": 60590
+    },
+    {
+      "epoch": 9.884991843393149,
+      "grad_norm": 0.020378025248646736,
+      "learning_rate": 0.0005967037818227701,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 130883360,
+      "step": 60595
+    },
+    {
+      "epoch": 9.885807504078304,
+      "grad_norm": 0.018993549048900604,
+      "learning_rate": 0.0005966339450021212,
+      "loss": 0.016,
+      "num_input_tokens_seen": 130893984,
+      "step": 60600
+    },
+    {
+      "epoch": 9.886623164763458,
+      "grad_norm": 0.0059882765635848045,
+      "learning_rate": 0.0005965641062230627,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 130905152,
+      "step": 60605
+    },
+    {
+      "epoch": 9.887438825448614,
+      "grad_norm": 0.024164140224456787,
+      "learning_rate": 0.0005964942654870103,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 130914368,
+      "step": 60610
+    },
+    {
+      "epoch": 9.888254486133768,
+      "grad_norm": 0.1327124685049057,
+      "learning_rate": 0.0005964244227953791,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 130925088,
+      "step": 60615
+    },
+    {
+      "epoch": 9.889070146818923,
+      "grad_norm": 0.027247849851846695,
+      "learning_rate": 0.0005963545781495847,
+      "loss": 0.1065,
+      "num_input_tokens_seen": 130933344,
+      "step": 60620
+    },
+    {
+      "epoch": 9.88988580750408,
+      "grad_norm": 0.1004333570599556,
+      "learning_rate": 0.0005962847315510426,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 130944448,
+      "step": 60625
+    },
+    {
+      "epoch": 9.890701468189233,
+      "grad_norm": 0.01161018293350935,
+      "learning_rate": 0.0005962148830011681,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 130955040,
+      "step": 60630
+    },
+    {
+      "epoch": 9.891517128874389,
+      "grad_norm": 0.4277346134185791,
+      "learning_rate": 0.0005961450325013771,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 130966400,
+      "step": 60635
+    },
+    {
+      "epoch": 9.892332789559543,
+      "grad_norm": 0.1819687783718109,
+      "learning_rate": 0.0005960751800530849,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 130978176,
+      "step": 60640
+    },
+    {
+      "epoch": 9.893148450244698,
+      "grad_norm": 0.027873460203409195,
+      "learning_rate": 0.0005960053256577073,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 130988352,
+      "step": 60645
+    },
+    {
+      "epoch": 9.893964110929852,
+      "grad_norm": 0.0183260440826416,
+      "learning_rate": 0.0005959354693166601,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 130998560,
+      "step": 60650
+    },
+    {
+      "epoch": 9.894779771615008,
+      "grad_norm": 0.2565465271472931,
+      "learning_rate": 0.0005958656110313589,
+      "loss": 0.189,
+      "num_input_tokens_seen": 131008352,
+      "step": 60655
+    },
+    {
+      "epoch": 9.895595432300164,
+      "grad_norm": 0.08927177637815475,
+      "learning_rate": 0.0005957957508032194,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 131019232,
+      "step": 60660
+    },
+    {
+      "epoch": 9.896411092985318,
+      "grad_norm": 0.0050674197264015675,
+      "learning_rate": 0.0005957258886336575,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 131030336,
+      "step": 60665
+    },
+    {
+      "epoch": 9.897226753670473,
+      "grad_norm": 0.06827183067798615,
+      "learning_rate": 0.0005956560245240891,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 131040416,
+      "step": 60670
+    },
+    {
+      "epoch": 9.898042414355627,
+      "grad_norm": 0.04122605174779892,
+      "learning_rate": 0.0005955861584759298,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 131050624,
+      "step": 60675
+    },
+    {
+      "epoch": 9.898858075040783,
+      "grad_norm": 0.7276883125305176,
+      "learning_rate": 0.0005955162904905959,
+      "loss": 0.0778,
+      "num_input_tokens_seen": 131061600,
+      "step": 60680
+    },
+    {
+      "epoch": 9.899673735725939,
+      "grad_norm": 0.1265845149755478,
+      "learning_rate": 0.0005954464205695033,
+      "loss": 0.0996,
+      "num_input_tokens_seen": 131070848,
+      "step": 60685
+    },
+    {
+      "epoch": 9.900489396411093,
+      "grad_norm": 0.01593145728111267,
+      "learning_rate": 0.0005953765487140678,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 131081888,
+      "step": 60690
+    },
+    {
+      "epoch": 9.901305057096248,
+      "grad_norm": 0.002230089157819748,
+      "learning_rate": 0.0005953066749257055,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 131092896,
+      "step": 60695
+    },
+    {
+      "epoch": 9.902120717781402,
+      "grad_norm": 0.010627939365804195,
+      "learning_rate": 0.0005952367992058326,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 131103936,
+      "step": 60700
+    },
+    {
+      "epoch": 9.902936378466558,
+      "grad_norm": 0.08064654469490051,
+      "learning_rate": 0.0005951669215558651,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 131115424,
+      "step": 60705
+    },
+    {
+      "epoch": 9.903752039151712,
+      "grad_norm": 0.006806948687881231,
+      "learning_rate": 0.0005950970419772192,
+      "loss": 0.089,
+      "num_input_tokens_seen": 131126752,
+      "step": 60710
+    },
+    {
+      "epoch": 9.904567699836868,
+      "grad_norm": 0.1305762231349945,
+      "learning_rate": 0.0005950271604713111,
+      "loss": 0.1594,
+      "num_input_tokens_seen": 131138688,
+      "step": 60715
+    },
+    {
+      "epoch": 9.905383360522023,
+      "grad_norm": 0.056780025362968445,
+      "learning_rate": 0.000594957277039557,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 131149440,
+      "step": 60720
+    },
+    {
+      "epoch": 9.906199021207177,
+      "grad_norm": 0.0119969192892313,
+      "learning_rate": 0.0005948873916833733,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 131160768,
+      "step": 60725
+    },
+    {
+      "epoch": 9.907014681892333,
+      "grad_norm": 0.0028076330199837685,
+      "learning_rate": 0.0005948175044041764,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 131172096,
+      "step": 60730
+    },
+    {
+      "epoch": 9.907830342577487,
+      "grad_norm": 0.4447990357875824,
+      "learning_rate": 0.0005947476152033822,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 131182016,
+      "step": 60735
+    },
+    {
+      "epoch": 9.908646003262643,
+      "grad_norm": 0.6924632787704468,
+      "learning_rate": 0.0005946777240824076,
+      "loss": 0.1668,
+      "num_input_tokens_seen": 131193536,
+      "step": 60740
+    },
+    {
+      "epoch": 9.909461663947798,
+      "grad_norm": 0.015939053148031235,
+      "learning_rate": 0.0005946078310426687,
+      "loss": 0.1175,
+      "num_input_tokens_seen": 131204448,
+      "step": 60745
+    },
+    {
+      "epoch": 9.910277324632952,
+      "grad_norm": 0.0262970682233572,
+      "learning_rate": 0.000594537936085582,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 131216384,
+      "step": 60750
+    },
+    {
+      "epoch": 9.911092985318108,
+      "grad_norm": 0.05035187304019928,
+      "learning_rate": 0.0005944680392125643,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 131228064,
+      "step": 60755
+    },
+    {
+      "epoch": 9.911908646003262,
+      "grad_norm": 0.487958163022995,
+      "learning_rate": 0.0005943981404250318,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 131239264,
+      "step": 60760
+    },
+    {
+      "epoch": 9.912724306688418,
+      "grad_norm": 0.003221668768674135,
+      "learning_rate": 0.0005943282397244013,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 131251040,
+      "step": 60765
+    },
+    {
+      "epoch": 9.913539967373573,
+      "grad_norm": 0.16377022862434387,
+      "learning_rate": 0.0005942583371120893,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 131261568,
+      "step": 60770
+    },
+    {
+      "epoch": 9.914355628058727,
+      "grad_norm": 0.024691110476851463,
+      "learning_rate": 0.0005941884325895127,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 131272768,
+      "step": 60775
+    },
+    {
+      "epoch": 9.915171288743883,
+      "grad_norm": 0.026219695806503296,
+      "learning_rate": 0.0005941185261580878,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 131282240,
+      "step": 60780
+    },
+    {
+      "epoch": 9.915986949429037,
+      "grad_norm": 0.003964452538639307,
+      "learning_rate": 0.0005940486178192317,
+      "loss": 0.1644,
+      "num_input_tokens_seen": 131292608,
+      "step": 60785
+    },
+    {
+      "epoch": 9.916802610114193,
+      "grad_norm": 0.03120097890496254,
+      "learning_rate": 0.000593978707574361,
+      "loss": 0.011,
+      "num_input_tokens_seen": 131303040,
+      "step": 60790
+    },
+    {
+      "epoch": 9.917618270799348,
+      "grad_norm": 0.05793861672282219,
+      "learning_rate": 0.0005939087954248926,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 131314208,
+      "step": 60795
+    },
+    {
+      "epoch": 9.918433931484502,
+      "grad_norm": 0.005540280602872372,
+      "learning_rate": 0.0005938388813722432,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 131324832,
+      "step": 60800
+    },
+    {
+      "epoch": 9.919249592169658,
+      "grad_norm": 0.431779146194458,
+      "learning_rate": 0.0005937689654178298,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 131335904,
+      "step": 60805
+    },
+    {
+      "epoch": 9.920065252854812,
+      "grad_norm": 0.2070673108100891,
+      "learning_rate": 0.0005936990475630696,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 131346368,
+      "step": 60810
+    },
+    {
+      "epoch": 9.920880913539968,
+      "grad_norm": 0.06501749902963638,
+      "learning_rate": 0.0005936291278093793,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 131357216,
+      "step": 60815
+    },
+    {
+      "epoch": 9.921696574225122,
+      "grad_norm": 0.0018129857489839196,
+      "learning_rate": 0.0005935592061581758,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 131367200,
+      "step": 60820
+    },
+    {
+      "epoch": 9.922512234910277,
+      "grad_norm": 0.028841711580753326,
+      "learning_rate": 0.0005934892826108764,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 131379264,
+      "step": 60825
+    },
+    {
+      "epoch": 9.923327895595433,
+      "grad_norm": 0.01920981891453266,
+      "learning_rate": 0.0005934193571688981,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 131389888,
+      "step": 60830
+    },
+    {
+      "epoch": 9.924143556280587,
+      "grad_norm": 0.013067704625427723,
+      "learning_rate": 0.0005933494298336579,
+      "loss": 0.0357,
+      "num_input_tokens_seen": 131401088,
+      "step": 60835
+    },
+    {
+      "epoch": 9.924959216965743,
+      "grad_norm": 0.0020066085271537304,
+      "learning_rate": 0.0005932795006065732,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 131412320,
+      "step": 60840
+    },
+    {
+      "epoch": 9.925774877650896,
+      "grad_norm": 0.04752558097243309,
+      "learning_rate": 0.000593209569489061,
+      "loss": 0.02,
+      "num_input_tokens_seen": 131422880,
+      "step": 60845
+    },
+    {
+      "epoch": 9.926590538336052,
+      "grad_norm": 0.045283108949661255,
+      "learning_rate": 0.0005931396364825387,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 131434272,
+      "step": 60850
+    },
+    {
+      "epoch": 9.927406199021208,
+      "grad_norm": 0.021290739998221397,
+      "learning_rate": 0.0005930697015884234,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 131444736,
+      "step": 60855
+    },
+    {
+      "epoch": 9.928221859706362,
+      "grad_norm": 0.011512097902595997,
+      "learning_rate": 0.0005929997648081327,
+      "loss": 0.1208,
+      "num_input_tokens_seen": 131455104,
+      "step": 60860
+    },
+    {
+      "epoch": 9.929037520391518,
+      "grad_norm": 0.03910503908991814,
+      "learning_rate": 0.0005929298261430837,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 131466272,
+      "step": 60865
+    },
+    {
+      "epoch": 9.929853181076671,
+      "grad_norm": 0.21563324332237244,
+      "learning_rate": 0.0005928598855946939,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 131477856,
+      "step": 60870
+    },
+    {
+      "epoch": 9.930668841761827,
+      "grad_norm": 0.12936514616012573,
+      "learning_rate": 0.0005927899431643807,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 131488288,
+      "step": 60875
+    },
+    {
+      "epoch": 9.931484502446983,
+      "grad_norm": 0.04893166944384575,
+      "learning_rate": 0.0005927199988535616,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 131498848,
+      "step": 60880
+    },
+    {
+      "epoch": 9.932300163132137,
+      "grad_norm": 0.006314895115792751,
+      "learning_rate": 0.0005926500526636542,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 131509440,
+      "step": 60885
+    },
+    {
+      "epoch": 9.933115823817293,
+      "grad_norm": 0.018990257754921913,
+      "learning_rate": 0.0005925801045960757,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 131519840,
+      "step": 60890
+    },
+    {
+      "epoch": 9.933931484502446,
+      "grad_norm": 0.17692513763904572,
+      "learning_rate": 0.0005925101546522441,
+      "loss": 0.072,
+      "num_input_tokens_seen": 131530400,
+      "step": 60895
+    },
+    {
+      "epoch": 9.934747145187602,
+      "grad_norm": 0.008013364858925343,
+      "learning_rate": 0.0005924402028335769,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 131540000,
+      "step": 60900
+    },
+    {
+      "epoch": 9.935562805872756,
+      "grad_norm": 0.1491565853357315,
+      "learning_rate": 0.0005923702491414916,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 131552320,
+      "step": 60905
+    },
+    {
+      "epoch": 9.936378466557912,
+      "grad_norm": 0.11109715700149536,
+      "learning_rate": 0.000592300293577406,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 131563840,
+      "step": 60910
+    },
+    {
+      "epoch": 9.937194127243067,
+      "grad_norm": 0.08512434363365173,
+      "learning_rate": 0.0005922303361427379,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 131575488,
+      "step": 60915
+    },
+    {
+      "epoch": 9.938009787928221,
+      "grad_norm": 0.058436449617147446,
+      "learning_rate": 0.0005921603768389051,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 131586080,
+      "step": 60920
+    },
+    {
+      "epoch": 9.938825448613377,
+      "grad_norm": 0.02144043892621994,
+      "learning_rate": 0.0005920904156673254,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 131596096,
+      "step": 60925
+    },
+    {
+      "epoch": 9.939641109298531,
+      "grad_norm": 0.04910271614789963,
+      "learning_rate": 0.0005920204526294165,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 131606304,
+      "step": 60930
+    },
+    {
+      "epoch": 9.940456769983687,
+      "grad_norm": 0.09139198809862137,
+      "learning_rate": 0.0005919504877265965,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 131617312,
+      "step": 60935
+    },
+    {
+      "epoch": 9.941272430668842,
+      "grad_norm": 0.020040472969412804,
+      "learning_rate": 0.000591880520960283,
+      "loss": 0.1875,
+      "num_input_tokens_seen": 131627840,
+      "step": 60940
+    },
+    {
+      "epoch": 9.942088091353996,
+      "grad_norm": 0.07437156140804291,
+      "learning_rate": 0.0005918105523318944,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 131639168,
+      "step": 60945
+    },
+    {
+      "epoch": 9.942903752039152,
+      "grad_norm": 0.009552833624184132,
+      "learning_rate": 0.0005917405818428484,
+      "loss": 0.1345,
+      "num_input_tokens_seen": 131649728,
+      "step": 60950
+    },
+    {
+      "epoch": 9.943719412724306,
+      "grad_norm": 0.12387213110923767,
+      "learning_rate": 0.0005916706094945631,
+      "loss": 0.2201,
+      "num_input_tokens_seen": 131659616,
+      "step": 60955
+    },
+    {
+      "epoch": 9.944535073409462,
+      "grad_norm": 0.010083312168717384,
+      "learning_rate": 0.0005916006352884567,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 131669952,
+      "step": 60960
+    },
+    {
+      "epoch": 9.945350734094617,
+      "grad_norm": 0.19099733233451843,
+      "learning_rate": 0.0005915306592259471,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 131679872,
+      "step": 60965
+    },
+    {
+      "epoch": 9.946166394779771,
+      "grad_norm": 0.08524459600448608,
+      "learning_rate": 0.0005914606813084526,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 131690496,
+      "step": 60970
+    },
+    {
+      "epoch": 9.946982055464927,
+      "grad_norm": 0.3759321868419647,
+      "learning_rate": 0.0005913907015373915,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 131701248,
+      "step": 60975
+    },
+    {
+      "epoch": 9.947797716150081,
+      "grad_norm": 0.00874224305152893,
+      "learning_rate": 0.0005913207199141818,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 131712640,
+      "step": 60980
+    },
+    {
+      "epoch": 9.948613376835237,
+      "grad_norm": 0.49674367904663086,
+      "learning_rate": 0.0005912507364402419,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 131723680,
+      "step": 60985
+    },
+    {
+      "epoch": 9.949429037520392,
+      "grad_norm": 0.010632969439029694,
+      "learning_rate": 0.0005911807511169899,
+      "loss": 0.1221,
+      "num_input_tokens_seen": 131734336,
+      "step": 60990
+    },
+    {
+      "epoch": 9.950244698205546,
+      "grad_norm": 0.24199523031711578,
+      "learning_rate": 0.0005911107639458444,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 131744864,
+      "step": 60995
+    },
+    {
+      "epoch": 9.951060358890702,
+      "grad_norm": 0.0021362698171287775,
+      "learning_rate": 0.0005910407749282237,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 131756128,
+      "step": 61000
+    },
+    {
+      "epoch": 9.951876019575856,
+      "grad_norm": 0.01978922076523304,
+      "learning_rate": 0.0005909707840655462,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 131766528,
+      "step": 61005
+    },
+    {
+      "epoch": 9.952691680261012,
+      "grad_norm": 0.5361757278442383,
+      "learning_rate": 0.0005909007913592304,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 131776096,
+      "step": 61010
+    },
+    {
+      "epoch": 9.953507340946166,
+      "grad_norm": 0.02593553252518177,
+      "learning_rate": 0.0005908307968106948,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 131787328,
+      "step": 61015
+    },
+    {
+      "epoch": 9.954323001631321,
+      "grad_norm": 0.3522297441959381,
+      "learning_rate": 0.0005907608004213577,
+      "loss": 0.1902,
+      "num_input_tokens_seen": 131797856,
+      "step": 61020
+    },
+    {
+      "epoch": 9.955138662316477,
+      "grad_norm": 0.29401418566703796,
+      "learning_rate": 0.0005906908021926379,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 131808224,
+      "step": 61025
+    },
+    {
+      "epoch": 9.955954323001631,
+      "grad_norm": 0.022986039519309998,
+      "learning_rate": 0.000590620802125954,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 131818976,
+      "step": 61030
+    },
+    {
+      "epoch": 9.956769983686787,
+      "grad_norm": 0.43107253313064575,
+      "learning_rate": 0.0005905508002227247,
+      "loss": 0.0791,
+      "num_input_tokens_seen": 131829184,
+      "step": 61035
+    },
+    {
+      "epoch": 9.95758564437194,
+      "grad_norm": 0.009766715578734875,
+      "learning_rate": 0.0005904807964843684,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 131840608,
+      "step": 61040
+    },
+    {
+      "epoch": 9.958401305057096,
+      "grad_norm": 0.27253955602645874,
+      "learning_rate": 0.0005904107909123039,
+      "loss": 0.1741,
+      "num_input_tokens_seen": 131850336,
+      "step": 61045
+    },
+    {
+      "epoch": 9.959216965742252,
+      "grad_norm": 0.35473403334617615,
+      "learning_rate": 0.0005903407835079502,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 131860800,
+      "step": 61050
+    },
+    {
+      "epoch": 9.960032626427406,
+      "grad_norm": 0.0052872272208333015,
+      "learning_rate": 0.000590270774272726,
+      "loss": 0.0473,
+      "num_input_tokens_seen": 131871552,
+      "step": 61055
+    },
+    {
+      "epoch": 9.960848287112562,
+      "grad_norm": 0.04657332971692085,
+      "learning_rate": 0.0005902007632080499,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 131881760,
+      "step": 61060
+    },
+    {
+      "epoch": 9.961663947797716,
+      "grad_norm": 0.22349655628204346,
+      "learning_rate": 0.0005901307503153408,
+      "loss": 0.0449,
+      "num_input_tokens_seen": 131892416,
+      "step": 61065
+    },
+    {
+      "epoch": 9.962479608482871,
+      "grad_norm": 0.0609329491853714,
+      "learning_rate": 0.0005900607355960178,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 131903744,
+      "step": 61070
+    },
+    {
+      "epoch": 9.963295269168025,
+      "grad_norm": 0.22006216645240784,
+      "learning_rate": 0.0005899907190514999,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 131914112,
+      "step": 61075
+    },
+    {
+      "epoch": 9.964110929853181,
+      "grad_norm": 0.04818188399076462,
+      "learning_rate": 0.0005899207006832056,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 131924896,
+      "step": 61080
+    },
+    {
+      "epoch": 9.964926590538337,
+      "grad_norm": 0.2611391842365265,
+      "learning_rate": 0.0005898506804925545,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 131936192,
+      "step": 61085
+    },
+    {
+      "epoch": 9.96574225122349,
+      "grad_norm": 0.2683767080307007,
+      "learning_rate": 0.0005897806584809653,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 131947168,
+      "step": 61090
+    },
+    {
+      "epoch": 9.966557911908646,
+      "grad_norm": 0.005635687615722418,
+      "learning_rate": 0.0005897106346498571,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 131958080,
+      "step": 61095
+    },
+    {
+      "epoch": 9.9673735725938,
+      "grad_norm": 0.005916200112551451,
+      "learning_rate": 0.0005896406090006491,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 131969920,
+      "step": 61100
+    },
+    {
+      "epoch": 9.968189233278956,
+      "grad_norm": 0.021341202780604362,
+      "learning_rate": 0.0005895705815347605,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 131979680,
+      "step": 61105
+    },
+    {
+      "epoch": 9.969004893964112,
+      "grad_norm": 0.19587284326553345,
+      "learning_rate": 0.0005895005522536104,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 131991776,
+      "step": 61110
+    },
+    {
+      "epoch": 9.969820554649266,
+      "grad_norm": 0.0793571025133133,
+      "learning_rate": 0.000589430521158618,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 132002656,
+      "step": 61115
+    },
+    {
+      "epoch": 9.970636215334421,
+      "grad_norm": 0.10754761099815369,
+      "learning_rate": 0.0005893604882512027,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 132012928,
+      "step": 61120
+    },
+    {
+      "epoch": 9.971451876019575,
+      "grad_norm": 0.4493594765663147,
+      "learning_rate": 0.0005892904535327837,
+      "loss": 0.0467,
+      "num_input_tokens_seen": 132023520,
+      "step": 61125
+    },
+    {
+      "epoch": 9.97226753670473,
+      "grad_norm": 0.2553941011428833,
+      "learning_rate": 0.0005892204170047804,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 132033216,
+      "step": 61130
+    },
+    {
+      "epoch": 9.973083197389887,
+      "grad_norm": 0.33169591426849365,
+      "learning_rate": 0.0005891503786686123,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 132044736,
+      "step": 61135
+    },
+    {
+      "epoch": 9.97389885807504,
+      "grad_norm": 0.005872929468750954,
+      "learning_rate": 0.0005890803385256985,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 132055232,
+      "step": 61140
+    },
+    {
+      "epoch": 9.974714518760196,
+      "grad_norm": 0.0037564358208328485,
+      "learning_rate": 0.0005890102965774587,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 132066176,
+      "step": 61145
+    },
+    {
+      "epoch": 9.97553017944535,
+      "grad_norm": 0.04645087197422981,
+      "learning_rate": 0.0005889402528253124,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 132076320,
+      "step": 61150
+    },
+    {
+      "epoch": 9.976345840130506,
+      "grad_norm": 0.002770586172118783,
+      "learning_rate": 0.0005888702072706788,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 132086816,
+      "step": 61155
+    },
+    {
+      "epoch": 9.977161500815662,
+      "grad_norm": 0.286471962928772,
+      "learning_rate": 0.0005888001599149781,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 132097056,
+      "step": 61160
+    },
+    {
+      "epoch": 9.977977161500815,
+      "grad_norm": 0.32440730929374695,
+      "learning_rate": 0.0005887301107596292,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 132107424,
+      "step": 61165
+    },
+    {
+      "epoch": 9.978792822185971,
+      "grad_norm": 0.07186294347047806,
+      "learning_rate": 0.0005886600598060522,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 132117376,
+      "step": 61170
+    },
+    {
+      "epoch": 9.979608482871125,
+      "grad_norm": 0.08263949304819107,
+      "learning_rate": 0.0005885900070556665,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 132127776,
+      "step": 61175
+    },
+    {
+      "epoch": 9.98042414355628,
+      "grad_norm": 0.002160472795367241,
+      "learning_rate": 0.0005885199525098919,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 132138720,
+      "step": 61180
+    },
+    {
+      "epoch": 9.981239804241435,
+      "grad_norm": 0.005913755390793085,
+      "learning_rate": 0.0005884498961701483,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 132149632,
+      "step": 61185
+    },
+    {
+      "epoch": 9.98205546492659,
+      "grad_norm": 0.0032838478218764067,
+      "learning_rate": 0.0005883798380378554,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 132161536,
+      "step": 61190
+    },
+    {
+      "epoch": 9.982871125611746,
+      "grad_norm": 0.21511363983154297,
+      "learning_rate": 0.0005883097781144329,
+      "loss": 0.234,
+      "num_input_tokens_seen": 132172992,
+      "step": 61195
+    },
+    {
+      "epoch": 9.9836867862969,
+      "grad_norm": 0.0015851340722292662,
+      "learning_rate": 0.0005882397164013005,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 132183808,
+      "step": 61200
+    },
+    {
+      "epoch": 9.984502446982056,
+      "grad_norm": 0.02231002226471901,
+      "learning_rate": 0.0005881696528998785,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 132194048,
+      "step": 61205
+    },
+    {
+      "epoch": 9.98531810766721,
+      "grad_norm": 0.014449645765125751,
+      "learning_rate": 0.0005880995876115868,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 132205120,
+      "step": 61210
+    },
+    {
+      "epoch": 9.986133768352365,
+      "grad_norm": 0.01147771067917347,
+      "learning_rate": 0.0005880295205378449,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 132214880,
+      "step": 61215
+    },
+    {
+      "epoch": 9.986949429037521,
+      "grad_norm": 0.061700109392404556,
+      "learning_rate": 0.0005879594516800732,
+      "loss": 0.0892,
+      "num_input_tokens_seen": 132225408,
+      "step": 61220
+    },
+    {
+      "epoch": 9.987765089722675,
+      "grad_norm": 0.010661949403584003,
+      "learning_rate": 0.0005878893810396916,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 132236288,
+      "step": 61225
+    },
+    {
+      "epoch": 9.98858075040783,
+      "grad_norm": 0.08864899724721909,
+      "learning_rate": 0.0005878193086181203,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 132247680,
+      "step": 61230
+    },
+    {
+      "epoch": 9.989396411092985,
+      "grad_norm": 0.3488578200340271,
+      "learning_rate": 0.0005877492344167792,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 132257632,
+      "step": 61235
+    },
+    {
+      "epoch": 9.99021207177814,
+      "grad_norm": 0.0029131618794053793,
+      "learning_rate": 0.0005876791584370886,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 132268288,
+      "step": 61240
+    },
+    {
+      "epoch": 9.991027732463294,
+      "grad_norm": 0.03511757031083107,
+      "learning_rate": 0.0005876090806804686,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 132278432,
+      "step": 61245
+    },
+    {
+      "epoch": 9.99184339314845,
+      "grad_norm": 0.28010329604148865,
+      "learning_rate": 0.0005875390011483394,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 132288512,
+      "step": 61250
+    },
+    {
+      "epoch": 9.992659053833606,
+      "grad_norm": 0.0038962685503065586,
+      "learning_rate": 0.0005874689198421214,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 132300096,
+      "step": 61255
+    },
+    {
+      "epoch": 9.99347471451876,
+      "grad_norm": 0.13746079802513123,
+      "learning_rate": 0.0005873988367632347,
+      "loss": 0.1822,
+      "num_input_tokens_seen": 132309824,
+      "step": 61260
+    },
+    {
+      "epoch": 9.994290375203915,
+      "grad_norm": 0.16750729084014893,
+      "learning_rate": 0.0005873287519130997,
+      "loss": 0.1562,
+      "num_input_tokens_seen": 132320512,
+      "step": 61265
+    },
+    {
+      "epoch": 9.99510603588907,
+      "grad_norm": 0.09587028622627258,
+      "learning_rate": 0.0005872586652931368,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 132331072,
+      "step": 61270
+    },
+    {
+      "epoch": 9.995921696574225,
+      "grad_norm": 0.22070851922035217,
+      "learning_rate": 0.0005871885769047664,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 132340960,
+      "step": 61275
+    },
+    {
+      "epoch": 9.99673735725938,
+      "grad_norm": 0.021899957209825516,
+      "learning_rate": 0.0005871184867494088,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 132351648,
+      "step": 61280
+    },
+    {
+      "epoch": 9.997553017944535,
+      "grad_norm": 0.18221528828144073,
+      "learning_rate": 0.0005870483948284845,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 132363040,
+      "step": 61285
+    },
+    {
+      "epoch": 9.99836867862969,
+      "grad_norm": 0.2870374619960785,
+      "learning_rate": 0.0005869783011434141,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 132372544,
+      "step": 61290
+    },
+    {
+      "epoch": 9.999184339314844,
+      "grad_norm": 0.04292251169681549,
+      "learning_rate": 0.0005869082056956181,
+      "loss": 0.1169,
+      "num_input_tokens_seen": 132383936,
+      "step": 61295
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.024575114250183105,
+      "learning_rate": 0.000586838108486517,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 132392640,
+      "step": 61300
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.14106982946395874,
+      "eval_runtime": 103.848,
+      "eval_samples_per_second": 26.24,
+      "eval_steps_per_second": 6.567,
+      "num_input_tokens_seen": 132392640,
+      "step": 61300
+    },
+    {
+      "epoch": 10.000815660685156,
+      "grad_norm": 0.09867502748966217,
+      "learning_rate": 0.0005867680095175315,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 132403680,
+      "step": 61305
+    },
+    {
+      "epoch": 10.00163132137031,
+      "grad_norm": 0.09049554169178009,
+      "learning_rate": 0.0005866979087900822,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 132415040,
+      "step": 61310
+    },
+    {
+      "epoch": 10.002446982055465,
+      "grad_norm": 0.025646690279245377,
+      "learning_rate": 0.0005866278063055898,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 132426496,
+      "step": 61315
+    },
+    {
+      "epoch": 10.00326264274062,
+      "grad_norm": 0.043658383190631866,
+      "learning_rate": 0.0005865577020654751,
+      "loss": 0.211,
+      "num_input_tokens_seen": 132436640,
+      "step": 61320
+    },
+    {
+      "epoch": 10.004078303425775,
+      "grad_norm": 0.10407885164022446,
+      "learning_rate": 0.0005864875960711588,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 132447840,
+      "step": 61325
+    },
+    {
+      "epoch": 10.00489396411093,
+      "grad_norm": 0.010089286603033543,
+      "learning_rate": 0.0005864174883240614,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 132458336,
+      "step": 61330
+    },
+    {
+      "epoch": 10.005709624796085,
+      "grad_norm": 0.1301630288362503,
+      "learning_rate": 0.0005863473788256042,
+      "loss": 0.1366,
+      "num_input_tokens_seen": 132469856,
+      "step": 61335
+    },
+    {
+      "epoch": 10.00652528548124,
+      "grad_norm": 0.051968734711408615,
+      "learning_rate": 0.0005862772675772076,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 132479104,
+      "step": 61340
+    },
+    {
+      "epoch": 10.007340946166394,
+      "grad_norm": 0.017379827797412872,
+      "learning_rate": 0.000586207154580293,
+      "loss": 0.01,
+      "num_input_tokens_seen": 132490240,
+      "step": 61345
+    },
+    {
+      "epoch": 10.00815660685155,
+      "grad_norm": 0.002726492937654257,
+      "learning_rate": 0.0005861370398362809,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 132500128,
+      "step": 61350
+    },
+    {
+      "epoch": 10.008972267536704,
+      "grad_norm": 0.035465896129608154,
+      "learning_rate": 0.0005860669233465925,
+      "loss": 0.1204,
+      "num_input_tokens_seen": 132511584,
+      "step": 61355
+    },
+    {
+      "epoch": 10.00978792822186,
+      "grad_norm": 0.18338146805763245,
+      "learning_rate": 0.0005859968051126486,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 132521824,
+      "step": 61360
+    },
+    {
+      "epoch": 10.010603588907015,
+      "grad_norm": 0.02428065799176693,
+      "learning_rate": 0.0005859266851358704,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 132533952,
+      "step": 61365
+    },
+    {
+      "epoch": 10.01141924959217,
+      "grad_norm": 0.0904858410358429,
+      "learning_rate": 0.0005858565634176789,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 132544960,
+      "step": 61370
+    },
+    {
+      "epoch": 10.012234910277325,
+      "grad_norm": 0.019217217341065407,
+      "learning_rate": 0.0005857864399594953,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 132556096,
+      "step": 61375
+    },
+    {
+      "epoch": 10.013050570962479,
+      "grad_norm": 0.20956331491470337,
+      "learning_rate": 0.0005857163147627406,
+      "loss": 0.055,
+      "num_input_tokens_seen": 132567264,
+      "step": 61380
+    },
+    {
+      "epoch": 10.013866231647635,
+      "grad_norm": 0.0058461870066821575,
+      "learning_rate": 0.000585646187828836,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 132577376,
+      "step": 61385
+    },
+    {
+      "epoch": 10.01468189233279,
+      "grad_norm": 0.020629743114113808,
+      "learning_rate": 0.000585576059159203,
+      "loss": 0.0471,
+      "num_input_tokens_seen": 132587968,
+      "step": 61390
+    },
+    {
+      "epoch": 10.015497553017944,
+      "grad_norm": 0.023331712931394577,
+      "learning_rate": 0.0005855059287552623,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 132600064,
+      "step": 61395
+    },
+    {
+      "epoch": 10.0163132137031,
+      "grad_norm": 0.0030110483057796955,
+      "learning_rate": 0.0005854357966184356,
+      "loss": 0.1784,
+      "num_input_tokens_seen": 132611008,
+      "step": 61400
+    },
+    {
+      "epoch": 10.017128874388254,
+      "grad_norm": 0.2905384600162506,
+      "learning_rate": 0.0005853656627501442,
+      "loss": 0.1317,
+      "num_input_tokens_seen": 132622592,
+      "step": 61405
+    },
+    {
+      "epoch": 10.01794453507341,
+      "grad_norm": 0.2557068467140198,
+      "learning_rate": 0.0005852955271518092,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 132633120,
+      "step": 61410
+    },
+    {
+      "epoch": 10.018760195758565,
+      "grad_norm": 0.035086777061223984,
+      "learning_rate": 0.0005852253898248522,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 132643712,
+      "step": 61415
+    },
+    {
+      "epoch": 10.01957585644372,
+      "grad_norm": 0.08694098889827728,
+      "learning_rate": 0.0005851552507706945,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 132654144,
+      "step": 61420
+    },
+    {
+      "epoch": 10.020391517128875,
+      "grad_norm": 0.011595198884606361,
+      "learning_rate": 0.0005850851099907577,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 132664096,
+      "step": 61425
+    },
+    {
+      "epoch": 10.021207177814029,
+      "grad_norm": 0.015262764878571033,
+      "learning_rate": 0.0005850149674864631,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 132674528,
+      "step": 61430
+    },
+    {
+      "epoch": 10.022022838499185,
+      "grad_norm": 0.003421793458983302,
+      "learning_rate": 0.0005849448232592324,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 132684896,
+      "step": 61435
+    },
+    {
+      "epoch": 10.022838499184338,
+      "grad_norm": 0.1386803835630417,
+      "learning_rate": 0.0005848746773104871,
+      "loss": 0.1301,
+      "num_input_tokens_seen": 132695904,
+      "step": 61440
+    },
+    {
+      "epoch": 10.023654159869494,
+      "grad_norm": 0.0038962659891694784,
+      "learning_rate": 0.0005848045296416488,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 132706112,
+      "step": 61445
+    },
+    {
+      "epoch": 10.02446982055465,
+      "grad_norm": 0.10918844491243362,
+      "learning_rate": 0.0005847343802541391,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 132716160,
+      "step": 61450
+    },
+    {
+      "epoch": 10.025285481239804,
+      "grad_norm": 0.18185824155807495,
+      "learning_rate": 0.0005846642291493796,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 132728672,
+      "step": 61455
+    },
+    {
+      "epoch": 10.02610114192496,
+      "grad_norm": 0.036952123045921326,
+      "learning_rate": 0.0005845940763287923,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 132739776,
+      "step": 61460
+    },
+    {
+      "epoch": 10.026916802610113,
+      "grad_norm": 0.16382429003715515,
+      "learning_rate": 0.0005845239217937986,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 132751264,
+      "step": 61465
+    },
+    {
+      "epoch": 10.02773246329527,
+      "grad_norm": 0.04407104477286339,
+      "learning_rate": 0.0005844537655458203,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 132762208,
+      "step": 61470
+    },
+    {
+      "epoch": 10.028548123980425,
+      "grad_norm": 0.0067809708416461945,
+      "learning_rate": 0.0005843836075862794,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 132771040,
+      "step": 61475
+    },
+    {
+      "epoch": 10.029363784665579,
+      "grad_norm": 0.017581727355718613,
+      "learning_rate": 0.0005843134479165977,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 132782528,
+      "step": 61480
+    },
+    {
+      "epoch": 10.030179445350734,
+      "grad_norm": 0.10218022763729095,
+      "learning_rate": 0.0005842432865381971,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 132792704,
+      "step": 61485
+    },
+    {
+      "epoch": 10.030995106035888,
+      "grad_norm": 0.33561691641807556,
+      "learning_rate": 0.0005841731234524993,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 132803904,
+      "step": 61490
+    },
+    {
+      "epoch": 10.031810766721044,
+      "grad_norm": 0.36867034435272217,
+      "learning_rate": 0.0005841029586609263,
+      "loss": 0.0274,
+      "num_input_tokens_seen": 132813664,
+      "step": 61495
+    },
+    {
+      "epoch": 10.0326264274062,
+      "grad_norm": 0.003252339782193303,
+      "learning_rate": 0.0005840327921649003,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 132824640,
+      "step": 61500
+    },
+    {
+      "epoch": 10.033442088091354,
+      "grad_norm": 0.0059877620078623295,
+      "learning_rate": 0.0005839626239658431,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 132836128,
+      "step": 61505
+    },
+    {
+      "epoch": 10.03425774877651,
+      "grad_norm": 0.002705489983782172,
+      "learning_rate": 0.0005838924540651769,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 132847392,
+      "step": 61510
+    },
+    {
+      "epoch": 10.035073409461663,
+      "grad_norm": 0.005862162448465824,
+      "learning_rate": 0.0005838222824643235,
+      "loss": 0.065,
+      "num_input_tokens_seen": 132857152,
+      "step": 61515
+    },
+    {
+      "epoch": 10.035889070146819,
+      "grad_norm": 0.13416972756385803,
+      "learning_rate": 0.0005837521091647054,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 132866560,
+      "step": 61520
+    },
+    {
+      "epoch": 10.036704730831975,
+      "grad_norm": 0.024556193500757217,
+      "learning_rate": 0.0005836819341677444,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 132877952,
+      "step": 61525
+    },
+    {
+      "epoch": 10.037520391517129,
+      "grad_norm": 0.025332549586892128,
+      "learning_rate": 0.0005836117574748629,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 132887744,
+      "step": 61530
+    },
+    {
+      "epoch": 10.038336052202284,
+      "grad_norm": 0.024207156151533127,
+      "learning_rate": 0.0005835415790874832,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 132897696,
+      "step": 61535
+    },
+    {
+      "epoch": 10.039151712887438,
+      "grad_norm": 0.029303235933184624,
+      "learning_rate": 0.0005834713990070273,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 132908704,
+      "step": 61540
+    },
+    {
+      "epoch": 10.039967373572594,
+      "grad_norm": 0.008033953607082367,
+      "learning_rate": 0.0005834012172349174,
+      "loss": 0.022,
+      "num_input_tokens_seen": 132919168,
+      "step": 61545
+    },
+    {
+      "epoch": 10.040783034257748,
+      "grad_norm": 0.5109202861785889,
+      "learning_rate": 0.0005833310337725764,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 132931136,
+      "step": 61550
+    },
+    {
+      "epoch": 10.041598694942904,
+      "grad_norm": 0.008069335483014584,
+      "learning_rate": 0.0005832608486214261,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 132942432,
+      "step": 61555
+    },
+    {
+      "epoch": 10.04241435562806,
+      "grad_norm": 0.007886008359491825,
+      "learning_rate": 0.0005831906617828892,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 132952480,
+      "step": 61560
+    },
+    {
+      "epoch": 10.043230016313213,
+      "grad_norm": 0.005050900857895613,
+      "learning_rate": 0.0005831204732583879,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 132963584,
+      "step": 61565
+    },
+    {
+      "epoch": 10.044045676998369,
+      "grad_norm": 0.007038873620331287,
+      "learning_rate": 0.0005830502830493447,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 132973888,
+      "step": 61570
+    },
+    {
+      "epoch": 10.044861337683523,
+      "grad_norm": 0.00195617089048028,
+      "learning_rate": 0.0005829800911571824,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 132984224,
+      "step": 61575
+    },
+    {
+      "epoch": 10.045676998368679,
+      "grad_norm": 0.020171010866761208,
+      "learning_rate": 0.000582909897583323,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 132995392,
+      "step": 61580
+    },
+    {
+      "epoch": 10.046492659053834,
+      "grad_norm": 0.005067338235676289,
+      "learning_rate": 0.0005828397023291895,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 133006432,
+      "step": 61585
+    },
+    {
+      "epoch": 10.047308319738988,
+      "grad_norm": 0.048682741820812225,
+      "learning_rate": 0.0005827695053962043,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 133017280,
+      "step": 61590
+    },
+    {
+      "epoch": 10.048123980424144,
+      "grad_norm": 0.07136274874210358,
+      "learning_rate": 0.0005826993067857901,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 133027936,
+      "step": 61595
+    },
+    {
+      "epoch": 10.048939641109298,
+      "grad_norm": 0.004224831238389015,
+      "learning_rate": 0.0005826291064993695,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 133039200,
+      "step": 61600
+    },
+    {
+      "epoch": 10.049755301794454,
+      "grad_norm": 0.32198604941368103,
+      "learning_rate": 0.0005825589045383654,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 133050528,
+      "step": 61605
+    },
+    {
+      "epoch": 10.05057096247961,
+      "grad_norm": 0.054331421852111816,
+      "learning_rate": 0.0005824887009042002,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 133061248,
+      "step": 61610
+    },
+    {
+      "epoch": 10.051386623164763,
+      "grad_norm": 0.10078129172325134,
+      "learning_rate": 0.0005824184955982967,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 133072544,
+      "step": 61615
+    },
+    {
+      "epoch": 10.052202283849919,
+      "grad_norm": 0.0027622587513178587,
+      "learning_rate": 0.000582348288622078,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 133083616,
+      "step": 61620
+    },
+    {
+      "epoch": 10.053017944535073,
+      "grad_norm": 0.03783497214317322,
+      "learning_rate": 0.0005822780799769667,
+      "loss": 0.006,
+      "num_input_tokens_seen": 133094912,
+      "step": 61625
+    },
+    {
+      "epoch": 10.053833605220229,
+      "grad_norm": 0.06255345791578293,
+      "learning_rate": 0.0005822078696643859,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 133106048,
+      "step": 61630
+    },
+    {
+      "epoch": 10.054649265905383,
+      "grad_norm": 0.02925264462828636,
+      "learning_rate": 0.0005821376576857582,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 133116640,
+      "step": 61635
+    },
+    {
+      "epoch": 10.055464926590538,
+      "grad_norm": 0.014886287972331047,
+      "learning_rate": 0.0005820674440425067,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 133127104,
+      "step": 61640
+    },
+    {
+      "epoch": 10.056280587275694,
+      "grad_norm": 0.08674079179763794,
+      "learning_rate": 0.0005819972287360543,
+      "loss": 0.0493,
+      "num_input_tokens_seen": 133138336,
+      "step": 61645
+    },
+    {
+      "epoch": 10.057096247960848,
+      "grad_norm": 0.03542179614305496,
+      "learning_rate": 0.0005819270117678239,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 133147904,
+      "step": 61650
+    },
+    {
+      "epoch": 10.057911908646004,
+      "grad_norm": 0.3200596868991852,
+      "learning_rate": 0.0005818567931392389,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 133158528,
+      "step": 61655
+    },
+    {
+      "epoch": 10.058727569331158,
+      "grad_norm": 0.0011431258171796799,
+      "learning_rate": 0.000581786572851722,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 133169472,
+      "step": 61660
+    },
+    {
+      "epoch": 10.059543230016313,
+      "grad_norm": 0.011449893936514854,
+      "learning_rate": 0.0005817163509066966,
+      "loss": 0.009,
+      "num_input_tokens_seen": 133178880,
+      "step": 61665
+    },
+    {
+      "epoch": 10.060358890701469,
+      "grad_norm": 0.11256249994039536,
+      "learning_rate": 0.0005816461273055857,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 133190464,
+      "step": 61670
+    },
+    {
+      "epoch": 10.061174551386623,
+      "grad_norm": 0.11716876924037933,
+      "learning_rate": 0.0005815759020498122,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 133201920,
+      "step": 61675
+    },
+    {
+      "epoch": 10.061990212071779,
+      "grad_norm": 0.04273887351155281,
+      "learning_rate": 0.0005815056751407999,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 133211648,
+      "step": 61680
+    },
+    {
+      "epoch": 10.062805872756933,
+      "grad_norm": 0.006083001848310232,
+      "learning_rate": 0.0005814354465799715,
+      "loss": 0.1231,
+      "num_input_tokens_seen": 133223072,
+      "step": 61685
+    },
+    {
+      "epoch": 10.063621533442088,
+      "grad_norm": 0.0192166268825531,
+      "learning_rate": 0.0005813652163687504,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 133234784,
+      "step": 61690
+    },
+    {
+      "epoch": 10.064437194127244,
+      "grad_norm": 0.00653346860781312,
+      "learning_rate": 0.0005812949845085601,
+      "loss": 0.2327,
+      "num_input_tokens_seen": 133245504,
+      "step": 61695
+    },
+    {
+      "epoch": 10.065252854812398,
+      "grad_norm": 0.012311974540352821,
+      "learning_rate": 0.0005812247510008238,
+      "loss": 0.1,
+      "num_input_tokens_seen": 133255136,
+      "step": 61700
+    },
+    {
+      "epoch": 10.066068515497554,
+      "grad_norm": 0.1300489455461502,
+      "learning_rate": 0.0005811545158469649,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 133267680,
+      "step": 61705
+    },
+    {
+      "epoch": 10.066884176182707,
+      "grad_norm": 0.6340866684913635,
+      "learning_rate": 0.0005810842790484066,
+      "loss": 0.2703,
+      "num_input_tokens_seen": 133279168,
+      "step": 61710
+    },
+    {
+      "epoch": 10.067699836867863,
+      "grad_norm": 0.026448015123605728,
+      "learning_rate": 0.0005810140406065727,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 133289632,
+      "step": 61715
+    },
+    {
+      "epoch": 10.068515497553017,
+      "grad_norm": 0.08431733399629593,
+      "learning_rate": 0.0005809438005228866,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 133300704,
+      "step": 61720
+    },
+    {
+      "epoch": 10.069331158238173,
+      "grad_norm": 0.008198346011340618,
+      "learning_rate": 0.0005808735587987714,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 133311936,
+      "step": 61725
+    },
+    {
+      "epoch": 10.070146818923329,
+      "grad_norm": 0.06876257807016373,
+      "learning_rate": 0.0005808033154356511,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 133322688,
+      "step": 61730
+    },
+    {
+      "epoch": 10.070962479608482,
+      "grad_norm": 0.03216838836669922,
+      "learning_rate": 0.0005807330704349492,
+      "loss": 0.069,
+      "num_input_tokens_seen": 133334304,
+      "step": 61735
+    },
+    {
+      "epoch": 10.071778140293638,
+      "grad_norm": 0.009478418156504631,
+      "learning_rate": 0.0005806628237980891,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 133345568,
+      "step": 61740
+    },
+    {
+      "epoch": 10.072593800978792,
+      "grad_norm": 0.02647106908261776,
+      "learning_rate": 0.0005805925755264945,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 133357472,
+      "step": 61745
+    },
+    {
+      "epoch": 10.073409461663948,
+      "grad_norm": 0.005002718418836594,
+      "learning_rate": 0.0005805223256215891,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 133367712,
+      "step": 61750
+    },
+    {
+      "epoch": 10.074225122349104,
+      "grad_norm": 0.014104902744293213,
+      "learning_rate": 0.0005804520740847966,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 133379840,
+      "step": 61755
+    },
+    {
+      "epoch": 10.075040783034257,
+      "grad_norm": 0.2684130072593689,
+      "learning_rate": 0.0005803818209175409,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 133390688,
+      "step": 61760
+    },
+    {
+      "epoch": 10.075856443719413,
+      "grad_norm": 0.010500526987016201,
+      "learning_rate": 0.0005803115661212456,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 133401632,
+      "step": 61765
+    },
+    {
+      "epoch": 10.076672104404567,
+      "grad_norm": 0.008303754031658173,
+      "learning_rate": 0.0005802413096973345,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 133411808,
+      "step": 61770
+    },
+    {
+      "epoch": 10.077487765089723,
+      "grad_norm": 0.03415251150727272,
+      "learning_rate": 0.0005801710516472315,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 133423616,
+      "step": 61775
+    },
+    {
+      "epoch": 10.078303425774878,
+      "grad_norm": 0.0074006495997309685,
+      "learning_rate": 0.0005801007919723605,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 133435424,
+      "step": 61780
+    },
+    {
+      "epoch": 10.079119086460032,
+      "grad_norm": 0.002399343764409423,
+      "learning_rate": 0.000580030530674145,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 133445472,
+      "step": 61785
+    },
+    {
+      "epoch": 10.079934747145188,
+      "grad_norm": 0.28245264291763306,
+      "learning_rate": 0.0005799602677540095,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 133459008,
+      "step": 61790
+    },
+    {
+      "epoch": 10.080750407830342,
+      "grad_norm": 0.023097572848200798,
+      "learning_rate": 0.0005798900032133778,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 133469440,
+      "step": 61795
+    },
+    {
+      "epoch": 10.081566068515498,
+      "grad_norm": 0.09736547619104385,
+      "learning_rate": 0.0005798197370536737,
+      "loss": 0.0638,
+      "num_input_tokens_seen": 133480832,
+      "step": 61800
+    },
+    {
+      "epoch": 10.082381729200652,
+      "grad_norm": 0.1749315857887268,
+      "learning_rate": 0.0005797494692763215,
+      "loss": 0.0504,
+      "num_input_tokens_seen": 133491552,
+      "step": 61805
+    },
+    {
+      "epoch": 10.083197389885807,
+      "grad_norm": 0.026390263810753822,
+      "learning_rate": 0.0005796791998827451,
+      "loss": 0.1452,
+      "num_input_tokens_seen": 133502720,
+      "step": 61810
+    },
+    {
+      "epoch": 10.084013050570963,
+      "grad_norm": 0.0233746450394392,
+      "learning_rate": 0.0005796089288743687,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 133511936,
+      "step": 61815
+    },
+    {
+      "epoch": 10.084828711256117,
+      "grad_norm": 0.029851028695702553,
+      "learning_rate": 0.0005795386562526163,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 133522432,
+      "step": 61820
+    },
+    {
+      "epoch": 10.085644371941273,
+      "grad_norm": 0.007268915418535471,
+      "learning_rate": 0.000579468382018912,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 133533184,
+      "step": 61825
+    },
+    {
+      "epoch": 10.086460032626427,
+      "grad_norm": 0.033539608120918274,
+      "learning_rate": 0.0005793981061746802,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 133544352,
+      "step": 61830
+    },
+    {
+      "epoch": 10.087275693311582,
+      "grad_norm": 0.006324341986328363,
+      "learning_rate": 0.0005793278287213453,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 133554944,
+      "step": 61835
+    },
+    {
+      "epoch": 10.088091353996738,
+      "grad_norm": 0.28266897797584534,
+      "learning_rate": 0.000579257549660331,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 133566048,
+      "step": 61840
+    },
+    {
+      "epoch": 10.088907014681892,
+      "grad_norm": 0.01207935530692339,
+      "learning_rate": 0.0005791872689930621,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 133577760,
+      "step": 61845
+    },
+    {
+      "epoch": 10.089722675367048,
+      "grad_norm": 0.019263241440057755,
+      "learning_rate": 0.0005791169867209626,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 133587424,
+      "step": 61850
+    },
+    {
+      "epoch": 10.090538336052202,
+      "grad_norm": 0.001974908635020256,
+      "learning_rate": 0.0005790467028454571,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 133597024,
+      "step": 61855
+    },
+    {
+      "epoch": 10.091353996737357,
+      "grad_norm": 0.13980016112327576,
+      "learning_rate": 0.0005789764173679698,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 133608704,
+      "step": 61860
+    },
+    {
+      "epoch": 10.092169657422513,
+      "grad_norm": 0.01586383581161499,
+      "learning_rate": 0.0005789061302899252,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 133617504,
+      "step": 61865
+    },
+    {
+      "epoch": 10.092985318107667,
+      "grad_norm": 0.007646430283784866,
+      "learning_rate": 0.0005788358416127478,
+      "loss": 0.1635,
+      "num_input_tokens_seen": 133628448,
+      "step": 61870
+    },
+    {
+      "epoch": 10.093800978792823,
+      "grad_norm": 0.02338665910065174,
+      "learning_rate": 0.0005787655513378622,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 133639328,
+      "step": 61875
+    },
+    {
+      "epoch": 10.094616639477977,
+      "grad_norm": 0.04463246837258339,
+      "learning_rate": 0.0005786952594666925,
+      "loss": 0.008,
+      "num_input_tokens_seen": 133649568,
+      "step": 61880
+    },
+    {
+      "epoch": 10.095432300163132,
+      "grad_norm": 0.17297907173633575,
+      "learning_rate": 0.0005786249660006638,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 133660384,
+      "step": 61885
+    },
+    {
+      "epoch": 10.096247960848286,
+      "grad_norm": 0.0007581968093290925,
+      "learning_rate": 0.0005785546709412004,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 133671232,
+      "step": 61890
+    },
+    {
+      "epoch": 10.097063621533442,
+      "grad_norm": 0.007879073731601238,
+      "learning_rate": 0.0005784843742897268,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 133682080,
+      "step": 61895
+    },
+    {
+      "epoch": 10.097879282218598,
+      "grad_norm": 0.380930095911026,
+      "learning_rate": 0.0005784140760476679,
+      "loss": 0.1592,
+      "num_input_tokens_seen": 133692896,
+      "step": 61900
+    },
+    {
+      "epoch": 10.098694942903752,
+      "grad_norm": 0.017733553424477577,
+      "learning_rate": 0.0005783437762164483,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 133702944,
+      "step": 61905
+    },
+    {
+      "epoch": 10.099510603588907,
+      "grad_norm": 0.015353784896433353,
+      "learning_rate": 0.0005782734747974926,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 133714208,
+      "step": 61910
+    },
+    {
+      "epoch": 10.100326264274061,
+      "grad_norm": 0.004601314663887024,
+      "learning_rate": 0.0005782031717922256,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 133725248,
+      "step": 61915
+    },
+    {
+      "epoch": 10.101141924959217,
+      "grad_norm": 0.005082305055111647,
+      "learning_rate": 0.0005781328672020723,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 133736224,
+      "step": 61920
+    },
+    {
+      "epoch": 10.101957585644373,
+      "grad_norm": 0.07641912996768951,
+      "learning_rate": 0.0005780625610284572,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 133747040,
+      "step": 61925
+    },
+    {
+      "epoch": 10.102773246329527,
+      "grad_norm": 0.1645813286304474,
+      "learning_rate": 0.000577992253272805,
+      "loss": 0.1875,
+      "num_input_tokens_seen": 133756896,
+      "step": 61930
+    },
+    {
+      "epoch": 10.103588907014682,
+      "grad_norm": 0.3278946280479431,
+      "learning_rate": 0.0005779219439365411,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 133766720,
+      "step": 61935
+    },
+    {
+      "epoch": 10.104404567699836,
+      "grad_norm": 0.01809718646109104,
+      "learning_rate": 0.0005778516330210902,
+      "loss": 0.026,
+      "num_input_tokens_seen": 133778240,
+      "step": 61940
+    },
+    {
+      "epoch": 10.105220228384992,
+      "grad_norm": 0.006549215409904718,
+      "learning_rate": 0.0005777813205278772,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 133788352,
+      "step": 61945
+    },
+    {
+      "epoch": 10.106035889070148,
+      "grad_norm": 0.002958184340968728,
+      "learning_rate": 0.0005777110064583271,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 133798304,
+      "step": 61950
+    },
+    {
+      "epoch": 10.106851549755302,
+      "grad_norm": 0.003981069661676884,
+      "learning_rate": 0.0005776406908138648,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 133809728,
+      "step": 61955
+    },
+    {
+      "epoch": 10.107667210440457,
+      "grad_norm": 0.04357610270380974,
+      "learning_rate": 0.0005775703735959155,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 133820608,
+      "step": 61960
+    },
+    {
+      "epoch": 10.108482871125611,
+      "grad_norm": 0.3853638470172882,
+      "learning_rate": 0.000577500054805904,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 133831904,
+      "step": 61965
+    },
+    {
+      "epoch": 10.109298531810767,
+      "grad_norm": 0.005354811903089285,
+      "learning_rate": 0.0005774297344452556,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 133843392,
+      "step": 61970
+    },
+    {
+      "epoch": 10.11011419249592,
+      "grad_norm": 0.05633273720741272,
+      "learning_rate": 0.0005773594125153955,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 133855008,
+      "step": 61975
+    },
+    {
+      "epoch": 10.110929853181077,
+      "grad_norm": 0.015436145476996899,
+      "learning_rate": 0.0005772890890177487,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 133866304,
+      "step": 61980
+    },
+    {
+      "epoch": 10.111745513866232,
+      "grad_norm": 0.25812065601348877,
+      "learning_rate": 0.0005772187639537405,
+      "loss": 0.1369,
+      "num_input_tokens_seen": 133877952,
+      "step": 61985
+    },
+    {
+      "epoch": 10.112561174551386,
+      "grad_norm": 0.03582283854484558,
+      "learning_rate": 0.000577148437324796,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 133888800,
+      "step": 61990
+    },
+    {
+      "epoch": 10.113376835236542,
+      "grad_norm": 0.004719121847301722,
+      "learning_rate": 0.0005770781091323407,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 133900448,
+      "step": 61995
+    },
+    {
+      "epoch": 10.114192495921696,
+      "grad_norm": 0.0029625471215695143,
+      "learning_rate": 0.0005770077793777996,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 133910304,
+      "step": 62000
+    },
+    {
+      "epoch": 10.115008156606851,
+      "grad_norm": 0.006111313123255968,
+      "learning_rate": 0.0005769374480625983,
+      "loss": 0.1681,
+      "num_input_tokens_seen": 133920640,
+      "step": 62005
+    },
+    {
+      "epoch": 10.115823817292007,
+      "grad_norm": 0.018650345504283905,
+      "learning_rate": 0.000576867115188162,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 133932800,
+      "step": 62010
+    },
+    {
+      "epoch": 10.116639477977161,
+      "grad_norm": 0.002345480490475893,
+      "learning_rate": 0.000576796780755916,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 133944608,
+      "step": 62015
+    },
+    {
+      "epoch": 10.117455138662317,
+      "grad_norm": 0.0071258461102843285,
+      "learning_rate": 0.0005767264447672859,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 133956352,
+      "step": 62020
+    },
+    {
+      "epoch": 10.11827079934747,
+      "grad_norm": 0.020247265696525574,
+      "learning_rate": 0.000576656107223697,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 133967200,
+      "step": 62025
+    },
+    {
+      "epoch": 10.119086460032626,
+      "grad_norm": 0.006692581344395876,
+      "learning_rate": 0.0005765857681265749,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 133977216,
+      "step": 62030
+    },
+    {
+      "epoch": 10.119902120717782,
+      "grad_norm": 0.04609968885779381,
+      "learning_rate": 0.000576515427477345,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 133988256,
+      "step": 62035
+    },
+    {
+      "epoch": 10.120717781402936,
+      "grad_norm": 0.016456104815006256,
+      "learning_rate": 0.0005764450852774329,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 134000160,
+      "step": 62040
+    },
+    {
+      "epoch": 10.121533442088092,
+      "grad_norm": 0.01033777091652155,
+      "learning_rate": 0.0005763747415282642,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 134010368,
+      "step": 62045
+    },
+    {
+      "epoch": 10.122349102773246,
+      "grad_norm": 0.2594705820083618,
+      "learning_rate": 0.0005763043962312644,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 134020576,
+      "step": 62050
+    },
+    {
+      "epoch": 10.123164763458401,
+      "grad_norm": 0.0942777767777443,
+      "learning_rate": 0.0005762340493878593,
+      "loss": 0.095,
+      "num_input_tokens_seen": 134030656,
+      "step": 62055
+    },
+    {
+      "epoch": 10.123980424143557,
+      "grad_norm": 0.013030118308961391,
+      "learning_rate": 0.0005761637009994745,
+      "loss": 0.0844,
+      "num_input_tokens_seen": 134042176,
+      "step": 62060
+    },
+    {
+      "epoch": 10.124796084828711,
+      "grad_norm": 0.001847845152951777,
+      "learning_rate": 0.0005760933510675356,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 134052736,
+      "step": 62065
+    },
+    {
+      "epoch": 10.125611745513867,
+      "grad_norm": 0.019251855090260506,
+      "learning_rate": 0.0005760229995934684,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 134064032,
+      "step": 62070
+    },
+    {
+      "epoch": 10.12642740619902,
+      "grad_norm": 0.07578039169311523,
+      "learning_rate": 0.0005759526465786986,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 134075936,
+      "step": 62075
+    },
+    {
+      "epoch": 10.127243066884176,
+      "grad_norm": 0.027117077261209488,
+      "learning_rate": 0.0005758822920246523,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 134086560,
+      "step": 62080
+    },
+    {
+      "epoch": 10.12805872756933,
+      "grad_norm": 0.0019536991603672504,
+      "learning_rate": 0.000575811935932755,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 134097728,
+      "step": 62085
+    },
+    {
+      "epoch": 10.128874388254486,
+      "grad_norm": 0.00918999221175909,
+      "learning_rate": 0.0005757415783044325,
+      "loss": 0.027,
+      "num_input_tokens_seen": 134107712,
+      "step": 62090
+    },
+    {
+      "epoch": 10.129690048939642,
+      "grad_norm": 0.029966186732053757,
+      "learning_rate": 0.0005756712191411109,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 134119456,
+      "step": 62095
+    },
+    {
+      "epoch": 10.130505709624796,
+      "grad_norm": 0.3509294390678406,
+      "learning_rate": 0.0005756008584442161,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 134129696,
+      "step": 62100
+    },
+    {
+      "epoch": 10.131321370309951,
+      "grad_norm": 0.08585608005523682,
+      "learning_rate": 0.0005755304962151739,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 134140096,
+      "step": 62105
+    },
+    {
+      "epoch": 10.132137030995105,
+      "grad_norm": 0.0772661566734314,
+      "learning_rate": 0.0005754601324554104,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 134151232,
+      "step": 62110
+    },
+    {
+      "epoch": 10.132952691680261,
+      "grad_norm": 0.002000660402700305,
+      "learning_rate": 0.0005753897671663518,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 134161920,
+      "step": 62115
+    },
+    {
+      "epoch": 10.133768352365417,
+      "grad_norm": 0.06940358877182007,
+      "learning_rate": 0.0005753194003494237,
+      "loss": 0.025,
+      "num_input_tokens_seen": 134172448,
+      "step": 62120
+    },
+    {
+      "epoch": 10.13458401305057,
+      "grad_norm": 0.031187528744339943,
+      "learning_rate": 0.0005752490320060524,
+      "loss": 0.023,
+      "num_input_tokens_seen": 134182944,
+      "step": 62125
+    },
+    {
+      "epoch": 10.135399673735726,
+      "grad_norm": 0.00791481975466013,
+      "learning_rate": 0.0005751786621376641,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 134194176,
+      "step": 62130
+    },
+    {
+      "epoch": 10.13621533442088,
+      "grad_norm": 0.03876109793782234,
+      "learning_rate": 0.0005751082907456849,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 134205344,
+      "step": 62135
+    },
+    {
+      "epoch": 10.137030995106036,
+      "grad_norm": 0.01723620668053627,
+      "learning_rate": 0.0005750379178315408,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 134216032,
+      "step": 62140
+    },
+    {
+      "epoch": 10.137846655791192,
+      "grad_norm": 0.059835128486156464,
+      "learning_rate": 0.0005749675433966581,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 134227840,
+      "step": 62145
+    },
+    {
+      "epoch": 10.138662316476346,
+      "grad_norm": 0.0036580360028892756,
+      "learning_rate": 0.0005748971674424631,
+      "loss": 0.122,
+      "num_input_tokens_seen": 134237888,
+      "step": 62150
+    },
+    {
+      "epoch": 10.139477977161501,
+      "grad_norm": 0.09279145300388336,
+      "learning_rate": 0.0005748267899703819,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 134249568,
+      "step": 62155
+    },
+    {
+      "epoch": 10.140293637846655,
+      "grad_norm": 0.00488590681925416,
+      "learning_rate": 0.000574756410981841,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 134260736,
+      "step": 62160
+    },
+    {
+      "epoch": 10.141109298531811,
+      "grad_norm": 0.03295081481337547,
+      "learning_rate": 0.0005746860304782665,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 134270784,
+      "step": 62165
+    },
+    {
+      "epoch": 10.141924959216965,
+      "grad_norm": 0.048429399728775024,
+      "learning_rate": 0.0005746156484610849,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 134280928,
+      "step": 62170
+    },
+    {
+      "epoch": 10.14274061990212,
+      "grad_norm": 0.004736216738820076,
+      "learning_rate": 0.0005745452649317225,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 134292352,
+      "step": 62175
+    },
+    {
+      "epoch": 10.143556280587276,
+      "grad_norm": 0.021222488954663277,
+      "learning_rate": 0.0005744748798916057,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 134302880,
+      "step": 62180
+    },
+    {
+      "epoch": 10.14437194127243,
+      "grad_norm": 0.003893442451953888,
+      "learning_rate": 0.0005744044933421609,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 134314240,
+      "step": 62185
+    },
+    {
+      "epoch": 10.145187601957586,
+      "grad_norm": 0.004684086889028549,
+      "learning_rate": 0.0005743341052848147,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 134326144,
+      "step": 62190
+    },
+    {
+      "epoch": 10.14600326264274,
+      "grad_norm": 0.0026035832706838846,
+      "learning_rate": 0.0005742637157209936,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 134335808,
+      "step": 62195
+    },
+    {
+      "epoch": 10.146818923327896,
+      "grad_norm": 0.0014494028873741627,
+      "learning_rate": 0.0005741933246521243,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 134347072,
+      "step": 62200
+    },
+    {
+      "epoch": 10.147634584013051,
+      "grad_norm": 0.032787173986434937,
+      "learning_rate": 0.0005741229320796329,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 134358080,
+      "step": 62205
+    },
+    {
+      "epoch": 10.148450244698205,
+      "grad_norm": 0.019167525693774223,
+      "learning_rate": 0.0005740525380049464,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 134369504,
+      "step": 62210
+    },
+    {
+      "epoch": 10.149265905383361,
+      "grad_norm": 0.031887758523225784,
+      "learning_rate": 0.0005739821424294911,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 134379008,
+      "step": 62215
+    },
+    {
+      "epoch": 10.150081566068515,
+      "grad_norm": 0.018726017326116562,
+      "learning_rate": 0.000573911745354694,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 134390624,
+      "step": 62220
+    },
+    {
+      "epoch": 10.15089722675367,
+      "grad_norm": 0.15560075640678406,
+      "learning_rate": 0.0005738413467819816,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 134402304,
+      "step": 62225
+    },
+    {
+      "epoch": 10.151712887438826,
+      "grad_norm": 0.026487508788704872,
+      "learning_rate": 0.0005737709467127805,
+      "loss": 0.1375,
+      "num_input_tokens_seen": 134412320,
+      "step": 62230
+    },
+    {
+      "epoch": 10.15252854812398,
+      "grad_norm": 0.023451926186680794,
+      "learning_rate": 0.0005737005451485177,
+      "loss": 0.1566,
+      "num_input_tokens_seen": 134423072,
+      "step": 62235
+    },
+    {
+      "epoch": 10.153344208809136,
+      "grad_norm": 0.04784998297691345,
+      "learning_rate": 0.0005736301420906196,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 134434880,
+      "step": 62240
+    },
+    {
+      "epoch": 10.15415986949429,
+      "grad_norm": 0.25198274850845337,
+      "learning_rate": 0.0005735597375405135,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 134446688,
+      "step": 62245
+    },
+    {
+      "epoch": 10.154975530179446,
+      "grad_norm": 0.10130038857460022,
+      "learning_rate": 0.000573489331499626,
+      "loss": 0.2152,
+      "num_input_tokens_seen": 134457632,
+      "step": 62250
+    },
+    {
+      "epoch": 10.1557911908646,
+      "grad_norm": 0.011092791333794594,
+      "learning_rate": 0.000573418923969384,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 134467456,
+      "step": 62255
+    },
+    {
+      "epoch": 10.156606851549755,
+      "grad_norm": 0.03461114689707756,
+      "learning_rate": 0.0005733485149512143,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 134478880,
+      "step": 62260
+    },
+    {
+      "epoch": 10.15742251223491,
+      "grad_norm": 0.47994375228881836,
+      "learning_rate": 0.000573278104446544,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 134490912,
+      "step": 62265
+    },
+    {
+      "epoch": 10.158238172920065,
+      "grad_norm": 0.013990727253258228,
+      "learning_rate": 0.0005732076924567999,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 134499872,
+      "step": 62270
+    },
+    {
+      "epoch": 10.15905383360522,
+      "grad_norm": 0.007365802302956581,
+      "learning_rate": 0.0005731372789834089,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 134510944,
+      "step": 62275
+    },
+    {
+      "epoch": 10.159869494290374,
+      "grad_norm": 0.010104432702064514,
+      "learning_rate": 0.0005730668640277983,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 134522464,
+      "step": 62280
+    },
+    {
+      "epoch": 10.16068515497553,
+      "grad_norm": 0.026980755850672722,
+      "learning_rate": 0.0005729964475913949,
+      "loss": 0.157,
+      "num_input_tokens_seen": 134532992,
+      "step": 62285
+    },
+    {
+      "epoch": 10.161500815660686,
+      "grad_norm": 0.003204572247341275,
+      "learning_rate": 0.0005729260296756259,
+      "loss": 0.1405,
+      "num_input_tokens_seen": 134542688,
+      "step": 62290
+    },
+    {
+      "epoch": 10.16231647634584,
+      "grad_norm": 0.13098019361495972,
+      "learning_rate": 0.0005728556102819185,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 134553888,
+      "step": 62295
+    },
+    {
+      "epoch": 10.163132137030995,
+      "grad_norm": 0.0058778622187674046,
+      "learning_rate": 0.0005727851894116997,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 134565088,
+      "step": 62300
+    },
+    {
+      "epoch": 10.16394779771615,
+      "grad_norm": 0.017019178718328476,
+      "learning_rate": 0.0005727147670663967,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 134574080,
+      "step": 62305
+    },
+    {
+      "epoch": 10.164763458401305,
+      "grad_norm": 0.007292016409337521,
+      "learning_rate": 0.0005726443432474366,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 134585536,
+      "step": 62310
+    },
+    {
+      "epoch": 10.16557911908646,
+      "grad_norm": 0.002903412329033017,
+      "learning_rate": 0.0005725739179562469,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 134596512,
+      "step": 62315
+    },
+    {
+      "epoch": 10.166394779771615,
+      "grad_norm": 0.06075170263648033,
+      "learning_rate": 0.0005725034911942546,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 134608192,
+      "step": 62320
+    },
+    {
+      "epoch": 10.16721044045677,
+      "grad_norm": 0.15462207794189453,
+      "learning_rate": 0.0005724330629628871,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 134618688,
+      "step": 62325
+    },
+    {
+      "epoch": 10.168026101141924,
+      "grad_norm": 0.015479236841201782,
+      "learning_rate": 0.0005723626332635717,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 134628128,
+      "step": 62330
+    },
+    {
+      "epoch": 10.16884176182708,
+      "grad_norm": 0.010428624227643013,
+      "learning_rate": 0.0005722922020977356,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 134639200,
+      "step": 62335
+    },
+    {
+      "epoch": 10.169657422512234,
+      "grad_norm": 0.00993596762418747,
+      "learning_rate": 0.0005722217694668065,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 134648192,
+      "step": 62340
+    },
+    {
+      "epoch": 10.17047308319739,
+      "grad_norm": 0.2954118549823761,
+      "learning_rate": 0.0005721513353722116,
+      "loss": 0.1768,
+      "num_input_tokens_seen": 134658784,
+      "step": 62345
+    },
+    {
+      "epoch": 10.171288743882545,
+      "grad_norm": 0.34019842743873596,
+      "learning_rate": 0.0005720808998153782,
+      "loss": 0.031,
+      "num_input_tokens_seen": 134670496,
+      "step": 62350
+    },
+    {
+      "epoch": 10.1721044045677,
+      "grad_norm": 0.055857911705970764,
+      "learning_rate": 0.000572010462797734,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 134682272,
+      "step": 62355
+    },
+    {
+      "epoch": 10.172920065252855,
+      "grad_norm": 0.0796642005443573,
+      "learning_rate": 0.0005719400243207065,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 134695008,
+      "step": 62360
+    },
+    {
+      "epoch": 10.173735725938009,
+      "grad_norm": 0.051125604659318924,
+      "learning_rate": 0.0005718695843857231,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 134706144,
+      "step": 62365
+    },
+    {
+      "epoch": 10.174551386623165,
+      "grad_norm": 0.6277033686637878,
+      "learning_rate": 0.0005717991429942114,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 134716896,
+      "step": 62370
+    },
+    {
+      "epoch": 10.17536704730832,
+      "grad_norm": 0.1190236285328865,
+      "learning_rate": 0.000571728700147599,
+      "loss": 0.1365,
+      "num_input_tokens_seen": 134726368,
+      "step": 62375
+    },
+    {
+      "epoch": 10.176182707993474,
+      "grad_norm": 0.5035422444343567,
+      "learning_rate": 0.0005716582558473136,
+      "loss": 0.054,
+      "num_input_tokens_seen": 134737568,
+      "step": 62380
+    },
+    {
+      "epoch": 10.17699836867863,
+      "grad_norm": 0.10199093073606491,
+      "learning_rate": 0.0005715878100947824,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 134747168,
+      "step": 62385
+    },
+    {
+      "epoch": 10.177814029363784,
+      "grad_norm": 0.09676895290613174,
+      "learning_rate": 0.0005715173628914336,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 134758464,
+      "step": 62390
+    },
+    {
+      "epoch": 10.17862969004894,
+      "grad_norm": 0.040533117949962616,
+      "learning_rate": 0.0005714469142386948,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 134769760,
+      "step": 62395
+    },
+    {
+      "epoch": 10.179445350734095,
+      "grad_norm": 0.05296805128455162,
+      "learning_rate": 0.0005713764641379936,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 134780896,
+      "step": 62400
+    },
+    {
+      "epoch": 10.18026101141925,
+      "grad_norm": 0.03004343807697296,
+      "learning_rate": 0.0005713060125907578,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 134790624,
+      "step": 62405
+    },
+    {
+      "epoch": 10.181076672104405,
+      "grad_norm": 0.009422010742127895,
+      "learning_rate": 0.0005712355595984151,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 134801952,
+      "step": 62410
+    },
+    {
+      "epoch": 10.181892332789559,
+      "grad_norm": 0.009660206735134125,
+      "learning_rate": 0.0005711651051623935,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 134813472,
+      "step": 62415
+    },
+    {
+      "epoch": 10.182707993474715,
+      "grad_norm": 0.07207388430833817,
+      "learning_rate": 0.0005710946492841208,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 134824512,
+      "step": 62420
+    },
+    {
+      "epoch": 10.18352365415987,
+      "grad_norm": 0.05100369080901146,
+      "learning_rate": 0.0005710241919650248,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 134834816,
+      "step": 62425
+    },
+    {
+      "epoch": 10.184339314845024,
+      "grad_norm": 0.3938085436820984,
+      "learning_rate": 0.0005709537332065335,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 134845280,
+      "step": 62430
+    },
+    {
+      "epoch": 10.18515497553018,
+      "grad_norm": 0.007621200289577246,
+      "learning_rate": 0.0005708832730100747,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 134855744,
+      "step": 62435
+    },
+    {
+      "epoch": 10.185970636215334,
+      "grad_norm": 0.12467098236083984,
+      "learning_rate": 0.0005708128113770765,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 134865568,
+      "step": 62440
+    },
+    {
+      "epoch": 10.18678629690049,
+      "grad_norm": 0.007261715363711119,
+      "learning_rate": 0.0005707423483089669,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 134877344,
+      "step": 62445
+    },
+    {
+      "epoch": 10.187601957585644,
+      "grad_norm": 0.11845030635595322,
+      "learning_rate": 0.0005706718838071738,
+      "loss": 0.1115,
+      "num_input_tokens_seen": 134888896,
+      "step": 62450
+    },
+    {
+      "epoch": 10.1884176182708,
+      "grad_norm": 0.002159345429390669,
+      "learning_rate": 0.0005706014178731253,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 134900000,
+      "step": 62455
+    },
+    {
+      "epoch": 10.189233278955955,
+      "grad_norm": 0.0020519730169326067,
+      "learning_rate": 0.0005705309505082496,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 134909568,
+      "step": 62460
+    },
+    {
+      "epoch": 10.190048939641109,
+      "grad_norm": 0.1217883750796318,
+      "learning_rate": 0.0005704604817139747,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 134920704,
+      "step": 62465
+    },
+    {
+      "epoch": 10.190864600326265,
+      "grad_norm": 0.011312576942145824,
+      "learning_rate": 0.0005703900114917286,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 134932736,
+      "step": 62470
+    },
+    {
+      "epoch": 10.191680261011419,
+      "grad_norm": 0.004563915077596903,
+      "learning_rate": 0.0005703195398429397,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 134943616,
+      "step": 62475
+    },
+    {
+      "epoch": 10.192495921696574,
+      "grad_norm": 0.10664792358875275,
+      "learning_rate": 0.0005702490667690363,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 134954560,
+      "step": 62480
+    },
+    {
+      "epoch": 10.19331158238173,
+      "grad_norm": 0.212308868765831,
+      "learning_rate": 0.0005701785922714461,
+      "loss": 0.1525,
+      "num_input_tokens_seen": 134964192,
+      "step": 62485
+    },
+    {
+      "epoch": 10.194127243066884,
+      "grad_norm": 0.04527709260582924,
+      "learning_rate": 0.000570108116351598,
+      "loss": 0.036,
+      "num_input_tokens_seen": 134974976,
+      "step": 62490
+    },
+    {
+      "epoch": 10.19494290375204,
+      "grad_norm": 0.009464547038078308,
+      "learning_rate": 0.0005700376390109198,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 134985696,
+      "step": 62495
+    },
+    {
+      "epoch": 10.195758564437194,
+      "grad_norm": 0.0898800790309906,
+      "learning_rate": 0.00056996716025084,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 134996736,
+      "step": 62500
+    },
+    {
+      "epoch": 10.19657422512235,
+      "grad_norm": 0.05027703940868378,
+      "learning_rate": 0.000569896680072787,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 135005856,
+      "step": 62505
+    },
+    {
+      "epoch": 10.197389885807505,
+      "grad_norm": 0.06976497173309326,
+      "learning_rate": 0.0005698261984781891,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 135018400,
+      "step": 62510
+    },
+    {
+      "epoch": 10.198205546492659,
+      "grad_norm": 0.0337468683719635,
+      "learning_rate": 0.0005697557154684749,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 135028448,
+      "step": 62515
+    },
+    {
+      "epoch": 10.199021207177815,
+      "grad_norm": 0.18263459205627441,
+      "learning_rate": 0.0005696852310450723,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 135038080,
+      "step": 62520
+    },
+    {
+      "epoch": 10.199836867862969,
+      "grad_norm": 0.45159977674484253,
+      "learning_rate": 0.0005696147452094102,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 135047392,
+      "step": 62525
+    },
+    {
+      "epoch": 10.200652528548124,
+      "grad_norm": 0.010472620837390423,
+      "learning_rate": 0.000569544257962917,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 135057856,
+      "step": 62530
+    },
+    {
+      "epoch": 10.201468189233278,
+      "grad_norm": 0.06547081470489502,
+      "learning_rate": 0.0005694737693070213,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 135069632,
+      "step": 62535
+    },
+    {
+      "epoch": 10.202283849918434,
+      "grad_norm": 0.005394492298364639,
+      "learning_rate": 0.0005694032792431515,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 135080448,
+      "step": 62540
+    },
+    {
+      "epoch": 10.20309951060359,
+      "grad_norm": 0.00928778387606144,
+      "learning_rate": 0.0005693327877727361,
+      "loss": 0.1307,
+      "num_input_tokens_seen": 135091904,
+      "step": 62545
+    },
+    {
+      "epoch": 10.203915171288743,
+      "grad_norm": 0.003517286153510213,
+      "learning_rate": 0.0005692622948972039,
+      "loss": 0.1866,
+      "num_input_tokens_seen": 135102176,
+      "step": 62550
+    },
+    {
+      "epoch": 10.2047308319739,
+      "grad_norm": 0.008070231415331364,
+      "learning_rate": 0.0005691918006179833,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 135113568,
+      "step": 62555
+    },
+    {
+      "epoch": 10.205546492659053,
+      "grad_norm": 0.021824125200510025,
+      "learning_rate": 0.0005691213049365031,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 135124896,
+      "step": 62560
+    },
+    {
+      "epoch": 10.206362153344209,
+      "grad_norm": 0.12865550816059113,
+      "learning_rate": 0.000569050807854192,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 135136768,
+      "step": 62565
+    },
+    {
+      "epoch": 10.207177814029365,
+      "grad_norm": 0.02046484500169754,
+      "learning_rate": 0.0005689803093724788,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 135147488,
+      "step": 62570
+    },
+    {
+      "epoch": 10.207993474714518,
+      "grad_norm": 0.15102674067020416,
+      "learning_rate": 0.0005689098094927921,
+      "loss": 0.0391,
+      "num_input_tokens_seen": 135158240,
+      "step": 62575
+    },
+    {
+      "epoch": 10.208809135399674,
+      "grad_norm": 0.005512281786650419,
+      "learning_rate": 0.0005688393082165605,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 135169984,
+      "step": 62580
+    },
+    {
+      "epoch": 10.209624796084828,
+      "grad_norm": 0.004724299535155296,
+      "learning_rate": 0.0005687688055452132,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 135180832,
+      "step": 62585
+    },
+    {
+      "epoch": 10.210440456769984,
+      "grad_norm": 0.01652977615594864,
+      "learning_rate": 0.0005686983014801787,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 135191584,
+      "step": 62590
+    },
+    {
+      "epoch": 10.21125611745514,
+      "grad_norm": 0.0027591027319431305,
+      "learning_rate": 0.000568627796022886,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 135202048,
+      "step": 62595
+    },
+    {
+      "epoch": 10.212071778140293,
+      "grad_norm": 0.11414124071598053,
+      "learning_rate": 0.0005685572891747639,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 135212384,
+      "step": 62600
+    },
+    {
+      "epoch": 10.21288743882545,
+      "grad_norm": 0.018032826483249664,
+      "learning_rate": 0.0005684867809372415,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 135223456,
+      "step": 62605
+    },
+    {
+      "epoch": 10.213703099510603,
+      "grad_norm": 0.2531827688217163,
+      "learning_rate": 0.0005684162713117473,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 135235488,
+      "step": 62610
+    },
+    {
+      "epoch": 10.214518760195759,
+      "grad_norm": 0.5033522248268127,
+      "learning_rate": 0.0005683457602997108,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 135245376,
+      "step": 62615
+    },
+    {
+      "epoch": 10.215334420880913,
+      "grad_norm": 0.06980666518211365,
+      "learning_rate": 0.0005682752479025608,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 135255968,
+      "step": 62620
+    },
+    {
+      "epoch": 10.216150081566068,
+      "grad_norm": 0.0026550409384071827,
+      "learning_rate": 0.0005682047341217262,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 135267392,
+      "step": 62625
+    },
+    {
+      "epoch": 10.216965742251224,
+      "grad_norm": 0.23229344189167023,
+      "learning_rate": 0.0005681342189586362,
+      "loss": 0.0303,
+      "num_input_tokens_seen": 135277568,
+      "step": 62630
+    },
+    {
+      "epoch": 10.217781402936378,
+      "grad_norm": 0.19436459243297577,
+      "learning_rate": 0.0005680637024147199,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 135286944,
+      "step": 62635
+    },
+    {
+      "epoch": 10.218597063621534,
+      "grad_norm": 0.008587691932916641,
+      "learning_rate": 0.0005679931844914061,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 135296960,
+      "step": 62640
+    },
+    {
+      "epoch": 10.219412724306688,
+      "grad_norm": 0.5537342429161072,
+      "learning_rate": 0.0005679226651901243,
+      "loss": 0.1044,
+      "num_input_tokens_seen": 135307520,
+      "step": 62645
+    },
+    {
+      "epoch": 10.220228384991843,
+      "grad_norm": 0.17528803646564484,
+      "learning_rate": 0.0005678521445123036,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 135315936,
+      "step": 62650
+    },
+    {
+      "epoch": 10.221044045676999,
+      "grad_norm": 0.0012471231166273355,
+      "learning_rate": 0.0005677816224593731,
+      "loss": 0.029,
+      "num_input_tokens_seen": 135326656,
+      "step": 62655
+    },
+    {
+      "epoch": 10.221859706362153,
+      "grad_norm": 0.7135857343673706,
+      "learning_rate": 0.0005677110990327618,
+      "loss": 0.1871,
+      "num_input_tokens_seen": 135337184,
+      "step": 62660
+    },
+    {
+      "epoch": 10.222675367047309,
+      "grad_norm": 0.4663824141025543,
+      "learning_rate": 0.0005676405742338995,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 135348096,
+      "step": 62665
+    },
+    {
+      "epoch": 10.223491027732463,
+      "grad_norm": 0.010357555001974106,
+      "learning_rate": 0.0005675700480642149,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 135358688,
+      "step": 62670
+    },
+    {
+      "epoch": 10.224306688417618,
+      "grad_norm": 0.002061615465208888,
+      "learning_rate": 0.0005674995205251376,
+      "loss": 0.025,
+      "num_input_tokens_seen": 135367840,
+      "step": 62675
+    },
+    {
+      "epoch": 10.225122349102774,
+      "grad_norm": 0.011426280252635479,
+      "learning_rate": 0.000567428991618097,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 135378336,
+      "step": 62680
+    },
+    {
+      "epoch": 10.225938009787928,
+      "grad_norm": 0.005902221892029047,
+      "learning_rate": 0.0005673584613445223,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 135389312,
+      "step": 62685
+    },
+    {
+      "epoch": 10.226753670473084,
+      "grad_norm": 0.015893463045358658,
+      "learning_rate": 0.000567287929705843,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 135398496,
+      "step": 62690
+    },
+    {
+      "epoch": 10.227569331158238,
+      "grad_norm": 0.3865486979484558,
+      "learning_rate": 0.0005672173967034883,
+      "loss": 0.2104,
+      "num_input_tokens_seen": 135409024,
+      "step": 62695
+    },
+    {
+      "epoch": 10.228384991843393,
+      "grad_norm": 0.0027782840188592672,
+      "learning_rate": 0.0005671468623388878,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 135419168,
+      "step": 62700
+    },
+    {
+      "epoch": 10.229200652528547,
+      "grad_norm": 0.010938719846308231,
+      "learning_rate": 0.000567076326613471,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 135430368,
+      "step": 62705
+    },
+    {
+      "epoch": 10.230016313213703,
+      "grad_norm": 0.027225926518440247,
+      "learning_rate": 0.0005670057895286674,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 135441408,
+      "step": 62710
+    },
+    {
+      "epoch": 10.230831973898859,
+      "grad_norm": 0.09897179901599884,
+      "learning_rate": 0.0005669352510859063,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 135452160,
+      "step": 62715
+    },
+    {
+      "epoch": 10.231647634584013,
+      "grad_norm": 0.021300874650478363,
+      "learning_rate": 0.0005668647112866175,
+      "loss": 0.005,
+      "num_input_tokens_seen": 135463296,
+      "step": 62720
+    },
+    {
+      "epoch": 10.232463295269168,
+      "grad_norm": 0.00661829486489296,
+      "learning_rate": 0.0005667941701322305,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 135473984,
+      "step": 62725
+    },
+    {
+      "epoch": 10.233278955954322,
+      "grad_norm": 0.007071008440107107,
+      "learning_rate": 0.000566723627624175,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 135485632,
+      "step": 62730
+    },
+    {
+      "epoch": 10.234094616639478,
+      "grad_norm": 0.04191211238503456,
+      "learning_rate": 0.0005666530837638805,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 135495968,
+      "step": 62735
+    },
+    {
+      "epoch": 10.234910277324634,
+      "grad_norm": 0.0013803663896396756,
+      "learning_rate": 0.0005665825385527766,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 135506304,
+      "step": 62740
+    },
+    {
+      "epoch": 10.235725938009788,
+      "grad_norm": 0.02503710426390171,
+      "learning_rate": 0.0005665119919922932,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 135516640,
+      "step": 62745
+    },
+    {
+      "epoch": 10.236541598694943,
+      "grad_norm": 0.0530230738222599,
+      "learning_rate": 0.0005664414440838598,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 135527840,
+      "step": 62750
+    },
+    {
+      "epoch": 10.237357259380097,
+      "grad_norm": 0.23326678574085236,
+      "learning_rate": 0.0005663708948289065,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 135537888,
+      "step": 62755
+    },
+    {
+      "epoch": 10.238172920065253,
+      "grad_norm": 0.019284890964627266,
+      "learning_rate": 0.0005663003442288626,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 135548736,
+      "step": 62760
+    },
+    {
+      "epoch": 10.238988580750409,
+      "grad_norm": 0.010017280466854572,
+      "learning_rate": 0.0005662297922851583,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 135557376,
+      "step": 62765
+    },
+    {
+      "epoch": 10.239804241435563,
+      "grad_norm": 0.022153059020638466,
+      "learning_rate": 0.0005661592389992231,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 135567328,
+      "step": 62770
+    },
+    {
+      "epoch": 10.240619902120718,
+      "grad_norm": 0.0728738009929657,
+      "learning_rate": 0.0005660886843724869,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 135578624,
+      "step": 62775
+    },
+    {
+      "epoch": 10.241435562805872,
+      "grad_norm": 0.01032840833067894,
+      "learning_rate": 0.0005660181284063798,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 135588800,
+      "step": 62780
+    },
+    {
+      "epoch": 10.242251223491028,
+      "grad_norm": 0.009232861921191216,
+      "learning_rate": 0.0005659475711023317,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 135599360,
+      "step": 62785
+    },
+    {
+      "epoch": 10.243066884176184,
+      "grad_norm": 0.021632635965943336,
+      "learning_rate": 0.0005658770124617722,
+      "loss": 0.164,
+      "num_input_tokens_seen": 135608960,
+      "step": 62790
+    },
+    {
+      "epoch": 10.243882544861338,
+      "grad_norm": 0.005081352312117815,
+      "learning_rate": 0.0005658064524861315,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 135619744,
+      "step": 62795
+    },
+    {
+      "epoch": 10.244698205546493,
+      "grad_norm": 0.13025851547718048,
+      "learning_rate": 0.0005657358911768395,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 135630016,
+      "step": 62800
+    },
+    {
+      "epoch": 10.245513866231647,
+      "grad_norm": 0.006488516461104155,
+      "learning_rate": 0.0005656653285353265,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 135640480,
+      "step": 62805
+    },
+    {
+      "epoch": 10.246329526916803,
+      "grad_norm": 0.01548718847334385,
+      "learning_rate": 0.0005655947645630222,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 135651328,
+      "step": 62810
+    },
+    {
+      "epoch": 10.247145187601957,
+      "grad_norm": 0.031630516052246094,
+      "learning_rate": 0.0005655241992613566,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 135662976,
+      "step": 62815
+    },
+    {
+      "epoch": 10.247960848287113,
+      "grad_norm": 0.17202773690223694,
+      "learning_rate": 0.0005654536326317602,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 135673920,
+      "step": 62820
+    },
+    {
+      "epoch": 10.248776508972268,
+      "grad_norm": 0.016138330101966858,
+      "learning_rate": 0.0005653830646756629,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 135684672,
+      "step": 62825
+    },
+    {
+      "epoch": 10.249592169657422,
+      "grad_norm": 0.00821363739669323,
+      "learning_rate": 0.0005653124953944947,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 135695232,
+      "step": 62830
+    },
+    {
+      "epoch": 10.250407830342578,
+      "grad_norm": 0.0317390076816082,
+      "learning_rate": 0.0005652419247896861,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 135706432,
+      "step": 62835
+    },
+    {
+      "epoch": 10.251223491027732,
+      "grad_norm": 0.0038922594394534826,
+      "learning_rate": 0.000565171352862667,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 135717536,
+      "step": 62840
+    },
+    {
+      "epoch": 10.252039151712887,
+      "grad_norm": 0.03252030164003372,
+      "learning_rate": 0.0005651007796148678,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 135729856,
+      "step": 62845
+    },
+    {
+      "epoch": 10.252854812398043,
+      "grad_norm": 0.025612108409404755,
+      "learning_rate": 0.0005650302050477187,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 135740000,
+      "step": 62850
+    },
+    {
+      "epoch": 10.253670473083197,
+      "grad_norm": 0.2749195992946625,
+      "learning_rate": 0.0005649596291626501,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 135749888,
+      "step": 62855
+    },
+    {
+      "epoch": 10.254486133768353,
+      "grad_norm": 0.20973838865756989,
+      "learning_rate": 0.0005648890519610921,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 135760992,
+      "step": 62860
+    },
+    {
+      "epoch": 10.255301794453507,
+      "grad_norm": 0.3340967893600464,
+      "learning_rate": 0.0005648184734444753,
+      "loss": 0.122,
+      "num_input_tokens_seen": 135769792,
+      "step": 62865
+    },
+    {
+      "epoch": 10.256117455138662,
+      "grad_norm": 0.01708339713513851,
+      "learning_rate": 0.0005647478936142296,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 135781568,
+      "step": 62870
+    },
+    {
+      "epoch": 10.256933115823816,
+      "grad_norm": 0.01038318034261465,
+      "learning_rate": 0.0005646773124717858,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 135792256,
+      "step": 62875
+    },
+    {
+      "epoch": 10.257748776508972,
+      "grad_norm": 0.004717283882200718,
+      "learning_rate": 0.0005646067300185744,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 135803424,
+      "step": 62880
+    },
+    {
+      "epoch": 10.258564437194128,
+      "grad_norm": 0.03085217997431755,
+      "learning_rate": 0.0005645361462560256,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 135814048,
+      "step": 62885
+    },
+    {
+      "epoch": 10.259380097879282,
+      "grad_norm": 0.006718597374856472,
+      "learning_rate": 0.0005644655611855698,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 135825536,
+      "step": 62890
+    },
+    {
+      "epoch": 10.260195758564437,
+      "grad_norm": 0.004600659478455782,
+      "learning_rate": 0.0005643949748086377,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 135837248,
+      "step": 62895
+    },
+    {
+      "epoch": 10.261011419249591,
+      "grad_norm": 0.008998743258416653,
+      "learning_rate": 0.0005643243871266598,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 135847936,
+      "step": 62900
+    },
+    {
+      "epoch": 10.261827079934747,
+      "grad_norm": 0.013277465477585793,
+      "learning_rate": 0.0005642537981410665,
+      "loss": 0.1557,
+      "num_input_tokens_seen": 135859680,
+      "step": 62905
+    },
+    {
+      "epoch": 10.262642740619903,
+      "grad_norm": 0.0034990364219993353,
+      "learning_rate": 0.0005641832078532886,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 135870880,
+      "step": 62910
+    },
+    {
+      "epoch": 10.263458401305057,
+      "grad_norm": 0.2049998939037323,
+      "learning_rate": 0.0005641126162647564,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 135881568,
+      "step": 62915
+    },
+    {
+      "epoch": 10.264274061990212,
+      "grad_norm": 0.1066952794790268,
+      "learning_rate": 0.0005640420233769008,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 135892800,
+      "step": 62920
+    },
+    {
+      "epoch": 10.265089722675366,
+      "grad_norm": 0.03311437368392944,
+      "learning_rate": 0.0005639714291911524,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 135903712,
+      "step": 62925
+    },
+    {
+      "epoch": 10.265905383360522,
+      "grad_norm": 0.022299086675047874,
+      "learning_rate": 0.0005639008337089416,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 135914240,
+      "step": 62930
+    },
+    {
+      "epoch": 10.266721044045678,
+      "grad_norm": 0.018949246034026146,
+      "learning_rate": 0.0005638302369316995,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 135925760,
+      "step": 62935
+    },
+    {
+      "epoch": 10.267536704730832,
+      "grad_norm": 0.019130868837237358,
+      "learning_rate": 0.0005637596388608567,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 135936096,
+      "step": 62940
+    },
+    {
+      "epoch": 10.268352365415987,
+      "grad_norm": 0.36915987730026245,
+      "learning_rate": 0.0005636890394978439,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 135946144,
+      "step": 62945
+    },
+    {
+      "epoch": 10.269168026101141,
+      "grad_norm": 0.15957792103290558,
+      "learning_rate": 0.0005636184388440919,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 135957152,
+      "step": 62950
+    },
+    {
+      "epoch": 10.269983686786297,
+      "grad_norm": 0.010827888734638691,
+      "learning_rate": 0.0005635478369010316,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 135967328,
+      "step": 62955
+    },
+    {
+      "epoch": 10.270799347471453,
+      "grad_norm": 0.02170558087527752,
+      "learning_rate": 0.0005634772336700937,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 135977472,
+      "step": 62960
+    },
+    {
+      "epoch": 10.271615008156607,
+      "grad_norm": 0.012610095553100109,
+      "learning_rate": 0.0005634066291527092,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 135988032,
+      "step": 62965
+    },
+    {
+      "epoch": 10.272430668841762,
+      "grad_norm": 0.24561123549938202,
+      "learning_rate": 0.000563336023350309,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 135998432,
+      "step": 62970
+    },
+    {
+      "epoch": 10.273246329526916,
+      "grad_norm": 0.007883837446570396,
+      "learning_rate": 0.0005632654162643239,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 136009536,
+      "step": 62975
+    },
+    {
+      "epoch": 10.274061990212072,
+      "grad_norm": 0.010281133465468884,
+      "learning_rate": 0.0005631948078961847,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 136020480,
+      "step": 62980
+    },
+    {
+      "epoch": 10.274877650897226,
+      "grad_norm": 0.019367830827832222,
+      "learning_rate": 0.0005631241982473227,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 136031136,
+      "step": 62985
+    },
+    {
+      "epoch": 10.275693311582382,
+      "grad_norm": 0.20234939455986023,
+      "learning_rate": 0.0005630535873191687,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 136043232,
+      "step": 62990
+    },
+    {
+      "epoch": 10.276508972267537,
+      "grad_norm": 0.2768293619155884,
+      "learning_rate": 0.0005629829751131538,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 136053888,
+      "step": 62995
+    },
+    {
+      "epoch": 10.277324632952691,
+      "grad_norm": 0.3425898253917694,
+      "learning_rate": 0.0005629123616307089,
+      "loss": 0.168,
+      "num_input_tokens_seen": 136064160,
+      "step": 63000
+    },
+    {
+      "epoch": 10.278140293637847,
+      "grad_norm": 0.03600388392806053,
+      "learning_rate": 0.0005628417468732653,
+      "loss": 0.1116,
+      "num_input_tokens_seen": 136075584,
+      "step": 63005
+    },
+    {
+      "epoch": 10.278955954323001,
+      "grad_norm": 0.18759030103683472,
+      "learning_rate": 0.0005627711308422539,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 136085312,
+      "step": 63010
+    },
+    {
+      "epoch": 10.279771615008157,
+      "grad_norm": 0.09952437877655029,
+      "learning_rate": 0.000562700513539106,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 136096576,
+      "step": 63015
+    },
+    {
+      "epoch": 10.280587275693312,
+      "grad_norm": 0.07147414237260818,
+      "learning_rate": 0.0005626298949652524,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 136107168,
+      "step": 63020
+    },
+    {
+      "epoch": 10.281402936378466,
+      "grad_norm": 0.19256940484046936,
+      "learning_rate": 0.0005625592751221248,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 136118592,
+      "step": 63025
+    },
+    {
+      "epoch": 10.282218597063622,
+      "grad_norm": 0.0532815121114254,
+      "learning_rate": 0.000562488654011154,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 136128960,
+      "step": 63030
+    },
+    {
+      "epoch": 10.283034257748776,
+      "grad_norm": 0.3896867632865906,
+      "learning_rate": 0.0005624180316337715,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 136139584,
+      "step": 63035
+    },
+    {
+      "epoch": 10.283849918433932,
+      "grad_norm": 0.07998025417327881,
+      "learning_rate": 0.0005623474079914082,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 136150560,
+      "step": 63040
+    },
+    {
+      "epoch": 10.284665579119087,
+      "grad_norm": 0.007289467379450798,
+      "learning_rate": 0.0005622767830854957,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 136161216,
+      "step": 63045
+    },
+    {
+      "epoch": 10.285481239804241,
+      "grad_norm": 0.018334923312067986,
+      "learning_rate": 0.0005622061569174651,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 136172192,
+      "step": 63050
+    },
+    {
+      "epoch": 10.286296900489397,
+      "grad_norm": 0.36530670523643494,
+      "learning_rate": 0.0005621355294887479,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 136182240,
+      "step": 63055
+    },
+    {
+      "epoch": 10.28711256117455,
+      "grad_norm": 0.0075960480608046055,
+      "learning_rate": 0.0005620649008007755,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 136193312,
+      "step": 63060
+    },
+    {
+      "epoch": 10.287928221859707,
+      "grad_norm": 0.0044697243720293045,
+      "learning_rate": 0.0005619942708549789,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 136205280,
+      "step": 63065
+    },
+    {
+      "epoch": 10.28874388254486,
+      "grad_norm": 0.007282007485628128,
+      "learning_rate": 0.0005619236396527899,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 136216768,
+      "step": 63070
+    },
+    {
+      "epoch": 10.289559543230016,
+      "grad_norm": 0.0313313864171505,
+      "learning_rate": 0.0005618530071956397,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 136228608,
+      "step": 63075
+    },
+    {
+      "epoch": 10.290375203915172,
+      "grad_norm": 0.6887944340705872,
+      "learning_rate": 0.00056178237348496,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 136239328,
+      "step": 63080
+    },
+    {
+      "epoch": 10.291190864600326,
+      "grad_norm": 0.056814152747392654,
+      "learning_rate": 0.0005617117385221819,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 136249632,
+      "step": 63085
+    },
+    {
+      "epoch": 10.292006525285482,
+      "grad_norm": 0.00974601786583662,
+      "learning_rate": 0.0005616411023087373,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 136260352,
+      "step": 63090
+    },
+    {
+      "epoch": 10.292822185970635,
+      "grad_norm": 0.260468453168869,
+      "learning_rate": 0.0005615704648460575,
+      "loss": 0.0706,
+      "num_input_tokens_seen": 136270752,
+      "step": 63095
+    },
+    {
+      "epoch": 10.293637846655791,
+      "grad_norm": 0.5153801441192627,
+      "learning_rate": 0.0005614998261355741,
+      "loss": 0.1921,
+      "num_input_tokens_seen": 136281664,
+      "step": 63100
+    },
+    {
+      "epoch": 10.294453507340947,
+      "grad_norm": 0.0031059994362294674,
+      "learning_rate": 0.0005614291861787188,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 136292544,
+      "step": 63105
+    },
+    {
+      "epoch": 10.2952691680261,
+      "grad_norm": 0.2620164155960083,
+      "learning_rate": 0.0005613585449769232,
+      "loss": 0.1277,
+      "num_input_tokens_seen": 136303744,
+      "step": 63110
+    },
+    {
+      "epoch": 10.296084828711257,
+      "grad_norm": 0.07174117118120193,
+      "learning_rate": 0.0005612879025316186,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 136314240,
+      "step": 63115
+    },
+    {
+      "epoch": 10.29690048939641,
+      "grad_norm": 0.018266484141349792,
+      "learning_rate": 0.000561217258844237,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 136325824,
+      "step": 63120
+    },
+    {
+      "epoch": 10.297716150081566,
+      "grad_norm": 0.010049085132777691,
+      "learning_rate": 0.0005611466139162101,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 136336864,
+      "step": 63125
+    },
+    {
+      "epoch": 10.298531810766722,
+      "grad_norm": 0.005402869079262018,
+      "learning_rate": 0.0005610759677489694,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 136347456,
+      "step": 63130
+    },
+    {
+      "epoch": 10.299347471451876,
+      "grad_norm": 0.008500440046191216,
+      "learning_rate": 0.0005610053203439467,
+      "loss": 0.2237,
+      "num_input_tokens_seen": 136357408,
+      "step": 63135
+    },
+    {
+      "epoch": 10.300163132137031,
+      "grad_norm": 0.0620102696120739,
+      "learning_rate": 0.0005609346717025737,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 136368640,
+      "step": 63140
+    },
+    {
+      "epoch": 10.300978792822185,
+      "grad_norm": 0.006548778153955936,
+      "learning_rate": 0.0005608640218262825,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 136378144,
+      "step": 63145
+    },
+    {
+      "epoch": 10.301794453507341,
+      "grad_norm": 0.005673635751008987,
+      "learning_rate": 0.0005607933707165046,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 136388672,
+      "step": 63150
+    },
+    {
+      "epoch": 10.302610114192497,
+      "grad_norm": 0.29767847061157227,
+      "learning_rate": 0.000560722718374672,
+      "loss": 0.1562,
+      "num_input_tokens_seen": 136398976,
+      "step": 63155
+    },
+    {
+      "epoch": 10.30342577487765,
+      "grad_norm": 0.00508272647857666,
+      "learning_rate": 0.0005606520648022164,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 136410624,
+      "step": 63160
+    },
+    {
+      "epoch": 10.304241435562806,
+      "grad_norm": 0.01566510647535324,
+      "learning_rate": 0.0005605814100005696,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 136420864,
+      "step": 63165
+    },
+    {
+      "epoch": 10.30505709624796,
+      "grad_norm": 0.020303290337324142,
+      "learning_rate": 0.0005605107539711639,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 136430752,
+      "step": 63170
+    },
+    {
+      "epoch": 10.305872756933116,
+      "grad_norm": 0.1528480499982834,
+      "learning_rate": 0.000560440096715431,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 136440736,
+      "step": 63175
+    },
+    {
+      "epoch": 10.30668841761827,
+      "grad_norm": 0.17993883788585663,
+      "learning_rate": 0.0005603694382348027,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 136450240,
+      "step": 63180
+    },
+    {
+      "epoch": 10.307504078303426,
+      "grad_norm": 0.024285180494189262,
+      "learning_rate": 0.0005602987785307112,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 136461376,
+      "step": 63185
+    },
+    {
+      "epoch": 10.308319738988581,
+      "grad_norm": 0.00804990902543068,
+      "learning_rate": 0.0005602281176045885,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 136473504,
+      "step": 63190
+    },
+    {
+      "epoch": 10.309135399673735,
+      "grad_norm": 0.008934085257351398,
+      "learning_rate": 0.0005601574554578666,
+      "loss": 0.069,
+      "num_input_tokens_seen": 136483520,
+      "step": 63195
+    },
+    {
+      "epoch": 10.309951060358891,
+      "grad_norm": 0.004447769373655319,
+      "learning_rate": 0.0005600867920919775,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 136493824,
+      "step": 63200
+    },
+    {
+      "epoch": 10.310766721044045,
+      "grad_norm": 0.007732720114290714,
+      "learning_rate": 0.0005600161275083535,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 136503936,
+      "step": 63205
+    },
+    {
+      "epoch": 10.3115823817292,
+      "grad_norm": 0.0947844460606575,
+      "learning_rate": 0.0005599454617084264,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 136515488,
+      "step": 63210
+    },
+    {
+      "epoch": 10.312398042414356,
+      "grad_norm": 0.0417468324303627,
+      "learning_rate": 0.0005598747946936285,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 136526464,
+      "step": 63215
+    },
+    {
+      "epoch": 10.31321370309951,
+      "grad_norm": 0.0020598669070750475,
+      "learning_rate": 0.0005598041264653919,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 136537248,
+      "step": 63220
+    },
+    {
+      "epoch": 10.314029363784666,
+      "grad_norm": 0.01746521145105362,
+      "learning_rate": 0.0005597334570251489,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 136548320,
+      "step": 63225
+    },
+    {
+      "epoch": 10.31484502446982,
+      "grad_norm": 0.0852559357881546,
+      "learning_rate": 0.0005596627863743316,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 136559360,
+      "step": 63230
+    },
+    {
+      "epoch": 10.315660685154976,
+      "grad_norm": 0.01237891148775816,
+      "learning_rate": 0.0005595921145143722,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 136569760,
+      "step": 63235
+    },
+    {
+      "epoch": 10.31647634584013,
+      "grad_norm": 0.3985021710395813,
+      "learning_rate": 0.0005595214414467029,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 136579904,
+      "step": 63240
+    },
+    {
+      "epoch": 10.317292006525285,
+      "grad_norm": 0.04400103539228439,
+      "learning_rate": 0.0005594507671727563,
+      "loss": 0.1041,
+      "num_input_tokens_seen": 136592064,
+      "step": 63245
+    },
+    {
+      "epoch": 10.318107667210441,
+      "grad_norm": 0.04320823401212692,
+      "learning_rate": 0.0005593800916939642,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 136603424,
+      "step": 63250
+    },
+    {
+      "epoch": 10.318923327895595,
+      "grad_norm": 0.27597784996032715,
+      "learning_rate": 0.0005593094150117595,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 136615232,
+      "step": 63255
+    },
+    {
+      "epoch": 10.31973898858075,
+      "grad_norm": 0.04080792888998985,
+      "learning_rate": 0.0005592387371275741,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 136626240,
+      "step": 63260
+    },
+    {
+      "epoch": 10.320554649265905,
+      "grad_norm": 0.05028015002608299,
+      "learning_rate": 0.0005591680580428406,
+      "loss": 0.042,
+      "num_input_tokens_seen": 136637408,
+      "step": 63265
+    },
+    {
+      "epoch": 10.32137030995106,
+      "grad_norm": 0.04935172200202942,
+      "learning_rate": 0.0005590973777589912,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 136647648,
+      "step": 63270
+    },
+    {
+      "epoch": 10.322185970636216,
+      "grad_norm": 0.004445977509021759,
+      "learning_rate": 0.0005590266962774588,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 136658944,
+      "step": 63275
+    },
+    {
+      "epoch": 10.32300163132137,
+      "grad_norm": 0.11220485717058182,
+      "learning_rate": 0.0005589560135996752,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 136669792,
+      "step": 63280
+    },
+    {
+      "epoch": 10.323817292006526,
+      "grad_norm": 0.28762274980545044,
+      "learning_rate": 0.0005588853297270734,
+      "loss": 0.054,
+      "num_input_tokens_seen": 136680608,
+      "step": 63285
+    },
+    {
+      "epoch": 10.32463295269168,
+      "grad_norm": 0.006721612997353077,
+      "learning_rate": 0.0005588146446610855,
+      "loss": 0.039,
+      "num_input_tokens_seen": 136691296,
+      "step": 63290
+    },
+    {
+      "epoch": 10.325448613376835,
+      "grad_norm": 0.007691043894737959,
+      "learning_rate": 0.0005587439584031444,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 136701376,
+      "step": 63295
+    },
+    {
+      "epoch": 10.326264274061991,
+      "grad_norm": 0.00728636747226119,
+      "learning_rate": 0.0005586732709546824,
+      "loss": 0.006,
+      "num_input_tokens_seen": 136712832,
+      "step": 63300
+    },
+    {
+      "epoch": 10.327079934747145,
+      "grad_norm": 0.0071546598337590694,
+      "learning_rate": 0.0005586025823171321,
+      "loss": 0.2496,
+      "num_input_tokens_seen": 136722368,
+      "step": 63305
+    },
+    {
+      "epoch": 10.3278955954323,
+      "grad_norm": 0.009742275811731815,
+      "learning_rate": 0.0005585318924919262,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 136733472,
+      "step": 63310
+    },
+    {
+      "epoch": 10.328711256117455,
+      "grad_norm": 0.008231345564126968,
+      "learning_rate": 0.0005584612014804972,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 136744576,
+      "step": 63315
+    },
+    {
+      "epoch": 10.32952691680261,
+      "grad_norm": 0.016715819016098976,
+      "learning_rate": 0.0005583905092842777,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 136756480,
+      "step": 63320
+    },
+    {
+      "epoch": 10.330342577487766,
+      "grad_norm": 0.15237416326999664,
+      "learning_rate": 0.0005583198159047005,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 136766720,
+      "step": 63325
+    },
+    {
+      "epoch": 10.33115823817292,
+      "grad_norm": 0.015316602773964405,
+      "learning_rate": 0.0005582491213431983,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 136777280,
+      "step": 63330
+    },
+    {
+      "epoch": 10.331973898858076,
+      "grad_norm": 0.009626131504774094,
+      "learning_rate": 0.0005581784256012037,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 136788768,
+      "step": 63335
+    },
+    {
+      "epoch": 10.33278955954323,
+      "grad_norm": 0.025972846895456314,
+      "learning_rate": 0.0005581077286801495,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 136799584,
+      "step": 63340
+    },
+    {
+      "epoch": 10.333605220228385,
+      "grad_norm": 0.02969386987388134,
+      "learning_rate": 0.0005580370305814686,
+      "loss": 0.1976,
+      "num_input_tokens_seen": 136811488,
+      "step": 63345
+    },
+    {
+      "epoch": 10.33442088091354,
+      "grad_norm": 0.18062162399291992,
+      "learning_rate": 0.0005579663313065935,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 136822784,
+      "step": 63350
+    },
+    {
+      "epoch": 10.335236541598695,
+      "grad_norm": 0.15014511346817017,
+      "learning_rate": 0.0005578956308569572,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 136833888,
+      "step": 63355
+    },
+    {
+      "epoch": 10.33605220228385,
+      "grad_norm": 0.011584420688450336,
+      "learning_rate": 0.0005578249292339924,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 136844416,
+      "step": 63360
+    },
+    {
+      "epoch": 10.336867862969005,
+      "grad_norm": 0.004050334449857473,
+      "learning_rate": 0.0005577542264391322,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 136854336,
+      "step": 63365
+    },
+    {
+      "epoch": 10.33768352365416,
+      "grad_norm": 0.035820942372083664,
+      "learning_rate": 0.0005576835224738092,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 136865440,
+      "step": 63370
+    },
+    {
+      "epoch": 10.338499184339314,
+      "grad_norm": 0.0067452918738126755,
+      "learning_rate": 0.0005576128173394567,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 136877248,
+      "step": 63375
+    },
+    {
+      "epoch": 10.33931484502447,
+      "grad_norm": 0.19582054018974304,
+      "learning_rate": 0.0005575421110375072,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 136887360,
+      "step": 63380
+    },
+    {
+      "epoch": 10.340130505709626,
+      "grad_norm": 0.005524530075490475,
+      "learning_rate": 0.0005574714035693938,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 136899008,
+      "step": 63385
+    },
+    {
+      "epoch": 10.34094616639478,
+      "grad_norm": 0.1523488163948059,
+      "learning_rate": 0.0005574006949365496,
+      "loss": 0.1644,
+      "num_input_tokens_seen": 136908832,
+      "step": 63390
+    },
+    {
+      "epoch": 10.341761827079935,
+      "grad_norm": 0.33566051721572876,
+      "learning_rate": 0.0005573299851404074,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 136919168,
+      "step": 63395
+    },
+    {
+      "epoch": 10.34257748776509,
+      "grad_norm": 0.0225025936961174,
+      "learning_rate": 0.0005572592741824003,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 136929312,
+      "step": 63400
+    },
+    {
+      "epoch": 10.343393148450245,
+      "grad_norm": 0.009087719023227692,
+      "learning_rate": 0.0005571885620639614,
+      "loss": 0.089,
+      "num_input_tokens_seen": 136940576,
+      "step": 63405
+    },
+    {
+      "epoch": 10.3442088091354,
+      "grad_norm": 0.02980167046189308,
+      "learning_rate": 0.0005571178487865238,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 136951296,
+      "step": 63410
+    },
+    {
+      "epoch": 10.345024469820554,
+      "grad_norm": 0.012627690099179745,
+      "learning_rate": 0.0005570471343515205,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 136962208,
+      "step": 63415
+    },
+    {
+      "epoch": 10.34584013050571,
+      "grad_norm": 0.5630673170089722,
+      "learning_rate": 0.0005569764187603846,
+      "loss": 0.1932,
+      "num_input_tokens_seen": 136973184,
+      "step": 63420
+    },
+    {
+      "epoch": 10.346655791190864,
+      "grad_norm": 0.16642948985099792,
+      "learning_rate": 0.0005569057020145494,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 136983936,
+      "step": 63425
+    },
+    {
+      "epoch": 10.34747145187602,
+      "grad_norm": 0.04962924122810364,
+      "learning_rate": 0.0005568349841154479,
+      "loss": 0.01,
+      "num_input_tokens_seen": 136994848,
+      "step": 63430
+    },
+    {
+      "epoch": 10.348287112561174,
+      "grad_norm": 0.28208860754966736,
+      "learning_rate": 0.0005567642650645134,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 137005760,
+      "step": 63435
+    },
+    {
+      "epoch": 10.34910277324633,
+      "grad_norm": 0.754994809627533,
+      "learning_rate": 0.000556693544863179,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 137016192,
+      "step": 63440
+    },
+    {
+      "epoch": 10.349918433931485,
+      "grad_norm": 0.013265586458146572,
+      "learning_rate": 0.000556622823512878,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 137027296,
+      "step": 63445
+    },
+    {
+      "epoch": 10.350734094616639,
+      "grad_norm": 0.028474433347582817,
+      "learning_rate": 0.0005565521010150436,
+      "loss": 0.021,
+      "num_input_tokens_seen": 137038592,
+      "step": 63450
+    },
+    {
+      "epoch": 10.351549755301795,
+      "grad_norm": 0.0459626168012619,
+      "learning_rate": 0.0005564813773711092,
+      "loss": 0.1247,
+      "num_input_tokens_seen": 137048768,
+      "step": 63455
+    },
+    {
+      "epoch": 10.352365415986949,
+      "grad_norm": 0.007897719740867615,
+      "learning_rate": 0.0005564106525825079,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 137059520,
+      "step": 63460
+    },
+    {
+      "epoch": 10.353181076672104,
+      "grad_norm": 0.01814207434654236,
+      "learning_rate": 0.0005563399266506734,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 137070912,
+      "step": 63465
+    },
+    {
+      "epoch": 10.35399673735726,
+      "grad_norm": 0.06560403853654861,
+      "learning_rate": 0.0005562691995770386,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 137081472,
+      "step": 63470
+    },
+    {
+      "epoch": 10.354812398042414,
+      "grad_norm": 0.016114749014377594,
+      "learning_rate": 0.0005561984713630373,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 137091520,
+      "step": 63475
+    },
+    {
+      "epoch": 10.35562805872757,
+      "grad_norm": 0.05790586769580841,
+      "learning_rate": 0.0005561277420101026,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 137103680,
+      "step": 63480
+    },
+    {
+      "epoch": 10.356443719412724,
+      "grad_norm": 0.17016306519508362,
+      "learning_rate": 0.0005560570115196679,
+      "loss": 0.053,
+      "num_input_tokens_seen": 137115488,
+      "step": 63485
+    },
+    {
+      "epoch": 10.35725938009788,
+      "grad_norm": 0.009363112039864063,
+      "learning_rate": 0.0005559862798931668,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 137126944,
+      "step": 63490
+    },
+    {
+      "epoch": 10.358075040783035,
+      "grad_norm": 0.2349333018064499,
+      "learning_rate": 0.0005559155471320326,
+      "loss": 0.041,
+      "num_input_tokens_seen": 137138112,
+      "step": 63495
+    },
+    {
+      "epoch": 10.358890701468189,
+      "grad_norm": 0.17752444744110107,
+      "learning_rate": 0.0005558448132376991,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 137149216,
+      "step": 63500
+    },
+    {
+      "epoch": 10.359706362153345,
+      "grad_norm": 0.03303788974881172,
+      "learning_rate": 0.0005557740782115995,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 137160640,
+      "step": 63505
+    },
+    {
+      "epoch": 10.360522022838499,
+      "grad_norm": 0.3540240228176117,
+      "learning_rate": 0.0005557033420551676,
+      "loss": 0.1315,
+      "num_input_tokens_seen": 137171808,
+      "step": 63510
+    },
+    {
+      "epoch": 10.361337683523654,
+      "grad_norm": 0.004490839783102274,
+      "learning_rate": 0.0005556326047698367,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 137182912,
+      "step": 63515
+    },
+    {
+      "epoch": 10.362153344208808,
+      "grad_norm": 0.11256757378578186,
+      "learning_rate": 0.0005555618663570405,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 137193792,
+      "step": 63520
+    },
+    {
+      "epoch": 10.362969004893964,
+      "grad_norm": 0.011594374664127827,
+      "learning_rate": 0.0005554911268182126,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 137204160,
+      "step": 63525
+    },
+    {
+      "epoch": 10.36378466557912,
+      "grad_norm": 0.004073978401720524,
+      "learning_rate": 0.0005554203861547866,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 137214720,
+      "step": 63530
+    },
+    {
+      "epoch": 10.364600326264274,
+      "grad_norm": 0.16724653542041779,
+      "learning_rate": 0.0005553496443681961,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 137224096,
+      "step": 63535
+    },
+    {
+      "epoch": 10.36541598694943,
+      "grad_norm": 0.04027742147445679,
+      "learning_rate": 0.000555278901459875,
+      "loss": 0.1207,
+      "num_input_tokens_seen": 137235296,
+      "step": 63540
+    },
+    {
+      "epoch": 10.366231647634583,
+      "grad_norm": 0.006478854920715094,
+      "learning_rate": 0.0005552081574312568,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 137247200,
+      "step": 63545
+    },
+    {
+      "epoch": 10.367047308319739,
+      "grad_norm": 0.01771964132785797,
+      "learning_rate": 0.0005551374122837752,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 137257952,
+      "step": 63550
+    },
+    {
+      "epoch": 10.367862969004895,
+      "grad_norm": 0.01356664951890707,
+      "learning_rate": 0.000555066666018864,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 137269088,
+      "step": 63555
+    },
+    {
+      "epoch": 10.368678629690049,
+      "grad_norm": 0.3984331786632538,
+      "learning_rate": 0.0005549959186379569,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 137279520,
+      "step": 63560
+    },
+    {
+      "epoch": 10.369494290375204,
+      "grad_norm": 0.007946250960230827,
+      "learning_rate": 0.0005549251701424878,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 137291008,
+      "step": 63565
+    },
+    {
+      "epoch": 10.370309951060358,
+      "grad_norm": 0.022877560928463936,
+      "learning_rate": 0.0005548544205338905,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 137300832,
+      "step": 63570
+    },
+    {
+      "epoch": 10.371125611745514,
+      "grad_norm": 0.021704500541090965,
+      "learning_rate": 0.0005547836698135987,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 137310208,
+      "step": 63575
+    },
+    {
+      "epoch": 10.37194127243067,
+      "grad_norm": 0.17134937644004822,
+      "learning_rate": 0.0005547129179830463,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 137321504,
+      "step": 63580
+    },
+    {
+      "epoch": 10.372756933115824,
+      "grad_norm": 0.0015580940525978804,
+      "learning_rate": 0.0005546421650436674,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 137331648,
+      "step": 63585
+    },
+    {
+      "epoch": 10.37357259380098,
+      "grad_norm": 0.006557346321642399,
+      "learning_rate": 0.0005545714109968956,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 137342464,
+      "step": 63590
+    },
+    {
+      "epoch": 10.374388254486133,
+      "grad_norm": 0.01257567573338747,
+      "learning_rate": 0.0005545006558441649,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 137353504,
+      "step": 63595
+    },
+    {
+      "epoch": 10.375203915171289,
+      "grad_norm": 0.04626630246639252,
+      "learning_rate": 0.0005544298995869093,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 137365504,
+      "step": 63600
+    },
+    {
+      "epoch": 10.376019575856443,
+      "grad_norm": 0.00850379467010498,
+      "learning_rate": 0.0005543591422265627,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 137376160,
+      "step": 63605
+    },
+    {
+      "epoch": 10.376835236541599,
+      "grad_norm": 0.033676404505968094,
+      "learning_rate": 0.0005542883837645592,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 137387200,
+      "step": 63610
+    },
+    {
+      "epoch": 10.377650897226754,
+      "grad_norm": 0.08765646070241928,
+      "learning_rate": 0.0005542176242023326,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 137399552,
+      "step": 63615
+    },
+    {
+      "epoch": 10.378466557911908,
+      "grad_norm": 0.10746024549007416,
+      "learning_rate": 0.0005541468635413172,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 137411904,
+      "step": 63620
+    },
+    {
+      "epoch": 10.379282218597064,
+      "grad_norm": 0.007602016907185316,
+      "learning_rate": 0.0005540761017829468,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 137421856,
+      "step": 63625
+    },
+    {
+      "epoch": 10.380097879282218,
+      "grad_norm": 0.00871317833662033,
+      "learning_rate": 0.0005540053389286556,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 137432896,
+      "step": 63630
+    },
+    {
+      "epoch": 10.380913539967374,
+      "grad_norm": 0.011335165239870548,
+      "learning_rate": 0.0005539345749798778,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 137444544,
+      "step": 63635
+    },
+    {
+      "epoch": 10.38172920065253,
+      "grad_norm": 0.03143840283155441,
+      "learning_rate": 0.0005538638099380473,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 137454272,
+      "step": 63640
+    },
+    {
+      "epoch": 10.382544861337683,
+      "grad_norm": 0.2992579936981201,
+      "learning_rate": 0.0005537930438045984,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 137464416,
+      "step": 63645
+    },
+    {
+      "epoch": 10.383360522022839,
+      "grad_norm": 0.0029851419385522604,
+      "learning_rate": 0.0005537222765809653,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 137473472,
+      "step": 63650
+    },
+    {
+      "epoch": 10.384176182707993,
+      "grad_norm": 0.3246956169605255,
+      "learning_rate": 0.000553651508268582,
+      "loss": 0.0578,
+      "num_input_tokens_seen": 137484800,
+      "step": 63655
+    },
+    {
+      "epoch": 10.384991843393149,
+      "grad_norm": 0.006309543736279011,
+      "learning_rate": 0.000553580738868883,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 137494592,
+      "step": 63660
+    },
+    {
+      "epoch": 10.385807504078304,
+      "grad_norm": 0.42174792289733887,
+      "learning_rate": 0.0005535099683833021,
+      "loss": 0.2332,
+      "num_input_tokens_seen": 137504352,
+      "step": 63665
+    },
+    {
+      "epoch": 10.386623164763458,
+      "grad_norm": 0.04054646193981171,
+      "learning_rate": 0.0005534391968132741,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 137515680,
+      "step": 63670
+    },
+    {
+      "epoch": 10.387438825448614,
+      "grad_norm": 0.08717795461416245,
+      "learning_rate": 0.0005533684241602327,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 137526592,
+      "step": 63675
+    },
+    {
+      "epoch": 10.388254486133768,
+      "grad_norm": 0.04790165647864342,
+      "learning_rate": 0.0005532976504256127,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 137536864,
+      "step": 63680
+    },
+    {
+      "epoch": 10.389070146818923,
+      "grad_norm": 0.546216607093811,
+      "learning_rate": 0.000553226875610848,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 137547232,
+      "step": 63685
+    },
+    {
+      "epoch": 10.38988580750408,
+      "grad_norm": 0.00997911486774683,
+      "learning_rate": 0.0005531560997173733,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 137558016,
+      "step": 63690
+    },
+    {
+      "epoch": 10.390701468189233,
+      "grad_norm": 0.0133741470053792,
+      "learning_rate": 0.0005530853227466229,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 137568896,
+      "step": 63695
+    },
+    {
+      "epoch": 10.391517128874389,
+      "grad_norm": 0.0015816029626876116,
+      "learning_rate": 0.0005530145447000308,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 137578528,
+      "step": 63700
+    },
+    {
+      "epoch": 10.392332789559543,
+      "grad_norm": 0.09255795925855637,
+      "learning_rate": 0.0005529437655790319,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 137589568,
+      "step": 63705
+    },
+    {
+      "epoch": 10.393148450244698,
+      "grad_norm": 0.09927723556756973,
+      "learning_rate": 0.0005528729853850604,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 137600096,
+      "step": 63710
+    },
+    {
+      "epoch": 10.393964110929852,
+      "grad_norm": 0.1837208867073059,
+      "learning_rate": 0.0005528022041195507,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 137611616,
+      "step": 63715
+    },
+    {
+      "epoch": 10.394779771615008,
+      "grad_norm": 0.0033106612972915173,
+      "learning_rate": 0.0005527314217839375,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 137622304,
+      "step": 63720
+    },
+    {
+      "epoch": 10.395595432300164,
+      "grad_norm": 0.010321944952011108,
+      "learning_rate": 0.0005526606383796551,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 137633344,
+      "step": 63725
+    },
+    {
+      "epoch": 10.396411092985318,
+      "grad_norm": 0.10109658539295197,
+      "learning_rate": 0.000552589853908138,
+      "loss": 0.1396,
+      "num_input_tokens_seen": 137643264,
+      "step": 63730
+    },
+    {
+      "epoch": 10.397226753670473,
+      "grad_norm": 0.0041798497550189495,
+      "learning_rate": 0.0005525190683708207,
+      "loss": 0.004,
+      "num_input_tokens_seen": 137654464,
+      "step": 63735
+    },
+    {
+      "epoch": 10.398042414355627,
+      "grad_norm": 0.48795971274375916,
+      "learning_rate": 0.0005524482817691381,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 137664224,
+      "step": 63740
+    },
+    {
+      "epoch": 10.398858075040783,
+      "grad_norm": 0.014303839765489101,
+      "learning_rate": 0.0005523774941045244,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 137675872,
+      "step": 63745
+    },
+    {
+      "epoch": 10.399673735725939,
+      "grad_norm": 0.006388854701071978,
+      "learning_rate": 0.0005523067053784143,
+      "loss": 0.013,
+      "num_input_tokens_seen": 137687328,
+      "step": 63750
+    },
+    {
+      "epoch": 10.400489396411093,
+      "grad_norm": 0.02298627234995365,
+      "learning_rate": 0.0005522359155922425,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 137699072,
+      "step": 63755
+    },
+    {
+      "epoch": 10.401305057096248,
+      "grad_norm": 0.003545205108821392,
+      "learning_rate": 0.0005521651247474436,
+      "loss": 0.0531,
+      "num_input_tokens_seen": 137710720,
+      "step": 63760
+    },
+    {
+      "epoch": 10.402120717781402,
+      "grad_norm": 0.10142495483160019,
+      "learning_rate": 0.0005520943328454523,
+      "loss": 0.2223,
+      "num_input_tokens_seen": 137720640,
+      "step": 63765
+    },
+    {
+      "epoch": 10.402936378466558,
+      "grad_norm": 0.007538018748164177,
+      "learning_rate": 0.0005520235398877032,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 137732000,
+      "step": 63770
+    },
+    {
+      "epoch": 10.403752039151712,
+      "grad_norm": 0.018357079476118088,
+      "learning_rate": 0.0005519527458756312,
+      "loss": 0.1069,
+      "num_input_tokens_seen": 137741760,
+      "step": 63775
+    },
+    {
+      "epoch": 10.404567699836868,
+      "grad_norm": 0.0528842993080616,
+      "learning_rate": 0.0005518819508106706,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 137753408,
+      "step": 63780
+    },
+    {
+      "epoch": 10.405383360522023,
+      "grad_norm": 0.00990887638181448,
+      "learning_rate": 0.0005518111546942567,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 137764608,
+      "step": 63785
+    },
+    {
+      "epoch": 10.406199021207177,
+      "grad_norm": 0.023492760956287384,
+      "learning_rate": 0.000551740357527824,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 137775712,
+      "step": 63790
+    },
+    {
+      "epoch": 10.407014681892333,
+      "grad_norm": 0.11711253225803375,
+      "learning_rate": 0.0005516695593128073,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 137786304,
+      "step": 63795
+    },
+    {
+      "epoch": 10.407830342577487,
+      "grad_norm": 0.00303363474085927,
+      "learning_rate": 0.0005515987600506414,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 137797376,
+      "step": 63800
+    },
+    {
+      "epoch": 10.408646003262643,
+      "grad_norm": 0.008306864649057388,
+      "learning_rate": 0.0005515279597427612,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 137808928,
+      "step": 63805
+    },
+    {
+      "epoch": 10.409461663947798,
+      "grad_norm": 0.029468778520822525,
+      "learning_rate": 0.0005514571583906014,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 137819872,
+      "step": 63810
+    },
+    {
+      "epoch": 10.410277324632952,
+      "grad_norm": 0.3117620348930359,
+      "learning_rate": 0.0005513863559955971,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 137830528,
+      "step": 63815
+    },
+    {
+      "epoch": 10.411092985318108,
+      "grad_norm": 0.11586478352546692,
+      "learning_rate": 0.0005513155525591831,
+      "loss": 0.016,
+      "num_input_tokens_seen": 137841920,
+      "step": 63820
+    },
+    {
+      "epoch": 10.411908646003262,
+      "grad_norm": 0.1153964027762413,
+      "learning_rate": 0.0005512447480827945,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 137853280,
+      "step": 63825
+    },
+    {
+      "epoch": 10.412724306688418,
+      "grad_norm": 0.00367523985914886,
+      "learning_rate": 0.0005511739425678658,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 137861984,
+      "step": 63830
+    },
+    {
+      "epoch": 10.413539967373573,
+      "grad_norm": 0.02312796749174595,
+      "learning_rate": 0.0005511031360158324,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 137872192,
+      "step": 63835
+    },
+    {
+      "epoch": 10.414355628058727,
+      "grad_norm": 0.005195770412683487,
+      "learning_rate": 0.0005510323284281291,
+      "loss": 0.1633,
+      "num_input_tokens_seen": 137884160,
+      "step": 63840
+    },
+    {
+      "epoch": 10.415171288743883,
+      "grad_norm": 0.01457708328962326,
+      "learning_rate": 0.0005509615198061909,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 137894912,
+      "step": 63845
+    },
+    {
+      "epoch": 10.415986949429037,
+      "grad_norm": 0.4979305863380432,
+      "learning_rate": 0.0005508907101514529,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 137903648,
+      "step": 63850
+    },
+    {
+      "epoch": 10.416802610114193,
+      "grad_norm": 0.028883550316095352,
+      "learning_rate": 0.0005508198994653501,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 137915680,
+      "step": 63855
+    },
+    {
+      "epoch": 10.417618270799348,
+      "grad_norm": 0.015348607674241066,
+      "learning_rate": 0.0005507490877493176,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 137926912,
+      "step": 63860
+    },
+    {
+      "epoch": 10.418433931484502,
+      "grad_norm": 0.09224829822778702,
+      "learning_rate": 0.0005506782750047903,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 137936192,
+      "step": 63865
+    },
+    {
+      "epoch": 10.419249592169658,
+      "grad_norm": 0.011172234080731869,
+      "learning_rate": 0.0005506074612332035,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 137945856,
+      "step": 63870
+    },
+    {
+      "epoch": 10.420065252854812,
+      "grad_norm": 0.010413877665996552,
+      "learning_rate": 0.0005505366464359924,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 137956864,
+      "step": 63875
+    },
+    {
+      "epoch": 10.420880913539968,
+      "grad_norm": 0.030237272381782532,
+      "learning_rate": 0.000550465830614592,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 137969088,
+      "step": 63880
+    },
+    {
+      "epoch": 10.421696574225122,
+      "grad_norm": 0.04134310036897659,
+      "learning_rate": 0.0005503950137704374,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 137979072,
+      "step": 63885
+    },
+    {
+      "epoch": 10.422512234910277,
+      "grad_norm": 0.6153962016105652,
+      "learning_rate": 0.0005503241959049641,
+      "loss": 0.2252,
+      "num_input_tokens_seen": 137990240,
+      "step": 63890
+    },
+    {
+      "epoch": 10.423327895595433,
+      "grad_norm": 0.30122601985931396,
+      "learning_rate": 0.000550253377019607,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 138000832,
+      "step": 63895
+    },
+    {
+      "epoch": 10.424143556280587,
+      "grad_norm": 0.00784077774733305,
+      "learning_rate": 0.0005501825571158016,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 138012576,
+      "step": 63900
+    },
+    {
+      "epoch": 10.424959216965743,
+      "grad_norm": 0.0033007084857672453,
+      "learning_rate": 0.000550111736194983,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 138024000,
+      "step": 63905
+    },
+    {
+      "epoch": 10.425774877650896,
+      "grad_norm": 0.043511830270290375,
+      "learning_rate": 0.0005500409142585864,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 138034464,
+      "step": 63910
+    },
+    {
+      "epoch": 10.426590538336052,
+      "grad_norm": 0.02446580119431019,
+      "learning_rate": 0.0005499700913080472,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 138044448,
+      "step": 63915
+    },
+    {
+      "epoch": 10.427406199021208,
+      "grad_norm": 0.0117116067558527,
+      "learning_rate": 0.0005498992673448008,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 138055424,
+      "step": 63920
+    },
+    {
+      "epoch": 10.428221859706362,
+      "grad_norm": 0.16764822602272034,
+      "learning_rate": 0.0005498284423702824,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 138066560,
+      "step": 63925
+    },
+    {
+      "epoch": 10.429037520391518,
+      "grad_norm": 0.04869011417031288,
+      "learning_rate": 0.0005497576163859273,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 138076992,
+      "step": 63930
+    },
+    {
+      "epoch": 10.429853181076671,
+      "grad_norm": 0.32588332891464233,
+      "learning_rate": 0.0005496867893931711,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 138087296,
+      "step": 63935
+    },
+    {
+      "epoch": 10.430668841761827,
+      "grad_norm": 0.012518075294792652,
+      "learning_rate": 0.0005496159613934492,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 138097184,
+      "step": 63940
+    },
+    {
+      "epoch": 10.431484502446983,
+      "grad_norm": 0.11210685223340988,
+      "learning_rate": 0.0005495451323881967,
+      "loss": 0.0525,
+      "num_input_tokens_seen": 138109216,
+      "step": 63945
+    },
+    {
+      "epoch": 10.432300163132137,
+      "grad_norm": 0.07045716047286987,
+      "learning_rate": 0.0005494743023788493,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 138120032,
+      "step": 63950
+    },
+    {
+      "epoch": 10.433115823817293,
+      "grad_norm": 0.006280902773141861,
+      "learning_rate": 0.0005494034713668423,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 138129696,
+      "step": 63955
+    },
+    {
+      "epoch": 10.433931484502446,
+      "grad_norm": 0.022228620946407318,
+      "learning_rate": 0.0005493326393536113,
+      "loss": 0.005,
+      "num_input_tokens_seen": 138141984,
+      "step": 63960
+    },
+    {
+      "epoch": 10.434747145187602,
+      "grad_norm": 0.41118839383125305,
+      "learning_rate": 0.000549261806340592,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 138152512,
+      "step": 63965
+    },
+    {
+      "epoch": 10.435562805872756,
+      "grad_norm": 0.0460282601416111,
+      "learning_rate": 0.0005491909723292196,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 138164160,
+      "step": 63970
+    },
+    {
+      "epoch": 10.436378466557912,
+      "grad_norm": 0.007916356436908245,
+      "learning_rate": 0.0005491201373209295,
+      "loss": 0.007,
+      "num_input_tokens_seen": 138175200,
+      "step": 63975
+    },
+    {
+      "epoch": 10.437194127243067,
+      "grad_norm": 0.006717904936522245,
+      "learning_rate": 0.0005490493013171578,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 138185568,
+      "step": 63980
+    },
+    {
+      "epoch": 10.438009787928221,
+      "grad_norm": 0.03154471516609192,
+      "learning_rate": 0.0005489784643193397,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 138195904,
+      "step": 63985
+    },
+    {
+      "epoch": 10.438825448613377,
+      "grad_norm": 0.021439258009195328,
+      "learning_rate": 0.0005489076263289109,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 138206112,
+      "step": 63990
+    },
+    {
+      "epoch": 10.439641109298531,
+      "grad_norm": 0.013829846866428852,
+      "learning_rate": 0.000548836787347307,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 138216320,
+      "step": 63995
+    },
+    {
+      "epoch": 10.440456769983687,
+      "grad_norm": 0.03632638603448868,
+      "learning_rate": 0.0005487659473759635,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 138226656,
+      "step": 64000
+    },
+    {
+      "epoch": 10.441272430668842,
+      "grad_norm": 0.007183171808719635,
+      "learning_rate": 0.0005486951064163164,
+      "loss": 0.1501,
+      "num_input_tokens_seen": 138237664,
+      "step": 64005
+    },
+    {
+      "epoch": 10.442088091353996,
+      "grad_norm": 0.00477360375225544,
+      "learning_rate": 0.0005486242644698011,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 138249568,
+      "step": 64010
+    },
+    {
+      "epoch": 10.442903752039152,
+      "grad_norm": 0.013287726789712906,
+      "learning_rate": 0.0005485534215378535,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 138260128,
+      "step": 64015
+    },
+    {
+      "epoch": 10.443719412724306,
+      "grad_norm": 0.013567056506872177,
+      "learning_rate": 0.0005484825776219092,
+      "loss": 0.059,
+      "num_input_tokens_seen": 138270464,
+      "step": 64020
+    },
+    {
+      "epoch": 10.444535073409462,
+      "grad_norm": 0.02812664769589901,
+      "learning_rate": 0.0005484117327234038,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 138280672,
+      "step": 64025
+    },
+    {
+      "epoch": 10.445350734094617,
+      "grad_norm": 0.0012703530956059694,
+      "learning_rate": 0.0005483408868437734,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 138290944,
+      "step": 64030
+    },
+    {
+      "epoch": 10.446166394779771,
+      "grad_norm": 0.9293310046195984,
+      "learning_rate": 0.0005482700399844536,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 138301728,
+      "step": 64035
+    },
+    {
+      "epoch": 10.446982055464927,
+      "grad_norm": 0.056482378393411636,
+      "learning_rate": 0.0005481991921468801,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 138313248,
+      "step": 64040
+    },
+    {
+      "epoch": 10.447797716150081,
+      "grad_norm": 0.2966460585594177,
+      "learning_rate": 0.0005481283433324888,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 138324032,
+      "step": 64045
+    },
+    {
+      "epoch": 10.448613376835237,
+      "grad_norm": 0.23112505674362183,
+      "learning_rate": 0.0005480574935427157,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 138335424,
+      "step": 64050
+    },
+    {
+      "epoch": 10.449429037520392,
+      "grad_norm": 0.3356492221355438,
+      "learning_rate": 0.0005479866427789965,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 138346400,
+      "step": 64055
+    },
+    {
+      "epoch": 10.450244698205546,
+      "grad_norm": 0.003506778972223401,
+      "learning_rate": 0.0005479157910427672,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 138357600,
+      "step": 64060
+    },
+    {
+      "epoch": 10.451060358890702,
+      "grad_norm": 0.2725575268268585,
+      "learning_rate": 0.0005478449383354634,
+      "loss": 0.114,
+      "num_input_tokens_seen": 138368160,
+      "step": 64065
+    },
+    {
+      "epoch": 10.451876019575856,
+      "grad_norm": 0.003526828018948436,
+      "learning_rate": 0.0005477740846585213,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 138379008,
+      "step": 64070
+    },
+    {
+      "epoch": 10.452691680261012,
+      "grad_norm": 0.06649752706289291,
+      "learning_rate": 0.0005477032300133768,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 138389568,
+      "step": 64075
+    },
+    {
+      "epoch": 10.453507340946166,
+      "grad_norm": 0.25740283727645874,
+      "learning_rate": 0.0005476323744014658,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 138400160,
+      "step": 64080
+    },
+    {
+      "epoch": 10.454323001631321,
+      "grad_norm": 0.03396669030189514,
+      "learning_rate": 0.0005475615178242244,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 138410688,
+      "step": 64085
+    },
+    {
+      "epoch": 10.455138662316477,
+      "grad_norm": 0.0125178387388587,
+      "learning_rate": 0.0005474906602830884,
+      "loss": 0.039,
+      "num_input_tokens_seen": 138420320,
+      "step": 64090
+    },
+    {
+      "epoch": 10.455954323001631,
+      "grad_norm": 0.16476449370384216,
+      "learning_rate": 0.0005474198017794939,
+      "loss": 0.1703,
+      "num_input_tokens_seen": 138431680,
+      "step": 64095
+    },
+    {
+      "epoch": 10.456769983686787,
+      "grad_norm": 0.004711966495960951,
+      "learning_rate": 0.000547348942314877,
+      "loss": 0.1373,
+      "num_input_tokens_seen": 138442016,
+      "step": 64100
+    },
+    {
+      "epoch": 10.45758564437194,
+      "grad_norm": 0.02316650189459324,
+      "learning_rate": 0.0005472780818906736,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 138452096,
+      "step": 64105
+    },
+    {
+      "epoch": 10.458401305057096,
+      "grad_norm": 0.0701381042599678,
+      "learning_rate": 0.00054720722050832,
+      "loss": 0.072,
+      "num_input_tokens_seen": 138460288,
+      "step": 64110
+    },
+    {
+      "epoch": 10.459216965742252,
+      "grad_norm": 0.22336918115615845,
+      "learning_rate": 0.0005471363581692523,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 138471904,
+      "step": 64115
+    },
+    {
+      "epoch": 10.460032626427406,
+      "grad_norm": 0.003313810098916292,
+      "learning_rate": 0.0005470654948749065,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 138483072,
+      "step": 64120
+    },
+    {
+      "epoch": 10.460848287112562,
+      "grad_norm": 0.041474759578704834,
+      "learning_rate": 0.0005469946306267185,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 138494496,
+      "step": 64125
+    },
+    {
+      "epoch": 10.461663947797716,
+      "grad_norm": 0.003572209272533655,
+      "learning_rate": 0.0005469237654261249,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 138505856,
+      "step": 64130
+    },
+    {
+      "epoch": 10.462479608482871,
+      "grad_norm": 0.1137644425034523,
+      "learning_rate": 0.0005468528992745615,
+      "loss": 0.021,
+      "num_input_tokens_seen": 138517440,
+      "step": 64135
+    },
+    {
+      "epoch": 10.463295269168025,
+      "grad_norm": 0.002851669443771243,
+      "learning_rate": 0.0005467820321734647,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 138528320,
+      "step": 64140
+    },
+    {
+      "epoch": 10.464110929853181,
+      "grad_norm": 0.01338632870465517,
+      "learning_rate": 0.0005467111641242709,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 138537888,
+      "step": 64145
+    },
+    {
+      "epoch": 10.464926590538337,
+      "grad_norm": 0.2335215061903,
+      "learning_rate": 0.000546640295128416,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 138548672,
+      "step": 64150
+    },
+    {
+      "epoch": 10.46574225122349,
+      "grad_norm": 0.017317278310656548,
+      "learning_rate": 0.0005465694251873362,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 138560032,
+      "step": 64155
+    },
+    {
+      "epoch": 10.466557911908646,
+      "grad_norm": 0.03315971791744232,
+      "learning_rate": 0.000546498554302468,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 138571872,
+      "step": 64160
+    },
+    {
+      "epoch": 10.4673735725938,
+      "grad_norm": 0.4206830561161041,
+      "learning_rate": 0.0005464276824752477,
+      "loss": 0.1329,
+      "num_input_tokens_seen": 138583328,
+      "step": 64165
+    },
+    {
+      "epoch": 10.468189233278956,
+      "grad_norm": 0.007223771885037422,
+      "learning_rate": 0.0005463568097071115,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 138593664,
+      "step": 64170
+    },
+    {
+      "epoch": 10.469004893964112,
+      "grad_norm": 0.01341505441814661,
+      "learning_rate": 0.0005462859359994957,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 138605408,
+      "step": 64175
+    },
+    {
+      "epoch": 10.469820554649266,
+      "grad_norm": 0.005490301642566919,
+      "learning_rate": 0.0005462150613538366,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 138615936,
+      "step": 64180
+    },
+    {
+      "epoch": 10.470636215334421,
+      "grad_norm": 0.10406633466482162,
+      "learning_rate": 0.0005461441857715708,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 138626528,
+      "step": 64185
+    },
+    {
+      "epoch": 10.471451876019575,
+      "grad_norm": 0.004958090838044882,
+      "learning_rate": 0.0005460733092541345,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 138636288,
+      "step": 64190
+    },
+    {
+      "epoch": 10.47226753670473,
+      "grad_norm": 0.3021959364414215,
+      "learning_rate": 0.000546002431802964,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 138647904,
+      "step": 64195
+    },
+    {
+      "epoch": 10.473083197389887,
+      "grad_norm": 0.002978770760819316,
+      "learning_rate": 0.0005459315534194959,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 138657792,
+      "step": 64200
+    },
+    {
+      "epoch": 10.47389885807504,
+      "grad_norm": 0.007034600712358952,
+      "learning_rate": 0.0005458606741051667,
+      "loss": 0.013,
+      "num_input_tokens_seen": 138668672,
+      "step": 64205
+    },
+    {
+      "epoch": 10.474714518760196,
+      "grad_norm": 0.14886121451854706,
+      "learning_rate": 0.0005457897938614127,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 138679584,
+      "step": 64210
+    },
+    {
+      "epoch": 10.47553017944535,
+      "grad_norm": 0.11041484028100967,
+      "learning_rate": 0.0005457189126896704,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 138691712,
+      "step": 64215
+    },
+    {
+      "epoch": 10.476345840130506,
+      "grad_norm": 0.004423327744007111,
+      "learning_rate": 0.0005456480305913765,
+      "loss": 0.0999,
+      "num_input_tokens_seen": 138703648,
+      "step": 64220
+    },
+    {
+      "epoch": 10.477161500815662,
+      "grad_norm": 0.018787806853652,
+      "learning_rate": 0.0005455771475679673,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 138713920,
+      "step": 64225
+    },
+    {
+      "epoch": 10.477977161500815,
+      "grad_norm": 0.023285958915948868,
+      "learning_rate": 0.0005455062636208793,
+      "loss": 0.005,
+      "num_input_tokens_seen": 138724896,
+      "step": 64230
+    },
+    {
+      "epoch": 10.478792822185971,
+      "grad_norm": 0.002442354802042246,
+      "learning_rate": 0.0005454353787515493,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 138735584,
+      "step": 64235
+    },
+    {
+      "epoch": 10.479608482871125,
+      "grad_norm": 0.011334599927067757,
+      "learning_rate": 0.0005453644929614136,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 138745664,
+      "step": 64240
+    },
+    {
+      "epoch": 10.48042414355628,
+      "grad_norm": 0.017016872763633728,
+      "learning_rate": 0.0005452936062519088,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 138756576,
+      "step": 64245
+    },
+    {
+      "epoch": 10.481239804241435,
+      "grad_norm": 0.06044808775186539,
+      "learning_rate": 0.0005452227186244717,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 138766816,
+      "step": 64250
+    },
+    {
+      "epoch": 10.48205546492659,
+      "grad_norm": 0.0027733854949474335,
+      "learning_rate": 0.0005451518300805389,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 138777376,
+      "step": 64255
+    },
+    {
+      "epoch": 10.482871125611746,
+      "grad_norm": 0.001782201579771936,
+      "learning_rate": 0.0005450809406215469,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 138787648,
+      "step": 64260
+    },
+    {
+      "epoch": 10.4836867862969,
+      "grad_norm": 0.012305756099522114,
+      "learning_rate": 0.0005450100502489324,
+      "loss": 0.049,
+      "num_input_tokens_seen": 138798752,
+      "step": 64265
+    },
+    {
+      "epoch": 10.484502446982056,
+      "grad_norm": 0.008276435546576977,
+      "learning_rate": 0.0005449391589641321,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 138810016,
+      "step": 64270
+    },
+    {
+      "epoch": 10.48531810766721,
+      "grad_norm": 0.07297209650278091,
+      "learning_rate": 0.0005448682667685829,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 138821248,
+      "step": 64275
+    },
+    {
+      "epoch": 10.486133768352365,
+      "grad_norm": 0.047419674694538116,
+      "learning_rate": 0.0005447973736637214,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 138832320,
+      "step": 64280
+    },
+    {
+      "epoch": 10.486949429037521,
+      "grad_norm": 0.0257173590362072,
+      "learning_rate": 0.0005447264796509841,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 138842464,
+      "step": 64285
+    },
+    {
+      "epoch": 10.487765089722675,
+      "grad_norm": 0.004003862384706736,
+      "learning_rate": 0.0005446555847318081,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 138852960,
+      "step": 64290
+    },
+    {
+      "epoch": 10.48858075040783,
+      "grad_norm": 0.10330451279878616,
+      "learning_rate": 0.00054458468890763,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 138864384,
+      "step": 64295
+    },
+    {
+      "epoch": 10.489396411092985,
+      "grad_norm": 0.056239236146211624,
+      "learning_rate": 0.0005445137921798866,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 138876416,
+      "step": 64300
+    },
+    {
+      "epoch": 10.49021207177814,
+      "grad_norm": 0.0013666888698935509,
+      "learning_rate": 0.0005444428945500147,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 138886592,
+      "step": 64305
+    },
+    {
+      "epoch": 10.491027732463296,
+      "grad_norm": 0.1663975864648819,
+      "learning_rate": 0.0005443719960194513,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 138896864,
+      "step": 64310
+    },
+    {
+      "epoch": 10.49184339314845,
+      "grad_norm": 0.008711322210729122,
+      "learning_rate": 0.0005443010965896327,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 138907680,
+      "step": 64315
+    },
+    {
+      "epoch": 10.492659053833606,
+      "grad_norm": 0.01615816168487072,
+      "learning_rate": 0.0005442301962619965,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 138917472,
+      "step": 64320
+    },
+    {
+      "epoch": 10.49347471451876,
+      "grad_norm": 0.028369436040520668,
+      "learning_rate": 0.0005441592950379792,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 138927392,
+      "step": 64325
+    },
+    {
+      "epoch": 10.494290375203915,
+      "grad_norm": 0.09108876436948776,
+      "learning_rate": 0.0005440883929190179,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 138937792,
+      "step": 64330
+    },
+    {
+      "epoch": 10.49510603588907,
+      "grad_norm": 0.2788495421409607,
+      "learning_rate": 0.0005440174899065493,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 138949120,
+      "step": 64335
+    },
+    {
+      "epoch": 10.495921696574225,
+      "grad_norm": 0.003757023485377431,
+      "learning_rate": 0.0005439465860020104,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 138960832,
+      "step": 64340
+    },
+    {
+      "epoch": 10.49673735725938,
+      "grad_norm": 0.00556677533313632,
+      "learning_rate": 0.0005438756812068382,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 138971648,
+      "step": 64345
+    },
+    {
+      "epoch": 10.497553017944535,
+      "grad_norm": 0.07826634496450424,
+      "learning_rate": 0.0005438047755224696,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 138982432,
+      "step": 64350
+    },
+    {
+      "epoch": 10.49836867862969,
+      "grad_norm": 0.017965713515877724,
+      "learning_rate": 0.0005437338689503417,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 138992864,
+      "step": 64355
+    },
+    {
+      "epoch": 10.499184339314844,
+      "grad_norm": 0.00357259763404727,
+      "learning_rate": 0.0005436629614918915,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 139004768,
+      "step": 64360
+    },
+    {
+      "epoch": 10.5,
+      "grad_norm": 0.0022475633304566145,
+      "learning_rate": 0.0005435920531485559,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 139015680,
+      "step": 64365
+    },
+    {
+      "epoch": 10.500815660685156,
+      "grad_norm": 0.18087992072105408,
+      "learning_rate": 0.0005435211439217722,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 139025376,
+      "step": 64370
+    },
+    {
+      "epoch": 10.50163132137031,
+      "grad_norm": 0.01190586294978857,
+      "learning_rate": 0.0005434502338129773,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 139036288,
+      "step": 64375
+    },
+    {
+      "epoch": 10.502446982055465,
+      "grad_norm": 1.1199398040771484,
+      "learning_rate": 0.0005433793228236081,
+      "loss": 0.1947,
+      "num_input_tokens_seen": 139046752,
+      "step": 64380
+    },
+    {
+      "epoch": 10.50326264274062,
+      "grad_norm": 0.07040636241436005,
+      "learning_rate": 0.000543308410955102,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 139057184,
+      "step": 64385
+    },
+    {
+      "epoch": 10.504078303425775,
+      "grad_norm": 0.05645016208291054,
+      "learning_rate": 0.0005432374982088961,
+      "loss": 0.021,
+      "num_input_tokens_seen": 139067648,
+      "step": 64390
+    },
+    {
+      "epoch": 10.50489396411093,
+      "grad_norm": 0.006974777206778526,
+      "learning_rate": 0.0005431665845864274,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 139078528,
+      "step": 64395
+    },
+    {
+      "epoch": 10.505709624796085,
+      "grad_norm": 0.0022757535334676504,
+      "learning_rate": 0.0005430956700891331,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 139090624,
+      "step": 64400
+    },
+    {
+      "epoch": 10.50652528548124,
+      "grad_norm": 0.4144793152809143,
+      "learning_rate": 0.0005430247547184504,
+      "loss": 0.066,
+      "num_input_tokens_seen": 139101760,
+      "step": 64405
+    },
+    {
+      "epoch": 10.507340946166394,
+      "grad_norm": 0.011025538668036461,
+      "learning_rate": 0.0005429538384758162,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 139112672,
+      "step": 64410
+    },
+    {
+      "epoch": 10.50815660685155,
+      "grad_norm": 0.07199998944997787,
+      "learning_rate": 0.0005428829213626683,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 139121440,
+      "step": 64415
+    },
+    {
+      "epoch": 10.508972267536706,
+      "grad_norm": 0.0066911992616951466,
+      "learning_rate": 0.0005428120033804433,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 139132512,
+      "step": 64420
+    },
+    {
+      "epoch": 10.50978792822186,
+      "grad_norm": 0.007305980194360018,
+      "learning_rate": 0.0005427410845305791,
+      "loss": 0.0751,
+      "num_input_tokens_seen": 139143392,
+      "step": 64425
+    },
+    {
+      "epoch": 10.510603588907015,
+      "grad_norm": 0.0012512394459918141,
+      "learning_rate": 0.0005426701648145124,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 139154880,
+      "step": 64430
+    },
+    {
+      "epoch": 10.51141924959217,
+      "grad_norm": 0.23672683537006378,
+      "learning_rate": 0.0005425992442336805,
+      "loss": 0.1436,
+      "num_input_tokens_seen": 139164480,
+      "step": 64435
+    },
+    {
+      "epoch": 10.512234910277325,
+      "grad_norm": 0.008508339524269104,
+      "learning_rate": 0.0005425283227895212,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 139173856,
+      "step": 64440
+    },
+    {
+      "epoch": 10.513050570962479,
+      "grad_norm": 0.1878798007965088,
+      "learning_rate": 0.0005424574004834712,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 139186016,
+      "step": 64445
+    },
+    {
+      "epoch": 10.513866231647635,
+      "grad_norm": 0.03218397870659828,
+      "learning_rate": 0.0005423864773169683,
+      "loss": 0.1763,
+      "num_input_tokens_seen": 139197088,
+      "step": 64450
+    },
+    {
+      "epoch": 10.51468189233279,
+      "grad_norm": 0.015488283708691597,
+      "learning_rate": 0.0005423155532914497,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 139207264,
+      "step": 64455
+    },
+    {
+      "epoch": 10.515497553017944,
+      "grad_norm": 0.011527454480528831,
+      "learning_rate": 0.0005422446284083527,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 139219040,
+      "step": 64460
+    },
+    {
+      "epoch": 10.5163132137031,
+      "grad_norm": 0.006106112617999315,
+      "learning_rate": 0.0005421737026691147,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 139230784,
+      "step": 64465
+    },
+    {
+      "epoch": 10.517128874388254,
+      "grad_norm": 0.00418028375133872,
+      "learning_rate": 0.0005421027760751731,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 139240512,
+      "step": 64470
+    },
+    {
+      "epoch": 10.51794453507341,
+      "grad_norm": 0.04402640089392662,
+      "learning_rate": 0.0005420318486279653,
+      "loss": 0.114,
+      "num_input_tokens_seen": 139250304,
+      "step": 64475
+    },
+    {
+      "epoch": 10.518760195758565,
+      "grad_norm": 0.42352381348609924,
+      "learning_rate": 0.0005419609203289288,
+      "loss": 0.1085,
+      "num_input_tokens_seen": 139261280,
+      "step": 64480
+    },
+    {
+      "epoch": 10.51957585644372,
+      "grad_norm": 0.25291287899017334,
+      "learning_rate": 0.0005418899911795011,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 139272640,
+      "step": 64485
+    },
+    {
+      "epoch": 10.520391517128875,
+      "grad_norm": 0.0042486912570893764,
+      "learning_rate": 0.0005418190611811194,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 139283168,
+      "step": 64490
+    },
+    {
+      "epoch": 10.521207177814029,
+      "grad_norm": 0.020534677430987358,
+      "learning_rate": 0.0005417481303352216,
+      "loss": 0.2991,
+      "num_input_tokens_seen": 139293920,
+      "step": 64495
+    },
+    {
+      "epoch": 10.522022838499185,
+      "grad_norm": 0.018889861181378365,
+      "learning_rate": 0.0005416771986432448,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 139304416,
+      "step": 64500
+    },
+    {
+      "epoch": 10.522838499184338,
+      "grad_norm": 0.29440486431121826,
+      "learning_rate": 0.0005416062661066268,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 139316224,
+      "step": 64505
+    },
+    {
+      "epoch": 10.523654159869494,
+      "grad_norm": 0.04716013744473457,
+      "learning_rate": 0.000541535332726805,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 139327072,
+      "step": 64510
+    },
+    {
+      "epoch": 10.52446982055465,
+      "grad_norm": 0.007669588550925255,
+      "learning_rate": 0.000541464398505217,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 139337504,
+      "step": 64515
+    },
+    {
+      "epoch": 10.525285481239804,
+      "grad_norm": 0.2716355621814728,
+      "learning_rate": 0.0005413934634433003,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 139347616,
+      "step": 64520
+    },
+    {
+      "epoch": 10.52610114192496,
+      "grad_norm": 0.18859538435935974,
+      "learning_rate": 0.0005413225275424926,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 139359456,
+      "step": 64525
+    },
+    {
+      "epoch": 10.526916802610113,
+      "grad_norm": 0.30474743247032166,
+      "learning_rate": 0.0005412515908042314,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 139370752,
+      "step": 64530
+    },
+    {
+      "epoch": 10.52773246329527,
+      "grad_norm": 0.030280984938144684,
+      "learning_rate": 0.0005411806532299544,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 139379584,
+      "step": 64535
+    },
+    {
+      "epoch": 10.528548123980425,
+      "grad_norm": 0.2833738923072815,
+      "learning_rate": 0.0005411097148210992,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 139389152,
+      "step": 64540
+    },
+    {
+      "epoch": 10.529363784665579,
+      "grad_norm": 0.22054560482501984,
+      "learning_rate": 0.0005410387755791036,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 139400416,
+      "step": 64545
+    },
+    {
+      "epoch": 10.530179445350734,
+      "grad_norm": 0.5191470980644226,
+      "learning_rate": 0.0005409678355054051,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 139411456,
+      "step": 64550
+    },
+    {
+      "epoch": 10.530995106035888,
+      "grad_norm": 0.004127180203795433,
+      "learning_rate": 0.0005408968946014416,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 139422880,
+      "step": 64555
+    },
+    {
+      "epoch": 10.531810766721044,
+      "grad_norm": 0.0998779833316803,
+      "learning_rate": 0.0005408259528686503,
+      "loss": 0.2009,
+      "num_input_tokens_seen": 139433632,
+      "step": 64560
+    },
+    {
+      "epoch": 10.5326264274062,
+      "grad_norm": 0.03429444134235382,
+      "learning_rate": 0.0005407550103084695,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 139443520,
+      "step": 64565
+    },
+    {
+      "epoch": 10.533442088091354,
+      "grad_norm": 0.0019338505808264017,
+      "learning_rate": 0.0005406840669223367,
+      "loss": 0.012,
+      "num_input_tokens_seen": 139455456,
+      "step": 64570
+    },
+    {
+      "epoch": 10.53425774877651,
+      "grad_norm": 0.05488257855176926,
+      "learning_rate": 0.0005406131227116896,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 139465600,
+      "step": 64575
+    },
+    {
+      "epoch": 10.535073409461663,
+      "grad_norm": 0.11232556402683258,
+      "learning_rate": 0.000540542177677966,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 139475744,
+      "step": 64580
+    },
+    {
+      "epoch": 10.535889070146819,
+      "grad_norm": 0.011859245598316193,
+      "learning_rate": 0.0005404712318226038,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 139485280,
+      "step": 64585
+    },
+    {
+      "epoch": 10.536704730831975,
+      "grad_norm": 0.022117752581834793,
+      "learning_rate": 0.0005404002851470409,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 139495872,
+      "step": 64590
+    },
+    {
+      "epoch": 10.537520391517129,
+      "grad_norm": 0.01723141223192215,
+      "learning_rate": 0.0005403293376527148,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 139506112,
+      "step": 64595
+    },
+    {
+      "epoch": 10.538336052202284,
+      "grad_norm": 0.12899601459503174,
+      "learning_rate": 0.0005402583893410636,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 139516672,
+      "step": 64600
+    },
+    {
+      "epoch": 10.539151712887438,
+      "grad_norm": 0.1691344976425171,
+      "learning_rate": 0.0005401874402135249,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 139527072,
+      "step": 64605
+    },
+    {
+      "epoch": 10.539967373572594,
+      "grad_norm": 0.17849282920360565,
+      "learning_rate": 0.000540116490271537,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 139538656,
+      "step": 64610
+    },
+    {
+      "epoch": 10.540783034257748,
+      "grad_norm": 0.010269011370837688,
+      "learning_rate": 0.0005400455395165373,
+      "loss": 0.1574,
+      "num_input_tokens_seen": 139549568,
+      "step": 64615
+    },
+    {
+      "epoch": 10.541598694942904,
+      "grad_norm": 0.39542660117149353,
+      "learning_rate": 0.0005399745879499641,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 139560768,
+      "step": 64620
+    },
+    {
+      "epoch": 10.54241435562806,
+      "grad_norm": 0.011781658045947552,
+      "learning_rate": 0.0005399036355732552,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 139571232,
+      "step": 64625
+    },
+    {
+      "epoch": 10.543230016313213,
+      "grad_norm": 0.018769023939967155,
+      "learning_rate": 0.0005398326823878482,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 139583200,
+      "step": 64630
+    },
+    {
+      "epoch": 10.544045676998369,
+      "grad_norm": 0.04893181473016739,
+      "learning_rate": 0.0005397617283951816,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 139592032,
+      "step": 64635
+    },
+    {
+      "epoch": 10.544861337683523,
+      "grad_norm": 0.04125187546014786,
+      "learning_rate": 0.000539690773596693,
+      "loss": 0.026,
+      "num_input_tokens_seen": 139603712,
+      "step": 64640
+    },
+    {
+      "epoch": 10.545676998368679,
+      "grad_norm": 0.09487692266702652,
+      "learning_rate": 0.0005396198179938208,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 139614400,
+      "step": 64645
+    },
+    {
+      "epoch": 10.546492659053834,
+      "grad_norm": 0.4042510986328125,
+      "learning_rate": 0.0005395488615880024,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 139625984,
+      "step": 64650
+    },
+    {
+      "epoch": 10.547308319738988,
+      "grad_norm": 0.011217739433050156,
+      "learning_rate": 0.0005394779043806764,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 139635936,
+      "step": 64655
+    },
+    {
+      "epoch": 10.548123980424144,
+      "grad_norm": 0.0025864015333354473,
+      "learning_rate": 0.0005394069463732805,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 139646048,
+      "step": 64660
+    },
+    {
+      "epoch": 10.548939641109298,
+      "grad_norm": 0.04871753975749016,
+      "learning_rate": 0.0005393359875672527,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 139656512,
+      "step": 64665
+    },
+    {
+      "epoch": 10.549755301794454,
+      "grad_norm": 0.009117928333580494,
+      "learning_rate": 0.0005392650279640314,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 139667552,
+      "step": 64670
+    },
+    {
+      "epoch": 10.550570962479608,
+      "grad_norm": 0.00621196161955595,
+      "learning_rate": 0.0005391940675650545,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 139679200,
+      "step": 64675
+    },
+    {
+      "epoch": 10.551386623164763,
+      "grad_norm": 0.14022231101989746,
+      "learning_rate": 0.00053912310637176,
+      "loss": 0.017,
+      "num_input_tokens_seen": 139691104,
+      "step": 64680
+    },
+    {
+      "epoch": 10.552202283849919,
+      "grad_norm": 0.005030880682170391,
+      "learning_rate": 0.0005390521443855861,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 139702176,
+      "step": 64685
+    },
+    {
+      "epoch": 10.553017944535073,
+      "grad_norm": 0.0799722671508789,
+      "learning_rate": 0.0005389811816079711,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 139712736,
+      "step": 64690
+    },
+    {
+      "epoch": 10.553833605220229,
+      "grad_norm": 0.009314349852502346,
+      "learning_rate": 0.0005389102180403529,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 139723072,
+      "step": 64695
+    },
+    {
+      "epoch": 10.554649265905383,
+      "grad_norm": 0.02171134017407894,
+      "learning_rate": 0.0005388392536841697,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 139733376,
+      "step": 64700
+    },
+    {
+      "epoch": 10.555464926590538,
+      "grad_norm": 0.006424791179597378,
+      "learning_rate": 0.00053876828854086,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 139745024,
+      "step": 64705
+    },
+    {
+      "epoch": 10.556280587275694,
+      "grad_norm": 0.002661141101270914,
+      "learning_rate": 0.0005386973226118615,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 139755168,
+      "step": 64710
+    },
+    {
+      "epoch": 10.557096247960848,
+      "grad_norm": 0.010994684882462025,
+      "learning_rate": 0.0005386263558986127,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 139766144,
+      "step": 64715
+    },
+    {
+      "epoch": 10.557911908646004,
+      "grad_norm": 0.001512798946350813,
+      "learning_rate": 0.0005385553884025519,
+      "loss": 0.005,
+      "num_input_tokens_seen": 139777248,
+      "step": 64720
+    },
+    {
+      "epoch": 10.558727569331158,
+      "grad_norm": 0.022147612646222115,
+      "learning_rate": 0.000538484420125117,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 139788000,
+      "step": 64725
+    },
+    {
+      "epoch": 10.559543230016313,
+      "grad_norm": 0.003416349645704031,
+      "learning_rate": 0.0005384134510677468,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 139799328,
+      "step": 64730
+    },
+    {
+      "epoch": 10.560358890701469,
+      "grad_norm": 0.31981605291366577,
+      "learning_rate": 0.0005383424812318791,
+      "loss": 0.1284,
+      "num_input_tokens_seen": 139810144,
+      "step": 64735
+    },
+    {
+      "epoch": 10.561174551386623,
+      "grad_norm": 0.03253169730305672,
+      "learning_rate": 0.0005382715106189525,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 139820480,
+      "step": 64740
+    },
+    {
+      "epoch": 10.561990212071779,
+      "grad_norm": 0.17456290125846863,
+      "learning_rate": 0.0005382005392304051,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 139831040,
+      "step": 64745
+    },
+    {
+      "epoch": 10.562805872756933,
+      "grad_norm": 0.06870071589946747,
+      "learning_rate": 0.0005381295670676752,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 139840800,
+      "step": 64750
+    },
+    {
+      "epoch": 10.563621533442088,
+      "grad_norm": 0.015359500423073769,
+      "learning_rate": 0.0005380585941322014,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 139851904,
+      "step": 64755
+    },
+    {
+      "epoch": 10.564437194127244,
+      "grad_norm": 0.4003918170928955,
+      "learning_rate": 0.000537987620425422,
+      "loss": 0.0464,
+      "num_input_tokens_seen": 139863200,
+      "step": 64760
+    },
+    {
+      "epoch": 10.565252854812398,
+      "grad_norm": 0.3785932660102844,
+      "learning_rate": 0.0005379166459487752,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 139873312,
+      "step": 64765
+    },
+    {
+      "epoch": 10.566068515497554,
+      "grad_norm": 0.0021906422916799784,
+      "learning_rate": 0.0005378456707036995,
+      "loss": 0.016,
+      "num_input_tokens_seen": 139885440,
+      "step": 64770
+    },
+    {
+      "epoch": 10.566884176182707,
+      "grad_norm": 0.007869427092373371,
+      "learning_rate": 0.0005377746946916332,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 139894336,
+      "step": 64775
+    },
+    {
+      "epoch": 10.567699836867863,
+      "grad_norm": 0.0180523581802845,
+      "learning_rate": 0.0005377037179140149,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 139906016,
+      "step": 64780
+    },
+    {
+      "epoch": 10.568515497553017,
+      "grad_norm": 0.18199679255485535,
+      "learning_rate": 0.0005376327403722828,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 139917792,
+      "step": 64785
+    },
+    {
+      "epoch": 10.569331158238173,
+      "grad_norm": 0.01165593322366476,
+      "learning_rate": 0.0005375617620678756,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 139928608,
+      "step": 64790
+    },
+    {
+      "epoch": 10.570146818923329,
+      "grad_norm": 0.013312139548361301,
+      "learning_rate": 0.0005374907830022316,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 139940352,
+      "step": 64795
+    },
+    {
+      "epoch": 10.570962479608482,
+      "grad_norm": 0.020462390035390854,
+      "learning_rate": 0.0005374198031767892,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 139950656,
+      "step": 64800
+    },
+    {
+      "epoch": 10.571778140293638,
+      "grad_norm": 0.09696569293737411,
+      "learning_rate": 0.0005373488225929871,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 139960864,
+      "step": 64805
+    },
+    {
+      "epoch": 10.572593800978792,
+      "grad_norm": 0.03129251301288605,
+      "learning_rate": 0.0005372778412522638,
+      "loss": 0.006,
+      "num_input_tokens_seen": 139971968,
+      "step": 64810
+    },
+    {
+      "epoch": 10.573409461663948,
+      "grad_norm": 0.1927904337644577,
+      "learning_rate": 0.0005372068591560577,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 139982816,
+      "step": 64815
+    },
+    {
+      "epoch": 10.574225122349104,
+      "grad_norm": 0.012073406018316746,
+      "learning_rate": 0.0005371358763058074,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 139991904,
+      "step": 64820
+    },
+    {
+      "epoch": 10.575040783034257,
+      "grad_norm": 0.0031769592314958572,
+      "learning_rate": 0.0005370648927029515,
+      "loss": 0.1062,
+      "num_input_tokens_seen": 140002784,
+      "step": 64825
+    },
+    {
+      "epoch": 10.575856443719413,
+      "grad_norm": 0.0018186360830441117,
+      "learning_rate": 0.0005369939083489283,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 140014272,
+      "step": 64830
+    },
+    {
+      "epoch": 10.576672104404567,
+      "grad_norm": 0.30345040559768677,
+      "learning_rate": 0.0005369229232451769,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 140025376,
+      "step": 64835
+    },
+    {
+      "epoch": 10.577487765089723,
+      "grad_norm": 0.00335653405636549,
+      "learning_rate": 0.0005368519373931355,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 140036832,
+      "step": 64840
+    },
+    {
+      "epoch": 10.578303425774878,
+      "grad_norm": 0.006152989808470011,
+      "learning_rate": 0.0005367809507942429,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 140046464,
+      "step": 64845
+    },
+    {
+      "epoch": 10.579119086460032,
+      "grad_norm": 0.44906291365623474,
+      "learning_rate": 0.0005367099634499375,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 140056992,
+      "step": 64850
+    },
+    {
+      "epoch": 10.579934747145188,
+      "grad_norm": 0.3523012101650238,
+      "learning_rate": 0.0005366389753616583,
+      "loss": 0.2722,
+      "num_input_tokens_seen": 140068320,
+      "step": 64855
+    },
+    {
+      "epoch": 10.580750407830342,
+      "grad_norm": 0.014367824420332909,
+      "learning_rate": 0.0005365679865308437,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 140079328,
+      "step": 64860
+    },
+    {
+      "epoch": 10.581566068515498,
+      "grad_norm": 0.011161359958350658,
+      "learning_rate": 0.0005364969969589325,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 140089056,
+      "step": 64865
+    },
+    {
+      "epoch": 10.582381729200652,
+      "grad_norm": 0.0025692936033010483,
+      "learning_rate": 0.0005364260066473634,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 140100160,
+      "step": 64870
+    },
+    {
+      "epoch": 10.583197389885807,
+      "grad_norm": 0.3549707233905792,
+      "learning_rate": 0.000536355015597575,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 140112128,
+      "step": 64875
+    },
+    {
+      "epoch": 10.584013050570963,
+      "grad_norm": 0.01046574767678976,
+      "learning_rate": 0.0005362840238110061,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 140123456,
+      "step": 64880
+    },
+    {
+      "epoch": 10.584828711256117,
+      "grad_norm": 0.02689875289797783,
+      "learning_rate": 0.0005362130312890955,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 140132320,
+      "step": 64885
+    },
+    {
+      "epoch": 10.585644371941273,
+      "grad_norm": 0.2877082824707031,
+      "learning_rate": 0.0005361420380332818,
+      "loss": 0.2631,
+      "num_input_tokens_seen": 140142880,
+      "step": 64890
+    },
+    {
+      "epoch": 10.586460032626427,
+      "grad_norm": 0.015195044688880444,
+      "learning_rate": 0.0005360710440450037,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 140152896,
+      "step": 64895
+    },
+    {
+      "epoch": 10.587275693311582,
+      "grad_norm": 0.162540003657341,
+      "learning_rate": 0.0005360000493257003,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 140162656,
+      "step": 64900
+    },
+    {
+      "epoch": 10.588091353996738,
+      "grad_norm": 0.00751123484224081,
+      "learning_rate": 0.0005359290538768102,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 140173568,
+      "step": 64905
+    },
+    {
+      "epoch": 10.588907014681892,
+      "grad_norm": 0.18104144930839539,
+      "learning_rate": 0.0005358580576997723,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 140184192,
+      "step": 64910
+    },
+    {
+      "epoch": 10.589722675367048,
+      "grad_norm": 0.089718297123909,
+      "learning_rate": 0.0005357870607960255,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 140195648,
+      "step": 64915
+    },
+    {
+      "epoch": 10.590538336052202,
+      "grad_norm": 0.02439286932349205,
+      "learning_rate": 0.0005357160631670083,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 140206784,
+      "step": 64920
+    },
+    {
+      "epoch": 10.591353996737357,
+      "grad_norm": 0.3429160416126251,
+      "learning_rate": 0.0005356450648141599,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 140218048,
+      "step": 64925
+    },
+    {
+      "epoch": 10.592169657422513,
+      "grad_norm": 0.03793445602059364,
+      "learning_rate": 0.0005355740657389189,
+      "loss": 0.017,
+      "num_input_tokens_seen": 140228256,
+      "step": 64930
+    },
+    {
+      "epoch": 10.592985318107667,
+      "grad_norm": 0.012508481740951538,
+      "learning_rate": 0.0005355030659427245,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 140238688,
+      "step": 64935
+    },
+    {
+      "epoch": 10.593800978792823,
+      "grad_norm": 0.02273573912680149,
+      "learning_rate": 0.0005354320654270153,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 140249600,
+      "step": 64940
+    },
+    {
+      "epoch": 10.594616639477977,
+      "grad_norm": 0.326787531375885,
+      "learning_rate": 0.0005353610641932304,
+      "loss": 0.2481,
+      "num_input_tokens_seen": 140260576,
+      "step": 64945
+    },
+    {
+      "epoch": 10.595432300163132,
+      "grad_norm": 0.04980117827653885,
+      "learning_rate": 0.0005352900622428086,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 140271776,
+      "step": 64950
+    },
+    {
+      "epoch": 10.596247960848288,
+      "grad_norm": 0.01142844371497631,
+      "learning_rate": 0.0005352190595771889,
+      "loss": 0.0473,
+      "num_input_tokens_seen": 140282528,
+      "step": 64955
+    },
+    {
+      "epoch": 10.597063621533442,
+      "grad_norm": 0.0047523933462798595,
+      "learning_rate": 0.0005351480561978103,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 140293568,
+      "step": 64960
+    },
+    {
+      "epoch": 10.597879282218598,
+      "grad_norm": 0.1998644769191742,
+      "learning_rate": 0.0005350770521061118,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 140305632,
+      "step": 64965
+    },
+    {
+      "epoch": 10.598694942903752,
+      "grad_norm": 0.09209080785512924,
+      "learning_rate": 0.0005350060473035324,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 140316832,
+      "step": 64970
+    },
+    {
+      "epoch": 10.599510603588907,
+      "grad_norm": 0.012417695485055447,
+      "learning_rate": 0.000534935041791511,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 140328736,
+      "step": 64975
+    },
+    {
+      "epoch": 10.600326264274061,
+      "grad_norm": 0.061468616127967834,
+      "learning_rate": 0.0005348640355714866,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 140339456,
+      "step": 64980
+    },
+    {
+      "epoch": 10.601141924959217,
+      "grad_norm": 0.009134767577052116,
+      "learning_rate": 0.0005347930286448984,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 140350720,
+      "step": 64985
+    },
+    {
+      "epoch": 10.601957585644373,
+      "grad_norm": 0.0015841845888644457,
+      "learning_rate": 0.0005347220210131853,
+      "loss": 0.1847,
+      "num_input_tokens_seen": 140363072,
+      "step": 64990
+    },
+    {
+      "epoch": 10.602773246329527,
+      "grad_norm": 0.29716333746910095,
+      "learning_rate": 0.0005346510126777864,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 140374240,
+      "step": 64995
+    },
+    {
+      "epoch": 10.603588907014682,
+      "grad_norm": 0.5121808648109436,
+      "learning_rate": 0.0005345800036401407,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 140385184,
+      "step": 65000
+    },
+    {
+      "epoch": 10.604404567699836,
+      "grad_norm": 0.17837762832641602,
+      "learning_rate": 0.0005345089939016874,
+      "loss": 0.1591,
+      "num_input_tokens_seen": 140396000,
+      "step": 65005
+    },
+    {
+      "epoch": 10.605220228384992,
+      "grad_norm": 0.04627210274338722,
+      "learning_rate": 0.0005344379834638656,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 140406848,
+      "step": 65010
+    },
+    {
+      "epoch": 10.606035889070148,
+      "grad_norm": 0.039753254503011703,
+      "learning_rate": 0.0005343669723281144,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 140418208,
+      "step": 65015
+    },
+    {
+      "epoch": 10.606851549755302,
+      "grad_norm": 0.26612791419029236,
+      "learning_rate": 0.0005342959604958728,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 140428864,
+      "step": 65020
+    },
+    {
+      "epoch": 10.607667210440457,
+      "grad_norm": 0.13962987065315247,
+      "learning_rate": 0.0005342249479685801,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 140440288,
+      "step": 65025
+    },
+    {
+      "epoch": 10.608482871125611,
+      "grad_norm": 0.004963894374668598,
+      "learning_rate": 0.0005341539347476754,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 140451648,
+      "step": 65030
+    },
+    {
+      "epoch": 10.609298531810767,
+      "grad_norm": 0.24064743518829346,
+      "learning_rate": 0.0005340829208345979,
+      "loss": 0.2026,
+      "num_input_tokens_seen": 140462336,
+      "step": 65035
+    },
+    {
+      "epoch": 10.61011419249592,
+      "grad_norm": 0.16874991357326508,
+      "learning_rate": 0.0005340119062307866,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 140473056,
+      "step": 65040
+    },
+    {
+      "epoch": 10.610929853181077,
+      "grad_norm": 0.03800236061215401,
+      "learning_rate": 0.0005339408909376812,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 140482656,
+      "step": 65045
+    },
+    {
+      "epoch": 10.611745513866232,
+      "grad_norm": 0.11263815313577652,
+      "learning_rate": 0.0005338698749567203,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 140494272,
+      "step": 65050
+    },
+    {
+      "epoch": 10.612561174551386,
+      "grad_norm": 0.012205363251268864,
+      "learning_rate": 0.0005337988582893436,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 140504640,
+      "step": 65055
+    },
+    {
+      "epoch": 10.613376835236542,
+      "grad_norm": 0.0024235863238573074,
+      "learning_rate": 0.0005337278409369901,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 140515680,
+      "step": 65060
+    },
+    {
+      "epoch": 10.614192495921696,
+      "grad_norm": 0.01602749712765217,
+      "learning_rate": 0.0005336568229010991,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 140526752,
+      "step": 65065
+    },
+    {
+      "epoch": 10.615008156606851,
+      "grad_norm": 0.020563099533319473,
+      "learning_rate": 0.0005335858041831099,
+      "loss": 0.033,
+      "num_input_tokens_seen": 140536384,
+      "step": 65070
+    },
+    {
+      "epoch": 10.615823817292007,
+      "grad_norm": 0.003615399356931448,
+      "learning_rate": 0.0005335147847844618,
+      "loss": 0.076,
+      "num_input_tokens_seen": 140545440,
+      "step": 65075
+    },
+    {
+      "epoch": 10.616639477977161,
+      "grad_norm": 0.0032959782984107733,
+      "learning_rate": 0.000533443764706594,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 140555936,
+      "step": 65080
+    },
+    {
+      "epoch": 10.617455138662317,
+      "grad_norm": 0.013945156708359718,
+      "learning_rate": 0.0005333727439509459,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 140566944,
+      "step": 65085
+    },
+    {
+      "epoch": 10.61827079934747,
+      "grad_norm": 0.01374234538525343,
+      "learning_rate": 0.0005333017225189569,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 140577568,
+      "step": 65090
+    },
+    {
+      "epoch": 10.619086460032626,
+      "grad_norm": 0.007713802624493837,
+      "learning_rate": 0.0005332307004120662,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 140586528,
+      "step": 65095
+    },
+    {
+      "epoch": 10.619902120717782,
+      "grad_norm": 0.0017633598763495684,
+      "learning_rate": 0.0005331596776317133,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 140597952,
+      "step": 65100
+    },
+    {
+      "epoch": 10.620717781402936,
+      "grad_norm": 0.013678031042218208,
+      "learning_rate": 0.0005330886541793372,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 140608384,
+      "step": 65105
+    },
+    {
+      "epoch": 10.621533442088092,
+      "grad_norm": 0.013079334050416946,
+      "learning_rate": 0.0005330176300563778,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 140620000,
+      "step": 65110
+    },
+    {
+      "epoch": 10.622349102773246,
+      "grad_norm": 0.0030080180149525404,
+      "learning_rate": 0.0005329466052642741,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 140630496,
+      "step": 65115
+    },
+    {
+      "epoch": 10.623164763458401,
+      "grad_norm": 0.24842797219753265,
+      "learning_rate": 0.0005328755798044658,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 140641984,
+      "step": 65120
+    },
+    {
+      "epoch": 10.623980424143557,
+      "grad_norm": 0.22249571979045868,
+      "learning_rate": 0.000532804553678392,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 140652928,
+      "step": 65125
+    },
+    {
+      "epoch": 10.624796084828711,
+      "grad_norm": 0.004154822789132595,
+      "learning_rate": 0.0005327335268874924,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 140664448,
+      "step": 65130
+    },
+    {
+      "epoch": 10.625611745513867,
+      "grad_norm": 0.0061147562228143215,
+      "learning_rate": 0.0005326624994332063,
+      "loss": 0.0985,
+      "num_input_tokens_seen": 140674112,
+      "step": 65135
+    },
+    {
+      "epoch": 10.62642740619902,
+      "grad_norm": 0.2392461895942688,
+      "learning_rate": 0.0005325914713169733,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 140684352,
+      "step": 65140
+    },
+    {
+      "epoch": 10.627243066884176,
+      "grad_norm": 0.015056677162647247,
+      "learning_rate": 0.0005325204425402327,
+      "loss": 0.146,
+      "num_input_tokens_seen": 140696256,
+      "step": 65145
+    },
+    {
+      "epoch": 10.62805872756933,
+      "grad_norm": 0.35335031151771545,
+      "learning_rate": 0.0005324494131044241,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 140707040,
+      "step": 65150
+    },
+    {
+      "epoch": 10.628874388254486,
+      "grad_norm": 0.015306448563933372,
+      "learning_rate": 0.000532378383010987,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 140718080,
+      "step": 65155
+    },
+    {
+      "epoch": 10.629690048939642,
+      "grad_norm": 0.00962145160883665,
+      "learning_rate": 0.0005323073522613608,
+      "loss": 0.052,
+      "num_input_tokens_seen": 140728128,
+      "step": 65160
+    },
+    {
+      "epoch": 10.630505709624796,
+      "grad_norm": 0.018188240006566048,
+      "learning_rate": 0.0005322363208569851,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 140738816,
+      "step": 65165
+    },
+    {
+      "epoch": 10.631321370309951,
+      "grad_norm": 0.00877345446497202,
+      "learning_rate": 0.0005321652887992996,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 140749216,
+      "step": 65170
+    },
+    {
+      "epoch": 10.632137030995105,
+      "grad_norm": 0.5343616008758545,
+      "learning_rate": 0.0005320942560897436,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 140760160,
+      "step": 65175
+    },
+    {
+      "epoch": 10.632952691680261,
+      "grad_norm": 0.0021271174773573875,
+      "learning_rate": 0.0005320232227297569,
+      "loss": 0.1599,
+      "num_input_tokens_seen": 140771200,
+      "step": 65180
+    },
+    {
+      "epoch": 10.633768352365417,
+      "grad_norm": 0.02698766253888607,
+      "learning_rate": 0.0005319521887207789,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 140782560,
+      "step": 65185
+    },
+    {
+      "epoch": 10.63458401305057,
+      "grad_norm": 0.005686949472874403,
+      "learning_rate": 0.0005318811540642493,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 140794656,
+      "step": 65190
+    },
+    {
+      "epoch": 10.635399673735726,
+      "grad_norm": 0.663912832736969,
+      "learning_rate": 0.0005318101187616077,
+      "loss": 0.2698,
+      "num_input_tokens_seen": 140805088,
+      "step": 65195
+    },
+    {
+      "epoch": 10.63621533442088,
+      "grad_norm": 0.3262537717819214,
+      "learning_rate": 0.0005317390828142937,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 140814976,
+      "step": 65200
+    },
+    {
+      "epoch": 10.637030995106036,
+      "grad_norm": 0.006468473467975855,
+      "learning_rate": 0.0005316680462237468,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 140826208,
+      "step": 65205
+    },
+    {
+      "epoch": 10.63784665579119,
+      "grad_norm": 0.006259999703615904,
+      "learning_rate": 0.0005315970089914068,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 140836160,
+      "step": 65210
+    },
+    {
+      "epoch": 10.638662316476346,
+      "grad_norm": 0.05188210308551788,
+      "learning_rate": 0.0005315259711187134,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 140847520,
+      "step": 65215
+    },
+    {
+      "epoch": 10.639477977161501,
+      "grad_norm": 0.017969651147723198,
+      "learning_rate": 0.0005314549326071061,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 140858688,
+      "step": 65220
+    },
+    {
+      "epoch": 10.640293637846655,
+      "grad_norm": 0.1467316597700119,
+      "learning_rate": 0.0005313838934580248,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 140869024,
+      "step": 65225
+    },
+    {
+      "epoch": 10.641109298531811,
+      "grad_norm": 0.006599868647754192,
+      "learning_rate": 0.0005313128536729091,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 140880288,
+      "step": 65230
+    },
+    {
+      "epoch": 10.641924959216965,
+      "grad_norm": 0.33210447430610657,
+      "learning_rate": 0.0005312418132531985,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 140890496,
+      "step": 65235
+    },
+    {
+      "epoch": 10.64274061990212,
+      "grad_norm": 0.0033072608057409525,
+      "learning_rate": 0.0005311707722003332,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 140901728,
+      "step": 65240
+    },
+    {
+      "epoch": 10.643556280587276,
+      "grad_norm": 0.03693348169326782,
+      "learning_rate": 0.0005310997305157524,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 140912544,
+      "step": 65245
+    },
+    {
+      "epoch": 10.64437194127243,
+      "grad_norm": 0.08483865857124329,
+      "learning_rate": 0.0005310286882008962,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 140922944,
+      "step": 65250
+    },
+    {
+      "epoch": 10.645187601957586,
+      "grad_norm": 0.14889277517795563,
+      "learning_rate": 0.0005309576452572043,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 140933216,
+      "step": 65255
+    },
+    {
+      "epoch": 10.64600326264274,
+      "grad_norm": 0.006382533814758062,
+      "learning_rate": 0.0005308866016861166,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 140944160,
+      "step": 65260
+    },
+    {
+      "epoch": 10.646818923327896,
+      "grad_norm": 0.010671558789908886,
+      "learning_rate": 0.0005308155574890725,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 140956480,
+      "step": 65265
+    },
+    {
+      "epoch": 10.647634584013051,
+      "grad_norm": 0.031797025352716446,
+      "learning_rate": 0.000530744512667512,
+      "loss": 0.1394,
+      "num_input_tokens_seen": 140967552,
+      "step": 65270
+    },
+    {
+      "epoch": 10.648450244698205,
+      "grad_norm": 0.004792911000549793,
+      "learning_rate": 0.0005306734672228751,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 140978560,
+      "step": 65275
+    },
+    {
+      "epoch": 10.649265905383361,
+      "grad_norm": 0.7232376933097839,
+      "learning_rate": 0.0005306024211566014,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 140989728,
+      "step": 65280
+    },
+    {
+      "epoch": 10.650081566068515,
+      "grad_norm": 0.11897439509630203,
+      "learning_rate": 0.0005305313744701309,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 141000928,
+      "step": 65285
+    },
+    {
+      "epoch": 10.65089722675367,
+      "grad_norm": 0.11357161402702332,
+      "learning_rate": 0.0005304603271649033,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 141011936,
+      "step": 65290
+    },
+    {
+      "epoch": 10.651712887438826,
+      "grad_norm": 0.005883332807570696,
+      "learning_rate": 0.0005303892792423585,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 141023456,
+      "step": 65295
+    },
+    {
+      "epoch": 10.65252854812398,
+      "grad_norm": 0.2534210979938507,
+      "learning_rate": 0.0005303182307039364,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 141034464,
+      "step": 65300
+    },
+    {
+      "epoch": 10.653344208809136,
+      "grad_norm": 0.004826645366847515,
+      "learning_rate": 0.0005302471815510771,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 141045248,
+      "step": 65305
+    },
+    {
+      "epoch": 10.65415986949429,
+      "grad_norm": 0.010334780439734459,
+      "learning_rate": 0.00053017613178522,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 141056736,
+      "step": 65310
+    },
+    {
+      "epoch": 10.654975530179446,
+      "grad_norm": 0.1845068484544754,
+      "learning_rate": 0.0005301050814078055,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 141066784,
+      "step": 65315
+    },
+    {
+      "epoch": 10.655791190864601,
+      "grad_norm": 0.39638128876686096,
+      "learning_rate": 0.0005300340304202734,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 141077344,
+      "step": 65320
+    },
+    {
+      "epoch": 10.656606851549755,
+      "grad_norm": 0.04189550504088402,
+      "learning_rate": 0.0005299629788240634,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 141088320,
+      "step": 65325
+    },
+    {
+      "epoch": 10.65742251223491,
+      "grad_norm": 0.004338693805038929,
+      "learning_rate": 0.0005298919266206157,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 141099776,
+      "step": 65330
+    },
+    {
+      "epoch": 10.658238172920065,
+      "grad_norm": 0.490159809589386,
+      "learning_rate": 0.0005298208738113701,
+      "loss": 0.088,
+      "num_input_tokens_seen": 141110592,
+      "step": 65335
+    },
+    {
+      "epoch": 10.65905383360522,
+      "grad_norm": 0.020773818716406822,
+      "learning_rate": 0.0005297498203977668,
+      "loss": 0.058,
+      "num_input_tokens_seen": 141120928,
+      "step": 65340
+    },
+    {
+      "epoch": 10.659869494290374,
+      "grad_norm": 0.5976955890655518,
+      "learning_rate": 0.0005296787663812456,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 141132128,
+      "step": 65345
+    },
+    {
+      "epoch": 10.66068515497553,
+      "grad_norm": 0.004236851818859577,
+      "learning_rate": 0.0005296077117632464,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 141142944,
+      "step": 65350
+    },
+    {
+      "epoch": 10.661500815660686,
+      "grad_norm": 0.0024764598347246647,
+      "learning_rate": 0.0005295366565452094,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 141153984,
+      "step": 65355
+    },
+    {
+      "epoch": 10.66231647634584,
+      "grad_norm": 0.28249356150627136,
+      "learning_rate": 0.0005294656007285748,
+      "loss": 0.107,
+      "num_input_tokens_seen": 141163968,
+      "step": 65360
+    },
+    {
+      "epoch": 10.663132137030995,
+      "grad_norm": 0.017333753407001495,
+      "learning_rate": 0.0005293945443147821,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 141175040,
+      "step": 65365
+    },
+    {
+      "epoch": 10.66394779771615,
+      "grad_norm": 0.2655371427536011,
+      "learning_rate": 0.000529323487305272,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 141184928,
+      "step": 65370
+    },
+    {
+      "epoch": 10.664763458401305,
+      "grad_norm": 0.08187251538038254,
+      "learning_rate": 0.0005292524297014842,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 141196768,
+      "step": 65375
+    },
+    {
+      "epoch": 10.66557911908646,
+      "grad_norm": 0.016217637807130814,
+      "learning_rate": 0.0005291813715048584,
+      "loss": 0.057,
+      "num_input_tokens_seen": 141207712,
+      "step": 65380
+    },
+    {
+      "epoch": 10.666394779771615,
+      "grad_norm": 0.016979215666651726,
+      "learning_rate": 0.0005291103127168355,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 141218080,
+      "step": 65385
+    },
+    {
+      "epoch": 10.66721044045677,
+      "grad_norm": 0.006149845663458109,
+      "learning_rate": 0.000529039253338855,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 141229024,
+      "step": 65390
+    },
+    {
+      "epoch": 10.668026101141924,
+      "grad_norm": 0.1777970790863037,
+      "learning_rate": 0.0005289681933723573,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 141239072,
+      "step": 65395
+    },
+    {
+      "epoch": 10.66884176182708,
+      "grad_norm": 0.38320648670196533,
+      "learning_rate": 0.0005288971328187824,
+      "loss": 0.1186,
+      "num_input_tokens_seen": 141250400,
+      "step": 65400
+    },
+    {
+      "epoch": 10.669657422512234,
+      "grad_norm": 0.16135111451148987,
+      "learning_rate": 0.0005288260716795704,
+      "loss": 0.016,
+      "num_input_tokens_seen": 141260192,
+      "step": 65405
+    },
+    {
+      "epoch": 10.67047308319739,
+      "grad_norm": 0.00716315396130085,
+      "learning_rate": 0.0005287550099561614,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 141270720,
+      "step": 65410
+    },
+    {
+      "epoch": 10.671288743882545,
+      "grad_norm": 0.2340540587902069,
+      "learning_rate": 0.0005286839476499959,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 141282432,
+      "step": 65415
+    },
+    {
+      "epoch": 10.6721044045677,
+      "grad_norm": 0.003738554660230875,
+      "learning_rate": 0.0005286128847625136,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 141294240,
+      "step": 65420
+    },
+    {
+      "epoch": 10.672920065252855,
+      "grad_norm": 0.2376752495765686,
+      "learning_rate": 0.0005285418212951549,
+      "loss": 0.0881,
+      "num_input_tokens_seen": 141305152,
+      "step": 65425
+    },
+    {
+      "epoch": 10.673735725938009,
+      "grad_norm": 0.0017827788833528757,
+      "learning_rate": 0.0005284707572493601,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 141314944,
+      "step": 65430
+    },
+    {
+      "epoch": 10.674551386623165,
+      "grad_norm": 0.025138380005955696,
+      "learning_rate": 0.0005283996926265692,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 141326368,
+      "step": 65435
+    },
+    {
+      "epoch": 10.67536704730832,
+      "grad_norm": 0.009806608781218529,
+      "learning_rate": 0.0005283286274282226,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 141337760,
+      "step": 65440
+    },
+    {
+      "epoch": 10.676182707993474,
+      "grad_norm": 0.05824309587478638,
+      "learning_rate": 0.0005282575616557603,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 141348768,
+      "step": 65445
+    },
+    {
+      "epoch": 10.67699836867863,
+      "grad_norm": 0.06231406703591347,
+      "learning_rate": 0.0005281864953106226,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 141360544,
+      "step": 65450
+    },
+    {
+      "epoch": 10.677814029363784,
+      "grad_norm": 0.012798627838492393,
+      "learning_rate": 0.0005281154283942501,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 141370944,
+      "step": 65455
+    },
+    {
+      "epoch": 10.67862969004894,
+      "grad_norm": 0.02479397878050804,
+      "learning_rate": 0.0005280443609080826,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 141379584,
+      "step": 65460
+    },
+    {
+      "epoch": 10.679445350734095,
+      "grad_norm": 0.009278696030378342,
+      "learning_rate": 0.0005279732928535606,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 141390880,
+      "step": 65465
+    },
+    {
+      "epoch": 10.68026101141925,
+      "grad_norm": 0.011147456243634224,
+      "learning_rate": 0.0005279022242321242,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 141401312,
+      "step": 65470
+    },
+    {
+      "epoch": 10.681076672104405,
+      "grad_norm": 0.003964760806411505,
+      "learning_rate": 0.000527831155045214,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 141411328,
+      "step": 65475
+    },
+    {
+      "epoch": 10.681892332789559,
+      "grad_norm": 0.016584768891334534,
+      "learning_rate": 0.00052776008529427,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 141422240,
+      "step": 65480
+    },
+    {
+      "epoch": 10.682707993474715,
+      "grad_norm": 0.04356918856501579,
+      "learning_rate": 0.0005276890149807326,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 141433152,
+      "step": 65485
+    },
+    {
+      "epoch": 10.68352365415987,
+      "grad_norm": 0.010738197714090347,
+      "learning_rate": 0.0005276179441060423,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 141444992,
+      "step": 65490
+    },
+    {
+      "epoch": 10.684339314845024,
+      "grad_norm": 0.010608477517962456,
+      "learning_rate": 0.0005275468726716393,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 141456832,
+      "step": 65495
+    },
+    {
+      "epoch": 10.68515497553018,
+      "grad_norm": 0.6359379887580872,
+      "learning_rate": 0.000527475800678964,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 141469280,
+      "step": 65500
+    },
+    {
+      "epoch": 10.685970636215334,
+      "grad_norm": 0.0019201745744794607,
+      "learning_rate": 0.0005274047281294569,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 141479520,
+      "step": 65505
+    },
+    {
+      "epoch": 10.68678629690049,
+      "grad_norm": 0.1839599311351776,
+      "learning_rate": 0.000527333655024558,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 141490272,
+      "step": 65510
+    },
+    {
+      "epoch": 10.687601957585644,
+      "grad_norm": 0.10226281732320786,
+      "learning_rate": 0.0005272625813657079,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 141501280,
+      "step": 65515
+    },
+    {
+      "epoch": 10.6884176182708,
+      "grad_norm": 0.001877550152130425,
+      "learning_rate": 0.000527191507154347,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 141512512,
+      "step": 65520
+    },
+    {
+      "epoch": 10.689233278955955,
+      "grad_norm": 0.2550641894340515,
+      "learning_rate": 0.0005271204323919158,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 141522912,
+      "step": 65525
+    },
+    {
+      "epoch": 10.690048939641109,
+      "grad_norm": 0.09536845982074738,
+      "learning_rate": 0.0005270493570798546,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 141533952,
+      "step": 65530
+    },
+    {
+      "epoch": 10.690864600326265,
+      "grad_norm": 0.141608327627182,
+      "learning_rate": 0.000526978281219604,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 141544768,
+      "step": 65535
+    },
+    {
+      "epoch": 10.691680261011419,
+      "grad_norm": 0.050538040697574615,
+      "learning_rate": 0.0005269072048126041,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 141556416,
+      "step": 65540
+    },
+    {
+      "epoch": 10.692495921696574,
+      "grad_norm": 0.03494250029325485,
+      "learning_rate": 0.0005268361278602957,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 141568032,
+      "step": 65545
+    },
+    {
+      "epoch": 10.69331158238173,
+      "grad_norm": 0.014967870898544788,
+      "learning_rate": 0.0005267650503641191,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 141580224,
+      "step": 65550
+    },
+    {
+      "epoch": 10.694127243066884,
+      "grad_norm": 0.010322188027203083,
+      "learning_rate": 0.0005266939723255148,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 141591456,
+      "step": 65555
+    },
+    {
+      "epoch": 10.69494290375204,
+      "grad_norm": 0.021448874846100807,
+      "learning_rate": 0.0005266228937459233,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 141602368,
+      "step": 65560
+    },
+    {
+      "epoch": 10.695758564437194,
+      "grad_norm": 0.00392883038148284,
+      "learning_rate": 0.0005265518146267851,
+      "loss": 0.0375,
+      "num_input_tokens_seen": 141613696,
+      "step": 65565
+    },
+    {
+      "epoch": 10.69657422512235,
+      "grad_norm": 0.6401793360710144,
+      "learning_rate": 0.0005264807349695406,
+      "loss": 0.0524,
+      "num_input_tokens_seen": 141624768,
+      "step": 65570
+    },
+    {
+      "epoch": 10.697389885807503,
+      "grad_norm": 0.516755223274231,
+      "learning_rate": 0.0005264096547756305,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 141635040,
+      "step": 65575
+    },
+    {
+      "epoch": 10.698205546492659,
+      "grad_norm": 0.03410768136382103,
+      "learning_rate": 0.0005263385740464951,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 141644992,
+      "step": 65580
+    },
+    {
+      "epoch": 10.699021207177815,
+      "grad_norm": 0.13844673335552216,
+      "learning_rate": 0.0005262674927835752,
+      "loss": 0.1242,
+      "num_input_tokens_seen": 141655424,
+      "step": 65585
+    },
+    {
+      "epoch": 10.699836867862969,
+      "grad_norm": 0.0018074375111609697,
+      "learning_rate": 0.0005261964109883111,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 141664224,
+      "step": 65590
+    },
+    {
+      "epoch": 10.700652528548124,
+      "grad_norm": 0.19906216859817505,
+      "learning_rate": 0.0005261253286621437,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 141676512,
+      "step": 65595
+    },
+    {
+      "epoch": 10.701468189233278,
+      "grad_norm": 0.13830533623695374,
+      "learning_rate": 0.0005260542458065132,
+      "loss": 0.0527,
+      "num_input_tokens_seen": 141687040,
+      "step": 65600
+    },
+    {
+      "epoch": 10.702283849918434,
+      "grad_norm": 0.5063537359237671,
+      "learning_rate": 0.0005259831624228605,
+      "loss": 0.0797,
+      "num_input_tokens_seen": 141698208,
+      "step": 65605
+    },
+    {
+      "epoch": 10.70309951060359,
+      "grad_norm": 0.06567066162824631,
+      "learning_rate": 0.000525912078512626,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 141710944,
+      "step": 65610
+    },
+    {
+      "epoch": 10.703915171288743,
+      "grad_norm": 0.19044040143489838,
+      "learning_rate": 0.0005258409940772504,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 141722272,
+      "step": 65615
+    },
+    {
+      "epoch": 10.7047308319739,
+      "grad_norm": 0.06141744181513786,
+      "learning_rate": 0.0005257699091181742,
+      "loss": 0.178,
+      "num_input_tokens_seen": 141733664,
+      "step": 65620
+    },
+    {
+      "epoch": 10.705546492659053,
+      "grad_norm": 0.010067290626466274,
+      "learning_rate": 0.0005256988236368382,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 141744160,
+      "step": 65625
+    },
+    {
+      "epoch": 10.706362153344209,
+      "grad_norm": 0.014722629450261593,
+      "learning_rate": 0.0005256277376346829,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 141754400,
+      "step": 65630
+    },
+    {
+      "epoch": 10.707177814029365,
+      "grad_norm": 0.012095391750335693,
+      "learning_rate": 0.0005255566511131489,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 141765504,
+      "step": 65635
+    },
+    {
+      "epoch": 10.707993474714518,
+      "grad_norm": 0.1298554241657257,
+      "learning_rate": 0.000525485564073677,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 141777664,
+      "step": 65640
+    },
+    {
+      "epoch": 10.708809135399674,
+      "grad_norm": 0.005714466795325279,
+      "learning_rate": 0.0005254144765177078,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 141788800,
+      "step": 65645
+    },
+    {
+      "epoch": 10.709624796084828,
+      "grad_norm": 0.0032331603579223156,
+      "learning_rate": 0.0005253433884466821,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 141799936,
+      "step": 65650
+    },
+    {
+      "epoch": 10.710440456769984,
+      "grad_norm": 0.028762778267264366,
+      "learning_rate": 0.0005252722998620403,
+      "loss": 0.0974,
+      "num_input_tokens_seen": 141809952,
+      "step": 65655
+    },
+    {
+      "epoch": 10.71125611745514,
+      "grad_norm": 0.012786184437572956,
+      "learning_rate": 0.0005252012107652234,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 141821056,
+      "step": 65660
+    },
+    {
+      "epoch": 10.712071778140293,
+      "grad_norm": 0.005127850454300642,
+      "learning_rate": 0.0005251301211576718,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 141832416,
+      "step": 65665
+    },
+    {
+      "epoch": 10.71288743882545,
+      "grad_norm": 0.016213873401284218,
+      "learning_rate": 0.0005250590310408266,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 141842528,
+      "step": 65670
+    },
+    {
+      "epoch": 10.713703099510603,
+      "grad_norm": 0.07902921736240387,
+      "learning_rate": 0.0005249879404161284,
+      "loss": 0.1831,
+      "num_input_tokens_seen": 141853824,
+      "step": 65675
+    },
+    {
+      "epoch": 10.714518760195759,
+      "grad_norm": 0.016699183732271194,
+      "learning_rate": 0.0005249168492850178,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 141864960,
+      "step": 65680
+    },
+    {
+      "epoch": 10.715334420880914,
+      "grad_norm": 0.0019363955361768603,
+      "learning_rate": 0.0005248457576489356,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 141874784,
+      "step": 65685
+    },
+    {
+      "epoch": 10.716150081566068,
+      "grad_norm": 0.09606332331895828,
+      "learning_rate": 0.0005247746655093228,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 141884640,
+      "step": 65690
+    },
+    {
+      "epoch": 10.716965742251224,
+      "grad_norm": 0.015151958912611008,
+      "learning_rate": 0.0005247035728676196,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 141895136,
+      "step": 65695
+    },
+    {
+      "epoch": 10.717781402936378,
+      "grad_norm": 0.004619085229933262,
+      "learning_rate": 0.0005246324797252674,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 141905440,
+      "step": 65700
+    },
+    {
+      "epoch": 10.718597063621534,
+      "grad_norm": 0.2725040316581726,
+      "learning_rate": 0.0005245613860837068,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 141916160,
+      "step": 65705
+    },
+    {
+      "epoch": 10.719412724306688,
+      "grad_norm": 0.00907763559371233,
+      "learning_rate": 0.0005244902919443785,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 141927360,
+      "step": 65710
+    },
+    {
+      "epoch": 10.720228384991843,
+      "grad_norm": 0.5919573903083801,
+      "learning_rate": 0.0005244191973087233,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 141937248,
+      "step": 65715
+    },
+    {
+      "epoch": 10.721044045676999,
+      "grad_norm": 0.3372504413127899,
+      "learning_rate": 0.0005243481021781821,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 141948992,
+      "step": 65720
+    },
+    {
+      "epoch": 10.721859706362153,
+      "grad_norm": 0.2855179011821747,
+      "learning_rate": 0.0005242770065541958,
+      "loss": 0.041,
+      "num_input_tokens_seen": 141958880,
+      "step": 65725
+    },
+    {
+      "epoch": 10.722675367047309,
+      "grad_norm": 0.12741783261299133,
+      "learning_rate": 0.0005242059104382052,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 141969152,
+      "step": 65730
+    },
+    {
+      "epoch": 10.723491027732463,
+      "grad_norm": 0.00721243629232049,
+      "learning_rate": 0.000524134813831651,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 141980416,
+      "step": 65735
+    },
+    {
+      "epoch": 10.724306688417618,
+      "grad_norm": 0.04829755425453186,
+      "learning_rate": 0.0005240637167359743,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 141991072,
+      "step": 65740
+    },
+    {
+      "epoch": 10.725122349102774,
+      "grad_norm": 0.0076208519749343395,
+      "learning_rate": 0.0005239926191526157,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 142003168,
+      "step": 65745
+    },
+    {
+      "epoch": 10.725938009787928,
+      "grad_norm": 0.17454379796981812,
+      "learning_rate": 0.0005239215210830164,
+      "loss": 0.0365,
+      "num_input_tokens_seen": 142014304,
+      "step": 65750
+    },
+    {
+      "epoch": 10.726753670473084,
+      "grad_norm": 0.01813514530658722,
+      "learning_rate": 0.000523850422528617,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 142024480,
+      "step": 65755
+    },
+    {
+      "epoch": 10.727569331158238,
+      "grad_norm": 0.37926414608955383,
+      "learning_rate": 0.0005237793234908586,
+      "loss": 0.031,
+      "num_input_tokens_seen": 142035552,
+      "step": 65760
+    },
+    {
+      "epoch": 10.728384991843393,
+      "grad_norm": 0.0012836528476327658,
+      "learning_rate": 0.000523708223971182,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 142047456,
+      "step": 65765
+    },
+    {
+      "epoch": 10.729200652528547,
+      "grad_norm": 0.004975530784577131,
+      "learning_rate": 0.0005236371239710283,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 142058976,
+      "step": 65770
+    },
+    {
+      "epoch": 10.730016313213703,
+      "grad_norm": 0.006139600649476051,
+      "learning_rate": 0.0005235660234918381,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 142069920,
+      "step": 65775
+    },
+    {
+      "epoch": 10.730831973898859,
+      "grad_norm": 0.02576206438243389,
+      "learning_rate": 0.0005234949225350526,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 142081152,
+      "step": 65780
+    },
+    {
+      "epoch": 10.731647634584013,
+      "grad_norm": 0.005682915449142456,
+      "learning_rate": 0.0005234238211021127,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 142091232,
+      "step": 65785
+    },
+    {
+      "epoch": 10.732463295269168,
+      "grad_norm": 0.015125678852200508,
+      "learning_rate": 0.0005233527191944593,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 142100736,
+      "step": 65790
+    },
+    {
+      "epoch": 10.733278955954322,
+      "grad_norm": 0.011067863553762436,
+      "learning_rate": 0.0005232816168135336,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 142111232,
+      "step": 65795
+    },
+    {
+      "epoch": 10.734094616639478,
+      "grad_norm": 0.29029378294944763,
+      "learning_rate": 0.0005232105139607763,
+      "loss": 0.2617,
+      "num_input_tokens_seen": 142122688,
+      "step": 65800
+    },
+    {
+      "epoch": 10.734910277324634,
+      "grad_norm": 0.016473524272441864,
+      "learning_rate": 0.0005231394106376283,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 142133248,
+      "step": 65805
+    },
+    {
+      "epoch": 10.735725938009788,
+      "grad_norm": 1.6077208518981934,
+      "learning_rate": 0.000523068306845531,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 142143936,
+      "step": 65810
+    },
+    {
+      "epoch": 10.736541598694943,
+      "grad_norm": 0.05260138213634491,
+      "learning_rate": 0.0005229972025859252,
+      "loss": 0.016,
+      "num_input_tokens_seen": 142153952,
+      "step": 65815
+    },
+    {
+      "epoch": 10.737357259380097,
+      "grad_norm": 0.013729028403759003,
+      "learning_rate": 0.0005229260978602519,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 142163712,
+      "step": 65820
+    },
+    {
+      "epoch": 10.738172920065253,
+      "grad_norm": 0.37588047981262207,
+      "learning_rate": 0.0005228549926699521,
+      "loss": 0.1415,
+      "num_input_tokens_seen": 142173568,
+      "step": 65825
+    },
+    {
+      "epoch": 10.738988580750409,
+      "grad_norm": 0.010452077724039555,
+      "learning_rate": 0.0005227838870164669,
+      "loss": 0.3089,
+      "num_input_tokens_seen": 142183040,
+      "step": 65830
+    },
+    {
+      "epoch": 10.739804241435563,
+      "grad_norm": 0.00847290363162756,
+      "learning_rate": 0.0005227127809012372,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 142194752,
+      "step": 65835
+    },
+    {
+      "epoch": 10.740619902120718,
+      "grad_norm": 0.004005743190646172,
+      "learning_rate": 0.0005226416743257043,
+      "loss": 0.104,
+      "num_input_tokens_seen": 142206144,
+      "step": 65840
+    },
+    {
+      "epoch": 10.741435562805872,
+      "grad_norm": 0.010764031670987606,
+      "learning_rate": 0.0005225705672913092,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 142215872,
+      "step": 65845
+    },
+    {
+      "epoch": 10.742251223491028,
+      "grad_norm": 0.0068029677495360374,
+      "learning_rate": 0.0005224994597994929,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 142225184,
+      "step": 65850
+    },
+    {
+      "epoch": 10.743066884176184,
+      "grad_norm": 0.027975937351584435,
+      "learning_rate": 0.0005224283518516965,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 142235328,
+      "step": 65855
+    },
+    {
+      "epoch": 10.743882544861338,
+      "grad_norm": 0.003287712810561061,
+      "learning_rate": 0.000522357243449361,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 142246688,
+      "step": 65860
+    },
+    {
+      "epoch": 10.744698205546493,
+      "grad_norm": 0.014056977815926075,
+      "learning_rate": 0.0005222861345939278,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 142258592,
+      "step": 65865
+    },
+    {
+      "epoch": 10.745513866231647,
+      "grad_norm": 0.24229301512241364,
+      "learning_rate": 0.0005222150252868375,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 142270016,
+      "step": 65870
+    },
+    {
+      "epoch": 10.746329526916803,
+      "grad_norm": 0.005472760181874037,
+      "learning_rate": 0.0005221439155295318,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 142280224,
+      "step": 65875
+    },
+    {
+      "epoch": 10.747145187601957,
+      "grad_norm": 0.20398905873298645,
+      "learning_rate": 0.0005220728053234514,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 142291648,
+      "step": 65880
+    },
+    {
+      "epoch": 10.747960848287113,
+      "grad_norm": 0.1125456914305687,
+      "learning_rate": 0.0005220016946700378,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 142303392,
+      "step": 65885
+    },
+    {
+      "epoch": 10.748776508972268,
+      "grad_norm": 0.004370346665382385,
+      "learning_rate": 0.0005219305835707318,
+      "loss": 0.1624,
+      "num_input_tokens_seen": 142313504,
+      "step": 65890
+    },
+    {
+      "epoch": 10.749592169657422,
+      "grad_norm": 0.019533276557922363,
+      "learning_rate": 0.0005218594720269748,
+      "loss": 0.1332,
+      "num_input_tokens_seen": 142323904,
+      "step": 65895
+    },
+    {
+      "epoch": 10.750407830342578,
+      "grad_norm": 0.04836461693048477,
+      "learning_rate": 0.0005217883600402076,
+      "loss": 0.011,
+      "num_input_tokens_seen": 142334880,
+      "step": 65900
+    },
+    {
+      "epoch": 10.751223491027732,
+      "grad_norm": 0.05884992331266403,
+      "learning_rate": 0.0005217172476118719,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 142344960,
+      "step": 65905
+    },
+    {
+      "epoch": 10.752039151712887,
+      "grad_norm": 0.05737880989909172,
+      "learning_rate": 0.0005216461347434084,
+      "loss": 0.0813,
+      "num_input_tokens_seen": 142355808,
+      "step": 65910
+    },
+    {
+      "epoch": 10.752854812398043,
+      "grad_norm": 0.003403907176107168,
+      "learning_rate": 0.0005215750214362588,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 142368032,
+      "step": 65915
+    },
+    {
+      "epoch": 10.753670473083197,
+      "grad_norm": 0.05276336520910263,
+      "learning_rate": 0.0005215039076918638,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 142378784,
+      "step": 65920
+    },
+    {
+      "epoch": 10.754486133768353,
+      "grad_norm": 0.21015602350234985,
+      "learning_rate": 0.0005214327935116651,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 142389600,
+      "step": 65925
+    },
+    {
+      "epoch": 10.755301794453507,
+      "grad_norm": 0.19275906682014465,
+      "learning_rate": 0.0005213616788971034,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 142400704,
+      "step": 65930
+    },
+    {
+      "epoch": 10.756117455138662,
+      "grad_norm": 0.04935337230563164,
+      "learning_rate": 0.0005212905638496203,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 142411904,
+      "step": 65935
+    },
+    {
+      "epoch": 10.756933115823816,
+      "grad_norm": 0.03261714428663254,
+      "learning_rate": 0.0005212194483706569,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 142423872,
+      "step": 65940
+    },
+    {
+      "epoch": 10.757748776508972,
+      "grad_norm": 0.004834748338907957,
+      "learning_rate": 0.0005211483324616544,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 142435648,
+      "step": 65945
+    },
+    {
+      "epoch": 10.758564437194128,
+      "grad_norm": 0.013836579397320747,
+      "learning_rate": 0.0005210772161240541,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 142447936,
+      "step": 65950
+    },
+    {
+      "epoch": 10.759380097879282,
+      "grad_norm": 0.057208843529224396,
+      "learning_rate": 0.0005210060993592973,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 142459136,
+      "step": 65955
+    },
+    {
+      "epoch": 10.760195758564437,
+      "grad_norm": 0.003955775871872902,
+      "learning_rate": 0.0005209349821688254,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 142468928,
+      "step": 65960
+    },
+    {
+      "epoch": 10.761011419249591,
+      "grad_norm": 0.00470461742952466,
+      "learning_rate": 0.0005208638645540795,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 142478656,
+      "step": 65965
+    },
+    {
+      "epoch": 10.761827079934747,
+      "grad_norm": 0.005068403668701649,
+      "learning_rate": 0.0005207927465165007,
+      "loss": 0.0613,
+      "num_input_tokens_seen": 142489184,
+      "step": 65970
+    },
+    {
+      "epoch": 10.762642740619903,
+      "grad_norm": 0.24675904214382172,
+      "learning_rate": 0.0005207216280575306,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 142499584,
+      "step": 65975
+    },
+    {
+      "epoch": 10.763458401305057,
+      "grad_norm": 0.12622298300266266,
+      "learning_rate": 0.0005206505091786103,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 142509440,
+      "step": 65980
+    },
+    {
+      "epoch": 10.764274061990212,
+      "grad_norm": 0.001572229783050716,
+      "learning_rate": 0.0005205793898811814,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 142520512,
+      "step": 65985
+    },
+    {
+      "epoch": 10.765089722675366,
+      "grad_norm": 0.04246864467859268,
+      "learning_rate": 0.0005205082701666851,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 142531872,
+      "step": 65990
+    },
+    {
+      "epoch": 10.765905383360522,
+      "grad_norm": 0.013875995762646198,
+      "learning_rate": 0.0005204371500365627,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 142542784,
+      "step": 65995
+    },
+    {
+      "epoch": 10.766721044045678,
+      "grad_norm": 0.10224605351686478,
+      "learning_rate": 0.0005203660294922554,
+      "loss": 0.1327,
+      "num_input_tokens_seen": 142553408,
+      "step": 66000
+    },
+    {
+      "epoch": 10.767536704730832,
+      "grad_norm": 0.10035200417041779,
+      "learning_rate": 0.0005202949085352048,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 142564352,
+      "step": 66005
+    },
+    {
+      "epoch": 10.768352365415987,
+      "grad_norm": 0.13176901638507843,
+      "learning_rate": 0.000520223787166852,
+      "loss": 0.1211,
+      "num_input_tokens_seen": 142576704,
+      "step": 66010
+    },
+    {
+      "epoch": 10.769168026101141,
+      "grad_norm": 0.004604107700288296,
+      "learning_rate": 0.0005201526653886385,
+      "loss": 0.0651,
+      "num_input_tokens_seen": 142587392,
+      "step": 66015
+    },
+    {
+      "epoch": 10.769983686786297,
+      "grad_norm": 0.0311175137758255,
+      "learning_rate": 0.0005200815432020058,
+      "loss": 0.1254,
+      "num_input_tokens_seen": 142597696,
+      "step": 66020
+    },
+    {
+      "epoch": 10.770799347471453,
+      "grad_norm": 0.027582794427871704,
+      "learning_rate": 0.0005200104206083951,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 142609152,
+      "step": 66025
+    },
+    {
+      "epoch": 10.771615008156607,
+      "grad_norm": 0.011016631498932838,
+      "learning_rate": 0.0005199392976092479,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 142620608,
+      "step": 66030
+    },
+    {
+      "epoch": 10.772430668841762,
+      "grad_norm": 0.011967485770583153,
+      "learning_rate": 0.0005198681742060055,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 142630944,
+      "step": 66035
+    },
+    {
+      "epoch": 10.773246329526916,
+      "grad_norm": 0.013100696727633476,
+      "learning_rate": 0.0005197970504001091,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 142642112,
+      "step": 66040
+    },
+    {
+      "epoch": 10.774061990212072,
+      "grad_norm": 0.0620444230735302,
+      "learning_rate": 0.0005197259261930007,
+      "loss": 0.0705,
+      "num_input_tokens_seen": 142652064,
+      "step": 66045
+    },
+    {
+      "epoch": 10.774877650897226,
+      "grad_norm": 0.5616212487220764,
+      "learning_rate": 0.0005196548015861212,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 142663328,
+      "step": 66050
+    },
+    {
+      "epoch": 10.775693311582382,
+      "grad_norm": 0.0031712185591459274,
+      "learning_rate": 0.0005195836765809123,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 142674304,
+      "step": 66055
+    },
+    {
+      "epoch": 10.776508972267537,
+      "grad_norm": 0.0015294282929971814,
+      "learning_rate": 0.0005195125511788153,
+      "loss": 0.1117,
+      "num_input_tokens_seen": 142684736,
+      "step": 66060
+    },
+    {
+      "epoch": 10.777324632952691,
+      "grad_norm": 0.004349547438323498,
+      "learning_rate": 0.0005194414253812718,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 142694880,
+      "step": 66065
+    },
+    {
+      "epoch": 10.778140293637847,
+      "grad_norm": 0.29317227005958557,
+      "learning_rate": 0.000519370299189723,
+      "loss": 0.2097,
+      "num_input_tokens_seen": 142705280,
+      "step": 66070
+    },
+    {
+      "epoch": 10.778955954323001,
+      "grad_norm": 0.3925904333591461,
+      "learning_rate": 0.0005192991726056107,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 142716928,
+      "step": 66075
+    },
+    {
+      "epoch": 10.779771615008157,
+      "grad_norm": 0.020632924512028694,
+      "learning_rate": 0.0005192280456303759,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 142727072,
+      "step": 66080
+    },
+    {
+      "epoch": 10.780587275693312,
+      "grad_norm": 0.001718319021165371,
+      "learning_rate": 0.0005191569182654606,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 142738560,
+      "step": 66085
+    },
+    {
+      "epoch": 10.781402936378466,
+      "grad_norm": 0.016666101291775703,
+      "learning_rate": 0.000519085790512306,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 142749696,
+      "step": 66090
+    },
+    {
+      "epoch": 10.782218597063622,
+      "grad_norm": 0.005761300679296255,
+      "learning_rate": 0.0005190146623723536,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 142761504,
+      "step": 66095
+    },
+    {
+      "epoch": 10.783034257748776,
+      "grad_norm": 0.020155632868409157,
+      "learning_rate": 0.000518943533847045,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 142772416,
+      "step": 66100
+    },
+    {
+      "epoch": 10.783849918433932,
+      "grad_norm": 0.006656975019723177,
+      "learning_rate": 0.0005188724049378216,
+      "loss": 0.013,
+      "num_input_tokens_seen": 142783392,
+      "step": 66105
+    },
+    {
+      "epoch": 10.784665579119086,
+      "grad_norm": 0.005192107055336237,
+      "learning_rate": 0.0005188012756461251,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 142793952,
+      "step": 66110
+    },
+    {
+      "epoch": 10.785481239804241,
+      "grad_norm": 0.024940945208072662,
+      "learning_rate": 0.0005187301459733967,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 142805856,
+      "step": 66115
+    },
+    {
+      "epoch": 10.786296900489397,
+      "grad_norm": 0.00655796192586422,
+      "learning_rate": 0.0005186590159210783,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 142818112,
+      "step": 66120
+    },
+    {
+      "epoch": 10.78711256117455,
+      "grad_norm": 0.24119259417057037,
+      "learning_rate": 0.0005185878854906111,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 142829632,
+      "step": 66125
+    },
+    {
+      "epoch": 10.787928221859707,
+      "grad_norm": 0.13890810310840607,
+      "learning_rate": 0.0005185167546834368,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 142840192,
+      "step": 66130
+    },
+    {
+      "epoch": 10.78874388254486,
+      "grad_norm": 0.03538502752780914,
+      "learning_rate": 0.0005184456235009972,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 142851264,
+      "step": 66135
+    },
+    {
+      "epoch": 10.789559543230016,
+      "grad_norm": 0.02117316424846649,
+      "learning_rate": 0.0005183744919447335,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 142862496,
+      "step": 66140
+    },
+    {
+      "epoch": 10.790375203915172,
+      "grad_norm": 0.006447410210967064,
+      "learning_rate": 0.0005183033600160875,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 142872896,
+      "step": 66145
+    },
+    {
+      "epoch": 10.791190864600326,
+      "grad_norm": 0.025039151310920715,
+      "learning_rate": 0.0005182322277165005,
+      "loss": 0.022,
+      "num_input_tokens_seen": 142883936,
+      "step": 66150
+    },
+    {
+      "epoch": 10.792006525285482,
+      "grad_norm": 0.0019283173605799675,
+      "learning_rate": 0.0005181610950474143,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 142894816,
+      "step": 66155
+    },
+    {
+      "epoch": 10.792822185970635,
+      "grad_norm": 0.5425769090652466,
+      "learning_rate": 0.0005180899620102707,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 142906752,
+      "step": 66160
+    },
+    {
+      "epoch": 10.793637846655791,
+      "grad_norm": 0.007401785347610712,
+      "learning_rate": 0.000518018828606511,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 142918464,
+      "step": 66165
+    },
+    {
+      "epoch": 10.794453507340947,
+      "grad_norm": 0.14382609724998474,
+      "learning_rate": 0.0005179476948375767,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 142930304,
+      "step": 66170
+    },
+    {
+      "epoch": 10.7952691680261,
+      "grad_norm": 0.026092106476426125,
+      "learning_rate": 0.0005178765607049098,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 142940320,
+      "step": 66175
+    },
+    {
+      "epoch": 10.796084828711257,
+      "grad_norm": 0.49475693702697754,
+      "learning_rate": 0.0005178054262099516,
+      "loss": 0.038,
+      "num_input_tokens_seen": 142950848,
+      "step": 66180
+    },
+    {
+      "epoch": 10.79690048939641,
+      "grad_norm": 0.3677700161933899,
+      "learning_rate": 0.000517734291354144,
+      "loss": 0.044,
+      "num_input_tokens_seen": 142962080,
+      "step": 66185
+    },
+    {
+      "epoch": 10.797716150081566,
+      "grad_norm": 0.15535861253738403,
+      "learning_rate": 0.0005176631561389283,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 142971648,
+      "step": 66190
+    },
+    {
+      "epoch": 10.798531810766722,
+      "grad_norm": 0.015271559357643127,
+      "learning_rate": 0.0005175920205657465,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 142982912,
+      "step": 66195
+    },
+    {
+      "epoch": 10.799347471451876,
+      "grad_norm": 0.4133912920951843,
+      "learning_rate": 0.0005175208846360399,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 142992672,
+      "step": 66200
+    },
+    {
+      "epoch": 10.800163132137031,
+      "grad_norm": 0.0460764579474926,
+      "learning_rate": 0.0005174497483512506,
+      "loss": 0.0649,
+      "num_input_tokens_seen": 143003104,
+      "step": 66205
+    },
+    {
+      "epoch": 10.800978792822185,
+      "grad_norm": 0.004594626370817423,
+      "learning_rate": 0.0005173786117128198,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 143013216,
+      "step": 66210
+    },
+    {
+      "epoch": 10.801794453507341,
+      "grad_norm": 0.043709345161914825,
+      "learning_rate": 0.0005173074747221895,
+      "loss": 0.028,
+      "num_input_tokens_seen": 143024192,
+      "step": 66215
+    },
+    {
+      "epoch": 10.802610114192497,
+      "grad_norm": 0.3211905062198639,
+      "learning_rate": 0.0005172363373808013,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 143035136,
+      "step": 66220
+    },
+    {
+      "epoch": 10.80342577487765,
+      "grad_norm": 0.010561930947005749,
+      "learning_rate": 0.0005171651996900967,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 143045504,
+      "step": 66225
+    },
+    {
+      "epoch": 10.804241435562806,
+      "grad_norm": 0.011289691552519798,
+      "learning_rate": 0.0005170940616515175,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 143057024,
+      "step": 66230
+    },
+    {
+      "epoch": 10.80505709624796,
+      "grad_norm": 0.010316290892660618,
+      "learning_rate": 0.0005170229232665056,
+      "loss": 0.0544,
+      "num_input_tokens_seen": 143068608,
+      "step": 66235
+    },
+    {
+      "epoch": 10.805872756933116,
+      "grad_norm": 0.12447977811098099,
+      "learning_rate": 0.0005169517845365025,
+      "loss": 0.114,
+      "num_input_tokens_seen": 143078976,
+      "step": 66240
+    },
+    {
+      "epoch": 10.80668841761827,
+      "grad_norm": 0.05771623179316521,
+      "learning_rate": 0.0005168806454629501,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 143089504,
+      "step": 66245
+    },
+    {
+      "epoch": 10.807504078303426,
+      "grad_norm": 0.6013209223747253,
+      "learning_rate": 0.0005168095060472899,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 143099392,
+      "step": 66250
+    },
+    {
+      "epoch": 10.808319738988581,
+      "grad_norm": 0.017578154802322388,
+      "learning_rate": 0.0005167383662909638,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 143109856,
+      "step": 66255
+    },
+    {
+      "epoch": 10.809135399673735,
+      "grad_norm": 0.012048912234604359,
+      "learning_rate": 0.0005166672261954134,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 143119776,
+      "step": 66260
+    },
+    {
+      "epoch": 10.809951060358891,
+      "grad_norm": 0.0018194675212725997,
+      "learning_rate": 0.0005165960857620806,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 143130816,
+      "step": 66265
+    },
+    {
+      "epoch": 10.810766721044045,
+      "grad_norm": 0.13204284012317657,
+      "learning_rate": 0.000516524944992407,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 143141408,
+      "step": 66270
+    },
+    {
+      "epoch": 10.8115823817292,
+      "grad_norm": 0.02083822339773178,
+      "learning_rate": 0.0005164538038878345,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 143153920,
+      "step": 66275
+    },
+    {
+      "epoch": 10.812398042414356,
+      "grad_norm": 0.010216380469501019,
+      "learning_rate": 0.0005163826624498047,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 143164256,
+      "step": 66280
+    },
+    {
+      "epoch": 10.81321370309951,
+      "grad_norm": 0.2752525806427002,
+      "learning_rate": 0.0005163115206797596,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 143175072,
+      "step": 66285
+    },
+    {
+      "epoch": 10.814029363784666,
+      "grad_norm": 0.14177221059799194,
+      "learning_rate": 0.0005162403785791408,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 143185408,
+      "step": 66290
+    },
+    {
+      "epoch": 10.81484502446982,
+      "grad_norm": 0.0835612341761589,
+      "learning_rate": 0.0005161692361493899,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 143196000,
+      "step": 66295
+    },
+    {
+      "epoch": 10.815660685154976,
+      "grad_norm": 0.005078664980828762,
+      "learning_rate": 0.0005160980933919491,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 143206336,
+      "step": 66300
+    },
+    {
+      "epoch": 10.81647634584013,
+      "grad_norm": 0.01076800748705864,
+      "learning_rate": 0.00051602695030826,
+      "loss": 0.037,
+      "num_input_tokens_seen": 143217952,
+      "step": 66305
+    },
+    {
+      "epoch": 10.817292006525285,
+      "grad_norm": 0.35145077109336853,
+      "learning_rate": 0.0005159558068997644,
+      "loss": 0.116,
+      "num_input_tokens_seen": 143229504,
+      "step": 66310
+    },
+    {
+      "epoch": 10.818107667210441,
+      "grad_norm": 0.012480063363909721,
+      "learning_rate": 0.0005158846631679041,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 143239136,
+      "step": 66315
+    },
+    {
+      "epoch": 10.818923327895595,
+      "grad_norm": 0.0028558603953570127,
+      "learning_rate": 0.0005158135191141211,
+      "loss": 0.062,
+      "num_input_tokens_seen": 143248512,
+      "step": 66320
+    },
+    {
+      "epoch": 10.81973898858075,
+      "grad_norm": 0.0026985383592545986,
+      "learning_rate": 0.000515742374739857,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 143259776,
+      "step": 66325
+    },
+    {
+      "epoch": 10.820554649265905,
+      "grad_norm": 0.01275864988565445,
+      "learning_rate": 0.0005156712300465537,
+      "loss": 0.039,
+      "num_input_tokens_seen": 143269440,
+      "step": 66330
+    },
+    {
+      "epoch": 10.82137030995106,
+      "grad_norm": 0.02906421571969986,
+      "learning_rate": 0.000515600085035653,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 143280384,
+      "step": 66335
+    },
+    {
+      "epoch": 10.822185970636216,
+      "grad_norm": 0.020170027390122414,
+      "learning_rate": 0.0005155289397085968,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 143291040,
+      "step": 66340
+    },
+    {
+      "epoch": 10.82300163132137,
+      "grad_norm": 0.03715604171156883,
+      "learning_rate": 0.0005154577940668269,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 143303296,
+      "step": 66345
+    },
+    {
+      "epoch": 10.823817292006526,
+      "grad_norm": 0.014832494780421257,
+      "learning_rate": 0.0005153866481117852,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 143315072,
+      "step": 66350
+    },
+    {
+      "epoch": 10.82463295269168,
+      "grad_norm": 0.004788695368915796,
+      "learning_rate": 0.0005153155018449137,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 143326688,
+      "step": 66355
+    },
+    {
+      "epoch": 10.825448613376835,
+      "grad_norm": 0.021626006811857224,
+      "learning_rate": 0.000515244355267654,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 143336800,
+      "step": 66360
+    },
+    {
+      "epoch": 10.826264274061991,
+      "grad_norm": 0.09210459142923355,
+      "learning_rate": 0.0005151732083814481,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 143347232,
+      "step": 66365
+    },
+    {
+      "epoch": 10.827079934747145,
+      "grad_norm": 0.007327007595449686,
+      "learning_rate": 0.000515102061187738,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 143359104,
+      "step": 66370
+    },
+    {
+      "epoch": 10.8278955954323,
+      "grad_norm": 0.07148618251085281,
+      "learning_rate": 0.0005150309136879654,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 143370304,
+      "step": 66375
+    },
+    {
+      "epoch": 10.828711256117455,
+      "grad_norm": 0.04153743386268616,
+      "learning_rate": 0.0005149597658835722,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 143381152,
+      "step": 66380
+    },
+    {
+      "epoch": 10.82952691680261,
+      "grad_norm": 0.023836899548768997,
+      "learning_rate": 0.0005148886177760005,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 143392672,
+      "step": 66385
+    },
+    {
+      "epoch": 10.830342577487766,
+      "grad_norm": 0.06939146667718887,
+      "learning_rate": 0.000514817469366692,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 143403264,
+      "step": 66390
+    },
+    {
+      "epoch": 10.83115823817292,
+      "grad_norm": 0.0013916671741753817,
+      "learning_rate": 0.0005147463206570886,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 143414944,
+      "step": 66395
+    },
+    {
+      "epoch": 10.831973898858076,
+      "grad_norm": 0.009549994952976704,
+      "learning_rate": 0.0005146751716486324,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 143425216,
+      "step": 66400
+    },
+    {
+      "epoch": 10.83278955954323,
+      "grad_norm": 0.054410431534051895,
+      "learning_rate": 0.0005146040223427652,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 143437120,
+      "step": 66405
+    },
+    {
+      "epoch": 10.833605220228385,
+      "grad_norm": 0.00718072010204196,
+      "learning_rate": 0.0005145328727409291,
+      "loss": 0.0341,
+      "num_input_tokens_seen": 143448128,
+      "step": 66410
+    },
+    {
+      "epoch": 10.83442088091354,
+      "grad_norm": 0.186012402176857,
+      "learning_rate": 0.0005144617228445657,
+      "loss": 0.019,
+      "num_input_tokens_seen": 143458976,
+      "step": 66415
+    },
+    {
+      "epoch": 10.835236541598695,
+      "grad_norm": 0.005144505761563778,
+      "learning_rate": 0.0005143905726551172,
+      "loss": 0.1658,
+      "num_input_tokens_seen": 143469376,
+      "step": 66420
+    },
+    {
+      "epoch": 10.83605220228385,
+      "grad_norm": 0.01144189853221178,
+      "learning_rate": 0.0005143194221740255,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 143479872,
+      "step": 66425
+    },
+    {
+      "epoch": 10.836867862969005,
+      "grad_norm": 0.003008177038282156,
+      "learning_rate": 0.0005142482714027326,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 143490976,
+      "step": 66430
+    },
+    {
+      "epoch": 10.83768352365416,
+      "grad_norm": 0.020077014341950417,
+      "learning_rate": 0.0005141771203426803,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 143502496,
+      "step": 66435
+    },
+    {
+      "epoch": 10.838499184339314,
+      "grad_norm": 0.26483267545700073,
+      "learning_rate": 0.0005141059689953107,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 143513184,
+      "step": 66440
+    },
+    {
+      "epoch": 10.83931484502447,
+      "grad_norm": 0.22102683782577515,
+      "learning_rate": 0.0005140348173620657,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 143523232,
+      "step": 66445
+    },
+    {
+      "epoch": 10.840130505709626,
+      "grad_norm": 0.007105762138962746,
+      "learning_rate": 0.0005139636654443874,
+      "loss": 0.032,
+      "num_input_tokens_seen": 143534208,
+      "step": 66450
+    },
+    {
+      "epoch": 10.84094616639478,
+      "grad_norm": 0.03749940171837807,
+      "learning_rate": 0.0005138925132437178,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 143545376,
+      "step": 66455
+    },
+    {
+      "epoch": 10.841761827079935,
+      "grad_norm": 0.00626655388623476,
+      "learning_rate": 0.0005138213607614985,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 143555968,
+      "step": 66460
+    },
+    {
+      "epoch": 10.84257748776509,
+      "grad_norm": 0.004296998027712107,
+      "learning_rate": 0.000513750207999172,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 143566560,
+      "step": 66465
+    },
+    {
+      "epoch": 10.843393148450245,
+      "grad_norm": 0.004289441742002964,
+      "learning_rate": 0.0005136790549581801,
+      "loss": 0.064,
+      "num_input_tokens_seen": 143577056,
+      "step": 66470
+    },
+    {
+      "epoch": 10.844208809135399,
+      "grad_norm": 0.005175084341317415,
+      "learning_rate": 0.0005136079016399647,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 143588672,
+      "step": 66475
+    },
+    {
+      "epoch": 10.845024469820554,
+      "grad_norm": 0.28688469529151917,
+      "learning_rate": 0.000513536748045968,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 143600320,
+      "step": 66480
+    },
+    {
+      "epoch": 10.84584013050571,
+      "grad_norm": 0.12599433958530426,
+      "learning_rate": 0.000513465594177632,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 143612608,
+      "step": 66485
+    },
+    {
+      "epoch": 10.846655791190864,
+      "grad_norm": 0.31342703104019165,
+      "learning_rate": 0.0005133944400363986,
+      "loss": 0.2291,
+      "num_input_tokens_seen": 143623200,
+      "step": 66490
+    },
+    {
+      "epoch": 10.84747145187602,
+      "grad_norm": 0.10795027762651443,
+      "learning_rate": 0.0005133232856237098,
+      "loss": 0.014,
+      "num_input_tokens_seen": 143634560,
+      "step": 66495
+    },
+    {
+      "epoch": 10.848287112561174,
+      "grad_norm": 0.3790777027606964,
+      "learning_rate": 0.0005132521309410078,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 143644288,
+      "step": 66500
+    },
+    {
+      "epoch": 10.84910277324633,
+      "grad_norm": 0.0046887993812561035,
+      "learning_rate": 0.0005131809759897345,
+      "loss": 0.005,
+      "num_input_tokens_seen": 143654848,
+      "step": 66505
+    },
+    {
+      "epoch": 10.849918433931485,
+      "grad_norm": 0.008742697536945343,
+      "learning_rate": 0.000513109820771332,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 143664768,
+      "step": 66510
+    },
+    {
+      "epoch": 10.850734094616639,
+      "grad_norm": 0.021899035200476646,
+      "learning_rate": 0.0005130386652872423,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 143675680,
+      "step": 66515
+    },
+    {
+      "epoch": 10.851549755301795,
+      "grad_norm": 0.33755260705947876,
+      "learning_rate": 0.0005129675095389076,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 143685280,
+      "step": 66520
+    },
+    {
+      "epoch": 10.852365415986949,
+      "grad_norm": 0.002667512744665146,
+      "learning_rate": 0.0005128963535277699,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 143695648,
+      "step": 66525
+    },
+    {
+      "epoch": 10.853181076672104,
+      "grad_norm": 0.026985513046383858,
+      "learning_rate": 0.0005128251972552711,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 143706208,
+      "step": 66530
+    },
+    {
+      "epoch": 10.85399673735726,
+      "grad_norm": 0.3457069396972656,
+      "learning_rate": 0.0005127540407228535,
+      "loss": 0.2036,
+      "num_input_tokens_seen": 143717408,
+      "step": 66535
+    },
+    {
+      "epoch": 10.854812398042414,
+      "grad_norm": 0.003863809397444129,
+      "learning_rate": 0.0005126828839319591,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 143729632,
+      "step": 66540
+    },
+    {
+      "epoch": 10.85562805872757,
+      "grad_norm": 0.008951705880463123,
+      "learning_rate": 0.0005126117268840299,
+      "loss": 0.029,
+      "num_input_tokens_seen": 143739968,
+      "step": 66545
+    },
+    {
+      "epoch": 10.856443719412724,
+      "grad_norm": 0.0031280622351914644,
+      "learning_rate": 0.000512540569580508,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 143751712,
+      "step": 66550
+    },
+    {
+      "epoch": 10.85725938009788,
+      "grad_norm": 0.1753411591053009,
+      "learning_rate": 0.0005124694120228357,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 143762720,
+      "step": 66555
+    },
+    {
+      "epoch": 10.858075040783035,
+      "grad_norm": 0.5248215198516846,
+      "learning_rate": 0.0005123982542124549,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 143774304,
+      "step": 66560
+    },
+    {
+      "epoch": 10.858890701468189,
+      "grad_norm": 0.012592996470630169,
+      "learning_rate": 0.0005123270961508077,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 143783712,
+      "step": 66565
+    },
+    {
+      "epoch": 10.859706362153345,
+      "grad_norm": 0.029887670651078224,
+      "learning_rate": 0.0005122559378393363,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 143794400,
+      "step": 66570
+    },
+    {
+      "epoch": 10.860522022838499,
+      "grad_norm": 0.0571708083152771,
+      "learning_rate": 0.0005121847792794828,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 143805728,
+      "step": 66575
+    },
+    {
+      "epoch": 10.861337683523654,
+      "grad_norm": 0.006564087700098753,
+      "learning_rate": 0.0005121136204726893,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 143815424,
+      "step": 66580
+    },
+    {
+      "epoch": 10.86215334420881,
+      "grad_norm": 0.005001547280699015,
+      "learning_rate": 0.0005120424614203978,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 143826560,
+      "step": 66585
+    },
+    {
+      "epoch": 10.862969004893964,
+      "grad_norm": 0.04530732333660126,
+      "learning_rate": 0.0005119713021240507,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 143838016,
+      "step": 66590
+    },
+    {
+      "epoch": 10.86378466557912,
+      "grad_norm": 0.002425889251753688,
+      "learning_rate": 0.0005119001425850899,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 143850240,
+      "step": 66595
+    },
+    {
+      "epoch": 10.864600326264274,
+      "grad_norm": 0.0060838027857244015,
+      "learning_rate": 0.0005118289828049575,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 143860960,
+      "step": 66600
+    },
+    {
+      "epoch": 10.86541598694943,
+      "grad_norm": 0.07112309336662292,
+      "learning_rate": 0.0005117578227850958,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 143871872,
+      "step": 66605
+    },
+    {
+      "epoch": 10.866231647634583,
+      "grad_norm": 0.026289258152246475,
+      "learning_rate": 0.000511686662526947,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 143880800,
+      "step": 66610
+    },
+    {
+      "epoch": 10.867047308319739,
+      "grad_norm": 0.011879836209118366,
+      "learning_rate": 0.0005116155020319531,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 143892128,
+      "step": 66615
+    },
+    {
+      "epoch": 10.867862969004895,
+      "grad_norm": 0.002536615589633584,
+      "learning_rate": 0.0005115443413015563,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 143902304,
+      "step": 66620
+    },
+    {
+      "epoch": 10.868678629690049,
+      "grad_norm": 0.2889273762702942,
+      "learning_rate": 0.0005114731803371988,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 143914688,
+      "step": 66625
+    },
+    {
+      "epoch": 10.869494290375204,
+      "grad_norm": 0.003246544860303402,
+      "learning_rate": 0.0005114020191403228,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 143925344,
+      "step": 66630
+    },
+    {
+      "epoch": 10.870309951060358,
+      "grad_norm": 0.00995062105357647,
+      "learning_rate": 0.0005113308577123705,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 143935776,
+      "step": 66635
+    },
+    {
+      "epoch": 10.871125611745514,
+      "grad_norm": 0.26391562819480896,
+      "learning_rate": 0.0005112596960547838,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 143947296,
+      "step": 66640
+    },
+    {
+      "epoch": 10.87194127243067,
+      "grad_norm": 0.01041611097753048,
+      "learning_rate": 0.0005111885341690051,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 143958784,
+      "step": 66645
+    },
+    {
+      "epoch": 10.872756933115824,
+      "grad_norm": 0.06782546639442444,
+      "learning_rate": 0.0005111173720564767,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 143969824,
+      "step": 66650
+    },
+    {
+      "epoch": 10.87357259380098,
+      "grad_norm": 0.03075503371655941,
+      "learning_rate": 0.0005110462097186405,
+      "loss": 0.038,
+      "num_input_tokens_seen": 143981440,
+      "step": 66655
+    },
+    {
+      "epoch": 10.874388254486133,
+      "grad_norm": 0.0384233333170414,
+      "learning_rate": 0.0005109750471569388,
+      "loss": 0.2224,
+      "num_input_tokens_seen": 143991840,
+      "step": 66660
+    },
+    {
+      "epoch": 10.875203915171289,
+      "grad_norm": 0.38814109563827515,
+      "learning_rate": 0.000510903884372814,
+      "loss": 0.1535,
+      "num_input_tokens_seen": 144003200,
+      "step": 66665
+    },
+    {
+      "epoch": 10.876019575856443,
+      "grad_norm": 0.1948164850473404,
+      "learning_rate": 0.0005108327213677081,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 144014656,
+      "step": 66670
+    },
+    {
+      "epoch": 10.876835236541599,
+      "grad_norm": 0.05382636934518814,
+      "learning_rate": 0.0005107615581430633,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 144026400,
+      "step": 66675
+    },
+    {
+      "epoch": 10.877650897226754,
+      "grad_norm": 0.20784275233745575,
+      "learning_rate": 0.0005106903947003221,
+      "loss": 0.023,
+      "num_input_tokens_seen": 144036480,
+      "step": 66680
+    },
+    {
+      "epoch": 10.878466557911908,
+      "grad_norm": 0.4996677339076996,
+      "learning_rate": 0.0005106192310409263,
+      "loss": 0.0446,
+      "num_input_tokens_seen": 144046624,
+      "step": 66685
+    },
+    {
+      "epoch": 10.879282218597064,
+      "grad_norm": 0.002807484706863761,
+      "learning_rate": 0.0005105480671663183,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 144056960,
+      "step": 66690
+    },
+    {
+      "epoch": 10.880097879282218,
+      "grad_norm": 0.06957192718982697,
+      "learning_rate": 0.0005104769030779404,
+      "loss": 0.0435,
+      "num_input_tokens_seen": 144066592,
+      "step": 66695
+    },
+    {
+      "epoch": 10.880913539967374,
+      "grad_norm": 0.009007420390844345,
+      "learning_rate": 0.0005104057387772347,
+      "loss": 0.02,
+      "num_input_tokens_seen": 144077504,
+      "step": 66700
+    },
+    {
+      "epoch": 10.88172920065253,
+      "grad_norm": 0.16739769279956818,
+      "learning_rate": 0.0005103345742656437,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 144086112,
+      "step": 66705
+    },
+    {
+      "epoch": 10.882544861337683,
+      "grad_norm": 0.004342829342931509,
+      "learning_rate": 0.0005102634095446092,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 144097216,
+      "step": 66710
+    },
+    {
+      "epoch": 10.883360522022839,
+      "grad_norm": 0.054401274770498276,
+      "learning_rate": 0.0005101922446155738,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 144108000,
+      "step": 66715
+    },
+    {
+      "epoch": 10.884176182707993,
+      "grad_norm": 0.0049821496941149235,
+      "learning_rate": 0.0005101210794799797,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 144119232,
+      "step": 66720
+    },
+    {
+      "epoch": 10.884991843393149,
+      "grad_norm": 0.0032072472386062145,
+      "learning_rate": 0.0005100499141392689,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 144129696,
+      "step": 66725
+    },
+    {
+      "epoch": 10.885807504078304,
+      "grad_norm": 0.001098168664611876,
+      "learning_rate": 0.0005099787485948839,
+      "loss": 0.0478,
+      "num_input_tokens_seen": 144140576,
+      "step": 66730
+    },
+    {
+      "epoch": 10.886623164763458,
+      "grad_norm": 0.045703381299972534,
+      "learning_rate": 0.000509907582848267,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 144151456,
+      "step": 66735
+    },
+    {
+      "epoch": 10.887438825448614,
+      "grad_norm": 0.0048604668118059635,
+      "learning_rate": 0.0005098364169008604,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 144161984,
+      "step": 66740
+    },
+    {
+      "epoch": 10.888254486133768,
+      "grad_norm": 0.37948596477508545,
+      "learning_rate": 0.0005097652507541062,
+      "loss": 0.099,
+      "num_input_tokens_seen": 144173152,
+      "step": 66745
+    },
+    {
+      "epoch": 10.889070146818923,
+      "grad_norm": 0.012583531439304352,
+      "learning_rate": 0.0005096940844094467,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 144184736,
+      "step": 66750
+    },
+    {
+      "epoch": 10.88988580750408,
+      "grad_norm": 0.02361808530986309,
+      "learning_rate": 0.0005096229178683244,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 144196064,
+      "step": 66755
+    },
+    {
+      "epoch": 10.890701468189233,
+      "grad_norm": 0.15489862859249115,
+      "learning_rate": 0.0005095517511321815,
+      "loss": 0.02,
+      "num_input_tokens_seen": 144207200,
+      "step": 66760
+    },
+    {
+      "epoch": 10.891517128874389,
+      "grad_norm": 0.01060162577778101,
+      "learning_rate": 0.0005094805842024603,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 144217664,
+      "step": 66765
+    },
+    {
+      "epoch": 10.892332789559543,
+      "grad_norm": 0.0021783667616546154,
+      "learning_rate": 0.000509409417080603,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 144226784,
+      "step": 66770
+    },
+    {
+      "epoch": 10.893148450244698,
+      "grad_norm": 0.10572908818721771,
+      "learning_rate": 0.0005093382497680516,
+      "loss": 0.1198,
+      "num_input_tokens_seen": 144237024,
+      "step": 66775
+    },
+    {
+      "epoch": 10.893964110929852,
+      "grad_norm": 0.35556432604789734,
+      "learning_rate": 0.000509267082266249,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 144247488,
+      "step": 66780
+    },
+    {
+      "epoch": 10.894779771615008,
+      "grad_norm": 0.020045407116413116,
+      "learning_rate": 0.0005091959145766373,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 144258048,
+      "step": 66785
+    },
+    {
+      "epoch": 10.895595432300164,
+      "grad_norm": 0.10034667700529099,
+      "learning_rate": 0.0005091247467006588,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 144268832,
+      "step": 66790
+    },
+    {
+      "epoch": 10.896411092985318,
+      "grad_norm": 0.005177509505301714,
+      "learning_rate": 0.0005090535786397556,
+      "loss": 0.1209,
+      "num_input_tokens_seen": 144279744,
+      "step": 66795
+    },
+    {
+      "epoch": 10.897226753670473,
+      "grad_norm": 0.0051989988423883915,
+      "learning_rate": 0.0005089824103953701,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 144290976,
+      "step": 66800
+    },
+    {
+      "epoch": 10.898042414355627,
+      "grad_norm": 0.16461747884750366,
+      "learning_rate": 0.0005089112419689447,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 144301312,
+      "step": 66805
+    },
+    {
+      "epoch": 10.898858075040783,
+      "grad_norm": 0.04938230663537979,
+      "learning_rate": 0.0005088400733619217,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 144311904,
+      "step": 66810
+    },
+    {
+      "epoch": 10.899673735725939,
+      "grad_norm": 0.004325589165091515,
+      "learning_rate": 0.0005087689045757433,
+      "loss": 0.2009,
+      "num_input_tokens_seen": 144323392,
+      "step": 66815
+    },
+    {
+      "epoch": 10.900489396411093,
+      "grad_norm": 0.006989457178860903,
+      "learning_rate": 0.000508697735611852,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 144335232,
+      "step": 66820
+    },
+    {
+      "epoch": 10.901305057096248,
+      "grad_norm": 0.021615099161863327,
+      "learning_rate": 0.0005086265664716901,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 144345408,
+      "step": 66825
+    },
+    {
+      "epoch": 10.902120717781402,
+      "grad_norm": 0.005931622814387083,
+      "learning_rate": 0.0005085553971566998,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 144356000,
+      "step": 66830
+    },
+    {
+      "epoch": 10.902936378466558,
+      "grad_norm": 0.6692498326301575,
+      "learning_rate": 0.0005084842276683236,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 144366048,
+      "step": 66835
+    },
+    {
+      "epoch": 10.903752039151712,
+      "grad_norm": 0.003552852664142847,
+      "learning_rate": 0.0005084130580080038,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 144377312,
+      "step": 66840
+    },
+    {
+      "epoch": 10.904567699836868,
+      "grad_norm": 0.004602952394634485,
+      "learning_rate": 0.0005083418881771826,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 144387872,
+      "step": 66845
+    },
+    {
+      "epoch": 10.905383360522023,
+      "grad_norm": 0.1763039380311966,
+      "learning_rate": 0.0005082707181773025,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 144399232,
+      "step": 66850
+    },
+    {
+      "epoch": 10.906199021207177,
+      "grad_norm": 0.11560584604740143,
+      "learning_rate": 0.0005081995480098057,
+      "loss": 0.02,
+      "num_input_tokens_seen": 144410144,
+      "step": 66855
+    },
+    {
+      "epoch": 10.907014681892333,
+      "grad_norm": 0.14307036995887756,
+      "learning_rate": 0.0005081283776761348,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 144420672,
+      "step": 66860
+    },
+    {
+      "epoch": 10.907830342577487,
+      "grad_norm": 0.45195597410202026,
+      "learning_rate": 0.0005080572071777319,
+      "loss": 0.1616,
+      "num_input_tokens_seen": 144431936,
+      "step": 66865
+    },
+    {
+      "epoch": 10.908646003262643,
+      "grad_norm": 0.003012361004948616,
+      "learning_rate": 0.0005079860365160395,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 144442816,
+      "step": 66870
+    },
+    {
+      "epoch": 10.909461663947798,
+      "grad_norm": 0.11098600924015045,
+      "learning_rate": 0.0005079148656924999,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 144453408,
+      "step": 66875
+    },
+    {
+      "epoch": 10.910277324632952,
+      "grad_norm": 0.20769816637039185,
+      "learning_rate": 0.0005078436947085557,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 144463968,
+      "step": 66880
+    },
+    {
+      "epoch": 10.911092985318108,
+      "grad_norm": 0.007285351864993572,
+      "learning_rate": 0.0005077725235656488,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 144474176,
+      "step": 66885
+    },
+    {
+      "epoch": 10.911908646003262,
+      "grad_norm": 0.005105094984173775,
+      "learning_rate": 0.000507701352265222,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 144485600,
+      "step": 66890
+    },
+    {
+      "epoch": 10.912724306688418,
+      "grad_norm": 0.05201911926269531,
+      "learning_rate": 0.0005076301808087176,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 144496864,
+      "step": 66895
+    },
+    {
+      "epoch": 10.913539967373573,
+      "grad_norm": 0.0026850395370274782,
+      "learning_rate": 0.0005075590091975779,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 144506944,
+      "step": 66900
+    },
+    {
+      "epoch": 10.914355628058727,
+      "grad_norm": 0.017833666875958443,
+      "learning_rate": 0.0005074878374332452,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 144518144,
+      "step": 66905
+    },
+    {
+      "epoch": 10.915171288743883,
+      "grad_norm": 0.01121000200510025,
+      "learning_rate": 0.000507416665517162,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 144527328,
+      "step": 66910
+    },
+    {
+      "epoch": 10.915986949429037,
+      "grad_norm": 0.006536161061376333,
+      "learning_rate": 0.0005073454934507708,
+      "loss": 0.006,
+      "num_input_tokens_seen": 144538560,
+      "step": 66915
+    },
+    {
+      "epoch": 10.916802610114193,
+      "grad_norm": 0.3094877600669861,
+      "learning_rate": 0.0005072743212355135,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 144550560,
+      "step": 66920
+    },
+    {
+      "epoch": 10.917618270799348,
+      "grad_norm": 0.07924286276102066,
+      "learning_rate": 0.0005072031488728331,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 144561472,
+      "step": 66925
+    },
+    {
+      "epoch": 10.918433931484502,
+      "grad_norm": 0.47475647926330566,
+      "learning_rate": 0.0005071319763641718,
+      "loss": 0.0448,
+      "num_input_tokens_seen": 144572864,
+      "step": 66930
+    },
+    {
+      "epoch": 10.919249592169658,
+      "grad_norm": 0.03268728777766228,
+      "learning_rate": 0.0005070608037109718,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 144582912,
+      "step": 66935
+    },
+    {
+      "epoch": 10.920065252854812,
+      "grad_norm": 0.010898868553340435,
+      "learning_rate": 0.0005069896309146758,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 144593664,
+      "step": 66940
+    },
+    {
+      "epoch": 10.920880913539968,
+      "grad_norm": 0.024903923273086548,
+      "learning_rate": 0.000506918457976726,
+      "loss": 0.1886,
+      "num_input_tokens_seen": 144604192,
+      "step": 66945
+    },
+    {
+      "epoch": 10.921696574225122,
+      "grad_norm": 2.0595877170562744,
+      "learning_rate": 0.0005068472848985647,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 144614336,
+      "step": 66950
+    },
+    {
+      "epoch": 10.922512234910277,
+      "grad_norm": 0.003864932106807828,
+      "learning_rate": 0.0005067761116816348,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 144625824,
+      "step": 66955
+    },
+    {
+      "epoch": 10.923327895595433,
+      "grad_norm": 0.02564224787056446,
+      "learning_rate": 0.0005067049383273783,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 144636064,
+      "step": 66960
+    },
+    {
+      "epoch": 10.924143556280587,
+      "grad_norm": 0.0030069448985159397,
+      "learning_rate": 0.0005066337648372376,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 144646176,
+      "step": 66965
+    },
+    {
+      "epoch": 10.924959216965743,
+      "grad_norm": 0.0064015681855380535,
+      "learning_rate": 0.0005065625912126553,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 144655616,
+      "step": 66970
+    },
+    {
+      "epoch": 10.925774877650896,
+      "grad_norm": 0.016096873208880424,
+      "learning_rate": 0.0005064914174550737,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 144667072,
+      "step": 66975
+    },
+    {
+      "epoch": 10.926590538336052,
+      "grad_norm": 0.018032198771834373,
+      "learning_rate": 0.0005064202435659354,
+      "loss": 0.05,
+      "num_input_tokens_seen": 144676800,
+      "step": 66980
+    },
+    {
+      "epoch": 10.927406199021208,
+      "grad_norm": 0.13074368238449097,
+      "learning_rate": 0.0005063490695466827,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 144687616,
+      "step": 66985
+    },
+    {
+      "epoch": 10.928221859706362,
+      "grad_norm": 0.006677868310362101,
+      "learning_rate": 0.000506277895398758,
+      "loss": 0.017,
+      "num_input_tokens_seen": 144698464,
+      "step": 66990
+    },
+    {
+      "epoch": 10.929037520391518,
+      "grad_norm": 0.07817433029413223,
+      "learning_rate": 0.0005062067211236039,
+      "loss": 0.0938,
+      "num_input_tokens_seen": 144709216,
+      "step": 66995
+    },
+    {
+      "epoch": 10.929853181076671,
+      "grad_norm": 0.008835572749376297,
+      "learning_rate": 0.0005061355467226626,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 144720224,
+      "step": 67000
+    },
+    {
+      "epoch": 10.930668841761827,
+      "grad_norm": 0.002849903656169772,
+      "learning_rate": 0.0005060643721973766,
+      "loss": 0.0499,
+      "num_input_tokens_seen": 144730592,
+      "step": 67005
+    },
+    {
+      "epoch": 10.931484502446983,
+      "grad_norm": 0.0012694394681602716,
+      "learning_rate": 0.0005059931975491886,
+      "loss": 0.1155,
+      "num_input_tokens_seen": 144740960,
+      "step": 67010
+    },
+    {
+      "epoch": 10.932300163132137,
+      "grad_norm": 0.00297158001922071,
+      "learning_rate": 0.0005059220227795409,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 144751520,
+      "step": 67015
+    },
+    {
+      "epoch": 10.933115823817293,
+      "grad_norm": 0.8607537150382996,
+      "learning_rate": 0.0005058508478898757,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 144761856,
+      "step": 67020
+    },
+    {
+      "epoch": 10.933931484502446,
+      "grad_norm": 0.20840585231781006,
+      "learning_rate": 0.0005057796728816358,
+      "loss": 0.016,
+      "num_input_tokens_seen": 144772672,
+      "step": 67025
+    },
+    {
+      "epoch": 10.934747145187602,
+      "grad_norm": 0.006408384069800377,
+      "learning_rate": 0.0005057084977562633,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 144784224,
+      "step": 67030
+    },
+    {
+      "epoch": 10.935562805872756,
+      "grad_norm": 0.28648972511291504,
+      "learning_rate": 0.0005056373225152009,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 144793216,
+      "step": 67035
+    },
+    {
+      "epoch": 10.936378466557912,
+      "grad_norm": 0.018111038953065872,
+      "learning_rate": 0.0005055661471598911,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 144803680,
+      "step": 67040
+    },
+    {
+      "epoch": 10.937194127243067,
+      "grad_norm": 0.02693861722946167,
+      "learning_rate": 0.0005054949716917763,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 144814816,
+      "step": 67045
+    },
+    {
+      "epoch": 10.938009787928221,
+      "grad_norm": 0.27363863587379456,
+      "learning_rate": 0.0005054237961122989,
+      "loss": 0.0874,
+      "num_input_tokens_seen": 144826176,
+      "step": 67050
+    },
+    {
+      "epoch": 10.938825448613377,
+      "grad_norm": 0.015029046684503555,
+      "learning_rate": 0.0005053526204229012,
+      "loss": 0.0694,
+      "num_input_tokens_seen": 144836160,
+      "step": 67055
+    },
+    {
+      "epoch": 10.939641109298531,
+      "grad_norm": 0.005386275239288807,
+      "learning_rate": 0.000505281444625026,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 144845088,
+      "step": 67060
+    },
+    {
+      "epoch": 10.940456769983687,
+      "grad_norm": 0.015765998512506485,
+      "learning_rate": 0.0005052102687201156,
+      "loss": 0.0738,
+      "num_input_tokens_seen": 144856288,
+      "step": 67065
+    },
+    {
+      "epoch": 10.941272430668842,
+      "grad_norm": 0.046367112547159195,
+      "learning_rate": 0.0005051390927096125,
+      "loss": 0.0486,
+      "num_input_tokens_seen": 144866208,
+      "step": 67070
+    },
+    {
+      "epoch": 10.942088091353996,
+      "grad_norm": 0.014453914016485214,
+      "learning_rate": 0.0005050679165949592,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 144877344,
+      "step": 67075
+    },
+    {
+      "epoch": 10.942903752039152,
+      "grad_norm": 0.02145060896873474,
+      "learning_rate": 0.0005049967403775982,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 144888160,
+      "step": 67080
+    },
+    {
+      "epoch": 10.943719412724306,
+      "grad_norm": 0.0056599765084683895,
+      "learning_rate": 0.0005049255640589718,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 144900224,
+      "step": 67085
+    },
+    {
+      "epoch": 10.944535073409462,
+      "grad_norm": 0.4373588562011719,
+      "learning_rate": 0.0005048543876405225,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 144909792,
+      "step": 67090
+    },
+    {
+      "epoch": 10.945350734094617,
+      "grad_norm": 0.007855315692722797,
+      "learning_rate": 0.000504783211123693,
+      "loss": 0.1838,
+      "num_input_tokens_seen": 144920992,
+      "step": 67095
+    },
+    {
+      "epoch": 10.946166394779771,
+      "grad_norm": 0.41129010915756226,
+      "learning_rate": 0.0005047120345099258,
+      "loss": 0.1903,
+      "num_input_tokens_seen": 144930080,
+      "step": 67100
+    },
+    {
+      "epoch": 10.946982055464927,
+      "grad_norm": 0.00836831796914339,
+      "learning_rate": 0.0005046408578006631,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 144940320,
+      "step": 67105
+    },
+    {
+      "epoch": 10.947797716150081,
+      "grad_norm": 0.04342430830001831,
+      "learning_rate": 0.0005045696809973474,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 144951392,
+      "step": 67110
+    },
+    {
+      "epoch": 10.948613376835237,
+      "grad_norm": 0.0020754148717969656,
+      "learning_rate": 0.0005044985041014217,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 144960928,
+      "step": 67115
+    },
+    {
+      "epoch": 10.949429037520392,
+      "grad_norm": 0.007274713832885027,
+      "learning_rate": 0.0005044273271143277,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 144973024,
+      "step": 67120
+    },
+    {
+      "epoch": 10.950244698205546,
+      "grad_norm": 0.4020930826663971,
+      "learning_rate": 0.0005043561500375085,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 144983776,
+      "step": 67125
+    },
+    {
+      "epoch": 10.951060358890702,
+      "grad_norm": 0.42312315106391907,
+      "learning_rate": 0.0005042849728724064,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 144993888,
+      "step": 67130
+    },
+    {
+      "epoch": 10.951876019575856,
+      "grad_norm": 0.008536286652088165,
+      "learning_rate": 0.0005042137956204639,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 145004352,
+      "step": 67135
+    },
+    {
+      "epoch": 10.952691680261012,
+      "grad_norm": 0.004205097444355488,
+      "learning_rate": 0.0005041426182831233,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 145014592,
+      "step": 67140
+    },
+    {
+      "epoch": 10.953507340946166,
+      "grad_norm": 0.001511257141828537,
+      "learning_rate": 0.0005040714408618275,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 145025344,
+      "step": 67145
+    },
+    {
+      "epoch": 10.954323001631321,
+      "grad_norm": 0.3182823061943054,
+      "learning_rate": 0.0005040002633580188,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 145037088,
+      "step": 67150
+    },
+    {
+      "epoch": 10.955138662316477,
+      "grad_norm": 0.027804870158433914,
+      "learning_rate": 0.0005039290857731395,
+      "loss": 0.006,
+      "num_input_tokens_seen": 145048544,
+      "step": 67155
+    },
+    {
+      "epoch": 10.955954323001631,
+      "grad_norm": 0.3454773724079132,
+      "learning_rate": 0.0005038579081086324,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 145059584,
+      "step": 67160
+    },
+    {
+      "epoch": 10.956769983686787,
+      "grad_norm": 0.01337494421750307,
+      "learning_rate": 0.0005037867303659399,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 145070880,
+      "step": 67165
+    },
+    {
+      "epoch": 10.95758564437194,
+      "grad_norm": 0.01701531931757927,
+      "learning_rate": 0.0005037155525465046,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 145082208,
+      "step": 67170
+    },
+    {
+      "epoch": 10.958401305057096,
+      "grad_norm": 0.015620725229382515,
+      "learning_rate": 0.0005036443746517688,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 145093024,
+      "step": 67175
+    },
+    {
+      "epoch": 10.959216965742252,
+      "grad_norm": 0.017922695726156235,
+      "learning_rate": 0.0005035731966831752,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 145104064,
+      "step": 67180
+    },
+    {
+      "epoch": 10.960032626427406,
+      "grad_norm": 0.17914153635501862,
+      "learning_rate": 0.0005035020186421661,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 145116064,
+      "step": 67185
+    },
+    {
+      "epoch": 10.960848287112562,
+      "grad_norm": 0.0031310205813497305,
+      "learning_rate": 0.0005034308405301842,
+      "loss": 0.0992,
+      "num_input_tokens_seen": 145126720,
+      "step": 67190
+    },
+    {
+      "epoch": 10.961663947797716,
+      "grad_norm": 0.27558255195617676,
+      "learning_rate": 0.0005033596623486719,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 145137344,
+      "step": 67195
+    },
+    {
+      "epoch": 10.962479608482871,
+      "grad_norm": 0.02502385526895523,
+      "learning_rate": 0.0005032884840990719,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 145147744,
+      "step": 67200
+    },
+    {
+      "epoch": 10.963295269168025,
+      "grad_norm": 0.15393461287021637,
+      "learning_rate": 0.0005032173057828265,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 145158528,
+      "step": 67205
+    },
+    {
+      "epoch": 10.964110929853181,
+      "grad_norm": 0.006907598581165075,
+      "learning_rate": 0.0005031461274013784,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 145168864,
+      "step": 67210
+    },
+    {
+      "epoch": 10.964926590538337,
+      "grad_norm": 0.1618753969669342,
+      "learning_rate": 0.0005030749489561701,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 145180064,
+      "step": 67215
+    },
+    {
+      "epoch": 10.96574225122349,
+      "grad_norm": 0.4483173191547394,
+      "learning_rate": 0.000503003770448644,
+      "loss": 0.1097,
+      "num_input_tokens_seen": 145191040,
+      "step": 67220
+    },
+    {
+      "epoch": 10.966557911908646,
+      "grad_norm": 0.01324823871254921,
+      "learning_rate": 0.0005029325918802426,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 145201376,
+      "step": 67225
+    },
+    {
+      "epoch": 10.9673735725938,
+      "grad_norm": 0.0016422256594523787,
+      "learning_rate": 0.0005028614132524085,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 145210880,
+      "step": 67230
+    },
+    {
+      "epoch": 10.968189233278956,
+      "grad_norm": 0.008640460669994354,
+      "learning_rate": 0.0005027902345665843,
+      "loss": 0.014,
+      "num_input_tokens_seen": 145221536,
+      "step": 67235
+    },
+    {
+      "epoch": 10.969004893964112,
+      "grad_norm": 0.010546923615038395,
+      "learning_rate": 0.0005027190558242124,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 145231424,
+      "step": 67240
+    },
+    {
+      "epoch": 10.969820554649266,
+      "grad_norm": 0.004773357417434454,
+      "learning_rate": 0.0005026478770267355,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 145241792,
+      "step": 67245
+    },
+    {
+      "epoch": 10.970636215334421,
+      "grad_norm": 0.021990058943629265,
+      "learning_rate": 0.0005025766981755959,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 145252928,
+      "step": 67250
+    },
+    {
+      "epoch": 10.971451876019575,
+      "grad_norm": 0.34234485030174255,
+      "learning_rate": 0.0005025055192722363,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 145262656,
+      "step": 67255
+    },
+    {
+      "epoch": 10.97226753670473,
+      "grad_norm": 0.02041991800069809,
+      "learning_rate": 0.0005024343403180992,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 145273824,
+      "step": 67260
+    },
+    {
+      "epoch": 10.973083197389887,
+      "grad_norm": 0.0017821387154981494,
+      "learning_rate": 0.0005023631613146272,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 145284928,
+      "step": 67265
+    },
+    {
+      "epoch": 10.97389885807504,
+      "grad_norm": 0.0038782746996730566,
+      "learning_rate": 0.0005022919822632625,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 145295552,
+      "step": 67270
+    },
+    {
+      "epoch": 10.974714518760196,
+      "grad_norm": 0.004829897079616785,
+      "learning_rate": 0.0005022208031654479,
+      "loss": 0.006,
+      "num_input_tokens_seen": 145306336,
+      "step": 67275
+    },
+    {
+      "epoch": 10.97553017944535,
+      "grad_norm": 0.21816429495811462,
+      "learning_rate": 0.0005021496240226261,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 145317152,
+      "step": 67280
+    },
+    {
+      "epoch": 10.976345840130506,
+      "grad_norm": 0.8397039175033569,
+      "learning_rate": 0.0005020784448362393,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 145327776,
+      "step": 67285
+    },
+    {
+      "epoch": 10.977161500815662,
+      "grad_norm": 0.018613159656524658,
+      "learning_rate": 0.0005020072656077302,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 145337984,
+      "step": 67290
+    },
+    {
+      "epoch": 10.977977161500815,
+      "grad_norm": 0.01907249540090561,
+      "learning_rate": 0.0005019360863385413,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 145348832,
+      "step": 67295
+    },
+    {
+      "epoch": 10.978792822185971,
+      "grad_norm": 0.0018857029499486089,
+      "learning_rate": 0.0005018649070301152,
+      "loss": 0.023,
+      "num_input_tokens_seen": 145360000,
+      "step": 67300
+    },
+    {
+      "epoch": 10.979608482871125,
+      "grad_norm": 0.13006794452667236,
+      "learning_rate": 0.0005017937276838943,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 145371008,
+      "step": 67305
+    },
+    {
+      "epoch": 10.98042414355628,
+      "grad_norm": 0.02020275965332985,
+      "learning_rate": 0.0005017225483013212,
+      "loss": 0.1884,
+      "num_input_tokens_seen": 145382656,
+      "step": 67310
+    },
+    {
+      "epoch": 10.981239804241435,
+      "grad_norm": 0.01665751077234745,
+      "learning_rate": 0.0005016513688838387,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 145394880,
+      "step": 67315
+    },
+    {
+      "epoch": 10.98205546492659,
+      "grad_norm": 0.02400999516248703,
+      "learning_rate": 0.0005015801894328889,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 145406464,
+      "step": 67320
+    },
+    {
+      "epoch": 10.982871125611746,
+      "grad_norm": 0.023982934653759003,
+      "learning_rate": 0.0005015090099499147,
+      "loss": 0.015,
+      "num_input_tokens_seen": 145416960,
+      "step": 67325
+    },
+    {
+      "epoch": 10.9836867862969,
+      "grad_norm": 0.00537499226629734,
+      "learning_rate": 0.0005014378304363584,
+      "loss": 0.029,
+      "num_input_tokens_seen": 145427232,
+      "step": 67330
+    },
+    {
+      "epoch": 10.984502446982056,
+      "grad_norm": 0.002083304338157177,
+      "learning_rate": 0.0005013666508936627,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 145438560,
+      "step": 67335
+    },
+    {
+      "epoch": 10.98531810766721,
+      "grad_norm": 0.0014621549053117633,
+      "learning_rate": 0.0005012954713232701,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 145449888,
+      "step": 67340
+    },
+    {
+      "epoch": 10.986133768352365,
+      "grad_norm": 0.4816358685493469,
+      "learning_rate": 0.0005012242917266232,
+      "loss": 0.09,
+      "num_input_tokens_seen": 145461184,
+      "step": 67345
+    },
+    {
+      "epoch": 10.986949429037521,
+      "grad_norm": 0.0055021862499415874,
+      "learning_rate": 0.0005011531121051643,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 145470944,
+      "step": 67350
+    },
+    {
+      "epoch": 10.987765089722675,
+      "grad_norm": 0.0026292535476386547,
+      "learning_rate": 0.0005010819324603363,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 145481824,
+      "step": 67355
+    },
+    {
+      "epoch": 10.98858075040783,
+      "grad_norm": 0.1441703736782074,
+      "learning_rate": 0.0005010107527935815,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 145492576,
+      "step": 67360
+    },
+    {
+      "epoch": 10.989396411092985,
+      "grad_norm": 0.005147392395883799,
+      "learning_rate": 0.0005009395731063424,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 145503936,
+      "step": 67365
+    },
+    {
+      "epoch": 10.99021207177814,
+      "grad_norm": 0.004951298236846924,
+      "learning_rate": 0.0005008683934000618,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 145514208,
+      "step": 67370
+    },
+    {
+      "epoch": 10.991027732463294,
+      "grad_norm": 0.05322100967168808,
+      "learning_rate": 0.000500797213676182,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 145524064,
+      "step": 67375
+    },
+    {
+      "epoch": 10.99184339314845,
+      "grad_norm": 0.04236412048339844,
+      "learning_rate": 0.0005007260339361456,
+      "loss": 0.017,
+      "num_input_tokens_seen": 145534464,
+      "step": 67380
+    },
+    {
+      "epoch": 10.992659053833606,
+      "grad_norm": 0.03592411428689957,
+      "learning_rate": 0.0005006548541813953,
+      "loss": 0.2842,
+      "num_input_tokens_seen": 145544672,
+      "step": 67385
+    },
+    {
+      "epoch": 10.99347471451876,
+      "grad_norm": 0.3007633090019226,
+      "learning_rate": 0.0005005836744133736,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 145555296,
+      "step": 67390
+    },
+    {
+      "epoch": 10.994290375203915,
+      "grad_norm": 0.017643166705965996,
+      "learning_rate": 0.0005005124946335229,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 145565984,
+      "step": 67395
+    },
+    {
+      "epoch": 10.99510603588907,
+      "grad_norm": 0.005647346377372742,
+      "learning_rate": 0.0005004413148432859,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 145577472,
+      "step": 67400
+    },
+    {
+      "epoch": 10.995921696574225,
+      "grad_norm": 0.04438630864024162,
+      "learning_rate": 0.000500370135044105,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 145588096,
+      "step": 67405
+    },
+    {
+      "epoch": 10.99673735725938,
+      "grad_norm": 0.04898401349782944,
+      "learning_rate": 0.000500298955237423,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 145598752,
+      "step": 67410
+    },
+    {
+      "epoch": 10.997553017944535,
+      "grad_norm": 0.03524085506796837,
+      "learning_rate": 0.0005002277754246822,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 145608992,
+      "step": 67415
+    },
+    {
+      "epoch": 10.99836867862969,
+      "grad_norm": 0.0137935196980834,
+      "learning_rate": 0.0005001565956073252,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 145620512,
+      "step": 67420
+    },
+    {
+      "epoch": 10.999184339314844,
+      "grad_norm": 0.19982655346393585,
+      "learning_rate": 0.0005000854157867947,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 145631296,
+      "step": 67425
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.014280433766543865,
+      "learning_rate": 0.0005000142359645331,
+      "loss": 0.2095,
+      "num_input_tokens_seen": 145641920,
+      "step": 67430
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.16289934515953064,
+      "eval_runtime": 103.8025,
+      "eval_samples_per_second": 26.252,
+      "eval_steps_per_second": 6.57,
+      "num_input_tokens_seen": 145641920,
+      "step": 67430
+    },
+    {
+      "epoch": 11.000815660685156,
+      "grad_norm": 0.002235093619674444,
+      "learning_rate": 0.0004999430561419831,
+      "loss": 0.0902,
+      "num_input_tokens_seen": 145653984,
+      "step": 67435
+    },
+    {
+      "epoch": 11.00163132137031,
+      "grad_norm": 0.165186807513237,
+      "learning_rate": 0.000499871876320587,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 145664832,
+      "step": 67440
+    },
+    {
+      "epoch": 11.002446982055465,
+      "grad_norm": 0.03600761294364929,
+      "learning_rate": 0.0004998006965017876,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 145674848,
+      "step": 67445
+    },
+    {
+      "epoch": 11.00326264274062,
+      "grad_norm": 0.004147016908973455,
+      "learning_rate": 0.0004997295166870271,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 145685760,
+      "step": 67450
+    },
+    {
+      "epoch": 11.004078303425775,
+      "grad_norm": 0.05979970097541809,
+      "learning_rate": 0.0004996583368777484,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 145697088,
+      "step": 67455
+    },
+    {
+      "epoch": 11.00489396411093,
+      "grad_norm": 0.01066543161869049,
+      "learning_rate": 0.000499587157075394,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 145708704,
+      "step": 67460
+    },
+    {
+      "epoch": 11.005709624796085,
+      "grad_norm": 0.01953071542084217,
+      "learning_rate": 0.0004995159772814063,
+      "loss": 0.1,
+      "num_input_tokens_seen": 145720384,
+      "step": 67465
+    },
+    {
+      "epoch": 11.00652528548124,
+      "grad_norm": 0.03782833367586136,
+      "learning_rate": 0.0004994447974972281,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 145732640,
+      "step": 67470
+    },
+    {
+      "epoch": 11.007340946166394,
+      "grad_norm": 0.11350507289171219,
+      "learning_rate": 0.0004993736177243016,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 145744448,
+      "step": 67475
+    },
+    {
+      "epoch": 11.00815660685155,
+      "grad_norm": 0.23200421035289764,
+      "learning_rate": 0.0004993024379640697,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 145755584,
+      "step": 67480
+    },
+    {
+      "epoch": 11.008972267536704,
+      "grad_norm": 0.003650764236226678,
+      "learning_rate": 0.0004992312582179746,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 145766720,
+      "step": 67485
+    },
+    {
+      "epoch": 11.00978792822186,
+      "grad_norm": 0.02220398746430874,
+      "learning_rate": 0.0004991600784874593,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 145778368,
+      "step": 67490
+    },
+    {
+      "epoch": 11.010603588907015,
+      "grad_norm": 0.131536066532135,
+      "learning_rate": 0.0004990888987739657,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 145790144,
+      "step": 67495
+    },
+    {
+      "epoch": 11.01141924959217,
+      "grad_norm": 0.04819709062576294,
+      "learning_rate": 0.0004990177190789371,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 145800352,
+      "step": 67500
+    },
+    {
+      "epoch": 11.012234910277325,
+      "grad_norm": 0.054440777748823166,
+      "learning_rate": 0.0004989465394038153,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 145811776,
+      "step": 67505
+    },
+    {
+      "epoch": 11.013050570962479,
+      "grad_norm": 0.008946564979851246,
+      "learning_rate": 0.0004988753597500435,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 145821376,
+      "step": 67510
+    },
+    {
+      "epoch": 11.013866231647635,
+      "grad_norm": 0.33636924624443054,
+      "learning_rate": 0.0004988041801190638,
+      "loss": 0.1091,
+      "num_input_tokens_seen": 145831328,
+      "step": 67515
+    },
+    {
+      "epoch": 11.01468189233279,
+      "grad_norm": 0.04350544139742851,
+      "learning_rate": 0.000498733000512319,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 145842208,
+      "step": 67520
+    },
+    {
+      "epoch": 11.015497553017944,
+      "grad_norm": 0.025713231414556503,
+      "learning_rate": 0.0004986618209312515,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 145851776,
+      "step": 67525
+    },
+    {
+      "epoch": 11.0163132137031,
+      "grad_norm": 0.0037758410908281803,
+      "learning_rate": 0.000498590641377304,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 145862432,
+      "step": 67530
+    },
+    {
+      "epoch": 11.017128874388254,
+      "grad_norm": 0.1802942007780075,
+      "learning_rate": 0.0004985194618519188,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 145873056,
+      "step": 67535
+    },
+    {
+      "epoch": 11.01794453507341,
+      "grad_norm": 0.10657081007957458,
+      "learning_rate": 0.0004984482823565386,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 145884384,
+      "step": 67540
+    },
+    {
+      "epoch": 11.018760195758565,
+      "grad_norm": 0.02635457180440426,
+      "learning_rate": 0.0004983771028926059,
+      "loss": 0.0267,
+      "num_input_tokens_seen": 145895136,
+      "step": 67545
+    },
+    {
+      "epoch": 11.01957585644372,
+      "grad_norm": 0.0033126375637948513,
+      "learning_rate": 0.0004983059234615635,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 145905984,
+      "step": 67550
+    },
+    {
+      "epoch": 11.020391517128875,
+      "grad_norm": 0.005782026797533035,
+      "learning_rate": 0.0004982347440648534,
+      "loss": 0.033,
+      "num_input_tokens_seen": 145916832,
+      "step": 67555
+    },
+    {
+      "epoch": 11.021207177814029,
+      "grad_norm": 0.016137108206748962,
+      "learning_rate": 0.0004981635647039186,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 145927360,
+      "step": 67560
+    },
+    {
+      "epoch": 11.022022838499185,
+      "grad_norm": 0.3549785017967224,
+      "learning_rate": 0.0004980923853802015,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 145936704,
+      "step": 67565
+    },
+    {
+      "epoch": 11.022838499184338,
+      "grad_norm": 0.23480737209320068,
+      "learning_rate": 0.0004980212060951447,
+      "loss": 0.1713,
+      "num_input_tokens_seen": 145948096,
+      "step": 67570
+    },
+    {
+      "epoch": 11.023654159869494,
+      "grad_norm": 0.4012732207775116,
+      "learning_rate": 0.0004979500268501905,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 145958112,
+      "step": 67575
+    },
+    {
+      "epoch": 11.02446982055465,
+      "grad_norm": 0.00960595440119505,
+      "learning_rate": 0.0004978788476467816,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 145969536,
+      "step": 67580
+    },
+    {
+      "epoch": 11.025285481239804,
+      "grad_norm": 0.34898385405540466,
+      "learning_rate": 0.0004978076684863607,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 145981056,
+      "step": 67585
+    },
+    {
+      "epoch": 11.02610114192496,
+      "grad_norm": 0.34688490629196167,
+      "learning_rate": 0.0004977364893703701,
+      "loss": 0.0577,
+      "num_input_tokens_seen": 145991808,
+      "step": 67590
+    },
+    {
+      "epoch": 11.026916802610113,
+      "grad_norm": 0.1314949095249176,
+      "learning_rate": 0.0004976653103002526,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 146003424,
+      "step": 67595
+    },
+    {
+      "epoch": 11.02773246329527,
+      "grad_norm": 0.024752607569098473,
+      "learning_rate": 0.0004975941312774502,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 146014304,
+      "step": 67600
+    },
+    {
+      "epoch": 11.028548123980425,
+      "grad_norm": 0.012540026567876339,
+      "learning_rate": 0.0004975229523034061,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 146025728,
+      "step": 67605
+    },
+    {
+      "epoch": 11.029363784665579,
+      "grad_norm": 0.01599235273897648,
+      "learning_rate": 0.0004974517733795623,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 146037536,
+      "step": 67610
+    },
+    {
+      "epoch": 11.030179445350734,
+      "grad_norm": 0.018973039463162422,
+      "learning_rate": 0.0004973805945073617,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 146048544,
+      "step": 67615
+    },
+    {
+      "epoch": 11.030995106035888,
+      "grad_norm": 0.016196317970752716,
+      "learning_rate": 0.0004973094156882466,
+      "loss": 0.009,
+      "num_input_tokens_seen": 146058784,
+      "step": 67620
+    },
+    {
+      "epoch": 11.031810766721044,
+      "grad_norm": 0.015408056788146496,
+      "learning_rate": 0.0004972382369236596,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 146068416,
+      "step": 67625
+    },
+    {
+      "epoch": 11.0326264274062,
+      "grad_norm": 0.20243647694587708,
+      "learning_rate": 0.0004971670582150431,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 146077664,
+      "step": 67630
+    },
+    {
+      "epoch": 11.033442088091354,
+      "grad_norm": 1.3160874843597412,
+      "learning_rate": 0.0004970958795638401,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 146088320,
+      "step": 67635
+    },
+    {
+      "epoch": 11.03425774877651,
+      "grad_norm": 0.006498668342828751,
+      "learning_rate": 0.0004970247009714924,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 146099424,
+      "step": 67640
+    },
+    {
+      "epoch": 11.035073409461663,
+      "grad_norm": 0.00784413330256939,
+      "learning_rate": 0.0004969535224394432,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 146110112,
+      "step": 67645
+    },
+    {
+      "epoch": 11.035889070146819,
+      "grad_norm": 0.12007040530443192,
+      "learning_rate": 0.0004968823439691346,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 146120224,
+      "step": 67650
+    },
+    {
+      "epoch": 11.036704730831975,
+      "grad_norm": 0.07254232466220856,
+      "learning_rate": 0.0004968111655620093,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 146131328,
+      "step": 67655
+    },
+    {
+      "epoch": 11.037520391517129,
+      "grad_norm": 0.027044525370001793,
+      "learning_rate": 0.0004967399872195096,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 146142144,
+      "step": 67660
+    },
+    {
+      "epoch": 11.038336052202284,
+      "grad_norm": 0.013522460125386715,
+      "learning_rate": 0.0004966688089430785,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 146153696,
+      "step": 67665
+    },
+    {
+      "epoch": 11.039151712887438,
+      "grad_norm": 0.004441166762262583,
+      "learning_rate": 0.000496597630734158,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 146164608,
+      "step": 67670
+    },
+    {
+      "epoch": 11.039967373572594,
+      "grad_norm": 0.04167890548706055,
+      "learning_rate": 0.0004965264525941908,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 146175616,
+      "step": 67675
+    },
+    {
+      "epoch": 11.040783034257748,
+      "grad_norm": 0.3512006103992462,
+      "learning_rate": 0.0004964552745246196,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 146187104,
+      "step": 67680
+    },
+    {
+      "epoch": 11.041598694942904,
+      "grad_norm": 0.007863182574510574,
+      "learning_rate": 0.0004963840965268866,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 146196448,
+      "step": 67685
+    },
+    {
+      "epoch": 11.04241435562806,
+      "grad_norm": 0.01281198114156723,
+      "learning_rate": 0.0004963129186024346,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 146206720,
+      "step": 67690
+    },
+    {
+      "epoch": 11.043230016313213,
+      "grad_norm": 0.42489489912986755,
+      "learning_rate": 0.0004962417407527059,
+      "loss": 0.1801,
+      "num_input_tokens_seen": 146215488,
+      "step": 67695
+    },
+    {
+      "epoch": 11.044045676998369,
+      "grad_norm": 0.02685629017651081,
+      "learning_rate": 0.0004961705629791431,
+      "loss": 0.0676,
+      "num_input_tokens_seen": 146226400,
+      "step": 67700
+    },
+    {
+      "epoch": 11.044861337683523,
+      "grad_norm": 0.6352334022521973,
+      "learning_rate": 0.0004960993852831888,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 146237632,
+      "step": 67705
+    },
+    {
+      "epoch": 11.045676998368679,
+      "grad_norm": 0.003587668761610985,
+      "learning_rate": 0.0004960282076662853,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 146248128,
+      "step": 67710
+    },
+    {
+      "epoch": 11.046492659053834,
+      "grad_norm": 0.006983236409723759,
+      "learning_rate": 0.0004959570301298752,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 146258528,
+      "step": 67715
+    },
+    {
+      "epoch": 11.047308319738988,
+      "grad_norm": 0.01367577537894249,
+      "learning_rate": 0.0004958858526754012,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 146268704,
+      "step": 67720
+    },
+    {
+      "epoch": 11.048123980424144,
+      "grad_norm": 0.012268884107470512,
+      "learning_rate": 0.0004958146753043053,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 146279136,
+      "step": 67725
+    },
+    {
+      "epoch": 11.048939641109298,
+      "grad_norm": 0.045778777450323105,
+      "learning_rate": 0.0004957434980180307,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 146288256,
+      "step": 67730
+    },
+    {
+      "epoch": 11.049755301794454,
+      "grad_norm": 0.07384860515594482,
+      "learning_rate": 0.0004956723208180191,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 146298272,
+      "step": 67735
+    },
+    {
+      "epoch": 11.05057096247961,
+      "grad_norm": 0.12969577312469482,
+      "learning_rate": 0.0004956011437057138,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 146309600,
+      "step": 67740
+    },
+    {
+      "epoch": 11.051386623164763,
+      "grad_norm": 0.013329303823411465,
+      "learning_rate": 0.0004955299666825566,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 146320320,
+      "step": 67745
+    },
+    {
+      "epoch": 11.052202283849919,
+      "grad_norm": 0.02987365610897541,
+      "learning_rate": 0.0004954587897499905,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 146331296,
+      "step": 67750
+    },
+    {
+      "epoch": 11.053017944535073,
+      "grad_norm": 0.003352835774421692,
+      "learning_rate": 0.0004953876129094576,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 146342016,
+      "step": 67755
+    },
+    {
+      "epoch": 11.053833605220229,
+      "grad_norm": 0.008115014061331749,
+      "learning_rate": 0.0004953164361624008,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 146353184,
+      "step": 67760
+    },
+    {
+      "epoch": 11.054649265905383,
+      "grad_norm": 0.009867136366665363,
+      "learning_rate": 0.0004952452595102621,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 146364160,
+      "step": 67765
+    },
+    {
+      "epoch": 11.055464926590538,
+      "grad_norm": 0.003682214766740799,
+      "learning_rate": 0.0004951740829544846,
+      "loss": 0.019,
+      "num_input_tokens_seen": 146373760,
+      "step": 67770
+    },
+    {
+      "epoch": 11.056280587275694,
+      "grad_norm": 0.05358272045850754,
+      "learning_rate": 0.00049510290649651,
+      "loss": 0.007,
+      "num_input_tokens_seen": 146384928,
+      "step": 67775
+    },
+    {
+      "epoch": 11.057096247960848,
+      "grad_norm": 0.23653176426887512,
+      "learning_rate": 0.0004950317301377813,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 146396192,
+      "step": 67780
+    },
+    {
+      "epoch": 11.057911908646004,
+      "grad_norm": 0.3197796642780304,
+      "learning_rate": 0.0004949605538797412,
+      "loss": 0.1492,
+      "num_input_tokens_seen": 146407680,
+      "step": 67785
+    },
+    {
+      "epoch": 11.058727569331158,
+      "grad_norm": 0.31645524501800537,
+      "learning_rate": 0.0004948893777238316,
+      "loss": 0.0944,
+      "num_input_tokens_seen": 146417632,
+      "step": 67790
+    },
+    {
+      "epoch": 11.059543230016313,
+      "grad_norm": 0.04331495612859726,
+      "learning_rate": 0.0004948182016714954,
+      "loss": 0.157,
+      "num_input_tokens_seen": 146428736,
+      "step": 67795
+    },
+    {
+      "epoch": 11.060358890701469,
+      "grad_norm": 0.007367865182459354,
+      "learning_rate": 0.0004947470257241748,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 146439456,
+      "step": 67800
+    },
+    {
+      "epoch": 11.061174551386623,
+      "grad_norm": 0.05738005042076111,
+      "learning_rate": 0.0004946758498833125,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 146450176,
+      "step": 67805
+    },
+    {
+      "epoch": 11.061990212071779,
+      "grad_norm": 0.4973194897174835,
+      "learning_rate": 0.0004946046741503507,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 146461376,
+      "step": 67810
+    },
+    {
+      "epoch": 11.062805872756933,
+      "grad_norm": 0.009904002770781517,
+      "learning_rate": 0.0004945334985267323,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 146473504,
+      "step": 67815
+    },
+    {
+      "epoch": 11.063621533442088,
+      "grad_norm": 0.7115747928619385,
+      "learning_rate": 0.0004944623230138991,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 146484448,
+      "step": 67820
+    },
+    {
+      "epoch": 11.064437194127244,
+      "grad_norm": 0.006754287518560886,
+      "learning_rate": 0.0004943911476132943,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 146495200,
+      "step": 67825
+    },
+    {
+      "epoch": 11.065252854812398,
+      "grad_norm": 0.07527286559343338,
+      "learning_rate": 0.0004943199723263597,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 146505824,
+      "step": 67830
+    },
+    {
+      "epoch": 11.066068515497554,
+      "grad_norm": 0.022538485005497932,
+      "learning_rate": 0.0004942487971545383,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 146515168,
+      "step": 67835
+    },
+    {
+      "epoch": 11.066884176182707,
+      "grad_norm": 0.23096723854541779,
+      "learning_rate": 0.0004941776220992722,
+      "loss": 0.2208,
+      "num_input_tokens_seen": 146525056,
+      "step": 67840
+    },
+    {
+      "epoch": 11.067699836867863,
+      "grad_norm": 0.017740461975336075,
+      "learning_rate": 0.0004941064471620041,
+      "loss": 0.1202,
+      "num_input_tokens_seen": 146535136,
+      "step": 67845
+    },
+    {
+      "epoch": 11.068515497553017,
+      "grad_norm": 0.17247579991817474,
+      "learning_rate": 0.0004940352723441763,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 146545920,
+      "step": 67850
+    },
+    {
+      "epoch": 11.069331158238173,
+      "grad_norm": 0.04620293900370598,
+      "learning_rate": 0.0004939640976472311,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 146557120,
+      "step": 67855
+    },
+    {
+      "epoch": 11.070146818923329,
+      "grad_norm": 0.015531661920249462,
+      "learning_rate": 0.0004938929230726111,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 146568576,
+      "step": 67860
+    },
+    {
+      "epoch": 11.070962479608482,
+      "grad_norm": 0.22680914402008057,
+      "learning_rate": 0.0004938217486217591,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 146579424,
+      "step": 67865
+    },
+    {
+      "epoch": 11.071778140293638,
+      "grad_norm": 0.0019467025995254517,
+      "learning_rate": 0.0004937505742961169,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 146590560,
+      "step": 67870
+    },
+    {
+      "epoch": 11.072593800978792,
+      "grad_norm": 0.0013207707088440657,
+      "learning_rate": 0.0004936794000971274,
+      "loss": 0.008,
+      "num_input_tokens_seen": 146600768,
+      "step": 67875
+    },
+    {
+      "epoch": 11.073409461663948,
+      "grad_norm": 0.0049352445639669895,
+      "learning_rate": 0.0004936082260262328,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 146610880,
+      "step": 67880
+    },
+    {
+      "epoch": 11.074225122349104,
+      "grad_norm": 0.14016573131084442,
+      "learning_rate": 0.0004935370520848755,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 146621792,
+      "step": 67885
+    },
+    {
+      "epoch": 11.075040783034257,
+      "grad_norm": 0.01653108559548855,
+      "learning_rate": 0.0004934658782744983,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 146632448,
+      "step": 67890
+    },
+    {
+      "epoch": 11.075856443719413,
+      "grad_norm": 0.002239247551187873,
+      "learning_rate": 0.0004933947045965431,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 146643456,
+      "step": 67895
+    },
+    {
+      "epoch": 11.076672104404567,
+      "grad_norm": 0.013882400467991829,
+      "learning_rate": 0.0004933235310524528,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 146654176,
+      "step": 67900
+    },
+    {
+      "epoch": 11.077487765089723,
+      "grad_norm": 0.32492849230766296,
+      "learning_rate": 0.0004932523576436695,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 146665984,
+      "step": 67905
+    },
+    {
+      "epoch": 11.078303425774878,
+      "grad_norm": 0.006665470078587532,
+      "learning_rate": 0.0004931811843716358,
+      "loss": 0.116,
+      "num_input_tokens_seen": 146677440,
+      "step": 67910
+    },
+    {
+      "epoch": 11.079119086460032,
+      "grad_norm": 0.010101187974214554,
+      "learning_rate": 0.000493110011237794,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 146688416,
+      "step": 67915
+    },
+    {
+      "epoch": 11.079934747145188,
+      "grad_norm": 0.00362041755579412,
+      "learning_rate": 0.0004930388382435866,
+      "loss": 0.009,
+      "num_input_tokens_seen": 146699360,
+      "step": 67920
+    },
+    {
+      "epoch": 11.080750407830342,
+      "grad_norm": 0.015067537315189838,
+      "learning_rate": 0.0004929676653904558,
+      "loss": 0.009,
+      "num_input_tokens_seen": 146709056,
+      "step": 67925
+    },
+    {
+      "epoch": 11.081566068515498,
+      "grad_norm": 0.010858445428311825,
+      "learning_rate": 0.0004928964926798445,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 146718752,
+      "step": 67930
+    },
+    {
+      "epoch": 11.082381729200652,
+      "grad_norm": 0.011564402841031551,
+      "learning_rate": 0.0004928253201131945,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 146729920,
+      "step": 67935
+    },
+    {
+      "epoch": 11.083197389885807,
+      "grad_norm": 0.0970597043633461,
+      "learning_rate": 0.0004927541476919487,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 146740064,
+      "step": 67940
+    },
+    {
+      "epoch": 11.084013050570963,
+      "grad_norm": 0.35658419132232666,
+      "learning_rate": 0.0004926829754175492,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 146750560,
+      "step": 67945
+    },
+    {
+      "epoch": 11.084828711256117,
+      "grad_norm": 0.3965001702308655,
+      "learning_rate": 0.0004926118032914385,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 146760960,
+      "step": 67950
+    },
+    {
+      "epoch": 11.085644371941273,
+      "grad_norm": 0.02664480172097683,
+      "learning_rate": 0.0004925406313150589,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 146772864,
+      "step": 67955
+    },
+    {
+      "epoch": 11.086460032626427,
+      "grad_norm": 0.10795983672142029,
+      "learning_rate": 0.000492469459489853,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 146783968,
+      "step": 67960
+    },
+    {
+      "epoch": 11.087275693311582,
+      "grad_norm": 0.7373493909835815,
+      "learning_rate": 0.0004923982878172629,
+      "loss": 0.0582,
+      "num_input_tokens_seen": 146795808,
+      "step": 67965
+    },
+    {
+      "epoch": 11.088091353996738,
+      "grad_norm": 0.13917656242847443,
+      "learning_rate": 0.0004923271162987314,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 146807104,
+      "step": 67970
+    },
+    {
+      "epoch": 11.088907014681892,
+      "grad_norm": 0.0017775179585441947,
+      "learning_rate": 0.0004922559449357003,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 146817216,
+      "step": 67975
+    },
+    {
+      "epoch": 11.089722675367048,
+      "grad_norm": 0.003343122312799096,
+      "learning_rate": 0.0004921847737296125,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 146827776,
+      "step": 67980
+    },
+    {
+      "epoch": 11.090538336052202,
+      "grad_norm": 0.3145506978034973,
+      "learning_rate": 0.0004921136026819101,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 146839712,
+      "step": 67985
+    },
+    {
+      "epoch": 11.091353996737357,
+      "grad_norm": 0.01094027329236269,
+      "learning_rate": 0.0004920424317940355,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 146850592,
+      "step": 67990
+    },
+    {
+      "epoch": 11.092169657422513,
+      "grad_norm": 0.007395964581519365,
+      "learning_rate": 0.0004919712610674312,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 146862528,
+      "step": 67995
+    },
+    {
+      "epoch": 11.092985318107667,
+      "grad_norm": 0.038671478629112244,
+      "learning_rate": 0.0004919000905035394,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 146871488,
+      "step": 68000
+    },
+    {
+      "epoch": 11.093800978792823,
+      "grad_norm": 0.0066762445494532585,
+      "learning_rate": 0.0004918289201038026,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 146882496,
+      "step": 68005
+    },
+    {
+      "epoch": 11.094616639477977,
+      "grad_norm": 0.02582985907793045,
+      "learning_rate": 0.0004917577498696631,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 146893280,
+      "step": 68010
+    },
+    {
+      "epoch": 11.095432300163132,
+      "grad_norm": 0.6989096403121948,
+      "learning_rate": 0.0004916865798025634,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 146903008,
+      "step": 68015
+    },
+    {
+      "epoch": 11.096247960848286,
+      "grad_norm": 0.14155010879039764,
+      "learning_rate": 0.0004916154099039455,
+      "loss": 0.1259,
+      "num_input_tokens_seen": 146913472,
+      "step": 68020
+    },
+    {
+      "epoch": 11.097063621533442,
+      "grad_norm": 0.01753934472799301,
+      "learning_rate": 0.000491544240175252,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 146925440,
+      "step": 68025
+    },
+    {
+      "epoch": 11.097879282218598,
+      "grad_norm": 0.01112120971083641,
+      "learning_rate": 0.0004914730706179251,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 146935360,
+      "step": 68030
+    },
+    {
+      "epoch": 11.098694942903752,
+      "grad_norm": 0.07331804931163788,
+      "learning_rate": 0.0004914019012334075,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 146945600,
+      "step": 68035
+    },
+    {
+      "epoch": 11.099510603588907,
+      "grad_norm": 0.07903977483510971,
+      "learning_rate": 0.000491330732023141,
+      "loss": 0.1622,
+      "num_input_tokens_seen": 146956928,
+      "step": 68040
+    },
+    {
+      "epoch": 11.100326264274061,
+      "grad_norm": 0.0027705691754817963,
+      "learning_rate": 0.0004912595629885685,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 146967680,
+      "step": 68045
+    },
+    {
+      "epoch": 11.101141924959217,
+      "grad_norm": 0.0015439860289916396,
+      "learning_rate": 0.0004911883941311319,
+      "loss": 0.1458,
+      "num_input_tokens_seen": 146978656,
+      "step": 68050
+    },
+    {
+      "epoch": 11.101957585644373,
+      "grad_norm": 0.0027622964698821306,
+      "learning_rate": 0.0004911172254522737,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 146989408,
+      "step": 68055
+    },
+    {
+      "epoch": 11.102773246329527,
+      "grad_norm": 0.013207031413912773,
+      "learning_rate": 0.0004910460569534361,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 147000288,
+      "step": 68060
+    },
+    {
+      "epoch": 11.103588907014682,
+      "grad_norm": 0.010163257829844952,
+      "learning_rate": 0.0004909748886360617,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 147011008,
+      "step": 68065
+    },
+    {
+      "epoch": 11.104404567699836,
+      "grad_norm": 0.005293056834489107,
+      "learning_rate": 0.0004909037205015924,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 147022272,
+      "step": 68070
+    },
+    {
+      "epoch": 11.105220228384992,
+      "grad_norm": 0.03544028103351593,
+      "learning_rate": 0.000490832552551471,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 147032864,
+      "step": 68075
+    },
+    {
+      "epoch": 11.106035889070148,
+      "grad_norm": 0.01018522959202528,
+      "learning_rate": 0.0004907613847871393,
+      "loss": 0.071,
+      "num_input_tokens_seen": 147042784,
+      "step": 68080
+    },
+    {
+      "epoch": 11.106851549755302,
+      "grad_norm": 0.18979839980602264,
+      "learning_rate": 0.00049069021721004,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 147052928,
+      "step": 68085
+    },
+    {
+      "epoch": 11.107667210440457,
+      "grad_norm": 0.002638269681483507,
+      "learning_rate": 0.0004906190498216151,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 147063808,
+      "step": 68090
+    },
+    {
+      "epoch": 11.108482871125611,
+      "grad_norm": 0.0040941014885902405,
+      "learning_rate": 0.0004905478826233072,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 147074240,
+      "step": 68095
+    },
+    {
+      "epoch": 11.109298531810767,
+      "grad_norm": 0.016239026561379433,
+      "learning_rate": 0.0004904767156165585,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 147084736,
+      "step": 68100
+    },
+    {
+      "epoch": 11.11011419249592,
+      "grad_norm": 0.251310259103775,
+      "learning_rate": 0.000490405548802811,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 147097216,
+      "step": 68105
+    },
+    {
+      "epoch": 11.110929853181077,
+      "grad_norm": 0.01817292720079422,
+      "learning_rate": 0.0004903343821835075,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 147107264,
+      "step": 68110
+    },
+    {
+      "epoch": 11.111745513866232,
+      "grad_norm": 0.0064503224566578865,
+      "learning_rate": 0.0004902632157600898,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 147117440,
+      "step": 68115
+    },
+    {
+      "epoch": 11.112561174551386,
+      "grad_norm": 0.003892709966748953,
+      "learning_rate": 0.0004901920495340007,
+      "loss": 0.026,
+      "num_input_tokens_seen": 147128960,
+      "step": 68120
+    },
+    {
+      "epoch": 11.113376835236542,
+      "grad_norm": 0.013186760246753693,
+      "learning_rate": 0.0004901208835066818,
+      "loss": 0.0471,
+      "num_input_tokens_seen": 147139584,
+      "step": 68125
+    },
+    {
+      "epoch": 11.114192495921696,
+      "grad_norm": 0.0026877010241150856,
+      "learning_rate": 0.0004900497176795759,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 147150432,
+      "step": 68130
+    },
+    {
+      "epoch": 11.115008156606851,
+      "grad_norm": 0.8579369187355042,
+      "learning_rate": 0.000489978552054125,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 147160928,
+      "step": 68135
+    },
+    {
+      "epoch": 11.115823817292007,
+      "grad_norm": 0.0050546894781291485,
+      "learning_rate": 0.0004899073866317717,
+      "loss": 0.11,
+      "num_input_tokens_seen": 147171520,
+      "step": 68140
+    },
+    {
+      "epoch": 11.116639477977161,
+      "grad_norm": 0.11194411665201187,
+      "learning_rate": 0.0004898362214139577,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 147182848,
+      "step": 68145
+    },
+    {
+      "epoch": 11.117455138662317,
+      "grad_norm": 0.031917814165353775,
+      "learning_rate": 0.0004897650564021257,
+      "loss": 0.013,
+      "num_input_tokens_seen": 147193248,
+      "step": 68150
+    },
+    {
+      "epoch": 11.11827079934747,
+      "grad_norm": 0.009770890697836876,
+      "learning_rate": 0.0004896938915977178,
+      "loss": 0.1756,
+      "num_input_tokens_seen": 147203744,
+      "step": 68155
+    },
+    {
+      "epoch": 11.119086460032626,
+      "grad_norm": 0.0032027806155383587,
+      "learning_rate": 0.0004896227270021763,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 147215072,
+      "step": 68160
+    },
+    {
+      "epoch": 11.119902120717782,
+      "grad_norm": 0.042442020028829575,
+      "learning_rate": 0.0004895515626169433,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 147225696,
+      "step": 68165
+    },
+    {
+      "epoch": 11.120717781402936,
+      "grad_norm": 0.06179466471076012,
+      "learning_rate": 0.0004894803984434613,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 147236992,
+      "step": 68170
+    },
+    {
+      "epoch": 11.121533442088092,
+      "grad_norm": 0.02509087324142456,
+      "learning_rate": 0.0004894092344831722,
+      "loss": 0.023,
+      "num_input_tokens_seen": 147248416,
+      "step": 68175
+    },
+    {
+      "epoch": 11.122349102773246,
+      "grad_norm": 0.02915806882083416,
+      "learning_rate": 0.0004893380707375186,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 147257984,
+      "step": 68180
+    },
+    {
+      "epoch": 11.123164763458401,
+      "grad_norm": 0.43293923139572144,
+      "learning_rate": 0.0004892669072079423,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 147268480,
+      "step": 68185
+    },
+    {
+      "epoch": 11.123980424143557,
+      "grad_norm": 0.08693939447402954,
+      "learning_rate": 0.000489195743895886,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 147279776,
+      "step": 68190
+    },
+    {
+      "epoch": 11.124796084828711,
+      "grad_norm": 0.0011673959670588374,
+      "learning_rate": 0.0004891245808027913,
+      "loss": 0.012,
+      "num_input_tokens_seen": 147290336,
+      "step": 68195
+    },
+    {
+      "epoch": 11.125611745513867,
+      "grad_norm": 0.3298425078392029,
+      "learning_rate": 0.0004890534179301009,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 147300864,
+      "step": 68200
+    },
+    {
+      "epoch": 11.12642740619902,
+      "grad_norm": 0.3644849956035614,
+      "learning_rate": 0.0004889822552792572,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 147310912,
+      "step": 68205
+    },
+    {
+      "epoch": 11.127243066884176,
+      "grad_norm": 0.004404593259096146,
+      "learning_rate": 0.0004889110928517016,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 147321344,
+      "step": 68210
+    },
+    {
+      "epoch": 11.12805872756933,
+      "grad_norm": 0.21322403848171234,
+      "learning_rate": 0.0004888399306488771,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 147332448,
+      "step": 68215
+    },
+    {
+      "epoch": 11.128874388254486,
+      "grad_norm": 0.002350582042708993,
+      "learning_rate": 0.0004887687686722254,
+      "loss": 0.003,
+      "num_input_tokens_seen": 147344192,
+      "step": 68220
+    },
+    {
+      "epoch": 11.129690048939642,
+      "grad_norm": 0.010090678930282593,
+      "learning_rate": 0.000488697606923189,
+      "loss": 0.1477,
+      "num_input_tokens_seen": 147355104,
+      "step": 68225
+    },
+    {
+      "epoch": 11.130505709624796,
+      "grad_norm": 0.0023009213618934155,
+      "learning_rate": 0.0004886264454032097,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 147364608,
+      "step": 68230
+    },
+    {
+      "epoch": 11.131321370309951,
+      "grad_norm": 0.18410499393939972,
+      "learning_rate": 0.0004885552841137302,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 147375296,
+      "step": 68235
+    },
+    {
+      "epoch": 11.132137030995105,
+      "grad_norm": 0.002545412862673402,
+      "learning_rate": 0.0004884841230561922,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 147387296,
+      "step": 68240
+    },
+    {
+      "epoch": 11.132952691680261,
+      "grad_norm": 0.014841769821941853,
+      "learning_rate": 0.0004884129622320381,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 147398144,
+      "step": 68245
+    },
+    {
+      "epoch": 11.133768352365417,
+      "grad_norm": 0.0036457956302911043,
+      "learning_rate": 0.0004883418016427099,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 147409504,
+      "step": 68250
+    },
+    {
+      "epoch": 11.13458401305057,
+      "grad_norm": 0.0025173728354275227,
+      "learning_rate": 0.00048827064128965014,
+      "loss": 0.005,
+      "num_input_tokens_seen": 147420512,
+      "step": 68255
+    },
+    {
+      "epoch": 11.135399673735726,
+      "grad_norm": 0.007116433698683977,
+      "learning_rate": 0.00048819948117430047,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 147432672,
+      "step": 68260
+    },
+    {
+      "epoch": 11.13621533442088,
+      "grad_norm": 0.0915973037481308,
+      "learning_rate": 0.00048812832129810347,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 147444512,
+      "step": 68265
+    },
+    {
+      "epoch": 11.137030995106036,
+      "grad_norm": 0.008468952029943466,
+      "learning_rate": 0.0004880571616625009,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 147455296,
+      "step": 68270
+    },
+    {
+      "epoch": 11.137846655791192,
+      "grad_norm": 0.004829864017665386,
+      "learning_rate": 0.00048798600226893535,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 147465120,
+      "step": 68275
+    },
+    {
+      "epoch": 11.138662316476346,
+      "grad_norm": 0.005911378655582666,
+      "learning_rate": 0.00048791484311884844,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 147476512,
+      "step": 68280
+    },
+    {
+      "epoch": 11.139477977161501,
+      "grad_norm": 0.6165083646774292,
+      "learning_rate": 0.0004878436842136828,
+      "loss": 0.2525,
+      "num_input_tokens_seen": 147487520,
+      "step": 68285
+    },
+    {
+      "epoch": 11.140293637846655,
+      "grad_norm": 0.02946476638317108,
+      "learning_rate": 0.0004877725255548801,
+      "loss": 0.1519,
+      "num_input_tokens_seen": 147499584,
+      "step": 68290
+    },
+    {
+      "epoch": 11.141109298531811,
+      "grad_norm": 0.010245737619698048,
+      "learning_rate": 0.0004877013671438828,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 147510176,
+      "step": 68295
+    },
+    {
+      "epoch": 11.141924959216965,
+      "grad_norm": 0.030240066349506378,
+      "learning_rate": 0.0004876302089821329,
+      "loss": 0.009,
+      "num_input_tokens_seen": 147520352,
+      "step": 68300
+    },
+    {
+      "epoch": 11.14274061990212,
+      "grad_norm": 0.004862932022660971,
+      "learning_rate": 0.0004875590510710724,
+      "loss": 0.003,
+      "num_input_tokens_seen": 147530560,
+      "step": 68305
+    },
+    {
+      "epoch": 11.143556280587276,
+      "grad_norm": 0.2248290628194809,
+      "learning_rate": 0.00048748789341214373,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 147542016,
+      "step": 68310
+    },
+    {
+      "epoch": 11.14437194127243,
+      "grad_norm": 0.08497530966997147,
+      "learning_rate": 0.00048741673600678857,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 147552896,
+      "step": 68315
+    },
+    {
+      "epoch": 11.145187601957586,
+      "grad_norm": 0.02630682848393917,
+      "learning_rate": 0.00048734557885644924,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 147563008,
+      "step": 68320
+    },
+    {
+      "epoch": 11.14600326264274,
+      "grad_norm": 0.0025665624998509884,
+      "learning_rate": 0.00048727442196256786,
+      "loss": 0.056,
+      "num_input_tokens_seen": 147573568,
+      "step": 68325
+    },
+    {
+      "epoch": 11.146818923327896,
+      "grad_norm": 0.008093073032796383,
+      "learning_rate": 0.0004872032653265865,
+      "loss": 0.1188,
+      "num_input_tokens_seen": 147584448,
+      "step": 68330
+    },
+    {
+      "epoch": 11.147634584013051,
+      "grad_norm": 0.42789462208747864,
+      "learning_rate": 0.0004871321089499472,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 147595680,
+      "step": 68335
+    },
+    {
+      "epoch": 11.148450244698205,
+      "grad_norm": 0.010536248795688152,
+      "learning_rate": 0.00048706095283409194,
+      "loss": 0.006,
+      "num_input_tokens_seen": 147606688,
+      "step": 68340
+    },
+    {
+      "epoch": 11.149265905383361,
+      "grad_norm": 0.002236375818029046,
+      "learning_rate": 0.00048698979698046286,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 147617728,
+      "step": 68345
+    },
+    {
+      "epoch": 11.150081566068515,
+      "grad_norm": 0.252946674823761,
+      "learning_rate": 0.0004869186413905023,
+      "loss": 0.058,
+      "num_input_tokens_seen": 147627136,
+      "step": 68350
+    },
+    {
+      "epoch": 11.15089722675367,
+      "grad_norm": 0.012744572013616562,
+      "learning_rate": 0.00048684748606565175,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 147638368,
+      "step": 68355
+    },
+    {
+      "epoch": 11.151712887438826,
+      "grad_norm": 0.17559273540973663,
+      "learning_rate": 0.00048677633100735387,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 147649536,
+      "step": 68360
+    },
+    {
+      "epoch": 11.15252854812398,
+      "grad_norm": 0.04494628682732582,
+      "learning_rate": 0.00048670517621705016,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 147660736,
+      "step": 68365
+    },
+    {
+      "epoch": 11.153344208809136,
+      "grad_norm": 0.12925973534584045,
+      "learning_rate": 0.0004866340216961832,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 147672704,
+      "step": 68370
+    },
+    {
+      "epoch": 11.15415986949429,
+      "grad_norm": 0.03734464943408966,
+      "learning_rate": 0.00048656286744619447,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 147684128,
+      "step": 68375
+    },
+    {
+      "epoch": 11.154975530179446,
+      "grad_norm": 0.026860255748033524,
+      "learning_rate": 0.0004864917134685265,
+      "loss": 0.192,
+      "num_input_tokens_seen": 147694368,
+      "step": 68380
+    },
+    {
+      "epoch": 11.1557911908646,
+      "grad_norm": 0.049138400703668594,
+      "learning_rate": 0.0004864205597646209,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 147704352,
+      "step": 68385
+    },
+    {
+      "epoch": 11.156606851549755,
+      "grad_norm": 0.012718032114207745,
+      "learning_rate": 0.00048634940633592006,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 147716064,
+      "step": 68390
+    },
+    {
+      "epoch": 11.15742251223491,
+      "grad_norm": 0.022052332758903503,
+      "learning_rate": 0.00048627825318386567,
+      "loss": 0.1129,
+      "num_input_tokens_seen": 147726720,
+      "step": 68395
+    },
+    {
+      "epoch": 11.158238172920065,
+      "grad_norm": 0.007494083605706692,
+      "learning_rate": 0.00048620710030990004,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 147737632,
+      "step": 68400
+    },
+    {
+      "epoch": 11.15905383360522,
+      "grad_norm": 0.0026938801165670156,
+      "learning_rate": 0.0004861359477154648,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 147748160,
+      "step": 68405
+    },
+    {
+      "epoch": 11.159869494290374,
+      "grad_norm": 0.010102441534399986,
+      "learning_rate": 0.00048606479540200243,
+      "loss": 0.2594,
+      "num_input_tokens_seen": 147758560,
+      "step": 68410
+    },
+    {
+      "epoch": 11.16068515497553,
+      "grad_norm": 0.009311516769230366,
+      "learning_rate": 0.00048599364337095443,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 147769568,
+      "step": 68415
+    },
+    {
+      "epoch": 11.161500815660686,
+      "grad_norm": 0.015968909487128258,
+      "learning_rate": 0.000485922491623763,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 147780480,
+      "step": 68420
+    },
+    {
+      "epoch": 11.16231647634584,
+      "grad_norm": 0.003891808446496725,
+      "learning_rate": 0.0004858513401618704,
+      "loss": 0.009,
+      "num_input_tokens_seen": 147792096,
+      "step": 68425
+    },
+    {
+      "epoch": 11.163132137030995,
+      "grad_norm": 0.014763821847736835,
+      "learning_rate": 0.00048578018898671804,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 147802144,
+      "step": 68430
+    },
+    {
+      "epoch": 11.16394779771615,
+      "grad_norm": 0.1828288435935974,
+      "learning_rate": 0.0004857090380997484,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 147812480,
+      "step": 68435
+    },
+    {
+      "epoch": 11.164763458401305,
+      "grad_norm": 0.23500409722328186,
+      "learning_rate": 0.00048563788750240314,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 147823328,
+      "step": 68440
+    },
+    {
+      "epoch": 11.16557911908646,
+      "grad_norm": 0.29729729890823364,
+      "learning_rate": 0.00048556673719612445,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 147832992,
+      "step": 68445
+    },
+    {
+      "epoch": 11.166394779771615,
+      "grad_norm": 0.04158762842416763,
+      "learning_rate": 0.00048549558718235386,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 147844160,
+      "step": 68450
+    },
+    {
+      "epoch": 11.16721044045677,
+      "grad_norm": 0.023969994857907295,
+      "learning_rate": 0.0004854244374625339,
+      "loss": 0.016,
+      "num_input_tokens_seen": 147855328,
+      "step": 68455
+    },
+    {
+      "epoch": 11.168026101141924,
+      "grad_norm": 0.33585116267204285,
+      "learning_rate": 0.00048535328803810595,
+      "loss": 0.1219,
+      "num_input_tokens_seen": 147866240,
+      "step": 68460
+    },
+    {
+      "epoch": 11.16884176182708,
+      "grad_norm": 0.02872396446764469,
+      "learning_rate": 0.0004852821389105123,
+      "loss": 0.073,
+      "num_input_tokens_seen": 147877824,
+      "step": 68465
+    },
+    {
+      "epoch": 11.169657422512234,
+      "grad_norm": 0.20101076364517212,
+      "learning_rate": 0.00048521099008119484,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 147887200,
+      "step": 68470
+    },
+    {
+      "epoch": 11.17047308319739,
+      "grad_norm": 0.23845504224300385,
+      "learning_rate": 0.0004851398415515954,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 147896224,
+      "step": 68475
+    },
+    {
+      "epoch": 11.171288743882545,
+      "grad_norm": 0.02124555967748165,
+      "learning_rate": 0.0004850686933231559,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 147906368,
+      "step": 68480
+    },
+    {
+      "epoch": 11.1721044045677,
+      "grad_norm": 0.008393766358494759,
+      "learning_rate": 0.00048499754539731827,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 147917952,
+      "step": 68485
+    },
+    {
+      "epoch": 11.172920065252855,
+      "grad_norm": 0.02445857785642147,
+      "learning_rate": 0.0004849263977755243,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 147928064,
+      "step": 68490
+    },
+    {
+      "epoch": 11.173735725938009,
+      "grad_norm": 0.07245718687772751,
+      "learning_rate": 0.00048485525045921627,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 147938336,
+      "step": 68495
+    },
+    {
+      "epoch": 11.174551386623165,
+      "grad_norm": 0.008152371272444725,
+      "learning_rate": 0.00048478410344983554,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 147948480,
+      "step": 68500
+    },
+    {
+      "epoch": 11.17536704730832,
+      "grad_norm": 0.18014536798000336,
+      "learning_rate": 0.00048471295674882447,
+      "loss": 0.2172,
+      "num_input_tokens_seen": 147958560,
+      "step": 68505
+    },
+    {
+      "epoch": 11.176182707993474,
+      "grad_norm": 0.0194853488355875,
+      "learning_rate": 0.0004846418103576245,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 147969056,
+      "step": 68510
+    },
+    {
+      "epoch": 11.17699836867863,
+      "grad_norm": 0.278815358877182,
+      "learning_rate": 0.000484570664277678,
+      "loss": 0.1935,
+      "num_input_tokens_seen": 147980064,
+      "step": 68515
+    },
+    {
+      "epoch": 11.177814029363784,
+      "grad_norm": 0.015023061074316502,
+      "learning_rate": 0.00048449951851042627,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 147990752,
+      "step": 68520
+    },
+    {
+      "epoch": 11.17862969004894,
+      "grad_norm": 0.12025143951177597,
+      "learning_rate": 0.0004844283730573115,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 148002176,
+      "step": 68525
+    },
+    {
+      "epoch": 11.179445350734095,
+      "grad_norm": 0.008281445130705833,
+      "learning_rate": 0.0004843572279197757,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 148011872,
+      "step": 68530
+    },
+    {
+      "epoch": 11.18026101141925,
+      "grad_norm": 0.019231772050261497,
+      "learning_rate": 0.0004842860830992604,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 148022592,
+      "step": 68535
+    },
+    {
+      "epoch": 11.181076672104405,
+      "grad_norm": 0.0041782851330935955,
+      "learning_rate": 0.00048421493859720767,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 148032832,
+      "step": 68540
+    },
+    {
+      "epoch": 11.181892332789559,
+      "grad_norm": 0.09217726439237595,
+      "learning_rate": 0.000484143794415059,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 148042816,
+      "step": 68545
+    },
+    {
+      "epoch": 11.182707993474715,
+      "grad_norm": 0.31993457674980164,
+      "learning_rate": 0.00048407265055425673,
+      "loss": 0.1465,
+      "num_input_tokens_seen": 148053056,
+      "step": 68550
+    },
+    {
+      "epoch": 11.18352365415987,
+      "grad_norm": 0.02010430581867695,
+      "learning_rate": 0.00048400150701624216,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 148062912,
+      "step": 68555
+    },
+    {
+      "epoch": 11.184339314845024,
+      "grad_norm": 0.020727120339870453,
+      "learning_rate": 0.0004839303638024576,
+      "loss": 0.009,
+      "num_input_tokens_seen": 148074176,
+      "step": 68560
+    },
+    {
+      "epoch": 11.18515497553018,
+      "grad_norm": 0.016470473259687424,
+      "learning_rate": 0.0004838592209143444,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 148085728,
+      "step": 68565
+    },
+    {
+      "epoch": 11.185970636215334,
+      "grad_norm": 0.007106783799827099,
+      "learning_rate": 0.0004837880783533447,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 148095744,
+      "step": 68570
+    },
+    {
+      "epoch": 11.18678629690049,
+      "grad_norm": 0.04211915656924248,
+      "learning_rate": 0.00048371693612089996,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 148106592,
+      "step": 68575
+    },
+    {
+      "epoch": 11.187601957585644,
+      "grad_norm": 0.026171937584877014,
+      "learning_rate": 0.00048364579421845245,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 148118272,
+      "step": 68580
+    },
+    {
+      "epoch": 11.1884176182708,
+      "grad_norm": 0.028126433491706848,
+      "learning_rate": 0.0004835746526474434,
+      "loss": 0.0699,
+      "num_input_tokens_seen": 148129856,
+      "step": 68585
+    },
+    {
+      "epoch": 11.189233278955955,
+      "grad_norm": 0.49054139852523804,
+      "learning_rate": 0.00048350351140931505,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 148140544,
+      "step": 68590
+    },
+    {
+      "epoch": 11.190048939641109,
+      "grad_norm": 0.4415249526500702,
+      "learning_rate": 0.00048343237050550876,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 148149600,
+      "step": 68595
+    },
+    {
+      "epoch": 11.190864600326265,
+      "grad_norm": 0.013207647018134594,
+      "learning_rate": 0.0004833612299374667,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 148161376,
+      "step": 68600
+    },
+    {
+      "epoch": 11.191680261011419,
+      "grad_norm": 0.006056750193238258,
+      "learning_rate": 0.0004832900897066303,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 148171968,
+      "step": 68605
+    },
+    {
+      "epoch": 11.192495921696574,
+      "grad_norm": 0.42517709732055664,
+      "learning_rate": 0.0004832189498144415,
+      "loss": 0.0969,
+      "num_input_tokens_seen": 148183168,
+      "step": 68610
+    },
+    {
+      "epoch": 11.19331158238173,
+      "grad_norm": 0.029658634215593338,
+      "learning_rate": 0.0004831478102623419,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 148194592,
+      "step": 68615
+    },
+    {
+      "epoch": 11.194127243066884,
+      "grad_norm": 0.004472116474062204,
+      "learning_rate": 0.0004830766710517733,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 148206880,
+      "step": 68620
+    },
+    {
+      "epoch": 11.19494290375204,
+      "grad_norm": 0.004931016359478235,
+      "learning_rate": 0.00048300553218417753,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 148217504,
+      "step": 68625
+    },
+    {
+      "epoch": 11.195758564437194,
+      "grad_norm": 1.0115134716033936,
+      "learning_rate": 0.0004829343936609961,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 148228160,
+      "step": 68630
+    },
+    {
+      "epoch": 11.19657422512235,
+      "grad_norm": 0.13028618693351746,
+      "learning_rate": 0.00048286325548367083,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 148238816,
+      "step": 68635
+    },
+    {
+      "epoch": 11.197389885807505,
+      "grad_norm": 0.42092257738113403,
+      "learning_rate": 0.0004827921176536435,
+      "loss": 0.0875,
+      "num_input_tokens_seen": 148249152,
+      "step": 68640
+    },
+    {
+      "epoch": 11.198205546492659,
+      "grad_norm": 0.009416461922228336,
+      "learning_rate": 0.00048272098017235573,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 148261024,
+      "step": 68645
+    },
+    {
+      "epoch": 11.199021207177815,
+      "grad_norm": 0.02090616337954998,
+      "learning_rate": 0.0004826498430412492,
+      "loss": 0.017,
+      "num_input_tokens_seen": 148271712,
+      "step": 68650
+    },
+    {
+      "epoch": 11.199836867862969,
+      "grad_norm": 0.0011445780983194709,
+      "learning_rate": 0.00048257870626176565,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 148283584,
+      "step": 68655
+    },
+    {
+      "epoch": 11.200652528548124,
+      "grad_norm": 0.0027027344331145287,
+      "learning_rate": 0.00048250756983534657,
+      "loss": 0.021,
+      "num_input_tokens_seen": 148293408,
+      "step": 68660
+    },
+    {
+      "epoch": 11.201468189233278,
+      "grad_norm": 0.006044385023415089,
+      "learning_rate": 0.000482436433763434,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 148303776,
+      "step": 68665
+    },
+    {
+      "epoch": 11.202283849918434,
+      "grad_norm": 0.004509706981480122,
+      "learning_rate": 0.00048236529804746915,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 148315008,
+      "step": 68670
+    },
+    {
+      "epoch": 11.20309951060359,
+      "grad_norm": 0.18956010043621063,
+      "learning_rate": 0.0004822941626888941,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 148325344,
+      "step": 68675
+    },
+    {
+      "epoch": 11.203915171288743,
+      "grad_norm": 0.012917671352624893,
+      "learning_rate": 0.0004822230276891502,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 148337120,
+      "step": 68680
+    },
+    {
+      "epoch": 11.2047308319739,
+      "grad_norm": 0.04024987295269966,
+      "learning_rate": 0.00048215189304967934,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 148348576,
+      "step": 68685
+    },
+    {
+      "epoch": 11.205546492659053,
+      "grad_norm": 0.737769365310669,
+      "learning_rate": 0.00048208075877192275,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 148359552,
+      "step": 68690
+    },
+    {
+      "epoch": 11.206362153344209,
+      "grad_norm": 0.44505423307418823,
+      "learning_rate": 0.0004820096248573226,
+      "loss": 0.1929,
+      "num_input_tokens_seen": 148369568,
+      "step": 68695
+    },
+    {
+      "epoch": 11.207177814029365,
+      "grad_norm": 0.008643914945423603,
+      "learning_rate": 0.00048193849130732,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 148381184,
+      "step": 68700
+    },
+    {
+      "epoch": 11.207993474714518,
+      "grad_norm": 0.060006801038980484,
+      "learning_rate": 0.00048186735812335695,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 148390880,
+      "step": 68705
+    },
+    {
+      "epoch": 11.208809135399674,
+      "grad_norm": 0.0032924246042966843,
+      "learning_rate": 0.0004817962253068747,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 148402080,
+      "step": 68710
+    },
+    {
+      "epoch": 11.209624796084828,
+      "grad_norm": 0.12051805853843689,
+      "learning_rate": 0.0004817250928593153,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 148413440,
+      "step": 68715
+    },
+    {
+      "epoch": 11.210440456769984,
+      "grad_norm": 0.020529478788375854,
+      "learning_rate": 0.0004816539607821198,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 148424640,
+      "step": 68720
+    },
+    {
+      "epoch": 11.21125611745514,
+      "grad_norm": 0.010123873129487038,
+      "learning_rate": 0.0004815828290767303,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 148434240,
+      "step": 68725
+    },
+    {
+      "epoch": 11.212071778140293,
+      "grad_norm": 0.04959236830472946,
+      "learning_rate": 0.00048151169774458797,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 148443488,
+      "step": 68730
+    },
+    {
+      "epoch": 11.21288743882545,
+      "grad_norm": 0.467986524105072,
+      "learning_rate": 0.00048144056678713445,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 148453120,
+      "step": 68735
+    },
+    {
+      "epoch": 11.213703099510603,
+      "grad_norm": 0.7139317393302917,
+      "learning_rate": 0.00048136943620581164,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 148463712,
+      "step": 68740
+    },
+    {
+      "epoch": 11.214518760195759,
+      "grad_norm": 0.10186992585659027,
+      "learning_rate": 0.00048129830600206067,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 148474336,
+      "step": 68745
+    },
+    {
+      "epoch": 11.215334420880913,
+      "grad_norm": 0.004726898390799761,
+      "learning_rate": 0.0004812271761773234,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 148485184,
+      "step": 68750
+    },
+    {
+      "epoch": 11.216150081566068,
+      "grad_norm": 0.016972597688436508,
+      "learning_rate": 0.00048115604673304105,
+      "loss": 0.035,
+      "num_input_tokens_seen": 148495712,
+      "step": 68755
+    },
+    {
+      "epoch": 11.216965742251224,
+      "grad_norm": 0.2422623485326767,
+      "learning_rate": 0.0004810849176706555,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 148507200,
+      "step": 68760
+    },
+    {
+      "epoch": 11.217781402936378,
+      "grad_norm": 0.3776349127292633,
+      "learning_rate": 0.00048101378899160786,
+      "loss": 0.1002,
+      "num_input_tokens_seen": 148517216,
+      "step": 68765
+    },
+    {
+      "epoch": 11.218597063621534,
+      "grad_norm": 0.016399575397372246,
+      "learning_rate": 0.0004809426606973401,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 148527520,
+      "step": 68770
+    },
+    {
+      "epoch": 11.219412724306688,
+      "grad_norm": 0.003865182166919112,
+      "learning_rate": 0.00048087153278929327,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 148537728,
+      "step": 68775
+    },
+    {
+      "epoch": 11.220228384991843,
+      "grad_norm": 0.1378757506608963,
+      "learning_rate": 0.0004808004052689093,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 148548736,
+      "step": 68780
+    },
+    {
+      "epoch": 11.221044045676999,
+      "grad_norm": 0.004386617336422205,
+      "learning_rate": 0.0004807292781376294,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 148559776,
+      "step": 68785
+    },
+    {
+      "epoch": 11.221859706362153,
+      "grad_norm": 0.014153995551168919,
+      "learning_rate": 0.0004806581513968951,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 148571200,
+      "step": 68790
+    },
+    {
+      "epoch": 11.222675367047309,
+      "grad_norm": 0.004978655371814966,
+      "learning_rate": 0.00048058702504814795,
+      "loss": 0.0824,
+      "num_input_tokens_seen": 148582528,
+      "step": 68795
+    },
+    {
+      "epoch": 11.223491027732463,
+      "grad_norm": 0.2707526683807373,
+      "learning_rate": 0.0004805158990928293,
+      "loss": 0.0324,
+      "num_input_tokens_seen": 148593216,
+      "step": 68800
+    },
+    {
+      "epoch": 11.224306688417618,
+      "grad_norm": 0.02647767774760723,
+      "learning_rate": 0.0004804447735323806,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 148605248,
+      "step": 68805
+    },
+    {
+      "epoch": 11.225122349102774,
+      "grad_norm": 0.008877074345946312,
+      "learning_rate": 0.0004803736483682436,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 148614976,
+      "step": 68810
+    },
+    {
+      "epoch": 11.225938009787928,
+      "grad_norm": 0.005164226982742548,
+      "learning_rate": 0.0004803025236018593,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 148625952,
+      "step": 68815
+    },
+    {
+      "epoch": 11.226753670473084,
+      "grad_norm": 0.04235182702541351,
+      "learning_rate": 0.00048023139923466954,
+      "loss": 0.1503,
+      "num_input_tokens_seen": 148636800,
+      "step": 68820
+    },
+    {
+      "epoch": 11.227569331158238,
+      "grad_norm": 0.3473689556121826,
+      "learning_rate": 0.00048016027526811536,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 148648000,
+      "step": 68825
+    },
+    {
+      "epoch": 11.228384991843393,
+      "grad_norm": 0.5196056365966797,
+      "learning_rate": 0.00048008915170363853,
+      "loss": 0.0642,
+      "num_input_tokens_seen": 148659168,
+      "step": 68830
+    },
+    {
+      "epoch": 11.229200652528547,
+      "grad_norm": 0.04722573608160019,
+      "learning_rate": 0.0004800180285426802,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 148670144,
+      "step": 68835
+    },
+    {
+      "epoch": 11.230016313213703,
+      "grad_norm": 0.006056048907339573,
+      "learning_rate": 0.00047994690578668175,
+      "loss": 0.012,
+      "num_input_tokens_seen": 148679808,
+      "step": 68840
+    },
+    {
+      "epoch": 11.230831973898859,
+      "grad_norm": 0.028124723583459854,
+      "learning_rate": 0.000479875783437085,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 148690720,
+      "step": 68845
+    },
+    {
+      "epoch": 11.231647634584013,
+      "grad_norm": 0.03521675989031792,
+      "learning_rate": 0.00047980466149533075,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 148703104,
+      "step": 68850
+    },
+    {
+      "epoch": 11.232463295269168,
+      "grad_norm": 0.020668139681220055,
+      "learning_rate": 0.0004797335399628609,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 148714144,
+      "step": 68855
+    },
+    {
+      "epoch": 11.233278955954322,
+      "grad_norm": 0.3109743893146515,
+      "learning_rate": 0.0004796624188411163,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 148725952,
+      "step": 68860
+    },
+    {
+      "epoch": 11.234094616639478,
+      "grad_norm": 0.002848732518032193,
+      "learning_rate": 0.00047959129813153885,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 148736384,
+      "step": 68865
+    },
+    {
+      "epoch": 11.234910277324634,
+      "grad_norm": 0.11283021420240402,
+      "learning_rate": 0.00047952017783556945,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 148746720,
+      "step": 68870
+    },
+    {
+      "epoch": 11.235725938009788,
+      "grad_norm": 0.06801166385412216,
+      "learning_rate": 0.00047944905795464977,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 148757888,
+      "step": 68875
+    },
+    {
+      "epoch": 11.236541598694943,
+      "grad_norm": 0.34667694568634033,
+      "learning_rate": 0.0004793779384902208,
+      "loss": 0.1412,
+      "num_input_tokens_seen": 148768544,
+      "step": 68880
+    },
+    {
+      "epoch": 11.237357259380097,
+      "grad_norm": 0.4156077802181244,
+      "learning_rate": 0.00047930681944372434,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 148780896,
+      "step": 68885
+    },
+    {
+      "epoch": 11.238172920065253,
+      "grad_norm": 0.0029288295190781355,
+      "learning_rate": 0.00047923570081660115,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 148792992,
+      "step": 68890
+    },
+    {
+      "epoch": 11.238988580750409,
+      "grad_norm": 0.1302565187215805,
+      "learning_rate": 0.0004791645826102931,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 148802560,
+      "step": 68895
+    },
+    {
+      "epoch": 11.239804241435563,
+      "grad_norm": 0.0034214449115097523,
+      "learning_rate": 0.000479093464826241,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 148813344,
+      "step": 68900
+    },
+    {
+      "epoch": 11.240619902120718,
+      "grad_norm": 0.015604183077812195,
+      "learning_rate": 0.00047902234746588653,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 148824064,
+      "step": 68905
+    },
+    {
+      "epoch": 11.241435562805872,
+      "grad_norm": 0.04579491913318634,
+      "learning_rate": 0.0004789512305306706,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 148835232,
+      "step": 68910
+    },
+    {
+      "epoch": 11.242251223491028,
+      "grad_norm": 0.0059250290505588055,
+      "learning_rate": 0.0004788801140220349,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 148845504,
+      "step": 68915
+    },
+    {
+      "epoch": 11.243066884176184,
+      "grad_norm": 0.013930793851613998,
+      "learning_rate": 0.00047880899794142026,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 148857440,
+      "step": 68920
+    },
+    {
+      "epoch": 11.243882544861338,
+      "grad_norm": 0.003167049726471305,
+      "learning_rate": 0.00047873788229026826,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 148868960,
+      "step": 68925
+    },
+    {
+      "epoch": 11.244698205546493,
+      "grad_norm": 0.6725971698760986,
+      "learning_rate": 0.0004786667670700201,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 148879168,
+      "step": 68930
+    },
+    {
+      "epoch": 11.245513866231647,
+      "grad_norm": 0.552683413028717,
+      "learning_rate": 0.00047859565228211695,
+      "loss": 0.1268,
+      "num_input_tokens_seen": 148890016,
+      "step": 68935
+    },
+    {
+      "epoch": 11.246329526916803,
+      "grad_norm": 0.0028921207413077354,
+      "learning_rate": 0.00047852453792799997,
+      "loss": 0.006,
+      "num_input_tokens_seen": 148901344,
+      "step": 68940
+    },
+    {
+      "epoch": 11.247145187601957,
+      "grad_norm": 0.008932768367230892,
+      "learning_rate": 0.0004784534240091105,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 148912480,
+      "step": 68945
+    },
+    {
+      "epoch": 11.247960848287113,
+      "grad_norm": 0.005634156055748463,
+      "learning_rate": 0.00047838231052688975,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 148922592,
+      "step": 68950
+    },
+    {
+      "epoch": 11.248776508972268,
+      "grad_norm": 0.005630916450172663,
+      "learning_rate": 0.0004783111974827789,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 148933824,
+      "step": 68955
+    },
+    {
+      "epoch": 11.249592169657422,
+      "grad_norm": 0.09499726444482803,
+      "learning_rate": 0.0004782400848782192,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 148945152,
+      "step": 68960
+    },
+    {
+      "epoch": 11.250407830342578,
+      "grad_norm": 0.16316631436347961,
+      "learning_rate": 0.0004781689727146517,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 148957504,
+      "step": 68965
+    },
+    {
+      "epoch": 11.251223491027732,
+      "grad_norm": 0.001331451814621687,
+      "learning_rate": 0.0004780978609935178,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 148969312,
+      "step": 68970
+    },
+    {
+      "epoch": 11.252039151712887,
+      "grad_norm": 0.042243119329214096,
+      "learning_rate": 0.00047802674971625825,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 148978656,
+      "step": 68975
+    },
+    {
+      "epoch": 11.252854812398043,
+      "grad_norm": 0.3264990746974945,
+      "learning_rate": 0.0004779556388843148,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 148989408,
+      "step": 68980
+    },
+    {
+      "epoch": 11.253670473083197,
+      "grad_norm": 0.40584519505500793,
+      "learning_rate": 0.0004778845284991281,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 148999360,
+      "step": 68985
+    },
+    {
+      "epoch": 11.254486133768353,
+      "grad_norm": 0.0077764419838786125,
+      "learning_rate": 0.00047781341856213965,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 149010048,
+      "step": 68990
+    },
+    {
+      "epoch": 11.255301794453507,
+      "grad_norm": 0.0264874417334795,
+      "learning_rate": 0.00047774230907479025,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 149019552,
+      "step": 68995
+    },
+    {
+      "epoch": 11.256117455138662,
+      "grad_norm": 0.0019950123969465494,
+      "learning_rate": 0.0004776712000385214,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 149029216,
+      "step": 69000
+    },
+    {
+      "epoch": 11.256933115823816,
+      "grad_norm": 0.1232723593711853,
+      "learning_rate": 0.0004776000914547738,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 149041088,
+      "step": 69005
+    },
+    {
+      "epoch": 11.257748776508972,
+      "grad_norm": 0.002051304094493389,
+      "learning_rate": 0.00047752898332498894,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 149052224,
+      "step": 69010
+    },
+    {
+      "epoch": 11.258564437194128,
+      "grad_norm": 0.0008948579197749496,
+      "learning_rate": 0.00047745787565060756,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 149063264,
+      "step": 69015
+    },
+    {
+      "epoch": 11.259380097879282,
+      "grad_norm": 0.011743937619030476,
+      "learning_rate": 0.0004773867684330711,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 149074240,
+      "step": 69020
+    },
+    {
+      "epoch": 11.260195758564437,
+      "grad_norm": 0.7066226601600647,
+      "learning_rate": 0.0004773156616738203,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 149085984,
+      "step": 69025
+    },
+    {
+      "epoch": 11.261011419249591,
+      "grad_norm": 0.012210289016366005,
+      "learning_rate": 0.00047724455537429656,
+      "loss": 0.1053,
+      "num_input_tokens_seen": 149096736,
+      "step": 69030
+    },
+    {
+      "epoch": 11.261827079934747,
+      "grad_norm": 0.001831859932281077,
+      "learning_rate": 0.00047717344953594054,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 149107712,
+      "step": 69035
+    },
+    {
+      "epoch": 11.262642740619903,
+      "grad_norm": 0.01406815368682146,
+      "learning_rate": 0.0004771023441601938,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 149118240,
+      "step": 69040
+    },
+    {
+      "epoch": 11.263458401305057,
+      "grad_norm": 0.06279000639915466,
+      "learning_rate": 0.0004770312392484968,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 149128896,
+      "step": 69045
+    },
+    {
+      "epoch": 11.264274061990212,
+      "grad_norm": 0.007155647035688162,
+      "learning_rate": 0.000476960134802291,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 149140960,
+      "step": 69050
+    },
+    {
+      "epoch": 11.265089722675366,
+      "grad_norm": 0.0038323281332850456,
+      "learning_rate": 0.00047688903082301746,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 149152704,
+      "step": 69055
+    },
+    {
+      "epoch": 11.265905383360522,
+      "grad_norm": 0.03719216585159302,
+      "learning_rate": 0.00047681792731211684,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 149164192,
+      "step": 69060
+    },
+    {
+      "epoch": 11.266721044045678,
+      "grad_norm": 0.015115122310817242,
+      "learning_rate": 0.00047674682427103045,
+      "loss": 0.01,
+      "num_input_tokens_seen": 149175008,
+      "step": 69065
+    },
+    {
+      "epoch": 11.267536704730832,
+      "grad_norm": 0.050118640065193176,
+      "learning_rate": 0.00047667572170119905,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 149185440,
+      "step": 69070
+    },
+    {
+      "epoch": 11.268352365415987,
+      "grad_norm": 0.003916706424206495,
+      "learning_rate": 0.00047660461960406385,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 149197184,
+      "step": 69075
+    },
+    {
+      "epoch": 11.269168026101141,
+      "grad_norm": 0.0028812792152166367,
+      "learning_rate": 0.0004765335179810656,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 149207104,
+      "step": 69080
+    },
+    {
+      "epoch": 11.269983686786297,
+      "grad_norm": 0.0012590938713401556,
+      "learning_rate": 0.00047646241683364554,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 149218464,
+      "step": 69085
+    },
+    {
+      "epoch": 11.270799347471453,
+      "grad_norm": 0.01192085538059473,
+      "learning_rate": 0.0004763913161632443,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 149227328,
+      "step": 69090
+    },
+    {
+      "epoch": 11.271615008156607,
+      "grad_norm": 0.031869806349277496,
+      "learning_rate": 0.00047632021597130304,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 149238752,
+      "step": 69095
+    },
+    {
+      "epoch": 11.272430668841762,
+      "grad_norm": 0.3605614900588989,
+      "learning_rate": 0.0004762491162592627,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 149249024,
+      "step": 69100
+    },
+    {
+      "epoch": 11.273246329526916,
+      "grad_norm": 0.03341824561357498,
+      "learning_rate": 0.00047617801702856406,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 149259968,
+      "step": 69105
+    },
+    {
+      "epoch": 11.274061990212072,
+      "grad_norm": 0.015178644098341465,
+      "learning_rate": 0.00047610691828064815,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 149269632,
+      "step": 69110
+    },
+    {
+      "epoch": 11.274877650897226,
+      "grad_norm": 0.00792383961379528,
+      "learning_rate": 0.0004760358200169559,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 149280480,
+      "step": 69115
+    },
+    {
+      "epoch": 11.275693311582382,
+      "grad_norm": 0.0019493248546496034,
+      "learning_rate": 0.000475964722238928,
+      "loss": 0.002,
+      "num_input_tokens_seen": 149291616,
+      "step": 69120
+    },
+    {
+      "epoch": 11.276508972267537,
+      "grad_norm": 0.0008896426879800856,
+      "learning_rate": 0.00047589362494800574,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 149302368,
+      "step": 69125
+    },
+    {
+      "epoch": 11.277324632952691,
+      "grad_norm": 0.01973794586956501,
+      "learning_rate": 0.00047582252814562954,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 149311648,
+      "step": 69130
+    },
+    {
+      "epoch": 11.278140293637847,
+      "grad_norm": 0.0590951032936573,
+      "learning_rate": 0.0004757514318332407,
+      "loss": 0.0864,
+      "num_input_tokens_seen": 149322912,
+      "step": 69135
+    },
+    {
+      "epoch": 11.278955954323001,
+      "grad_norm": 0.03127824887633324,
+      "learning_rate": 0.0004756803360122796,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 149335168,
+      "step": 69140
+    },
+    {
+      "epoch": 11.279771615008157,
+      "grad_norm": 0.06734327971935272,
+      "learning_rate": 0.00047560924068418763,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 149346368,
+      "step": 69145
+    },
+    {
+      "epoch": 11.280587275693312,
+      "grad_norm": 0.03294230252504349,
+      "learning_rate": 0.00047553814585040506,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 149356544,
+      "step": 69150
+    },
+    {
+      "epoch": 11.281402936378466,
+      "grad_norm": 0.010984640568494797,
+      "learning_rate": 0.00047546705151237323,
+      "loss": 0.007,
+      "num_input_tokens_seen": 149366432,
+      "step": 69155
+    },
+    {
+      "epoch": 11.282218597063622,
+      "grad_norm": 0.008774088695645332,
+      "learning_rate": 0.00047539595767153255,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 149377216,
+      "step": 69160
+    },
+    {
+      "epoch": 11.283034257748776,
+      "grad_norm": 0.021760782226920128,
+      "learning_rate": 0.00047532486432932394,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 149388256,
+      "step": 69165
+    },
+    {
+      "epoch": 11.283849918433932,
+      "grad_norm": 0.0007815745775587857,
+      "learning_rate": 0.00047525377148718845,
+      "loss": 0.014,
+      "num_input_tokens_seen": 149400224,
+      "step": 69170
+    },
+    {
+      "epoch": 11.284665579119087,
+      "grad_norm": 0.10448987782001495,
+      "learning_rate": 0.00047518267914656656,
+      "loss": 0.039,
+      "num_input_tokens_seen": 149411808,
+      "step": 69175
+    },
+    {
+      "epoch": 11.285481239804241,
+      "grad_norm": 0.04002084583044052,
+      "learning_rate": 0.0004751115873088992,
+      "loss": 0.1977,
+      "num_input_tokens_seen": 149422272,
+      "step": 69180
+    },
+    {
+      "epoch": 11.286296900489397,
+      "grad_norm": 0.4018106162548065,
+      "learning_rate": 0.0004750404959756271,
+      "loss": 0.0552,
+      "num_input_tokens_seen": 149433664,
+      "step": 69185
+    },
+    {
+      "epoch": 11.28711256117455,
+      "grad_norm": 0.1768367737531662,
+      "learning_rate": 0.0004749694051481911,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 149443936,
+      "step": 69190
+    },
+    {
+      "epoch": 11.287928221859707,
+      "grad_norm": 0.532922089099884,
+      "learning_rate": 0.00047489831482803167,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 149453824,
+      "step": 69195
+    },
+    {
+      "epoch": 11.28874388254486,
+      "grad_norm": 0.013889400288462639,
+      "learning_rate": 0.00047482722501658993,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 149464992,
+      "step": 69200
+    },
+    {
+      "epoch": 11.289559543230016,
+      "grad_norm": 0.020058369264006615,
+      "learning_rate": 0.00047475613571530624,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 149476672,
+      "step": 69205
+    },
+    {
+      "epoch": 11.290375203915172,
+      "grad_norm": 0.0016307708574458957,
+      "learning_rate": 0.0004746850469256216,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 149487392,
+      "step": 69210
+    },
+    {
+      "epoch": 11.291190864600326,
+      "grad_norm": 0.014769136905670166,
+      "learning_rate": 0.0004746139586489765,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 149498208,
+      "step": 69215
+    },
+    {
+      "epoch": 11.292006525285482,
+      "grad_norm": 0.0010451297275722027,
+      "learning_rate": 0.00047454287088681194,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 149509280,
+      "step": 69220
+    },
+    {
+      "epoch": 11.292822185970635,
+      "grad_norm": 0.005814549047499895,
+      "learning_rate": 0.0004744717836405681,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 149519808,
+      "step": 69225
+    },
+    {
+      "epoch": 11.293637846655791,
+      "grad_norm": 0.041108760982751846,
+      "learning_rate": 0.00047440069691168617,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 149530208,
+      "step": 69230
+    },
+    {
+      "epoch": 11.294453507340947,
+      "grad_norm": 0.517116367816925,
+      "learning_rate": 0.0004743296107016065,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 149541728,
+      "step": 69235
+    },
+    {
+      "epoch": 11.2952691680261,
+      "grad_norm": 0.3088570833206177,
+      "learning_rate": 0.0004742585250117698,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 149552544,
+      "step": 69240
+    },
+    {
+      "epoch": 11.296084828711257,
+      "grad_norm": 1.3200207948684692,
+      "learning_rate": 0.00047418743984361676,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 149563456,
+      "step": 69245
+    },
+    {
+      "epoch": 11.29690048939641,
+      "grad_norm": 0.4354603886604309,
+      "learning_rate": 0.0004741163551985881,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 149574336,
+      "step": 69250
+    },
+    {
+      "epoch": 11.297716150081566,
+      "grad_norm": 0.0031291439663618803,
+      "learning_rate": 0.00047404527107812423,
+      "loss": 0.002,
+      "num_input_tokens_seen": 149584512,
+      "step": 69255
+    },
+    {
+      "epoch": 11.298531810766722,
+      "grad_norm": 0.43325313925743103,
+      "learning_rate": 0.00047397418748366596,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 149594176,
+      "step": 69260
+    },
+    {
+      "epoch": 11.299347471451876,
+      "grad_norm": 0.08179045468568802,
+      "learning_rate": 0.0004739031044166536,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 149605216,
+      "step": 69265
+    },
+    {
+      "epoch": 11.300163132137031,
+      "grad_norm": 0.00407014973461628,
+      "learning_rate": 0.0004738320218785281,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 149616480,
+      "step": 69270
+    },
+    {
+      "epoch": 11.300978792822185,
+      "grad_norm": 0.013852819800376892,
+      "learning_rate": 0.00047376093987072985,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 149627392,
+      "step": 69275
+    },
+    {
+      "epoch": 11.301794453507341,
+      "grad_norm": 0.002191155683249235,
+      "learning_rate": 0.00047368985839469946,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 149638144,
+      "step": 69280
+    },
+    {
+      "epoch": 11.302610114192497,
+      "grad_norm": 0.059072766453027725,
+      "learning_rate": 0.00047361877745187743,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 149648640,
+      "step": 69285
+    },
+    {
+      "epoch": 11.30342577487765,
+      "grad_norm": 0.4255982041358948,
+      "learning_rate": 0.0004735476970437043,
+      "loss": 0.1163,
+      "num_input_tokens_seen": 149659392,
+      "step": 69290
+    },
+    {
+      "epoch": 11.304241435562806,
+      "grad_norm": 0.06577350199222565,
+      "learning_rate": 0.0004734766171716208,
+      "loss": 0.02,
+      "num_input_tokens_seen": 149669184,
+      "step": 69295
+    },
+    {
+      "epoch": 11.30505709624796,
+      "grad_norm": 0.47753238677978516,
+      "learning_rate": 0.0004734055378370671,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 149681504,
+      "step": 69300
+    },
+    {
+      "epoch": 11.305872756933116,
+      "grad_norm": 0.012164420448243618,
+      "learning_rate": 0.00047333445904148414,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 149692192,
+      "step": 69305
+    },
+    {
+      "epoch": 11.30668841761827,
+      "grad_norm": 0.0932174026966095,
+      "learning_rate": 0.0004732633807863119,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 149702688,
+      "step": 69310
+    },
+    {
+      "epoch": 11.307504078303426,
+      "grad_norm": 0.007502132561057806,
+      "learning_rate": 0.0004731923030729915,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 149714016,
+      "step": 69315
+    },
+    {
+      "epoch": 11.308319738988581,
+      "grad_norm": 0.002116349758580327,
+      "learning_rate": 0.0004731212259029628,
+      "loss": 0.006,
+      "num_input_tokens_seen": 149723456,
+      "step": 69320
+    },
+    {
+      "epoch": 11.309135399673735,
+      "grad_norm": 0.0006365369190461934,
+      "learning_rate": 0.0004730501492776668,
+      "loss": 0.004,
+      "num_input_tokens_seen": 149734816,
+      "step": 69325
+    },
+    {
+      "epoch": 11.309951060358891,
+      "grad_norm": 0.12664510309696198,
+      "learning_rate": 0.00047297907319854347,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 149745440,
+      "step": 69330
+    },
+    {
+      "epoch": 11.310766721044045,
+      "grad_norm": 0.13877706229686737,
+      "learning_rate": 0.0004729079976670338,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 149753664,
+      "step": 69335
+    },
+    {
+      "epoch": 11.3115823817292,
+      "grad_norm": 0.31556734442710876,
+      "learning_rate": 0.00047283692268457764,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 149765280,
+      "step": 69340
+    },
+    {
+      "epoch": 11.312398042414356,
+      "grad_norm": 0.07661747932434082,
+      "learning_rate": 0.0004727658482526159,
+      "loss": 0.0281,
+      "num_input_tokens_seen": 149774944,
+      "step": 69345
+    },
+    {
+      "epoch": 11.31321370309951,
+      "grad_norm": 0.0017009270377457142,
+      "learning_rate": 0.00047269477437258863,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 149785664,
+      "step": 69350
+    },
+    {
+      "epoch": 11.314029363784666,
+      "grad_norm": 0.03626738116145134,
+      "learning_rate": 0.0004726237010459366,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 149796864,
+      "step": 69355
+    },
+    {
+      "epoch": 11.31484502446982,
+      "grad_norm": 0.0531466118991375,
+      "learning_rate": 0.00047255262827409974,
+      "loss": 0.1056,
+      "num_input_tokens_seen": 149807136,
+      "step": 69360
+    },
+    {
+      "epoch": 11.315660685154976,
+      "grad_norm": 0.3658745288848877,
+      "learning_rate": 0.00047248155605851896,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 149817888,
+      "step": 69365
+    },
+    {
+      "epoch": 11.31647634584013,
+      "grad_norm": 0.5249987840652466,
+      "learning_rate": 0.0004724104844006341,
+      "loss": 0.0633,
+      "num_input_tokens_seen": 149828448,
+      "step": 69370
+    },
+    {
+      "epoch": 11.317292006525285,
+      "grad_norm": 0.0011662240140140057,
+      "learning_rate": 0.0004723394133018858,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 149839968,
+      "step": 69375
+    },
+    {
+      "epoch": 11.318107667210441,
+      "grad_norm": 0.006454044952988625,
+      "learning_rate": 0.00047226834276371457,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 149850688,
+      "step": 69380
+    },
+    {
+      "epoch": 11.318923327895595,
+      "grad_norm": 0.04705966264009476,
+      "learning_rate": 0.00047219727278756033,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 149861152,
+      "step": 69385
+    },
+    {
+      "epoch": 11.31973898858075,
+      "grad_norm": 0.3665064871311188,
+      "learning_rate": 0.0004721262033748639,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 149870592,
+      "step": 69390
+    },
+    {
+      "epoch": 11.320554649265905,
+      "grad_norm": 0.0022680433467030525,
+      "learning_rate": 0.00047205513452706503,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 149880736,
+      "step": 69395
+    },
+    {
+      "epoch": 11.32137030995106,
+      "grad_norm": 0.4094318747520447,
+      "learning_rate": 0.0004719840662456046,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 149890912,
+      "step": 69400
+    },
+    {
+      "epoch": 11.322185970636216,
+      "grad_norm": 0.9223697781562805,
+      "learning_rate": 0.0004719129985319223,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 149901024,
+      "step": 69405
+    },
+    {
+      "epoch": 11.32300163132137,
+      "grad_norm": 0.004950478672981262,
+      "learning_rate": 0.0004718419313874589,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 149912352,
+      "step": 69410
+    },
+    {
+      "epoch": 11.323817292006526,
+      "grad_norm": 0.04885503649711609,
+      "learning_rate": 0.00047177086481365444,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 149923072,
+      "step": 69415
+    },
+    {
+      "epoch": 11.32463295269168,
+      "grad_norm": 0.021326279267668724,
+      "learning_rate": 0.00047169979881194927,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 149933248,
+      "step": 69420
+    },
+    {
+      "epoch": 11.325448613376835,
+      "grad_norm": 0.18451477587223053,
+      "learning_rate": 0.00047162873338378353,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 149943392,
+      "step": 69425
+    },
+    {
+      "epoch": 11.326264274061991,
+      "grad_norm": 0.3547409176826477,
+      "learning_rate": 0.0004715576685305975,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 149954240,
+      "step": 69430
+    },
+    {
+      "epoch": 11.327079934747145,
+      "grad_norm": 0.02587219700217247,
+      "learning_rate": 0.0004714866042538313,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 149964352,
+      "step": 69435
+    },
+    {
+      "epoch": 11.3278955954323,
+      "grad_norm": 0.11461975425481796,
+      "learning_rate": 0.00047141554055492546,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 149975680,
+      "step": 69440
+    },
+    {
+      "epoch": 11.328711256117455,
+      "grad_norm": 0.18348151445388794,
+      "learning_rate": 0.0004713444774353197,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 149987136,
+      "step": 69445
+    },
+    {
+      "epoch": 11.32952691680261,
+      "grad_norm": 0.039701469242572784,
+      "learning_rate": 0.0004712734148964547,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 149998624,
+      "step": 69450
+    },
+    {
+      "epoch": 11.330342577487766,
+      "grad_norm": 0.00447084940969944,
+      "learning_rate": 0.00047120235293977023,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 150009280,
+      "step": 69455
+    },
+    {
+      "epoch": 11.33115823817292,
+      "grad_norm": 0.14754629135131836,
+      "learning_rate": 0.00047113129156670677,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 150019360,
+      "step": 69460
+    },
+    {
+      "epoch": 11.331973898858076,
+      "grad_norm": 0.0007346358615905046,
+      "learning_rate": 0.00047106023077870407,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 150030336,
+      "step": 69465
+    },
+    {
+      "epoch": 11.33278955954323,
+      "grad_norm": 0.09433241188526154,
+      "learning_rate": 0.00047098917057720275,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 150040288,
+      "step": 69470
+    },
+    {
+      "epoch": 11.333605220228385,
+      "grad_norm": 0.149391308426857,
+      "learning_rate": 0.00047091811096364243,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 150051296,
+      "step": 69475
+    },
+    {
+      "epoch": 11.33442088091354,
+      "grad_norm": 0.0016867019003257155,
+      "learning_rate": 0.00047084705193946357,
+      "loss": 0.004,
+      "num_input_tokens_seen": 150062656,
+      "step": 69480
+    },
+    {
+      "epoch": 11.335236541598695,
+      "grad_norm": 0.006028663367033005,
+      "learning_rate": 0.0004707759935061063,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 150073792,
+      "step": 69485
+    },
+    {
+      "epoch": 11.33605220228385,
+      "grad_norm": 0.015563595108687878,
+      "learning_rate": 0.0004707049356650105,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 150085088,
+      "step": 69490
+    },
+    {
+      "epoch": 11.336867862969005,
+      "grad_norm": 0.9245015382766724,
+      "learning_rate": 0.0004706338784176165,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 150096640,
+      "step": 69495
+    },
+    {
+      "epoch": 11.33768352365416,
+      "grad_norm": 0.1057695597410202,
+      "learning_rate": 0.000470562821765364,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 150106656,
+      "step": 69500
+    },
+    {
+      "epoch": 11.338499184339314,
+      "grad_norm": 0.7162270545959473,
+      "learning_rate": 0.0004704917657096934,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 150117056,
+      "step": 69505
+    },
+    {
+      "epoch": 11.33931484502447,
+      "grad_norm": 0.08723993599414825,
+      "learning_rate": 0.00047042071025204445,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 150128832,
+      "step": 69510
+    },
+    {
+      "epoch": 11.340130505709626,
+      "grad_norm": 0.09651493281126022,
+      "learning_rate": 0.0004703496553938576,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 150139168,
+      "step": 69515
+    },
+    {
+      "epoch": 11.34094616639478,
+      "grad_norm": 0.023214256390929222,
+      "learning_rate": 0.00047027860113657235,
+      "loss": 0.1542,
+      "num_input_tokens_seen": 150149344,
+      "step": 69520
+    },
+    {
+      "epoch": 11.341761827079935,
+      "grad_norm": 0.01802109181880951,
+      "learning_rate": 0.00047020754748162914,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 150160032,
+      "step": 69525
+    },
+    {
+      "epoch": 11.34257748776509,
+      "grad_norm": 0.467803031206131,
+      "learning_rate": 0.0004701364944304675,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 150171264,
+      "step": 69530
+    },
+    {
+      "epoch": 11.343393148450245,
+      "grad_norm": 0.018711155280470848,
+      "learning_rate": 0.000470065441984528,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 150181696,
+      "step": 69535
+    },
+    {
+      "epoch": 11.3442088091354,
+      "grad_norm": 0.0073052081279456615,
+      "learning_rate": 0.00046999439014525004,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 150192352,
+      "step": 69540
+    },
+    {
+      "epoch": 11.345024469820554,
+      "grad_norm": 0.0033433528151363134,
+      "learning_rate": 0.00046992333891407396,
+      "loss": 0.0414,
+      "num_input_tokens_seen": 150203392,
+      "step": 69545
+    },
+    {
+      "epoch": 11.34584013050571,
+      "grad_norm": 0.13693156838417053,
+      "learning_rate": 0.00046985228829243955,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 150214144,
+      "step": 69550
+    },
+    {
+      "epoch": 11.346655791190864,
+      "grad_norm": 0.15868552029132843,
+      "learning_rate": 0.0004697812382817868,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 150225664,
+      "step": 69555
+    },
+    {
+      "epoch": 11.34747145187602,
+      "grad_norm": 0.22203922271728516,
+      "learning_rate": 0.0004697101888835555,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 150237728,
+      "step": 69560
+    },
+    {
+      "epoch": 11.348287112561174,
+      "grad_norm": 0.22300738096237183,
+      "learning_rate": 0.0004696391400991857,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 150249056,
+      "step": 69565
+    },
+    {
+      "epoch": 11.34910277324633,
+      "grad_norm": 2.7132036685943604,
+      "learning_rate": 0.0004695680919301173,
+      "loss": 0.0948,
+      "num_input_tokens_seen": 150259872,
+      "step": 69570
+    },
+    {
+      "epoch": 11.349918433931485,
+      "grad_norm": 0.6747056245803833,
+      "learning_rate": 0.00046949704437779005,
+      "loss": 0.261,
+      "num_input_tokens_seen": 150269312,
+      "step": 69575
+    },
+    {
+      "epoch": 11.350734094616639,
+      "grad_norm": 0.04295853152871132,
+      "learning_rate": 0.0004694259974436438,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 150280064,
+      "step": 69580
+    },
+    {
+      "epoch": 11.351549755301795,
+      "grad_norm": 0.08870097249746323,
+      "learning_rate": 0.00046935495112911856,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 150290784,
+      "step": 69585
+    },
+    {
+      "epoch": 11.352365415986949,
+      "grad_norm": 0.002641193335875869,
+      "learning_rate": 0.0004692839054356542,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 150301248,
+      "step": 69590
+    },
+    {
+      "epoch": 11.353181076672104,
+      "grad_norm": 0.015244108624756336,
+      "learning_rate": 0.0004692128603646904,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 150312160,
+      "step": 69595
+    },
+    {
+      "epoch": 11.35399673735726,
+      "grad_norm": 0.00676583731546998,
+      "learning_rate": 0.0004691418159176671,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 150322336,
+      "step": 69600
+    },
+    {
+      "epoch": 11.354812398042414,
+      "grad_norm": 0.11018446087837219,
+      "learning_rate": 0.00046907077209602387,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 150332800,
+      "step": 69605
+    },
+    {
+      "epoch": 11.35562805872757,
+      "grad_norm": 0.013826750218868256,
+      "learning_rate": 0.0004689997289012009,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 150343488,
+      "step": 69610
+    },
+    {
+      "epoch": 11.356443719412724,
+      "grad_norm": 0.014815778471529484,
+      "learning_rate": 0.0004689286863346376,
+      "loss": 0.0666,
+      "num_input_tokens_seen": 150355200,
+      "step": 69615
+    },
+    {
+      "epoch": 11.35725938009788,
+      "grad_norm": 0.06837964802980423,
+      "learning_rate": 0.00046885764439777406,
+      "loss": 0.2133,
+      "num_input_tokens_seen": 150365632,
+      "step": 69620
+    },
+    {
+      "epoch": 11.358075040783035,
+      "grad_norm": 0.08865787088871002,
+      "learning_rate": 0.0004687866030920496,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 150376512,
+      "step": 69625
+    },
+    {
+      "epoch": 11.358890701468189,
+      "grad_norm": 0.005196568556129932,
+      "learning_rate": 0.00046871556241890455,
+      "loss": 0.1446,
+      "num_input_tokens_seen": 150385184,
+      "step": 69630
+    },
+    {
+      "epoch": 11.359706362153345,
+      "grad_norm": 0.046573054045438766,
+      "learning_rate": 0.000468644522379778,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 150396384,
+      "step": 69635
+    },
+    {
+      "epoch": 11.360522022838499,
+      "grad_norm": 0.35547757148742676,
+      "learning_rate": 0.00046857348297611024,
+      "loss": 0.2188,
+      "num_input_tokens_seen": 150407712,
+      "step": 69640
+    },
+    {
+      "epoch": 11.361337683523654,
+      "grad_norm": 0.014049242250621319,
+      "learning_rate": 0.0004685024442093405,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 150418016,
+      "step": 69645
+    },
+    {
+      "epoch": 11.362153344208808,
+      "grad_norm": 0.03289031237363815,
+      "learning_rate": 0.00046843140608090897,
+      "loss": 0.017,
+      "num_input_tokens_seen": 150427840,
+      "step": 69650
+    },
+    {
+      "epoch": 11.362969004893964,
+      "grad_norm": 0.33571213483810425,
+      "learning_rate": 0.0004683603685922547,
+      "loss": 0.0994,
+      "num_input_tokens_seen": 150439040,
+      "step": 69655
+    },
+    {
+      "epoch": 11.36378466557912,
+      "grad_norm": 0.01751234009861946,
+      "learning_rate": 0.00046828933174481797,
+      "loss": 0.1699,
+      "num_input_tokens_seen": 150450080,
+      "step": 69660
+    },
+    {
+      "epoch": 11.364600326264274,
+      "grad_norm": 0.03534317389130592,
+      "learning_rate": 0.000468218295540038,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 150461728,
+      "step": 69665
+    },
+    {
+      "epoch": 11.36541598694943,
+      "grad_norm": 0.037167083472013474,
+      "learning_rate": 0.0004681472599793547,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 150472288,
+      "step": 69670
+    },
+    {
+      "epoch": 11.366231647634583,
+      "grad_norm": 0.045636508613824844,
+      "learning_rate": 0.00046807622506420745,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 150482048,
+      "step": 69675
+    },
+    {
+      "epoch": 11.367047308319739,
+      "grad_norm": 0.020483041182160378,
+      "learning_rate": 0.00046800519079603616,
+      "loss": 0.004,
+      "num_input_tokens_seen": 150492928,
+      "step": 69680
+    },
+    {
+      "epoch": 11.367862969004895,
+      "grad_norm": 0.06380794942378998,
+      "learning_rate": 0.00046793415717628006,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 150504448,
+      "step": 69685
+    },
+    {
+      "epoch": 11.368678629690049,
+      "grad_norm": 0.006169379223138094,
+      "learning_rate": 0.000467863124206379,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 150514880,
+      "step": 69690
+    },
+    {
+      "epoch": 11.369494290375204,
+      "grad_norm": 0.004469654988497496,
+      "learning_rate": 0.0004677920918877726,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 150525984,
+      "step": 69695
+    },
+    {
+      "epoch": 11.370309951060358,
+      "grad_norm": 0.009194393642246723,
+      "learning_rate": 0.0004677210602219002,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 150536352,
+      "step": 69700
+    },
+    {
+      "epoch": 11.371125611745514,
+      "grad_norm": 0.014019605703651905,
+      "learning_rate": 0.00046765002921020165,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 150547040,
+      "step": 69705
+    },
+    {
+      "epoch": 11.37194127243067,
+      "grad_norm": 0.008166109211742878,
+      "learning_rate": 0.0004675789988541161,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 150557920,
+      "step": 69710
+    },
+    {
+      "epoch": 11.372756933115824,
+      "grad_norm": 0.029136566445231438,
+      "learning_rate": 0.0004675079691550833,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 150568832,
+      "step": 69715
+    },
+    {
+      "epoch": 11.37357259380098,
+      "grad_norm": 0.0021976104471832514,
+      "learning_rate": 0.0004674369401145428,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 150579232,
+      "step": 69720
+    },
+    {
+      "epoch": 11.374388254486133,
+      "grad_norm": 0.0005827890709042549,
+      "learning_rate": 0.000467365911733934,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 150590656,
+      "step": 69725
+    },
+    {
+      "epoch": 11.375203915171289,
+      "grad_norm": 0.017050622031092644,
+      "learning_rate": 0.0004672948840146964,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 150600992,
+      "step": 69730
+    },
+    {
+      "epoch": 11.376019575856443,
+      "grad_norm": 0.07799620926380157,
+      "learning_rate": 0.0004672238569582695,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 150612512,
+      "step": 69735
+    },
+    {
+      "epoch": 11.376835236541599,
+      "grad_norm": 0.008146431297063828,
+      "learning_rate": 0.00046715283056609255,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 150622976,
+      "step": 69740
+    },
+    {
+      "epoch": 11.377650897226754,
+      "grad_norm": 0.01783410832285881,
+      "learning_rate": 0.0004670818048396054,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 150633792,
+      "step": 69745
+    },
+    {
+      "epoch": 11.378466557911908,
+      "grad_norm": 0.22305737435817719,
+      "learning_rate": 0.00046701077978024695,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 150644864,
+      "step": 69750
+    },
+    {
+      "epoch": 11.379282218597064,
+      "grad_norm": 0.012764952145516872,
+      "learning_rate": 0.0004669397553894572,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 150654912,
+      "step": 69755
+    },
+    {
+      "epoch": 11.380097879282218,
+      "grad_norm": 0.07222677022218704,
+      "learning_rate": 0.00046686873166867503,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 150665632,
+      "step": 69760
+    },
+    {
+      "epoch": 11.380913539967374,
+      "grad_norm": 0.007756201084703207,
+      "learning_rate": 0.00046679770861934026,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 150676576,
+      "step": 69765
+    },
+    {
+      "epoch": 11.38172920065253,
+      "grad_norm": 0.001642027753405273,
+      "learning_rate": 0.00046672668624289177,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 150687936,
+      "step": 69770
+    },
+    {
+      "epoch": 11.382544861337683,
+      "grad_norm": 0.005967188626527786,
+      "learning_rate": 0.0004666556645407695,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 150699808,
+      "step": 69775
+    },
+    {
+      "epoch": 11.383360522022839,
+      "grad_norm": 0.24380135536193848,
+      "learning_rate": 0.00046658464351441214,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 150710304,
+      "step": 69780
+    },
+    {
+      "epoch": 11.384176182707993,
+      "grad_norm": 0.04066390171647072,
+      "learning_rate": 0.0004665136231652597,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 150721696,
+      "step": 69785
+    },
+    {
+      "epoch": 11.384991843393149,
+      "grad_norm": 0.004151922184973955,
+      "learning_rate": 0.0004664426034947509,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 150732832,
+      "step": 69790
+    },
+    {
+      "epoch": 11.385807504078304,
+      "grad_norm": 0.3790360987186432,
+      "learning_rate": 0.00046637158450432557,
+      "loss": 0.1486,
+      "num_input_tokens_seen": 150743168,
+      "step": 69795
+    },
+    {
+      "epoch": 11.386623164763458,
+      "grad_norm": 0.4907276928424835,
+      "learning_rate": 0.0004663005661954225,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 150753984,
+      "step": 69800
+    },
+    {
+      "epoch": 11.387438825448614,
+      "grad_norm": 0.004496270790696144,
+      "learning_rate": 0.0004662295485694812,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 150763840,
+      "step": 69805
+    },
+    {
+      "epoch": 11.388254486133768,
+      "grad_norm": 0.013045874424278736,
+      "learning_rate": 0.00046615853162794115,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 150774016,
+      "step": 69810
+    },
+    {
+      "epoch": 11.389070146818923,
+      "grad_norm": 0.12476672232151031,
+      "learning_rate": 0.00046608751537224115,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 150785024,
+      "step": 69815
+    },
+    {
+      "epoch": 11.38988580750408,
+      "grad_norm": 0.000895587436389178,
+      "learning_rate": 0.0004660164998038209,
+      "loss": 0.1608,
+      "num_input_tokens_seen": 150795264,
+      "step": 69820
+    },
+    {
+      "epoch": 11.390701468189233,
+      "grad_norm": 0.003991547040641308,
+      "learning_rate": 0.0004659454849241192,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 150805440,
+      "step": 69825
+    },
+    {
+      "epoch": 11.391517128874389,
+      "grad_norm": 0.001991401193663478,
+      "learning_rate": 0.0004658744707345757,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 150816064,
+      "step": 69830
+    },
+    {
+      "epoch": 11.392332789559543,
+      "grad_norm": 0.025201058015227318,
+      "learning_rate": 0.000465803457236629,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 150828000,
+      "step": 69835
+    },
+    {
+      "epoch": 11.393148450244698,
+      "grad_norm": 0.002868784824386239,
+      "learning_rate": 0.00046573244443171897,
+      "loss": 0.022,
+      "num_input_tokens_seen": 150838912,
+      "step": 69840
+    },
+    {
+      "epoch": 11.393964110929852,
+      "grad_norm": 0.0028491260018199682,
+      "learning_rate": 0.00046566143232128416,
+      "loss": 0.027,
+      "num_input_tokens_seen": 150850976,
+      "step": 69845
+    },
+    {
+      "epoch": 11.394779771615008,
+      "grad_norm": 0.003991770092397928,
+      "learning_rate": 0.0004655904209067642,
+      "loss": 0.006,
+      "num_input_tokens_seen": 150861216,
+      "step": 69850
+    },
+    {
+      "epoch": 11.395595432300164,
+      "grad_norm": 0.08987481147050858,
+      "learning_rate": 0.0004655194101895978,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 150871808,
+      "step": 69855
+    },
+    {
+      "epoch": 11.396411092985318,
+      "grad_norm": 0.12651516497135162,
+      "learning_rate": 0.00046544840017122437,
+      "loss": 0.1577,
+      "num_input_tokens_seen": 150882432,
+      "step": 69860
+    },
+    {
+      "epoch": 11.397226753670473,
+      "grad_norm": 0.38407793641090393,
+      "learning_rate": 0.000465377390853083,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 150894016,
+      "step": 69865
+    },
+    {
+      "epoch": 11.398042414355627,
+      "grad_norm": 0.5415304899215698,
+      "learning_rate": 0.0004653063822366127,
+      "loss": 0.0491,
+      "num_input_tokens_seen": 150904384,
+      "step": 69870
+    },
+    {
+      "epoch": 11.398858075040783,
+      "grad_norm": 0.001830374007113278,
+      "learning_rate": 0.00046523537432325256,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 150915328,
+      "step": 69875
+    },
+    {
+      "epoch": 11.399673735725939,
+      "grad_norm": 0.1316104382276535,
+      "learning_rate": 0.00046516436711444166,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 150927264,
+      "step": 69880
+    },
+    {
+      "epoch": 11.400489396411093,
+      "grad_norm": 0.005751550663262606,
+      "learning_rate": 0.000465093360611619,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 150938752,
+      "step": 69885
+    },
+    {
+      "epoch": 11.401305057096248,
+      "grad_norm": 0.019678879529237747,
+      "learning_rate": 0.00046502235481622387,
+      "loss": 0.005,
+      "num_input_tokens_seen": 150949312,
+      "step": 69890
+    },
+    {
+      "epoch": 11.402120717781402,
+      "grad_norm": 0.03236980736255646,
+      "learning_rate": 0.00046495134972969476,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 150959488,
+      "step": 69895
+    },
+    {
+      "epoch": 11.402936378466558,
+      "grad_norm": 0.11323463916778564,
+      "learning_rate": 0.00046488034535347133,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 150971264,
+      "step": 69900
+    },
+    {
+      "epoch": 11.403752039151712,
+      "grad_norm": 0.011170793324708939,
+      "learning_rate": 0.00046480934168899204,
+      "loss": 0.007,
+      "num_input_tokens_seen": 150982688,
+      "step": 69905
+    },
+    {
+      "epoch": 11.404567699836868,
+      "grad_norm": 0.22744742035865784,
+      "learning_rate": 0.0004647383387376961,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 150993504,
+      "step": 69910
+    },
+    {
+      "epoch": 11.405383360522023,
+      "grad_norm": 0.005999124143272638,
+      "learning_rate": 0.0004646673365010226,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 151004256,
+      "step": 69915
+    },
+    {
+      "epoch": 11.406199021207177,
+      "grad_norm": 0.007814616896212101,
+      "learning_rate": 0.0004645963349804102,
+      "loss": 0.0679,
+      "num_input_tokens_seen": 151014560,
+      "step": 69920
+    },
+    {
+      "epoch": 11.407014681892333,
+      "grad_norm": 0.002219694433733821,
+      "learning_rate": 0.0004645253341772982,
+      "loss": 0.15,
+      "num_input_tokens_seen": 151026752,
+      "step": 69925
+    },
+    {
+      "epoch": 11.407830342577487,
+      "grad_norm": 0.0035255623515695333,
+      "learning_rate": 0.00046445433409312507,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 151037792,
+      "step": 69930
+    },
+    {
+      "epoch": 11.408646003262643,
+      "grad_norm": 0.13510288298130035,
+      "learning_rate": 0.00046438333472933015,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 151048832,
+      "step": 69935
+    },
+    {
+      "epoch": 11.409461663947798,
+      "grad_norm": 0.04429556801915169,
+      "learning_rate": 0.0004643123360873519,
+      "loss": 0.043,
+      "num_input_tokens_seen": 151059840,
+      "step": 69940
+    },
+    {
+      "epoch": 11.410277324632952,
+      "grad_norm": 0.26778528094291687,
+      "learning_rate": 0.00046424133816862966,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 151071328,
+      "step": 69945
+    },
+    {
+      "epoch": 11.411092985318108,
+      "grad_norm": 0.031590599566698074,
+      "learning_rate": 0.00046417034097460193,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 151081920,
+      "step": 69950
+    },
+    {
+      "epoch": 11.411908646003262,
+      "grad_norm": 0.41061243414878845,
+      "learning_rate": 0.0004640993445067078,
+      "loss": 0.1952,
+      "num_input_tokens_seen": 151093440,
+      "step": 69955
+    },
+    {
+      "epoch": 11.412724306688418,
+      "grad_norm": 0.011785534210503101,
+      "learning_rate": 0.00046402834876638584,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 151104256,
+      "step": 69960
+    },
+    {
+      "epoch": 11.413539967373573,
+      "grad_norm": 0.0027609181124716997,
+      "learning_rate": 0.00046395735375507523,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 151113856,
+      "step": 69965
+    },
+    {
+      "epoch": 11.414355628058727,
+      "grad_norm": 0.004242262803018093,
+      "learning_rate": 0.0004638863594742144,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 151124928,
+      "step": 69970
+    },
+    {
+      "epoch": 11.415171288743883,
+      "grad_norm": 0.0068120453506708145,
+      "learning_rate": 0.00046381536592524244,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 151134304,
+      "step": 69975
+    },
+    {
+      "epoch": 11.415986949429037,
+      "grad_norm": 0.43580371141433716,
+      "learning_rate": 0.00046374437310959783,
+      "loss": 0.089,
+      "num_input_tokens_seen": 151145600,
+      "step": 69980
+    },
+    {
+      "epoch": 11.416802610114193,
+      "grad_norm": 0.01116594672203064,
+      "learning_rate": 0.0004636733810287197,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 151155872,
+      "step": 69985
+    },
+    {
+      "epoch": 11.417618270799348,
+      "grad_norm": 0.00956810638308525,
+      "learning_rate": 0.00046360238968404634,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 151164960,
+      "step": 69990
+    },
+    {
+      "epoch": 11.418433931484502,
+      "grad_norm": 0.00572627317160368,
+      "learning_rate": 0.000463531399077017,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 151176480,
+      "step": 69995
+    },
+    {
+      "epoch": 11.419249592169658,
+      "grad_norm": 0.9830451011657715,
+      "learning_rate": 0.00046346040920906985,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 151187136,
+      "step": 70000
+    },
+    {
+      "epoch": 11.420065252854812,
+      "grad_norm": 0.03204105421900749,
+      "learning_rate": 0.000463389420081644,
+      "loss": 0.015,
+      "num_input_tokens_seen": 151197856,
+      "step": 70005
+    },
+    {
+      "epoch": 11.420880913539968,
+      "grad_norm": 0.20063550770282745,
+      "learning_rate": 0.000463318431696178,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 151209280,
+      "step": 70010
+    },
+    {
+      "epoch": 11.421696574225122,
+      "grad_norm": 0.0036226080264896154,
+      "learning_rate": 0.00046324744405411034,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 151219392,
+      "step": 70015
+    },
+    {
+      "epoch": 11.422512234910277,
+      "grad_norm": 0.005751903634518385,
+      "learning_rate": 0.00046317645715688015,
+      "loss": 0.2715,
+      "num_input_tokens_seen": 151230784,
+      "step": 70020
+    },
+    {
+      "epoch": 11.423327895595433,
+      "grad_norm": 0.23385001718997955,
+      "learning_rate": 0.00046310547100592557,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 151241824,
+      "step": 70025
+    },
+    {
+      "epoch": 11.424143556280587,
+      "grad_norm": 0.0022833424154669046,
+      "learning_rate": 0.0004630344856026855,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 151253280,
+      "step": 70030
+    },
+    {
+      "epoch": 11.424959216965743,
+      "grad_norm": 0.009258701466023922,
+      "learning_rate": 0.0004629635009485984,
+      "loss": 0.0887,
+      "num_input_tokens_seen": 151264864,
+      "step": 70035
+    },
+    {
+      "epoch": 11.425774877650896,
+      "grad_norm": 0.06533806771039963,
+      "learning_rate": 0.000462892517045103,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 151275936,
+      "step": 70040
+    },
+    {
+      "epoch": 11.426590538336052,
+      "grad_norm": 0.039362918585538864,
+      "learning_rate": 0.0004628215338936378,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 151286368,
+      "step": 70045
+    },
+    {
+      "epoch": 11.427406199021208,
+      "grad_norm": 0.20595617592334747,
+      "learning_rate": 0.0004627505514956414,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 151296064,
+      "step": 70050
+    },
+    {
+      "epoch": 11.428221859706362,
+      "grad_norm": 0.05006346479058266,
+      "learning_rate": 0.0004626795698525522,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 151306848,
+      "step": 70055
+    },
+    {
+      "epoch": 11.429037520391518,
+      "grad_norm": 0.18353790044784546,
+      "learning_rate": 0.00046260858896580916,
+      "loss": 0.1223,
+      "num_input_tokens_seen": 151317088,
+      "step": 70060
+    },
+    {
+      "epoch": 11.429853181076671,
+      "grad_norm": 0.1014518141746521,
+      "learning_rate": 0.0004625376088368502,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 151328576,
+      "step": 70065
+    },
+    {
+      "epoch": 11.430668841761827,
+      "grad_norm": 0.003118648659437895,
+      "learning_rate": 0.0004624666294671143,
+      "loss": 0.006,
+      "num_input_tokens_seen": 151339424,
+      "step": 70070
+    },
+    {
+      "epoch": 11.431484502446983,
+      "grad_norm": 0.07444004714488983,
+      "learning_rate": 0.00046239565085803966,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 151349696,
+      "step": 70075
+    },
+    {
+      "epoch": 11.432300163132137,
+      "grad_norm": 0.0086215203627944,
+      "learning_rate": 0.000462324673011065,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 151361728,
+      "step": 70080
+    },
+    {
+      "epoch": 11.433115823817293,
+      "grad_norm": 0.005710784811526537,
+      "learning_rate": 0.00046225369592762844,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 151372928,
+      "step": 70085
+    },
+    {
+      "epoch": 11.433931484502446,
+      "grad_norm": 0.003733087796717882,
+      "learning_rate": 0.00046218271960916886,
+      "loss": 0.016,
+      "num_input_tokens_seen": 151383072,
+      "step": 70090
+    },
+    {
+      "epoch": 11.434747145187602,
+      "grad_norm": 0.3411053419113159,
+      "learning_rate": 0.0004621117440571242,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 151393952,
+      "step": 70095
+    },
+    {
+      "epoch": 11.435562805872756,
+      "grad_norm": 0.008186204358935356,
+      "learning_rate": 0.0004620407692729333,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 151405376,
+      "step": 70100
+    },
+    {
+      "epoch": 11.436378466557912,
+      "grad_norm": 0.0025740989949554205,
+      "learning_rate": 0.0004619697952580342,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 151415360,
+      "step": 70105
+    },
+    {
+      "epoch": 11.437194127243067,
+      "grad_norm": 0.011523899622261524,
+      "learning_rate": 0.00046189882201386564,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 151424960,
+      "step": 70110
+    },
+    {
+      "epoch": 11.438009787928221,
+      "grad_norm": 0.05342297628521919,
+      "learning_rate": 0.0004618278495418655,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 151436000,
+      "step": 70115
+    },
+    {
+      "epoch": 11.438825448613377,
+      "grad_norm": 0.001507753157056868,
+      "learning_rate": 0.0004617568778434725,
+      "loss": 0.004,
+      "num_input_tokens_seen": 151446944,
+      "step": 70120
+    },
+    {
+      "epoch": 11.439641109298531,
+      "grad_norm": 0.0007432901184074581,
+      "learning_rate": 0.0004616859069201251,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 151457888,
+      "step": 70125
+    },
+    {
+      "epoch": 11.440456769983687,
+      "grad_norm": 0.0018831411143764853,
+      "learning_rate": 0.0004616149367732612,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 151467904,
+      "step": 70130
+    },
+    {
+      "epoch": 11.441272430668842,
+      "grad_norm": 0.0827159658074379,
+      "learning_rate": 0.0004615439674043195,
+      "loss": 0.1162,
+      "num_input_tokens_seen": 151479744,
+      "step": 70135
+    },
+    {
+      "epoch": 11.442088091353996,
+      "grad_norm": 0.09129805862903595,
+      "learning_rate": 0.00046147299881473783,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 151489760,
+      "step": 70140
+    },
+    {
+      "epoch": 11.442903752039152,
+      "grad_norm": 0.06670738756656647,
+      "learning_rate": 0.0004614020310059549,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 151500640,
+      "step": 70145
+    },
+    {
+      "epoch": 11.443719412724306,
+      "grad_norm": 0.036870285868644714,
+      "learning_rate": 0.0004613310639794086,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 151511200,
+      "step": 70150
+    },
+    {
+      "epoch": 11.444535073409462,
+      "grad_norm": 0.042107485234737396,
+      "learning_rate": 0.0004612600977365376,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 151521632,
+      "step": 70155
+    },
+    {
+      "epoch": 11.445350734094617,
+      "grad_norm": 0.02666345052421093,
+      "learning_rate": 0.0004611891322787796,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 151531904,
+      "step": 70160
+    },
+    {
+      "epoch": 11.446166394779771,
+      "grad_norm": 0.022787848487496376,
+      "learning_rate": 0.0004611181676075734,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 151542816,
+      "step": 70165
+    },
+    {
+      "epoch": 11.446982055464927,
+      "grad_norm": 0.010411875322461128,
+      "learning_rate": 0.00046104720372435647,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 151553312,
+      "step": 70170
+    },
+    {
+      "epoch": 11.447797716150081,
+      "grad_norm": 0.014083120971918106,
+      "learning_rate": 0.0004609762406305676,
+      "loss": 0.006,
+      "num_input_tokens_seen": 151562112,
+      "step": 70175
+    },
+    {
+      "epoch": 11.448613376835237,
+      "grad_norm": 0.008514699526131153,
+      "learning_rate": 0.0004609052783276447,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 151571168,
+      "step": 70180
+    },
+    {
+      "epoch": 11.449429037520392,
+      "grad_norm": 0.07610338926315308,
+      "learning_rate": 0.0004608343168170259,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 151580352,
+      "step": 70185
+    },
+    {
+      "epoch": 11.450244698205546,
+      "grad_norm": 0.01380261592566967,
+      "learning_rate": 0.0004607633561001493,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 151591360,
+      "step": 70190
+    },
+    {
+      "epoch": 11.451060358890702,
+      "grad_norm": 0.0032468524295836687,
+      "learning_rate": 0.0004606923961784532,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 151602368,
+      "step": 70195
+    },
+    {
+      "epoch": 11.451876019575856,
+      "grad_norm": 0.000461250776425004,
+      "learning_rate": 0.00046062143705337535,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 151613504,
+      "step": 70200
+    },
+    {
+      "epoch": 11.452691680261012,
+      "grad_norm": 0.009105556644499302,
+      "learning_rate": 0.00046055047872635424,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 151624160,
+      "step": 70205
+    },
+    {
+      "epoch": 11.453507340946166,
+      "grad_norm": 0.005286885425448418,
+      "learning_rate": 0.0004604795211988275,
+      "loss": 0.1602,
+      "num_input_tokens_seen": 151632672,
+      "step": 70210
+    },
+    {
+      "epoch": 11.454323001631321,
+      "grad_norm": 0.0044653876684606075,
+      "learning_rate": 0.00046040856447223375,
+      "loss": 0.0645,
+      "num_input_tokens_seen": 151644672,
+      "step": 70215
+    },
+    {
+      "epoch": 11.455138662316477,
+      "grad_norm": 0.0038570996839553118,
+      "learning_rate": 0.00046033760854801033,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 151655168,
+      "step": 70220
+    },
+    {
+      "epoch": 11.455954323001631,
+      "grad_norm": 0.4873116612434387,
+      "learning_rate": 0.0004602666534275956,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 151666080,
+      "step": 70225
+    },
+    {
+      "epoch": 11.456769983686787,
+      "grad_norm": 0.011731144040822983,
+      "learning_rate": 0.0004601956991124278,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 151676864,
+      "step": 70230
+    },
+    {
+      "epoch": 11.45758564437194,
+      "grad_norm": 0.1812438666820526,
+      "learning_rate": 0.00046012474560394443,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 151688768,
+      "step": 70235
+    },
+    {
+      "epoch": 11.458401305057096,
+      "grad_norm": 0.11268593370914459,
+      "learning_rate": 0.00046005379290358386,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 151699200,
+      "step": 70240
+    },
+    {
+      "epoch": 11.459216965742252,
+      "grad_norm": 0.004744227509945631,
+      "learning_rate": 0.00045998284101278367,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 151711168,
+      "step": 70245
+    },
+    {
+      "epoch": 11.460032626427406,
+      "grad_norm": 0.016108961775898933,
+      "learning_rate": 0.0004599118899329821,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 151722208,
+      "step": 70250
+    },
+    {
+      "epoch": 11.460848287112562,
+      "grad_norm": 0.015514836646616459,
+      "learning_rate": 0.0004598409396656168,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 151732256,
+      "step": 70255
+    },
+    {
+      "epoch": 11.461663947797716,
+      "grad_norm": 0.002084217732772231,
+      "learning_rate": 0.000459769990212126,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 151742240,
+      "step": 70260
+    },
+    {
+      "epoch": 11.462479608482871,
+      "grad_norm": 0.009067544713616371,
+      "learning_rate": 0.0004596990415739472,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 151752320,
+      "step": 70265
+    },
+    {
+      "epoch": 11.463295269168025,
+      "grad_norm": 0.42302384972572327,
+      "learning_rate": 0.0004596280937525186,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 151763072,
+      "step": 70270
+    },
+    {
+      "epoch": 11.464110929853181,
+      "grad_norm": 0.0011174281826242805,
+      "learning_rate": 0.00045955714674927775,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 151773088,
+      "step": 70275
+    },
+    {
+      "epoch": 11.464926590538337,
+      "grad_norm": 0.05450016260147095,
+      "learning_rate": 0.0004594862005656628,
+      "loss": 0.1505,
+      "num_input_tokens_seen": 151784992,
+      "step": 70280
+    },
+    {
+      "epoch": 11.46574225122349,
+      "grad_norm": 0.004575311206281185,
+      "learning_rate": 0.00045941525520311116,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 151796288,
+      "step": 70285
+    },
+    {
+      "epoch": 11.466557911908646,
+      "grad_norm": 0.018959159031510353,
+      "learning_rate": 0.0004593443106630611,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 151807904,
+      "step": 70290
+    },
+    {
+      "epoch": 11.4673735725938,
+      "grad_norm": 0.0019465818768367171,
+      "learning_rate": 0.00045927336694695,
+      "loss": 0.1312,
+      "num_input_tokens_seen": 151818592,
+      "step": 70295
+    },
+    {
+      "epoch": 11.468189233278956,
+      "grad_norm": 0.0028126207180321217,
+      "learning_rate": 0.00045920242405621595,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 151827616,
+      "step": 70300
+    },
+    {
+      "epoch": 11.469004893964112,
+      "grad_norm": 0.00244735274463892,
+      "learning_rate": 0.0004591314819922963,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 151838272,
+      "step": 70305
+    },
+    {
+      "epoch": 11.469820554649266,
+      "grad_norm": 0.010344883427023888,
+      "learning_rate": 0.0004590605407566292,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 151848896,
+      "step": 70310
+    },
+    {
+      "epoch": 11.470636215334421,
+      "grad_norm": 0.07402225583791733,
+      "learning_rate": 0.00045898960035065204,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 151861248,
+      "step": 70315
+    },
+    {
+      "epoch": 11.471451876019575,
+      "grad_norm": 0.5629965662956238,
+      "learning_rate": 0.00045891866077580267,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 151872512,
+      "step": 70320
+    },
+    {
+      "epoch": 11.47226753670473,
+      "grad_norm": 0.027263466268777847,
+      "learning_rate": 0.0004588477220335188,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 151883744,
+      "step": 70325
+    },
+    {
+      "epoch": 11.473083197389887,
+      "grad_norm": 0.4663159251213074,
+      "learning_rate": 0.000458776784125238,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 151894592,
+      "step": 70330
+    },
+    {
+      "epoch": 11.47389885807504,
+      "grad_norm": 0.011494866572320461,
+      "learning_rate": 0.0004587058470523981,
+      "loss": 0.1729,
+      "num_input_tokens_seen": 151904224,
+      "step": 70335
+    },
+    {
+      "epoch": 11.474714518760196,
+      "grad_norm": 0.002531670266762376,
+      "learning_rate": 0.00045863491081643646,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 151915232,
+      "step": 70340
+    },
+    {
+      "epoch": 11.47553017944535,
+      "grad_norm": 0.4217558801174164,
+      "learning_rate": 0.00045856397541879087,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 151926784,
+      "step": 70345
+    },
+    {
+      "epoch": 11.476345840130506,
+      "grad_norm": 0.03666359931230545,
+      "learning_rate": 0.0004584930408608989,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 151937184,
+      "step": 70350
+    },
+    {
+      "epoch": 11.477161500815662,
+      "grad_norm": 0.08825061470270157,
+      "learning_rate": 0.0004584221071441981,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 151947808,
+      "step": 70355
+    },
+    {
+      "epoch": 11.477977161500815,
+      "grad_norm": 0.0489339604973793,
+      "learning_rate": 0.000458351174270126,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 151958656,
+      "step": 70360
+    },
+    {
+      "epoch": 11.478792822185971,
+      "grad_norm": 0.08036676794290543,
+      "learning_rate": 0.00045828024224012025,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 151969888,
+      "step": 70365
+    },
+    {
+      "epoch": 11.479608482871125,
+      "grad_norm": 0.009987418539822102,
+      "learning_rate": 0.00045820931105561817,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 151980352,
+      "step": 70370
+    },
+    {
+      "epoch": 11.48042414355628,
+      "grad_norm": 1.6685467958450317,
+      "learning_rate": 0.0004581383807180577,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 151991616,
+      "step": 70375
+    },
+    {
+      "epoch": 11.481239804241435,
+      "grad_norm": 0.09259206056594849,
+      "learning_rate": 0.0004580674512288758,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 152002400,
+      "step": 70380
+    },
+    {
+      "epoch": 11.48205546492659,
+      "grad_norm": 0.001271451241336763,
+      "learning_rate": 0.0004579965225895104,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 152013952,
+      "step": 70385
+    },
+    {
+      "epoch": 11.482871125611746,
+      "grad_norm": 0.0852578654885292,
+      "learning_rate": 0.00045792559480139854,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 152025248,
+      "step": 70390
+    },
+    {
+      "epoch": 11.4836867862969,
+      "grad_norm": 0.03162388131022453,
+      "learning_rate": 0.0004578546678659781,
+      "loss": 0.115,
+      "num_input_tokens_seen": 152037536,
+      "step": 70395
+    },
+    {
+      "epoch": 11.484502446982056,
+      "grad_norm": 0.04780033975839615,
+      "learning_rate": 0.00045778374178468605,
+      "loss": 0.0536,
+      "num_input_tokens_seen": 152048480,
+      "step": 70400
+    },
+    {
+      "epoch": 11.48531810766721,
+      "grad_norm": 0.0038224325980991125,
+      "learning_rate": 0.0004577128165589603,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 152059808,
+      "step": 70405
+    },
+    {
+      "epoch": 11.486133768352365,
+      "grad_norm": 0.031959887593984604,
+      "learning_rate": 0.0004576418921902377,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 152070304,
+      "step": 70410
+    },
+    {
+      "epoch": 11.486949429037521,
+      "grad_norm": 0.006775837391614914,
+      "learning_rate": 0.0004575709686799561,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 152081472,
+      "step": 70415
+    },
+    {
+      "epoch": 11.487765089722675,
+      "grad_norm": 0.237082839012146,
+      "learning_rate": 0.00045750004602955246,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 152092512,
+      "step": 70420
+    },
+    {
+      "epoch": 11.48858075040783,
+      "grad_norm": 0.0024227348621934652,
+      "learning_rate": 0.0004574291242404645,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 152103872,
+      "step": 70425
+    },
+    {
+      "epoch": 11.489396411092985,
+      "grad_norm": 0.4212666451931,
+      "learning_rate": 0.00045735820331412914,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 152115648,
+      "step": 70430
+    },
+    {
+      "epoch": 11.49021207177814,
+      "grad_norm": 0.01448234636336565,
+      "learning_rate": 0.0004572872832519839,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 152126368,
+      "step": 70435
+    },
+    {
+      "epoch": 11.491027732463296,
+      "grad_norm": 0.011855104938149452,
+      "learning_rate": 0.0004572163640554662,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 152137760,
+      "step": 70440
+    },
+    {
+      "epoch": 11.49184339314845,
+      "grad_norm": 0.18611255288124084,
+      "learning_rate": 0.00045714544572601296,
+      "loss": 0.047,
+      "num_input_tokens_seen": 152149088,
+      "step": 70445
+    },
+    {
+      "epoch": 11.492659053833606,
+      "grad_norm": 0.0021328406874090433,
+      "learning_rate": 0.0004570745282650619,
+      "loss": 0.1562,
+      "num_input_tokens_seen": 152159904,
+      "step": 70450
+    },
+    {
+      "epoch": 11.49347471451876,
+      "grad_norm": 0.00876991543918848,
+      "learning_rate": 0.00045700361167404967,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 152171712,
+      "step": 70455
+    },
+    {
+      "epoch": 11.494290375203915,
+      "grad_norm": 0.00328267109580338,
+      "learning_rate": 0.0004569326959544141,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 152182912,
+      "step": 70460
+    },
+    {
+      "epoch": 11.49510603588907,
+      "grad_norm": 0.003475640434771776,
+      "learning_rate": 0.00045686178110759183,
+      "loss": 0.2062,
+      "num_input_tokens_seen": 152193760,
+      "step": 70465
+    },
+    {
+      "epoch": 11.495921696574225,
+      "grad_norm": 0.45626431703567505,
+      "learning_rate": 0.0004567908671350206,
+      "loss": 0.1644,
+      "num_input_tokens_seen": 152204288,
+      "step": 70470
+    },
+    {
+      "epoch": 11.49673735725938,
+      "grad_norm": 0.003484656335785985,
+      "learning_rate": 0.00045671995403813686,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 152215328,
+      "step": 70475
+    },
+    {
+      "epoch": 11.497553017944535,
+      "grad_norm": 0.016352150589227676,
+      "learning_rate": 0.0004566490418183785,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 152225408,
+      "step": 70480
+    },
+    {
+      "epoch": 11.49836867862969,
+      "grad_norm": 0.622386634349823,
+      "learning_rate": 0.00045657813047718203,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 152235904,
+      "step": 70485
+    },
+    {
+      "epoch": 11.499184339314844,
+      "grad_norm": 0.12910671532154083,
+      "learning_rate": 0.000456507220015985,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 152247424,
+      "step": 70490
+    },
+    {
+      "epoch": 11.5,
+      "grad_norm": 0.5777674317359924,
+      "learning_rate": 0.00045643631043622426,
+      "loss": 0.1849,
+      "num_input_tokens_seen": 152258624,
+      "step": 70495
+    },
+    {
+      "epoch": 11.500815660685156,
+      "grad_norm": 0.09449607133865356,
+      "learning_rate": 0.00045636540173933697,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 152269760,
+      "step": 70500
+    },
+    {
+      "epoch": 11.50163132137031,
+      "grad_norm": 0.2962408661842346,
+      "learning_rate": 0.0004562944939267602,
+      "loss": 0.168,
+      "num_input_tokens_seen": 152280672,
+      "step": 70505
+    },
+    {
+      "epoch": 11.502446982055465,
+      "grad_norm": 0.4580059051513672,
+      "learning_rate": 0.00045622358699993093,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 152291008,
+      "step": 70510
+    },
+    {
+      "epoch": 11.50326264274062,
+      "grad_norm": 0.07859183102846146,
+      "learning_rate": 0.00045615268096028613,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 152301920,
+      "step": 70515
+    },
+    {
+      "epoch": 11.504078303425775,
+      "grad_norm": 0.019914044067263603,
+      "learning_rate": 0.0004560817758092631,
+      "loss": 0.028,
+      "num_input_tokens_seen": 152312256,
+      "step": 70520
+    },
+    {
+      "epoch": 11.50489396411093,
+      "grad_norm": 0.1658468097448349,
+      "learning_rate": 0.00045601087154829834,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 152323104,
+      "step": 70525
+    },
+    {
+      "epoch": 11.505709624796085,
+      "grad_norm": 0.003438874613493681,
+      "learning_rate": 0.00045593996817882925,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 152334432,
+      "step": 70530
+    },
+    {
+      "epoch": 11.50652528548124,
+      "grad_norm": 0.006378691643476486,
+      "learning_rate": 0.0004558690657022925,
+      "loss": 0.0845,
+      "num_input_tokens_seen": 152344224,
+      "step": 70535
+    },
+    {
+      "epoch": 11.507340946166394,
+      "grad_norm": 0.005127818323671818,
+      "learning_rate": 0.0004557981641201252,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 152353824,
+      "step": 70540
+    },
+    {
+      "epoch": 11.50815660685155,
+      "grad_norm": 0.010716418735682964,
+      "learning_rate": 0.000455727263433764,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 152364320,
+      "step": 70545
+    },
+    {
+      "epoch": 11.508972267536706,
+      "grad_norm": 0.01387725118547678,
+      "learning_rate": 0.000455656363644646,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 152375808,
+      "step": 70550
+    },
+    {
+      "epoch": 11.50978792822186,
+      "grad_norm": 0.030756894499063492,
+      "learning_rate": 0.0004555854647542083,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 152386912,
+      "step": 70555
+    },
+    {
+      "epoch": 11.510603588907015,
+      "grad_norm": 0.04727554693818092,
+      "learning_rate": 0.00045551456676388725,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 152397984,
+      "step": 70560
+    },
+    {
+      "epoch": 11.51141924959217,
+      "grad_norm": 0.011782309971749783,
+      "learning_rate": 0.00045544366967512014,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 152408704,
+      "step": 70565
+    },
+    {
+      "epoch": 11.512234910277325,
+      "grad_norm": 0.03985341265797615,
+      "learning_rate": 0.0004553727734893434,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 152417984,
+      "step": 70570
+    },
+    {
+      "epoch": 11.513050570962479,
+      "grad_norm": 0.02030654065310955,
+      "learning_rate": 0.0004553018782079942,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 152428640,
+      "step": 70575
+    },
+    {
+      "epoch": 11.513866231647635,
+      "grad_norm": 0.0016316096298396587,
+      "learning_rate": 0.00045523098383250894,
+      "loss": 0.1642,
+      "num_input_tokens_seen": 152439328,
+      "step": 70580
+    },
+    {
+      "epoch": 11.51468189233279,
+      "grad_norm": 0.6504743099212646,
+      "learning_rate": 0.0004551600903643248,
+      "loss": 0.1711,
+      "num_input_tokens_seen": 152450048,
+      "step": 70585
+    },
+    {
+      "epoch": 11.515497553017944,
+      "grad_norm": 0.034713149070739746,
+      "learning_rate": 0.00045508919780487805,
+      "loss": 0.025,
+      "num_input_tokens_seen": 152460320,
+      "step": 70590
+    },
+    {
+      "epoch": 11.5163132137031,
+      "grad_norm": 0.004274432547390461,
+      "learning_rate": 0.000455018306155606,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 152471264,
+      "step": 70595
+    },
+    {
+      "epoch": 11.517128874388254,
+      "grad_norm": 0.004105722531676292,
+      "learning_rate": 0.0004549474154179447,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 152482016,
+      "step": 70600
+    },
+    {
+      "epoch": 11.51794453507341,
+      "grad_norm": 0.10600485652685165,
+      "learning_rate": 0.0004548765255933315,
+      "loss": 0.0833,
+      "num_input_tokens_seen": 152493472,
+      "step": 70605
+    },
+    {
+      "epoch": 11.518760195758565,
+      "grad_norm": 0.011000092141330242,
+      "learning_rate": 0.00045480563668320244,
+      "loss": 0.014,
+      "num_input_tokens_seen": 152504704,
+      "step": 70610
+    },
+    {
+      "epoch": 11.51957585644372,
+      "grad_norm": 0.17460846900939941,
+      "learning_rate": 0.0004547347486889948,
+      "loss": 0.0521,
+      "num_input_tokens_seen": 152515872,
+      "step": 70615
+    },
+    {
+      "epoch": 11.520391517128875,
+      "grad_norm": 0.06345030665397644,
+      "learning_rate": 0.00045466386161214465,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 152528192,
+      "step": 70620
+    },
+    {
+      "epoch": 11.521207177814029,
+      "grad_norm": 0.002006505150347948,
+      "learning_rate": 0.00045459297545408906,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 152539264,
+      "step": 70625
+    },
+    {
+      "epoch": 11.522022838499185,
+      "grad_norm": 0.3534085750579834,
+      "learning_rate": 0.0004545220902162642,
+      "loss": 0.1996,
+      "num_input_tokens_seen": 152550560,
+      "step": 70630
+    },
+    {
+      "epoch": 11.522838499184338,
+      "grad_norm": 0.03179255872964859,
+      "learning_rate": 0.000454451205900107,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 152561088,
+      "step": 70635
+    },
+    {
+      "epoch": 11.523654159869494,
+      "grad_norm": 0.006981425452977419,
+      "learning_rate": 0.00045438032250705394,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 152572512,
+      "step": 70640
+    },
+    {
+      "epoch": 11.52446982055465,
+      "grad_norm": 0.024807730689644814,
+      "learning_rate": 0.00045430944003854143,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 152583520,
+      "step": 70645
+    },
+    {
+      "epoch": 11.525285481239804,
+      "grad_norm": 0.008164377883076668,
+      "learning_rate": 0.00045423855849600615,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 152594880,
+      "step": 70650
+    },
+    {
+      "epoch": 11.52610114192496,
+      "grad_norm": 0.4699248969554901,
+      "learning_rate": 0.00045416767788088435,
+      "loss": 0.0348,
+      "num_input_tokens_seen": 152604416,
+      "step": 70655
+    },
+    {
+      "epoch": 11.526916802610113,
+      "grad_norm": 0.04431702569127083,
+      "learning_rate": 0.00045409679819461286,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 152615264,
+      "step": 70660
+    },
+    {
+      "epoch": 11.52773246329527,
+      "grad_norm": 0.039329253137111664,
+      "learning_rate": 0.000454025919438628,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 152627072,
+      "step": 70665
+    },
+    {
+      "epoch": 11.528548123980425,
+      "grad_norm": 0.015786344185471535,
+      "learning_rate": 0.00045395504161436617,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 152636704,
+      "step": 70670
+    },
+    {
+      "epoch": 11.529363784665579,
+      "grad_norm": 0.0025255740620195866,
+      "learning_rate": 0.0004538841647232639,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 152647104,
+      "step": 70675
+    },
+    {
+      "epoch": 11.530179445350734,
+      "grad_norm": 0.011380949057638645,
+      "learning_rate": 0.0004538132887667574,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 152657280,
+      "step": 70680
+    },
+    {
+      "epoch": 11.530995106035888,
+      "grad_norm": 0.018168801441788673,
+      "learning_rate": 0.0004537424137462832,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 152667072,
+      "step": 70685
+    },
+    {
+      "epoch": 11.531810766721044,
+      "grad_norm": 0.552568793296814,
+      "learning_rate": 0.0004536715396632779,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 152678336,
+      "step": 70690
+    },
+    {
+      "epoch": 11.5326264274062,
+      "grad_norm": 1.1314250230789185,
+      "learning_rate": 0.00045360066651917733,
+      "loss": 0.1199,
+      "num_input_tokens_seen": 152688128,
+      "step": 70695
+    },
+    {
+      "epoch": 11.533442088091354,
+      "grad_norm": 0.04501219838857651,
+      "learning_rate": 0.00045352979431541833,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 152699872,
+      "step": 70700
+    },
+    {
+      "epoch": 11.53425774877651,
+      "grad_norm": 0.010922752320766449,
+      "learning_rate": 0.0004534589230534368,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 152710880,
+      "step": 70705
+    },
+    {
+      "epoch": 11.535073409461663,
+      "grad_norm": 1.1566555500030518,
+      "learning_rate": 0.00045338805273466954,
+      "loss": 0.1121,
+      "num_input_tokens_seen": 152722272,
+      "step": 70710
+    },
+    {
+      "epoch": 11.535889070146819,
+      "grad_norm": 0.08548852056264877,
+      "learning_rate": 0.00045331718336055223,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 152733568,
+      "step": 70715
+    },
+    {
+      "epoch": 11.536704730831975,
+      "grad_norm": 0.0486895889043808,
+      "learning_rate": 0.0004532463149325216,
+      "loss": 0.1141,
+      "num_input_tokens_seen": 152743488,
+      "step": 70720
+    },
+    {
+      "epoch": 11.537520391517129,
+      "grad_norm": 0.0107080964371562,
+      "learning_rate": 0.00045317544745201354,
+      "loss": 0.1,
+      "num_input_tokens_seen": 152754400,
+      "step": 70725
+    },
+    {
+      "epoch": 11.538336052202284,
+      "grad_norm": 0.06043444946408272,
+      "learning_rate": 0.00045310458092046464,
+      "loss": 0.035,
+      "num_input_tokens_seen": 152763648,
+      "step": 70730
+    },
+    {
+      "epoch": 11.539151712887438,
+      "grad_norm": 0.009252172894775867,
+      "learning_rate": 0.0004530337153393107,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 152774784,
+      "step": 70735
+    },
+    {
+      "epoch": 11.539967373572594,
+      "grad_norm": 0.008908047340810299,
+      "learning_rate": 0.00045296285070998835,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 152785024,
+      "step": 70740
+    },
+    {
+      "epoch": 11.540783034257748,
+      "grad_norm": 0.0023308051750063896,
+      "learning_rate": 0.0004528919870339332,
+      "loss": 0.019,
+      "num_input_tokens_seen": 152795872,
+      "step": 70745
+    },
+    {
+      "epoch": 11.541598694942904,
+      "grad_norm": 0.019828980788588524,
+      "learning_rate": 0.00045282112431258194,
+      "loss": 0.023,
+      "num_input_tokens_seen": 152804640,
+      "step": 70750
+    },
+    {
+      "epoch": 11.54241435562806,
+      "grad_norm": 0.047302018851041794,
+      "learning_rate": 0.00045275026254737027,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 152815648,
+      "step": 70755
+    },
+    {
+      "epoch": 11.543230016313213,
+      "grad_norm": 0.005254935007542372,
+      "learning_rate": 0.0004526794017397344,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 152828256,
+      "step": 70760
+    },
+    {
+      "epoch": 11.544045676998369,
+      "grad_norm": 0.012222270481288433,
+      "learning_rate": 0.0004526085418911108,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 152838336,
+      "step": 70765
+    },
+    {
+      "epoch": 11.544861337683523,
+      "grad_norm": 0.0508912019431591,
+      "learning_rate": 0.0004525376830029349,
+      "loss": 0.1886,
+      "num_input_tokens_seen": 152847616,
+      "step": 70770
+    },
+    {
+      "epoch": 11.545676998368679,
+      "grad_norm": 0.0036810701712965965,
+      "learning_rate": 0.00045246682507664335,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 152857984,
+      "step": 70775
+    },
+    {
+      "epoch": 11.546492659053834,
+      "grad_norm": 0.009106824174523354,
+      "learning_rate": 0.0004523959681136716,
+      "loss": 0.0314,
+      "num_input_tokens_seen": 152869280,
+      "step": 70780
+    },
+    {
+      "epoch": 11.547308319738988,
+      "grad_norm": 0.018032781779766083,
+      "learning_rate": 0.00045232511211545625,
+      "loss": 0.007,
+      "num_input_tokens_seen": 152879936,
+      "step": 70785
+    },
+    {
+      "epoch": 11.548123980424144,
+      "grad_norm": 0.17428778111934662,
+      "learning_rate": 0.0004522542570834327,
+      "loss": 0.0836,
+      "num_input_tokens_seen": 152891296,
+      "step": 70790
+    },
+    {
+      "epoch": 11.548939641109298,
+      "grad_norm": 0.004335889592766762,
+      "learning_rate": 0.0004521834030190375,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 152903776,
+      "step": 70795
+    },
+    {
+      "epoch": 11.549755301794454,
+      "grad_norm": 0.020084548741579056,
+      "learning_rate": 0.000452112549923706,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 152915232,
+      "step": 70800
+    },
+    {
+      "epoch": 11.550570962479608,
+      "grad_norm": 0.07404981553554535,
+      "learning_rate": 0.00045204169779887454,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 152925632,
+      "step": 70805
+    },
+    {
+      "epoch": 11.551386623164763,
+      "grad_norm": 0.0036789614241570234,
+      "learning_rate": 0.0004519708466459789,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 152936672,
+      "step": 70810
+    },
+    {
+      "epoch": 11.552202283849919,
+      "grad_norm": 0.004675018601119518,
+      "learning_rate": 0.0004518999964664551,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 152947648,
+      "step": 70815
+    },
+    {
+      "epoch": 11.553017944535073,
+      "grad_norm": 0.031063973903656006,
+      "learning_rate": 0.0004518291472617387,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 152959008,
+      "step": 70820
+    },
+    {
+      "epoch": 11.553833605220229,
+      "grad_norm": 0.006103998050093651,
+      "learning_rate": 0.00045175829903326594,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 152969504,
+      "step": 70825
+    },
+    {
+      "epoch": 11.554649265905383,
+      "grad_norm": 0.001215186552144587,
+      "learning_rate": 0.0004516874517824722,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 152979264,
+      "step": 70830
+    },
+    {
+      "epoch": 11.555464926590538,
+      "grad_norm": 0.0012902735034003854,
+      "learning_rate": 0.0004516166055107938,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 152990496,
+      "step": 70835
+    },
+    {
+      "epoch": 11.556280587275694,
+      "grad_norm": 0.0009681761148385704,
+      "learning_rate": 0.00045154576021966605,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 153001696,
+      "step": 70840
+    },
+    {
+      "epoch": 11.557096247960848,
+      "grad_norm": 0.5672785043716431,
+      "learning_rate": 0.00045147491591052515,
+      "loss": 0.1108,
+      "num_input_tokens_seen": 153011616,
+      "step": 70845
+    },
+    {
+      "epoch": 11.557911908646004,
+      "grad_norm": 0.183214470744133,
+      "learning_rate": 0.0004514040725848064,
+      "loss": 0.0455,
+      "num_input_tokens_seen": 153022848,
+      "step": 70850
+    },
+    {
+      "epoch": 11.558727569331158,
+      "grad_norm": 0.012468835338950157,
+      "learning_rate": 0.0004513332302439461,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 153033280,
+      "step": 70855
+    },
+    {
+      "epoch": 11.559543230016313,
+      "grad_norm": 0.09847768396139145,
+      "learning_rate": 0.00045126238888937927,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 153043584,
+      "step": 70860
+    },
+    {
+      "epoch": 11.560358890701469,
+      "grad_norm": 0.004849771969020367,
+      "learning_rate": 0.00045119154852254204,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 153054080,
+      "step": 70865
+    },
+    {
+      "epoch": 11.561174551386623,
+      "grad_norm": 0.02971162274479866,
+      "learning_rate": 0.0004511207091448701,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 153064128,
+      "step": 70870
+    },
+    {
+      "epoch": 11.561990212071779,
+      "grad_norm": 0.031622979789972305,
+      "learning_rate": 0.0004510498707577989,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 153075328,
+      "step": 70875
+    },
+    {
+      "epoch": 11.562805872756933,
+      "grad_norm": 0.07961271703243256,
+      "learning_rate": 0.0004509790333627644,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 153085600,
+      "step": 70880
+    },
+    {
+      "epoch": 11.563621533442088,
+      "grad_norm": 0.002815672429278493,
+      "learning_rate": 0.00045090819696120166,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 153095744,
+      "step": 70885
+    },
+    {
+      "epoch": 11.564437194127244,
+      "grad_norm": 0.03652092441916466,
+      "learning_rate": 0.0004508373615545469,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 153106624,
+      "step": 70890
+    },
+    {
+      "epoch": 11.565252854812398,
+      "grad_norm": 0.007009325083345175,
+      "learning_rate": 0.00045076652714423507,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 153116800,
+      "step": 70895
+    },
+    {
+      "epoch": 11.566068515497554,
+      "grad_norm": 0.007585311774164438,
+      "learning_rate": 0.00045069569373170227,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 153127008,
+      "step": 70900
+    },
+    {
+      "epoch": 11.566884176182707,
+      "grad_norm": 0.002985976403579116,
+      "learning_rate": 0.0004506248613183836,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 153137376,
+      "step": 70905
+    },
+    {
+      "epoch": 11.567699836867863,
+      "grad_norm": 0.016019705682992935,
+      "learning_rate": 0.00045055402990571493,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 153147264,
+      "step": 70910
+    },
+    {
+      "epoch": 11.568515497553017,
+      "grad_norm": 0.00407218374311924,
+      "learning_rate": 0.00045048319949513136,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 153158816,
+      "step": 70915
+    },
+    {
+      "epoch": 11.569331158238173,
+      "grad_norm": 0.0016611559549346566,
+      "learning_rate": 0.0004504123700880688,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 153169728,
+      "step": 70920
+    },
+    {
+      "epoch": 11.570146818923329,
+      "grad_norm": 0.02866864949464798,
+      "learning_rate": 0.00045034154168596224,
+      "loss": 0.006,
+      "num_input_tokens_seen": 153180704,
+      "step": 70925
+    },
+    {
+      "epoch": 11.570962479608482,
+      "grad_norm": 0.3860038220882416,
+      "learning_rate": 0.00045027071429024757,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 153192320,
+      "step": 70930
+    },
+    {
+      "epoch": 11.571778140293638,
+      "grad_norm": 0.0035648008342832327,
+      "learning_rate": 0.00045019988790235974,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 153203296,
+      "step": 70935
+    },
+    {
+      "epoch": 11.572593800978792,
+      "grad_norm": 0.5095841288566589,
+      "learning_rate": 0.0004501290625237345,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 153213952,
+      "step": 70940
+    },
+    {
+      "epoch": 11.573409461663948,
+      "grad_norm": 0.004286561626940966,
+      "learning_rate": 0.00045005823815580696,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 153225472,
+      "step": 70945
+    },
+    {
+      "epoch": 11.574225122349104,
+      "grad_norm": 0.002824546070769429,
+      "learning_rate": 0.00044998741480001264,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 153235168,
+      "step": 70950
+    },
+    {
+      "epoch": 11.575040783034257,
+      "grad_norm": 0.00039686966920271516,
+      "learning_rate": 0.00044991659245778684,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 153246112,
+      "step": 70955
+    },
+    {
+      "epoch": 11.575856443719413,
+      "grad_norm": 0.009134351275861263,
+      "learning_rate": 0.00044984577113056477,
+      "loss": 0.018,
+      "num_input_tokens_seen": 153257952,
+      "step": 70960
+    },
+    {
+      "epoch": 11.576672104404567,
+      "grad_norm": 0.016628161072731018,
+      "learning_rate": 0.0004497749508197818,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 153268608,
+      "step": 70965
+    },
+    {
+      "epoch": 11.577487765089723,
+      "grad_norm": 0.03593922778964043,
+      "learning_rate": 0.00044970413152687304,
+      "loss": 0.1567,
+      "num_input_tokens_seen": 153279168,
+      "step": 70970
+    },
+    {
+      "epoch": 11.578303425774878,
+      "grad_norm": 0.37217482924461365,
+      "learning_rate": 0.000449633313253274,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 153289824,
+      "step": 70975
+    },
+    {
+      "epoch": 11.579119086460032,
+      "grad_norm": 0.762610912322998,
+      "learning_rate": 0.00044956249600041975,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 153300928,
+      "step": 70980
+    },
+    {
+      "epoch": 11.579934747145188,
+      "grad_norm": 0.025967687368392944,
+      "learning_rate": 0.00044949167976974553,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 153311072,
+      "step": 70985
+    },
+    {
+      "epoch": 11.580750407830342,
+      "grad_norm": 0.10705938190221786,
+      "learning_rate": 0.00044942086456268643,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 153322400,
+      "step": 70990
+    },
+    {
+      "epoch": 11.581566068515498,
+      "grad_norm": 0.48525816202163696,
+      "learning_rate": 0.0004493500503806777,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 153333984,
+      "step": 70995
+    },
+    {
+      "epoch": 11.582381729200652,
+      "grad_norm": 0.008772018365561962,
+      "learning_rate": 0.0004492792372251544,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 153344672,
+      "step": 71000
+    },
+    {
+      "epoch": 11.583197389885807,
+      "grad_norm": 0.0028414896223694086,
+      "learning_rate": 0.00044920842509755187,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 153354528,
+      "step": 71005
+    },
+    {
+      "epoch": 11.584013050570963,
+      "grad_norm": 0.5699886083602905,
+      "learning_rate": 0.0004491376139993048,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 153365536,
+      "step": 71010
+    },
+    {
+      "epoch": 11.584828711256117,
+      "grad_norm": 0.0065368469804525375,
+      "learning_rate": 0.0004490668039318488,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 153376704,
+      "step": 71015
+    },
+    {
+      "epoch": 11.585644371941273,
+      "grad_norm": 0.004508780315518379,
+      "learning_rate": 0.00044899599489661837,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 153387968,
+      "step": 71020
+    },
+    {
+      "epoch": 11.586460032626427,
+      "grad_norm": 0.018700627610087395,
+      "learning_rate": 0.000448925186895049,
+      "loss": 0.1483,
+      "num_input_tokens_seen": 153398688,
+      "step": 71025
+    },
+    {
+      "epoch": 11.587275693311582,
+      "grad_norm": 0.003485024208202958,
+      "learning_rate": 0.0004488543799285753,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 153409344,
+      "step": 71030
+    },
+    {
+      "epoch": 11.588091353996738,
+      "grad_norm": 0.00151357043068856,
+      "learning_rate": 0.00044878357399863266,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 153419648,
+      "step": 71035
+    },
+    {
+      "epoch": 11.588907014681892,
+      "grad_norm": 0.013715144246816635,
+      "learning_rate": 0.0004487127691066558,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 153429472,
+      "step": 71040
+    },
+    {
+      "epoch": 11.589722675367048,
+      "grad_norm": 0.005180860869586468,
+      "learning_rate": 0.0004486419652540798,
+      "loss": 0.198,
+      "num_input_tokens_seen": 153440288,
+      "step": 71045
+    },
+    {
+      "epoch": 11.590538336052202,
+      "grad_norm": 0.0013805264607071877,
+      "learning_rate": 0.0004485711624423393,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 153450336,
+      "step": 71050
+    },
+    {
+      "epoch": 11.591353996737357,
+      "grad_norm": 0.0028821558225899935,
+      "learning_rate": 0.0004485003606728698,
+      "loss": 0.035,
+      "num_input_tokens_seen": 153460864,
+      "step": 71055
+    },
+    {
+      "epoch": 11.592169657422513,
+      "grad_norm": 0.003991037607192993,
+      "learning_rate": 0.0004484295599471054,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 153472576,
+      "step": 71060
+    },
+    {
+      "epoch": 11.592985318107667,
+      "grad_norm": 0.05960950627923012,
+      "learning_rate": 0.00044835876026648176,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 153483584,
+      "step": 71065
+    },
+    {
+      "epoch": 11.593800978792823,
+      "grad_norm": 0.0034852263052016497,
+      "learning_rate": 0.00044828796163243315,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 153495168,
+      "step": 71070
+    },
+    {
+      "epoch": 11.594616639477977,
+      "grad_norm": 0.47948548197746277,
+      "learning_rate": 0.0004482171640463945,
+      "loss": 0.028,
+      "num_input_tokens_seen": 153505568,
+      "step": 71075
+    },
+    {
+      "epoch": 11.595432300163132,
+      "grad_norm": 0.024540584534406662,
+      "learning_rate": 0.000448146367509801,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 153515488,
+      "step": 71080
+    },
+    {
+      "epoch": 11.596247960848288,
+      "grad_norm": 0.20424458384513855,
+      "learning_rate": 0.0004480755720240869,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 153524192,
+      "step": 71085
+    },
+    {
+      "epoch": 11.597063621533442,
+      "grad_norm": 0.24791987240314484,
+      "learning_rate": 0.0004480047775906874,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 153535776,
+      "step": 71090
+    },
+    {
+      "epoch": 11.597879282218598,
+      "grad_norm": 0.023952824994921684,
+      "learning_rate": 0.0004479339842110368,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 153546432,
+      "step": 71095
+    },
+    {
+      "epoch": 11.598694942903752,
+      "grad_norm": 0.0008945376030169427,
+      "learning_rate": 0.0004478631918865704,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 153557920,
+      "step": 71100
+    },
+    {
+      "epoch": 11.599510603588907,
+      "grad_norm": 0.0072722178883850574,
+      "learning_rate": 0.00044779240061872225,
+      "loss": 0.071,
+      "num_input_tokens_seen": 153569216,
+      "step": 71105
+    },
+    {
+      "epoch": 11.600326264274061,
+      "grad_norm": 0.31958064436912537,
+      "learning_rate": 0.00044772161040892755,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 153579360,
+      "step": 71110
+    },
+    {
+      "epoch": 11.601141924959217,
+      "grad_norm": 0.07264435291290283,
+      "learning_rate": 0.00044765082125862053,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 153588768,
+      "step": 71115
+    },
+    {
+      "epoch": 11.601957585644373,
+      "grad_norm": 0.005538736004382372,
+      "learning_rate": 0.0004475800331692361,
+      "loss": 0.144,
+      "num_input_tokens_seen": 153600224,
+      "step": 71120
+    },
+    {
+      "epoch": 11.602773246329527,
+      "grad_norm": 0.21943026781082153,
+      "learning_rate": 0.0004475092461422089,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 153611584,
+      "step": 71125
+    },
+    {
+      "epoch": 11.603588907014682,
+      "grad_norm": 0.06436196714639664,
+      "learning_rate": 0.0004474384601789733,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 153622336,
+      "step": 71130
+    },
+    {
+      "epoch": 11.604404567699836,
+      "grad_norm": 0.0007576481439173222,
+      "learning_rate": 0.00044736767528096407,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 153633376,
+      "step": 71135
+    },
+    {
+      "epoch": 11.605220228384992,
+      "grad_norm": 0.007207597605884075,
+      "learning_rate": 0.0004472968914496156,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 153644544,
+      "step": 71140
+    },
+    {
+      "epoch": 11.606035889070148,
+      "grad_norm": 0.033221352845430374,
+      "learning_rate": 0.00044722610868636243,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 153655872,
+      "step": 71145
+    },
+    {
+      "epoch": 11.606851549755302,
+      "grad_norm": 0.008055893704295158,
+      "learning_rate": 0.00044715532699263926,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 153667040,
+      "step": 71150
+    },
+    {
+      "epoch": 11.607667210440457,
+      "grad_norm": 0.07398483902215958,
+      "learning_rate": 0.00044708454636988026,
+      "loss": 0.026,
+      "num_input_tokens_seen": 153678496,
+      "step": 71155
+    },
+    {
+      "epoch": 11.608482871125611,
+      "grad_norm": 0.008414418436586857,
+      "learning_rate": 0.00044701376681952033,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 153690240,
+      "step": 71160
+    },
+    {
+      "epoch": 11.609298531810767,
+      "grad_norm": 0.04958515241742134,
+      "learning_rate": 0.00044694298834299336,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 153700992,
+      "step": 71165
+    },
+    {
+      "epoch": 11.61011419249592,
+      "grad_norm": 0.3301873505115509,
+      "learning_rate": 0.00044687221094173425,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 153712224,
+      "step": 71170
+    },
+    {
+      "epoch": 11.610929853181077,
+      "grad_norm": 0.21836425364017487,
+      "learning_rate": 0.0004468014346171769,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 153723008,
+      "step": 71175
+    },
+    {
+      "epoch": 11.611745513866232,
+      "grad_norm": 0.1655757576227188,
+      "learning_rate": 0.0004467306593707563,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 153733248,
+      "step": 71180
+    },
+    {
+      "epoch": 11.612561174551386,
+      "grad_norm": 0.01050649955868721,
+      "learning_rate": 0.00044665988520390624,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 153744416,
+      "step": 71185
+    },
+    {
+      "epoch": 11.613376835236542,
+      "grad_norm": 0.016805484890937805,
+      "learning_rate": 0.0004465891121180612,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 153754528,
+      "step": 71190
+    },
+    {
+      "epoch": 11.614192495921696,
+      "grad_norm": 0.0019383433973416686,
+      "learning_rate": 0.0004465183401146558,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 153765216,
+      "step": 71195
+    },
+    {
+      "epoch": 11.615008156606851,
+      "grad_norm": 0.4953695833683014,
+      "learning_rate": 0.00044644756919512386,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 153776352,
+      "step": 71200
+    },
+    {
+      "epoch": 11.615823817292007,
+      "grad_norm": 0.08260602504014969,
+      "learning_rate": 0.00044637679936090013,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 153787040,
+      "step": 71205
+    },
+    {
+      "epoch": 11.616639477977161,
+      "grad_norm": 0.008234014734625816,
+      "learning_rate": 0.00044630603061341837,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 153797664,
+      "step": 71210
+    },
+    {
+      "epoch": 11.617455138662317,
+      "grad_norm": 0.040098607540130615,
+      "learning_rate": 0.00044623526295411314,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 153808352,
+      "step": 71215
+    },
+    {
+      "epoch": 11.61827079934747,
+      "grad_norm": 0.007715737447142601,
+      "learning_rate": 0.00044616449638441836,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 153818400,
+      "step": 71220
+    },
+    {
+      "epoch": 11.619086460032626,
+      "grad_norm": 0.002162148244678974,
+      "learning_rate": 0.0004460937309057686,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 153829376,
+      "step": 71225
+    },
+    {
+      "epoch": 11.619902120717782,
+      "grad_norm": 0.030692892149090767,
+      "learning_rate": 0.0004460229665195975,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 153840672,
+      "step": 71230
+    },
+    {
+      "epoch": 11.620717781402936,
+      "grad_norm": 0.0370308980345726,
+      "learning_rate": 0.0004459522032273397,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 153850976,
+      "step": 71235
+    },
+    {
+      "epoch": 11.621533442088092,
+      "grad_norm": 0.00597534142434597,
+      "learning_rate": 0.00044588144103042883,
+      "loss": 0.037,
+      "num_input_tokens_seen": 153862112,
+      "step": 71240
+    },
+    {
+      "epoch": 11.622349102773246,
+      "grad_norm": 0.0010464468505233526,
+      "learning_rate": 0.00044581067993029944,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 153872928,
+      "step": 71245
+    },
+    {
+      "epoch": 11.623164763458401,
+      "grad_norm": 0.07114594429731369,
+      "learning_rate": 0.0004457399199283852,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 153884320,
+      "step": 71250
+    },
+    {
+      "epoch": 11.623980424143557,
+      "grad_norm": 0.01107731182128191,
+      "learning_rate": 0.00044566916102612043,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 153894880,
+      "step": 71255
+    },
+    {
+      "epoch": 11.624796084828711,
+      "grad_norm": 0.0015193721046671271,
+      "learning_rate": 0.0004455984032249389,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 153905984,
+      "step": 71260
+    },
+    {
+      "epoch": 11.625611745513867,
+      "grad_norm": 0.2539882957935333,
+      "learning_rate": 0.0004455276465262748,
+      "loss": 0.015,
+      "num_input_tokens_seen": 153914624,
+      "step": 71265
+    },
+    {
+      "epoch": 11.62642740619902,
+      "grad_norm": 0.008223704993724823,
+      "learning_rate": 0.0004454568909315621,
+      "loss": 0.2522,
+      "num_input_tokens_seen": 153924640,
+      "step": 71270
+    },
+    {
+      "epoch": 11.627243066884176,
+      "grad_norm": 0.0044373562559485435,
+      "learning_rate": 0.0004453861364422347,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 153935392,
+      "step": 71275
+    },
+    {
+      "epoch": 11.62805872756933,
+      "grad_norm": 0.016537398099899292,
+      "learning_rate": 0.00044531538305972646,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 153945824,
+      "step": 71280
+    },
+    {
+      "epoch": 11.628874388254486,
+      "grad_norm": 0.012589816004037857,
+      "learning_rate": 0.0004452446307854714,
+      "loss": 0.1544,
+      "num_input_tokens_seen": 153958336,
+      "step": 71285
+    },
+    {
+      "epoch": 11.629690048939642,
+      "grad_norm": 0.0054365224204957485,
+      "learning_rate": 0.00044517387962090323,
+      "loss": 0.0861,
+      "num_input_tokens_seen": 153969728,
+      "step": 71290
+    },
+    {
+      "epoch": 11.630505709624796,
+      "grad_norm": 0.004397984594106674,
+      "learning_rate": 0.00044510312956745607,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 153980416,
+      "step": 71295
+    },
+    {
+      "epoch": 11.631321370309951,
+      "grad_norm": 0.1747157722711563,
+      "learning_rate": 0.00044503238062656357,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 153990432,
+      "step": 71300
+    },
+    {
+      "epoch": 11.632137030995105,
+      "grad_norm": 0.026617346331477165,
+      "learning_rate": 0.0004449616327996597,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 154001024,
+      "step": 71305
+    },
+    {
+      "epoch": 11.632952691680261,
+      "grad_norm": 0.00191340537276119,
+      "learning_rate": 0.0004448908860881781,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 154011136,
+      "step": 71310
+    },
+    {
+      "epoch": 11.633768352365417,
+      "grad_norm": 0.21351198852062225,
+      "learning_rate": 0.0004448201404935525,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 154021760,
+      "step": 71315
+    },
+    {
+      "epoch": 11.63458401305057,
+      "grad_norm": 0.0022384291514754295,
+      "learning_rate": 0.00044474939601721705,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 154033312,
+      "step": 71320
+    },
+    {
+      "epoch": 11.635399673735726,
+      "grad_norm": 0.009010802023112774,
+      "learning_rate": 0.00044467865266060487,
+      "loss": 0.012,
+      "num_input_tokens_seen": 154044864,
+      "step": 71325
+    },
+    {
+      "epoch": 11.63621533442088,
+      "grad_norm": 0.14343449473381042,
+      "learning_rate": 0.0004446079104251503,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 154055712,
+      "step": 71330
+    },
+    {
+      "epoch": 11.637030995106036,
+      "grad_norm": 0.03126922994852066,
+      "learning_rate": 0.0004445371693122863,
+      "loss": 0.2138,
+      "num_input_tokens_seen": 154067200,
+      "step": 71335
+    },
+    {
+      "epoch": 11.63784665579119,
+      "grad_norm": 0.004906293470412493,
+      "learning_rate": 0.00044446642932344726,
+      "loss": 0.1311,
+      "num_input_tokens_seen": 154078176,
+      "step": 71340
+    },
+    {
+      "epoch": 11.638662316476346,
+      "grad_norm": 0.08446597307920456,
+      "learning_rate": 0.0004443956904600663,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 154088832,
+      "step": 71345
+    },
+    {
+      "epoch": 11.639477977161501,
+      "grad_norm": 0.05098491162061691,
+      "learning_rate": 0.00044432495272357734,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 154099808,
+      "step": 71350
+    },
+    {
+      "epoch": 11.640293637846655,
+      "grad_norm": 0.006743690464645624,
+      "learning_rate": 0.00044425421611541364,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 154110528,
+      "step": 71355
+    },
+    {
+      "epoch": 11.641109298531811,
+      "grad_norm": 0.004304811824113131,
+      "learning_rate": 0.0004441834806370092,
+      "loss": 0.092,
+      "num_input_tokens_seen": 154120800,
+      "step": 71360
+    },
+    {
+      "epoch": 11.641924959216965,
+      "grad_norm": 0.5354902148246765,
+      "learning_rate": 0.00044411274628979714,
+      "loss": 0.0588,
+      "num_input_tokens_seen": 154132320,
+      "step": 71365
+    },
+    {
+      "epoch": 11.64274061990212,
+      "grad_norm": 0.033445850014686584,
+      "learning_rate": 0.00044404201307521134,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 154143392,
+      "step": 71370
+    },
+    {
+      "epoch": 11.643556280587276,
+      "grad_norm": 0.011206441558897495,
+      "learning_rate": 0.00044397128099468497,
+      "loss": 0.0602,
+      "num_input_tokens_seen": 154156224,
+      "step": 71375
+    },
+    {
+      "epoch": 11.64437194127243,
+      "grad_norm": 0.03548984229564667,
+      "learning_rate": 0.0004439005500496519,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 154166528,
+      "step": 71380
+    },
+    {
+      "epoch": 11.645187601957586,
+      "grad_norm": 0.16109098494052887,
+      "learning_rate": 0.00044382982024154506,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 154177376,
+      "step": 71385
+    },
+    {
+      "epoch": 11.64600326264274,
+      "grad_norm": 0.09362545609474182,
+      "learning_rate": 0.0004437590915717984,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 154188800,
+      "step": 71390
+    },
+    {
+      "epoch": 11.646818923327896,
+      "grad_norm": 0.008209917694330215,
+      "learning_rate": 0.0004436883640418449,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 154200192,
+      "step": 71395
+    },
+    {
+      "epoch": 11.647634584013051,
+      "grad_norm": 0.04360055923461914,
+      "learning_rate": 0.0004436176376531181,
+      "loss": 0.1731,
+      "num_input_tokens_seen": 154212032,
+      "step": 71400
+    },
+    {
+      "epoch": 11.648450244698205,
+      "grad_norm": 0.006665311753749847,
+      "learning_rate": 0.00044354691240705167,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 154222880,
+      "step": 71405
+    },
+    {
+      "epoch": 11.649265905383361,
+      "grad_norm": 0.1875232309103012,
+      "learning_rate": 0.00044347618830507845,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 154233568,
+      "step": 71410
+    },
+    {
+      "epoch": 11.650081566068515,
+      "grad_norm": 0.003251552814617753,
+      "learning_rate": 0.00044340546534863226,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 154244128,
+      "step": 71415
+    },
+    {
+      "epoch": 11.65089722675367,
+      "grad_norm": 0.005995164625346661,
+      "learning_rate": 0.00044333474353914576,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 154254240,
+      "step": 71420
+    },
+    {
+      "epoch": 11.651712887438826,
+      "grad_norm": 0.005441619548946619,
+      "learning_rate": 0.0004432640228780529,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 154265568,
+      "step": 71425
+    },
+    {
+      "epoch": 11.65252854812398,
+      "grad_norm": 0.13086704909801483,
+      "learning_rate": 0.0004431933033667863,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 154275488,
+      "step": 71430
+    },
+    {
+      "epoch": 11.653344208809136,
+      "grad_norm": 0.04926230385899544,
+      "learning_rate": 0.0004431225850067796,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 154287136,
+      "step": 71435
+    },
+    {
+      "epoch": 11.65415986949429,
+      "grad_norm": 0.050195761024951935,
+      "learning_rate": 0.0004430518677994659,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 154298240,
+      "step": 71440
+    },
+    {
+      "epoch": 11.654975530179446,
+      "grad_norm": 0.6612548828125,
+      "learning_rate": 0.0004429811517462783,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 154308672,
+      "step": 71445
+    },
+    {
+      "epoch": 11.655791190864601,
+      "grad_norm": 0.015694979578256607,
+      "learning_rate": 0.00044291043684865,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 154318592,
+      "step": 71450
+    },
+    {
+      "epoch": 11.656606851549755,
+      "grad_norm": 0.027238953858613968,
+      "learning_rate": 0.0004428397231080141,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 154329280,
+      "step": 71455
+    },
+    {
+      "epoch": 11.65742251223491,
+      "grad_norm": 0.00588644715026021,
+      "learning_rate": 0.0004427690105258037,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 154339168,
+      "step": 71460
+    },
+    {
+      "epoch": 11.658238172920065,
+      "grad_norm": 0.007147925905883312,
+      "learning_rate": 0.00044269829910345207,
+      "loss": 0.0336,
+      "num_input_tokens_seen": 154349120,
+      "step": 71465
+    },
+    {
+      "epoch": 11.65905383360522,
+      "grad_norm": 0.009599827229976654,
+      "learning_rate": 0.00044262758884239185,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 154359424,
+      "step": 71470
+    },
+    {
+      "epoch": 11.659869494290374,
+      "grad_norm": 0.008452493697404861,
+      "learning_rate": 0.00044255687974405656,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 154369856,
+      "step": 71475
+    },
+    {
+      "epoch": 11.66068515497553,
+      "grad_norm": 0.26467153429985046,
+      "learning_rate": 0.0004424861718098788,
+      "loss": 0.0345,
+      "num_input_tokens_seen": 154381024,
+      "step": 71480
+    },
+    {
+      "epoch": 11.661500815660686,
+      "grad_norm": 0.011430994607508183,
+      "learning_rate": 0.00044241546504129186,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 154392960,
+      "step": 71485
+    },
+    {
+      "epoch": 11.66231647634584,
+      "grad_norm": 0.048355769366025925,
+      "learning_rate": 0.0004423447594397284,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 154404480,
+      "step": 71490
+    },
+    {
+      "epoch": 11.663132137030995,
+      "grad_norm": 0.41922426223754883,
+      "learning_rate": 0.00044227405500662175,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 154415168,
+      "step": 71495
+    },
+    {
+      "epoch": 11.66394779771615,
+      "grad_norm": 0.009930071420967579,
+      "learning_rate": 0.00044220335174340443,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 154425920,
+      "step": 71500
+    },
+    {
+      "epoch": 11.664763458401305,
+      "grad_norm": 0.03307803347706795,
+      "learning_rate": 0.00044213264965150943,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 154436864,
+      "step": 71505
+    },
+    {
+      "epoch": 11.66557911908646,
+      "grad_norm": 0.00203361245803535,
+      "learning_rate": 0.00044206194873237,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 154448416,
+      "step": 71510
+    },
+    {
+      "epoch": 11.666394779771615,
+      "grad_norm": 0.06398969888687134,
+      "learning_rate": 0.00044199124898741844,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 154459872,
+      "step": 71515
+    },
+    {
+      "epoch": 11.66721044045677,
+      "grad_norm": 0.00550407450646162,
+      "learning_rate": 0.000441920550418088,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 154470304,
+      "step": 71520
+    },
+    {
+      "epoch": 11.668026101141924,
+      "grad_norm": 0.023381365463137627,
+      "learning_rate": 0.00044184985302581103,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 154481152,
+      "step": 71525
+    },
+    {
+      "epoch": 11.66884176182708,
+      "grad_norm": 0.058864492923021317,
+      "learning_rate": 0.00044177915681202083,
+      "loss": 0.0988,
+      "num_input_tokens_seen": 154491104,
+      "step": 71530
+    },
+    {
+      "epoch": 11.669657422512234,
+      "grad_norm": 0.005633897613734007,
+      "learning_rate": 0.00044170846177814965,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 154503136,
+      "step": 71535
+    },
+    {
+      "epoch": 11.67047308319739,
+      "grad_norm": 0.03195603936910629,
+      "learning_rate": 0.0004416377679256307,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 154513376,
+      "step": 71540
+    },
+    {
+      "epoch": 11.671288743882545,
+      "grad_norm": 0.006400907877832651,
+      "learning_rate": 0.0004415670752558961,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 154524384,
+      "step": 71545
+    },
+    {
+      "epoch": 11.6721044045677,
+      "grad_norm": 0.010677113197743893,
+      "learning_rate": 0.0004414963837703791,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 154535136,
+      "step": 71550
+    },
+    {
+      "epoch": 11.672920065252855,
+      "grad_norm": 0.007044284604489803,
+      "learning_rate": 0.0004414256934705119,
+      "loss": 0.1687,
+      "num_input_tokens_seen": 154545952,
+      "step": 71555
+    },
+    {
+      "epoch": 11.673735725938009,
+      "grad_norm": 0.042897067964076996,
+      "learning_rate": 0.00044135500435772755,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 154556288,
+      "step": 71560
+    },
+    {
+      "epoch": 11.674551386623165,
+      "grad_norm": 0.05293981730937958,
+      "learning_rate": 0.0004412843164334582,
+      "loss": 0.0919,
+      "num_input_tokens_seen": 154567360,
+      "step": 71565
+    },
+    {
+      "epoch": 11.67536704730832,
+      "grad_norm": 0.2870676815509796,
+      "learning_rate": 0.00044121362969913683,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 154577984,
+      "step": 71570
+    },
+    {
+      "epoch": 11.676182707993474,
+      "grad_norm": 0.034628961235284805,
+      "learning_rate": 0.00044114294415619577,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 154589568,
+      "step": 71575
+    },
+    {
+      "epoch": 11.67699836867863,
+      "grad_norm": 0.00338340294547379,
+      "learning_rate": 0.00044107225980606765,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 154601664,
+      "step": 71580
+    },
+    {
+      "epoch": 11.677814029363784,
+      "grad_norm": 0.49561360478401184,
+      "learning_rate": 0.0004410015766501849,
+      "loss": 0.1177,
+      "num_input_tokens_seen": 154612576,
+      "step": 71585
+    },
+    {
+      "epoch": 11.67862969004894,
+      "grad_norm": 0.06097765639424324,
+      "learning_rate": 0.00044093089468998006,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 154624416,
+      "step": 71590
+    },
+    {
+      "epoch": 11.679445350734095,
+      "grad_norm": 0.00320567493326962,
+      "learning_rate": 0.0004408602139268856,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 154634944,
+      "step": 71595
+    },
+    {
+      "epoch": 11.68026101141925,
+      "grad_norm": 0.014213986694812775,
+      "learning_rate": 0.00044078953436233387,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 154646400,
+      "step": 71600
+    },
+    {
+      "epoch": 11.681076672104405,
+      "grad_norm": 0.03145314380526543,
+      "learning_rate": 0.0004407188559977573,
+      "loss": 0.007,
+      "num_input_tokens_seen": 154658112,
+      "step": 71605
+    },
+    {
+      "epoch": 11.681892332789559,
+      "grad_norm": 0.06955621391534805,
+      "learning_rate": 0.00044064817883458833,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 154669632,
+      "step": 71610
+    },
+    {
+      "epoch": 11.682707993474715,
+      "grad_norm": 0.21142300963401794,
+      "learning_rate": 0.0004405775028742594,
+      "loss": 0.1781,
+      "num_input_tokens_seen": 154680992,
+      "step": 71615
+    },
+    {
+      "epoch": 11.68352365415987,
+      "grad_norm": 0.3759807050228119,
+      "learning_rate": 0.00044050682811820277,
+      "loss": 0.167,
+      "num_input_tokens_seen": 154691296,
+      "step": 71620
+    },
+    {
+      "epoch": 11.684339314845024,
+      "grad_norm": 0.004578839987516403,
+      "learning_rate": 0.00044043615456785065,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 154702496,
+      "step": 71625
+    },
+    {
+      "epoch": 11.68515497553018,
+      "grad_norm": 0.004665186163038015,
+      "learning_rate": 0.00044036548222463535,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 154713056,
+      "step": 71630
+    },
+    {
+      "epoch": 11.685970636215334,
+      "grad_norm": 0.007182937115430832,
+      "learning_rate": 0.0004402948110899894,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 154724160,
+      "step": 71635
+    },
+    {
+      "epoch": 11.68678629690049,
+      "grad_norm": 0.4717956781387329,
+      "learning_rate": 0.0004402241411653447,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 154735104,
+      "step": 71640
+    },
+    {
+      "epoch": 11.687601957585644,
+      "grad_norm": 0.14137259125709534,
+      "learning_rate": 0.00044015347245213377,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 154747104,
+      "step": 71645
+    },
+    {
+      "epoch": 11.6884176182708,
+      "grad_norm": 0.0016079474007710814,
+      "learning_rate": 0.00044008280495178844,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 154757184,
+      "step": 71650
+    },
+    {
+      "epoch": 11.689233278955955,
+      "grad_norm": 0.7597583532333374,
+      "learning_rate": 0.0004400121386657413,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 154768896,
+      "step": 71655
+    },
+    {
+      "epoch": 11.690048939641109,
+      "grad_norm": 0.09265612810850143,
+      "learning_rate": 0.000439941473595424,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 154779808,
+      "step": 71660
+    },
+    {
+      "epoch": 11.690864600326265,
+      "grad_norm": 0.009280568920075893,
+      "learning_rate": 0.00043987080974226925,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 154789952,
+      "step": 71665
+    },
+    {
+      "epoch": 11.691680261011419,
+      "grad_norm": 0.001288570580072701,
+      "learning_rate": 0.00043980014710770857,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 154799936,
+      "step": 71670
+    },
+    {
+      "epoch": 11.692495921696574,
+      "grad_norm": 0.07057865709066391,
+      "learning_rate": 0.00043972948569317446,
+      "loss": 0.077,
+      "num_input_tokens_seen": 154810720,
+      "step": 71675
+    },
+    {
+      "epoch": 11.69331158238173,
+      "grad_norm": 0.00797590147703886,
+      "learning_rate": 0.00043965882550009856,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 154821152,
+      "step": 71680
+    },
+    {
+      "epoch": 11.694127243066884,
+      "grad_norm": 0.005033727269619703,
+      "learning_rate": 0.0004395881665299134,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 154830944,
+      "step": 71685
+    },
+    {
+      "epoch": 11.69494290375204,
+      "grad_norm": 0.26927709579467773,
+      "learning_rate": 0.0004395175087840503,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 154841920,
+      "step": 71690
+    },
+    {
+      "epoch": 11.695758564437194,
+      "grad_norm": 0.02626313455402851,
+      "learning_rate": 0.000439446852263942,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 154854432,
+      "step": 71695
+    },
+    {
+      "epoch": 11.69657422512235,
+      "grad_norm": 0.05705942586064339,
+      "learning_rate": 0.00043937619697101974,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 154864544,
+      "step": 71700
+    },
+    {
+      "epoch": 11.697389885807503,
+      "grad_norm": 0.010143991559743881,
+      "learning_rate": 0.00043930554290671597,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 154874880,
+      "step": 71705
+    },
+    {
+      "epoch": 11.698205546492659,
+      "grad_norm": 0.0047828564420342445,
+      "learning_rate": 0.0004392348900724622,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 154886240,
+      "step": 71710
+    },
+    {
+      "epoch": 11.699021207177815,
+      "grad_norm": 0.03272762522101402,
+      "learning_rate": 0.00043916423846969047,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 154896192,
+      "step": 71715
+    },
+    {
+      "epoch": 11.699836867862969,
+      "grad_norm": 0.33838027715682983,
+      "learning_rate": 0.0004390935880998329,
+      "loss": 0.1627,
+      "num_input_tokens_seen": 154906560,
+      "step": 71720
+    },
+    {
+      "epoch": 11.700652528548124,
+      "grad_norm": 0.03905438259243965,
+      "learning_rate": 0.00043902293896432064,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 154917568,
+      "step": 71725
+    },
+    {
+      "epoch": 11.701468189233278,
+      "grad_norm": 0.5773392915725708,
+      "learning_rate": 0.0004389522910645862,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 154927232,
+      "step": 71730
+    },
+    {
+      "epoch": 11.702283849918434,
+      "grad_norm": 0.009112930856645107,
+      "learning_rate": 0.00043888164440206086,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 154937376,
+      "step": 71735
+    },
+    {
+      "epoch": 11.70309951060359,
+      "grad_norm": 0.07352989912033081,
+      "learning_rate": 0.0004388109989781766,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 154947744,
+      "step": 71740
+    },
+    {
+      "epoch": 11.703915171288743,
+      "grad_norm": 0.007768069859594107,
+      "learning_rate": 0.000438740354794365,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 154959104,
+      "step": 71745
+    },
+    {
+      "epoch": 11.7047308319739,
+      "grad_norm": 0.004225387237966061,
+      "learning_rate": 0.0004386697118520579,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 154971264,
+      "step": 71750
+    },
+    {
+      "epoch": 11.705546492659053,
+      "grad_norm": 0.2465088665485382,
+      "learning_rate": 0.00043859907015268685,
+      "loss": 0.1459,
+      "num_input_tokens_seen": 154983008,
+      "step": 71755
+    },
+    {
+      "epoch": 11.706362153344209,
+      "grad_norm": 0.00690916832536459,
+      "learning_rate": 0.00043852842969768356,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 154993600,
+      "step": 71760
+    },
+    {
+      "epoch": 11.707177814029365,
+      "grad_norm": 0.011656506918370724,
+      "learning_rate": 0.0004384577904884795,
+      "loss": 0.024,
+      "num_input_tokens_seen": 155003776,
+      "step": 71765
+    },
+    {
+      "epoch": 11.707993474714518,
+      "grad_norm": 0.1968628615140915,
+      "learning_rate": 0.0004383871525265066,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 155013056,
+      "step": 71770
+    },
+    {
+      "epoch": 11.708809135399674,
+      "grad_norm": 0.028053130954504013,
+      "learning_rate": 0.00043831651581319604,
+      "loss": 0.023,
+      "num_input_tokens_seen": 155023072,
+      "step": 71775
+    },
+    {
+      "epoch": 11.709624796084828,
+      "grad_norm": 0.07982442528009415,
+      "learning_rate": 0.00043824588034997974,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 155033472,
+      "step": 71780
+    },
+    {
+      "epoch": 11.710440456769984,
+      "grad_norm": 0.11559919267892838,
+      "learning_rate": 0.0004381752461382888,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 155044960,
+      "step": 71785
+    },
+    {
+      "epoch": 11.71125611745514,
+      "grad_norm": 0.0043896157294511795,
+      "learning_rate": 0.0004381046131795551,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 155056704,
+      "step": 71790
+    },
+    {
+      "epoch": 11.712071778140293,
+      "grad_norm": 0.07724365592002869,
+      "learning_rate": 0.0004380339814752098,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 155067584,
+      "step": 71795
+    },
+    {
+      "epoch": 11.71288743882545,
+      "grad_norm": 0.013904483988881111,
+      "learning_rate": 0.0004379633510266846,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 155078880,
+      "step": 71800
+    },
+    {
+      "epoch": 11.713703099510603,
+      "grad_norm": 0.0046301172114908695,
+      "learning_rate": 0.0004378927218354106,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 155089408,
+      "step": 71805
+    },
+    {
+      "epoch": 11.714518760195759,
+      "grad_norm": 0.005695376545190811,
+      "learning_rate": 0.00043782209390281964,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 155098816,
+      "step": 71810
+    },
+    {
+      "epoch": 11.715334420880914,
+      "grad_norm": 0.005193586926907301,
+      "learning_rate": 0.00043775146723034253,
+      "loss": 0.015,
+      "num_input_tokens_seen": 155110048,
+      "step": 71815
+    },
+    {
+      "epoch": 11.716150081566068,
+      "grad_norm": 0.05635349825024605,
+      "learning_rate": 0.00043768084181941097,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 155120256,
+      "step": 71820
+    },
+    {
+      "epoch": 11.716965742251224,
+      "grad_norm": 0.03338460251688957,
+      "learning_rate": 0.00043761021767145644,
+      "loss": 0.033,
+      "num_input_tokens_seen": 155130976,
+      "step": 71825
+    },
+    {
+      "epoch": 11.717781402936378,
+      "grad_norm": 0.0054107471369206905,
+      "learning_rate": 0.0004375395947879097,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 155141376,
+      "step": 71830
+    },
+    {
+      "epoch": 11.718597063621534,
+      "grad_norm": 0.006177667994052172,
+      "learning_rate": 0.0004374689731702026,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 155151616,
+      "step": 71835
+    },
+    {
+      "epoch": 11.719412724306688,
+      "grad_norm": 0.5736343860626221,
+      "learning_rate": 0.0004373983528197659,
+      "loss": 0.1354,
+      "num_input_tokens_seen": 155163232,
+      "step": 71840
+    },
+    {
+      "epoch": 11.720228384991843,
+      "grad_norm": 0.006295854225754738,
+      "learning_rate": 0.0004373277337380311,
+      "loss": 0.011,
+      "num_input_tokens_seen": 155173824,
+      "step": 71845
+    },
+    {
+      "epoch": 11.721044045676999,
+      "grad_norm": 0.0067205713130533695,
+      "learning_rate": 0.00043725711592642913,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 155183552,
+      "step": 71850
+    },
+    {
+      "epoch": 11.721859706362153,
+      "grad_norm": 0.003925715573132038,
+      "learning_rate": 0.0004371864993863915,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 155194048,
+      "step": 71855
+    },
+    {
+      "epoch": 11.722675367047309,
+      "grad_norm": 0.05358777940273285,
+      "learning_rate": 0.00043711588411934893,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 155204800,
+      "step": 71860
+    },
+    {
+      "epoch": 11.723491027732463,
+      "grad_norm": 0.15012463927268982,
+      "learning_rate": 0.00043704527012673294,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 155215904,
+      "step": 71865
+    },
+    {
+      "epoch": 11.724306688417618,
+      "grad_norm": 0.009517773985862732,
+      "learning_rate": 0.00043697465740997424,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 155226464,
+      "step": 71870
+    },
+    {
+      "epoch": 11.725122349102774,
+      "grad_norm": 0.2332668900489807,
+      "learning_rate": 0.00043690404597050426,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 155237152,
+      "step": 71875
+    },
+    {
+      "epoch": 11.725938009787928,
+      "grad_norm": 0.2832512855529785,
+      "learning_rate": 0.0004368334358097536,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 155248608,
+      "step": 71880
+    },
+    {
+      "epoch": 11.726753670473084,
+      "grad_norm": 0.001509108697064221,
+      "learning_rate": 0.00043676282692915367,
+      "loss": 0.1853,
+      "num_input_tokens_seen": 155259744,
+      "step": 71885
+    },
+    {
+      "epoch": 11.727569331158238,
+      "grad_norm": 0.0022017841693013906,
+      "learning_rate": 0.0004366922193301352,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 155272000,
+      "step": 71890
+    },
+    {
+      "epoch": 11.728384991843393,
+      "grad_norm": 0.0046439943835139275,
+      "learning_rate": 0.00043662161301412925,
+      "loss": 0.055,
+      "num_input_tokens_seen": 155282304,
+      "step": 71895
+    },
+    {
+      "epoch": 11.729200652528547,
+      "grad_norm": 0.006962585728615522,
+      "learning_rate": 0.0004365510079825667,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 155291840,
+      "step": 71900
+    },
+    {
+      "epoch": 11.730016313213703,
+      "grad_norm": 0.011773492209613323,
+      "learning_rate": 0.00043648040423687845,
+      "loss": 0.006,
+      "num_input_tokens_seen": 155302976,
+      "step": 71905
+    },
+    {
+      "epoch": 11.730831973898859,
+      "grad_norm": 0.40067851543426514,
+      "learning_rate": 0.00043640980177849534,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 155313728,
+      "step": 71910
+    },
+    {
+      "epoch": 11.731647634584013,
+      "grad_norm": 0.00812000036239624,
+      "learning_rate": 0.00043633920060884843,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 155326080,
+      "step": 71915
+    },
+    {
+      "epoch": 11.732463295269168,
+      "grad_norm": 0.006097911857068539,
+      "learning_rate": 0.0004362686007293681,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 155337248,
+      "step": 71920
+    },
+    {
+      "epoch": 11.733278955954322,
+      "grad_norm": 0.007870636880397797,
+      "learning_rate": 0.0004361980021414858,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 155348224,
+      "step": 71925
+    },
+    {
+      "epoch": 11.734094616639478,
+      "grad_norm": 0.015115322545170784,
+      "learning_rate": 0.00043612740484663155,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 155359744,
+      "step": 71930
+    },
+    {
+      "epoch": 11.734910277324634,
+      "grad_norm": 0.007088929880410433,
+      "learning_rate": 0.00043605680884623656,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 155370912,
+      "step": 71935
+    },
+    {
+      "epoch": 11.735725938009788,
+      "grad_norm": 0.024514637887477875,
+      "learning_rate": 0.00043598621414173166,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 155382336,
+      "step": 71940
+    },
+    {
+      "epoch": 11.736541598694943,
+      "grad_norm": 0.016428545117378235,
+      "learning_rate": 0.0004359156207345471,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 155393152,
+      "step": 71945
+    },
+    {
+      "epoch": 11.737357259380097,
+      "grad_norm": 0.6242492198944092,
+      "learning_rate": 0.00043584502862611404,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 155403744,
+      "step": 71950
+    },
+    {
+      "epoch": 11.738172920065253,
+      "grad_norm": 0.07482123374938965,
+      "learning_rate": 0.00043577443781786263,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 155415360,
+      "step": 71955
+    },
+    {
+      "epoch": 11.738988580750409,
+      "grad_norm": 0.06953166425228119,
+      "learning_rate": 0.0004357038483112239,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 155425632,
+      "step": 71960
+    },
+    {
+      "epoch": 11.739804241435563,
+      "grad_norm": 0.0036088728811591864,
+      "learning_rate": 0.00043563326010762803,
+      "loss": 0.0609,
+      "num_input_tokens_seen": 155437952,
+      "step": 71965
+    },
+    {
+      "epoch": 11.740619902120718,
+      "grad_norm": 0.08081181347370148,
+      "learning_rate": 0.00043556267320850605,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 155447552,
+      "step": 71970
+    },
+    {
+      "epoch": 11.741435562805872,
+      "grad_norm": 0.019740041345357895,
+      "learning_rate": 0.000435492087615288,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 155457216,
+      "step": 71975
+    },
+    {
+      "epoch": 11.742251223491028,
+      "grad_norm": 0.021085111424326897,
+      "learning_rate": 0.00043542150332940487,
+      "loss": 0.1118,
+      "num_input_tokens_seen": 155468064,
+      "step": 71980
+    },
+    {
+      "epoch": 11.743066884176184,
+      "grad_norm": 0.13764089345932007,
+      "learning_rate": 0.00043535092035228666,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 155477280,
+      "step": 71985
+    },
+    {
+      "epoch": 11.743882544861338,
+      "grad_norm": 0.032629575580358505,
+      "learning_rate": 0.00043528033868536433,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 155488672,
+      "step": 71990
+    },
+    {
+      "epoch": 11.744698205546493,
+      "grad_norm": 0.007054131478071213,
+      "learning_rate": 0.0004352097583300678,
+      "loss": 0.007,
+      "num_input_tokens_seen": 155499744,
+      "step": 71995
+    },
+    {
+      "epoch": 11.745513866231647,
+      "grad_norm": 0.3839552700519562,
+      "learning_rate": 0.0004351391792878279,
+      "loss": 0.1698,
+      "num_input_tokens_seen": 155510112,
+      "step": 72000
+    },
+    {
+      "epoch": 11.746329526916803,
+      "grad_norm": 0.03238167613744736,
+      "learning_rate": 0.00043506860156007453,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 155520864,
+      "step": 72005
+    },
+    {
+      "epoch": 11.747145187601957,
+      "grad_norm": 0.4877621829509735,
+      "learning_rate": 0.00043499802514823866,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 155532384,
+      "step": 72010
+    },
+    {
+      "epoch": 11.747960848287113,
+      "grad_norm": 0.13125985860824585,
+      "learning_rate": 0.00043492745005375,
+      "loss": 0.059,
+      "num_input_tokens_seen": 155544576,
+      "step": 72015
+    },
+    {
+      "epoch": 11.748776508972268,
+      "grad_norm": 0.3048825263977051,
+      "learning_rate": 0.00043485687627803935,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 155554432,
+      "step": 72020
+    },
+    {
+      "epoch": 11.749592169657422,
+      "grad_norm": 0.0021826811134815216,
+      "learning_rate": 0.00043478630382253646,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 155565024,
+      "step": 72025
+    },
+    {
+      "epoch": 11.750407830342578,
+      "grad_norm": 0.020689282566308975,
+      "learning_rate": 0.00043471573268867206,
+      "loss": 0.1112,
+      "num_input_tokens_seen": 155576736,
+      "step": 72030
+    },
+    {
+      "epoch": 11.751223491027732,
+      "grad_norm": 0.29919424653053284,
+      "learning_rate": 0.00043464516287787617,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 155587968,
+      "step": 72035
+    },
+    {
+      "epoch": 11.752039151712887,
+      "grad_norm": 0.019435329362750053,
+      "learning_rate": 0.0004345745943915788,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 155598208,
+      "step": 72040
+    },
+    {
+      "epoch": 11.752854812398043,
+      "grad_norm": 0.08339189738035202,
+      "learning_rate": 0.0004345040272312104,
+      "loss": 0.011,
+      "num_input_tokens_seen": 155610400,
+      "step": 72045
+    },
+    {
+      "epoch": 11.753670473083197,
+      "grad_norm": 0.34416478872299194,
+      "learning_rate": 0.00043443346139820086,
+      "loss": 0.0958,
+      "num_input_tokens_seen": 155620800,
+      "step": 72050
+    },
+    {
+      "epoch": 11.754486133768353,
+      "grad_norm": 0.017133589833974838,
+      "learning_rate": 0.0004343628968939805,
+      "loss": 0.0529,
+      "num_input_tokens_seen": 155632480,
+      "step": 72055
+    },
+    {
+      "epoch": 11.755301794453507,
+      "grad_norm": 0.17699752748012543,
+      "learning_rate": 0.0004342923337199793,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 155643328,
+      "step": 72060
+    },
+    {
+      "epoch": 11.756117455138662,
+      "grad_norm": 0.004552872385829687,
+      "learning_rate": 0.0004342217718776273,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 155654048,
+      "step": 72065
+    },
+    {
+      "epoch": 11.756933115823816,
+      "grad_norm": 0.33629310131073,
+      "learning_rate": 0.00043415121136835454,
+      "loss": 0.0809,
+      "num_input_tokens_seen": 155663904,
+      "step": 72070
+    },
+    {
+      "epoch": 11.757748776508972,
+      "grad_norm": 0.09349898993968964,
+      "learning_rate": 0.00043408065219359106,
+      "loss": 0.1015,
+      "num_input_tokens_seen": 155674816,
+      "step": 72075
+    },
+    {
+      "epoch": 11.758564437194128,
+      "grad_norm": 0.005316116847097874,
+      "learning_rate": 0.00043401009435476665,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 155685216,
+      "step": 72080
+    },
+    {
+      "epoch": 11.759380097879282,
+      "grad_norm": 0.008520056493580341,
+      "learning_rate": 0.0004339395378533116,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 155695840,
+      "step": 72085
+    },
+    {
+      "epoch": 11.760195758564437,
+      "grad_norm": 0.5987900495529175,
+      "learning_rate": 0.00043386898269065537,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 155706656,
+      "step": 72090
+    },
+    {
+      "epoch": 11.761011419249591,
+      "grad_norm": 0.4160362780094147,
+      "learning_rate": 0.00043379842886822836,
+      "loss": 0.1533,
+      "num_input_tokens_seen": 155716928,
+      "step": 72095
+    },
+    {
+      "epoch": 11.761827079934747,
+      "grad_norm": 0.2085852324962616,
+      "learning_rate": 0.0004337278763874599,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 155727104,
+      "step": 72100
+    },
+    {
+      "epoch": 11.762642740619903,
+      "grad_norm": 0.0025748233310878277,
+      "learning_rate": 0.0004336573252497804,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 155738080,
+      "step": 72105
+    },
+    {
+      "epoch": 11.763458401305057,
+      "grad_norm": 0.002957735676318407,
+      "learning_rate": 0.00043358677545661913,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 155749824,
+      "step": 72110
+    },
+    {
+      "epoch": 11.764274061990212,
+      "grad_norm": 0.07855616509914398,
+      "learning_rate": 0.0004335162270094063,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 155760256,
+      "step": 72115
+    },
+    {
+      "epoch": 11.765089722675366,
+      "grad_norm": 0.010629786178469658,
+      "learning_rate": 0.0004334456799095712,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 155771360,
+      "step": 72120
+    },
+    {
+      "epoch": 11.765905383360522,
+      "grad_norm": 0.39609336853027344,
+      "learning_rate": 0.00043337513415854414,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 155783392,
+      "step": 72125
+    },
+    {
+      "epoch": 11.766721044045678,
+      "grad_norm": 0.3709852397441864,
+      "learning_rate": 0.0004333045897577542,
+      "loss": 0.222,
+      "num_input_tokens_seen": 155793728,
+      "step": 72130
+    },
+    {
+      "epoch": 11.767536704730832,
+      "grad_norm": 0.001966248033568263,
+      "learning_rate": 0.00043323404670863165,
+      "loss": 0.004,
+      "num_input_tokens_seen": 155804576,
+      "step": 72135
+    },
+    {
+      "epoch": 11.768352365415987,
+      "grad_norm": 0.018825042992830276,
+      "learning_rate": 0.0004331635050126056,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 155815040,
+      "step": 72140
+    },
+    {
+      "epoch": 11.769168026101141,
+      "grad_norm": 0.01670904830098152,
+      "learning_rate": 0.0004330929646711059,
+      "loss": 0.1545,
+      "num_input_tokens_seen": 155825664,
+      "step": 72145
+    },
+    {
+      "epoch": 11.769983686786297,
+      "grad_norm": 0.04210560396313667,
+      "learning_rate": 0.0004330224256855624,
+      "loss": 0.0745,
+      "num_input_tokens_seen": 155836736,
+      "step": 72150
+    },
+    {
+      "epoch": 11.770799347471453,
+      "grad_norm": 0.36961254477500916,
+      "learning_rate": 0.00043295188805740414,
+      "loss": 0.1821,
+      "num_input_tokens_seen": 155847872,
+      "step": 72155
+    },
+    {
+      "epoch": 11.771615008156607,
+      "grad_norm": 0.014704558998346329,
+      "learning_rate": 0.0004328813517880612,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 155859904,
+      "step": 72160
+    },
+    {
+      "epoch": 11.772430668841762,
+      "grad_norm": 0.04387712478637695,
+      "learning_rate": 0.00043281081687896253,
+      "loss": 0.015,
+      "num_input_tokens_seen": 155870848,
+      "step": 72165
+    },
+    {
+      "epoch": 11.773246329526916,
+      "grad_norm": 0.041084855794906616,
+      "learning_rate": 0.0004327402833315381,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 155882336,
+      "step": 72170
+    },
+    {
+      "epoch": 11.774061990212072,
+      "grad_norm": 0.04652201011776924,
+      "learning_rate": 0.000432669751147217,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 155894464,
+      "step": 72175
+    },
+    {
+      "epoch": 11.774877650897226,
+      "grad_norm": 0.006085763685405254,
+      "learning_rate": 0.000432599220327429,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 155905120,
+      "step": 72180
+    },
+    {
+      "epoch": 11.775693311582382,
+      "grad_norm": 0.40596145391464233,
+      "learning_rate": 0.0004325286908736031,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 155915680,
+      "step": 72185
+    },
+    {
+      "epoch": 11.776508972267537,
+      "grad_norm": 0.011549671180546284,
+      "learning_rate": 0.0004324581627871691,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 155925856,
+      "step": 72190
+    },
+    {
+      "epoch": 11.777324632952691,
+      "grad_norm": 0.39453864097595215,
+      "learning_rate": 0.00043238763606955586,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 155936736,
+      "step": 72195
+    },
+    {
+      "epoch": 11.778140293637847,
+      "grad_norm": 0.02689771167933941,
+      "learning_rate": 0.00043231711072219307,
+      "loss": 0.0361,
+      "num_input_tokens_seen": 155947072,
+      "step": 72200
+    },
+    {
+      "epoch": 11.778955954323001,
+      "grad_norm": 0.012872003018856049,
+      "learning_rate": 0.0004322465867465099,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 155958656,
+      "step": 72205
+    },
+    {
+      "epoch": 11.779771615008157,
+      "grad_norm": 0.891151487827301,
+      "learning_rate": 0.0004321760641439356,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 155968256,
+      "step": 72210
+    },
+    {
+      "epoch": 11.780587275693312,
+      "grad_norm": 0.026634545996785164,
+      "learning_rate": 0.00043210554291589937,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 155978272,
+      "step": 72215
+    },
+    {
+      "epoch": 11.781402936378466,
+      "grad_norm": 0.36695098876953125,
+      "learning_rate": 0.00043203502306383046,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 155989024,
+      "step": 72220
+    },
+    {
+      "epoch": 11.782218597063622,
+      "grad_norm": 0.008795715868473053,
+      "learning_rate": 0.0004319645045891579,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 156000800,
+      "step": 72225
+    },
+    {
+      "epoch": 11.783034257748776,
+      "grad_norm": 0.018142348155379295,
+      "learning_rate": 0.0004318939874933113,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 156011904,
+      "step": 72230
+    },
+    {
+      "epoch": 11.783849918433932,
+      "grad_norm": 0.004247451666742563,
+      "learning_rate": 0.00043182347177771907,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 156024160,
+      "step": 72235
+    },
+    {
+      "epoch": 11.784665579119086,
+      "grad_norm": 0.0237015001475811,
+      "learning_rate": 0.000431752957443811,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 156035488,
+      "step": 72240
+    },
+    {
+      "epoch": 11.785481239804241,
+      "grad_norm": 0.06558331102132797,
+      "learning_rate": 0.00043168244449301555,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 156045888,
+      "step": 72245
+    },
+    {
+      "epoch": 11.786296900489397,
+      "grad_norm": 0.5224149227142334,
+      "learning_rate": 0.00043161193292676203,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 156057056,
+      "step": 72250
+    },
+    {
+      "epoch": 11.78711256117455,
+      "grad_norm": 0.022556733340024948,
+      "learning_rate": 0.00043154142274647966,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 156068032,
+      "step": 72255
+    },
+    {
+      "epoch": 11.787928221859707,
+      "grad_norm": 0.009831923991441727,
+      "learning_rate": 0.000431470913953597,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 156078016,
+      "step": 72260
+    },
+    {
+      "epoch": 11.78874388254486,
+      "grad_norm": 0.273215115070343,
+      "learning_rate": 0.00043140040654954346,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 156089472,
+      "step": 72265
+    },
+    {
+      "epoch": 11.789559543230016,
+      "grad_norm": 0.007073753513395786,
+      "learning_rate": 0.00043132990053574747,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 156101504,
+      "step": 72270
+    },
+    {
+      "epoch": 11.790375203915172,
+      "grad_norm": 0.004455335903912783,
+      "learning_rate": 0.0004312593959136383,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 156112192,
+      "step": 72275
+    },
+    {
+      "epoch": 11.791190864600326,
+      "grad_norm": 0.004594567697495222,
+      "learning_rate": 0.0004311888926846445,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 156121984,
+      "step": 72280
+    },
+    {
+      "epoch": 11.792006525285482,
+      "grad_norm": 0.056093163788318634,
+      "learning_rate": 0.00043111839085019534,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 156132160,
+      "step": 72285
+    },
+    {
+      "epoch": 11.792822185970635,
+      "grad_norm": 0.41622522473335266,
+      "learning_rate": 0.0004310478904117191,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 156143200,
+      "step": 72290
+    },
+    {
+      "epoch": 11.793637846655791,
+      "grad_norm": 0.0016232366906479,
+      "learning_rate": 0.0004309773913706451,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 156154496,
+      "step": 72295
+    },
+    {
+      "epoch": 11.794453507340947,
+      "grad_norm": 0.00741207879036665,
+      "learning_rate": 0.00043090689372840156,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 156165824,
+      "step": 72300
+    },
+    {
+      "epoch": 11.7952691680261,
+      "grad_norm": 0.01622309908270836,
+      "learning_rate": 0.0004308363974864178,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 156175520,
+      "step": 72305
+    },
+    {
+      "epoch": 11.796084828711257,
+      "grad_norm": 0.6132098436355591,
+      "learning_rate": 0.0004307659026461218,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 156186144,
+      "step": 72310
+    },
+    {
+      "epoch": 11.79690048939641,
+      "grad_norm": 0.004296452272683382,
+      "learning_rate": 0.00043069540920894297,
+      "loss": 0.01,
+      "num_input_tokens_seen": 156197728,
+      "step": 72315
+    },
+    {
+      "epoch": 11.797716150081566,
+      "grad_norm": 0.26713958382606506,
+      "learning_rate": 0.0004306249171763093,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 156207936,
+      "step": 72320
+    },
+    {
+      "epoch": 11.798531810766722,
+      "grad_norm": 0.002047403249889612,
+      "learning_rate": 0.0004305544265496499,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 156219648,
+      "step": 72325
+    },
+    {
+      "epoch": 11.799347471451876,
+      "grad_norm": 0.00636103842407465,
+      "learning_rate": 0.000430483937330393,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 156230080,
+      "step": 72330
+    },
+    {
+      "epoch": 11.800163132137031,
+      "grad_norm": 0.24282555282115936,
+      "learning_rate": 0.0004304134495199674,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 156240448,
+      "step": 72335
+    },
+    {
+      "epoch": 11.800978792822185,
+      "grad_norm": 0.608010470867157,
+      "learning_rate": 0.0004303429631198014,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 156251552,
+      "step": 72340
+    },
+    {
+      "epoch": 11.801794453507341,
+      "grad_norm": 0.01011840533465147,
+      "learning_rate": 0.0004302724781313237,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 156262240,
+      "step": 72345
+    },
+    {
+      "epoch": 11.802610114192497,
+      "grad_norm": 0.03190528601408005,
+      "learning_rate": 0.0004302019945559627,
+      "loss": 0.1422,
+      "num_input_tokens_seen": 156273792,
+      "step": 72350
+    },
+    {
+      "epoch": 11.80342577487765,
+      "grad_norm": 0.3652302026748657,
+      "learning_rate": 0.0004301315123951467,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 156284352,
+      "step": 72355
+    },
+    {
+      "epoch": 11.804241435562806,
+      "grad_norm": 0.15005654096603394,
+      "learning_rate": 0.0004300610316503045,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 156294720,
+      "step": 72360
+    },
+    {
+      "epoch": 11.80505709624796,
+      "grad_norm": 0.00928251352161169,
+      "learning_rate": 0.00042999055232286387,
+      "loss": 0.1893,
+      "num_input_tokens_seen": 156304256,
+      "step": 72365
+    },
+    {
+      "epoch": 11.805872756933116,
+      "grad_norm": 0.08327314257621765,
+      "learning_rate": 0.00042992007441425376,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 156314560,
+      "step": 72370
+    },
+    {
+      "epoch": 11.80668841761827,
+      "grad_norm": 1.7067999839782715,
+      "learning_rate": 0.00042984959792590215,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 156325696,
+      "step": 72375
+    },
+    {
+      "epoch": 11.807504078303426,
+      "grad_norm": 0.010561229661107063,
+      "learning_rate": 0.00042977912285923747,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 156335584,
+      "step": 72380
+    },
+    {
+      "epoch": 11.808319738988581,
+      "grad_norm": 0.007480216212570667,
+      "learning_rate": 0.000429708649215688,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 156345024,
+      "step": 72385
+    },
+    {
+      "epoch": 11.809135399673735,
+      "grad_norm": 0.9692756533622742,
+      "learning_rate": 0.00042963817699668183,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 156354976,
+      "step": 72390
+    },
+    {
+      "epoch": 11.809951060358891,
+      "grad_norm": 0.14579908549785614,
+      "learning_rate": 0.0004295677062036472,
+      "loss": 0.0503,
+      "num_input_tokens_seen": 156366496,
+      "step": 72395
+    },
+    {
+      "epoch": 11.810766721044045,
+      "grad_norm": 0.015927450731396675,
+      "learning_rate": 0.00042949723683801256,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 156377344,
+      "step": 72400
+    },
+    {
+      "epoch": 11.8115823817292,
+      "grad_norm": 0.0816449522972107,
+      "learning_rate": 0.0004294267689012057,
+      "loss": 0.1673,
+      "num_input_tokens_seen": 156388704,
+      "step": 72405
+    },
+    {
+      "epoch": 11.812398042414356,
+      "grad_norm": 0.26386797428131104,
+      "learning_rate": 0.000429356302394655,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 156399872,
+      "step": 72410
+    },
+    {
+      "epoch": 11.81321370309951,
+      "grad_norm": 0.004181982949376106,
+      "learning_rate": 0.00042928583731978833,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 156412800,
+      "step": 72415
+    },
+    {
+      "epoch": 11.814029363784666,
+      "grad_norm": 0.4576594829559326,
+      "learning_rate": 0.00042921537367803403,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 156421824,
+      "step": 72420
+    },
+    {
+      "epoch": 11.81484502446982,
+      "grad_norm": 0.004218620248138905,
+      "learning_rate": 0.0004291449114708198,
+      "loss": 0.1628,
+      "num_input_tokens_seen": 156432896,
+      "step": 72425
+    },
+    {
+      "epoch": 11.815660685154976,
+      "grad_norm": 0.02189936861395836,
+      "learning_rate": 0.000429074450699574,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 156443936,
+      "step": 72430
+    },
+    {
+      "epoch": 11.81647634584013,
+      "grad_norm": 0.005173725076019764,
+      "learning_rate": 0.0004290039913657243,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 156455840,
+      "step": 72435
+    },
+    {
+      "epoch": 11.817292006525285,
+      "grad_norm": 0.4792866110801697,
+      "learning_rate": 0.00042893353347069887,
+      "loss": 0.0449,
+      "num_input_tokens_seen": 156466400,
+      "step": 72440
+    },
+    {
+      "epoch": 11.818107667210441,
+      "grad_norm": 0.0040856278501451015,
+      "learning_rate": 0.0004288630770159254,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 156476096,
+      "step": 72445
+    },
+    {
+      "epoch": 11.818923327895595,
+      "grad_norm": 0.1025933250784874,
+      "learning_rate": 0.00042879262200283216,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 156488096,
+      "step": 72450
+    },
+    {
+      "epoch": 11.81973898858075,
+      "grad_norm": 0.11138315498828888,
+      "learning_rate": 0.0004287221684328465,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 156499008,
+      "step": 72455
+    },
+    {
+      "epoch": 11.820554649265905,
+      "grad_norm": 0.0017173081869259477,
+      "learning_rate": 0.00042865171630739654,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 156508992,
+      "step": 72460
+    },
+    {
+      "epoch": 11.82137030995106,
+      "grad_norm": 0.001704095397144556,
+      "learning_rate": 0.0004285812656279102,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 156517664,
+      "step": 72465
+    },
+    {
+      "epoch": 11.822185970636216,
+      "grad_norm": 0.010462358593940735,
+      "learning_rate": 0.000428510816395815,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 156528608,
+      "step": 72470
+    },
+    {
+      "epoch": 11.82300163132137,
+      "grad_norm": 0.04697816073894501,
+      "learning_rate": 0.00042844036861253897,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 156539776,
+      "step": 72475
+    },
+    {
+      "epoch": 11.823817292006526,
+      "grad_norm": 0.003039855509996414,
+      "learning_rate": 0.00042836992227950944,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 156551488,
+      "step": 72480
+    },
+    {
+      "epoch": 11.82463295269168,
+      "grad_norm": 0.28987327218055725,
+      "learning_rate": 0.0004282994773981546,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 156561952,
+      "step": 72485
+    },
+    {
+      "epoch": 11.825448613376835,
+      "grad_norm": 0.06460442394018173,
+      "learning_rate": 0.00042822903396990146,
+      "loss": 0.0267,
+      "num_input_tokens_seen": 156572448,
+      "step": 72490
+    },
+    {
+      "epoch": 11.826264274061991,
+      "grad_norm": 0.006775304209440947,
+      "learning_rate": 0.0004281585919961783,
+      "loss": 0.032,
+      "num_input_tokens_seen": 156581696,
+      "step": 72495
+    },
+    {
+      "epoch": 11.827079934747145,
+      "grad_norm": 0.03162192925810814,
+      "learning_rate": 0.00042808815147841214,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 156592224,
+      "step": 72500
+    },
+    {
+      "epoch": 11.8278955954323,
+      "grad_norm": 0.1275867521762848,
+      "learning_rate": 0.0004280177124180311,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 156602432,
+      "step": 72505
+    },
+    {
+      "epoch": 11.828711256117455,
+      "grad_norm": 0.0015156982699409127,
+      "learning_rate": 0.0004279472748164621,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 156613856,
+      "step": 72510
+    },
+    {
+      "epoch": 11.82952691680261,
+      "grad_norm": 0.005000817123800516,
+      "learning_rate": 0.0004278768386751332,
+      "loss": 0.182,
+      "num_input_tokens_seen": 156624256,
+      "step": 72515
+    },
+    {
+      "epoch": 11.830342577487766,
+      "grad_norm": 0.003169822273775935,
+      "learning_rate": 0.0004278064039954716,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 156635648,
+      "step": 72520
+    },
+    {
+      "epoch": 11.83115823817292,
+      "grad_norm": 0.41648584604263306,
+      "learning_rate": 0.00042773597077890485,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 156645984,
+      "step": 72525
+    },
+    {
+      "epoch": 11.831973898858076,
+      "grad_norm": 0.14442989230155945,
+      "learning_rate": 0.0004276655390268603,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 156657056,
+      "step": 72530
+    },
+    {
+      "epoch": 11.83278955954323,
+      "grad_norm": 0.009963775984942913,
+      "learning_rate": 0.0004275951087407653,
+      "loss": 0.1158,
+      "num_input_tokens_seen": 156668928,
+      "step": 72535
+    },
+    {
+      "epoch": 11.833605220228385,
+      "grad_norm": 0.005215761251747608,
+      "learning_rate": 0.0004275246799220473,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 156679808,
+      "step": 72540
+    },
+    {
+      "epoch": 11.83442088091354,
+      "grad_norm": 0.01756799779832363,
+      "learning_rate": 0.0004274542525721338,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 156690400,
+      "step": 72545
+    },
+    {
+      "epoch": 11.835236541598695,
+      "grad_norm": 0.010215381160378456,
+      "learning_rate": 0.00042738382669245157,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 156701024,
+      "step": 72550
+    },
+    {
+      "epoch": 11.83605220228385,
+      "grad_norm": 0.33329635858535767,
+      "learning_rate": 0.0004273134022844285,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 156712576,
+      "step": 72555
+    },
+    {
+      "epoch": 11.836867862969005,
+      "grad_norm": 0.004677685908973217,
+      "learning_rate": 0.00042724297934949136,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 156723552,
+      "step": 72560
+    },
+    {
+      "epoch": 11.83768352365416,
+      "grad_norm": 0.014706281013786793,
+      "learning_rate": 0.0004271725578890675,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 156735328,
+      "step": 72565
+    },
+    {
+      "epoch": 11.838499184339314,
+      "grad_norm": 0.052408941090106964,
+      "learning_rate": 0.00042710213790458435,
+      "loss": 0.0571,
+      "num_input_tokens_seen": 156746304,
+      "step": 72570
+    },
+    {
+      "epoch": 11.83931484502447,
+      "grad_norm": 0.005835378542542458,
+      "learning_rate": 0.00042703171939746865,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 156758208,
+      "step": 72575
+    },
+    {
+      "epoch": 11.840130505709626,
+      "grad_norm": 0.018282631412148476,
+      "learning_rate": 0.00042696130236914796,
+      "loss": 0.1527,
+      "num_input_tokens_seen": 156767488,
+      "step": 72580
+    },
+    {
+      "epoch": 11.84094616639478,
+      "grad_norm": 0.25564491748809814,
+      "learning_rate": 0.00042689088682104886,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 156778592,
+      "step": 72585
+    },
+    {
+      "epoch": 11.841761827079935,
+      "grad_norm": 0.0028037067968398333,
+      "learning_rate": 0.00042682047275459893,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 156789888,
+      "step": 72590
+    },
+    {
+      "epoch": 11.84257748776509,
+      "grad_norm": 0.15276266634464264,
+      "learning_rate": 0.00042675006017122477,
+      "loss": 0.045,
+      "num_input_tokens_seen": 156799872,
+      "step": 72595
+    },
+    {
+      "epoch": 11.843393148450245,
+      "grad_norm": 0.003195535857230425,
+      "learning_rate": 0.0004266796490723538,
+      "loss": 0.008,
+      "num_input_tokens_seen": 156809632,
+      "step": 72600
+    },
+    {
+      "epoch": 11.844208809135399,
+      "grad_norm": 0.009690443985164165,
+      "learning_rate": 0.0004266092394594124,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 156820064,
+      "step": 72605
+    },
+    {
+      "epoch": 11.845024469820554,
+      "grad_norm": 0.01867981068789959,
+      "learning_rate": 0.00042653883133382824,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 156831424,
+      "step": 72610
+    },
+    {
+      "epoch": 11.84584013050571,
+      "grad_norm": 0.0158432237803936,
+      "learning_rate": 0.00042646842469702754,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 156841664,
+      "step": 72615
+    },
+    {
+      "epoch": 11.846655791190864,
+      "grad_norm": 0.01342178788036108,
+      "learning_rate": 0.0004263980195504378,
+      "loss": 0.01,
+      "num_input_tokens_seen": 156853888,
+      "step": 72620
+    },
+    {
+      "epoch": 11.84747145187602,
+      "grad_norm": 0.025491604581475258,
+      "learning_rate": 0.0004263276158954853,
+      "loss": 0.012,
+      "num_input_tokens_seen": 156865184,
+      "step": 72625
+    },
+    {
+      "epoch": 11.848287112561174,
+      "grad_norm": 0.00676423916593194,
+      "learning_rate": 0.0004262572137335973,
+      "loss": 0.013,
+      "num_input_tokens_seen": 156876736,
+      "step": 72630
+    },
+    {
+      "epoch": 11.84910277324633,
+      "grad_norm": 0.021774085238575935,
+      "learning_rate": 0.00042618681306620025,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 156886848,
+      "step": 72635
+    },
+    {
+      "epoch": 11.849918433931485,
+      "grad_norm": 0.005161866080015898,
+      "learning_rate": 0.00042611641389472127,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 156898592,
+      "step": 72640
+    },
+    {
+      "epoch": 11.850734094616639,
+      "grad_norm": 0.0016783748287707567,
+      "learning_rate": 0.0004260460162205867,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 156909888,
+      "step": 72645
+    },
+    {
+      "epoch": 11.851549755301795,
+      "grad_norm": 0.0034606284461915493,
+      "learning_rate": 0.0004259756200452236,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 156920320,
+      "step": 72650
+    },
+    {
+      "epoch": 11.852365415986949,
+      "grad_norm": 0.006742651574313641,
+      "learning_rate": 0.00042590522537005825,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 156930368,
+      "step": 72655
+    },
+    {
+      "epoch": 11.853181076672104,
+      "grad_norm": 0.3364547789096832,
+      "learning_rate": 0.00042583483219651763,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 156940608,
+      "step": 72660
+    },
+    {
+      "epoch": 11.85399673735726,
+      "grad_norm": 0.015008768998086452,
+      "learning_rate": 0.0004257644405260282,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 156951168,
+      "step": 72665
+    },
+    {
+      "epoch": 11.854812398042414,
+      "grad_norm": 0.010510805994272232,
+      "learning_rate": 0.0004256940503600166,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 156961920,
+      "step": 72670
+    },
+    {
+      "epoch": 11.85562805872757,
+      "grad_norm": 0.015424901619553566,
+      "learning_rate": 0.00042562366169990936,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 156973888,
+      "step": 72675
+    },
+    {
+      "epoch": 11.856443719412724,
+      "grad_norm": 0.1747453808784485,
+      "learning_rate": 0.00042555327454713276,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 156984448,
+      "step": 72680
+    },
+    {
+      "epoch": 11.85725938009788,
+      "grad_norm": 0.006023809779435396,
+      "learning_rate": 0.0004254828889031137,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 156996864,
+      "step": 72685
+    },
+    {
+      "epoch": 11.858075040783035,
+      "grad_norm": 0.007003793492913246,
+      "learning_rate": 0.0004254125047692784,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 157007424,
+      "step": 72690
+    },
+    {
+      "epoch": 11.858890701468189,
+      "grad_norm": 0.008758111856877804,
+      "learning_rate": 0.00042534212214705326,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 157018624,
+      "step": 72695
+    },
+    {
+      "epoch": 11.859706362153345,
+      "grad_norm": 0.0082249129191041,
+      "learning_rate": 0.0004252717410378648,
+      "loss": 0.05,
+      "num_input_tokens_seen": 157028768,
+      "step": 72700
+    },
+    {
+      "epoch": 11.860522022838499,
+      "grad_norm": 0.00721960561349988,
+      "learning_rate": 0.00042520136144313925,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 157041248,
+      "step": 72705
+    },
+    {
+      "epoch": 11.861337683523654,
+      "grad_norm": 0.010221786797046661,
+      "learning_rate": 0.0004251309833643029,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 157051616,
+      "step": 72710
+    },
+    {
+      "epoch": 11.86215334420881,
+      "grad_norm": 0.015197236090898514,
+      "learning_rate": 0.00042506060680278234,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 157062336,
+      "step": 72715
+    },
+    {
+      "epoch": 11.862969004893964,
+      "grad_norm": 0.45400407910346985,
+      "learning_rate": 0.00042499023176000353,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 157072256,
+      "step": 72720
+    },
+    {
+      "epoch": 11.86378466557912,
+      "grad_norm": 0.12778514623641968,
+      "learning_rate": 0.000424919858237393,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 157082848,
+      "step": 72725
+    },
+    {
+      "epoch": 11.864600326264274,
+      "grad_norm": 0.491372287273407,
+      "learning_rate": 0.00042484948623637656,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 157094080,
+      "step": 72730
+    },
+    {
+      "epoch": 11.86541598694943,
+      "grad_norm": 0.003955055959522724,
+      "learning_rate": 0.0004247791157583808,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 157104416,
+      "step": 72735
+    },
+    {
+      "epoch": 11.866231647634583,
+      "grad_norm": 0.006338398437947035,
+      "learning_rate": 0.0004247087468048315,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 157114080,
+      "step": 72740
+    },
+    {
+      "epoch": 11.867047308319739,
+      "grad_norm": 0.004220007918775082,
+      "learning_rate": 0.00042463837937715515,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 157124192,
+      "step": 72745
+    },
+    {
+      "epoch": 11.867862969004895,
+      "grad_norm": 0.0883263647556305,
+      "learning_rate": 0.0004245680134767775,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 157135360,
+      "step": 72750
+    },
+    {
+      "epoch": 11.868678629690049,
+      "grad_norm": 0.0914829820394516,
+      "learning_rate": 0.0004244976491051249,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 157146208,
+      "step": 72755
+    },
+    {
+      "epoch": 11.869494290375204,
+      "grad_norm": 0.04714475944638252,
+      "learning_rate": 0.00042442728626362306,
+      "loss": 0.08,
+      "num_input_tokens_seen": 157156928,
+      "step": 72760
+    },
+    {
+      "epoch": 11.870309951060358,
+      "grad_norm": 0.005293759051710367,
+      "learning_rate": 0.00042435692495369824,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 157167936,
+      "step": 72765
+    },
+    {
+      "epoch": 11.871125611745514,
+      "grad_norm": 0.014321415685117245,
+      "learning_rate": 0.0004242865651767762,
+      "loss": 0.1189,
+      "num_input_tokens_seen": 157178272,
+      "step": 72770
+    },
+    {
+      "epoch": 11.87194127243067,
+      "grad_norm": 0.0015413248911499977,
+      "learning_rate": 0.0004242162069342831,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 157189408,
+      "step": 72775
+    },
+    {
+      "epoch": 11.872756933115824,
+      "grad_norm": 0.012533880770206451,
+      "learning_rate": 0.0004241458502276446,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 157200704,
+      "step": 72780
+    },
+    {
+      "epoch": 11.87357259380098,
+      "grad_norm": 0.16592223942279816,
+      "learning_rate": 0.00042407549505828657,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 157213280,
+      "step": 72785
+    },
+    {
+      "epoch": 11.874388254486133,
+      "grad_norm": 0.11769827455282211,
+      "learning_rate": 0.0004240051414276352,
+      "loss": 0.0478,
+      "num_input_tokens_seen": 157223680,
+      "step": 72790
+    },
+    {
+      "epoch": 11.875203915171289,
+      "grad_norm": 0.017359424382448196,
+      "learning_rate": 0.00042393478933711585,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 157233664,
+      "step": 72795
+    },
+    {
+      "epoch": 11.876019575856443,
+      "grad_norm": 0.05703236162662506,
+      "learning_rate": 0.0004238644387881546,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 157244192,
+      "step": 72800
+    },
+    {
+      "epoch": 11.876835236541599,
+      "grad_norm": 0.030190356075763702,
+      "learning_rate": 0.000423794089782177,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 157254080,
+      "step": 72805
+    },
+    {
+      "epoch": 11.877650897226754,
+      "grad_norm": 0.0018631864804774523,
+      "learning_rate": 0.000423723742320609,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 157265824,
+      "step": 72810
+    },
+    {
+      "epoch": 11.878466557911908,
+      "grad_norm": 0.17252780497074127,
+      "learning_rate": 0.00042365339640487596,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 157277280,
+      "step": 72815
+    },
+    {
+      "epoch": 11.879282218597064,
+      "grad_norm": 0.08619865775108337,
+      "learning_rate": 0.0004235830520364038,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 157287584,
+      "step": 72820
+    },
+    {
+      "epoch": 11.880097879282218,
+      "grad_norm": 0.007091619074344635,
+      "learning_rate": 0.0004235127092166179,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 157298816,
+      "step": 72825
+    },
+    {
+      "epoch": 11.880913539967374,
+      "grad_norm": 0.0057108355686068535,
+      "learning_rate": 0.0004234423679469441,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 157310304,
+      "step": 72830
+    },
+    {
+      "epoch": 11.88172920065253,
+      "grad_norm": 0.009273702278733253,
+      "learning_rate": 0.0004233720282288078,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 157319840,
+      "step": 72835
+    },
+    {
+      "epoch": 11.882544861337683,
+      "grad_norm": 0.7806374430656433,
+      "learning_rate": 0.00042330169006363455,
+      "loss": 0.094,
+      "num_input_tokens_seen": 157329984,
+      "step": 72840
+    },
+    {
+      "epoch": 11.883360522022839,
+      "grad_norm": 0.005861148703843355,
+      "learning_rate": 0.0004232313534528499,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 157340768,
+      "step": 72845
+    },
+    {
+      "epoch": 11.884176182707993,
+      "grad_norm": 0.009260977618396282,
+      "learning_rate": 0.00042316101839787916,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 157351488,
+      "step": 72850
+    },
+    {
+      "epoch": 11.884991843393149,
+      "grad_norm": 0.07549002766609192,
+      "learning_rate": 0.00042309068490014787,
+      "loss": 0.065,
+      "num_input_tokens_seen": 157363392,
+      "step": 72855
+    },
+    {
+      "epoch": 11.885807504078304,
+      "grad_norm": 0.5480133295059204,
+      "learning_rate": 0.00042302035296108156,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 157374496,
+      "step": 72860
+    },
+    {
+      "epoch": 11.886623164763458,
+      "grad_norm": 0.0028016124852001667,
+      "learning_rate": 0.00042295002258210525,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 157385856,
+      "step": 72865
+    },
+    {
+      "epoch": 11.887438825448614,
+      "grad_norm": 0.011609912849962711,
+      "learning_rate": 0.00042287969376464466,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 157396512,
+      "step": 72870
+    },
+    {
+      "epoch": 11.888254486133768,
+      "grad_norm": 0.003198280232027173,
+      "learning_rate": 0.0004228093665101247,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 157407328,
+      "step": 72875
+    },
+    {
+      "epoch": 11.889070146818923,
+      "grad_norm": 0.005472021643072367,
+      "learning_rate": 0.00042273904081997115,
+      "loss": 0.025,
+      "num_input_tokens_seen": 157417376,
+      "step": 72880
+    },
+    {
+      "epoch": 11.88988580750408,
+      "grad_norm": 0.7649688720703125,
+      "learning_rate": 0.0004226687166956087,
+      "loss": 0.0381,
+      "num_input_tokens_seen": 157430624,
+      "step": 72885
+    },
+    {
+      "epoch": 11.890701468189233,
+      "grad_norm": 0.004005796741694212,
+      "learning_rate": 0.00042259839413846275,
+      "loss": 0.1093,
+      "num_input_tokens_seen": 157442336,
+      "step": 72890
+    },
+    {
+      "epoch": 11.891517128874389,
+      "grad_norm": 0.034606240689754486,
+      "learning_rate": 0.0004225280731499588,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 157452064,
+      "step": 72895
+    },
+    {
+      "epoch": 11.892332789559543,
+      "grad_norm": 0.028569230809807777,
+      "learning_rate": 0.00042245775373152153,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 157463264,
+      "step": 72900
+    },
+    {
+      "epoch": 11.893148450244698,
+      "grad_norm": 0.018665973097085953,
+      "learning_rate": 0.0004223874358845764,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 157475296,
+      "step": 72905
+    },
+    {
+      "epoch": 11.893964110929852,
+      "grad_norm": 0.004474216606467962,
+      "learning_rate": 0.0004223171196105482,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 157486176,
+      "step": 72910
+    },
+    {
+      "epoch": 11.894779771615008,
+      "grad_norm": 0.005233396776020527,
+      "learning_rate": 0.0004222468049108623,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 157497952,
+      "step": 72915
+    },
+    {
+      "epoch": 11.895595432300164,
+      "grad_norm": 0.006671491544693708,
+      "learning_rate": 0.00042217649178694327,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 157509248,
+      "step": 72920
+    },
+    {
+      "epoch": 11.896411092985318,
+      "grad_norm": 0.007623288314789534,
+      "learning_rate": 0.00042210618024021663,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 157519136,
+      "step": 72925
+    },
+    {
+      "epoch": 11.897226753670473,
+      "grad_norm": 0.03528051823377609,
+      "learning_rate": 0.00042203587027210684,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 157529824,
+      "step": 72930
+    },
+    {
+      "epoch": 11.898042414355627,
+      "grad_norm": 0.5511897802352905,
+      "learning_rate": 0.00042196556188403924,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 157540704,
+      "step": 72935
+    },
+    {
+      "epoch": 11.898858075040783,
+      "grad_norm": 0.015145723707973957,
+      "learning_rate": 0.0004218952550774383,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 157552640,
+      "step": 72940
+    },
+    {
+      "epoch": 11.899673735725939,
+      "grad_norm": 0.3677273690700531,
+      "learning_rate": 0.00042182494985372937,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 157562816,
+      "step": 72945
+    },
+    {
+      "epoch": 11.900489396411093,
+      "grad_norm": 0.03927216678857803,
+      "learning_rate": 0.0004217546462143368,
+      "loss": 0.0473,
+      "num_input_tokens_seen": 157574496,
+      "step": 72950
+    },
+    {
+      "epoch": 11.901305057096248,
+      "grad_norm": 0.0031949521508067846,
+      "learning_rate": 0.0004216843441606857,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 157584832,
+      "step": 72955
+    },
+    {
+      "epoch": 11.902120717781402,
+      "grad_norm": 0.005437622778117657,
+      "learning_rate": 0.0004216140436942006,
+      "loss": 0.0939,
+      "num_input_tokens_seen": 157595520,
+      "step": 72960
+    },
+    {
+      "epoch": 11.902936378466558,
+      "grad_norm": 0.007426468189805746,
+      "learning_rate": 0.0004215437448163065,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 157607520,
+      "step": 72965
+    },
+    {
+      "epoch": 11.903752039151712,
+      "grad_norm": 0.008727246895432472,
+      "learning_rate": 0.00042147344752842774,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 157619520,
+      "step": 72970
+    },
+    {
+      "epoch": 11.904567699836868,
+      "grad_norm": 0.7979373335838318,
+      "learning_rate": 0.0004214031518319893,
+      "loss": 0.1674,
+      "num_input_tokens_seen": 157630400,
+      "step": 72975
+    },
+    {
+      "epoch": 11.905383360522023,
+      "grad_norm": 0.012567078694701195,
+      "learning_rate": 0.0004213328577284157,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 157642080,
+      "step": 72980
+    },
+    {
+      "epoch": 11.906199021207177,
+      "grad_norm": 0.07097362726926804,
+      "learning_rate": 0.0004212625652191315,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 157653504,
+      "step": 72985
+    },
+    {
+      "epoch": 11.907014681892333,
+      "grad_norm": 0.13373368978500366,
+      "learning_rate": 0.00042119227430556137,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 157665280,
+      "step": 72990
+    },
+    {
+      "epoch": 11.907830342577487,
+      "grad_norm": 0.012603395618498325,
+      "learning_rate": 0.0004211219849891296,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 157675136,
+      "step": 72995
+    },
+    {
+      "epoch": 11.908646003262643,
+      "grad_norm": 0.0021373082417994738,
+      "learning_rate": 0.00042105169727126094,
+      "loss": 0.1518,
+      "num_input_tokens_seen": 157684544,
+      "step": 73000
+    },
+    {
+      "epoch": 11.909461663947798,
+      "grad_norm": 0.016298236325383186,
+      "learning_rate": 0.00042098141115337986,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 157694720,
+      "step": 73005
+    },
+    {
+      "epoch": 11.910277324632952,
+      "grad_norm": 0.015862375497817993,
+      "learning_rate": 0.0004209111266369107,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 157705568,
+      "step": 73010
+    },
+    {
+      "epoch": 11.911092985318108,
+      "grad_norm": 0.007350914645940065,
+      "learning_rate": 0.0004208408437232779,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 157717248,
+      "step": 73015
+    },
+    {
+      "epoch": 11.911908646003262,
+      "grad_norm": 0.5517430305480957,
+      "learning_rate": 0.00042077056241390586,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 157728096,
+      "step": 73020
+    },
+    {
+      "epoch": 11.912724306688418,
+      "grad_norm": 0.044113751500844955,
+      "learning_rate": 0.00042070028271021877,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 157738720,
+      "step": 73025
+    },
+    {
+      "epoch": 11.913539967373573,
+      "grad_norm": 0.0020097021479159594,
+      "learning_rate": 0.0004206300046136412,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 157748768,
+      "step": 73030
+    },
+    {
+      "epoch": 11.914355628058727,
+      "grad_norm": 0.013776198029518127,
+      "learning_rate": 0.00042055972812559707,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 157759392,
+      "step": 73035
+    },
+    {
+      "epoch": 11.915171288743883,
+      "grad_norm": 0.0191465113312006,
+      "learning_rate": 0.0004204894532475111,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 157770976,
+      "step": 73040
+    },
+    {
+      "epoch": 11.915986949429037,
+      "grad_norm": 0.002885065972805023,
+      "learning_rate": 0.00042041917998080695,
+      "loss": 0.021,
+      "num_input_tokens_seen": 157782080,
+      "step": 73045
+    },
+    {
+      "epoch": 11.916802610114193,
+      "grad_norm": 0.006058351136744022,
+      "learning_rate": 0.0004203489083269093,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 157793088,
+      "step": 73050
+    },
+    {
+      "epoch": 11.917618270799348,
+      "grad_norm": 0.016492463648319244,
+      "learning_rate": 0.0004202786382872419,
+      "loss": 0.1625,
+      "num_input_tokens_seen": 157805056,
+      "step": 73055
+    },
+    {
+      "epoch": 11.918433931484502,
+      "grad_norm": 0.03171005845069885,
+      "learning_rate": 0.00042020836986322917,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 157815072,
+      "step": 73060
+    },
+    {
+      "epoch": 11.919249592169658,
+      "grad_norm": 0.0331353098154068,
+      "learning_rate": 0.0004201381030562949,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 157824480,
+      "step": 73065
+    },
+    {
+      "epoch": 11.920065252854812,
+      "grad_norm": 0.12538665533065796,
+      "learning_rate": 0.00042006783786786346,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 157836928,
+      "step": 73070
+    },
+    {
+      "epoch": 11.920880913539968,
+      "grad_norm": 0.005170703399926424,
+      "learning_rate": 0.0004199975742993585,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 157848704,
+      "step": 73075
+    },
+    {
+      "epoch": 11.921696574225122,
+      "grad_norm": 0.04474220797419548,
+      "learning_rate": 0.0004199273123522044,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 157860992,
+      "step": 73080
+    },
+    {
+      "epoch": 11.922512234910277,
+      "grad_norm": 0.006513546220958233,
+      "learning_rate": 0.00041985705202782464,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 157872128,
+      "step": 73085
+    },
+    {
+      "epoch": 11.923327895595433,
+      "grad_norm": 0.042542729526758194,
+      "learning_rate": 0.00041978679332764366,
+      "loss": 0.0479,
+      "num_input_tokens_seen": 157883776,
+      "step": 73090
+    },
+    {
+      "epoch": 11.924143556280587,
+      "grad_norm": 0.007474198471754789,
+      "learning_rate": 0.0004197165362530848,
+      "loss": 0.063,
+      "num_input_tokens_seen": 157893984,
+      "step": 73095
+    },
+    {
+      "epoch": 11.924959216965743,
+      "grad_norm": 0.019985618069767952,
+      "learning_rate": 0.00041964628080557224,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 157904960,
+      "step": 73100
+    },
+    {
+      "epoch": 11.925774877650896,
+      "grad_norm": 0.002067849040031433,
+      "learning_rate": 0.0004195760269865299,
+      "loss": 0.016,
+      "num_input_tokens_seen": 157914816,
+      "step": 73105
+    },
+    {
+      "epoch": 11.926590538336052,
+      "grad_norm": 0.39414486289024353,
+      "learning_rate": 0.0004195057747973812,
+      "loss": 0.2092,
+      "num_input_tokens_seen": 157926080,
+      "step": 73110
+    },
+    {
+      "epoch": 11.927406199021208,
+      "grad_norm": 0.0032160452101379633,
+      "learning_rate": 0.0004194355242395503,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 157936992,
+      "step": 73115
+    },
+    {
+      "epoch": 11.928221859706362,
+      "grad_norm": 0.4254874289035797,
+      "learning_rate": 0.00041936527531446046,
+      "loss": 0.1429,
+      "num_input_tokens_seen": 157948864,
+      "step": 73120
+    },
+    {
+      "epoch": 11.929037520391518,
+      "grad_norm": 0.14057868719100952,
+      "learning_rate": 0.0004192950280235359,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 157958912,
+      "step": 73125
+    },
+    {
+      "epoch": 11.929853181076671,
+      "grad_norm": 0.008988683111965656,
+      "learning_rate": 0.0004192247823681997,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 157968704,
+      "step": 73130
+    },
+    {
+      "epoch": 11.930668841761827,
+      "grad_norm": 0.018005967140197754,
+      "learning_rate": 0.00041915453834987594,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 157978944,
+      "step": 73135
+    },
+    {
+      "epoch": 11.931484502446983,
+      "grad_norm": 0.26343950629234314,
+      "learning_rate": 0.0004190842959699879,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 157989504,
+      "step": 73140
+    },
+    {
+      "epoch": 11.932300163132137,
+      "grad_norm": 0.10334479063749313,
+      "learning_rate": 0.0004190140552299593,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 157999904,
+      "step": 73145
+    },
+    {
+      "epoch": 11.933115823817293,
+      "grad_norm": 0.18696285784244537,
+      "learning_rate": 0.0004189438161312136,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 158011168,
+      "step": 73150
+    },
+    {
+      "epoch": 11.933931484502446,
+      "grad_norm": 0.003918380010873079,
+      "learning_rate": 0.00041887357867517435,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 158022176,
+      "step": 73155
+    },
+    {
+      "epoch": 11.934747145187602,
+      "grad_norm": 0.35251501202583313,
+      "learning_rate": 0.0004188033428632649,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 158033408,
+      "step": 73160
+    },
+    {
+      "epoch": 11.935562805872756,
+      "grad_norm": 0.0022698971442878246,
+      "learning_rate": 0.00041873310869690875,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 158045056,
+      "step": 73165
+    },
+    {
+      "epoch": 11.936378466557912,
+      "grad_norm": 0.0054527875036001205,
+      "learning_rate": 0.00041866287617752906,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 158056352,
+      "step": 73170
+    },
+    {
+      "epoch": 11.937194127243067,
+      "grad_norm": 0.002886369824409485,
+      "learning_rate": 0.0004185926453065496,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 158067488,
+      "step": 73175
+    },
+    {
+      "epoch": 11.938009787928221,
+      "grad_norm": 0.002251496771350503,
+      "learning_rate": 0.0004185224160853933,
+      "loss": 0.1491,
+      "num_input_tokens_seen": 158079488,
+      "step": 73180
+    },
+    {
+      "epoch": 11.938825448613377,
+      "grad_norm": 0.06846843659877777,
+      "learning_rate": 0.00041845218851548375,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 158091232,
+      "step": 73185
+    },
+    {
+      "epoch": 11.939641109298531,
+      "grad_norm": 0.0593634694814682,
+      "learning_rate": 0.0004183819625982439,
+      "loss": 0.045,
+      "num_input_tokens_seen": 158102112,
+      "step": 73190
+    },
+    {
+      "epoch": 11.940456769983687,
+      "grad_norm": 0.007378603331744671,
+      "learning_rate": 0.0004183117383350973,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 158114112,
+      "step": 73195
+    },
+    {
+      "epoch": 11.941272430668842,
+      "grad_norm": 0.005221458151936531,
+      "learning_rate": 0.0004182415157274668,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 158124672,
+      "step": 73200
+    },
+    {
+      "epoch": 11.942088091353996,
+      "grad_norm": 0.04406864568591118,
+      "learning_rate": 0.00041817129477677564,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 158134816,
+      "step": 73205
+    },
+    {
+      "epoch": 11.942903752039152,
+      "grad_norm": 0.004383188672363758,
+      "learning_rate": 0.0004181010754844472,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 158145376,
+      "step": 73210
+    },
+    {
+      "epoch": 11.943719412724306,
+      "grad_norm": 0.00374322896823287,
+      "learning_rate": 0.00041803085785190416,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 158156064,
+      "step": 73215
+    },
+    {
+      "epoch": 11.944535073409462,
+      "grad_norm": 0.010824406519532204,
+      "learning_rate": 0.00041796064188057,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 158166176,
+      "step": 73220
+    },
+    {
+      "epoch": 11.945350734094617,
+      "grad_norm": 0.01288297027349472,
+      "learning_rate": 0.00041789042757186726,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 158177184,
+      "step": 73225
+    },
+    {
+      "epoch": 11.946166394779771,
+      "grad_norm": 0.055671948939561844,
+      "learning_rate": 0.00041782021492721937,
+      "loss": 0.1799,
+      "num_input_tokens_seen": 158188416,
+      "step": 73230
+    },
+    {
+      "epoch": 11.946982055464927,
+      "grad_norm": 0.02129376120865345,
+      "learning_rate": 0.00041775000394804896,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 158200256,
+      "step": 73235
+    },
+    {
+      "epoch": 11.947797716150081,
+      "grad_norm": 0.054272472858428955,
+      "learning_rate": 0.0004176797946357792,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 158211776,
+      "step": 73240
+    },
+    {
+      "epoch": 11.948613376835237,
+      "grad_norm": 0.02800886332988739,
+      "learning_rate": 0.00041760958699183263,
+      "loss": 0.1102,
+      "num_input_tokens_seen": 158222944,
+      "step": 73245
+    },
+    {
+      "epoch": 11.949429037520392,
+      "grad_norm": 0.11227209866046906,
+      "learning_rate": 0.0004175393810176325,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 158233600,
+      "step": 73250
+    },
+    {
+      "epoch": 11.950244698205546,
+      "grad_norm": 0.013811938464641571,
+      "learning_rate": 0.00041746917671460124,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 158243360,
+      "step": 73255
+    },
+    {
+      "epoch": 11.951060358890702,
+      "grad_norm": 0.10094699263572693,
+      "learning_rate": 0.000417398974084162,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 158253600,
+      "step": 73260
+    },
+    {
+      "epoch": 11.951876019575856,
+      "grad_norm": 0.05100074037909508,
+      "learning_rate": 0.0004173287731277371,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 158265984,
+      "step": 73265
+    },
+    {
+      "epoch": 11.952691680261012,
+      "grad_norm": 0.009566979482769966,
+      "learning_rate": 0.00041725857384674974,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 158277536,
+      "step": 73270
+    },
+    {
+      "epoch": 11.953507340946166,
+      "grad_norm": 0.004473550245165825,
+      "learning_rate": 0.0004171883762426221,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 158288576,
+      "step": 73275
+    },
+    {
+      "epoch": 11.954323001631321,
+      "grad_norm": 0.004220154602080584,
+      "learning_rate": 0.00041711818031677737,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 158300128,
+      "step": 73280
+    },
+    {
+      "epoch": 11.955138662316477,
+      "grad_norm": 0.022628581151366234,
+      "learning_rate": 0.00041704798607063756,
+      "loss": 0.019,
+      "num_input_tokens_seen": 158310400,
+      "step": 73285
+    },
+    {
+      "epoch": 11.955954323001631,
+      "grad_norm": 0.0035848692059516907,
+      "learning_rate": 0.0004169777935056257,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 158320448,
+      "step": 73290
+    },
+    {
+      "epoch": 11.956769983686787,
+      "grad_norm": 0.13575603067874908,
+      "learning_rate": 0.00041690760262316415,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 158330176,
+      "step": 73295
+    },
+    {
+      "epoch": 11.95758564437194,
+      "grad_norm": 0.03912244364619255,
+      "learning_rate": 0.0004168374134246754,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 158340352,
+      "step": 73300
+    },
+    {
+      "epoch": 11.958401305057096,
+      "grad_norm": 0.006890024524182081,
+      "learning_rate": 0.000416767225911582,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 158351904,
+      "step": 73305
+    },
+    {
+      "epoch": 11.959216965742252,
+      "grad_norm": 0.0030039497651159763,
+      "learning_rate": 0.0004166970400853064,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 158363360,
+      "step": 73310
+    },
+    {
+      "epoch": 11.960032626427406,
+      "grad_norm": 0.006594918668270111,
+      "learning_rate": 0.00041662685594727076,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 158374080,
+      "step": 73315
+    },
+    {
+      "epoch": 11.960848287112562,
+      "grad_norm": 0.058372244238853455,
+      "learning_rate": 0.0004165566734988979,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 158385792,
+      "step": 73320
+    },
+    {
+      "epoch": 11.961663947797716,
+      "grad_norm": 0.06784452497959137,
+      "learning_rate": 0.00041648649274160976,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 158395680,
+      "step": 73325
+    },
+    {
+      "epoch": 11.962479608482871,
+      "grad_norm": 0.010779723525047302,
+      "learning_rate": 0.0004164163136768289,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 158407552,
+      "step": 73330
+    },
+    {
+      "epoch": 11.963295269168025,
+      "grad_norm": 0.21537868678569794,
+      "learning_rate": 0.0004163461363059774,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 158418304,
+      "step": 73335
+    },
+    {
+      "epoch": 11.964110929853181,
+      "grad_norm": 0.004940703511238098,
+      "learning_rate": 0.00041627596063047753,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 158429248,
+      "step": 73340
+    },
+    {
+      "epoch": 11.964926590538337,
+      "grad_norm": 0.139415442943573,
+      "learning_rate": 0.00041620578665175166,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 158439840,
+      "step": 73345
+    },
+    {
+      "epoch": 11.96574225122349,
+      "grad_norm": 0.47116124629974365,
+      "learning_rate": 0.00041613561437122163,
+      "loss": 0.037,
+      "num_input_tokens_seen": 158449312,
+      "step": 73350
+    },
+    {
+      "epoch": 11.966557911908646,
+      "grad_norm": 0.001149240881204605,
+      "learning_rate": 0.0004160654437903101,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 158460800,
+      "step": 73355
+    },
+    {
+      "epoch": 11.9673735725938,
+      "grad_norm": 0.018407588824629784,
+      "learning_rate": 0.0004159952749104385,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 158471648,
+      "step": 73360
+    },
+    {
+      "epoch": 11.968189233278956,
+      "grad_norm": 0.004824475850909948,
+      "learning_rate": 0.00041592510773302946,
+      "loss": 0.01,
+      "num_input_tokens_seen": 158482944,
+      "step": 73365
+    },
+    {
+      "epoch": 11.969004893964112,
+      "grad_norm": 0.4063175320625305,
+      "learning_rate": 0.0004158549422595045,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 158493856,
+      "step": 73370
+    },
+    {
+      "epoch": 11.969820554649266,
+      "grad_norm": 0.007951868698000908,
+      "learning_rate": 0.0004157847784912861,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 158503680,
+      "step": 73375
+    },
+    {
+      "epoch": 11.970636215334421,
+      "grad_norm": 0.0126974331215024,
+      "learning_rate": 0.0004157146164297959,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 158514336,
+      "step": 73380
+    },
+    {
+      "epoch": 11.971451876019575,
+      "grad_norm": 0.02527419850230217,
+      "learning_rate": 0.00041564445607645607,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 158525088,
+      "step": 73385
+    },
+    {
+      "epoch": 11.97226753670473,
+      "grad_norm": 0.413861483335495,
+      "learning_rate": 0.0004155742974326881,
+      "loss": 0.1583,
+      "num_input_tokens_seen": 158536832,
+      "step": 73390
+    },
+    {
+      "epoch": 11.973083197389887,
+      "grad_norm": 0.009883550927042961,
+      "learning_rate": 0.00041550414049991435,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 158547296,
+      "step": 73395
+    },
+    {
+      "epoch": 11.97389885807504,
+      "grad_norm": 0.04352164641022682,
+      "learning_rate": 0.0004154339852795562,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 158558464,
+      "step": 73400
+    },
+    {
+      "epoch": 11.974714518760196,
+      "grad_norm": 0.002612270647659898,
+      "learning_rate": 0.0004153638317730358,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 158569888,
+      "step": 73405
+    },
+    {
+      "epoch": 11.97553017944535,
+      "grad_norm": 0.011124800890684128,
+      "learning_rate": 0.00041529367998177446,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 158580992,
+      "step": 73410
+    },
+    {
+      "epoch": 11.976345840130506,
+      "grad_norm": 0.01622111164033413,
+      "learning_rate": 0.00041522352990719434,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 158593056,
+      "step": 73415
+    },
+    {
+      "epoch": 11.977161500815662,
+      "grad_norm": 0.002231568330898881,
+      "learning_rate": 0.0004151533815507168,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 158604128,
+      "step": 73420
+    },
+    {
+      "epoch": 11.977977161500815,
+      "grad_norm": 0.1311320662498474,
+      "learning_rate": 0.00041508323491376364,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 158615424,
+      "step": 73425
+    },
+    {
+      "epoch": 11.978792822185971,
+      "grad_norm": 0.002909077098593116,
+      "learning_rate": 0.00041501308999775664,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 158627456,
+      "step": 73430
+    },
+    {
+      "epoch": 11.979608482871125,
+      "grad_norm": 0.30766910314559937,
+      "learning_rate": 0.00041494294680411695,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 158638016,
+      "step": 73435
+    },
+    {
+      "epoch": 11.98042414355628,
+      "grad_norm": 0.37345361709594727,
+      "learning_rate": 0.0004148728053342665,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 158649184,
+      "step": 73440
+    },
+    {
+      "epoch": 11.981239804241435,
+      "grad_norm": 0.018977565690875053,
+      "learning_rate": 0.0004148026655896265,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 158661152,
+      "step": 73445
+    },
+    {
+      "epoch": 11.98205546492659,
+      "grad_norm": 0.04246421530842781,
+      "learning_rate": 0.0004147325275716188,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 158670976,
+      "step": 73450
+    },
+    {
+      "epoch": 11.982871125611746,
+      "grad_norm": 0.0053014010190963745,
+      "learning_rate": 0.00041466239128166435,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 158682080,
+      "step": 73455
+    },
+    {
+      "epoch": 11.9836867862969,
+      "grad_norm": 0.019669989123940468,
+      "learning_rate": 0.00041459225672118487,
+      "loss": 0.0445,
+      "num_input_tokens_seen": 158691232,
+      "step": 73460
+    },
+    {
+      "epoch": 11.984502446982056,
+      "grad_norm": 0.4572742283344269,
+      "learning_rate": 0.0004145221238916017,
+      "loss": 0.1544,
+      "num_input_tokens_seen": 158702688,
+      "step": 73465
+    },
+    {
+      "epoch": 11.98531810766721,
+      "grad_norm": 0.42395129799842834,
+      "learning_rate": 0.0004144519927943361,
+      "loss": 0.1659,
+      "num_input_tokens_seen": 158713408,
+      "step": 73470
+    },
+    {
+      "epoch": 11.986133768352365,
+      "grad_norm": 0.004313977435231209,
+      "learning_rate": 0.0004143818634308094,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 158722624,
+      "step": 73475
+    },
+    {
+      "epoch": 11.986949429037521,
+      "grad_norm": 0.01042697299271822,
+      "learning_rate": 0.00041431173580244284,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 158732928,
+      "step": 73480
+    },
+    {
+      "epoch": 11.987765089722675,
+      "grad_norm": 0.3611927628517151,
+      "learning_rate": 0.0004142416099106576,
+      "loss": 0.053,
+      "num_input_tokens_seen": 158743360,
+      "step": 73485
+    },
+    {
+      "epoch": 11.98858075040783,
+      "grad_norm": 0.03010513260960579,
+      "learning_rate": 0.0004141714857568751,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 158753728,
+      "step": 73490
+    },
+    {
+      "epoch": 11.989396411092985,
+      "grad_norm": 0.002898262580856681,
+      "learning_rate": 0.0004141013633425161,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 158764768,
+      "step": 73495
+    },
+    {
+      "epoch": 11.99021207177814,
+      "grad_norm": 0.0036916485987603664,
+      "learning_rate": 0.0004140312426690022,
+      "loss": 0.0285,
+      "num_input_tokens_seen": 158775072,
+      "step": 73500
+    },
+    {
+      "epoch": 11.991027732463294,
+      "grad_norm": 0.06801813840866089,
+      "learning_rate": 0.000413961123737754,
+      "loss": 0.0264,
+      "num_input_tokens_seen": 158786528,
+      "step": 73505
+    },
+    {
+      "epoch": 11.99184339314845,
+      "grad_norm": 0.40527936816215515,
+      "learning_rate": 0.00041389100655019295,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 158797664,
+      "step": 73510
+    },
+    {
+      "epoch": 11.992659053833606,
+      "grad_norm": 0.005984405521303415,
+      "learning_rate": 0.00041382089110773975,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 158808992,
+      "step": 73515
+    },
+    {
+      "epoch": 11.99347471451876,
+      "grad_norm": 0.3398209810256958,
+      "learning_rate": 0.00041375077741181564,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 158819520,
+      "step": 73520
+    },
+    {
+      "epoch": 11.994290375203915,
+      "grad_norm": 0.03455796837806702,
+      "learning_rate": 0.0004136806654638413,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 158829600,
+      "step": 73525
+    },
+    {
+      "epoch": 11.99510603588907,
+      "grad_norm": 0.423898309469223,
+      "learning_rate": 0.0004136105552652377,
+      "loss": 0.1036,
+      "num_input_tokens_seen": 158841376,
+      "step": 73530
+    },
+    {
+      "epoch": 11.995921696574225,
+      "grad_norm": 0.08282370865345001,
+      "learning_rate": 0.0004135404468174261,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 158851264,
+      "step": 73535
+    },
+    {
+      "epoch": 11.99673735725938,
+      "grad_norm": 0.01659543439745903,
+      "learning_rate": 0.0004134703401218268,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 158861536,
+      "step": 73540
+    },
+    {
+      "epoch": 11.997553017944535,
+      "grad_norm": 0.0014833472669124603,
+      "learning_rate": 0.00041340023517986096,
+      "loss": 0.024,
+      "num_input_tokens_seen": 158872288,
+      "step": 73545
+    },
+    {
+      "epoch": 11.99836867862969,
+      "grad_norm": 0.014465752989053726,
+      "learning_rate": 0.00041333013199294907,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 158881920,
+      "step": 73550
+    },
+    {
+      "epoch": 11.999184339314844,
+      "grad_norm": 0.032355792820453644,
+      "learning_rate": 0.0004132600305625122,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 158892960,
+      "step": 73555
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.007642882410436869,
+      "learning_rate": 0.0004131899308899706,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 158902432,
+      "step": 73560
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.1854449361562729,
+      "eval_runtime": 103.8442,
+      "eval_samples_per_second": 26.241,
+      "eval_steps_per_second": 6.568,
+      "num_input_tokens_seen": 158902432,
+      "step": 73560
+    },
+    {
+      "epoch": 12.000815660685156,
+      "grad_norm": 0.5162748694419861,
+      "learning_rate": 0.00041311983297674545,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 158913760,
+      "step": 73565
+    },
+    {
+      "epoch": 12.00163132137031,
+      "grad_norm": 0.05222615599632263,
+      "learning_rate": 0.00041304973682425685,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 158924672,
+      "step": 73570
+    },
+    {
+      "epoch": 12.002446982055465,
+      "grad_norm": 0.021363843232393265,
+      "learning_rate": 0.00041297964243392583,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 158935840,
+      "step": 73575
+    },
+    {
+      "epoch": 12.00326264274062,
+      "grad_norm": 0.002701932331547141,
+      "learning_rate": 0.0004129095498071726,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 158946688,
+      "step": 73580
+    },
+    {
+      "epoch": 12.004078303425775,
+      "grad_norm": 0.013134065084159374,
+      "learning_rate": 0.000412839458945418,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 158956704,
+      "step": 73585
+    },
+    {
+      "epoch": 12.00489396411093,
+      "grad_norm": 0.018720904365181923,
+      "learning_rate": 0.0004127693698500821,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 158967648,
+      "step": 73590
+    },
+    {
+      "epoch": 12.005709624796085,
+      "grad_norm": 0.014408317394554615,
+      "learning_rate": 0.0004126992825225858,
+      "loss": 0.0891,
+      "num_input_tokens_seen": 158978912,
+      "step": 73595
+    },
+    {
+      "epoch": 12.00652528548124,
+      "grad_norm": 0.46795928478240967,
+      "learning_rate": 0.00041262919696434915,
+      "loss": 0.1526,
+      "num_input_tokens_seen": 158990272,
+      "step": 73600
+    },
+    {
+      "epoch": 12.007340946166394,
+      "grad_norm": 0.0026603129226714373,
+      "learning_rate": 0.0004125591131767927,
+      "loss": 0.053,
+      "num_input_tokens_seen": 159001440,
+      "step": 73605
+    },
+    {
+      "epoch": 12.00815660685155,
+      "grad_norm": 0.0020938925445079803,
+      "learning_rate": 0.00041248903116133674,
+      "loss": 0.003,
+      "num_input_tokens_seen": 159012608,
+      "step": 73610
+    },
+    {
+      "epoch": 12.008972267536704,
+      "grad_norm": 0.0015925763873383403,
+      "learning_rate": 0.0004124189509194016,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 159024256,
+      "step": 73615
+    },
+    {
+      "epoch": 12.00978792822186,
+      "grad_norm": 0.03945109248161316,
+      "learning_rate": 0.00041234887245240756,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 159035424,
+      "step": 73620
+    },
+    {
+      "epoch": 12.010603588907015,
+      "grad_norm": 0.06973441690206528,
+      "learning_rate": 0.00041227879576177475,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 159044448,
+      "step": 73625
+    },
+    {
+      "epoch": 12.01141924959217,
+      "grad_norm": 0.05123627558350563,
+      "learning_rate": 0.00041220872084892337,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 159054912,
+      "step": 73630
+    },
+    {
+      "epoch": 12.012234910277325,
+      "grad_norm": 0.014868333004415035,
+      "learning_rate": 0.00041213864771527366,
+      "loss": 0.021,
+      "num_input_tokens_seen": 159066912,
+      "step": 73635
+    },
+    {
+      "epoch": 12.013050570962479,
+      "grad_norm": 0.29003819823265076,
+      "learning_rate": 0.0004120685763622458,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 159076704,
+      "step": 73640
+    },
+    {
+      "epoch": 12.013866231647635,
+      "grad_norm": 0.002655792748555541,
+      "learning_rate": 0.00041199850679125974,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 159087200,
+      "step": 73645
+    },
+    {
+      "epoch": 12.01468189233279,
+      "grad_norm": 0.019231455400586128,
+      "learning_rate": 0.0004119284390037356,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 159099200,
+      "step": 73650
+    },
+    {
+      "epoch": 12.015497553017944,
+      "grad_norm": 0.0031092215795069933,
+      "learning_rate": 0.00041185837300109326,
+      "loss": 0.1035,
+      "num_input_tokens_seen": 159108800,
+      "step": 73655
+    },
+    {
+      "epoch": 12.0163132137031,
+      "grad_norm": 0.08691810816526413,
+      "learning_rate": 0.00041178830878475304,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 159120032,
+      "step": 73660
+    },
+    {
+      "epoch": 12.017128874388254,
+      "grad_norm": 0.05167734995484352,
+      "learning_rate": 0.00041171824635613443,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 159131584,
+      "step": 73665
+    },
+    {
+      "epoch": 12.01794453507341,
+      "grad_norm": 0.03976357355713844,
+      "learning_rate": 0.00041164818571665774,
+      "loss": 0.1218,
+      "num_input_tokens_seen": 159142752,
+      "step": 73670
+    },
+    {
+      "epoch": 12.018760195758565,
+      "grad_norm": 0.0090693524107337,
+      "learning_rate": 0.00041157812686774245,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 159152384,
+      "step": 73675
+    },
+    {
+      "epoch": 12.01957585644372,
+      "grad_norm": 0.004124946426600218,
+      "learning_rate": 0.0004115080698108088,
+      "loss": 0.009,
+      "num_input_tokens_seen": 159163360,
+      "step": 73680
+    },
+    {
+      "epoch": 12.020391517128875,
+      "grad_norm": 0.003406350966542959,
+      "learning_rate": 0.0004114380145472761,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 159174176,
+      "step": 73685
+    },
+    {
+      "epoch": 12.021207177814029,
+      "grad_norm": 0.01586691476404667,
+      "learning_rate": 0.00041136796107856465,
+      "loss": 0.015,
+      "num_input_tokens_seen": 159185088,
+      "step": 73690
+    },
+    {
+      "epoch": 12.022022838499185,
+      "grad_norm": 0.005119045730680227,
+      "learning_rate": 0.00041129790940609375,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 159196448,
+      "step": 73695
+    },
+    {
+      "epoch": 12.022838499184338,
+      "grad_norm": 0.0177877489477396,
+      "learning_rate": 0.0004112278595312834,
+      "loss": 0.0978,
+      "num_input_tokens_seen": 159207872,
+      "step": 73700
+    },
+    {
+      "epoch": 12.023654159869494,
+      "grad_norm": 0.003837467636913061,
+      "learning_rate": 0.00041115781145555286,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 159218304,
+      "step": 73705
+    },
+    {
+      "epoch": 12.02446982055465,
+      "grad_norm": 0.006132758688181639,
+      "learning_rate": 0.0004110877651803222,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 159229152,
+      "step": 73710
+    },
+    {
+      "epoch": 12.025285481239804,
+      "grad_norm": 0.0033713181037455797,
+      "learning_rate": 0.0004110177207070106,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 159239808,
+      "step": 73715
+    },
+    {
+      "epoch": 12.02610114192496,
+      "grad_norm": 0.018628062680363655,
+      "learning_rate": 0.0004109476780370379,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 159250400,
+      "step": 73720
+    },
+    {
+      "epoch": 12.026916802610113,
+      "grad_norm": 0.018260814249515533,
+      "learning_rate": 0.00041087763717182336,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 159261024,
+      "step": 73725
+    },
+    {
+      "epoch": 12.02773246329527,
+      "grad_norm": 0.009373247623443604,
+      "learning_rate": 0.00041080759811278674,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 159271264,
+      "step": 73730
+    },
+    {
+      "epoch": 12.028548123980425,
+      "grad_norm": 0.025325864553451538,
+      "learning_rate": 0.00041073756086134705,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 159282400,
+      "step": 73735
+    },
+    {
+      "epoch": 12.029363784665579,
+      "grad_norm": 0.004139396827667952,
+      "learning_rate": 0.00041066752541892395,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 159293248,
+      "step": 73740
+    },
+    {
+      "epoch": 12.030179445350734,
+      "grad_norm": 0.331638365983963,
+      "learning_rate": 0.000410597491786937,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 159303040,
+      "step": 73745
+    },
+    {
+      "epoch": 12.030995106035888,
+      "grad_norm": 0.02152330055832863,
+      "learning_rate": 0.0004105274599668051,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 159314432,
+      "step": 73750
+    },
+    {
+      "epoch": 12.031810766721044,
+      "grad_norm": 0.002201348775997758,
+      "learning_rate": 0.00041045742995994783,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 159325696,
+      "step": 73755
+    },
+    {
+      "epoch": 12.0326264274062,
+      "grad_norm": 0.003991606179624796,
+      "learning_rate": 0.0004103874017677842,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 159337664,
+      "step": 73760
+    },
+    {
+      "epoch": 12.033442088091354,
+      "grad_norm": 0.05896512418985367,
+      "learning_rate": 0.0004103173753917337,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 159349088,
+      "step": 73765
+    },
+    {
+      "epoch": 12.03425774877651,
+      "grad_norm": 0.0014206412015482783,
+      "learning_rate": 0.0004102473508332153,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 159361056,
+      "step": 73770
+    },
+    {
+      "epoch": 12.035073409461663,
+      "grad_norm": 0.024218376725912094,
+      "learning_rate": 0.00041017732809364824,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 159371104,
+      "step": 73775
+    },
+    {
+      "epoch": 12.035889070146819,
+      "grad_norm": 0.6135803461074829,
+      "learning_rate": 0.00041010730717445156,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 159380960,
+      "step": 73780
+    },
+    {
+      "epoch": 12.036704730831975,
+      "grad_norm": 0.014351412653923035,
+      "learning_rate": 0.00041003728807704435,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 159393280,
+      "step": 73785
+    },
+    {
+      "epoch": 12.037520391517129,
+      "grad_norm": 0.0027120737358927727,
+      "learning_rate": 0.00040996727080284555,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 159404960,
+      "step": 73790
+    },
+    {
+      "epoch": 12.038336052202284,
+      "grad_norm": 0.020590249449014664,
+      "learning_rate": 0.0004098972553532743,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 159416544,
+      "step": 73795
+    },
+    {
+      "epoch": 12.039151712887438,
+      "grad_norm": 0.006616574712097645,
+      "learning_rate": 0.00040982724172974926,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 159427072,
+      "step": 73800
+    },
+    {
+      "epoch": 12.039967373572594,
+      "grad_norm": 0.00522937485948205,
+      "learning_rate": 0.0004097572299336899,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 159438144,
+      "step": 73805
+    },
+    {
+      "epoch": 12.040783034257748,
+      "grad_norm": 0.005134327802807093,
+      "learning_rate": 0.00040968721996651445,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 159447392,
+      "step": 73810
+    },
+    {
+      "epoch": 12.041598694942904,
+      "grad_norm": 0.016191143542528152,
+      "learning_rate": 0.00040961721182964235,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 159458144,
+      "step": 73815
+    },
+    {
+      "epoch": 12.04241435562806,
+      "grad_norm": 0.007574434857815504,
+      "learning_rate": 0.00040954720552449186,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 159469472,
+      "step": 73820
+    },
+    {
+      "epoch": 12.043230016313213,
+      "grad_norm": 0.010849296115338802,
+      "learning_rate": 0.0004094772010524822,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 159480096,
+      "step": 73825
+    },
+    {
+      "epoch": 12.044045676998369,
+      "grad_norm": 0.10277484357357025,
+      "learning_rate": 0.0004094071984150317,
+      "loss": 0.1408,
+      "num_input_tokens_seen": 159492000,
+      "step": 73830
+    },
+    {
+      "epoch": 12.044861337683523,
+      "grad_norm": 0.0031220330856740475,
+      "learning_rate": 0.0004093371976135595,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 159503392,
+      "step": 73835
+    },
+    {
+      "epoch": 12.045676998368679,
+      "grad_norm": 0.03206094354391098,
+      "learning_rate": 0.0004092671986494837,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 159514944,
+      "step": 73840
+    },
+    {
+      "epoch": 12.046492659053834,
+      "grad_norm": 0.043139755725860596,
+      "learning_rate": 0.00040919720152422323,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 159526368,
+      "step": 73845
+    },
+    {
+      "epoch": 12.047308319738988,
+      "grad_norm": 0.0034898552112281322,
+      "learning_rate": 0.00040912720623919696,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 159538336,
+      "step": 73850
+    },
+    {
+      "epoch": 12.048123980424144,
+      "grad_norm": 0.001161689287982881,
+      "learning_rate": 0.00040905721279582284,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 159548096,
+      "step": 73855
+    },
+    {
+      "epoch": 12.048939641109298,
+      "grad_norm": 0.0020751608535647392,
+      "learning_rate": 0.00040898722119551994,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 159558592,
+      "step": 73860
+    },
+    {
+      "epoch": 12.049755301794454,
+      "grad_norm": 0.002460476942360401,
+      "learning_rate": 0.0004089172314397063,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 159569088,
+      "step": 73865
+    },
+    {
+      "epoch": 12.05057096247961,
+      "grad_norm": 0.012570970691740513,
+      "learning_rate": 0.00040884724352980065,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 159579232,
+      "step": 73870
+    },
+    {
+      "epoch": 12.051386623164763,
+      "grad_norm": 0.023806337267160416,
+      "learning_rate": 0.00040877725746722097,
+      "loss": 0.0333,
+      "num_input_tokens_seen": 159590688,
+      "step": 73875
+    },
+    {
+      "epoch": 12.052202283849919,
+      "grad_norm": 0.004042148124426603,
+      "learning_rate": 0.0004087072732533862,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 159602016,
+      "step": 73880
+    },
+    {
+      "epoch": 12.053017944535073,
+      "grad_norm": 0.001157692400738597,
+      "learning_rate": 0.0004086372908897141,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 159611392,
+      "step": 73885
+    },
+    {
+      "epoch": 12.053833605220229,
+      "grad_norm": 0.03635965660214424,
+      "learning_rate": 0.0004085673103776234,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 159623008,
+      "step": 73890
+    },
+    {
+      "epoch": 12.054649265905383,
+      "grad_norm": 0.0029063147958368063,
+      "learning_rate": 0.000408497331718532,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 159633120,
+      "step": 73895
+    },
+    {
+      "epoch": 12.055464926590538,
+      "grad_norm": 0.027852777391672134,
+      "learning_rate": 0.0004084273549138584,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 159642944,
+      "step": 73900
+    },
+    {
+      "epoch": 12.056280587275694,
+      "grad_norm": 0.6098665595054626,
+      "learning_rate": 0.0004083573799650204,
+      "loss": 0.1428,
+      "num_input_tokens_seen": 159652064,
+      "step": 73905
+    },
+    {
+      "epoch": 12.057096247960848,
+      "grad_norm": 0.002536676125600934,
+      "learning_rate": 0.00040828740687343654,
+      "loss": 0.002,
+      "num_input_tokens_seen": 159661824,
+      "step": 73910
+    },
+    {
+      "epoch": 12.057911908646004,
+      "grad_norm": 0.1208946481347084,
+      "learning_rate": 0.0004082174356405247,
+      "loss": 0.0692,
+      "num_input_tokens_seen": 159673024,
+      "step": 73915
+    },
+    {
+      "epoch": 12.058727569331158,
+      "grad_norm": 0.002335605677217245,
+      "learning_rate": 0.00040814746626770287,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 159684736,
+      "step": 73920
+    },
+    {
+      "epoch": 12.059543230016313,
+      "grad_norm": 0.175007626414299,
+      "learning_rate": 0.0004080774987563893,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 159696128,
+      "step": 73925
+    },
+    {
+      "epoch": 12.060358890701469,
+      "grad_norm": 0.019628094509243965,
+      "learning_rate": 0.0004080075331080017,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 159707712,
+      "step": 73930
+    },
+    {
+      "epoch": 12.061174551386623,
+      "grad_norm": 0.7227426767349243,
+      "learning_rate": 0.0004079375693239581,
+      "loss": 0.2223,
+      "num_input_tokens_seen": 159717440,
+      "step": 73935
+    },
+    {
+      "epoch": 12.061990212071779,
+      "grad_norm": 0.2504555583000183,
+      "learning_rate": 0.0004078676074056766,
+      "loss": 0.021,
+      "num_input_tokens_seen": 159729312,
+      "step": 73940
+    },
+    {
+      "epoch": 12.062805872756933,
+      "grad_norm": 0.15913152694702148,
+      "learning_rate": 0.0004077976473545748,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 159739680,
+      "step": 73945
+    },
+    {
+      "epoch": 12.063621533442088,
+      "grad_norm": 0.004883287940174341,
+      "learning_rate": 0.0004077276891720707,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 159750784,
+      "step": 73950
+    },
+    {
+      "epoch": 12.064437194127244,
+      "grad_norm": 0.004812562372535467,
+      "learning_rate": 0.000407657732859582,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 159760544,
+      "step": 73955
+    },
+    {
+      "epoch": 12.065252854812398,
+      "grad_norm": 0.2379300892353058,
+      "learning_rate": 0.00040758777841852647,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 159772416,
+      "step": 73960
+    },
+    {
+      "epoch": 12.066068515497554,
+      "grad_norm": 0.220754474401474,
+      "learning_rate": 0.000407517825850322,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 159782560,
+      "step": 73965
+    },
+    {
+      "epoch": 12.066884176182707,
+      "grad_norm": 0.004285324830561876,
+      "learning_rate": 0.00040744787515638585,
+      "loss": 0.009,
+      "num_input_tokens_seen": 159792480,
+      "step": 73970
+    },
+    {
+      "epoch": 12.067699836867863,
+      "grad_norm": 0.0040510534308850765,
+      "learning_rate": 0.00040737792633813624,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 159803456,
+      "step": 73975
+    },
+    {
+      "epoch": 12.068515497553017,
+      "grad_norm": 0.0067472876980900764,
+      "learning_rate": 0.00040730797939699014,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 159813984,
+      "step": 73980
+    },
+    {
+      "epoch": 12.069331158238173,
+      "grad_norm": 0.006962975487112999,
+      "learning_rate": 0.00040723803433436573,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 159824608,
+      "step": 73985
+    },
+    {
+      "epoch": 12.070146818923329,
+      "grad_norm": 0.10496911406517029,
+      "learning_rate": 0.00040716809115167997,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 159834720,
+      "step": 73990
+    },
+    {
+      "epoch": 12.070962479608482,
+      "grad_norm": 0.022543715313076973,
+      "learning_rate": 0.0004070981498503508,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 159846080,
+      "step": 73995
+    },
+    {
+      "epoch": 12.071778140293638,
+      "grad_norm": 0.0111811188980937,
+      "learning_rate": 0.0004070282104317953,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 159857792,
+      "step": 74000
+    },
+    {
+      "epoch": 12.072593800978792,
+      "grad_norm": 0.023856064304709435,
+      "learning_rate": 0.0004069582728974313,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 159869056,
+      "step": 74005
+    },
+    {
+      "epoch": 12.073409461663948,
+      "grad_norm": 0.0023362748324871063,
+      "learning_rate": 0.00040688833724867565,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 159880192,
+      "step": 74010
+    },
+    {
+      "epoch": 12.074225122349104,
+      "grad_norm": 0.0023756767623126507,
+      "learning_rate": 0.0004068184034869462,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 159892288,
+      "step": 74015
+    },
+    {
+      "epoch": 12.075040783034257,
+      "grad_norm": 0.008905721828341484,
+      "learning_rate": 0.0004067484716136598,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 159903200,
+      "step": 74020
+    },
+    {
+      "epoch": 12.075856443719413,
+      "grad_norm": 0.0030674946028739214,
+      "learning_rate": 0.00040667854163023415,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 159913952,
+      "step": 74025
+    },
+    {
+      "epoch": 12.076672104404567,
+      "grad_norm": 0.0404362678527832,
+      "learning_rate": 0.000406608613538086,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 159925248,
+      "step": 74030
+    },
+    {
+      "epoch": 12.077487765089723,
+      "grad_norm": 0.013325365260243416,
+      "learning_rate": 0.000406538687338633,
+      "loss": 0.07,
+      "num_input_tokens_seen": 159936096,
+      "step": 74035
+    },
+    {
+      "epoch": 12.078303425774878,
+      "grad_norm": 0.026394739747047424,
+      "learning_rate": 0.0004064687630332919,
+      "loss": 0.005,
+      "num_input_tokens_seen": 159946592,
+      "step": 74040
+    },
+    {
+      "epoch": 12.079119086460032,
+      "grad_norm": 0.16963490843772888,
+      "learning_rate": 0.0004063988406234801,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 159957248,
+      "step": 74045
+    },
+    {
+      "epoch": 12.079934747145188,
+      "grad_norm": 0.1959126889705658,
+      "learning_rate": 0.0004063289201106144,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 159968384,
+      "step": 74050
+    },
+    {
+      "epoch": 12.080750407830342,
+      "grad_norm": 0.006187156308442354,
+      "learning_rate": 0.000406259001496112,
+      "loss": 0.015,
+      "num_input_tokens_seen": 159977536,
+      "step": 74055
+    },
+    {
+      "epoch": 12.081566068515498,
+      "grad_norm": 0.008363723754882812,
+      "learning_rate": 0.00040618908478138986,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 159987904,
+      "step": 74060
+    },
+    {
+      "epoch": 12.082381729200652,
+      "grad_norm": 0.025374621152877808,
+      "learning_rate": 0.0004061191699678649,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 159998080,
+      "step": 74065
+    },
+    {
+      "epoch": 12.083197389885807,
+      "grad_norm": 0.001546714105643332,
+      "learning_rate": 0.0004060492570569542,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 160009984,
+      "step": 74070
+    },
+    {
+      "epoch": 12.084013050570963,
+      "grad_norm": 0.014130688272416592,
+      "learning_rate": 0.0004059793460500742,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 160021728,
+      "step": 74075
+    },
+    {
+      "epoch": 12.084828711256117,
+      "grad_norm": 0.3345913589000702,
+      "learning_rate": 0.0004059094369486423,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 160031264,
+      "step": 74080
+    },
+    {
+      "epoch": 12.085644371941273,
+      "grad_norm": 0.0023609360214322805,
+      "learning_rate": 0.00040583952975407493,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 160042560,
+      "step": 74085
+    },
+    {
+      "epoch": 12.086460032626427,
+      "grad_norm": 0.0316849909722805,
+      "learning_rate": 0.000405769624467789,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 160053856,
+      "step": 74090
+    },
+    {
+      "epoch": 12.087275693311582,
+      "grad_norm": 0.0007231601630337536,
+      "learning_rate": 0.0004056997210912011,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 160064800,
+      "step": 74095
+    },
+    {
+      "epoch": 12.088091353996738,
+      "grad_norm": 0.014824706129729748,
+      "learning_rate": 0.00040562981962572803,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 160076224,
+      "step": 74100
+    },
+    {
+      "epoch": 12.088907014681892,
+      "grad_norm": 0.0029631692450493574,
+      "learning_rate": 0.00040555992007278624,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 160087328,
+      "step": 74105
+    },
+    {
+      "epoch": 12.089722675367048,
+      "grad_norm": 0.01084907166659832,
+      "learning_rate": 0.00040549002243379267,
+      "loss": 0.0584,
+      "num_input_tokens_seen": 160097184,
+      "step": 74110
+    },
+    {
+      "epoch": 12.090538336052202,
+      "grad_norm": 0.017258066684007645,
+      "learning_rate": 0.00040542012671016355,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 160107392,
+      "step": 74115
+    },
+    {
+      "epoch": 12.091353996737357,
+      "grad_norm": 0.022070029750466347,
+      "learning_rate": 0.00040535023290331573,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 160118176,
+      "step": 74120
+    },
+    {
+      "epoch": 12.092169657422513,
+      "grad_norm": 0.013220726512372494,
+      "learning_rate": 0.0004052803410146653,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 160129792,
+      "step": 74125
+    },
+    {
+      "epoch": 12.092985318107667,
+      "grad_norm": 0.018424084410071373,
+      "learning_rate": 0.0004052104510456291,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 160139712,
+      "step": 74130
+    },
+    {
+      "epoch": 12.093800978792823,
+      "grad_norm": 0.0037279201205819845,
+      "learning_rate": 0.00040514056299762314,
+      "loss": 0.1487,
+      "num_input_tokens_seen": 160150880,
+      "step": 74135
+    },
+    {
+      "epoch": 12.094616639477977,
+      "grad_norm": 0.00917022954672575,
+      "learning_rate": 0.0004050706768720642,
+      "loss": 0.1348,
+      "num_input_tokens_seen": 160162368,
+      "step": 74140
+    },
+    {
+      "epoch": 12.095432300163132,
+      "grad_norm": 0.07259730249643326,
+      "learning_rate": 0.00040500079267036834,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 160172864,
+      "step": 74145
+    },
+    {
+      "epoch": 12.096247960848286,
+      "grad_norm": 0.004743486177176237,
+      "learning_rate": 0.000404930910393952,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 160183040,
+      "step": 74150
+    },
+    {
+      "epoch": 12.097063621533442,
+      "grad_norm": 0.0031580179929733276,
+      "learning_rate": 0.0004048610300442313,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 160192416,
+      "step": 74155
+    },
+    {
+      "epoch": 12.097879282218598,
+      "grad_norm": 0.4201613664627075,
+      "learning_rate": 0.0004047911516226226,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 160202496,
+      "step": 74160
+    },
+    {
+      "epoch": 12.098694942903752,
+      "grad_norm": 0.010104143060743809,
+      "learning_rate": 0.0004047212751305418,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 160211904,
+      "step": 74165
+    },
+    {
+      "epoch": 12.099510603588907,
+      "grad_norm": 0.021120961755514145,
+      "learning_rate": 0.00040465140056940524,
+      "loss": 0.004,
+      "num_input_tokens_seen": 160221632,
+      "step": 74170
+    },
+    {
+      "epoch": 12.100326264274061,
+      "grad_norm": 0.04819793999195099,
+      "learning_rate": 0.00040458152794062925,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 160232864,
+      "step": 74175
+    },
+    {
+      "epoch": 12.101141924959217,
+      "grad_norm": 0.01660446636378765,
+      "learning_rate": 0.00040451165724562937,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 160244512,
+      "step": 74180
+    },
+    {
+      "epoch": 12.101957585644373,
+      "grad_norm": 0.0020989153999835253,
+      "learning_rate": 0.0004044417884858221,
+      "loss": 0.3075,
+      "num_input_tokens_seen": 160255872,
+      "step": 74185
+    },
+    {
+      "epoch": 12.102773246329527,
+      "grad_norm": 0.0209684856235981,
+      "learning_rate": 0.0004043719216626231,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 160266432,
+      "step": 74190
+    },
+    {
+      "epoch": 12.103588907014682,
+      "grad_norm": 1.1977218389511108,
+      "learning_rate": 0.00040430205677744857,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 160276928,
+      "step": 74195
+    },
+    {
+      "epoch": 12.104404567699836,
+      "grad_norm": 0.004599343985319138,
+      "learning_rate": 0.00040423219383171405,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 160287072,
+      "step": 74200
+    },
+    {
+      "epoch": 12.105220228384992,
+      "grad_norm": 0.01282755471765995,
+      "learning_rate": 0.0004041623328268358,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 160298240,
+      "step": 74205
+    },
+    {
+      "epoch": 12.106035889070148,
+      "grad_norm": 0.06137290969491005,
+      "learning_rate": 0.0004040924737642293,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 160310016,
+      "step": 74210
+    },
+    {
+      "epoch": 12.106851549755302,
+      "grad_norm": 0.004412582144141197,
+      "learning_rate": 0.0004040226166453107,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 160320928,
+      "step": 74215
+    },
+    {
+      "epoch": 12.107667210440457,
+      "grad_norm": 0.022301241755485535,
+      "learning_rate": 0.00040395276147149524,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 160331360,
+      "step": 74220
+    },
+    {
+      "epoch": 12.108482871125611,
+      "grad_norm": 0.002443633507937193,
+      "learning_rate": 0.000403882908244199,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 160342496,
+      "step": 74225
+    },
+    {
+      "epoch": 12.109298531810767,
+      "grad_norm": 0.028277039527893066,
+      "learning_rate": 0.00040381305696483773,
+      "loss": 0.0746,
+      "num_input_tokens_seen": 160352960,
+      "step": 74230
+    },
+    {
+      "epoch": 12.11011419249592,
+      "grad_norm": 0.006705199368298054,
+      "learning_rate": 0.00040374320763482673,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 160363936,
+      "step": 74235
+    },
+    {
+      "epoch": 12.110929853181077,
+      "grad_norm": 0.24397537112236023,
+      "learning_rate": 0.0004036733602555818,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 160375520,
+      "step": 74240
+    },
+    {
+      "epoch": 12.111745513866232,
+      "grad_norm": 0.0006988913519307971,
+      "learning_rate": 0.0004036035148285184,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 160387072,
+      "step": 74245
+    },
+    {
+      "epoch": 12.112561174551386,
+      "grad_norm": 0.0005958918482065201,
+      "learning_rate": 0.00040353367135505193,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 160397824,
+      "step": 74250
+    },
+    {
+      "epoch": 12.113376835236542,
+      "grad_norm": 0.012600153684616089,
+      "learning_rate": 0.00040346382983659826,
+      "loss": 0.0377,
+      "num_input_tokens_seen": 160409056,
+      "step": 74255
+    },
+    {
+      "epoch": 12.114192495921696,
+      "grad_norm": 0.03363886475563049,
+      "learning_rate": 0.0004033939902745723,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 160417984,
+      "step": 74260
+    },
+    {
+      "epoch": 12.115008156606851,
+      "grad_norm": 0.027498042210936546,
+      "learning_rate": 0.0004033241526703899,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 160428864,
+      "step": 74265
+    },
+    {
+      "epoch": 12.115823817292007,
+      "grad_norm": 0.013976640067994595,
+      "learning_rate": 0.00040325431702546596,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 160439296,
+      "step": 74270
+    },
+    {
+      "epoch": 12.116639477977161,
+      "grad_norm": 0.09229818731546402,
+      "learning_rate": 0.000403184483341216,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 160450336,
+      "step": 74275
+    },
+    {
+      "epoch": 12.117455138662317,
+      "grad_norm": 0.004774386063218117,
+      "learning_rate": 0.0004031146516190556,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 160461152,
+      "step": 74280
+    },
+    {
+      "epoch": 12.11827079934747,
+      "grad_norm": 0.0031991363503038883,
+      "learning_rate": 0.00040304482186039937,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 160472384,
+      "step": 74285
+    },
+    {
+      "epoch": 12.119086460032626,
+      "grad_norm": 0.08653301745653152,
+      "learning_rate": 0.0004029749940666631,
+      "loss": 0.008,
+      "num_input_tokens_seen": 160482080,
+      "step": 74290
+    },
+    {
+      "epoch": 12.119902120717782,
+      "grad_norm": 0.035763002932071686,
+      "learning_rate": 0.00040290516823926145,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 160492864,
+      "step": 74295
+    },
+    {
+      "epoch": 12.120717781402936,
+      "grad_norm": 0.1830175220966339,
+      "learning_rate": 0.0004028353443796099,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 160504064,
+      "step": 74300
+    },
+    {
+      "epoch": 12.121533442088092,
+      "grad_norm": 0.0060828630812466145,
+      "learning_rate": 0.00040276552248912317,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 160513888,
+      "step": 74305
+    },
+    {
+      "epoch": 12.122349102773246,
+      "grad_norm": 0.013971041887998581,
+      "learning_rate": 0.00040269570256921673,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 160524512,
+      "step": 74310
+    },
+    {
+      "epoch": 12.123164763458401,
+      "grad_norm": 0.5153065323829651,
+      "learning_rate": 0.00040262588462130507,
+      "loss": 0.1341,
+      "num_input_tokens_seen": 160535712,
+      "step": 74315
+    },
+    {
+      "epoch": 12.123980424143557,
+      "grad_norm": 0.01689624786376953,
+      "learning_rate": 0.0004025560686468036,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 160546432,
+      "step": 74320
+    },
+    {
+      "epoch": 12.124796084828711,
+      "grad_norm": 0.058722566813230515,
+      "learning_rate": 0.0004024862546471268,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 160556704,
+      "step": 74325
+    },
+    {
+      "epoch": 12.125611745513867,
+      "grad_norm": 0.006426146719604731,
+      "learning_rate": 0.00040241644262368993,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 160568064,
+      "step": 74330
+    },
+    {
+      "epoch": 12.12642740619902,
+      "grad_norm": 0.007449703756719828,
+      "learning_rate": 0.00040234663257790747,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 160578496,
+      "step": 74335
+    },
+    {
+      "epoch": 12.127243066884176,
+      "grad_norm": 0.03456910327076912,
+      "learning_rate": 0.00040227682451119464,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 160588352,
+      "step": 74340
+    },
+    {
+      "epoch": 12.12805872756933,
+      "grad_norm": 0.006443498190492392,
+      "learning_rate": 0.0004022070184249657,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 160599232,
+      "step": 74345
+    },
+    {
+      "epoch": 12.128874388254486,
+      "grad_norm": 0.003807036206126213,
+      "learning_rate": 0.0004021372143206358,
+      "loss": 0.0759,
+      "num_input_tokens_seen": 160610400,
+      "step": 74350
+    },
+    {
+      "epoch": 12.129690048939642,
+      "grad_norm": 0.3225690722465515,
+      "learning_rate": 0.0004020674121996191,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 160622368,
+      "step": 74355
+    },
+    {
+      "epoch": 12.130505709624796,
+      "grad_norm": 0.06799621880054474,
+      "learning_rate": 0.0004019976120633308,
+      "loss": 0.139,
+      "num_input_tokens_seen": 160633344,
+      "step": 74360
+    },
+    {
+      "epoch": 12.131321370309951,
+      "grad_norm": 0.009520080871880054,
+      "learning_rate": 0.000401927813913185,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 160643552,
+      "step": 74365
+    },
+    {
+      "epoch": 12.132137030995105,
+      "grad_norm": 0.016409458592534065,
+      "learning_rate": 0.0004018580177505966,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 160653280,
+      "step": 74370
+    },
+    {
+      "epoch": 12.132952691680261,
+      "grad_norm": 0.0015376622322946787,
+      "learning_rate": 0.00040178822357698,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 160664224,
+      "step": 74375
+    },
+    {
+      "epoch": 12.133768352365417,
+      "grad_norm": 0.0044131772592663765,
+      "learning_rate": 0.0004017184313937494,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 160676128,
+      "step": 74380
+    },
+    {
+      "epoch": 12.13458401305057,
+      "grad_norm": 0.0254372451454401,
+      "learning_rate": 0.0004016486412023198,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 160686400,
+      "step": 74385
+    },
+    {
+      "epoch": 12.135399673735726,
+      "grad_norm": 0.02156521938741207,
+      "learning_rate": 0.000401578853004105,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 160696832,
+      "step": 74390
+    },
+    {
+      "epoch": 12.13621533442088,
+      "grad_norm": 0.008907387033104897,
+      "learning_rate": 0.00040150906680051974,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 160707712,
+      "step": 74395
+    },
+    {
+      "epoch": 12.137030995106036,
+      "grad_norm": 0.12198542058467865,
+      "learning_rate": 0.00040143928259297817,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 160719104,
+      "step": 74400
+    },
+    {
+      "epoch": 12.137846655791192,
+      "grad_norm": 0.0023205087054520845,
+      "learning_rate": 0.00040136950038289457,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 160729920,
+      "step": 74405
+    },
+    {
+      "epoch": 12.138662316476346,
+      "grad_norm": 0.008131838403642178,
+      "learning_rate": 0.0004012997201716831,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 160740384,
+      "step": 74410
+    },
+    {
+      "epoch": 12.139477977161501,
+      "grad_norm": 0.07084905356168747,
+      "learning_rate": 0.0004012299419607581,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 160751360,
+      "step": 74415
+    },
+    {
+      "epoch": 12.140293637846655,
+      "grad_norm": 0.008088597096502781,
+      "learning_rate": 0.00040116016575153344,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 160763488,
+      "step": 74420
+    },
+    {
+      "epoch": 12.141109298531811,
+      "grad_norm": 0.012776483781635761,
+      "learning_rate": 0.0004010903915454237,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 160775072,
+      "step": 74425
+    },
+    {
+      "epoch": 12.141924959216965,
+      "grad_norm": 0.33567920327186584,
+      "learning_rate": 0.0004010206193438424,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 160785984,
+      "step": 74430
+    },
+    {
+      "epoch": 12.14274061990212,
+      "grad_norm": 0.005716219078749418,
+      "learning_rate": 0.0004009508491482041,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 160796576,
+      "step": 74435
+    },
+    {
+      "epoch": 12.143556280587276,
+      "grad_norm": 0.005408111959695816,
+      "learning_rate": 0.00040088108095992216,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 160806752,
+      "step": 74440
+    },
+    {
+      "epoch": 12.14437194127243,
+      "grad_norm": 0.019407780840992928,
+      "learning_rate": 0.00040081131478041115,
+      "loss": 0.062,
+      "num_input_tokens_seen": 160817408,
+      "step": 74445
+    },
+    {
+      "epoch": 12.145187601957586,
+      "grad_norm": 0.004047623835504055,
+      "learning_rate": 0.00040074155061108443,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 160828160,
+      "step": 74450
+    },
+    {
+      "epoch": 12.14600326264274,
+      "grad_norm": 0.005578754004091024,
+      "learning_rate": 0.00040067178845335633,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 160839072,
+      "step": 74455
+    },
+    {
+      "epoch": 12.146818923327896,
+      "grad_norm": 0.005533120129257441,
+      "learning_rate": 0.0004006020283086402,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 160851200,
+      "step": 74460
+    },
+    {
+      "epoch": 12.147634584013051,
+      "grad_norm": 1.1328115463256836,
+      "learning_rate": 0.00040053227017835033,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 160862976,
+      "step": 74465
+    },
+    {
+      "epoch": 12.148450244698205,
+      "grad_norm": 0.1987270712852478,
+      "learning_rate": 0.00040046251406389993,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 160874752,
+      "step": 74470
+    },
+    {
+      "epoch": 12.149265905383361,
+      "grad_norm": 0.03130248934030533,
+      "learning_rate": 0.0004003927599667032,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 160885312,
+      "step": 74475
+    },
+    {
+      "epoch": 12.150081566068515,
+      "grad_norm": 0.02075079269707203,
+      "learning_rate": 0.0004003230078881733,
+      "loss": 0.018,
+      "num_input_tokens_seen": 160896704,
+      "step": 74480
+    },
+    {
+      "epoch": 12.15089722675367,
+      "grad_norm": 0.004763288889080286,
+      "learning_rate": 0.0004002532578297241,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 160907680,
+      "step": 74485
+    },
+    {
+      "epoch": 12.151712887438826,
+      "grad_norm": 0.012047209776937962,
+      "learning_rate": 0.0004001835097927694,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 160916992,
+      "step": 74490
+    },
+    {
+      "epoch": 12.15252854812398,
+      "grad_norm": 0.024075627326965332,
+      "learning_rate": 0.00040011376377872235,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 160926816,
+      "step": 74495
+    },
+    {
+      "epoch": 12.153344208809136,
+      "grad_norm": 0.005183520261198282,
+      "learning_rate": 0.0004000440197889967,
+      "loss": 0.1024,
+      "num_input_tokens_seen": 160938112,
+      "step": 74500
+    },
+    {
+      "epoch": 12.15415986949429,
+      "grad_norm": 0.031936485320329666,
+      "learning_rate": 0.0003999742778250056,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 160948704,
+      "step": 74505
+    },
+    {
+      "epoch": 12.154975530179446,
+      "grad_norm": 0.6701197624206543,
+      "learning_rate": 0.0003999045378881629,
+      "loss": 0.082,
+      "num_input_tokens_seen": 160959840,
+      "step": 74510
+    },
+    {
+      "epoch": 12.1557911908646,
+      "grad_norm": 0.01326004695147276,
+      "learning_rate": 0.0003998347999798815,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 160971488,
+      "step": 74515
+    },
+    {
+      "epoch": 12.156606851549755,
+      "grad_norm": 0.0024851495400071144,
+      "learning_rate": 0.00039976506410157513,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 160982208,
+      "step": 74520
+    },
+    {
+      "epoch": 12.15742251223491,
+      "grad_norm": 0.0026938130613416433,
+      "learning_rate": 0.0003996953302546567,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 160994304,
+      "step": 74525
+    },
+    {
+      "epoch": 12.158238172920065,
+      "grad_norm": 0.03997796028852463,
+      "learning_rate": 0.0003996255984405399,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 161004096,
+      "step": 74530
+    },
+    {
+      "epoch": 12.15905383360522,
+      "grad_norm": 0.002501038834452629,
+      "learning_rate": 0.00039955586866063735,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 161013920,
+      "step": 74535
+    },
+    {
+      "epoch": 12.159869494290374,
+      "grad_norm": 0.0058213709853589535,
+      "learning_rate": 0.0003994861409163628,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 161025728,
+      "step": 74540
+    },
+    {
+      "epoch": 12.16068515497553,
+      "grad_norm": 0.04390028864145279,
+      "learning_rate": 0.000399416415209129,
+      "loss": 0.1984,
+      "num_input_tokens_seen": 161037120,
+      "step": 74545
+    },
+    {
+      "epoch": 12.161500815660686,
+      "grad_norm": 0.6059911847114563,
+      "learning_rate": 0.0003993466915403492,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 161048128,
+      "step": 74550
+    },
+    {
+      "epoch": 12.16231647634584,
+      "grad_norm": 0.002712165005505085,
+      "learning_rate": 0.0003992769699114364,
+      "loss": 0.122,
+      "num_input_tokens_seen": 161059424,
+      "step": 74555
+    },
+    {
+      "epoch": 12.163132137030995,
+      "grad_norm": 0.11503525823354721,
+      "learning_rate": 0.0003992072503238035,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 161070848,
+      "step": 74560
+    },
+    {
+      "epoch": 12.16394779771615,
+      "grad_norm": 0.005386181641370058,
+      "learning_rate": 0.0003991375327788635,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 161083104,
+      "step": 74565
+    },
+    {
+      "epoch": 12.164763458401305,
+      "grad_norm": 0.01078125275671482,
+      "learning_rate": 0.00039906781727802956,
+      "loss": 0.1355,
+      "num_input_tokens_seen": 161094560,
+      "step": 74570
+    },
+    {
+      "epoch": 12.16557911908646,
+      "grad_norm": 0.012528739869594574,
+      "learning_rate": 0.0003989981038227141,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 161104256,
+      "step": 74575
+    },
+    {
+      "epoch": 12.166394779771615,
+      "grad_norm": 0.0010541232768446207,
+      "learning_rate": 0.0003989283924143304,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 161114176,
+      "step": 74580
+    },
+    {
+      "epoch": 12.16721044045677,
+      "grad_norm": 0.017634112387895584,
+      "learning_rate": 0.0003988586830542909,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 161124992,
+      "step": 74585
+    },
+    {
+      "epoch": 12.168026101141924,
+      "grad_norm": 0.006476237438619137,
+      "learning_rate": 0.00039878897574400845,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 161135488,
+      "step": 74590
+    },
+    {
+      "epoch": 12.16884176182708,
+      "grad_norm": 0.021481206640601158,
+      "learning_rate": 0.00039871927048489605,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 161147648,
+      "step": 74595
+    },
+    {
+      "epoch": 12.169657422512234,
+      "grad_norm": 0.006172158755362034,
+      "learning_rate": 0.0003986495672783659,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 161157120,
+      "step": 74600
+    },
+    {
+      "epoch": 12.17047308319739,
+      "grad_norm": 0.005506650544703007,
+      "learning_rate": 0.000398579866125831,
+      "loss": 0.061,
+      "num_input_tokens_seen": 161169152,
+      "step": 74605
+    },
+    {
+      "epoch": 12.171288743882545,
+      "grad_norm": 0.06159405782818794,
+      "learning_rate": 0.00039851016702870356,
+      "loss": 0.1283,
+      "num_input_tokens_seen": 161179808,
+      "step": 74610
+    },
+    {
+      "epoch": 12.1721044045677,
+      "grad_norm": 0.30520564317703247,
+      "learning_rate": 0.0003984404699883966,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 161190784,
+      "step": 74615
+    },
+    {
+      "epoch": 12.172920065252855,
+      "grad_norm": 0.015198386274278164,
+      "learning_rate": 0.00039837077500632213,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 161202176,
+      "step": 74620
+    },
+    {
+      "epoch": 12.173735725938009,
+      "grad_norm": 0.015425390563905239,
+      "learning_rate": 0.00039830108208389306,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 161213248,
+      "step": 74625
+    },
+    {
+      "epoch": 12.174551386623165,
+      "grad_norm": 0.00755777582526207,
+      "learning_rate": 0.00039823139122252126,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 161222752,
+      "step": 74630
+    },
+    {
+      "epoch": 12.17536704730832,
+      "grad_norm": 0.004761831369251013,
+      "learning_rate": 0.0003981617024236197,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 161233824,
+      "step": 74635
+    },
+    {
+      "epoch": 12.176182707993474,
+      "grad_norm": 0.0022641567047685385,
+      "learning_rate": 0.0003980920156886003,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 161243840,
+      "step": 74640
+    },
+    {
+      "epoch": 12.17699836867863,
+      "grad_norm": 0.02729635499417782,
+      "learning_rate": 0.0003980223310188756,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 161254560,
+      "step": 74645
+    },
+    {
+      "epoch": 12.177814029363784,
+      "grad_norm": 0.06542062014341354,
+      "learning_rate": 0.00039795264841585755,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 161264960,
+      "step": 74650
+    },
+    {
+      "epoch": 12.17862969004894,
+      "grad_norm": 0.027670329436659813,
+      "learning_rate": 0.00039788296788095866,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 161276128,
+      "step": 74655
+    },
+    {
+      "epoch": 12.179445350734095,
+      "grad_norm": 0.008770488202571869,
+      "learning_rate": 0.00039781328941559084,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 161288288,
+      "step": 74660
+    },
+    {
+      "epoch": 12.18026101141925,
+      "grad_norm": 0.04313148930668831,
+      "learning_rate": 0.0003977436130211666,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 161299232,
+      "step": 74665
+    },
+    {
+      "epoch": 12.181076672104405,
+      "grad_norm": 0.001219844096340239,
+      "learning_rate": 0.0003976739386990975,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 161309600,
+      "step": 74670
+    },
+    {
+      "epoch": 12.181892332789559,
+      "grad_norm": 0.013389154337346554,
+      "learning_rate": 0.0003976042664507961,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 161320256,
+      "step": 74675
+    },
+    {
+      "epoch": 12.182707993474715,
+      "grad_norm": 1.1981724500656128,
+      "learning_rate": 0.0003975345962776738,
+      "loss": 0.0513,
+      "num_input_tokens_seen": 161331840,
+      "step": 74680
+    },
+    {
+      "epoch": 12.18352365415987,
+      "grad_norm": 0.006036388222128153,
+      "learning_rate": 0.0003974649281811431,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 161342656,
+      "step": 74685
+    },
+    {
+      "epoch": 12.184339314845024,
+      "grad_norm": 0.006011773832142353,
+      "learning_rate": 0.00039739526216261566,
+      "loss": 0.005,
+      "num_input_tokens_seen": 161352768,
+      "step": 74690
+    },
+    {
+      "epoch": 12.18515497553018,
+      "grad_norm": 0.0059346966445446014,
+      "learning_rate": 0.00039732559822350336,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 161364000,
+      "step": 74695
+    },
+    {
+      "epoch": 12.185970636215334,
+      "grad_norm": 0.3481042981147766,
+      "learning_rate": 0.00039725593636521817,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 161374816,
+      "step": 74700
+    },
+    {
+      "epoch": 12.18678629690049,
+      "grad_norm": 0.07168328016996384,
+      "learning_rate": 0.0003971862765891716,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 161385088,
+      "step": 74705
+    },
+    {
+      "epoch": 12.187601957585644,
+      "grad_norm": 0.11459054052829742,
+      "learning_rate": 0.00039711661889677577,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 161395136,
+      "step": 74710
+    },
+    {
+      "epoch": 12.1884176182708,
+      "grad_norm": 0.026510460302233696,
+      "learning_rate": 0.00039704696328944205,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 161405248,
+      "step": 74715
+    },
+    {
+      "epoch": 12.189233278955955,
+      "grad_norm": 0.006999279838055372,
+      "learning_rate": 0.0003969773097685823,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 161414304,
+      "step": 74720
+    },
+    {
+      "epoch": 12.190048939641109,
+      "grad_norm": 0.008538886904716492,
+      "learning_rate": 0.000396907658335608,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 161425184,
+      "step": 74725
+    },
+    {
+      "epoch": 12.190864600326265,
+      "grad_norm": 0.024406736716628075,
+      "learning_rate": 0.0003968380089919308,
+      "loss": 0.0967,
+      "num_input_tokens_seen": 161436352,
+      "step": 74730
+    },
+    {
+      "epoch": 12.191680261011419,
+      "grad_norm": 0.007404988165944815,
+      "learning_rate": 0.0003967683617389621,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 161447424,
+      "step": 74735
+    },
+    {
+      "epoch": 12.192495921696574,
+      "grad_norm": 0.024634407833218575,
+      "learning_rate": 0.0003966987165781138,
+      "loss": 0.007,
+      "num_input_tokens_seen": 161458496,
+      "step": 74740
+    },
+    {
+      "epoch": 12.19331158238173,
+      "grad_norm": 0.10026438534259796,
+      "learning_rate": 0.00039662907351079675,
+      "loss": 0.1007,
+      "num_input_tokens_seen": 161469152,
+      "step": 74745
+    },
+    {
+      "epoch": 12.194127243066884,
+      "grad_norm": 0.016706952825188637,
+      "learning_rate": 0.00039655943253842293,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 161479616,
+      "step": 74750
+    },
+    {
+      "epoch": 12.19494290375204,
+      "grad_norm": 0.0008600183646194637,
+      "learning_rate": 0.00039648979366240325,
+      "loss": 0.003,
+      "num_input_tokens_seen": 161491136,
+      "step": 74755
+    },
+    {
+      "epoch": 12.195758564437194,
+      "grad_norm": 0.025418315082788467,
+      "learning_rate": 0.00039642015688414936,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 161502144,
+      "step": 74760
+    },
+    {
+      "epoch": 12.19657422512235,
+      "grad_norm": 0.002887872513383627,
+      "learning_rate": 0.00039635052220507216,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 161513248,
+      "step": 74765
+    },
+    {
+      "epoch": 12.197389885807505,
+      "grad_norm": 0.017393076792359352,
+      "learning_rate": 0.0003962808896265834,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 161523424,
+      "step": 74770
+    },
+    {
+      "epoch": 12.198205546492659,
+      "grad_norm": 0.25441282987594604,
+      "learning_rate": 0.0003962112591500937,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 161535200,
+      "step": 74775
+    },
+    {
+      "epoch": 12.199021207177815,
+      "grad_norm": 0.18550816178321838,
+      "learning_rate": 0.00039614163077701474,
+      "loss": 0.1819,
+      "num_input_tokens_seen": 161543808,
+      "step": 74780
+    },
+    {
+      "epoch": 12.199836867862969,
+      "grad_norm": 0.3364203870296478,
+      "learning_rate": 0.00039607200450875716,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 161554656,
+      "step": 74785
+    },
+    {
+      "epoch": 12.200652528548124,
+      "grad_norm": 0.003161477390676737,
+      "learning_rate": 0.0003960023803467325,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 161565920,
+      "step": 74790
+    },
+    {
+      "epoch": 12.201468189233278,
+      "grad_norm": 0.007758776657283306,
+      "learning_rate": 0.0003959327582923513,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 161577824,
+      "step": 74795
+    },
+    {
+      "epoch": 12.202283849918434,
+      "grad_norm": 0.0124747259542346,
+      "learning_rate": 0.000395863138347025,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 161588352,
+      "step": 74800
+    },
+    {
+      "epoch": 12.20309951060359,
+      "grad_norm": 0.019156094640493393,
+      "learning_rate": 0.0003957935205121641,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 161599680,
+      "step": 74805
+    },
+    {
+      "epoch": 12.203915171288743,
+      "grad_norm": 0.032875653356313705,
+      "learning_rate": 0.00039572390478917973,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 161610016,
+      "step": 74810
+    },
+    {
+      "epoch": 12.2047308319739,
+      "grad_norm": 0.0038414266891777515,
+      "learning_rate": 0.00039565429117948287,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 161621184,
+      "step": 74815
+    },
+    {
+      "epoch": 12.205546492659053,
+      "grad_norm": 0.0043778130784630775,
+      "learning_rate": 0.000395584679684484,
+      "loss": 0.1721,
+      "num_input_tokens_seen": 161631872,
+      "step": 74820
+    },
+    {
+      "epoch": 12.206362153344209,
+      "grad_norm": 0.006347167305648327,
+      "learning_rate": 0.00039551507030559423,
+      "loss": 0.003,
+      "num_input_tokens_seen": 161642304,
+      "step": 74825
+    },
+    {
+      "epoch": 12.207177814029365,
+      "grad_norm": 0.40752550959587097,
+      "learning_rate": 0.0003954454630442239,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 161652672,
+      "step": 74830
+    },
+    {
+      "epoch": 12.207993474714518,
+      "grad_norm": 0.0724559798836708,
+      "learning_rate": 0.0003953758579017842,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 161664000,
+      "step": 74835
+    },
+    {
+      "epoch": 12.208809135399674,
+      "grad_norm": 0.08504586666822433,
+      "learning_rate": 0.00039530625487968507,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 161675296,
+      "step": 74840
+    },
+    {
+      "epoch": 12.209624796084828,
+      "grad_norm": 0.01224282942712307,
+      "learning_rate": 0.00039523665397933784,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 161686880,
+      "step": 74845
+    },
+    {
+      "epoch": 12.210440456769984,
+      "grad_norm": 1.089669942855835,
+      "learning_rate": 0.0003951670552021525,
+      "loss": 0.1151,
+      "num_input_tokens_seen": 161697408,
+      "step": 74850
+    },
+    {
+      "epoch": 12.21125611745514,
+      "grad_norm": 0.0018654355080798268,
+      "learning_rate": 0.0003950974585495399,
+      "loss": 0.012,
+      "num_input_tokens_seen": 161707616,
+      "step": 74855
+    },
+    {
+      "epoch": 12.212071778140293,
+      "grad_norm": 0.053873226046562195,
+      "learning_rate": 0.0003950278640229103,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 161718912,
+      "step": 74860
+    },
+    {
+      "epoch": 12.21288743882545,
+      "grad_norm": 0.0093051353469491,
+      "learning_rate": 0.0003949582716236743,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 161729280,
+      "step": 74865
+    },
+    {
+      "epoch": 12.213703099510603,
+      "grad_norm": 0.02878117561340332,
+      "learning_rate": 0.0003948886813532421,
+      "loss": 0.1499,
+      "num_input_tokens_seen": 161739456,
+      "step": 74870
+    },
+    {
+      "epoch": 12.214518760195759,
+      "grad_norm": 0.004532721359282732,
+      "learning_rate": 0.00039481909321302413,
+      "loss": 0.1098,
+      "num_input_tokens_seen": 161750464,
+      "step": 74875
+    },
+    {
+      "epoch": 12.215334420880913,
+      "grad_norm": 0.005164369475096464,
+      "learning_rate": 0.0003947495072044306,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 161761760,
+      "step": 74880
+    },
+    {
+      "epoch": 12.216150081566068,
+      "grad_norm": 0.00576377147808671,
+      "learning_rate": 0.00039467992332887196,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 161773344,
+      "step": 74885
+    },
+    {
+      "epoch": 12.216965742251224,
+      "grad_norm": 0.024265503510832787,
+      "learning_rate": 0.0003946103415877582,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 161785440,
+      "step": 74890
+    },
+    {
+      "epoch": 12.217781402936378,
+      "grad_norm": 0.008004284463822842,
+      "learning_rate": 0.00039454076198249964,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 161795808,
+      "step": 74895
+    },
+    {
+      "epoch": 12.218597063621534,
+      "grad_norm": 0.0055056121200323105,
+      "learning_rate": 0.00039447118451450613,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 161806432,
+      "step": 74900
+    },
+    {
+      "epoch": 12.219412724306688,
+      "grad_norm": 0.624906599521637,
+      "learning_rate": 0.00039440160918518825,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 161816736,
+      "step": 74905
+    },
+    {
+      "epoch": 12.220228384991843,
+      "grad_norm": 0.05831537023186684,
+      "learning_rate": 0.00039433203599595546,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 161826848,
+      "step": 74910
+    },
+    {
+      "epoch": 12.221044045676999,
+      "grad_norm": 0.007869354449212551,
+      "learning_rate": 0.00039426246494821793,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 161837120,
+      "step": 74915
+    },
+    {
+      "epoch": 12.221859706362153,
+      "grad_norm": 0.05399933084845543,
+      "learning_rate": 0.000394192896043386,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 161848064,
+      "step": 74920
+    },
+    {
+      "epoch": 12.222675367047309,
+      "grad_norm": 0.01727372780442238,
+      "learning_rate": 0.000394123329282869,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 161858432,
+      "step": 74925
+    },
+    {
+      "epoch": 12.223491027732463,
+      "grad_norm": 0.00785834901034832,
+      "learning_rate": 0.0003940537646680773,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 161869792,
+      "step": 74930
+    },
+    {
+      "epoch": 12.224306688417618,
+      "grad_norm": 0.06565750390291214,
+      "learning_rate": 0.0003939842022004202,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 161880384,
+      "step": 74935
+    },
+    {
+      "epoch": 12.225122349102774,
+      "grad_norm": 0.005559089593589306,
+      "learning_rate": 0.00039391464188130796,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 161889984,
+      "step": 74940
+    },
+    {
+      "epoch": 12.225938009787928,
+      "grad_norm": 0.041153181344270706,
+      "learning_rate": 0.0003938450837121499,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 161900128,
+      "step": 74945
+    },
+    {
+      "epoch": 12.226753670473084,
+      "grad_norm": 0.0016776022966951132,
+      "learning_rate": 0.00039377552769435606,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 161910944,
+      "step": 74950
+    },
+    {
+      "epoch": 12.227569331158238,
+      "grad_norm": 0.00216303626075387,
+      "learning_rate": 0.0003937059738293357,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 161921600,
+      "step": 74955
+    },
+    {
+      "epoch": 12.228384991843393,
+      "grad_norm": 0.003117464715614915,
+      "learning_rate": 0.0003936364221184988,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 161932768,
+      "step": 74960
+    },
+    {
+      "epoch": 12.229200652528547,
+      "grad_norm": 0.44894319772720337,
+      "learning_rate": 0.00039356687256325465,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 161944480,
+      "step": 74965
+    },
+    {
+      "epoch": 12.230016313213703,
+      "grad_norm": 0.8600792288780212,
+      "learning_rate": 0.0003934973251650129,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 161954048,
+      "step": 74970
+    },
+    {
+      "epoch": 12.230831973898859,
+      "grad_norm": 0.05913609266281128,
+      "learning_rate": 0.0003934277799251829,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 161965792,
+      "step": 74975
+    },
+    {
+      "epoch": 12.231647634584013,
+      "grad_norm": 0.010049772448837757,
+      "learning_rate": 0.00039335823684517423,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 161977312,
+      "step": 74980
+    },
+    {
+      "epoch": 12.232463295269168,
+      "grad_norm": 0.0010888243559747934,
+      "learning_rate": 0.00039328869592639604,
+      "loss": 0.005,
+      "num_input_tokens_seen": 161987680,
+      "step": 74985
+    },
+    {
+      "epoch": 12.233278955954322,
+      "grad_norm": 0.0009124244097620249,
+      "learning_rate": 0.00039321915717025797,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 161998784,
+      "step": 74990
+    },
+    {
+      "epoch": 12.234094616639478,
+      "grad_norm": 0.01991415210068226,
+      "learning_rate": 0.00039314962057816896,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 162009696,
+      "step": 74995
+    },
+    {
+      "epoch": 12.234910277324634,
+      "grad_norm": 0.016737831756472588,
+      "learning_rate": 0.0003930800861515385,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 162020640,
+      "step": 75000
+    },
+    {
+      "epoch": 12.235725938009788,
+      "grad_norm": 0.02599795162677765,
+      "learning_rate": 0.00039301055389177577,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 162031776,
+      "step": 75005
+    },
+    {
+      "epoch": 12.236541598694943,
+      "grad_norm": 0.0481642484664917,
+      "learning_rate": 0.00039294102380028987,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 162043456,
+      "step": 75010
+    },
+    {
+      "epoch": 12.237357259380097,
+      "grad_norm": 0.004535711370408535,
+      "learning_rate": 0.0003928714958784899,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 162055264,
+      "step": 75015
+    },
+    {
+      "epoch": 12.238172920065253,
+      "grad_norm": 0.016865408048033714,
+      "learning_rate": 0.00039280197012778493,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 162065920,
+      "step": 75020
+    },
+    {
+      "epoch": 12.238988580750409,
+      "grad_norm": 0.020147256553173065,
+      "learning_rate": 0.0003927324465495841,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 162076032,
+      "step": 75025
+    },
+    {
+      "epoch": 12.239804241435563,
+      "grad_norm": 0.004990022629499435,
+      "learning_rate": 0.0003926629251452963,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 162087552,
+      "step": 75030
+    },
+    {
+      "epoch": 12.240619902120718,
+      "grad_norm": 0.00859206635504961,
+      "learning_rate": 0.0003925934059163306,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 162097760,
+      "step": 75035
+    },
+    {
+      "epoch": 12.241435562805872,
+      "grad_norm": 0.0490594208240509,
+      "learning_rate": 0.0003925238888640957,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 162107936,
+      "step": 75040
+    },
+    {
+      "epoch": 12.242251223491028,
+      "grad_norm": 0.006913432851433754,
+      "learning_rate": 0.0003924543739900005,
+      "loss": 0.033,
+      "num_input_tokens_seen": 162119264,
+      "step": 75045
+    },
+    {
+      "epoch": 12.243066884176184,
+      "grad_norm": 0.3514501750469208,
+      "learning_rate": 0.00039238486129545376,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 162130464,
+      "step": 75050
+    },
+    {
+      "epoch": 12.243882544861338,
+      "grad_norm": 0.018597450107336044,
+      "learning_rate": 0.0003923153507818645,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 162140928,
+      "step": 75055
+    },
+    {
+      "epoch": 12.244698205546493,
+      "grad_norm": 0.02613472379744053,
+      "learning_rate": 0.00039224584245064114,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 162151936,
+      "step": 75060
+    },
+    {
+      "epoch": 12.245513866231647,
+      "grad_norm": 0.02216893993318081,
+      "learning_rate": 0.00039217633630319264,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 162163744,
+      "step": 75065
+    },
+    {
+      "epoch": 12.246329526916803,
+      "grad_norm": 0.35483214259147644,
+      "learning_rate": 0.00039210683234092733,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 162174880,
+      "step": 75070
+    },
+    {
+      "epoch": 12.247145187601957,
+      "grad_norm": 0.013999617658555508,
+      "learning_rate": 0.000392037330565254,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 162185984,
+      "step": 75075
+    },
+    {
+      "epoch": 12.247960848287113,
+      "grad_norm": 0.09692630916833878,
+      "learning_rate": 0.000391967830977581,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 162196000,
+      "step": 75080
+    },
+    {
+      "epoch": 12.248776508972268,
+      "grad_norm": 0.0007761928136460483,
+      "learning_rate": 0.0003918983335793173,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 162205312,
+      "step": 75085
+    },
+    {
+      "epoch": 12.249592169657422,
+      "grad_norm": 0.013476379215717316,
+      "learning_rate": 0.00039182883837187056,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 162213888,
+      "step": 75090
+    },
+    {
+      "epoch": 12.250407830342578,
+      "grad_norm": 0.017461730167269707,
+      "learning_rate": 0.00039175934535665,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 162224960,
+      "step": 75095
+    },
+    {
+      "epoch": 12.251223491027732,
+      "grad_norm": 0.1801888644695282,
+      "learning_rate": 0.00039168985453506334,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 162234592,
+      "step": 75100
+    },
+    {
+      "epoch": 12.252039151712887,
+      "grad_norm": 0.006768012419342995,
+      "learning_rate": 0.0003916203659085194,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 162245440,
+      "step": 75105
+    },
+    {
+      "epoch": 12.252854812398043,
+      "grad_norm": 0.010229643434286118,
+      "learning_rate": 0.00039155087947842607,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 162256320,
+      "step": 75110
+    },
+    {
+      "epoch": 12.253670473083197,
+      "grad_norm": 0.003439029911532998,
+      "learning_rate": 0.00039148139524619184,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 162267264,
+      "step": 75115
+    },
+    {
+      "epoch": 12.254486133768353,
+      "grad_norm": 0.041233912110328674,
+      "learning_rate": 0.00039141191321322464,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 162278112,
+      "step": 75120
+    },
+    {
+      "epoch": 12.255301794453507,
+      "grad_norm": 0.00618229852989316,
+      "learning_rate": 0.00039134243338093285,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 162288480,
+      "step": 75125
+    },
+    {
+      "epoch": 12.256117455138662,
+      "grad_norm": 0.003569080028682947,
+      "learning_rate": 0.0003912729557507246,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 162299680,
+      "step": 75130
+    },
+    {
+      "epoch": 12.256933115823816,
+      "grad_norm": 0.019696485251188278,
+      "learning_rate": 0.0003912034803240077,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 162309984,
+      "step": 75135
+    },
+    {
+      "epoch": 12.257748776508972,
+      "grad_norm": 0.19719895720481873,
+      "learning_rate": 0.0003911340071021905,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 162321152,
+      "step": 75140
+    },
+    {
+      "epoch": 12.258564437194128,
+      "grad_norm": 0.07820143550634384,
+      "learning_rate": 0.00039106453608668047,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 162332448,
+      "step": 75145
+    },
+    {
+      "epoch": 12.259380097879282,
+      "grad_norm": 0.013048024848103523,
+      "learning_rate": 0.0003909950672788861,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 162343552,
+      "step": 75150
+    },
+    {
+      "epoch": 12.260195758564437,
+      "grad_norm": 0.02106913924217224,
+      "learning_rate": 0.0003909256006802147,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 162353280,
+      "step": 75155
+    },
+    {
+      "epoch": 12.261011419249591,
+      "grad_norm": 0.00745503231883049,
+      "learning_rate": 0.0003908561362920746,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 162364224,
+      "step": 75160
+    },
+    {
+      "epoch": 12.261827079934747,
+      "grad_norm": 0.0053404951468110085,
+      "learning_rate": 0.00039078667411587316,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 162375520,
+      "step": 75165
+    },
+    {
+      "epoch": 12.262642740619903,
+      "grad_norm": 0.003612641477957368,
+      "learning_rate": 0.0003907172141530184,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 162386016,
+      "step": 75170
+    },
+    {
+      "epoch": 12.263458401305057,
+      "grad_norm": 0.004556257743388414,
+      "learning_rate": 0.00039064775640491796,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 162396576,
+      "step": 75175
+    },
+    {
+      "epoch": 12.264274061990212,
+      "grad_norm": 0.4065341651439667,
+      "learning_rate": 0.00039057830087297946,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 162406912,
+      "step": 75180
+    },
+    {
+      "epoch": 12.265089722675366,
+      "grad_norm": 0.004324205219745636,
+      "learning_rate": 0.0003905088475586105,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 162418144,
+      "step": 75185
+    },
+    {
+      "epoch": 12.265905383360522,
+      "grad_norm": 0.002117524156346917,
+      "learning_rate": 0.0003904393964632186,
+      "loss": 0.003,
+      "num_input_tokens_seen": 162428640,
+      "step": 75190
+    },
+    {
+      "epoch": 12.266721044045678,
+      "grad_norm": 0.007448033429682255,
+      "learning_rate": 0.00039036994758821124,
+      "loss": 0.1817,
+      "num_input_tokens_seen": 162440064,
+      "step": 75195
+    },
+    {
+      "epoch": 12.267536704730832,
+      "grad_norm": 0.10965090245008469,
+      "learning_rate": 0.00039030050093499623,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 162451744,
+      "step": 75200
+    },
+    {
+      "epoch": 12.268352365415987,
+      "grad_norm": 0.48558029532432556,
+      "learning_rate": 0.0003902310565049805,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 162462368,
+      "step": 75205
+    },
+    {
+      "epoch": 12.269168026101141,
+      "grad_norm": 0.013588961213827133,
+      "learning_rate": 0.0003901616142995718,
+      "loss": 0.125,
+      "num_input_tokens_seen": 162472128,
+      "step": 75210
+    },
+    {
+      "epoch": 12.269983686786297,
+      "grad_norm": 1.1377973556518555,
+      "learning_rate": 0.0003900921743201772,
+      "loss": 0.0954,
+      "num_input_tokens_seen": 162482848,
+      "step": 75215
+    },
+    {
+      "epoch": 12.270799347471453,
+      "grad_norm": 0.023800566792488098,
+      "learning_rate": 0.00039002273656820423,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 162493408,
+      "step": 75220
+    },
+    {
+      "epoch": 12.271615008156607,
+      "grad_norm": 0.0248698852956295,
+      "learning_rate": 0.0003899533010450599,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 162505184,
+      "step": 75225
+    },
+    {
+      "epoch": 12.272430668841762,
+      "grad_norm": 0.06870092451572418,
+      "learning_rate": 0.0003898838677521515,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 162515552,
+      "step": 75230
+    },
+    {
+      "epoch": 12.273246329526916,
+      "grad_norm": 0.07277870923280716,
+      "learning_rate": 0.00038981443669088646,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 162526176,
+      "step": 75235
+    },
+    {
+      "epoch": 12.274061990212072,
+      "grad_norm": 0.01803704723715782,
+      "learning_rate": 0.0003897450078626714,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 162537600,
+      "step": 75240
+    },
+    {
+      "epoch": 12.274877650897226,
+      "grad_norm": 0.0018408960895612836,
+      "learning_rate": 0.0003896755812689138,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 162548096,
+      "step": 75245
+    },
+    {
+      "epoch": 12.275693311582382,
+      "grad_norm": 0.0035825977101922035,
+      "learning_rate": 0.0003896061569110203,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 162559872,
+      "step": 75250
+    },
+    {
+      "epoch": 12.276508972267537,
+      "grad_norm": 0.032333966344594955,
+      "learning_rate": 0.0003895367347903983,
+      "loss": 0.0207,
+      "num_input_tokens_seen": 162570816,
+      "step": 75255
+    },
+    {
+      "epoch": 12.277324632952691,
+      "grad_norm": 0.0008797519840300083,
+      "learning_rate": 0.0003894673149084543,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 162581536,
+      "step": 75260
+    },
+    {
+      "epoch": 12.278140293637847,
+      "grad_norm": 0.0028373999521136284,
+      "learning_rate": 0.0003893978972665956,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 162591712,
+      "step": 75265
+    },
+    {
+      "epoch": 12.278955954323001,
+      "grad_norm": 0.0014782834332436323,
+      "learning_rate": 0.0003893284818662286,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 162602624,
+      "step": 75270
+    },
+    {
+      "epoch": 12.279771615008157,
+      "grad_norm": 0.008053838275372982,
+      "learning_rate": 0.0003892590687087605,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 162614048,
+      "step": 75275
+    },
+    {
+      "epoch": 12.280587275693312,
+      "grad_norm": 0.0029203668236732483,
+      "learning_rate": 0.0003891896577955977,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 162624160,
+      "step": 75280
+    },
+    {
+      "epoch": 12.281402936378466,
+      "grad_norm": 0.021967828273773193,
+      "learning_rate": 0.0003891202491281472,
+      "loss": 0.06,
+      "num_input_tokens_seen": 162636000,
+      "step": 75285
+    },
+    {
+      "epoch": 12.282218597063622,
+      "grad_norm": 0.006306948605924845,
+      "learning_rate": 0.0003890508427078153,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 162646400,
+      "step": 75290
+    },
+    {
+      "epoch": 12.283034257748776,
+      "grad_norm": 0.07245063781738281,
+      "learning_rate": 0.0003889814385360091,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 162657344,
+      "step": 75295
+    },
+    {
+      "epoch": 12.283849918433932,
+      "grad_norm": 0.0017536969389766455,
+      "learning_rate": 0.0003889120366141347,
+      "loss": 0.1543,
+      "num_input_tokens_seen": 162668544,
+      "step": 75300
+    },
+    {
+      "epoch": 12.284665579119087,
+      "grad_norm": 0.25096216797828674,
+      "learning_rate": 0.0003888426369435989,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 162679296,
+      "step": 75305
+    },
+    {
+      "epoch": 12.285481239804241,
+      "grad_norm": 0.002455186564475298,
+      "learning_rate": 0.0003887732395258079,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 162689728,
+      "step": 75310
+    },
+    {
+      "epoch": 12.286296900489397,
+      "grad_norm": 0.004991905763745308,
+      "learning_rate": 0.0003887038443621684,
+      "loss": 0.008,
+      "num_input_tokens_seen": 162700576,
+      "step": 75315
+    },
+    {
+      "epoch": 12.28711256117455,
+      "grad_norm": 0.013448765501379967,
+      "learning_rate": 0.0003886344514540868,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 162711808,
+      "step": 75320
+    },
+    {
+      "epoch": 12.287928221859707,
+      "grad_norm": 0.03673629090189934,
+      "learning_rate": 0.0003885650608029692,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 162722208,
+      "step": 75325
+    },
+    {
+      "epoch": 12.28874388254486,
+      "grad_norm": 0.2677193582057953,
+      "learning_rate": 0.00038849567241022205,
+      "loss": 0.0226,
+      "num_input_tokens_seen": 162732416,
+      "step": 75330
+    },
+    {
+      "epoch": 12.289559543230016,
+      "grad_norm": 0.006491140462458134,
+      "learning_rate": 0.0003884262862772514,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 162744576,
+      "step": 75335
+    },
+    {
+      "epoch": 12.290375203915172,
+      "grad_norm": 0.3217860162258148,
+      "learning_rate": 0.0003883569024054638,
+      "loss": 0.1769,
+      "num_input_tokens_seen": 162753600,
+      "step": 75340
+    },
+    {
+      "epoch": 12.291190864600326,
+      "grad_norm": 0.019507482647895813,
+      "learning_rate": 0.0003882875207962651,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 162764256,
+      "step": 75345
+    },
+    {
+      "epoch": 12.292006525285482,
+      "grad_norm": 0.0013944999082013965,
+      "learning_rate": 0.0003882181414510616,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 162775840,
+      "step": 75350
+    },
+    {
+      "epoch": 12.292822185970635,
+      "grad_norm": 0.03465007618069649,
+      "learning_rate": 0.00038814876437125916,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 162786656,
+      "step": 75355
+    },
+    {
+      "epoch": 12.293637846655791,
+      "grad_norm": 0.04906386137008667,
+      "learning_rate": 0.000388079389558264,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 162799584,
+      "step": 75360
+    },
+    {
+      "epoch": 12.294453507340947,
+      "grad_norm": 0.028646433725953102,
+      "learning_rate": 0.0003880100170134818,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 162809984,
+      "step": 75365
+    },
+    {
+      "epoch": 12.2952691680261,
+      "grad_norm": 0.028914660215377808,
+      "learning_rate": 0.00038794064673831896,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 162820256,
+      "step": 75370
+    },
+    {
+      "epoch": 12.296084828711257,
+      "grad_norm": 0.016150979325175285,
+      "learning_rate": 0.0003878712787341809,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 162830880,
+      "step": 75375
+    },
+    {
+      "epoch": 12.29690048939641,
+      "grad_norm": 0.0038916615303605795,
+      "learning_rate": 0.0003878019130024737,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 162840896,
+      "step": 75380
+    },
+    {
+      "epoch": 12.297716150081566,
+      "grad_norm": 0.011551225557923317,
+      "learning_rate": 0.000387732549544603,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 162852000,
+      "step": 75385
+    },
+    {
+      "epoch": 12.298531810766722,
+      "grad_norm": 0.017128009349107742,
+      "learning_rate": 0.0003876631883619747,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 162862368,
+      "step": 75390
+    },
+    {
+      "epoch": 12.299347471451876,
+      "grad_norm": 0.01165260374546051,
+      "learning_rate": 0.0003875938294559942,
+      "loss": 0.003,
+      "num_input_tokens_seen": 162873504,
+      "step": 75395
+    },
+    {
+      "epoch": 12.300163132137031,
+      "grad_norm": 0.01163018774241209,
+      "learning_rate": 0.0003875244728280676,
+      "loss": 0.2225,
+      "num_input_tokens_seen": 162884992,
+      "step": 75400
+    },
+    {
+      "epoch": 12.300978792822185,
+      "grad_norm": 0.019337153062224388,
+      "learning_rate": 0.00038745511847960003,
+      "loss": 0.1481,
+      "num_input_tokens_seen": 162895488,
+      "step": 75405
+    },
+    {
+      "epoch": 12.301794453507341,
+      "grad_norm": 0.0666937604546547,
+      "learning_rate": 0.0003873857664119974,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 162905888,
+      "step": 75410
+    },
+    {
+      "epoch": 12.302610114192497,
+      "grad_norm": 0.06270725280046463,
+      "learning_rate": 0.00038731641662666493,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 162917344,
+      "step": 75415
+    },
+    {
+      "epoch": 12.30342577487765,
+      "grad_norm": 0.000730838452000171,
+      "learning_rate": 0.00038724706912500847,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 162927616,
+      "step": 75420
+    },
+    {
+      "epoch": 12.304241435562806,
+      "grad_norm": 0.052667297422885895,
+      "learning_rate": 0.0003871777239084329,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 162937856,
+      "step": 75425
+    },
+    {
+      "epoch": 12.30505709624796,
+      "grad_norm": 0.02632969245314598,
+      "learning_rate": 0.00038710838097834414,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 162949632,
+      "step": 75430
+    },
+    {
+      "epoch": 12.305872756933116,
+      "grad_norm": 0.005952873267233372,
+      "learning_rate": 0.000387039040336147,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 162959552,
+      "step": 75435
+    },
+    {
+      "epoch": 12.30668841761827,
+      "grad_norm": 0.022846754640340805,
+      "learning_rate": 0.0003869697019832473,
+      "loss": 0.1431,
+      "num_input_tokens_seen": 162970496,
+      "step": 75440
+    },
+    {
+      "epoch": 12.307504078303426,
+      "grad_norm": 0.22744394838809967,
+      "learning_rate": 0.0003869003659210497,
+      "loss": 0.1829,
+      "num_input_tokens_seen": 162980160,
+      "step": 75445
+    },
+    {
+      "epoch": 12.308319738988581,
+      "grad_norm": 0.05033477395772934,
+      "learning_rate": 0.00038683103215095965,
+      "loss": 0.1123,
+      "num_input_tokens_seen": 162990496,
+      "step": 75450
+    },
+    {
+      "epoch": 12.309135399673735,
+      "grad_norm": 0.007061969488859177,
+      "learning_rate": 0.00038676170067438256,
+      "loss": 0.011,
+      "num_input_tokens_seen": 163000832,
+      "step": 75455
+    },
+    {
+      "epoch": 12.309951060358891,
+      "grad_norm": 0.022670293226838112,
+      "learning_rate": 0.00038669237149272303,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 163012416,
+      "step": 75460
+    },
+    {
+      "epoch": 12.310766721044045,
+      "grad_norm": 0.0011929698521271348,
+      "learning_rate": 0.0003866230446073865,
+      "loss": 0.01,
+      "num_input_tokens_seen": 163022912,
+      "step": 75465
+    },
+    {
+      "epoch": 12.3115823817292,
+      "grad_norm": 0.006316805724054575,
+      "learning_rate": 0.0003865537200197776,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 163033280,
+      "step": 75470
+    },
+    {
+      "epoch": 12.312398042414356,
+      "grad_norm": 0.45057278871536255,
+      "learning_rate": 0.0003864843977313017,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 163043808,
+      "step": 75475
+    },
+    {
+      "epoch": 12.31321370309951,
+      "grad_norm": 0.010832220315933228,
+      "learning_rate": 0.0003864150777433634,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 163054752,
+      "step": 75480
+    },
+    {
+      "epoch": 12.314029363784666,
+      "grad_norm": 0.10409935563802719,
+      "learning_rate": 0.0003863457600573676,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 163065152,
+      "step": 75485
+    },
+    {
+      "epoch": 12.31484502446982,
+      "grad_norm": 0.014816675335168839,
+      "learning_rate": 0.00038627644467471915,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 163076992,
+      "step": 75490
+    },
+    {
+      "epoch": 12.315660685154976,
+      "grad_norm": 0.003097902750596404,
+      "learning_rate": 0.00038620713159682286,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 163088704,
+      "step": 75495
+    },
+    {
+      "epoch": 12.31647634584013,
+      "grad_norm": 0.032903462648391724,
+      "learning_rate": 0.0003861378208250834,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 163099168,
+      "step": 75500
+    },
+    {
+      "epoch": 12.317292006525285,
+      "grad_norm": 0.01986708678305149,
+      "learning_rate": 0.00038606851236090543,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 163108800,
+      "step": 75505
+    },
+    {
+      "epoch": 12.318107667210441,
+      "grad_norm": 0.029241114854812622,
+      "learning_rate": 0.00038599920620569357,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 163119456,
+      "step": 75510
+    },
+    {
+      "epoch": 12.318923327895595,
+      "grad_norm": 0.0034615658223628998,
+      "learning_rate": 0.00038592990236085257,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 163130656,
+      "step": 75515
+    },
+    {
+      "epoch": 12.31973898858075,
+      "grad_norm": 0.020488232374191284,
+      "learning_rate": 0.0003858606008277866,
+      "loss": 0.041,
+      "num_input_tokens_seen": 163141056,
+      "step": 75520
+    },
+    {
+      "epoch": 12.320554649265905,
+      "grad_norm": 0.04791320860385895,
+      "learning_rate": 0.0003857913016079005,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 163151328,
+      "step": 75525
+    },
+    {
+      "epoch": 12.32137030995106,
+      "grad_norm": 0.014877380803227425,
+      "learning_rate": 0.0003857220047025984,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 163161952,
+      "step": 75530
+    },
+    {
+      "epoch": 12.322185970636216,
+      "grad_norm": 0.016949398443102837,
+      "learning_rate": 0.00038565271011328507,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 163173184,
+      "step": 75535
+    },
+    {
+      "epoch": 12.32300163132137,
+      "grad_norm": 0.022877110168337822,
+      "learning_rate": 0.00038558341784136437,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 163185472,
+      "step": 75540
+    },
+    {
+      "epoch": 12.323817292006526,
+      "grad_norm": 0.3788914680480957,
+      "learning_rate": 0.00038551412788824106,
+      "loss": 0.0798,
+      "num_input_tokens_seen": 163195936,
+      "step": 75545
+    },
+    {
+      "epoch": 12.32463295269168,
+      "grad_norm": 0.005041462369263172,
+      "learning_rate": 0.0003854448402553191,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 163205152,
+      "step": 75550
+    },
+    {
+      "epoch": 12.325448613376835,
+      "grad_norm": 0.007434530183672905,
+      "learning_rate": 0.0003853755549440026,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 163214848,
+      "step": 75555
+    },
+    {
+      "epoch": 12.326264274061991,
+      "grad_norm": 0.19846367835998535,
+      "learning_rate": 0.0003853062719556962,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 163225888,
+      "step": 75560
+    },
+    {
+      "epoch": 12.327079934747145,
+      "grad_norm": 0.1723729521036148,
+      "learning_rate": 0.0003852369912918035,
+      "loss": 0.0675,
+      "num_input_tokens_seen": 163237664,
+      "step": 75565
+    },
+    {
+      "epoch": 12.3278955954323,
+      "grad_norm": 0.014083434827625751,
+      "learning_rate": 0.00038516771295372894,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 163248896,
+      "step": 75570
+    },
+    {
+      "epoch": 12.328711256117455,
+      "grad_norm": 0.011963681317865849,
+      "learning_rate": 0.00038509843694287615,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 163258784,
+      "step": 75575
+    },
+    {
+      "epoch": 12.32952691680261,
+      "grad_norm": 0.042714718729257584,
+      "learning_rate": 0.0003850291632606495,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 163269536,
+      "step": 75580
+    },
+    {
+      "epoch": 12.330342577487766,
+      "grad_norm": 0.008637349121272564,
+      "learning_rate": 0.00038495989190845246,
+      "loss": 0.0394,
+      "num_input_tokens_seen": 163280736,
+      "step": 75585
+    },
+    {
+      "epoch": 12.33115823817292,
+      "grad_norm": 0.0011679278686642647,
+      "learning_rate": 0.00038489062288768944,
+      "loss": 0.003,
+      "num_input_tokens_seen": 163291040,
+      "step": 75590
+    },
+    {
+      "epoch": 12.331973898858076,
+      "grad_norm": 0.018200945109128952,
+      "learning_rate": 0.00038482135619976373,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 163302464,
+      "step": 75595
+    },
+    {
+      "epoch": 12.33278955954323,
+      "grad_norm": 0.010142846964299679,
+      "learning_rate": 0.0003847520918460795,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 163312832,
+      "step": 75600
+    },
+    {
+      "epoch": 12.333605220228385,
+      "grad_norm": 0.01162709854543209,
+      "learning_rate": 0.00038468282982804023,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 163323552,
+      "step": 75605
+    },
+    {
+      "epoch": 12.33442088091354,
+      "grad_norm": 0.004280074033886194,
+      "learning_rate": 0.00038461357014704986,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 163333824,
+      "step": 75610
+    },
+    {
+      "epoch": 12.335236541598695,
+      "grad_norm": 0.0024590755347162485,
+      "learning_rate": 0.00038454431280451163,
+      "loss": 0.009,
+      "num_input_tokens_seen": 163345152,
+      "step": 75615
+    },
+    {
+      "epoch": 12.33605220228385,
+      "grad_norm": 0.019506709650158882,
+      "learning_rate": 0.00038447505780182963,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 163356288,
+      "step": 75620
+    },
+    {
+      "epoch": 12.336867862969005,
+      "grad_norm": 0.03595130145549774,
+      "learning_rate": 0.0003844058051404069,
+      "loss": 0.0354,
+      "num_input_tokens_seen": 163367488,
+      "step": 75625
+    },
+    {
+      "epoch": 12.33768352365416,
+      "grad_norm": 0.011195999570190907,
+      "learning_rate": 0.00038433655482164727,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 163379328,
+      "step": 75630
+    },
+    {
+      "epoch": 12.338499184339314,
+      "grad_norm": 0.20951534807682037,
+      "learning_rate": 0.0003842673068469541,
+      "loss": 0.1006,
+      "num_input_tokens_seen": 163390656,
+      "step": 75635
+    },
+    {
+      "epoch": 12.33931484502447,
+      "grad_norm": 0.008074449375271797,
+      "learning_rate": 0.0003841980612177308,
+      "loss": 0.004,
+      "num_input_tokens_seen": 163401568,
+      "step": 75640
+    },
+    {
+      "epoch": 12.340130505709626,
+      "grad_norm": 0.007740038447082043,
+      "learning_rate": 0.00038412881793538063,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 163413088,
+      "step": 75645
+    },
+    {
+      "epoch": 12.34094616639478,
+      "grad_norm": 0.022545767948031425,
+      "learning_rate": 0.000384059577001307,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 163425024,
+      "step": 75650
+    },
+    {
+      "epoch": 12.341761827079935,
+      "grad_norm": 0.012054262682795525,
+      "learning_rate": 0.000383990338416913,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 163436736,
+      "step": 75655
+    },
+    {
+      "epoch": 12.34257748776509,
+      "grad_norm": 0.02720271609723568,
+      "learning_rate": 0.00038392110218360203,
+      "loss": 0.025,
+      "num_input_tokens_seen": 163446464,
+      "step": 75660
+    },
+    {
+      "epoch": 12.343393148450245,
+      "grad_norm": 0.0017249691300094128,
+      "learning_rate": 0.0003838518683027772,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 163457312,
+      "step": 75665
+    },
+    {
+      "epoch": 12.3442088091354,
+      "grad_norm": 0.008015700615942478,
+      "learning_rate": 0.0003837826367758417,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 163467296,
+      "step": 75670
+    },
+    {
+      "epoch": 12.345024469820554,
+      "grad_norm": 0.004186101723462343,
+      "learning_rate": 0.0003837134076041984,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 163477216,
+      "step": 75675
+    },
+    {
+      "epoch": 12.34584013050571,
+      "grad_norm": 0.0532694011926651,
+      "learning_rate": 0.00038364418078925037,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 163487008,
+      "step": 75680
+    },
+    {
+      "epoch": 12.346655791190864,
+      "grad_norm": 0.004246499389410019,
+      "learning_rate": 0.0003835749563324008,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 163498624,
+      "step": 75685
+    },
+    {
+      "epoch": 12.34747145187602,
+      "grad_norm": 0.005101019516587257,
+      "learning_rate": 0.0003835057342350522,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 163508832,
+      "step": 75690
+    },
+    {
+      "epoch": 12.348287112561174,
+      "grad_norm": 0.003990354016423225,
+      "learning_rate": 0.0003834365144986079,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 163520032,
+      "step": 75695
+    },
+    {
+      "epoch": 12.34910277324633,
+      "grad_norm": 0.015845347195863724,
+      "learning_rate": 0.00038336729712447034,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 163530368,
+      "step": 75700
+    },
+    {
+      "epoch": 12.349918433931485,
+      "grad_norm": 0.001217706361785531,
+      "learning_rate": 0.0003832980821140426,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 163541280,
+      "step": 75705
+    },
+    {
+      "epoch": 12.350734094616639,
+      "grad_norm": 0.006318389903753996,
+      "learning_rate": 0.00038322886946872716,
+      "loss": 0.0794,
+      "num_input_tokens_seen": 163551584,
+      "step": 75710
+    },
+    {
+      "epoch": 12.351549755301795,
+      "grad_norm": 0.13416573405265808,
+      "learning_rate": 0.000383159659189927,
+      "loss": 0.1529,
+      "num_input_tokens_seen": 163562592,
+      "step": 75715
+    },
+    {
+      "epoch": 12.352365415986949,
+      "grad_norm": 0.23575806617736816,
+      "learning_rate": 0.0003830904512790443,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 163573728,
+      "step": 75720
+    },
+    {
+      "epoch": 12.353181076672104,
+      "grad_norm": 0.026259060949087143,
+      "learning_rate": 0.0003830212457374821,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 163585216,
+      "step": 75725
+    },
+    {
+      "epoch": 12.35399673735726,
+      "grad_norm": 0.019766176119446754,
+      "learning_rate": 0.00038295204256664264,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 163596288,
+      "step": 75730
+    },
+    {
+      "epoch": 12.354812398042414,
+      "grad_norm": 0.020990602672100067,
+      "learning_rate": 0.00038288284176792866,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 163608000,
+      "step": 75735
+    },
+    {
+      "epoch": 12.35562805872757,
+      "grad_norm": 0.28732380270957947,
+      "learning_rate": 0.0003828136433427423,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 163618976,
+      "step": 75740
+    },
+    {
+      "epoch": 12.356443719412724,
+      "grad_norm": 0.011000544764101505,
+      "learning_rate": 0.00038274444729248633,
+      "loss": 0.01,
+      "num_input_tokens_seen": 163628320,
+      "step": 75745
+    },
+    {
+      "epoch": 12.35725938009788,
+      "grad_norm": 0.002288726856932044,
+      "learning_rate": 0.00038267525361856264,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 163638336,
+      "step": 75750
+    },
+    {
+      "epoch": 12.358075040783035,
+      "grad_norm": 0.03208902105689049,
+      "learning_rate": 0.000382606062322374,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 163649376,
+      "step": 75755
+    },
+    {
+      "epoch": 12.358890701468189,
+      "grad_norm": 0.019938675686717033,
+      "learning_rate": 0.00038253687340532224,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 163660416,
+      "step": 75760
+    },
+    {
+      "epoch": 12.359706362153345,
+      "grad_norm": 0.030354809015989304,
+      "learning_rate": 0.0003824676868688097,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 163670720,
+      "step": 75765
+    },
+    {
+      "epoch": 12.360522022838499,
+      "grad_norm": 0.020712848752737045,
+      "learning_rate": 0.0003823985027142389,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 163681728,
+      "step": 75770
+    },
+    {
+      "epoch": 12.361337683523654,
+      "grad_norm": 0.012714402750134468,
+      "learning_rate": 0.0003823293209430113,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 163691584,
+      "step": 75775
+    },
+    {
+      "epoch": 12.362153344208808,
+      "grad_norm": 0.003048856742680073,
+      "learning_rate": 0.00038226014155652956,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 163702688,
+      "step": 75780
+    },
+    {
+      "epoch": 12.362969004893964,
+      "grad_norm": 0.049370184540748596,
+      "learning_rate": 0.0003821909645561952,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 163713472,
+      "step": 75785
+    },
+    {
+      "epoch": 12.36378466557912,
+      "grad_norm": 0.043685123324394226,
+      "learning_rate": 0.0003821217899434106,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 163725760,
+      "step": 75790
+    },
+    {
+      "epoch": 12.364600326264274,
+      "grad_norm": 0.021820900961756706,
+      "learning_rate": 0.0003820526177195772,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 163736928,
+      "step": 75795
+    },
+    {
+      "epoch": 12.36541598694943,
+      "grad_norm": 0.10135416686534882,
+      "learning_rate": 0.00038198344788609737,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 163747392,
+      "step": 75800
+    },
+    {
+      "epoch": 12.366231647634583,
+      "grad_norm": 0.02166566252708435,
+      "learning_rate": 0.0003819142804443726,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 163758144,
+      "step": 75805
+    },
+    {
+      "epoch": 12.367047308319739,
+      "grad_norm": 0.011187167838215828,
+      "learning_rate": 0.0003818451153958047,
+      "loss": 0.0423,
+      "num_input_tokens_seen": 163770528,
+      "step": 75810
+    },
+    {
+      "epoch": 12.367862969004895,
+      "grad_norm": 0.00776352034881711,
+      "learning_rate": 0.0003817759527417955,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 163782112,
+      "step": 75815
+    },
+    {
+      "epoch": 12.368678629690049,
+      "grad_norm": 0.00991200003772974,
+      "learning_rate": 0.00038170679248374653,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 163792736,
+      "step": 75820
+    },
+    {
+      "epoch": 12.369494290375204,
+      "grad_norm": 0.2220042645931244,
+      "learning_rate": 0.00038163763462305944,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 163804320,
+      "step": 75825
+    },
+    {
+      "epoch": 12.370309951060358,
+      "grad_norm": 0.052491020411252975,
+      "learning_rate": 0.000381568479161136,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 163814272,
+      "step": 75830
+    },
+    {
+      "epoch": 12.371125611745514,
+      "grad_norm": 0.18457885086536407,
+      "learning_rate": 0.00038149932609937736,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 163825664,
+      "step": 75835
+    },
+    {
+      "epoch": 12.37194127243067,
+      "grad_norm": 0.007164886686950922,
+      "learning_rate": 0.00038143017543918546,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 163835680,
+      "step": 75840
+    },
+    {
+      "epoch": 12.372756933115824,
+      "grad_norm": 0.01174076460301876,
+      "learning_rate": 0.0003813610271819612,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 163845536,
+      "step": 75845
+    },
+    {
+      "epoch": 12.37357259380098,
+      "grad_norm": 0.002305036410689354,
+      "learning_rate": 0.00038129188132910645,
+      "loss": 0.1235,
+      "num_input_tokens_seen": 163855968,
+      "step": 75850
+    },
+    {
+      "epoch": 12.374388254486133,
+      "grad_norm": 0.36928537487983704,
+      "learning_rate": 0.00038122273788202216,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 163866496,
+      "step": 75855
+    },
+    {
+      "epoch": 12.375203915171289,
+      "grad_norm": 0.00295365322381258,
+      "learning_rate": 0.00038115359684210993,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 163877184,
+      "step": 75860
+    },
+    {
+      "epoch": 12.376019575856443,
+      "grad_norm": 0.4139918386936188,
+      "learning_rate": 0.00038108445821077066,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 163887200,
+      "step": 75865
+    },
+    {
+      "epoch": 12.376835236541599,
+      "grad_norm": 0.033299028873443604,
+      "learning_rate": 0.00038101532198940563,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 163898208,
+      "step": 75870
+    },
+    {
+      "epoch": 12.377650897226754,
+      "grad_norm": 0.024843864142894745,
+      "learning_rate": 0.0003809461881794163,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 163908512,
+      "step": 75875
+    },
+    {
+      "epoch": 12.378466557911908,
+      "grad_norm": 1.026667594909668,
+      "learning_rate": 0.0003808770567822033,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 163918976,
+      "step": 75880
+    },
+    {
+      "epoch": 12.379282218597064,
+      "grad_norm": 0.01017333846539259,
+      "learning_rate": 0.000380807927799168,
+      "loss": 0.2334,
+      "num_input_tokens_seen": 163928544,
+      "step": 75885
+    },
+    {
+      "epoch": 12.380097879282218,
+      "grad_norm": 0.009438030421733856,
+      "learning_rate": 0.0003807388012317111,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 163939072,
+      "step": 75890
+    },
+    {
+      "epoch": 12.380913539967374,
+      "grad_norm": 0.03808213025331497,
+      "learning_rate": 0.0003806696770812339,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 163949216,
+      "step": 75895
+    },
+    {
+      "epoch": 12.38172920065253,
+      "grad_norm": 0.01764621213078499,
+      "learning_rate": 0.00038060055534913683,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 163959744,
+      "step": 75900
+    },
+    {
+      "epoch": 12.382544861337683,
+      "grad_norm": 0.0389665849506855,
+      "learning_rate": 0.0003805314360368212,
+      "loss": 0.2302,
+      "num_input_tokens_seen": 163970144,
+      "step": 75905
+    },
+    {
+      "epoch": 12.383360522022839,
+      "grad_norm": 0.09590235352516174,
+      "learning_rate": 0.0003804623191456874,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 163980832,
+      "step": 75910
+    },
+    {
+      "epoch": 12.384176182707993,
+      "grad_norm": 0.028626440092921257,
+      "learning_rate": 0.00038039320467713654,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 163992032,
+      "step": 75915
+    },
+    {
+      "epoch": 12.384991843393149,
+      "grad_norm": 0.055960919708013535,
+      "learning_rate": 0.0003803240926325689,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 164002368,
+      "step": 75920
+    },
+    {
+      "epoch": 12.385807504078304,
+      "grad_norm": 0.5099681615829468,
+      "learning_rate": 0.00038025498301338554,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 164013472,
+      "step": 75925
+    },
+    {
+      "epoch": 12.386623164763458,
+      "grad_norm": 0.004505421034991741,
+      "learning_rate": 0.00038018587582098665,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 164024224,
+      "step": 75930
+    },
+    {
+      "epoch": 12.387438825448614,
+      "grad_norm": 0.035571370273828506,
+      "learning_rate": 0.0003801167710567731,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 164034880,
+      "step": 75935
+    },
+    {
+      "epoch": 12.388254486133768,
+      "grad_norm": 0.003777115372940898,
+      "learning_rate": 0.00038004766872214526,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 164045632,
+      "step": 75940
+    },
+    {
+      "epoch": 12.389070146818923,
+      "grad_norm": 0.011398572474718094,
+      "learning_rate": 0.0003799785688185036,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 164055648,
+      "step": 75945
+    },
+    {
+      "epoch": 12.38988580750408,
+      "grad_norm": 0.005105683580040932,
+      "learning_rate": 0.00037990947134724845,
+      "loss": 0.151,
+      "num_input_tokens_seen": 164066560,
+      "step": 75950
+    },
+    {
+      "epoch": 12.390701468189233,
+      "grad_norm": 0.07168906182050705,
+      "learning_rate": 0.00037984037630978026,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 164076992,
+      "step": 75955
+    },
+    {
+      "epoch": 12.391517128874389,
+      "grad_norm": 0.20706669986248016,
+      "learning_rate": 0.00037977128370749916,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 164086912,
+      "step": 75960
+    },
+    {
+      "epoch": 12.392332789559543,
+      "grad_norm": 0.38154295086860657,
+      "learning_rate": 0.00037970219354180573,
+      "loss": 0.0972,
+      "num_input_tokens_seen": 164097504,
+      "step": 75965
+    },
+    {
+      "epoch": 12.393148450244698,
+      "grad_norm": 0.04678434878587723,
+      "learning_rate": 0.0003796331058140997,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 164107968,
+      "step": 75970
+    },
+    {
+      "epoch": 12.393964110929852,
+      "grad_norm": 0.0053862021304667,
+      "learning_rate": 0.00037956402052578164,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 164118080,
+      "step": 75975
+    },
+    {
+      "epoch": 12.394779771615008,
+      "grad_norm": 0.0014402979286387563,
+      "learning_rate": 0.0003794949376782515,
+      "loss": 0.11,
+      "num_input_tokens_seen": 164129152,
+      "step": 75980
+    },
+    {
+      "epoch": 12.395595432300164,
+      "grad_norm": 0.003660842776298523,
+      "learning_rate": 0.00037942585727290926,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 164139488,
+      "step": 75985
+    },
+    {
+      "epoch": 12.396411092985318,
+      "grad_norm": 0.00224318471737206,
+      "learning_rate": 0.000379356779311155,
+      "loss": 0.005,
+      "num_input_tokens_seen": 164151104,
+      "step": 75990
+    },
+    {
+      "epoch": 12.397226753670473,
+      "grad_norm": 0.08662576228380203,
+      "learning_rate": 0.0003792877037943886,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 164161696,
+      "step": 75995
+    },
+    {
+      "epoch": 12.398042414355627,
+      "grad_norm": 0.026156943291425705,
+      "learning_rate": 0.0003792186307240102,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 164172320,
+      "step": 76000
+    },
+    {
+      "epoch": 12.398858075040783,
+      "grad_norm": 0.4226818382740021,
+      "learning_rate": 0.0003791495601014192,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 164183104,
+      "step": 76005
+    },
+    {
+      "epoch": 12.399673735725939,
+      "grad_norm": 0.014250795356929302,
+      "learning_rate": 0.00037908049192801596,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 164195008,
+      "step": 76010
+    },
+    {
+      "epoch": 12.400489396411093,
+      "grad_norm": 0.3014688193798065,
+      "learning_rate": 0.00037901142620519967,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 164206208,
+      "step": 76015
+    },
+    {
+      "epoch": 12.401305057096248,
+      "grad_norm": 0.008320405147969723,
+      "learning_rate": 0.00037894236293437055,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 164216832,
+      "step": 76020
+    },
+    {
+      "epoch": 12.402120717781402,
+      "grad_norm": 0.06271061301231384,
+      "learning_rate": 0.00037887330211692783,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 164227936,
+      "step": 76025
+    },
+    {
+      "epoch": 12.402936378466558,
+      "grad_norm": 0.1204233169555664,
+      "learning_rate": 0.00037880424375427154,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 164238688,
+      "step": 76030
+    },
+    {
+      "epoch": 12.403752039151712,
+      "grad_norm": 0.008676442317664623,
+      "learning_rate": 0.00037873518784780074,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 164249408,
+      "step": 76035
+    },
+    {
+      "epoch": 12.404567699836868,
+      "grad_norm": 0.019311709329485893,
+      "learning_rate": 0.0003786661343989154,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 164260736,
+      "step": 76040
+    },
+    {
+      "epoch": 12.405383360522023,
+      "grad_norm": 0.0016197053482756019,
+      "learning_rate": 0.00037859708340901455,
+      "loss": 0.075,
+      "num_input_tokens_seen": 164270144,
+      "step": 76045
+    },
+    {
+      "epoch": 12.406199021207177,
+      "grad_norm": 0.0075719174928963184,
+      "learning_rate": 0.00037852803487949804,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 164279936,
+      "step": 76050
+    },
+    {
+      "epoch": 12.407014681892333,
+      "grad_norm": 0.016589025035500526,
+      "learning_rate": 0.0003784589888117648,
+      "loss": 0.0467,
+      "num_input_tokens_seen": 164292704,
+      "step": 76055
+    },
+    {
+      "epoch": 12.407830342577487,
+      "grad_norm": 0.4371892213821411,
+      "learning_rate": 0.0003783899452072146,
+      "loss": 0.009,
+      "num_input_tokens_seen": 164303904,
+      "step": 76060
+    },
+    {
+      "epoch": 12.408646003262643,
+      "grad_norm": 0.0021243118681013584,
+      "learning_rate": 0.00037832090406724617,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 164316000,
+      "step": 76065
+    },
+    {
+      "epoch": 12.409461663947798,
+      "grad_norm": 0.0714460015296936,
+      "learning_rate": 0.0003782518653932592,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 164326848,
+      "step": 76070
+    },
+    {
+      "epoch": 12.410277324632952,
+      "grad_norm": 0.2750934660434723,
+      "learning_rate": 0.00037818282918665236,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 164337792,
+      "step": 76075
+    },
+    {
+      "epoch": 12.411092985318108,
+      "grad_norm": 0.01962362602353096,
+      "learning_rate": 0.0003781137954488251,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 164349856,
+      "step": 76080
+    },
+    {
+      "epoch": 12.411908646003262,
+      "grad_norm": 0.03165091201663017,
+      "learning_rate": 0.0003780447641811766,
+      "loss": 0.0208,
+      "num_input_tokens_seen": 164360672,
+      "step": 76085
+    },
+    {
+      "epoch": 12.412724306688418,
+      "grad_norm": 0.005478391423821449,
+      "learning_rate": 0.0003779757353851054,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 164371392,
+      "step": 76090
+    },
+    {
+      "epoch": 12.413539967373573,
+      "grad_norm": 0.0063373674638569355,
+      "learning_rate": 0.000377906709062011,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 164381664,
+      "step": 76095
+    },
+    {
+      "epoch": 12.414355628058727,
+      "grad_norm": 0.027820097282528877,
+      "learning_rate": 0.00037783768521329177,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 164393184,
+      "step": 76100
+    },
+    {
+      "epoch": 12.415171288743883,
+      "grad_norm": 0.002753217238932848,
+      "learning_rate": 0.0003777686638403469,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 164402048,
+      "step": 76105
+    },
+    {
+      "epoch": 12.415986949429037,
+      "grad_norm": 1.1631052494049072,
+      "learning_rate": 0.0003776996449445752,
+      "loss": 0.0841,
+      "num_input_tokens_seen": 164411904,
+      "step": 76110
+    },
+    {
+      "epoch": 12.416802610114193,
+      "grad_norm": 0.0034380650613456964,
+      "learning_rate": 0.0003776306285273753,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 164421920,
+      "step": 76115
+    },
+    {
+      "epoch": 12.417618270799348,
+      "grad_norm": 0.04066552594304085,
+      "learning_rate": 0.0003775616145901459,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 164432576,
+      "step": 76120
+    },
+    {
+      "epoch": 12.418433931484502,
+      "grad_norm": 0.0008301659254357219,
+      "learning_rate": 0.0003774926031342858,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 164443936,
+      "step": 76125
+    },
+    {
+      "epoch": 12.419249592169658,
+      "grad_norm": 0.002140910131856799,
+      "learning_rate": 0.0003774235941611934,
+      "loss": 0.017,
+      "num_input_tokens_seen": 164456416,
+      "step": 76130
+    },
+    {
+      "epoch": 12.420065252854812,
+      "grad_norm": 0.05225667729973793,
+      "learning_rate": 0.0003773545876722675,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 164467776,
+      "step": 76135
+    },
+    {
+      "epoch": 12.420880913539968,
+      "grad_norm": 0.004565094597637653,
+      "learning_rate": 0.00037728558366890633,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 164478912,
+      "step": 76140
+    },
+    {
+      "epoch": 12.421696574225122,
+      "grad_norm": 0.013736764900386333,
+      "learning_rate": 0.00037721658215250864,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 164489280,
+      "step": 76145
+    },
+    {
+      "epoch": 12.422512234910277,
+      "grad_norm": 0.0084912134334445,
+      "learning_rate": 0.00037714758312447247,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 164498144,
+      "step": 76150
+    },
+    {
+      "epoch": 12.423327895595433,
+      "grad_norm": 0.0022617534268647432,
+      "learning_rate": 0.0003770785865861966,
+      "loss": 0.089,
+      "num_input_tokens_seen": 164510048,
+      "step": 76155
+    },
+    {
+      "epoch": 12.424143556280587,
+      "grad_norm": 0.02164643630385399,
+      "learning_rate": 0.0003770095925390789,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 164521472,
+      "step": 76160
+    },
+    {
+      "epoch": 12.424959216965743,
+      "grad_norm": 0.00475015165284276,
+      "learning_rate": 0.000376940600984518,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 164532320,
+      "step": 76165
+    },
+    {
+      "epoch": 12.425774877650896,
+      "grad_norm": 0.007536349352449179,
+      "learning_rate": 0.0003768716119239118,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 164543296,
+      "step": 76170
+    },
+    {
+      "epoch": 12.426590538336052,
+      "grad_norm": 0.030248427763581276,
+      "learning_rate": 0.0003768026253586587,
+      "loss": 0.005,
+      "num_input_tokens_seen": 164554720,
+      "step": 76175
+    },
+    {
+      "epoch": 12.427406199021208,
+      "grad_norm": 0.07713694125413895,
+      "learning_rate": 0.00037673364129015653,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 164566432,
+      "step": 76180
+    },
+    {
+      "epoch": 12.428221859706362,
+      "grad_norm": 0.11699513345956802,
+      "learning_rate": 0.0003766646597198037,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 164576672,
+      "step": 76185
+    },
+    {
+      "epoch": 12.429037520391518,
+      "grad_norm": 0.02320980280637741,
+      "learning_rate": 0.0003765956806489978,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 164588544,
+      "step": 76190
+    },
+    {
+      "epoch": 12.429853181076671,
+      "grad_norm": 0.010927310213446617,
+      "learning_rate": 0.00037652670407913697,
+      "loss": 0.019,
+      "num_input_tokens_seen": 164599136,
+      "step": 76195
+    },
+    {
+      "epoch": 12.430668841761827,
+      "grad_norm": 0.011162595823407173,
+      "learning_rate": 0.00037645773001161937,
+      "loss": 0.0913,
+      "num_input_tokens_seen": 164608672,
+      "step": 76200
+    },
+    {
+      "epoch": 12.431484502446983,
+      "grad_norm": 0.008266448974609375,
+      "learning_rate": 0.0003763887584478423,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 164619168,
+      "step": 76205
+    },
+    {
+      "epoch": 12.432300163132137,
+      "grad_norm": 0.002109188586473465,
+      "learning_rate": 0.00037631978938920414,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 164630016,
+      "step": 76210
+    },
+    {
+      "epoch": 12.433115823817293,
+      "grad_norm": 0.007610084023326635,
+      "learning_rate": 0.0003762508228371021,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 164641152,
+      "step": 76215
+    },
+    {
+      "epoch": 12.433931484502446,
+      "grad_norm": 0.002785197226330638,
+      "learning_rate": 0.0003761818587929344,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 164652672,
+      "step": 76220
+    },
+    {
+      "epoch": 12.434747145187602,
+      "grad_norm": 0.1258106827735901,
+      "learning_rate": 0.0003761128972580981,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 164662848,
+      "step": 76225
+    },
+    {
+      "epoch": 12.435562805872756,
+      "grad_norm": 0.40725257992744446,
+      "learning_rate": 0.00037604393823399137,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 164674208,
+      "step": 76230
+    },
+    {
+      "epoch": 12.436378466557912,
+      "grad_norm": 0.017194107174873352,
+      "learning_rate": 0.00037597498172201125,
+      "loss": 0.0443,
+      "num_input_tokens_seen": 164686272,
+      "step": 76235
+    },
+    {
+      "epoch": 12.437194127243067,
+      "grad_norm": 0.00854388065636158,
+      "learning_rate": 0.0003759060277235556,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 164697536,
+      "step": 76240
+    },
+    {
+      "epoch": 12.438009787928221,
+      "grad_norm": 0.001409175805747509,
+      "learning_rate": 0.00037583707624002163,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 164708512,
+      "step": 76245
+    },
+    {
+      "epoch": 12.438825448613377,
+      "grad_norm": 0.020490366965532303,
+      "learning_rate": 0.00037576812727280683,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 164718688,
+      "step": 76250
+    },
+    {
+      "epoch": 12.439641109298531,
+      "grad_norm": 0.017789531499147415,
+      "learning_rate": 0.0003756991808233086,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 164729344,
+      "step": 76255
+    },
+    {
+      "epoch": 12.440456769983687,
+      "grad_norm": 0.0018462835578247905,
+      "learning_rate": 0.0003756302368929241,
+      "loss": 0.1103,
+      "num_input_tokens_seen": 164740288,
+      "step": 76260
+    },
+    {
+      "epoch": 12.441272430668842,
+      "grad_norm": 0.007640472613275051,
+      "learning_rate": 0.00037556129548305074,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 164751520,
+      "step": 76265
+    },
+    {
+      "epoch": 12.442088091353996,
+      "grad_norm": 0.002510238206014037,
+      "learning_rate": 0.0003754923565950855,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 164762336,
+      "step": 76270
+    },
+    {
+      "epoch": 12.442903752039152,
+      "grad_norm": 0.0017224326729774475,
+      "learning_rate": 0.0003754234202304255,
+      "loss": 0.013,
+      "num_input_tokens_seen": 164773888,
+      "step": 76275
+    },
+    {
+      "epoch": 12.443719412724306,
+      "grad_norm": 0.0037370871286839247,
+      "learning_rate": 0.00037535448639046816,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 164785408,
+      "step": 76280
+    },
+    {
+      "epoch": 12.444535073409462,
+      "grad_norm": 0.001963126938790083,
+      "learning_rate": 0.00037528555507661,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 164797376,
+      "step": 76285
+    },
+    {
+      "epoch": 12.445350734094617,
+      "grad_norm": 0.0748407244682312,
+      "learning_rate": 0.00037521662629024855,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 164808640,
+      "step": 76290
+    },
+    {
+      "epoch": 12.446166394779771,
+      "grad_norm": 0.0008259370806626976,
+      "learning_rate": 0.00037514770003278027,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 164820672,
+      "step": 76295
+    },
+    {
+      "epoch": 12.446982055464927,
+      "grad_norm": 0.008207214064896107,
+      "learning_rate": 0.00037507877630560215,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 164830912,
+      "step": 76300
+    },
+    {
+      "epoch": 12.447797716150081,
+      "grad_norm": 0.13782595098018646,
+      "learning_rate": 0.00037500985511011145,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 164841216,
+      "step": 76305
+    },
+    {
+      "epoch": 12.448613376835237,
+      "grad_norm": 0.06296905130147934,
+      "learning_rate": 0.00037494093644770425,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 164852160,
+      "step": 76310
+    },
+    {
+      "epoch": 12.449429037520392,
+      "grad_norm": 0.5310968160629272,
+      "learning_rate": 0.000374872020319778,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 164862848,
+      "step": 76315
+    },
+    {
+      "epoch": 12.450244698205546,
+      "grad_norm": 0.009087975136935711,
+      "learning_rate": 0.0003748031067277286,
+      "loss": 0.034,
+      "num_input_tokens_seen": 164872896,
+      "step": 76320
+    },
+    {
+      "epoch": 12.451060358890702,
+      "grad_norm": 0.040168534964323044,
+      "learning_rate": 0.00037473419567295337,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 164882816,
+      "step": 76325
+    },
+    {
+      "epoch": 12.451876019575856,
+      "grad_norm": 0.03108314424753189,
+      "learning_rate": 0.0003746652871568483,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 164892800,
+      "step": 76330
+    },
+    {
+      "epoch": 12.452691680261012,
+      "grad_norm": 0.01985093019902706,
+      "learning_rate": 0.0003745963811808105,
+      "loss": 0.02,
+      "num_input_tokens_seen": 164903648,
+      "step": 76335
+    },
+    {
+      "epoch": 12.453507340946166,
+      "grad_norm": 0.019592365249991417,
+      "learning_rate": 0.00037452747774623584,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 164914048,
+      "step": 76340
+    },
+    {
+      "epoch": 12.454323001631321,
+      "grad_norm": 0.015187375247478485,
+      "learning_rate": 0.0003744585768545212,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 164924928,
+      "step": 76345
+    },
+    {
+      "epoch": 12.455138662316477,
+      "grad_norm": 0.009520821273326874,
+      "learning_rate": 0.00037438967850706264,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 164935680,
+      "step": 76350
+    },
+    {
+      "epoch": 12.455954323001631,
+      "grad_norm": 0.12158270925283432,
+      "learning_rate": 0.0003743207827052567,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 164946944,
+      "step": 76355
+    },
+    {
+      "epoch": 12.456769983686787,
+      "grad_norm": 0.003837285563349724,
+      "learning_rate": 0.0003742518894504994,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 164958336,
+      "step": 76360
+    },
+    {
+      "epoch": 12.45758564437194,
+      "grad_norm": 0.06163405254483223,
+      "learning_rate": 0.00037418299874418726,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 164971104,
+      "step": 76365
+    },
+    {
+      "epoch": 12.458401305057096,
+      "grad_norm": 0.003957700449973345,
+      "learning_rate": 0.00037411411058771606,
+      "loss": 0.0231,
+      "num_input_tokens_seen": 164982208,
+      "step": 76370
+    },
+    {
+      "epoch": 12.459216965742252,
+      "grad_norm": 0.019950520247220993,
+      "learning_rate": 0.00037404522498248234,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 164994144,
+      "step": 76375
+    },
+    {
+      "epoch": 12.460032626427406,
+      "grad_norm": 0.014288338832557201,
+      "learning_rate": 0.0003739763419298817,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 165004864,
+      "step": 76380
+    },
+    {
+      "epoch": 12.460848287112562,
+      "grad_norm": 0.012740354984998703,
+      "learning_rate": 0.0003739074614313105,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 165016544,
+      "step": 76385
+    },
+    {
+      "epoch": 12.461663947797716,
+      "grad_norm": 0.0955539122223854,
+      "learning_rate": 0.00037383858348816445,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 165027232,
+      "step": 76390
+    },
+    {
+      "epoch": 12.462479608482871,
+      "grad_norm": 0.5261601209640503,
+      "learning_rate": 0.0003737697081018396,
+      "loss": 0.2179,
+      "num_input_tokens_seen": 165038272,
+      "step": 76395
+    },
+    {
+      "epoch": 12.463295269168025,
+      "grad_norm": 0.3856097459793091,
+      "learning_rate": 0.0003737008352737318,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 165047968,
+      "step": 76400
+    },
+    {
+      "epoch": 12.464110929853181,
+      "grad_norm": 0.0045360904186964035,
+      "learning_rate": 0.0003736319650052366,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 165059872,
+      "step": 76405
+    },
+    {
+      "epoch": 12.464926590538337,
+      "grad_norm": 0.004846095573157072,
+      "learning_rate": 0.0003735630972977502,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 165070912,
+      "step": 76410
+    },
+    {
+      "epoch": 12.46574225122349,
+      "grad_norm": 0.0615304559469223,
+      "learning_rate": 0.00037349423215266784,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 165082208,
+      "step": 76415
+    },
+    {
+      "epoch": 12.466557911908646,
+      "grad_norm": 0.41746899485588074,
+      "learning_rate": 0.0003734253695713854,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 165092096,
+      "step": 76420
+    },
+    {
+      "epoch": 12.4673735725938,
+      "grad_norm": 0.03316102921962738,
+      "learning_rate": 0.0003733565095552985,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 165101472,
+      "step": 76425
+    },
+    {
+      "epoch": 12.468189233278956,
+      "grad_norm": 0.12689688801765442,
+      "learning_rate": 0.0003732876521058025,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 165111168,
+      "step": 76430
+    },
+    {
+      "epoch": 12.469004893964112,
+      "grad_norm": 0.012960254214704037,
+      "learning_rate": 0.000373218797224293,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 165121792,
+      "step": 76435
+    },
+    {
+      "epoch": 12.469820554649266,
+      "grad_norm": 0.008622650988399982,
+      "learning_rate": 0.00037314994491216547,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 165132160,
+      "step": 76440
+    },
+    {
+      "epoch": 12.470636215334421,
+      "grad_norm": 0.0005445160204544663,
+      "learning_rate": 0.00037308109517081506,
+      "loss": 0.01,
+      "num_input_tokens_seen": 165143872,
+      "step": 76445
+    },
+    {
+      "epoch": 12.471451876019575,
+      "grad_norm": 0.0248736385256052,
+      "learning_rate": 0.0003730122480016375,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 165154624,
+      "step": 76450
+    },
+    {
+      "epoch": 12.47226753670473,
+      "grad_norm": 0.5134662985801697,
+      "learning_rate": 0.00037294340340602764,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 165164704,
+      "step": 76455
+    },
+    {
+      "epoch": 12.473083197389887,
+      "grad_norm": 0.005300603806972504,
+      "learning_rate": 0.0003728745613853811,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 165176192,
+      "step": 76460
+    },
+    {
+      "epoch": 12.47389885807504,
+      "grad_norm": 0.09585113823413849,
+      "learning_rate": 0.00037280572194109255,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 165186784,
+      "step": 76465
+    },
+    {
+      "epoch": 12.474714518760196,
+      "grad_norm": 0.020219076424837112,
+      "learning_rate": 0.00037273688507455773,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 165198496,
+      "step": 76470
+    },
+    {
+      "epoch": 12.47553017944535,
+      "grad_norm": 0.11191736906766891,
+      "learning_rate": 0.00037266805078717106,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 165209216,
+      "step": 76475
+    },
+    {
+      "epoch": 12.476345840130506,
+      "grad_norm": 0.009172594174742699,
+      "learning_rate": 0.00037259921908032814,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 165220736,
+      "step": 76480
+    },
+    {
+      "epoch": 12.477161500815662,
+      "grad_norm": 0.003471218980848789,
+      "learning_rate": 0.0003725303899554234,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 165231104,
+      "step": 76485
+    },
+    {
+      "epoch": 12.477977161500815,
+      "grad_norm": 0.3565479815006256,
+      "learning_rate": 0.00037246156341385234,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 165241536,
+      "step": 76490
+    },
+    {
+      "epoch": 12.478792822185971,
+      "grad_norm": 0.003832635236904025,
+      "learning_rate": 0.0003723927394570092,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 165253024,
+      "step": 76495
+    },
+    {
+      "epoch": 12.479608482871125,
+      "grad_norm": 0.02578004077076912,
+      "learning_rate": 0.0003723239180862893,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 165263616,
+      "step": 76500
+    },
+    {
+      "epoch": 12.48042414355628,
+      "grad_norm": 0.010445257648825645,
+      "learning_rate": 0.00037225509930308696,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 165275168,
+      "step": 76505
+    },
+    {
+      "epoch": 12.481239804241435,
+      "grad_norm": 0.02623414248228073,
+      "learning_rate": 0.0003721862831087971,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 165286208,
+      "step": 76510
+    },
+    {
+      "epoch": 12.48205546492659,
+      "grad_norm": 0.003427008166909218,
+      "learning_rate": 0.0003721174695048145,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 165296960,
+      "step": 76515
+    },
+    {
+      "epoch": 12.482871125611746,
+      "grad_norm": 0.036691464483737946,
+      "learning_rate": 0.0003720486584925335,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 165308608,
+      "step": 76520
+    },
+    {
+      "epoch": 12.4836867862969,
+      "grad_norm": 0.02001815289258957,
+      "learning_rate": 0.0003719798500733489,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 165318816,
+      "step": 76525
+    },
+    {
+      "epoch": 12.484502446982056,
+      "grad_norm": 0.5764277577400208,
+      "learning_rate": 0.00037191104424865487,
+      "loss": 0.1406,
+      "num_input_tokens_seen": 165330144,
+      "step": 76530
+    },
+    {
+      "epoch": 12.48531810766721,
+      "grad_norm": 0.11190090328454971,
+      "learning_rate": 0.0003718422410198462,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 165340800,
+      "step": 76535
+    },
+    {
+      "epoch": 12.486133768352365,
+      "grad_norm": 0.013130726292729378,
+      "learning_rate": 0.0003717734403883169,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 165351776,
+      "step": 76540
+    },
+    {
+      "epoch": 12.486949429037521,
+      "grad_norm": 1.2218176126480103,
+      "learning_rate": 0.0003717046423554617,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 165363008,
+      "step": 76545
+    },
+    {
+      "epoch": 12.487765089722675,
+      "grad_norm": 0.017160970717668533,
+      "learning_rate": 0.0003716358469226745,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 165373888,
+      "step": 76550
+    },
+    {
+      "epoch": 12.48858075040783,
+      "grad_norm": 0.06486137211322784,
+      "learning_rate": 0.0003715670540913499,
+      "loss": 0.01,
+      "num_input_tokens_seen": 165384928,
+      "step": 76555
+    },
+    {
+      "epoch": 12.489396411092985,
+      "grad_norm": 0.2934146523475647,
+      "learning_rate": 0.0003714982638628817,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 165395616,
+      "step": 76560
+    },
+    {
+      "epoch": 12.49021207177814,
+      "grad_norm": 0.0009802387794479728,
+      "learning_rate": 0.00037142947623866417,
+      "loss": 0.0393,
+      "num_input_tokens_seen": 165405568,
+      "step": 76565
+    },
+    {
+      "epoch": 12.491027732463296,
+      "grad_norm": 0.28663870692253113,
+      "learning_rate": 0.0003713606912200915,
+      "loss": 0.084,
+      "num_input_tokens_seen": 165417216,
+      "step": 76570
+    },
+    {
+      "epoch": 12.49184339314845,
+      "grad_norm": 0.0640694722533226,
+      "learning_rate": 0.00037129190880855764,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 165428608,
+      "step": 76575
+    },
+    {
+      "epoch": 12.492659053833606,
+      "grad_norm": 0.0026230604853481054,
+      "learning_rate": 0.00037122312900545644,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 165440576,
+      "step": 76580
+    },
+    {
+      "epoch": 12.49347471451876,
+      "grad_norm": 0.0017055338248610497,
+      "learning_rate": 0.000371154351812182,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 165450976,
+      "step": 76585
+    },
+    {
+      "epoch": 12.494290375203915,
+      "grad_norm": 0.14844626188278198,
+      "learning_rate": 0.0003710855772301279,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 165463104,
+      "step": 76590
+    },
+    {
+      "epoch": 12.49510603588907,
+      "grad_norm": 0.0018314715707674623,
+      "learning_rate": 0.00037101680526068837,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 165473376,
+      "step": 76595
+    },
+    {
+      "epoch": 12.495921696574225,
+      "grad_norm": 0.008383872918784618,
+      "learning_rate": 0.0003709480359052566,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 165483840,
+      "step": 76600
+    },
+    {
+      "epoch": 12.49673735725938,
+      "grad_norm": 0.00485193869099021,
+      "learning_rate": 0.0003708792691652269,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 165494944,
+      "step": 76605
+    },
+    {
+      "epoch": 12.497553017944535,
+      "grad_norm": 0.3109101355075836,
+      "learning_rate": 0.00037081050504199245,
+      "loss": 0.1019,
+      "num_input_tokens_seen": 165505792,
+      "step": 76610
+    },
+    {
+      "epoch": 12.49836867862969,
+      "grad_norm": 0.02356518618762493,
+      "learning_rate": 0.0003707417435369469,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 165515808,
+      "step": 76615
+    },
+    {
+      "epoch": 12.499184339314844,
+      "grad_norm": 0.00426015630364418,
+      "learning_rate": 0.00037067298465148416,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 165525920,
+      "step": 76620
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 0.005503225605934858,
+      "learning_rate": 0.00037060422838699716,
+      "loss": 0.018,
+      "num_input_tokens_seen": 165536352,
+      "step": 76625
+    },
+    {
+      "epoch": 12.500815660685156,
+      "grad_norm": 0.010103323496878147,
+      "learning_rate": 0.0003705354747448799,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 165546240,
+      "step": 76630
+    },
+    {
+      "epoch": 12.50163132137031,
+      "grad_norm": 0.02620244398713112,
+      "learning_rate": 0.00037046672372652523,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 165556096,
+      "step": 76635
+    },
+    {
+      "epoch": 12.502446982055465,
+      "grad_norm": 0.02562333457171917,
+      "learning_rate": 0.00037039797533332697,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 165567552,
+      "step": 76640
+    },
+    {
+      "epoch": 12.50326264274062,
+      "grad_norm": 0.010979540646076202,
+      "learning_rate": 0.000370329229566678,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 165579008,
+      "step": 76645
+    },
+    {
+      "epoch": 12.504078303425775,
+      "grad_norm": 0.08632088452577591,
+      "learning_rate": 0.0003702604864279718,
+      "loss": 0.1055,
+      "num_input_tokens_seen": 165589216,
+      "step": 76650
+    },
+    {
+      "epoch": 12.50489396411093,
+      "grad_norm": 0.006022381596267223,
+      "learning_rate": 0.00037019174591860127,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 165601056,
+      "step": 76655
+    },
+    {
+      "epoch": 12.505709624796085,
+      "grad_norm": 0.0006824670126661658,
+      "learning_rate": 0.0003701230080399599,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 165610336,
+      "step": 76660
+    },
+    {
+      "epoch": 12.50652528548124,
+      "grad_norm": 0.13738100230693817,
+      "learning_rate": 0.00037005427279344027,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 165620800,
+      "step": 76665
+    },
+    {
+      "epoch": 12.507340946166394,
+      "grad_norm": 0.0023835247848182917,
+      "learning_rate": 0.0003699855401804359,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 165631488,
+      "step": 76670
+    },
+    {
+      "epoch": 12.50815660685155,
+      "grad_norm": 0.013245565816760063,
+      "learning_rate": 0.0003699168102023393,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 165641760,
+      "step": 76675
+    },
+    {
+      "epoch": 12.508972267536706,
+      "grad_norm": 0.00538500864058733,
+      "learning_rate": 0.0003698480828605437,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 165652256,
+      "step": 76680
+    },
+    {
+      "epoch": 12.50978792822186,
+      "grad_norm": 0.02130158618092537,
+      "learning_rate": 0.0003697793581564417,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 165663712,
+      "step": 76685
+    },
+    {
+      "epoch": 12.510603588907015,
+      "grad_norm": 0.010575438849627972,
+      "learning_rate": 0.00036971063609142637,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 165674432,
+      "step": 76690
+    },
+    {
+      "epoch": 12.51141924959217,
+      "grad_norm": 0.007054158952087164,
+      "learning_rate": 0.00036964191666689005,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 165685280,
+      "step": 76695
+    },
+    {
+      "epoch": 12.512234910277325,
+      "grad_norm": 0.008702908642590046,
+      "learning_rate": 0.00036957319988422586,
+      "loss": 0.1665,
+      "num_input_tokens_seen": 165694368,
+      "step": 76700
+    },
+    {
+      "epoch": 12.513050570962479,
+      "grad_norm": 0.008559376932680607,
+      "learning_rate": 0.0003695044857448261,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 165704768,
+      "step": 76705
+    },
+    {
+      "epoch": 12.513866231647635,
+      "grad_norm": 0.006825583055615425,
+      "learning_rate": 0.0003694357742500835,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 165715296,
+      "step": 76710
+    },
+    {
+      "epoch": 12.51468189233279,
+      "grad_norm": 0.41185325384140015,
+      "learning_rate": 0.00036936706540139063,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 165725376,
+      "step": 76715
+    },
+    {
+      "epoch": 12.515497553017944,
+      "grad_norm": 0.02468119002878666,
+      "learning_rate": 0.0003692983592001398,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 165735648,
+      "step": 76720
+    },
+    {
+      "epoch": 12.5163132137031,
+      "grad_norm": 0.10309385508298874,
+      "learning_rate": 0.0003692296556477237,
+      "loss": 0.0533,
+      "num_input_tokens_seen": 165746464,
+      "step": 76725
+    },
+    {
+      "epoch": 12.517128874388254,
+      "grad_norm": 0.5680201053619385,
+      "learning_rate": 0.0003691609547455343,
+      "loss": 0.0943,
+      "num_input_tokens_seen": 165757216,
+      "step": 76730
+    },
+    {
+      "epoch": 12.51794453507341,
+      "grad_norm": 0.007687503471970558,
+      "learning_rate": 0.0003690922564949643,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 165769440,
+      "step": 76735
+    },
+    {
+      "epoch": 12.518760195758565,
+      "grad_norm": 0.765103816986084,
+      "learning_rate": 0.0003690235608974057,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 165781568,
+      "step": 76740
+    },
+    {
+      "epoch": 12.51957585644372,
+      "grad_norm": 0.17138712108135223,
+      "learning_rate": 0.0003689548679542508,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 165790880,
+      "step": 76745
+    },
+    {
+      "epoch": 12.520391517128875,
+      "grad_norm": 0.007275717798620462,
+      "learning_rate": 0.0003688861776668918,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 165802336,
+      "step": 76750
+    },
+    {
+      "epoch": 12.521207177814029,
+      "grad_norm": 0.004311291500926018,
+      "learning_rate": 0.0003688174900367207,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 165812512,
+      "step": 76755
+    },
+    {
+      "epoch": 12.522022838499185,
+      "grad_norm": 0.02970127761363983,
+      "learning_rate": 0.00036874880506512954,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 165823136,
+      "step": 76760
+    },
+    {
+      "epoch": 12.522838499184338,
+      "grad_norm": 0.016825757920742035,
+      "learning_rate": 0.0003686801227535105,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 165833568,
+      "step": 76765
+    },
+    {
+      "epoch": 12.523654159869494,
+      "grad_norm": 0.0012513466645032167,
+      "learning_rate": 0.00036861144310325523,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 165843136,
+      "step": 76770
+    },
+    {
+      "epoch": 12.52446982055465,
+      "grad_norm": 0.47699278593063354,
+      "learning_rate": 0.0003685427661157559,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 165853920,
+      "step": 76775
+    },
+    {
+      "epoch": 12.525285481239804,
+      "grad_norm": 0.0014302321942523122,
+      "learning_rate": 0.00036847409179240396,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 165865216,
+      "step": 76780
+    },
+    {
+      "epoch": 12.52610114192496,
+      "grad_norm": 0.09856893867254257,
+      "learning_rate": 0.00036840542013459154,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 165875712,
+      "step": 76785
+    },
+    {
+      "epoch": 12.526916802610113,
+      "grad_norm": 0.03922778740525246,
+      "learning_rate": 0.00036833675114371014,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 165887072,
+      "step": 76790
+    },
+    {
+      "epoch": 12.52773246329527,
+      "grad_norm": 0.74526447057724,
+      "learning_rate": 0.00036826808482115167,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 165897792,
+      "step": 76795
+    },
+    {
+      "epoch": 12.528548123980425,
+      "grad_norm": 0.020173760131001472,
+      "learning_rate": 0.00036819942116830736,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 165908160,
+      "step": 76800
+    },
+    {
+      "epoch": 12.529363784665579,
+      "grad_norm": 0.6142863631248474,
+      "learning_rate": 0.0003681307601865692,
+      "loss": 0.2382,
+      "num_input_tokens_seen": 165919008,
+      "step": 76805
+    },
+    {
+      "epoch": 12.530179445350734,
+      "grad_norm": 0.02296280302107334,
+      "learning_rate": 0.00036806210187732824,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 165930880,
+      "step": 76810
+    },
+    {
+      "epoch": 12.530995106035888,
+      "grad_norm": 0.01190591137856245,
+      "learning_rate": 0.00036799344624197637,
+      "loss": 0.0398,
+      "num_input_tokens_seen": 165942432,
+      "step": 76815
+    },
+    {
+      "epoch": 12.531810766721044,
+      "grad_norm": 0.004319501109421253,
+      "learning_rate": 0.00036792479328190457,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 165954304,
+      "step": 76820
+    },
+    {
+      "epoch": 12.5326264274062,
+      "grad_norm": 0.05026920139789581,
+      "learning_rate": 0.0003678561429985044,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 165965024,
+      "step": 76825
+    },
+    {
+      "epoch": 12.533442088091354,
+      "grad_norm": 0.0011591935763135552,
+      "learning_rate": 0.00036778749539316736,
+      "loss": 0.0626,
+      "num_input_tokens_seen": 165976096,
+      "step": 76830
+    },
+    {
+      "epoch": 12.53425774877651,
+      "grad_norm": 0.006536852102726698,
+      "learning_rate": 0.00036771885046728417,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 165987232,
+      "step": 76835
+    },
+    {
+      "epoch": 12.535073409461663,
+      "grad_norm": 0.04312235489487648,
+      "learning_rate": 0.00036765020822224654,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 165996800,
+      "step": 76840
+    },
+    {
+      "epoch": 12.535889070146819,
+      "grad_norm": 0.01564362645149231,
+      "learning_rate": 0.0003675815686594451,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 166007424,
+      "step": 76845
+    },
+    {
+      "epoch": 12.536704730831975,
+      "grad_norm": 0.02771487832069397,
+      "learning_rate": 0.00036751293178027144,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 166018144,
+      "step": 76850
+    },
+    {
+      "epoch": 12.537520391517129,
+      "grad_norm": 0.015305979177355766,
+      "learning_rate": 0.000367444297586116,
+      "loss": 0.003,
+      "num_input_tokens_seen": 166028992,
+      "step": 76855
+    },
+    {
+      "epoch": 12.538336052202284,
+      "grad_norm": 0.4608621299266815,
+      "learning_rate": 0.0003673756660783703,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 166039968,
+      "step": 76860
+    },
+    {
+      "epoch": 12.539151712887438,
+      "grad_norm": 0.016641966998577118,
+      "learning_rate": 0.00036730703725842474,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 166051552,
+      "step": 76865
+    },
+    {
+      "epoch": 12.539967373572594,
+      "grad_norm": 0.004178878851234913,
+      "learning_rate": 0.0003672384111276705,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 166062144,
+      "step": 76870
+    },
+    {
+      "epoch": 12.540783034257748,
+      "grad_norm": 0.004638664424419403,
+      "learning_rate": 0.0003671697876874982,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 166073632,
+      "step": 76875
+    },
+    {
+      "epoch": 12.541598694942904,
+      "grad_norm": 0.03444049507379532,
+      "learning_rate": 0.00036710116693929875,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 166083552,
+      "step": 76880
+    },
+    {
+      "epoch": 12.54241435562806,
+      "grad_norm": 0.03458646312355995,
+      "learning_rate": 0.0003670325488844627,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 166093376,
+      "step": 76885
+    },
+    {
+      "epoch": 12.543230016313213,
+      "grad_norm": 0.008939512073993683,
+      "learning_rate": 0.00036696393352438083,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 166104800,
+      "step": 76890
+    },
+    {
+      "epoch": 12.544045676998369,
+      "grad_norm": 0.030445056036114693,
+      "learning_rate": 0.0003668953208604435,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 166115968,
+      "step": 76895
+    },
+    {
+      "epoch": 12.544861337683523,
+      "grad_norm": 0.015219416469335556,
+      "learning_rate": 0.0003668267108940414,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 166125152,
+      "step": 76900
+    },
+    {
+      "epoch": 12.545676998368679,
+      "grad_norm": 0.05321419611573219,
+      "learning_rate": 0.00036675810362656486,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 166136192,
+      "step": 76905
+    },
+    {
+      "epoch": 12.546492659053834,
+      "grad_norm": 0.008124981075525284,
+      "learning_rate": 0.00036668949905940455,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 166144512,
+      "step": 76910
+    },
+    {
+      "epoch": 12.547308319738988,
+      "grad_norm": 0.03787637874484062,
+      "learning_rate": 0.0003666208971939505,
+      "loss": 0.1269,
+      "num_input_tokens_seen": 166155168,
+      "step": 76915
+    },
+    {
+      "epoch": 12.548123980424144,
+      "grad_norm": 0.09556692838668823,
+      "learning_rate": 0.0003665522980315933,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 166164864,
+      "step": 76920
+    },
+    {
+      "epoch": 12.548939641109298,
+      "grad_norm": 0.008689331822097301,
+      "learning_rate": 0.0003664837015737229,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 166174272,
+      "step": 76925
+    },
+    {
+      "epoch": 12.549755301794454,
+      "grad_norm": 0.01637548767030239,
+      "learning_rate": 0.00036641510782172993,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 166185536,
+      "step": 76930
+    },
+    {
+      "epoch": 12.550570962479608,
+      "grad_norm": 0.011396531015634537,
+      "learning_rate": 0.0003663465167770039,
+      "loss": 0.1109,
+      "num_input_tokens_seen": 166194944,
+      "step": 76935
+    },
+    {
+      "epoch": 12.551386623164763,
+      "grad_norm": 0.005017245654016733,
+      "learning_rate": 0.00036627792844093544,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 166207168,
+      "step": 76940
+    },
+    {
+      "epoch": 12.552202283849919,
+      "grad_norm": 0.0026462902314960957,
+      "learning_rate": 0.0003662093428149145,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 166217792,
+      "step": 76945
+    },
+    {
+      "epoch": 12.553017944535073,
+      "grad_norm": 0.048384591937065125,
+      "learning_rate": 0.0003661407599003308,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 166227616,
+      "step": 76950
+    },
+    {
+      "epoch": 12.553833605220229,
+      "grad_norm": 0.011623039841651917,
+      "learning_rate": 0.0003660721796985746,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 166237504,
+      "step": 76955
+    },
+    {
+      "epoch": 12.554649265905383,
+      "grad_norm": 0.0399308018386364,
+      "learning_rate": 0.0003660036022110353,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 166248480,
+      "step": 76960
+    },
+    {
+      "epoch": 12.555464926590538,
+      "grad_norm": 0.09246581792831421,
+      "learning_rate": 0.00036593502743910336,
+      "loss": 0.011,
+      "num_input_tokens_seen": 166259904,
+      "step": 76965
+    },
+    {
+      "epoch": 12.556280587275694,
+      "grad_norm": 0.005269172601401806,
+      "learning_rate": 0.00036586645538416783,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 166271872,
+      "step": 76970
+    },
+    {
+      "epoch": 12.557096247960848,
+      "grad_norm": 0.015488158911466599,
+      "learning_rate": 0.00036579788604761896,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 166283136,
+      "step": 76975
+    },
+    {
+      "epoch": 12.557911908646004,
+      "grad_norm": 0.6963528394699097,
+      "learning_rate": 0.000365729319430846,
+      "loss": 0.033,
+      "num_input_tokens_seen": 166293632,
+      "step": 76980
+    },
+    {
+      "epoch": 12.558727569331158,
+      "grad_norm": 0.051269035786390305,
+      "learning_rate": 0.00036566075553523894,
+      "loss": 0.0782,
+      "num_input_tokens_seen": 166304992,
+      "step": 76985
+    },
+    {
+      "epoch": 12.559543230016313,
+      "grad_norm": 0.01623843051493168,
+      "learning_rate": 0.0003655921943621868,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 166314880,
+      "step": 76990
+    },
+    {
+      "epoch": 12.560358890701469,
+      "grad_norm": 0.003099554916843772,
+      "learning_rate": 0.0003655236359130796,
+      "loss": 0.1376,
+      "num_input_tokens_seen": 166325536,
+      "step": 76995
+    },
+    {
+      "epoch": 12.561174551386623,
+      "grad_norm": 0.27658185362815857,
+      "learning_rate": 0.0003654550801893063,
+      "loss": 0.015,
+      "num_input_tokens_seen": 166336096,
+      "step": 77000
+    },
+    {
+      "epoch": 12.561990212071779,
+      "grad_norm": 0.012075589969754219,
+      "learning_rate": 0.00036538652719225674,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 166345984,
+      "step": 77005
+    },
+    {
+      "epoch": 12.562805872756933,
+      "grad_norm": 0.016627484932541847,
+      "learning_rate": 0.0003653179769233197,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 166357152,
+      "step": 77010
+    },
+    {
+      "epoch": 12.563621533442088,
+      "grad_norm": 0.009096194058656693,
+      "learning_rate": 0.00036524942938388495,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 166368736,
+      "step": 77015
+    },
+    {
+      "epoch": 12.564437194127244,
+      "grad_norm": 0.0031699403189122677,
+      "learning_rate": 0.00036518088457534125,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 166379264,
+      "step": 77020
+    },
+    {
+      "epoch": 12.565252854812398,
+      "grad_norm": 0.020030856132507324,
+      "learning_rate": 0.0003651123424990781,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 166391072,
+      "step": 77025
+    },
+    {
+      "epoch": 12.566068515497554,
+      "grad_norm": 0.022214405238628387,
+      "learning_rate": 0.00036504380315648447,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 166402304,
+      "step": 77030
+    },
+    {
+      "epoch": 12.566884176182707,
+      "grad_norm": 0.07444703578948975,
+      "learning_rate": 0.0003649752665489492,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 166412736,
+      "step": 77035
+    },
+    {
+      "epoch": 12.567699836867863,
+      "grad_norm": 0.013522377237677574,
+      "learning_rate": 0.00036490673267786154,
+      "loss": 0.007,
+      "num_input_tokens_seen": 166423936,
+      "step": 77040
+    },
+    {
+      "epoch": 12.568515497553017,
+      "grad_norm": 0.00476167444139719,
+      "learning_rate": 0.0003648382015446103,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 166433472,
+      "step": 77045
+    },
+    {
+      "epoch": 12.569331158238173,
+      "grad_norm": 0.009685852564871311,
+      "learning_rate": 0.0003647696731505844,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 166443328,
+      "step": 77050
+    },
+    {
+      "epoch": 12.570146818923329,
+      "grad_norm": 0.009335564449429512,
+      "learning_rate": 0.00036470114749717267,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 166453792,
+      "step": 77055
+    },
+    {
+      "epoch": 12.570962479608482,
+      "grad_norm": 0.022270025685429573,
+      "learning_rate": 0.00036463262458576374,
+      "loss": 0.014,
+      "num_input_tokens_seen": 166464896,
+      "step": 77060
+    },
+    {
+      "epoch": 12.571778140293638,
+      "grad_norm": 0.24031361937522888,
+      "learning_rate": 0.0003645641044177465,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 166475904,
+      "step": 77065
+    },
+    {
+      "epoch": 12.572593800978792,
+      "grad_norm": 0.0068599446676671505,
+      "learning_rate": 0.00036449558699450937,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 166486880,
+      "step": 77070
+    },
+    {
+      "epoch": 12.573409461663948,
+      "grad_norm": 0.5030407309532166,
+      "learning_rate": 0.0003644270723174411,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 166498944,
+      "step": 77075
+    },
+    {
+      "epoch": 12.574225122349104,
+      "grad_norm": 0.5042504668235779,
+      "learning_rate": 0.0003643585603879303,
+      "loss": 0.137,
+      "num_input_tokens_seen": 166510112,
+      "step": 77080
+    },
+    {
+      "epoch": 12.575040783034257,
+      "grad_norm": 0.020460493862628937,
+      "learning_rate": 0.0003642900512073652,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 166520736,
+      "step": 77085
+    },
+    {
+      "epoch": 12.575856443719413,
+      "grad_norm": 0.12157510221004486,
+      "learning_rate": 0.00036422154477713456,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 166532192,
+      "step": 77090
+    },
+    {
+      "epoch": 12.576672104404567,
+      "grad_norm": 0.009250016883015633,
+      "learning_rate": 0.00036415304109862633,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 166542688,
+      "step": 77095
+    },
+    {
+      "epoch": 12.577487765089723,
+      "grad_norm": 0.004898452199995518,
+      "learning_rate": 0.0003640845401732293,
+      "loss": 0.016,
+      "num_input_tokens_seen": 166553824,
+      "step": 77100
+    },
+    {
+      "epoch": 12.578303425774878,
+      "grad_norm": 0.08203618228435516,
+      "learning_rate": 0.0003640160420023313,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 166564512,
+      "step": 77105
+    },
+    {
+      "epoch": 12.579119086460032,
+      "grad_norm": 0.015118278563022614,
+      "learning_rate": 0.00036394754658732086,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 166575616,
+      "step": 77110
+    },
+    {
+      "epoch": 12.579934747145188,
+      "grad_norm": 0.010293328203260899,
+      "learning_rate": 0.00036387905392958574,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 166586848,
+      "step": 77115
+    },
+    {
+      "epoch": 12.580750407830342,
+      "grad_norm": 0.03571222350001335,
+      "learning_rate": 0.0003638105640305146,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 166597568,
+      "step": 77120
+    },
+    {
+      "epoch": 12.581566068515498,
+      "grad_norm": 0.011700263246893883,
+      "learning_rate": 0.00036374207689149487,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 166608448,
+      "step": 77125
+    },
+    {
+      "epoch": 12.582381729200652,
+      "grad_norm": 0.1275133490562439,
+      "learning_rate": 0.00036367359251391506,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 166618912,
+      "step": 77130
+    },
+    {
+      "epoch": 12.583197389885807,
+      "grad_norm": 0.10448265820741653,
+      "learning_rate": 0.0003636051108991626,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 166628960,
+      "step": 77135
+    },
+    {
+      "epoch": 12.584013050570963,
+      "grad_norm": 0.5431002378463745,
+      "learning_rate": 0.0003635366320486258,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 166638496,
+      "step": 77140
+    },
+    {
+      "epoch": 12.584828711256117,
+      "grad_norm": 0.0023790623527020216,
+      "learning_rate": 0.0003634681559636921,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 166650464,
+      "step": 77145
+    },
+    {
+      "epoch": 12.585644371941273,
+      "grad_norm": 0.04713069275021553,
+      "learning_rate": 0.0003633996826457494,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 166660384,
+      "step": 77150
+    },
+    {
+      "epoch": 12.586460032626427,
+      "grad_norm": 0.14566659927368164,
+      "learning_rate": 0.0003633312120961856,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 166670848,
+      "step": 77155
+    },
+    {
+      "epoch": 12.587275693311582,
+      "grad_norm": 0.005130293779075146,
+      "learning_rate": 0.000363262744316388,
+      "loss": 0.014,
+      "num_input_tokens_seen": 166681216,
+      "step": 77160
+    },
+    {
+      "epoch": 12.588091353996738,
+      "grad_norm": 0.006175138521939516,
+      "learning_rate": 0.00036319427930774453,
+      "loss": 0.042,
+      "num_input_tokens_seen": 166691680,
+      "step": 77165
+    },
+    {
+      "epoch": 12.588907014681892,
+      "grad_norm": 0.004177759867161512,
+      "learning_rate": 0.0003631258170716423,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 166701024,
+      "step": 77170
+    },
+    {
+      "epoch": 12.589722675367048,
+      "grad_norm": 0.0710231363773346,
+      "learning_rate": 0.0003630573576094693,
+      "loss": 0.0449,
+      "num_input_tokens_seen": 166711296,
+      "step": 77175
+    },
+    {
+      "epoch": 12.590538336052202,
+      "grad_norm": 0.1315511018037796,
+      "learning_rate": 0.0003629889009226124,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 166722368,
+      "step": 77180
+    },
+    {
+      "epoch": 12.591353996737357,
+      "grad_norm": 0.6337395310401917,
+      "learning_rate": 0.0003629204470124595,
+      "loss": 0.0962,
+      "num_input_tokens_seen": 166733696,
+      "step": 77185
+    },
+    {
+      "epoch": 12.592169657422513,
+      "grad_norm": 0.0053985025733709335,
+      "learning_rate": 0.00036285199588039743,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 166743456,
+      "step": 77190
+    },
+    {
+      "epoch": 12.592985318107667,
+      "grad_norm": 0.011733738705515862,
+      "learning_rate": 0.0003627835475278137,
+      "loss": 0.0389,
+      "num_input_tokens_seen": 166754528,
+      "step": 77195
+    },
+    {
+      "epoch": 12.593800978792823,
+      "grad_norm": 0.438748836517334,
+      "learning_rate": 0.0003627151019560955,
+      "loss": 0.0514,
+      "num_input_tokens_seen": 166766912,
+      "step": 77200
+    },
+    {
+      "epoch": 12.594616639477977,
+      "grad_norm": 0.4337851405143738,
+      "learning_rate": 0.00036264665916662986,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 166778464,
+      "step": 77205
+    },
+    {
+      "epoch": 12.595432300163132,
+      "grad_norm": 0.15691335499286652,
+      "learning_rate": 0.000362578219160804,
+      "loss": 0.0409,
+      "num_input_tokens_seen": 166789760,
+      "step": 77210
+    },
+    {
+      "epoch": 12.596247960848288,
+      "grad_norm": 0.0065701864659786224,
+      "learning_rate": 0.0003625097819400048,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 166799648,
+      "step": 77215
+    },
+    {
+      "epoch": 12.597063621533442,
+      "grad_norm": 0.010911048389971256,
+      "learning_rate": 0.0003624413475056192,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 166810304,
+      "step": 77220
+    },
+    {
+      "epoch": 12.597879282218598,
+      "grad_norm": 0.011135376058518887,
+      "learning_rate": 0.00036237291585903436,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 166820608,
+      "step": 77225
+    },
+    {
+      "epoch": 12.598694942903752,
+      "grad_norm": 0.019748615100979805,
+      "learning_rate": 0.0003623044870016368,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 166831616,
+      "step": 77230
+    },
+    {
+      "epoch": 12.599510603588907,
+      "grad_norm": 0.009777350351214409,
+      "learning_rate": 0.0003622360609348138,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 166842240,
+      "step": 77235
+    },
+    {
+      "epoch": 12.600326264274061,
+      "grad_norm": 0.0011331519344821572,
+      "learning_rate": 0.0003621676376599514,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 166853984,
+      "step": 77240
+    },
+    {
+      "epoch": 12.601141924959217,
+      "grad_norm": 0.005403982475399971,
+      "learning_rate": 0.00036209921717843697,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 166863712,
+      "step": 77245
+    },
+    {
+      "epoch": 12.601957585644373,
+      "grad_norm": 0.11000215262174606,
+      "learning_rate": 0.00036203079949165664,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 166874592,
+      "step": 77250
+    },
+    {
+      "epoch": 12.602773246329527,
+      "grad_norm": 0.009174146689474583,
+      "learning_rate": 0.00036196238460099717,
+      "loss": 0.005,
+      "num_input_tokens_seen": 166883136,
+      "step": 77255
+    },
+    {
+      "epoch": 12.603588907014682,
+      "grad_norm": 0.02310585230588913,
+      "learning_rate": 0.0003618939725078453,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 166893600,
+      "step": 77260
+    },
+    {
+      "epoch": 12.604404567699836,
+      "grad_norm": 0.005659396760165691,
+      "learning_rate": 0.0003618255632135871,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 166906016,
+      "step": 77265
+    },
+    {
+      "epoch": 12.605220228384992,
+      "grad_norm": 0.011715354397892952,
+      "learning_rate": 0.00036175715671960934,
+      "loss": 0.0704,
+      "num_input_tokens_seen": 166917216,
+      "step": 77270
+    },
+    {
+      "epoch": 12.606035889070148,
+      "grad_norm": 0.003530156798660755,
+      "learning_rate": 0.000361688753027298,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 166927584,
+      "step": 77275
+    },
+    {
+      "epoch": 12.606851549755302,
+      "grad_norm": 0.010420121252536774,
+      "learning_rate": 0.0003616203521380397,
+      "loss": 0.005,
+      "num_input_tokens_seen": 166937824,
+      "step": 77280
+    },
+    {
+      "epoch": 12.607667210440457,
+      "grad_norm": 0.004818596411496401,
+      "learning_rate": 0.00036155195405322026,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 166948480,
+      "step": 77285
+    },
+    {
+      "epoch": 12.608482871125611,
+      "grad_norm": 0.010222864337265491,
+      "learning_rate": 0.0003614835587742264,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 166958848,
+      "step": 77290
+    },
+    {
+      "epoch": 12.609298531810767,
+      "grad_norm": 0.5348839163780212,
+      "learning_rate": 0.0003614151663024436,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 166969344,
+      "step": 77295
+    },
+    {
+      "epoch": 12.61011419249592,
+      "grad_norm": 0.04770367220044136,
+      "learning_rate": 0.0003613467766392586,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 166980832,
+      "step": 77300
+    },
+    {
+      "epoch": 12.610929853181077,
+      "grad_norm": 0.009626589715480804,
+      "learning_rate": 0.00036127838978605687,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 166989920,
+      "step": 77305
+    },
+    {
+      "epoch": 12.611745513866232,
+      "grad_norm": 0.021754087880253792,
+      "learning_rate": 0.0003612100057442247,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 167000320,
+      "step": 77310
+    },
+    {
+      "epoch": 12.612561174551386,
+      "grad_norm": 0.009066320955753326,
+      "learning_rate": 0.00036114162451514765,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 167011584,
+      "step": 77315
+    },
+    {
+      "epoch": 12.613376835236542,
+      "grad_norm": 0.0031363347079604864,
+      "learning_rate": 0.000361073246100212,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 167022784,
+      "step": 77320
+    },
+    {
+      "epoch": 12.614192495921696,
+      "grad_norm": 0.10713813453912735,
+      "learning_rate": 0.0003610048705008029,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 167033952,
+      "step": 77325
+    },
+    {
+      "epoch": 12.615008156606851,
+      "grad_norm": 0.03944196179509163,
+      "learning_rate": 0.00036093649771830674,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 167044768,
+      "step": 77330
+    },
+    {
+      "epoch": 12.615823817292007,
+      "grad_norm": 0.001964397495612502,
+      "learning_rate": 0.0003608681277541086,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 167055776,
+      "step": 77335
+    },
+    {
+      "epoch": 12.616639477977161,
+      "grad_norm": 0.11983584612607956,
+      "learning_rate": 0.00036079976060959454,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 167067328,
+      "step": 77340
+    },
+    {
+      "epoch": 12.617455138662317,
+      "grad_norm": 0.0034255923237651587,
+      "learning_rate": 0.0003607313962861499,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 167078432,
+      "step": 77345
+    },
+    {
+      "epoch": 12.61827079934747,
+      "grad_norm": 0.007270899601280689,
+      "learning_rate": 0.00036066303478516016,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 167089472,
+      "step": 77350
+    },
+    {
+      "epoch": 12.619086460032626,
+      "grad_norm": 0.002617582445964217,
+      "learning_rate": 0.0003605946761080108,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 167100768,
+      "step": 77355
+    },
+    {
+      "epoch": 12.619902120717782,
+      "grad_norm": 0.4317784905433655,
+      "learning_rate": 0.000360526320256087,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 167112416,
+      "step": 77360
+    },
+    {
+      "epoch": 12.620717781402936,
+      "grad_norm": 0.04355085641145706,
+      "learning_rate": 0.0003604579672307744,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 167123296,
+      "step": 77365
+    },
+    {
+      "epoch": 12.621533442088092,
+      "grad_norm": 0.05431177094578743,
+      "learning_rate": 0.00036038961703345815,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 167133184,
+      "step": 77370
+    },
+    {
+      "epoch": 12.622349102773246,
+      "grad_norm": 0.010911340825259686,
+      "learning_rate": 0.00036032126966552335,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 167143744,
+      "step": 77375
+    },
+    {
+      "epoch": 12.623164763458401,
+      "grad_norm": 0.04832053557038307,
+      "learning_rate": 0.0003602529251283553,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 167154688,
+      "step": 77380
+    },
+    {
+      "epoch": 12.623980424143557,
+      "grad_norm": 0.005749577656388283,
+      "learning_rate": 0.000360184583423339,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 167166368,
+      "step": 77385
+    },
+    {
+      "epoch": 12.624796084828711,
+      "grad_norm": 0.3927803337574005,
+      "learning_rate": 0.0003601162445518593,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 167178080,
+      "step": 77390
+    },
+    {
+      "epoch": 12.625611745513867,
+      "grad_norm": 0.0049598063342273235,
+      "learning_rate": 0.0003600479085153017,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 167189216,
+      "step": 77395
+    },
+    {
+      "epoch": 12.62642740619902,
+      "grad_norm": 0.042065005749464035,
+      "learning_rate": 0.00035997957531505045,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 167200320,
+      "step": 77400
+    },
+    {
+      "epoch": 12.627243066884176,
+      "grad_norm": 0.001665329560637474,
+      "learning_rate": 0.00035991124495249094,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 167210912,
+      "step": 77405
+    },
+    {
+      "epoch": 12.62805872756933,
+      "grad_norm": 0.0032141683623194695,
+      "learning_rate": 0.0003598429174290076,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 167223296,
+      "step": 77410
+    },
+    {
+      "epoch": 12.628874388254486,
+      "grad_norm": 0.02148437313735485,
+      "learning_rate": 0.0003597745927459856,
+      "loss": 0.0345,
+      "num_input_tokens_seen": 167235232,
+      "step": 77415
+    },
+    {
+      "epoch": 12.629690048939642,
+      "grad_norm": 0.08603756129741669,
+      "learning_rate": 0.00035970627090480906,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 167244928,
+      "step": 77420
+    },
+    {
+      "epoch": 12.630505709624796,
+      "grad_norm": 0.03180314227938652,
+      "learning_rate": 0.0003596379519068632,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 167254464,
+      "step": 77425
+    },
+    {
+      "epoch": 12.631321370309951,
+      "grad_norm": 0.3329426944255829,
+      "learning_rate": 0.000359569635753532,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 167265984,
+      "step": 77430
+    },
+    {
+      "epoch": 12.632137030995105,
+      "grad_norm": 0.0028075268492102623,
+      "learning_rate": 0.00035950132244620057,
+      "loss": 0.003,
+      "num_input_tokens_seen": 167275968,
+      "step": 77435
+    },
+    {
+      "epoch": 12.632952691680261,
+      "grad_norm": 0.011716500855982304,
+      "learning_rate": 0.0003594330119862529,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 167286016,
+      "step": 77440
+    },
+    {
+      "epoch": 12.633768352365417,
+      "grad_norm": 0.40379977226257324,
+      "learning_rate": 0.00035936470437507366,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 167296448,
+      "step": 77445
+    },
+    {
+      "epoch": 12.63458401305057,
+      "grad_norm": 0.0061897290870547295,
+      "learning_rate": 0.000359296399614047,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 167306240,
+      "step": 77450
+    },
+    {
+      "epoch": 12.635399673735726,
+      "grad_norm": 0.0006506768404506147,
+      "learning_rate": 0.00035922809770455745,
+      "loss": 0.016,
+      "num_input_tokens_seen": 167317088,
+      "step": 77455
+    },
+    {
+      "epoch": 12.63621533442088,
+      "grad_norm": 0.5576114058494568,
+      "learning_rate": 0.00035915979864798884,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 167328160,
+      "step": 77460
+    },
+    {
+      "epoch": 12.637030995106036,
+      "grad_norm": 0.44090718030929565,
+      "learning_rate": 0.0003590915024457256,
+      "loss": 0.1749,
+      "num_input_tokens_seen": 167338496,
+      "step": 77465
+    },
+    {
+      "epoch": 12.63784665579119,
+      "grad_norm": 0.0012273893225938082,
+      "learning_rate": 0.0003590232090991521,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 167348544,
+      "step": 77470
+    },
+    {
+      "epoch": 12.638662316476346,
+      "grad_norm": 0.04741557314991951,
+      "learning_rate": 0.0003589549186096518,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 167357568,
+      "step": 77475
+    },
+    {
+      "epoch": 12.639477977161501,
+      "grad_norm": 0.025142524391412735,
+      "learning_rate": 0.0003588866309786093,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 167367520,
+      "step": 77480
+    },
+    {
+      "epoch": 12.640293637846655,
+      "grad_norm": 1.77473783493042,
+      "learning_rate": 0.00035881834620740796,
+      "loss": 0.1292,
+      "num_input_tokens_seen": 167377952,
+      "step": 77485
+    },
+    {
+      "epoch": 12.641109298531811,
+      "grad_norm": 0.009403154253959656,
+      "learning_rate": 0.0003587500642974322,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 167389024,
+      "step": 77490
+    },
+    {
+      "epoch": 12.641924959216965,
+      "grad_norm": 0.04819444566965103,
+      "learning_rate": 0.0003586817852500653,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 167399744,
+      "step": 77495
+    },
+    {
+      "epoch": 12.64274061990212,
+      "grad_norm": 0.006756368558853865,
+      "learning_rate": 0.00035861350906669156,
+      "loss": 0.003,
+      "num_input_tokens_seen": 167410976,
+      "step": 77500
+    },
+    {
+      "epoch": 12.643556280587276,
+      "grad_norm": 0.04680448770523071,
+      "learning_rate": 0.00035854523574869416,
+      "loss": 0.02,
+      "num_input_tokens_seen": 167423072,
+      "step": 77505
+    },
+    {
+      "epoch": 12.64437194127243,
+      "grad_norm": 0.0036935280077159405,
+      "learning_rate": 0.00035847696529745714,
+      "loss": 0.0657,
+      "num_input_tokens_seen": 167433056,
+      "step": 77510
+    },
+    {
+      "epoch": 12.645187601957586,
+      "grad_norm": 0.04204836115241051,
+      "learning_rate": 0.000358408697714364,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 167444832,
+      "step": 77515
+    },
+    {
+      "epoch": 12.64600326264274,
+      "grad_norm": 0.003103738185018301,
+      "learning_rate": 0.0003583404330007981,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 167456032,
+      "step": 77520
+    },
+    {
+      "epoch": 12.646818923327896,
+      "grad_norm": 0.31443697214126587,
+      "learning_rate": 0.00035827217115814313,
+      "loss": 0.059,
+      "num_input_tokens_seen": 167465856,
+      "step": 77525
+    },
+    {
+      "epoch": 12.647634584013051,
+      "grad_norm": 0.6064665913581848,
+      "learning_rate": 0.0003582039121877824,
+      "loss": 0.046,
+      "num_input_tokens_seen": 167477600,
+      "step": 77530
+    },
+    {
+      "epoch": 12.648450244698205,
+      "grad_norm": 0.007075733970850706,
+      "learning_rate": 0.0003581356560910992,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 167488640,
+      "step": 77535
+    },
+    {
+      "epoch": 12.649265905383361,
+      "grad_norm": 0.5475460886955261,
+      "learning_rate": 0.00035806740286947704,
+      "loss": 0.039,
+      "num_input_tokens_seen": 167498816,
+      "step": 77540
+    },
+    {
+      "epoch": 12.650081566068515,
+      "grad_norm": 0.003381013870239258,
+      "learning_rate": 0.0003579991525242988,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 167510080,
+      "step": 77545
+    },
+    {
+      "epoch": 12.65089722675367,
+      "grad_norm": 0.050899162888526917,
+      "learning_rate": 0.0003579309050569481,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 167520576,
+      "step": 77550
+    },
+    {
+      "epoch": 12.651712887438826,
+      "grad_norm": 0.02303638495504856,
+      "learning_rate": 0.00035786266046880765,
+      "loss": 0.0506,
+      "num_input_tokens_seen": 167532160,
+      "step": 77555
+    },
+    {
+      "epoch": 12.65252854812398,
+      "grad_norm": 0.006254466250538826,
+      "learning_rate": 0.0003577944187612609,
+      "loss": 0.1495,
+      "num_input_tokens_seen": 167542816,
+      "step": 77560
+    },
+    {
+      "epoch": 12.653344208809136,
+      "grad_norm": 0.00909637100994587,
+      "learning_rate": 0.0003577261799356905,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 167553184,
+      "step": 77565
+    },
+    {
+      "epoch": 12.65415986949429,
+      "grad_norm": 0.002966930391266942,
+      "learning_rate": 0.0003576579439934796,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 167564672,
+      "step": 77570
+    },
+    {
+      "epoch": 12.654975530179446,
+      "grad_norm": 0.0037646342534571886,
+      "learning_rate": 0.000357589710936011,
+      "loss": 0.1096,
+      "num_input_tokens_seen": 167576128,
+      "step": 77575
+    },
+    {
+      "epoch": 12.655791190864601,
+      "grad_norm": 0.001021684962324798,
+      "learning_rate": 0.0003575214807646675,
+      "loss": 0.2004,
+      "num_input_tokens_seen": 167586752,
+      "step": 77580
+    },
+    {
+      "epoch": 12.656606851549755,
+      "grad_norm": 0.008952321484684944,
+      "learning_rate": 0.0003574532534808321,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 167598048,
+      "step": 77585
+    },
+    {
+      "epoch": 12.65742251223491,
+      "grad_norm": 0.04184262827038765,
+      "learning_rate": 0.00035738502908588723,
+      "loss": 0.0467,
+      "num_input_tokens_seen": 167608832,
+      "step": 77590
+    },
+    {
+      "epoch": 12.658238172920065,
+      "grad_norm": 0.02576330676674843,
+      "learning_rate": 0.0003573168075812158,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 167618880,
+      "step": 77595
+    },
+    {
+      "epoch": 12.65905383360522,
+      "grad_norm": 0.04942226782441139,
+      "learning_rate": 0.0003572485889682001,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 167628928,
+      "step": 77600
+    },
+    {
+      "epoch": 12.659869494290374,
+      "grad_norm": 0.2924436330795288,
+      "learning_rate": 0.00035718037324822304,
+      "loss": 0.027,
+      "num_input_tokens_seen": 167639296,
+      "step": 77605
+    },
+    {
+      "epoch": 12.66068515497553,
+      "grad_norm": 0.01681629940867424,
+      "learning_rate": 0.0003571121604226667,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 167648320,
+      "step": 77610
+    },
+    {
+      "epoch": 12.661500815660686,
+      "grad_norm": 0.024903155863285065,
+      "learning_rate": 0.0003570439504929139,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 167658464,
+      "step": 77615
+    },
+    {
+      "epoch": 12.66231647634584,
+      "grad_norm": 0.027922337874770164,
+      "learning_rate": 0.00035697574346034655,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 167669696,
+      "step": 77620
+    },
+    {
+      "epoch": 12.663132137030995,
+      "grad_norm": 0.010534364730119705,
+      "learning_rate": 0.0003569075393263475,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 167680960,
+      "step": 77625
+    },
+    {
+      "epoch": 12.66394779771615,
+      "grad_norm": 0.0009661827934905887,
+      "learning_rate": 0.0003568393380922984,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 167691520,
+      "step": 77630
+    },
+    {
+      "epoch": 12.664763458401305,
+      "grad_norm": 0.008585717529058456,
+      "learning_rate": 0.0003567711397595819,
+      "loss": 0.0564,
+      "num_input_tokens_seen": 167703456,
+      "step": 77635
+    },
+    {
+      "epoch": 12.66557911908646,
+      "grad_norm": 0.0037884414196014404,
+      "learning_rate": 0.00035670294432957984,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 167713664,
+      "step": 77640
+    },
+    {
+      "epoch": 12.666394779771615,
+      "grad_norm": 0.05994252860546112,
+      "learning_rate": 0.00035663475180367453,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 167723456,
+      "step": 77645
+    },
+    {
+      "epoch": 12.66721044045677,
+      "grad_norm": 0.9670343399047852,
+      "learning_rate": 0.00035656656218324765,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 167734144,
+      "step": 77650
+    },
+    {
+      "epoch": 12.668026101141924,
+      "grad_norm": 0.0011733782012015581,
+      "learning_rate": 0.0003564983754696815,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 167743584,
+      "step": 77655
+    },
+    {
+      "epoch": 12.66884176182708,
+      "grad_norm": 0.0013517803745344281,
+      "learning_rate": 0.00035643019166435775,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 167753440,
+      "step": 77660
+    },
+    {
+      "epoch": 12.669657422512234,
+      "grad_norm": 0.03769034519791603,
+      "learning_rate": 0.00035636201076865836,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 167765216,
+      "step": 77665
+    },
+    {
+      "epoch": 12.67047308319739,
+      "grad_norm": 0.0010428469395264983,
+      "learning_rate": 0.000356293832783965,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 167776256,
+      "step": 77670
+    },
+    {
+      "epoch": 12.671288743882545,
+      "grad_norm": 0.193328395485878,
+      "learning_rate": 0.0003562256577116595,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 167786432,
+      "step": 77675
+    },
+    {
+      "epoch": 12.6721044045677,
+      "grad_norm": 0.0028232985641807318,
+      "learning_rate": 0.0003561574855531232,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 167796256,
+      "step": 77680
+    },
+    {
+      "epoch": 12.672920065252855,
+      "grad_norm": 0.12443973869085312,
+      "learning_rate": 0.00035608931630973814,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 167806752,
+      "step": 77685
+    },
+    {
+      "epoch": 12.673735725938009,
+      "grad_norm": 0.07046890258789062,
+      "learning_rate": 0.0003560211499828856,
+      "loss": 0.0945,
+      "num_input_tokens_seen": 167818336,
+      "step": 77690
+    },
+    {
+      "epoch": 12.674551386623165,
+      "grad_norm": 0.011465424671769142,
+      "learning_rate": 0.00035595298657394714,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 167829312,
+      "step": 77695
+    },
+    {
+      "epoch": 12.67536704730832,
+      "grad_norm": 0.010278213769197464,
+      "learning_rate": 0.0003558848260843041,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 167839744,
+      "step": 77700
+    },
+    {
+      "epoch": 12.676182707993474,
+      "grad_norm": 0.007338542491197586,
+      "learning_rate": 0.00035581666851533777,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 167849696,
+      "step": 77705
+    },
+    {
+      "epoch": 12.67699836867863,
+      "grad_norm": 0.003327986691147089,
+      "learning_rate": 0.0003557485138684299,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 167860800,
+      "step": 77710
+    },
+    {
+      "epoch": 12.677814029363784,
+      "grad_norm": 0.025251364335417747,
+      "learning_rate": 0.00035568036214496103,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 167870560,
+      "step": 77715
+    },
+    {
+      "epoch": 12.67862969004894,
+      "grad_norm": 0.34143656492233276,
+      "learning_rate": 0.000355612213346313,
+      "loss": 0.1471,
+      "num_input_tokens_seen": 167881600,
+      "step": 77720
+    },
+    {
+      "epoch": 12.679445350734095,
+      "grad_norm": 0.03525270149111748,
+      "learning_rate": 0.00035554406747386635,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 167892064,
+      "step": 77725
+    },
+    {
+      "epoch": 12.68026101141925,
+      "grad_norm": 0.05492442101240158,
+      "learning_rate": 0.0003554759245290027,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 167902848,
+      "step": 77730
+    },
+    {
+      "epoch": 12.681076672104405,
+      "grad_norm": 0.3540668785572052,
+      "learning_rate": 0.0003554077845131025,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 167914272,
+      "step": 77735
+    },
+    {
+      "epoch": 12.681892332789559,
+      "grad_norm": 0.044319842010736465,
+      "learning_rate": 0.0003553396474275473,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 167925696,
+      "step": 77740
+    },
+    {
+      "epoch": 12.682707993474715,
+      "grad_norm": 0.052253205329179764,
+      "learning_rate": 0.00035527151327371736,
+      "loss": 0.0575,
+      "num_input_tokens_seen": 167936160,
+      "step": 77745
+    },
+    {
+      "epoch": 12.68352365415987,
+      "grad_norm": 0.005088796839118004,
+      "learning_rate": 0.00035520338205299407,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 167946112,
+      "step": 77750
+    },
+    {
+      "epoch": 12.684339314845024,
+      "grad_norm": 0.024718090891838074,
+      "learning_rate": 0.0003551352537667577,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 167955328,
+      "step": 77755
+    },
+    {
+      "epoch": 12.68515497553018,
+      "grad_norm": 0.03583148866891861,
+      "learning_rate": 0.0003550671284163894,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 167966688,
+      "step": 77760
+    },
+    {
+      "epoch": 12.685970636215334,
+      "grad_norm": 0.02463572286069393,
+      "learning_rate": 0.00035499900600326933,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 167977984,
+      "step": 77765
+    },
+    {
+      "epoch": 12.68678629690049,
+      "grad_norm": 0.006799501832574606,
+      "learning_rate": 0.00035493088652877866,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 167987680,
+      "step": 77770
+    },
+    {
+      "epoch": 12.687601957585644,
+      "grad_norm": 0.022389927878975868,
+      "learning_rate": 0.00035486276999429733,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 167997984,
+      "step": 77775
+    },
+    {
+      "epoch": 12.6884176182708,
+      "grad_norm": 0.0026521605905145407,
+      "learning_rate": 0.00035479465640120636,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 168007648,
+      "step": 77780
+    },
+    {
+      "epoch": 12.689233278955955,
+      "grad_norm": 0.008616507053375244,
+      "learning_rate": 0.0003547265457508856,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 168019168,
+      "step": 77785
+    },
+    {
+      "epoch": 12.690048939641109,
+      "grad_norm": 0.003639386035501957,
+      "learning_rate": 0.0003546584380447157,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 168030816,
+      "step": 77790
+    },
+    {
+      "epoch": 12.690864600326265,
+      "grad_norm": 0.051106810569763184,
+      "learning_rate": 0.0003545903332840772,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 168041952,
+      "step": 77795
+    },
+    {
+      "epoch": 12.691680261011419,
+      "grad_norm": 0.06359019875526428,
+      "learning_rate": 0.0003545222314703498,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 168052544,
+      "step": 77800
+    },
+    {
+      "epoch": 12.692495921696574,
+      "grad_norm": 0.016655128449201584,
+      "learning_rate": 0.0003544541326049141,
+      "loss": 0.1497,
+      "num_input_tokens_seen": 168063648,
+      "step": 77805
+    },
+    {
+      "epoch": 12.69331158238173,
+      "grad_norm": 0.17468668520450592,
+      "learning_rate": 0.0003543860366891499,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 168075520,
+      "step": 77810
+    },
+    {
+      "epoch": 12.694127243066884,
+      "grad_norm": 0.0019930857233703136,
+      "learning_rate": 0.0003543179437244376,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 168085888,
+      "step": 77815
+    },
+    {
+      "epoch": 12.69494290375204,
+      "grad_norm": 0.007549921050667763,
+      "learning_rate": 0.0003542498537121567,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 168096064,
+      "step": 77820
+    },
+    {
+      "epoch": 12.695758564437194,
+      "grad_norm": 0.17789390683174133,
+      "learning_rate": 0.0003541817666536876,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 168106624,
+      "step": 77825
+    },
+    {
+      "epoch": 12.69657422512235,
+      "grad_norm": 0.029698913916945457,
+      "learning_rate": 0.00035411368255040994,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 168120064,
+      "step": 77830
+    },
+    {
+      "epoch": 12.697389885807503,
+      "grad_norm": 0.19213663041591644,
+      "learning_rate": 0.0003540456014037036,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 168130624,
+      "step": 77835
+    },
+    {
+      "epoch": 12.698205546492659,
+      "grad_norm": 0.0012613199651241302,
+      "learning_rate": 0.00035397752321494826,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 168141344,
+      "step": 77840
+    },
+    {
+      "epoch": 12.699021207177815,
+      "grad_norm": 0.0015342944534495473,
+      "learning_rate": 0.0003539094479855237,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 168152192,
+      "step": 77845
+    },
+    {
+      "epoch": 12.699836867862969,
+      "grad_norm": 0.4590141475200653,
+      "learning_rate": 0.00035384137571680936,
+      "loss": 0.2501,
+      "num_input_tokens_seen": 168162496,
+      "step": 77850
+    },
+    {
+      "epoch": 12.700652528548124,
+      "grad_norm": 0.009294010698795319,
+      "learning_rate": 0.0003537733064101852,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 168173984,
+      "step": 77855
+    },
+    {
+      "epoch": 12.701468189233278,
+      "grad_norm": 0.008999227546155453,
+      "learning_rate": 0.0003537052400670303,
+      "loss": 0.1625,
+      "num_input_tokens_seen": 168183328,
+      "step": 77860
+    },
+    {
+      "epoch": 12.702283849918434,
+      "grad_norm": 0.28203514218330383,
+      "learning_rate": 0.00035363717668872443,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 168195680,
+      "step": 77865
+    },
+    {
+      "epoch": 12.70309951060359,
+      "grad_norm": 0.0068134767934679985,
+      "learning_rate": 0.00035356911627664665,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 168206304,
+      "step": 77870
+    },
+    {
+      "epoch": 12.703915171288743,
+      "grad_norm": 0.01844414509832859,
+      "learning_rate": 0.00035350105883217675,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 168217248,
+      "step": 77875
+    },
+    {
+      "epoch": 12.7047308319739,
+      "grad_norm": 0.0019640587270259857,
+      "learning_rate": 0.00035343300435669356,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 168227744,
+      "step": 77880
+    },
+    {
+      "epoch": 12.705546492659053,
+      "grad_norm": 0.3847804069519043,
+      "learning_rate": 0.0003533649528515766,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 168238304,
+      "step": 77885
+    },
+    {
+      "epoch": 12.706362153344209,
+      "grad_norm": 0.005796543322503567,
+      "learning_rate": 0.0003532969043182047,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 168250688,
+      "step": 77890
+    },
+    {
+      "epoch": 12.707177814029365,
+      "grad_norm": 0.014010935090482235,
+      "learning_rate": 0.0003532288587579572,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 168260960,
+      "step": 77895
+    },
+    {
+      "epoch": 12.707993474714518,
+      "grad_norm": 0.008485809899866581,
+      "learning_rate": 0.0003531608161722132,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 168270656,
+      "step": 77900
+    },
+    {
+      "epoch": 12.708809135399674,
+      "grad_norm": 0.05919577181339264,
+      "learning_rate": 0.00035309277656235137,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 168281632,
+      "step": 77905
+    },
+    {
+      "epoch": 12.709624796084828,
+      "grad_norm": 0.03997613489627838,
+      "learning_rate": 0.000353024739929751,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 168293216,
+      "step": 77910
+    },
+    {
+      "epoch": 12.710440456769984,
+      "grad_norm": 0.007604612503200769,
+      "learning_rate": 0.0003529567062757905,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 168304032,
+      "step": 77915
+    },
+    {
+      "epoch": 12.71125611745514,
+      "grad_norm": 0.010337037965655327,
+      "learning_rate": 0.0003528886756018491,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 168314624,
+      "step": 77920
+    },
+    {
+      "epoch": 12.712071778140293,
+      "grad_norm": 0.0031499990727752447,
+      "learning_rate": 0.0003528206479093051,
+      "loss": 0.02,
+      "num_input_tokens_seen": 168324320,
+      "step": 77925
+    },
+    {
+      "epoch": 12.71288743882545,
+      "grad_norm": 0.014163109473884106,
+      "learning_rate": 0.0003527526231995376,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 168336128,
+      "step": 77930
+    },
+    {
+      "epoch": 12.713703099510603,
+      "grad_norm": 0.020187662914395332,
+      "learning_rate": 0.0003526846014739248,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 168344992,
+      "step": 77935
+    },
+    {
+      "epoch": 12.714518760195759,
+      "grad_norm": 0.04705316200852394,
+      "learning_rate": 0.00035261658273384554,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 168356128,
+      "step": 77940
+    },
+    {
+      "epoch": 12.715334420880914,
+      "grad_norm": 0.0028371878433972597,
+      "learning_rate": 0.00035254856698067806,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 168366784,
+      "step": 77945
+    },
+    {
+      "epoch": 12.716150081566068,
+      "grad_norm": 0.003474497003480792,
+      "learning_rate": 0.00035248055421580114,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 168379552,
+      "step": 77950
+    },
+    {
+      "epoch": 12.716965742251224,
+      "grad_norm": 0.004116491414606571,
+      "learning_rate": 0.0003524125444405928,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 168390592,
+      "step": 77955
+    },
+    {
+      "epoch": 12.717781402936378,
+      "grad_norm": 0.0031350203789770603,
+      "learning_rate": 0.00035234453765643146,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 168401600,
+      "step": 77960
+    },
+    {
+      "epoch": 12.718597063621534,
+      "grad_norm": 0.41057583689689636,
+      "learning_rate": 0.0003522765338646954,
+      "loss": 0.1253,
+      "num_input_tokens_seen": 168412448,
+      "step": 77965
+    },
+    {
+      "epoch": 12.719412724306688,
+      "grad_norm": 0.42899951338768005,
+      "learning_rate": 0.00035220853306676284,
+      "loss": 0.0739,
+      "num_input_tokens_seen": 168423328,
+      "step": 77970
+    },
+    {
+      "epoch": 12.720228384991843,
+      "grad_norm": 0.7427116632461548,
+      "learning_rate": 0.0003521405352640118,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 168434272,
+      "step": 77975
+    },
+    {
+      "epoch": 12.721044045676999,
+      "grad_norm": 0.059706129133701324,
+      "learning_rate": 0.00035207254045782036,
+      "loss": 0.0624,
+      "num_input_tokens_seen": 168445664,
+      "step": 77980
+    },
+    {
+      "epoch": 12.721859706362153,
+      "grad_norm": 0.0043745641596615314,
+      "learning_rate": 0.00035200454864956653,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 168456928,
+      "step": 77985
+    },
+    {
+      "epoch": 12.722675367047309,
+      "grad_norm": 0.055647846311330795,
+      "learning_rate": 0.00035193655984062835,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 168467904,
+      "step": 77990
+    },
+    {
+      "epoch": 12.723491027732463,
+      "grad_norm": 0.023597707971930504,
+      "learning_rate": 0.0003518685740323835,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 168479104,
+      "step": 77995
+    },
+    {
+      "epoch": 12.724306688417618,
+      "grad_norm": 1.1642639636993408,
+      "learning_rate": 0.00035180059122621,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 168490016,
+      "step": 78000
+    },
+    {
+      "epoch": 12.725122349102774,
+      "grad_norm": 0.025501245632767677,
+      "learning_rate": 0.0003517326114234855,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 168501088,
+      "step": 78005
+    },
+    {
+      "epoch": 12.725938009787928,
+      "grad_norm": 0.3803076446056366,
+      "learning_rate": 0.0003516646346255877,
+      "loss": 0.1273,
+      "num_input_tokens_seen": 168511392,
+      "step": 78010
+    },
+    {
+      "epoch": 12.726753670473084,
+      "grad_norm": 0.00820028968155384,
+      "learning_rate": 0.00035159666083389436,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 168523328,
+      "step": 78015
+    },
+    {
+      "epoch": 12.727569331158238,
+      "grad_norm": 0.0002793922321870923,
+      "learning_rate": 0.00035152869004978276,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 168535040,
+      "step": 78020
+    },
+    {
+      "epoch": 12.728384991843393,
+      "grad_norm": 0.0012598390458151698,
+      "learning_rate": 0.0003514607222746309,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 168545760,
+      "step": 78025
+    },
+    {
+      "epoch": 12.729200652528547,
+      "grad_norm": 0.5319569110870361,
+      "learning_rate": 0.0003513927575098156,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 168556032,
+      "step": 78030
+    },
+    {
+      "epoch": 12.730016313213703,
+      "grad_norm": 0.01204077061265707,
+      "learning_rate": 0.0003513247957567149,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 168567552,
+      "step": 78035
+    },
+    {
+      "epoch": 12.730831973898859,
+      "grad_norm": 0.021115312352776527,
+      "learning_rate": 0.0003512568370167055,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 168579904,
+      "step": 78040
+    },
+    {
+      "epoch": 12.731647634584013,
+      "grad_norm": 0.012967637740075588,
+      "learning_rate": 0.0003511888812911653,
+      "loss": 0.008,
+      "num_input_tokens_seen": 168590560,
+      "step": 78045
+    },
+    {
+      "epoch": 12.732463295269168,
+      "grad_norm": 0.003758589504286647,
+      "learning_rate": 0.00035112092858147106,
+      "loss": 0.012,
+      "num_input_tokens_seen": 168601504,
+      "step": 78050
+    },
+    {
+      "epoch": 12.733278955954322,
+      "grad_norm": 0.09647537022829056,
+      "learning_rate": 0.0003510529788890001,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 168612672,
+      "step": 78055
+    },
+    {
+      "epoch": 12.734094616639478,
+      "grad_norm": 0.020022863522171974,
+      "learning_rate": 0.0003509850322151294,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 168623968,
+      "step": 78060
+    },
+    {
+      "epoch": 12.734910277324634,
+      "grad_norm": 0.0031233022455126047,
+      "learning_rate": 0.0003509170885612362,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 168635712,
+      "step": 78065
+    },
+    {
+      "epoch": 12.735725938009788,
+      "grad_norm": 0.0440434105694294,
+      "learning_rate": 0.00035084914792869715,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 168646176,
+      "step": 78070
+    },
+    {
+      "epoch": 12.736541598694943,
+      "grad_norm": 0.004339613951742649,
+      "learning_rate": 0.0003507812103188895,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 168657408,
+      "step": 78075
+    },
+    {
+      "epoch": 12.737357259380097,
+      "grad_norm": 0.4139990508556366,
+      "learning_rate": 0.0003507132757331898,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 168668672,
+      "step": 78080
+    },
+    {
+      "epoch": 12.738172920065253,
+      "grad_norm": 0.21979013085365295,
+      "learning_rate": 0.00035064534417297513,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 168679648,
+      "step": 78085
+    },
+    {
+      "epoch": 12.738988580750409,
+      "grad_norm": 0.03787407651543617,
+      "learning_rate": 0.00035057741563962176,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 168692480,
+      "step": 78090
+    },
+    {
+      "epoch": 12.739804241435563,
+      "grad_norm": 0.01006343774497509,
+      "learning_rate": 0.00035050949013450686,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 168702048,
+      "step": 78095
+    },
+    {
+      "epoch": 12.740619902120718,
+      "grad_norm": 0.006184085737913847,
+      "learning_rate": 0.0003504415676590066,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 168713216,
+      "step": 78100
+    },
+    {
+      "epoch": 12.741435562805872,
+      "grad_norm": 1.6347105503082275,
+      "learning_rate": 0.00035037364821449766,
+      "loss": 0.2852,
+      "num_input_tokens_seen": 168723712,
+      "step": 78105
+    },
+    {
+      "epoch": 12.742251223491028,
+      "grad_norm": 0.00397314690053463,
+      "learning_rate": 0.0003503057318023568,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 168734752,
+      "step": 78110
+    },
+    {
+      "epoch": 12.743066884176184,
+      "grad_norm": 0.002033184515312314,
+      "learning_rate": 0.00035023781842395994,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 168744480,
+      "step": 78115
+    },
+    {
+      "epoch": 12.743882544861338,
+      "grad_norm": 0.02932196483016014,
+      "learning_rate": 0.0003501699080806839,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 168754624,
+      "step": 78120
+    },
+    {
+      "epoch": 12.744698205546493,
+      "grad_norm": 0.5784959197044373,
+      "learning_rate": 0.0003501020007739045,
+      "loss": 0.1011,
+      "num_input_tokens_seen": 168765920,
+      "step": 78125
+    },
+    {
+      "epoch": 12.745513866231647,
+      "grad_norm": 0.3741350769996643,
+      "learning_rate": 0.0003500340965049984,
+      "loss": 0.1566,
+      "num_input_tokens_seen": 168776000,
+      "step": 78130
+    },
+    {
+      "epoch": 12.746329526916803,
+      "grad_norm": 0.002900507999584079,
+      "learning_rate": 0.00034996619527534153,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 168787200,
+      "step": 78135
+    },
+    {
+      "epoch": 12.747145187601957,
+      "grad_norm": 0.3536345064640045,
+      "learning_rate": 0.00034989829708631005,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 168798464,
+      "step": 78140
+    },
+    {
+      "epoch": 12.747960848287113,
+      "grad_norm": 0.008484461344778538,
+      "learning_rate": 0.00034983040193927996,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 168809536,
+      "step": 78145
+    },
+    {
+      "epoch": 12.748776508972268,
+      "grad_norm": 0.006402932107448578,
+      "learning_rate": 0.0003497625098356273,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 168820512,
+      "step": 78150
+    },
+    {
+      "epoch": 12.749592169657422,
+      "grad_norm": 0.11143842339515686,
+      "learning_rate": 0.00034969462077672793,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 168830752,
+      "step": 78155
+    },
+    {
+      "epoch": 12.750407830342578,
+      "grad_norm": 0.00579224806278944,
+      "learning_rate": 0.0003496267347639579,
+      "loss": 0.0696,
+      "num_input_tokens_seen": 168841920,
+      "step": 78160
+    },
+    {
+      "epoch": 12.751223491027732,
+      "grad_norm": 0.002410769695416093,
+      "learning_rate": 0.00034955885179869265,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 168852896,
+      "step": 78165
+    },
+    {
+      "epoch": 12.752039151712887,
+      "grad_norm": 0.6489723920822144,
+      "learning_rate": 0.0003494909718823083,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 168864736,
+      "step": 78170
+    },
+    {
+      "epoch": 12.752854812398043,
+      "grad_norm": 0.0014829429564997554,
+      "learning_rate": 0.00034942309501618016,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 168876256,
+      "step": 78175
+    },
+    {
+      "epoch": 12.753670473083197,
+      "grad_norm": 0.0063831862062215805,
+      "learning_rate": 0.00034935522120168417,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 168887456,
+      "step": 78180
+    },
+    {
+      "epoch": 12.754486133768353,
+      "grad_norm": 0.587399423122406,
+      "learning_rate": 0.0003492873504401956,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 168899552,
+      "step": 78185
+    },
+    {
+      "epoch": 12.755301794453507,
+      "grad_norm": 0.08072449266910553,
+      "learning_rate": 0.0003492194827330902,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 168910368,
+      "step": 78190
+    },
+    {
+      "epoch": 12.756117455138662,
+      "grad_norm": 0.0015662991208955646,
+      "learning_rate": 0.00034915161808174314,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 168921728,
+      "step": 78195
+    },
+    {
+      "epoch": 12.756933115823816,
+      "grad_norm": 0.08228830248117447,
+      "learning_rate": 0.0003490837564875301,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 168933568,
+      "step": 78200
+    },
+    {
+      "epoch": 12.757748776508972,
+      "grad_norm": 0.002885582856833935,
+      "learning_rate": 0.0003490158979518259,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 168944384,
+      "step": 78205
+    },
+    {
+      "epoch": 12.758564437194128,
+      "grad_norm": 0.5468868017196655,
+      "learning_rate": 0.00034894804247600613,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 168955584,
+      "step": 78210
+    },
+    {
+      "epoch": 12.759380097879282,
+      "grad_norm": 0.004578125663101673,
+      "learning_rate": 0.0003488801900614461,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 168966016,
+      "step": 78215
+    },
+    {
+      "epoch": 12.760195758564437,
+      "grad_norm": 0.17387300729751587,
+      "learning_rate": 0.0003488123407095205,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 168976832,
+      "step": 78220
+    },
+    {
+      "epoch": 12.761011419249591,
+      "grad_norm": 0.03517686203122139,
+      "learning_rate": 0.00034874449442160485,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 168987936,
+      "step": 78225
+    },
+    {
+      "epoch": 12.761827079934747,
+      "grad_norm": 0.006768247578293085,
+      "learning_rate": 0.00034867665119907363,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 168999584,
+      "step": 78230
+    },
+    {
+      "epoch": 12.762642740619903,
+      "grad_norm": 0.09498634934425354,
+      "learning_rate": 0.0003486088110433023,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 169010272,
+      "step": 78235
+    },
+    {
+      "epoch": 12.763458401305057,
+      "grad_norm": 0.01517215184867382,
+      "learning_rate": 0.0003485409739556653,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 169020768,
+      "step": 78240
+    },
+    {
+      "epoch": 12.764274061990212,
+      "grad_norm": 0.016436690464615822,
+      "learning_rate": 0.0003484731399375377,
+      "loss": 0.1903,
+      "num_input_tokens_seen": 169029472,
+      "step": 78245
+    },
+    {
+      "epoch": 12.765089722675366,
+      "grad_norm": 0.009139187633991241,
+      "learning_rate": 0.00034840530899029405,
+      "loss": 0.1342,
+      "num_input_tokens_seen": 169039520,
+      "step": 78250
+    },
+    {
+      "epoch": 12.765905383360522,
+      "grad_norm": 0.0008956545498222113,
+      "learning_rate": 0.00034833748111530926,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 169049440,
+      "step": 78255
+    },
+    {
+      "epoch": 12.766721044045678,
+      "grad_norm": 0.02780218981206417,
+      "learning_rate": 0.00034826965631395767,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 169061312,
+      "step": 78260
+    },
+    {
+      "epoch": 12.767536704730832,
+      "grad_norm": 0.005282025318592787,
+      "learning_rate": 0.0003482018345876141,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 169071776,
+      "step": 78265
+    },
+    {
+      "epoch": 12.768352365415987,
+      "grad_norm": 0.01068632211536169,
+      "learning_rate": 0.0003481340159376528,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 169082528,
+      "step": 78270
+    },
+    {
+      "epoch": 12.769168026101141,
+      "grad_norm": 0.002080516656860709,
+      "learning_rate": 0.0003480662003654483,
+      "loss": 0.0355,
+      "num_input_tokens_seen": 169093440,
+      "step": 78275
+    },
+    {
+      "epoch": 12.769983686786297,
+      "grad_norm": 0.021333087235689163,
+      "learning_rate": 0.00034799838787237514,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 169103840,
+      "step": 78280
+    },
+    {
+      "epoch": 12.770799347471453,
+      "grad_norm": 0.02037815749645233,
+      "learning_rate": 0.00034793057845980744,
+      "loss": 0.009,
+      "num_input_tokens_seen": 169113760,
+      "step": 78285
+    },
+    {
+      "epoch": 12.771615008156607,
+      "grad_norm": 0.006305212154984474,
+      "learning_rate": 0.00034786277212911943,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 169123552,
+      "step": 78290
+    },
+    {
+      "epoch": 12.772430668841762,
+      "grad_norm": 0.006527638528496027,
+      "learning_rate": 0.0003477949688816854,
+      "loss": 0.007,
+      "num_input_tokens_seen": 169133664,
+      "step": 78295
+    },
+    {
+      "epoch": 12.773246329526916,
+      "grad_norm": 0.008840296417474747,
+      "learning_rate": 0.00034772716871887924,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 169145440,
+      "step": 78300
+    },
+    {
+      "epoch": 12.774061990212072,
+      "grad_norm": 0.48614218831062317,
+      "learning_rate": 0.0003476593716420754,
+      "loss": 0.025,
+      "num_input_tokens_seen": 169156480,
+      "step": 78305
+    },
+    {
+      "epoch": 12.774877650897226,
+      "grad_norm": 0.029282858595252037,
+      "learning_rate": 0.00034759157765264746,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 169167744,
+      "step": 78310
+    },
+    {
+      "epoch": 12.775693311582382,
+      "grad_norm": 0.27233338356018066,
+      "learning_rate": 0.00034752378675196975,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 169178464,
+      "step": 78315
+    },
+    {
+      "epoch": 12.776508972267537,
+      "grad_norm": 0.005301279481500387,
+      "learning_rate": 0.0003474559989414158,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 169189248,
+      "step": 78320
+    },
+    {
+      "epoch": 12.777324632952691,
+      "grad_norm": 0.04829799011349678,
+      "learning_rate": 0.00034738821422235943,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 169201024,
+      "step": 78325
+    },
+    {
+      "epoch": 12.778140293637847,
+      "grad_norm": 0.030659900978207588,
+      "learning_rate": 0.00034732043259617473,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 169212480,
+      "step": 78330
+    },
+    {
+      "epoch": 12.778955954323001,
+      "grad_norm": 0.006221574265509844,
+      "learning_rate": 0.000347252654064235,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 169224128,
+      "step": 78335
+    },
+    {
+      "epoch": 12.779771615008157,
+      "grad_norm": 0.01066858321428299,
+      "learning_rate": 0.00034718487862791413,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 169234592,
+      "step": 78340
+    },
+    {
+      "epoch": 12.780587275693312,
+      "grad_norm": 0.556633472442627,
+      "learning_rate": 0.0003471171062885854,
+      "loss": 0.0951,
+      "num_input_tokens_seen": 169245728,
+      "step": 78345
+    },
+    {
+      "epoch": 12.781402936378466,
+      "grad_norm": 0.031409382820129395,
+      "learning_rate": 0.00034704933704762266,
+      "loss": 0.0668,
+      "num_input_tokens_seen": 169256160,
+      "step": 78350
+    },
+    {
+      "epoch": 12.782218597063622,
+      "grad_norm": 0.007934520952403545,
+      "learning_rate": 0.00034698157090639893,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 169267232,
+      "step": 78355
+    },
+    {
+      "epoch": 12.783034257748776,
+      "grad_norm": 0.18476316332817078,
+      "learning_rate": 0.000346913807866288,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 169277120,
+      "step": 78360
+    },
+    {
+      "epoch": 12.783849918433932,
+      "grad_norm": 0.020248549059033394,
+      "learning_rate": 0.00034684604792866277,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 169288096,
+      "step": 78365
+    },
+    {
+      "epoch": 12.784665579119086,
+      "grad_norm": 0.01171860285103321,
+      "learning_rate": 0.00034677829109489684,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 169299744,
+      "step": 78370
+    },
+    {
+      "epoch": 12.785481239804241,
+      "grad_norm": 0.002188315847888589,
+      "learning_rate": 0.00034671053736636307,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 169310528,
+      "step": 78375
+    },
+    {
+      "epoch": 12.786296900489397,
+      "grad_norm": 0.05189083144068718,
+      "learning_rate": 0.0003466427867444348,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 169321440,
+      "step": 78380
+    },
+    {
+      "epoch": 12.78711256117455,
+      "grad_norm": 0.004644290544092655,
+      "learning_rate": 0.00034657503923048497,
+      "loss": 0.1892,
+      "num_input_tokens_seen": 169332640,
+      "step": 78385
+    },
+    {
+      "epoch": 12.787928221859707,
+      "grad_norm": 0.02340223640203476,
+      "learning_rate": 0.00034650729482588665,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 169344576,
+      "step": 78390
+    },
+    {
+      "epoch": 12.78874388254486,
+      "grad_norm": 0.12741638720035553,
+      "learning_rate": 0.0003464395535320126,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 169356288,
+      "step": 78395
+    },
+    {
+      "epoch": 12.789559543230016,
+      "grad_norm": 0.4657769203186035,
+      "learning_rate": 0.000346371815350236,
+      "loss": 0.0757,
+      "num_input_tokens_seen": 169367520,
+      "step": 78400
+    },
+    {
+      "epoch": 12.790375203915172,
+      "grad_norm": 0.011172788217663765,
+      "learning_rate": 0.0003463040802819292,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 169378208,
+      "step": 78405
+    },
+    {
+      "epoch": 12.791190864600326,
+      "grad_norm": 0.0089213652536273,
+      "learning_rate": 0.0003462363483284654,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 169387968,
+      "step": 78410
+    },
+    {
+      "epoch": 12.792006525285482,
+      "grad_norm": 0.019134066998958588,
+      "learning_rate": 0.0003461686194912169,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 169397952,
+      "step": 78415
+    },
+    {
+      "epoch": 12.792822185970635,
+      "grad_norm": 0.0643213540315628,
+      "learning_rate": 0.00034610089377155656,
+      "loss": 0.141,
+      "num_input_tokens_seen": 169410176,
+      "step": 78420
+    },
+    {
+      "epoch": 12.793637846655791,
+      "grad_norm": 0.004243266768753529,
+      "learning_rate": 0.0003460331711708569,
+      "loss": 0.004,
+      "num_input_tokens_seen": 169421408,
+      "step": 78425
+    },
+    {
+      "epoch": 12.794453507340947,
+      "grad_norm": 0.008267040364444256,
+      "learning_rate": 0.00034596545169049013,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 169432032,
+      "step": 78430
+    },
+    {
+      "epoch": 12.7952691680261,
+      "grad_norm": 0.00525688799098134,
+      "learning_rate": 0.00034589773533182924,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 169441888,
+      "step": 78435
+    },
+    {
+      "epoch": 12.796084828711257,
+      "grad_norm": 0.04394717514514923,
+      "learning_rate": 0.00034583002209624594,
+      "loss": 0.1423,
+      "num_input_tokens_seen": 169452064,
+      "step": 78440
+    },
+    {
+      "epoch": 12.79690048939641,
+      "grad_norm": 0.02494252845644951,
+      "learning_rate": 0.0003457623119851129,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 169464576,
+      "step": 78445
+    },
+    {
+      "epoch": 12.797716150081566,
+      "grad_norm": 0.14180971682071686,
+      "learning_rate": 0.00034569460499980233,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 169474464,
+      "step": 78450
+    },
+    {
+      "epoch": 12.798531810766722,
+      "grad_norm": 0.008769070729613304,
+      "learning_rate": 0.00034562690114168626,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 169484992,
+      "step": 78455
+    },
+    {
+      "epoch": 12.799347471451876,
+      "grad_norm": 0.0028862846083939075,
+      "learning_rate": 0.000345559200412137,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 169495328,
+      "step": 78460
+    },
+    {
+      "epoch": 12.800163132137031,
+      "grad_norm": 0.006227980833500624,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 169507008,
+      "step": 78465
+    },
+    {
+      "epoch": 12.800978792822185,
+      "grad_norm": 0.505739688873291,
+      "learning_rate": 0.00034542380834422633,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 169518144,
+      "step": 78470
+    },
+    {
+      "epoch": 12.801794453507341,
+      "grad_norm": 0.2012212574481964,
+      "learning_rate": 0.00034535611700860913,
+      "loss": 0.105,
+      "num_input_tokens_seen": 169529536,
+      "step": 78475
+    },
+    {
+      "epoch": 12.802610114192497,
+      "grad_norm": 0.015639374032616615,
+      "learning_rate": 0.00034528842880704626,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 169540384,
+      "step": 78480
+    },
+    {
+      "epoch": 12.80342577487765,
+      "grad_norm": 0.034782614558935165,
+      "learning_rate": 0.0003452207437409097,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 169550816,
+      "step": 78485
+    },
+    {
+      "epoch": 12.804241435562806,
+      "grad_norm": 0.010439387522637844,
+      "learning_rate": 0.00034515306181157106,
+      "loss": 0.06,
+      "num_input_tokens_seen": 169562560,
+      "step": 78490
+    },
+    {
+      "epoch": 12.80505709624796,
+      "grad_norm": 0.0014605855103582144,
+      "learning_rate": 0.00034508538302040225,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 169573312,
+      "step": 78495
+    },
+    {
+      "epoch": 12.805872756933116,
+      "grad_norm": 0.2424784004688263,
+      "learning_rate": 0.00034501770736877443,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 169584032,
+      "step": 78500
+    },
+    {
+      "epoch": 12.80668841761827,
+      "grad_norm": 0.00401564035564661,
+      "learning_rate": 0.0003449500348580596,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 169594368,
+      "step": 78505
+    },
+    {
+      "epoch": 12.807504078303426,
+      "grad_norm": 0.009832642041146755,
+      "learning_rate": 0.0003448823654896288,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 169605248,
+      "step": 78510
+    },
+    {
+      "epoch": 12.808319738988581,
+      "grad_norm": 0.29828646779060364,
+      "learning_rate": 0.00034481469926485385,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 169615904,
+      "step": 78515
+    },
+    {
+      "epoch": 12.809135399673735,
+      "grad_norm": 0.027520187199115753,
+      "learning_rate": 0.00034474703618510565,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 169626592,
+      "step": 78520
+    },
+    {
+      "epoch": 12.809951060358891,
+      "grad_norm": 0.08540055900812149,
+      "learning_rate": 0.00034467937625175596,
+      "loss": 0.1196,
+      "num_input_tokens_seen": 169637504,
+      "step": 78525
+    },
+    {
+      "epoch": 12.810766721044045,
+      "grad_norm": 0.0028646751306951046,
+      "learning_rate": 0.00034461171946617553,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 169647232,
+      "step": 78530
+    },
+    {
+      "epoch": 12.8115823817292,
+      "grad_norm": 0.0070752971805632114,
+      "learning_rate": 0.0003445440658297357,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 169657824,
+      "step": 78535
+    },
+    {
+      "epoch": 12.812398042414356,
+      "grad_norm": 0.007390094920992851,
+      "learning_rate": 0.0003444764153438079,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 169667776,
+      "step": 78540
+    },
+    {
+      "epoch": 12.81321370309951,
+      "grad_norm": 0.1049143373966217,
+      "learning_rate": 0.0003444087680097625,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 169678784,
+      "step": 78545
+    },
+    {
+      "epoch": 12.814029363784666,
+      "grad_norm": 0.008307898417115211,
+      "learning_rate": 0.00034434112382897107,
+      "loss": 0.036,
+      "num_input_tokens_seen": 169688960,
+      "step": 78550
+    },
+    {
+      "epoch": 12.81484502446982,
+      "grad_norm": 0.0053911637514829636,
+      "learning_rate": 0.000344273482802804,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 169698208,
+      "step": 78555
+    },
+    {
+      "epoch": 12.815660685154976,
+      "grad_norm": 0.012019234709441662,
+      "learning_rate": 0.00034420584493263264,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 169709056,
+      "step": 78560
+    },
+    {
+      "epoch": 12.81647634584013,
+      "grad_norm": 0.5703594088554382,
+      "learning_rate": 0.0003441382102198272,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 169719936,
+      "step": 78565
+    },
+    {
+      "epoch": 12.817292006525285,
+      "grad_norm": 0.01869955286383629,
+      "learning_rate": 0.0003440705786657588,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 169730816,
+      "step": 78570
+    },
+    {
+      "epoch": 12.818107667210441,
+      "grad_norm": 0.16946589946746826,
+      "learning_rate": 0.00034400295027179776,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 169741696,
+      "step": 78575
+    },
+    {
+      "epoch": 12.818923327895595,
+      "grad_norm": 0.5616081953048706,
+      "learning_rate": 0.00034393532503931514,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 169752512,
+      "step": 78580
+    },
+    {
+      "epoch": 12.81973898858075,
+      "grad_norm": 0.0031734046060591936,
+      "learning_rate": 0.0003438677029696808,
+      "loss": 0.01,
+      "num_input_tokens_seen": 169760992,
+      "step": 78585
+    },
+    {
+      "epoch": 12.820554649265905,
+      "grad_norm": 0.06362012028694153,
+      "learning_rate": 0.0003438000840642657,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 169771424,
+      "step": 78590
+    },
+    {
+      "epoch": 12.82137030995106,
+      "grad_norm": 0.02829126827418804,
+      "learning_rate": 0.00034373246832444007,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 169781344,
+      "step": 78595
+    },
+    {
+      "epoch": 12.822185970636216,
+      "grad_norm": 2.228576183319092,
+      "learning_rate": 0.00034366485575157413,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 169791488,
+      "step": 78600
+    },
+    {
+      "epoch": 12.82300163132137,
+      "grad_norm": 0.0022986563853919506,
+      "learning_rate": 0.00034359724634703827,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 169803136,
+      "step": 78605
+    },
+    {
+      "epoch": 12.823817292006526,
+      "grad_norm": 0.007648915518075228,
+      "learning_rate": 0.0003435296401122027,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 169813664,
+      "step": 78610
+    },
+    {
+      "epoch": 12.82463295269168,
+      "grad_norm": 0.015873296186327934,
+      "learning_rate": 0.0003434620370484372,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 169824288,
+      "step": 78615
+    },
+    {
+      "epoch": 12.825448613376835,
+      "grad_norm": 0.001540105091407895,
+      "learning_rate": 0.0003433944371571124,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 169833728,
+      "step": 78620
+    },
+    {
+      "epoch": 12.826264274061991,
+      "grad_norm": 1.0538294315338135,
+      "learning_rate": 0.00034332684043959777,
+      "loss": 0.2605,
+      "num_input_tokens_seen": 169843936,
+      "step": 78625
+    },
+    {
+      "epoch": 12.827079934747145,
+      "grad_norm": 0.002735902788117528,
+      "learning_rate": 0.00034325924689726376,
+      "loss": 0.012,
+      "num_input_tokens_seen": 169854688,
+      "step": 78630
+    },
+    {
+      "epoch": 12.8278955954323,
+      "grad_norm": 0.2805021107196808,
+      "learning_rate": 0.00034319165653147964,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 169863680,
+      "step": 78635
+    },
+    {
+      "epoch": 12.828711256117455,
+      "grad_norm": 0.023348089307546616,
+      "learning_rate": 0.00034312406934361553,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 169874176,
+      "step": 78640
+    },
+    {
+      "epoch": 12.82952691680261,
+      "grad_norm": 0.03763202577829361,
+      "learning_rate": 0.0003430564853350414,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 169885632,
+      "step": 78645
+    },
+    {
+      "epoch": 12.830342577487766,
+      "grad_norm": 0.005634233821183443,
+      "learning_rate": 0.0003429889045071265,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 169895552,
+      "step": 78650
+    },
+    {
+      "epoch": 12.83115823817292,
+      "grad_norm": 0.023782063275575638,
+      "learning_rate": 0.0003429213268612408,
+      "loss": 0.1291,
+      "num_input_tokens_seen": 169905728,
+      "step": 78655
+    },
+    {
+      "epoch": 12.831973898858076,
+      "grad_norm": 0.05306378751993179,
+      "learning_rate": 0.0003428537523987535,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 169914304,
+      "step": 78660
+    },
+    {
+      "epoch": 12.83278955954323,
+      "grad_norm": 0.0029371960554271936,
+      "learning_rate": 0.0003427861811210345,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 169924800,
+      "step": 78665
+    },
+    {
+      "epoch": 12.833605220228385,
+      "grad_norm": 0.006226977799087763,
+      "learning_rate": 0.0003427186130294527,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 169935712,
+      "step": 78670
+    },
+    {
+      "epoch": 12.83442088091354,
+      "grad_norm": 0.31288060545921326,
+      "learning_rate": 0.00034265104812537805,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 169947296,
+      "step": 78675
+    },
+    {
+      "epoch": 12.835236541598695,
+      "grad_norm": 0.0038242738228291273,
+      "learning_rate": 0.0003425834864101792,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 169957504,
+      "step": 78680
+    },
+    {
+      "epoch": 12.83605220228385,
+      "grad_norm": 0.031265001744031906,
+      "learning_rate": 0.000342515927885226,
+      "loss": 0.0828,
+      "num_input_tokens_seen": 169968896,
+      "step": 78685
+    },
+    {
+      "epoch": 12.836867862969005,
+      "grad_norm": 0.014412354677915573,
+      "learning_rate": 0.000342448372551887,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 169979680,
+      "step": 78690
+    },
+    {
+      "epoch": 12.83768352365416,
+      "grad_norm": 0.010973574593663216,
+      "learning_rate": 0.0003423808204115318,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 169989952,
+      "step": 78695
+    },
+    {
+      "epoch": 12.838499184339314,
+      "grad_norm": 0.015177428722381592,
+      "learning_rate": 0.00034231327146552916,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 170000896,
+      "step": 78700
+    },
+    {
+      "epoch": 12.83931484502447,
+      "grad_norm": 0.02052193135023117,
+      "learning_rate": 0.00034224572571524823,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 170011616,
+      "step": 78705
+    },
+    {
+      "epoch": 12.840130505709626,
+      "grad_norm": 0.04011628404259682,
+      "learning_rate": 0.00034217818316205757,
+      "loss": 0.009,
+      "num_input_tokens_seen": 170023296,
+      "step": 78710
+    },
+    {
+      "epoch": 12.84094616639478,
+      "grad_norm": 0.003024019068107009,
+      "learning_rate": 0.0003421106438073265,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 170032384,
+      "step": 78715
+    },
+    {
+      "epoch": 12.841761827079935,
+      "grad_norm": 0.10613281279802322,
+      "learning_rate": 0.0003420431076524233,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 170044352,
+      "step": 78720
+    },
+    {
+      "epoch": 12.84257748776509,
+      "grad_norm": 0.0019029824761673808,
+      "learning_rate": 0.0003419755746987171,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 170055136,
+      "step": 78725
+    },
+    {
+      "epoch": 12.843393148450245,
+      "grad_norm": 0.013800938613712788,
+      "learning_rate": 0.0003419080449475761,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 170064672,
+      "step": 78730
+    },
+    {
+      "epoch": 12.844208809135399,
+      "grad_norm": 0.006535480264574289,
+      "learning_rate": 0.0003418405184003693,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 170075488,
+      "step": 78735
+    },
+    {
+      "epoch": 12.845024469820554,
+      "grad_norm": 0.35378557443618774,
+      "learning_rate": 0.000341772995058465,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 170084736,
+      "step": 78740
+    },
+    {
+      "epoch": 12.84584013050571,
+      "grad_norm": 0.004953265190124512,
+      "learning_rate": 0.0003417054749232316,
+      "loss": 0.1255,
+      "num_input_tokens_seen": 170094784,
+      "step": 78745
+    },
+    {
+      "epoch": 12.846655791190864,
+      "grad_norm": 0.006483436096459627,
+      "learning_rate": 0.0003416379579960377,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 170104640,
+      "step": 78750
+    },
+    {
+      "epoch": 12.84747145187602,
+      "grad_norm": 0.01915556751191616,
+      "learning_rate": 0.00034157044427825137,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 170115744,
+      "step": 78755
+    },
+    {
+      "epoch": 12.848287112561174,
+      "grad_norm": 0.00910657923668623,
+      "learning_rate": 0.000341502933771241,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 170127008,
+      "step": 78760
+    },
+    {
+      "epoch": 12.84910277324633,
+      "grad_norm": 0.01944858767092228,
+      "learning_rate": 0.00034143542647637474,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 170137248,
+      "step": 78765
+    },
+    {
+      "epoch": 12.849918433931485,
+      "grad_norm": 0.002999127609655261,
+      "learning_rate": 0.00034136792239502074,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 170147904,
+      "step": 78770
+    },
+    {
+      "epoch": 12.850734094616639,
+      "grad_norm": 0.7215339541435242,
+      "learning_rate": 0.000341300421528547,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 170158912,
+      "step": 78775
+    },
+    {
+      "epoch": 12.851549755301795,
+      "grad_norm": 0.004867668263614178,
+      "learning_rate": 0.0003412329238783216,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 170169760,
+      "step": 78780
+    },
+    {
+      "epoch": 12.852365415986949,
+      "grad_norm": 0.009730189107358456,
+      "learning_rate": 0.00034116542944571227,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 170180448,
+      "step": 78785
+    },
+    {
+      "epoch": 12.853181076672104,
+      "grad_norm": 0.0032304124906659126,
+      "learning_rate": 0.00034109793823208724,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 170191136,
+      "step": 78790
+    },
+    {
+      "epoch": 12.85399673735726,
+      "grad_norm": 0.010908522643148899,
+      "learning_rate": 0.0003410304502388139,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 170201376,
+      "step": 78795
+    },
+    {
+      "epoch": 12.854812398042414,
+      "grad_norm": 0.0023245131596922874,
+      "learning_rate": 0.0003409629654672602,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 170212928,
+      "step": 78800
+    },
+    {
+      "epoch": 12.85562805872757,
+      "grad_norm": 0.02462649531662464,
+      "learning_rate": 0.0003408954839187938,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 170224032,
+      "step": 78805
+    },
+    {
+      "epoch": 12.856443719412724,
+      "grad_norm": 0.004026814829558134,
+      "learning_rate": 0.0003408280055947823,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 170234784,
+      "step": 78810
+    },
+    {
+      "epoch": 12.85725938009788,
+      "grad_norm": 0.001957811415195465,
+      "learning_rate": 0.00034076053049659295,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 170247328,
+      "step": 78815
+    },
+    {
+      "epoch": 12.858075040783035,
+      "grad_norm": 0.00296620256267488,
+      "learning_rate": 0.00034069305862559373,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 170258720,
+      "step": 78820
+    },
+    {
+      "epoch": 12.858890701468189,
+      "grad_norm": 0.03529384359717369,
+      "learning_rate": 0.00034062558998315163,
+      "loss": 0.063,
+      "num_input_tokens_seen": 170269376,
+      "step": 78825
+    },
+    {
+      "epoch": 12.859706362153345,
+      "grad_norm": 0.09343760460615158,
+      "learning_rate": 0.0003405581245706342,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 170280672,
+      "step": 78830
+    },
+    {
+      "epoch": 12.860522022838499,
+      "grad_norm": 0.011827799491584301,
+      "learning_rate": 0.0003404906623894085,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 170291488,
+      "step": 78835
+    },
+    {
+      "epoch": 12.861337683523654,
+      "grad_norm": 0.0021250757854431868,
+      "learning_rate": 0.0003404232034408421,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 170303264,
+      "step": 78840
+    },
+    {
+      "epoch": 12.86215334420881,
+      "grad_norm": 0.5916451215744019,
+      "learning_rate": 0.00034035574772630175,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 170313280,
+      "step": 78845
+    },
+    {
+      "epoch": 12.862969004893964,
+      "grad_norm": 0.019389253109693527,
+      "learning_rate": 0.00034028829524715464,
+      "loss": 0.015,
+      "num_input_tokens_seen": 170324544,
+      "step": 78850
+    },
+    {
+      "epoch": 12.86378466557912,
+      "grad_norm": 0.07211606204509735,
+      "learning_rate": 0.000340220846004768,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 170336672,
+      "step": 78855
+    },
+    {
+      "epoch": 12.864600326264274,
+      "grad_norm": 0.0109171811491251,
+      "learning_rate": 0.00034015340000050846,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 170347680,
+      "step": 78860
+    },
+    {
+      "epoch": 12.86541598694943,
+      "grad_norm": 0.0226032342761755,
+      "learning_rate": 0.00034008595723574326,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 170359136,
+      "step": 78865
+    },
+    {
+      "epoch": 12.866231647634583,
+      "grad_norm": 0.016140323132276535,
+      "learning_rate": 0.00034001851771183877,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 170369440,
+      "step": 78870
+    },
+    {
+      "epoch": 12.867047308319739,
+      "grad_norm": 0.07779782265424728,
+      "learning_rate": 0.00033995108143016216,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 170380864,
+      "step": 78875
+    },
+    {
+      "epoch": 12.867862969004895,
+      "grad_norm": 0.06042582169175148,
+      "learning_rate": 0.0003398836483920798,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 170392704,
+      "step": 78880
+    },
+    {
+      "epoch": 12.868678629690049,
+      "grad_norm": 0.020869217813014984,
+      "learning_rate": 0.0003398162185989586,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 170403552,
+      "step": 78885
+    },
+    {
+      "epoch": 12.869494290375204,
+      "grad_norm": 0.010013763792812824,
+      "learning_rate": 0.0003397487920521647,
+      "loss": 0.013,
+      "num_input_tokens_seen": 170414336,
+      "step": 78890
+    },
+    {
+      "epoch": 12.870309951060358,
+      "grad_norm": 0.0005221384926699102,
+      "learning_rate": 0.00033968136875306496,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 170426400,
+      "step": 78895
+    },
+    {
+      "epoch": 12.871125611745514,
+      "grad_norm": 0.0225661713629961,
+      "learning_rate": 0.0003396139487030256,
+      "loss": 0.1702,
+      "num_input_tokens_seen": 170437472,
+      "step": 78900
+    },
+    {
+      "epoch": 12.87194127243067,
+      "grad_norm": 0.00248327711597085,
+      "learning_rate": 0.00033954653190341306,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 170448416,
+      "step": 78905
+    },
+    {
+      "epoch": 12.872756933115824,
+      "grad_norm": 0.019737066701054573,
+      "learning_rate": 0.0003394791183555936,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 170460256,
+      "step": 78910
+    },
+    {
+      "epoch": 12.87357259380098,
+      "grad_norm": 0.10288142412900925,
+      "learning_rate": 0.0003394117080609335,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 170471776,
+      "step": 78915
+    },
+    {
+      "epoch": 12.874388254486133,
+      "grad_norm": 0.0019228693563491106,
+      "learning_rate": 0.0003393443010207988,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 170483328,
+      "step": 78920
+    },
+    {
+      "epoch": 12.875203915171289,
+      "grad_norm": 0.010113107040524483,
+      "learning_rate": 0.0003392768972365556,
+      "loss": 0.0585,
+      "num_input_tokens_seen": 170494432,
+      "step": 78925
+    },
+    {
+      "epoch": 12.876019575856443,
+      "grad_norm": 0.037867337465286255,
+      "learning_rate": 0.00033920949670956994,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 170504864,
+      "step": 78930
+    },
+    {
+      "epoch": 12.876835236541599,
+      "grad_norm": 0.015708623453974724,
+      "learning_rate": 0.000339142099441208,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 170515136,
+      "step": 78935
+    },
+    {
+      "epoch": 12.877650897226754,
+      "grad_norm": 0.0006929939845576882,
+      "learning_rate": 0.0003390747054328353,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 170525824,
+      "step": 78940
+    },
+    {
+      "epoch": 12.878466557911908,
+      "grad_norm": 0.3186556398868561,
+      "learning_rate": 0.00033900731468581804,
+      "loss": 0.2179,
+      "num_input_tokens_seen": 170536928,
+      "step": 78945
+    },
+    {
+      "epoch": 12.879282218597064,
+      "grad_norm": 0.0015595832373946905,
+      "learning_rate": 0.0003389399272015215,
+      "loss": 0.023,
+      "num_input_tokens_seen": 170547520,
+      "step": 78950
+    },
+    {
+      "epoch": 12.880097879282218,
+      "grad_norm": 0.007515274453908205,
+      "learning_rate": 0.0003388725429813117,
+      "loss": 0.002,
+      "num_input_tokens_seen": 170558464,
+      "step": 78955
+    },
+    {
+      "epoch": 12.880913539967374,
+      "grad_norm": 0.030450142920017242,
+      "learning_rate": 0.0003388051620265544,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 170568768,
+      "step": 78960
+    },
+    {
+      "epoch": 12.88172920065253,
+      "grad_norm": 0.32018008828163147,
+      "learning_rate": 0.0003387377843386148,
+      "loss": 0.1654,
+      "num_input_tokens_seen": 170579648,
+      "step": 78965
+    },
+    {
+      "epoch": 12.882544861337683,
+      "grad_norm": 0.018319450318813324,
+      "learning_rate": 0.00033867040991885885,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 170589440,
+      "step": 78970
+    },
+    {
+      "epoch": 12.883360522022839,
+      "grad_norm": 0.00849565677344799,
+      "learning_rate": 0.0003386030387686514,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 170600384,
+      "step": 78975
+    },
+    {
+      "epoch": 12.884176182707993,
+      "grad_norm": 0.0026667932979762554,
+      "learning_rate": 0.0003385356708893584,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 170611584,
+      "step": 78980
+    },
+    {
+      "epoch": 12.884991843393149,
+      "grad_norm": 0.0011457474902272224,
+      "learning_rate": 0.0003384683062823446,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 170623328,
+      "step": 78985
+    },
+    {
+      "epoch": 12.885807504078304,
+      "grad_norm": 0.0027485296595841646,
+      "learning_rate": 0.00033840094494897566,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 170633760,
+      "step": 78990
+    },
+    {
+      "epoch": 12.886623164763458,
+      "grad_norm": 0.13075962662696838,
+      "learning_rate": 0.0003383335868906164,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 170644704,
+      "step": 78995
+    },
+    {
+      "epoch": 12.887438825448614,
+      "grad_norm": 0.004995839670300484,
+      "learning_rate": 0.0003382662321086324,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 170655040,
+      "step": 79000
+    },
+    {
+      "epoch": 12.888254486133768,
+      "grad_norm": 0.10305944830179214,
+      "learning_rate": 0.0003381988806043881,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 170664352,
+      "step": 79005
+    },
+    {
+      "epoch": 12.889070146818923,
+      "grad_norm": 0.0039926618337631226,
+      "learning_rate": 0.0003381315323792489,
+      "loss": 0.1244,
+      "num_input_tokens_seen": 170675552,
+      "step": 79010
+    },
+    {
+      "epoch": 12.88988580750408,
+      "grad_norm": 0.1336335837841034,
+      "learning_rate": 0.00033806418743457937,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 170686336,
+      "step": 79015
+    },
+    {
+      "epoch": 12.890701468189233,
+      "grad_norm": 0.0027748846914619207,
+      "learning_rate": 0.0003379968457717447,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 170697408,
+      "step": 79020
+    },
+    {
+      "epoch": 12.891517128874389,
+      "grad_norm": 0.01572308875620365,
+      "learning_rate": 0.00033792950739210934,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 170707872,
+      "step": 79025
+    },
+    {
+      "epoch": 12.892332789559543,
+      "grad_norm": 0.006033416371792555,
+      "learning_rate": 0.0003378621722970382,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 170717792,
+      "step": 79030
+    },
+    {
+      "epoch": 12.893148450244698,
+      "grad_norm": 0.0038843636866658926,
+      "learning_rate": 0.00033779484048789574,
+      "loss": 0.1461,
+      "num_input_tokens_seen": 170728672,
+      "step": 79035
+    },
+    {
+      "epoch": 12.893964110929852,
+      "grad_norm": 0.008453777059912682,
+      "learning_rate": 0.0003377275119660467,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 170739840,
+      "step": 79040
+    },
+    {
+      "epoch": 12.894779771615008,
+      "grad_norm": 0.0564873032271862,
+      "learning_rate": 0.00033766018673285535,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 170750720,
+      "step": 79045
+    },
+    {
+      "epoch": 12.895595432300164,
+      "grad_norm": 0.010843920521438122,
+      "learning_rate": 0.0003375928647896863,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 170761024,
+      "step": 79050
+    },
+    {
+      "epoch": 12.896411092985318,
+      "grad_norm": 0.00172845006454736,
+      "learning_rate": 0.000337525546137904,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 170771872,
+      "step": 79055
+    },
+    {
+      "epoch": 12.897226753670473,
+      "grad_norm": 0.40799251198768616,
+      "learning_rate": 0.0003374582307788725,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 170783264,
+      "step": 79060
+    },
+    {
+      "epoch": 12.898042414355627,
+      "grad_norm": 0.005817765835672617,
+      "learning_rate": 0.0003373909187139562,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 170794752,
+      "step": 79065
+    },
+    {
+      "epoch": 12.898858075040783,
+      "grad_norm": 0.0027624014765024185,
+      "learning_rate": 0.0003373236099445191,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 170805696,
+      "step": 79070
+    },
+    {
+      "epoch": 12.899673735725939,
+      "grad_norm": 0.010239914059638977,
+      "learning_rate": 0.00033725630447192556,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 170816480,
+      "step": 79075
+    },
+    {
+      "epoch": 12.900489396411093,
+      "grad_norm": 0.36265629529953003,
+      "learning_rate": 0.0003371890022975394,
+      "loss": 0.1057,
+      "num_input_tokens_seen": 170826528,
+      "step": 79080
+    },
+    {
+      "epoch": 12.901305057096248,
+      "grad_norm": 0.01303062029182911,
+      "learning_rate": 0.0003371217034227247,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 170838048,
+      "step": 79085
+    },
+    {
+      "epoch": 12.902120717781402,
+      "grad_norm": 0.053241170942783356,
+      "learning_rate": 0.0003370544078488453,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 170849472,
+      "step": 79090
+    },
+    {
+      "epoch": 12.902936378466558,
+      "grad_norm": 0.010403000749647617,
+      "learning_rate": 0.000336987115577265,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 170861472,
+      "step": 79095
+    },
+    {
+      "epoch": 12.903752039151712,
+      "grad_norm": 0.0021436321549117565,
+      "learning_rate": 0.0003369198266093475,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 170873632,
+      "step": 79100
+    },
+    {
+      "epoch": 12.904567699836868,
+      "grad_norm": 0.007782533764839172,
+      "learning_rate": 0.00033685254094645685,
+      "loss": 0.1225,
+      "num_input_tokens_seen": 170883840,
+      "step": 79105
+    },
+    {
+      "epoch": 12.905383360522023,
+      "grad_norm": 0.0011054445058107376,
+      "learning_rate": 0.0003367852585899562,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 170892480,
+      "step": 79110
+    },
+    {
+      "epoch": 12.906199021207177,
+      "grad_norm": 0.041748058050870895,
+      "learning_rate": 0.00033671797954120953,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 170903040,
+      "step": 79115
+    },
+    {
+      "epoch": 12.907014681892333,
+      "grad_norm": 0.7993329763412476,
+      "learning_rate": 0.0003366507038015799,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 170913440,
+      "step": 79120
+    },
+    {
+      "epoch": 12.907830342577487,
+      "grad_norm": 0.07743581384420395,
+      "learning_rate": 0.0003365834313724312,
+      "loss": 0.022,
+      "num_input_tokens_seen": 170923712,
+      "step": 79125
+    },
+    {
+      "epoch": 12.908646003262643,
+      "grad_norm": 0.0008200727752409875,
+      "learning_rate": 0.00033651616225512636,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 170934720,
+      "step": 79130
+    },
+    {
+      "epoch": 12.909461663947798,
+      "grad_norm": 0.010752071626484394,
+      "learning_rate": 0.0003364488964510292,
+      "loss": 0.0223,
+      "num_input_tokens_seen": 170945568,
+      "step": 79135
+    },
+    {
+      "epoch": 12.910277324632952,
+      "grad_norm": 0.5752093195915222,
+      "learning_rate": 0.00033638163396150234,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 170955616,
+      "step": 79140
+    },
+    {
+      "epoch": 12.911092985318108,
+      "grad_norm": 0.0010481280041858554,
+      "learning_rate": 0.0003363143747879094,
+      "loss": 0.1485,
+      "num_input_tokens_seen": 170967200,
+      "step": 79145
+    },
+    {
+      "epoch": 12.911908646003262,
+      "grad_norm": 1.013627529144287,
+      "learning_rate": 0.00033624711893161317,
+      "loss": 0.1638,
+      "num_input_tokens_seen": 170977952,
+      "step": 79150
+    },
+    {
+      "epoch": 12.912724306688418,
+      "grad_norm": 0.012935176491737366,
+      "learning_rate": 0.000336179866393977,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 170989856,
+      "step": 79155
+    },
+    {
+      "epoch": 12.913539967373573,
+      "grad_norm": 0.008194522932171822,
+      "learning_rate": 0.0003361126171763634,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 171000160,
+      "step": 79160
+    },
+    {
+      "epoch": 12.914355628058727,
+      "grad_norm": 0.0054146721959114075,
+      "learning_rate": 0.0003360453712801358,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 171011488,
+      "step": 79165
+    },
+    {
+      "epoch": 12.915171288743883,
+      "grad_norm": 0.0015244726091623306,
+      "learning_rate": 0.00033597812870665657,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 171022688,
+      "step": 79170
+    },
+    {
+      "epoch": 12.915986949429037,
+      "grad_norm": 0.032646216452121735,
+      "learning_rate": 0.00033591088945728856,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 171033728,
+      "step": 79175
+    },
+    {
+      "epoch": 12.916802610114193,
+      "grad_norm": 0.003069676924496889,
+      "learning_rate": 0.0003358436535333947,
+      "loss": 0.004,
+      "num_input_tokens_seen": 171045152,
+      "step": 79180
+    },
+    {
+      "epoch": 12.917618270799348,
+      "grad_norm": 0.011279561556875706,
+      "learning_rate": 0.0003357764209363373,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 171055872,
+      "step": 79185
+    },
+    {
+      "epoch": 12.918433931484502,
+      "grad_norm": 0.008914372883737087,
+      "learning_rate": 0.00033570919166747926,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 171066624,
+      "step": 79190
+    },
+    {
+      "epoch": 12.919249592169658,
+      "grad_norm": 0.17829741537570953,
+      "learning_rate": 0.0003356419657281827,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 171077632,
+      "step": 79195
+    },
+    {
+      "epoch": 12.920065252854812,
+      "grad_norm": 0.02999373897910118,
+      "learning_rate": 0.0003355747431198104,
+      "loss": 0.0856,
+      "num_input_tokens_seen": 171088640,
+      "step": 79200
+    },
+    {
+      "epoch": 12.920880913539968,
+      "grad_norm": 0.6304906010627747,
+      "learning_rate": 0.0003355075238437243,
+      "loss": 0.0576,
+      "num_input_tokens_seen": 171099200,
+      "step": 79205
+    },
+    {
+      "epoch": 12.921696574225122,
+      "grad_norm": 0.7816330790519714,
+      "learning_rate": 0.0003354403079012871,
+      "loss": 0.098,
+      "num_input_tokens_seen": 171109728,
+      "step": 79210
+    },
+    {
+      "epoch": 12.922512234910277,
+      "grad_norm": 0.4523005187511444,
+      "learning_rate": 0.0003353730952938606,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 171120320,
+      "step": 79215
+    },
+    {
+      "epoch": 12.923327895595433,
+      "grad_norm": 0.0062120272777974606,
+      "learning_rate": 0.0003353058860228073,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 171131328,
+      "step": 79220
+    },
+    {
+      "epoch": 12.924143556280587,
+      "grad_norm": 0.23003165423870087,
+      "learning_rate": 0.0003352386800894891,
+      "loss": 0.0433,
+      "num_input_tokens_seen": 171141984,
+      "step": 79225
+    },
+    {
+      "epoch": 12.924959216965743,
+      "grad_norm": 0.036548204720020294,
+      "learning_rate": 0.0003351714774952681,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 171153152,
+      "step": 79230
+    },
+    {
+      "epoch": 12.925774877650896,
+      "grad_norm": 0.1406838595867157,
+      "learning_rate": 0.00033510427824150625,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 171164288,
+      "step": 79235
+    },
+    {
+      "epoch": 12.926590538336052,
+      "grad_norm": 0.013899928890168667,
+      "learning_rate": 0.0003350370823295653,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 171174944,
+      "step": 79240
+    },
+    {
+      "epoch": 12.927406199021208,
+      "grad_norm": 0.011088810861110687,
+      "learning_rate": 0.0003349698897608071,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 171184864,
+      "step": 79245
+    },
+    {
+      "epoch": 12.928221859706362,
+      "grad_norm": 0.010716955177485943,
+      "learning_rate": 0.00033490270053659367,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 171195840,
+      "step": 79250
+    },
+    {
+      "epoch": 12.929037520391518,
+      "grad_norm": 0.133016899228096,
+      "learning_rate": 0.0003348355146582862,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 171207104,
+      "step": 79255
+    },
+    {
+      "epoch": 12.929853181076671,
+      "grad_norm": 0.013618758879601955,
+      "learning_rate": 0.00033476833212724676,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 171217792,
+      "step": 79260
+    },
+    {
+      "epoch": 12.930668841761827,
+      "grad_norm": 0.005291712004691362,
+      "learning_rate": 0.0003347011529448365,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 171229408,
+      "step": 79265
+    },
+    {
+      "epoch": 12.931484502446983,
+      "grad_norm": 0.0027662403881549835,
+      "learning_rate": 0.00033463397711241727,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 171238784,
+      "step": 79270
+    },
+    {
+      "epoch": 12.932300163132137,
+      "grad_norm": 0.004883588757365942,
+      "learning_rate": 0.00033456680463135006,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 171249344,
+      "step": 79275
+    },
+    {
+      "epoch": 12.933115823817293,
+      "grad_norm": 0.0021018683910369873,
+      "learning_rate": 0.00033449963550299646,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 171259392,
+      "step": 79280
+    },
+    {
+      "epoch": 12.933931484502446,
+      "grad_norm": 0.12410213053226471,
+      "learning_rate": 0.00033443246972871785,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 171269888,
+      "step": 79285
+    },
+    {
+      "epoch": 12.934747145187602,
+      "grad_norm": 0.04729204624891281,
+      "learning_rate": 0.000334365307309875,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 171281696,
+      "step": 79290
+    },
+    {
+      "epoch": 12.935562805872756,
+      "grad_norm": 0.13005883991718292,
+      "learning_rate": 0.00033429814824782967,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 171291232,
+      "step": 79295
+    },
+    {
+      "epoch": 12.936378466557912,
+      "grad_norm": 0.0018234510207548738,
+      "learning_rate": 0.0003342309925439423,
+      "loss": 0.1334,
+      "num_input_tokens_seen": 171300864,
+      "step": 79300
+    },
+    {
+      "epoch": 12.937194127243067,
+      "grad_norm": 0.007303939666599035,
+      "learning_rate": 0.0003341638401995744,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 171311264,
+      "step": 79305
+    },
+    {
+      "epoch": 12.938009787928221,
+      "grad_norm": 0.23786698281764984,
+      "learning_rate": 0.0003340966912160864,
+      "loss": 0.02,
+      "num_input_tokens_seen": 171322080,
+      "step": 79310
+    },
+    {
+      "epoch": 12.938825448613377,
+      "grad_norm": 0.07854799926280975,
+      "learning_rate": 0.00033402954559483966,
+      "loss": 0.0721,
+      "num_input_tokens_seen": 171333760,
+      "step": 79315
+    },
+    {
+      "epoch": 12.939641109298531,
+      "grad_norm": 0.0014028697041794658,
+      "learning_rate": 0.0003339624033371945,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 171345088,
+      "step": 79320
+    },
+    {
+      "epoch": 12.940456769983687,
+      "grad_norm": 0.40298980474472046,
+      "learning_rate": 0.00033389526444451215,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 171355360,
+      "step": 79325
+    },
+    {
+      "epoch": 12.941272430668842,
+      "grad_norm": 0.00499499449506402,
+      "learning_rate": 0.00033382812891815267,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 171365856,
+      "step": 79330
+    },
+    {
+      "epoch": 12.942088091353996,
+      "grad_norm": 0.0031798086129128933,
+      "learning_rate": 0.00033376099675947726,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 171375904,
+      "step": 79335
+    },
+    {
+      "epoch": 12.942903752039152,
+      "grad_norm": 0.2039460837841034,
+      "learning_rate": 0.0003336938679698459,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 171386144,
+      "step": 79340
+    },
+    {
+      "epoch": 12.943719412724306,
+      "grad_norm": 0.6421544551849365,
+      "learning_rate": 0.0003336267425506194,
+      "loss": 0.0613,
+      "num_input_tokens_seen": 171397248,
+      "step": 79345
+    },
+    {
+      "epoch": 12.944535073409462,
+      "grad_norm": 0.017462583258748055,
+      "learning_rate": 0.0003335596205031579,
+      "loss": 0.018,
+      "num_input_tokens_seen": 171407680,
+      "step": 79350
+    },
+    {
+      "epoch": 12.945350734094617,
+      "grad_norm": 0.1923362910747528,
+      "learning_rate": 0.00033349250182882205,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 171418368,
+      "step": 79355
+    },
+    {
+      "epoch": 12.946166394779771,
+      "grad_norm": 0.8219704627990723,
+      "learning_rate": 0.0003334253865289717,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 171428352,
+      "step": 79360
+    },
+    {
+      "epoch": 12.946982055464927,
+      "grad_norm": 0.002316342433914542,
+      "learning_rate": 0.00033335827460496725,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 171439424,
+      "step": 79365
+    },
+    {
+      "epoch": 12.947797716150081,
+      "grad_norm": 0.00106413708999753,
+      "learning_rate": 0.0003332911660581688,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 171449632,
+      "step": 79370
+    },
+    {
+      "epoch": 12.948613376835237,
+      "grad_norm": 0.5249331593513489,
+      "learning_rate": 0.0003332240608899363,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 171458592,
+      "step": 79375
+    },
+    {
+      "epoch": 12.949429037520392,
+      "grad_norm": 0.003496425226330757,
+      "learning_rate": 0.0003331569591016298,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 171469120,
+      "step": 79380
+    },
+    {
+      "epoch": 12.950244698205546,
+      "grad_norm": 0.11744219064712524,
+      "learning_rate": 0.0003330898606946091,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 171480032,
+      "step": 79385
+    },
+    {
+      "epoch": 12.951060358890702,
+      "grad_norm": 0.02061287686228752,
+      "learning_rate": 0.0003330227656702342,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 171491552,
+      "step": 79390
+    },
+    {
+      "epoch": 12.951876019575856,
+      "grad_norm": 0.001456076861359179,
+      "learning_rate": 0.00033295567402986476,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 171502976,
+      "step": 79395
+    },
+    {
+      "epoch": 12.952691680261012,
+      "grad_norm": 0.8078159689903259,
+      "learning_rate": 0.0003328885857748605,
+      "loss": 0.1798,
+      "num_input_tokens_seen": 171513152,
+      "step": 79400
+    },
+    {
+      "epoch": 12.953507340946166,
+      "grad_norm": 0.008021415211260319,
+      "learning_rate": 0.00033282150090658115,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 171524416,
+      "step": 79405
+    },
+    {
+      "epoch": 12.954323001631321,
+      "grad_norm": 0.007471402175724506,
+      "learning_rate": 0.0003327544194263861,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 171535328,
+      "step": 79410
+    },
+    {
+      "epoch": 12.955138662316477,
+      "grad_norm": 0.017298957332968712,
+      "learning_rate": 0.0003326873413356347,
+      "loss": 0.005,
+      "num_input_tokens_seen": 171547008,
+      "step": 79415
+    },
+    {
+      "epoch": 12.955954323001631,
+      "grad_norm": 0.8735957145690918,
+      "learning_rate": 0.0003326202666356869,
+      "loss": 0.044,
+      "num_input_tokens_seen": 171559104,
+      "step": 79420
+    },
+    {
+      "epoch": 12.956769983686787,
+      "grad_norm": 0.4984961748123169,
+      "learning_rate": 0.0003325531953279015,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 171569248,
+      "step": 79425
+    },
+    {
+      "epoch": 12.95758564437194,
+      "grad_norm": 0.00716983899474144,
+      "learning_rate": 0.0003324861274136382,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 171579776,
+      "step": 79430
+    },
+    {
+      "epoch": 12.958401305057096,
+      "grad_norm": 0.5368052124977112,
+      "learning_rate": 0.0003324190628942558,
+      "loss": 0.0639,
+      "num_input_tokens_seen": 171590432,
+      "step": 79435
+    },
+    {
+      "epoch": 12.959216965742252,
+      "grad_norm": 0.01023983582854271,
+      "learning_rate": 0.000332352001771114,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 171601760,
+      "step": 79440
+    },
+    {
+      "epoch": 12.960032626427406,
+      "grad_norm": 0.03688769415020943,
+      "learning_rate": 0.0003322849440455713,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 171613376,
+      "step": 79445
+    },
+    {
+      "epoch": 12.960848287112562,
+      "grad_norm": 0.009764597751200199,
+      "learning_rate": 0.0003322178897189871,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 171625056,
+      "step": 79450
+    },
+    {
+      "epoch": 12.961663947797716,
+      "grad_norm": 0.006400657817721367,
+      "learning_rate": 0.00033215083879272015,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 171635712,
+      "step": 79455
+    },
+    {
+      "epoch": 12.962479608482871,
+      "grad_norm": 0.0073861065320670605,
+      "learning_rate": 0.00033208379126812947,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 171646432,
+      "step": 79460
+    },
+    {
+      "epoch": 12.963295269168025,
+      "grad_norm": 0.0030887688044458628,
+      "learning_rate": 0.0003320167471465736,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 171657472,
+      "step": 79465
+    },
+    {
+      "epoch": 12.964110929853181,
+      "grad_norm": 0.35004812479019165,
+      "learning_rate": 0.0003319497064294117,
+      "loss": 0.0852,
+      "num_input_tokens_seen": 171668864,
+      "step": 79470
+    },
+    {
+      "epoch": 12.964926590538337,
+      "grad_norm": 0.012314059771597385,
+      "learning_rate": 0.0003318826691180019,
+      "loss": 0.0392,
+      "num_input_tokens_seen": 171680832,
+      "step": 79475
+    },
+    {
+      "epoch": 12.96574225122349,
+      "grad_norm": 0.004713066387921572,
+      "learning_rate": 0.00033181563521370337,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 171692640,
+      "step": 79480
+    },
+    {
+      "epoch": 12.966557911908646,
+      "grad_norm": 0.01903359591960907,
+      "learning_rate": 0.0003317486047178742,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 171702752,
+      "step": 79485
+    },
+    {
+      "epoch": 12.9673735725938,
+      "grad_norm": 0.026393504813313484,
+      "learning_rate": 0.00033168157763187285,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 171713120,
+      "step": 79490
+    },
+    {
+      "epoch": 12.968189233278956,
+      "grad_norm": 0.0038926454726606607,
+      "learning_rate": 0.0003316145539570581,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 171725216,
+      "step": 79495
+    },
+    {
+      "epoch": 12.969004893964112,
+      "grad_norm": 0.0027679800987243652,
+      "learning_rate": 0.00033154753369478787,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 171735072,
+      "step": 79500
+    },
+    {
+      "epoch": 12.969820554649266,
+      "grad_norm": 0.003413753118366003,
+      "learning_rate": 0.00033148051684642074,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 171745536,
+      "step": 79505
+    },
+    {
+      "epoch": 12.970636215334421,
+      "grad_norm": 0.0008030119352042675,
+      "learning_rate": 0.00033141350341331447,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 171756768,
+      "step": 79510
+    },
+    {
+      "epoch": 12.971451876019575,
+      "grad_norm": 0.09928394109010696,
+      "learning_rate": 0.00033134649339682773,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 171767520,
+      "step": 79515
+    },
+    {
+      "epoch": 12.97226753670473,
+      "grad_norm": 0.4272739589214325,
+      "learning_rate": 0.000331279486798318,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 171777920,
+      "step": 79520
+    },
+    {
+      "epoch": 12.973083197389887,
+      "grad_norm": 0.25293394923210144,
+      "learning_rate": 0.0003312124836191437,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 171787648,
+      "step": 79525
+    },
+    {
+      "epoch": 12.97389885807504,
+      "grad_norm": 0.006494682747870684,
+      "learning_rate": 0.00033114548386066234,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 171798176,
+      "step": 79530
+    },
+    {
+      "epoch": 12.974714518760196,
+      "grad_norm": 0.0020080001559108496,
+      "learning_rate": 0.00033107848752423203,
+      "loss": 0.1135,
+      "num_input_tokens_seen": 171808608,
+      "step": 79535
+    },
+    {
+      "epoch": 12.97553017944535,
+      "grad_norm": 0.010064424015581608,
+      "learning_rate": 0.0003310114946112105,
+      "loss": 0.0463,
+      "num_input_tokens_seen": 171820256,
+      "step": 79540
+    },
+    {
+      "epoch": 12.976345840130506,
+      "grad_norm": 0.03084593638777733,
+      "learning_rate": 0.00033094450512295535,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 171830432,
+      "step": 79545
+    },
+    {
+      "epoch": 12.977161500815662,
+      "grad_norm": 0.0262883510440588,
+      "learning_rate": 0.00033087751906082436,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 171841216,
+      "step": 79550
+    },
+    {
+      "epoch": 12.977977161500815,
+      "grad_norm": 0.005067694932222366,
+      "learning_rate": 0.000330810536426175,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 171851616,
+      "step": 79555
+    },
+    {
+      "epoch": 12.978792822185971,
+      "grad_norm": 0.039184898138046265,
+      "learning_rate": 0.0003307435572203645,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 171862912,
+      "step": 79560
+    },
+    {
+      "epoch": 12.979608482871125,
+      "grad_norm": 0.008203844539821148,
+      "learning_rate": 0.00033067658144475087,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 171873504,
+      "step": 79565
+    },
+    {
+      "epoch": 12.98042414355628,
+      "grad_norm": 0.008222805336117744,
+      "learning_rate": 0.0003306096091006909,
+      "loss": 0.013,
+      "num_input_tokens_seen": 171883040,
+      "step": 79570
+    },
+    {
+      "epoch": 12.981239804241435,
+      "grad_norm": 0.009524693712592125,
+      "learning_rate": 0.0003305426401895423,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 171893984,
+      "step": 79575
+    },
+    {
+      "epoch": 12.98205546492659,
+      "grad_norm": 0.17951497435569763,
+      "learning_rate": 0.0003304756747126618,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 171905024,
+      "step": 79580
+    },
+    {
+      "epoch": 12.982871125611746,
+      "grad_norm": 0.08185935020446777,
+      "learning_rate": 0.00033040871267140705,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 171915776,
+      "step": 79585
+    },
+    {
+      "epoch": 12.9836867862969,
+      "grad_norm": 0.01454191654920578,
+      "learning_rate": 0.00033034175406713464,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 171926496,
+      "step": 79590
+    },
+    {
+      "epoch": 12.984502446982056,
+      "grad_norm": 0.001568776206113398,
+      "learning_rate": 0.0003302747989012019,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 171936896,
+      "step": 79595
+    },
+    {
+      "epoch": 12.98531810766721,
+      "grad_norm": 0.1458302140235901,
+      "learning_rate": 0.00033020784717496576,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 171947744,
+      "step": 79600
+    },
+    {
+      "epoch": 12.986133768352365,
+      "grad_norm": 0.0026035963091999292,
+      "learning_rate": 0.0003301408988897829,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 171957216,
+      "step": 79605
+    },
+    {
+      "epoch": 12.986949429037521,
+      "grad_norm": 0.1463485211133957,
+      "learning_rate": 0.00033007395404701035,
+      "loss": 0.0555,
+      "num_input_tokens_seen": 171968640,
+      "step": 79610
+    },
+    {
+      "epoch": 12.987765089722675,
+      "grad_norm": 0.0034880635794252157,
+      "learning_rate": 0.0003300070126480045,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 171979904,
+      "step": 79615
+    },
+    {
+      "epoch": 12.98858075040783,
+      "grad_norm": 0.0010988858994096518,
+      "learning_rate": 0.00032994007469412234,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 171990944,
+      "step": 79620
+    },
+    {
+      "epoch": 12.989396411092985,
+      "grad_norm": 0.012164515443146229,
+      "learning_rate": 0.0003298731401867202,
+      "loss": 0.1356,
+      "num_input_tokens_seen": 172002432,
+      "step": 79625
+    },
+    {
+      "epoch": 12.99021207177814,
+      "grad_norm": 0.05736779049038887,
+      "learning_rate": 0.0003298062091271548,
+      "loss": 0.01,
+      "num_input_tokens_seen": 172013504,
+      "step": 79630
+    },
+    {
+      "epoch": 12.991027732463294,
+      "grad_norm": 0.018071817234158516,
+      "learning_rate": 0.00032973928151678233,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 172025376,
+      "step": 79635
+    },
+    {
+      "epoch": 12.99184339314845,
+      "grad_norm": 0.0019351065857335925,
+      "learning_rate": 0.00032967235735695955,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 172036320,
+      "step": 79640
+    },
+    {
+      "epoch": 12.992659053833606,
+      "grad_norm": 0.005769283045083284,
+      "learning_rate": 0.00032960543664904224,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 172047584,
+      "step": 79645
+    },
+    {
+      "epoch": 12.99347471451876,
+      "grad_norm": 0.0038038466591387987,
+      "learning_rate": 0.0003295385193943872,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 172059072,
+      "step": 79650
+    },
+    {
+      "epoch": 12.994290375203915,
+      "grad_norm": 0.004908800590783358,
+      "learning_rate": 0.00032947160559435,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 172069920,
+      "step": 79655
+    },
+    {
+      "epoch": 12.99510603588907,
+      "grad_norm": 0.0024959484580904245,
+      "learning_rate": 0.00032940469525028735,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 172079840,
+      "step": 79660
+    },
+    {
+      "epoch": 12.995921696574225,
+      "grad_norm": 0.07145286351442337,
+      "learning_rate": 0.0003293377883635547,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 172092320,
+      "step": 79665
+    },
+    {
+      "epoch": 12.99673735725938,
+      "grad_norm": 1.0221548080444336,
+      "learning_rate": 0.0003292708849355085,
+      "loss": 0.0672,
+      "num_input_tokens_seen": 172102336,
+      "step": 79670
+    },
+    {
+      "epoch": 12.997553017944535,
+      "grad_norm": 0.007001963909715414,
+      "learning_rate": 0.0003292039849675042,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 172113120,
+      "step": 79675
+    },
+    {
+      "epoch": 12.99836867862969,
+      "grad_norm": 0.009530258364975452,
+      "learning_rate": 0.0003291370884608979,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 172123136,
+      "step": 79680
+    },
+    {
+      "epoch": 12.999184339314844,
+      "grad_norm": 0.004639983177185059,
+      "learning_rate": 0.00032907019541704533,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 172133984,
+      "step": 79685
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.06852234899997711,
+      "learning_rate": 0.00032900330583730196,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 172144032,
+      "step": 79690
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.19773797690868378,
+      "eval_runtime": 104.1935,
+      "eval_samples_per_second": 26.153,
+      "eval_steps_per_second": 6.546,
+      "num_input_tokens_seen": 172144032,
+      "step": 79690
+    },
+    {
+      "epoch": 13.000815660685156,
+      "grad_norm": 0.009670889936387539,
+      "learning_rate": 0.0003289364197230236,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 172156000,
+      "step": 79695
+    },
+    {
+      "epoch": 13.00163132137031,
+      "grad_norm": 0.004153914283961058,
+      "learning_rate": 0.0003288695370755657,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 172165952,
+      "step": 79700
+    },
+    {
+      "epoch": 13.002446982055465,
+      "grad_norm": 0.016005946323275566,
+      "learning_rate": 0.0003288026578962836,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 172177600,
+      "step": 79705
+    },
+    {
+      "epoch": 13.00326264274062,
+      "grad_norm": 0.009066256694495678,
+      "learning_rate": 0.0003287357821865329,
+      "loss": 0.0522,
+      "num_input_tokens_seen": 172187872,
+      "step": 79710
+    },
+    {
+      "epoch": 13.004078303425775,
+      "grad_norm": 0.011497425846755505,
+      "learning_rate": 0.0003286689099476689,
+      "loss": 0.1064,
+      "num_input_tokens_seen": 172199136,
+      "step": 79715
+    },
+    {
+      "epoch": 13.00489396411093,
+      "grad_norm": 0.02010742947459221,
+      "learning_rate": 0.00032860204118104674,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 172210720,
+      "step": 79720
+    },
+    {
+      "epoch": 13.005709624796085,
+      "grad_norm": 0.004298577085137367,
+      "learning_rate": 0.00032853517588802173,
+      "loss": 0.004,
+      "num_input_tokens_seen": 172221984,
+      "step": 79725
+    },
+    {
+      "epoch": 13.00652528548124,
+      "grad_norm": 0.00979915913194418,
+      "learning_rate": 0.0003284683140699487,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 172231520,
+      "step": 79730
+    },
+    {
+      "epoch": 13.007340946166394,
+      "grad_norm": 0.009911553002893925,
+      "learning_rate": 0.00032840145572818314,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 172242560,
+      "step": 79735
+    },
+    {
+      "epoch": 13.00815660685155,
+      "grad_norm": 0.00278778956271708,
+      "learning_rate": 0.0003283346008640795,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 172252864,
+      "step": 79740
+    },
+    {
+      "epoch": 13.008972267536704,
+      "grad_norm": 0.00484444759786129,
+      "learning_rate": 0.0003282677494789933,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 172262496,
+      "step": 79745
+    },
+    {
+      "epoch": 13.00978792822186,
+      "grad_norm": 0.004565055947750807,
+      "learning_rate": 0.0003282009015742787,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 172273376,
+      "step": 79750
+    },
+    {
+      "epoch": 13.010603588907015,
+      "grad_norm": 0.010577378794550896,
+      "learning_rate": 0.00032813405715129097,
+      "loss": 0.003,
+      "num_input_tokens_seen": 172284256,
+      "step": 79755
+    },
+    {
+      "epoch": 13.01141924959217,
+      "grad_norm": 0.3631739616394043,
+      "learning_rate": 0.00032806721621138444,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 172295232,
+      "step": 79760
+    },
+    {
+      "epoch": 13.012234910277325,
+      "grad_norm": 0.038808513432741165,
+      "learning_rate": 0.00032800037875591406,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 172306272,
+      "step": 79765
+    },
+    {
+      "epoch": 13.013050570962479,
+      "grad_norm": 0.016878092661499977,
+      "learning_rate": 0.000327933544786234,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 172316800,
+      "step": 79770
+    },
+    {
+      "epoch": 13.013866231647635,
+      "grad_norm": 0.08253694325685501,
+      "learning_rate": 0.00032786671430369915,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 172328064,
+      "step": 79775
+    },
+    {
+      "epoch": 13.01468189233279,
+      "grad_norm": 0.004199854098260403,
+      "learning_rate": 0.0003277998873096635,
+      "loss": 0.1454,
+      "num_input_tokens_seen": 172338016,
+      "step": 79780
+    },
+    {
+      "epoch": 13.015497553017944,
+      "grad_norm": 0.3190031051635742,
+      "learning_rate": 0.00032773306380548176,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 172349440,
+      "step": 79785
+    },
+    {
+      "epoch": 13.0163132137031,
+      "grad_norm": 0.021624628454446793,
+      "learning_rate": 0.0003276662437925079,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 172359776,
+      "step": 79790
+    },
+    {
+      "epoch": 13.017128874388254,
+      "grad_norm": 0.021654745563864708,
+      "learning_rate": 0.0003275994272720963,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 172370560,
+      "step": 79795
+    },
+    {
+      "epoch": 13.01794453507341,
+      "grad_norm": 0.06402740627527237,
+      "learning_rate": 0.0003275326142456009,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 172380992,
+      "step": 79800
+    },
+    {
+      "epoch": 13.018760195758565,
+      "grad_norm": 0.004721821751445532,
+      "learning_rate": 0.00032746580471437606,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 172392928,
+      "step": 79805
+    },
+    {
+      "epoch": 13.01957585644372,
+      "grad_norm": 0.0027865879237651825,
+      "learning_rate": 0.0003273989986797753,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 172401888,
+      "step": 79810
+    },
+    {
+      "epoch": 13.020391517128875,
+      "grad_norm": 0.007285828702151775,
+      "learning_rate": 0.00032733219614315283,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 172412352,
+      "step": 79815
+    },
+    {
+      "epoch": 13.021207177814029,
+      "grad_norm": 0.008828174322843552,
+      "learning_rate": 0.00032726539710586266,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 172422720,
+      "step": 79820
+    },
+    {
+      "epoch": 13.022022838499185,
+      "grad_norm": 0.004288358148187399,
+      "learning_rate": 0.0003271986015692582,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 172431584,
+      "step": 79825
+    },
+    {
+      "epoch": 13.022838499184338,
+      "grad_norm": 0.05239563062787056,
+      "learning_rate": 0.0003271318095346934,
+      "loss": 0.1232,
+      "num_input_tokens_seen": 172444032,
+      "step": 79830
+    },
+    {
+      "epoch": 13.023654159869494,
+      "grad_norm": 0.0009064357727766037,
+      "learning_rate": 0.00032706502100352165,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 172454976,
+      "step": 79835
+    },
+    {
+      "epoch": 13.02446982055465,
+      "grad_norm": 0.03271019458770752,
+      "learning_rate": 0.00032699823597709675,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 172465600,
+      "step": 79840
+    },
+    {
+      "epoch": 13.025285481239804,
+      "grad_norm": 0.020236380398273468,
+      "learning_rate": 0.00032693145445677194,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 172476864,
+      "step": 79845
+    },
+    {
+      "epoch": 13.02610114192496,
+      "grad_norm": 0.020625924691557884,
+      "learning_rate": 0.00032686467644390085,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 172487328,
+      "step": 79850
+    },
+    {
+      "epoch": 13.026916802610113,
+      "grad_norm": 0.0036424091085791588,
+      "learning_rate": 0.00032679790193983666,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 172496320,
+      "step": 79855
+    },
+    {
+      "epoch": 13.02773246329527,
+      "grad_norm": 0.025376515462994576,
+      "learning_rate": 0.0003267311309459328,
+      "loss": 0.0243,
+      "num_input_tokens_seen": 172505696,
+      "step": 79860
+    },
+    {
+      "epoch": 13.028548123980425,
+      "grad_norm": 0.0028710965998470783,
+      "learning_rate": 0.00032666436346354236,
+      "loss": 0.144,
+      "num_input_tokens_seen": 172516896,
+      "step": 79865
+    },
+    {
+      "epoch": 13.029363784665579,
+      "grad_norm": 0.005142997018992901,
+      "learning_rate": 0.0003265975994940185,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 172527360,
+      "step": 79870
+    },
+    {
+      "epoch": 13.030179445350734,
+      "grad_norm": 0.00245002587325871,
+      "learning_rate": 0.00032653083903871406,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 172537728,
+      "step": 79875
+    },
+    {
+      "epoch": 13.030995106035888,
+      "grad_norm": 0.00920133013278246,
+      "learning_rate": 0.0003264640820989825,
+      "loss": 0.003,
+      "num_input_tokens_seen": 172549344,
+      "step": 79880
+    },
+    {
+      "epoch": 13.031810766721044,
+      "grad_norm": 0.28441938757896423,
+      "learning_rate": 0.0003263973286761762,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 172558880,
+      "step": 79885
+    },
+    {
+      "epoch": 13.0326264274062,
+      "grad_norm": 0.00399240804836154,
+      "learning_rate": 0.0003263305787716486,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 172570752,
+      "step": 79890
+    },
+    {
+      "epoch": 13.033442088091354,
+      "grad_norm": 0.024981455877423286,
+      "learning_rate": 0.00032626383238675184,
+      "loss": 0.04,
+      "num_input_tokens_seen": 172581856,
+      "step": 79895
+    },
+    {
+      "epoch": 13.03425774877651,
+      "grad_norm": 0.0030545040499418974,
+      "learning_rate": 0.0003261970895228391,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 172592256,
+      "step": 79900
+    },
+    {
+      "epoch": 13.035073409461663,
+      "grad_norm": 0.03148532286286354,
+      "learning_rate": 0.00032613035018126267,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 172603104,
+      "step": 79905
+    },
+    {
+      "epoch": 13.035889070146819,
+      "grad_norm": 0.07724172621965408,
+      "learning_rate": 0.0003260636143633755,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 172613312,
+      "step": 79910
+    },
+    {
+      "epoch": 13.036704730831975,
+      "grad_norm": 0.003198714228346944,
+      "learning_rate": 0.0003259968820705296,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 172622912,
+      "step": 79915
+    },
+    {
+      "epoch": 13.037520391517129,
+      "grad_norm": 0.004381487611681223,
+      "learning_rate": 0.0003259301533040776,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 172634112,
+      "step": 79920
+    },
+    {
+      "epoch": 13.038336052202284,
+      "grad_norm": 0.4412562847137451,
+      "learning_rate": 0.00032586342806537207,
+      "loss": 0.0686,
+      "num_input_tokens_seen": 172644800,
+      "step": 79925
+    },
+    {
+      "epoch": 13.039151712887438,
+      "grad_norm": 0.002459079958498478,
+      "learning_rate": 0.0003257967063557649,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 172655072,
+      "step": 79930
+    },
+    {
+      "epoch": 13.039967373572594,
+      "grad_norm": 0.026812493801116943,
+      "learning_rate": 0.0003257299881766087,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 172666912,
+      "step": 79935
+    },
+    {
+      "epoch": 13.040783034257748,
+      "grad_norm": 0.0030856519006192684,
+      "learning_rate": 0.0003256632735292551,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 172678368,
+      "step": 79940
+    },
+    {
+      "epoch": 13.041598694942904,
+      "grad_norm": 0.0029760266188532114,
+      "learning_rate": 0.00032559656241505663,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 172688224,
+      "step": 79945
+    },
+    {
+      "epoch": 13.04241435562806,
+      "grad_norm": 0.005138032604008913,
+      "learning_rate": 0.0003255298548353649,
+      "loss": 0.0982,
+      "num_input_tokens_seen": 172698784,
+      "step": 79950
+    },
+    {
+      "epoch": 13.043230016313213,
+      "grad_norm": 0.004156198818236589,
+      "learning_rate": 0.0003254631507915322,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 172708480,
+      "step": 79955
+    },
+    {
+      "epoch": 13.044045676998369,
+      "grad_norm": 0.001793356379494071,
+      "learning_rate": 0.00032539645028490993,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 172718080,
+      "step": 79960
+    },
+    {
+      "epoch": 13.044861337683523,
+      "grad_norm": 0.0031504526268690825,
+      "learning_rate": 0.0003253297533168503,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 172728864,
+      "step": 79965
+    },
+    {
+      "epoch": 13.045676998368679,
+      "grad_norm": 0.003528774017468095,
+      "learning_rate": 0.0003252630598887046,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 172740320,
+      "step": 79970
+    },
+    {
+      "epoch": 13.046492659053834,
+      "grad_norm": 0.16039009392261505,
+      "learning_rate": 0.00032519637000182495,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 172752064,
+      "step": 79975
+    },
+    {
+      "epoch": 13.047308319738988,
+      "grad_norm": 0.007757482118904591,
+      "learning_rate": 0.0003251296836575623,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 172763072,
+      "step": 79980
+    },
+    {
+      "epoch": 13.048123980424144,
+      "grad_norm": 0.013547541573643684,
+      "learning_rate": 0.00032506300085726874,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 172773632,
+      "step": 79985
+    },
+    {
+      "epoch": 13.048939641109298,
+      "grad_norm": 0.0315958634018898,
+      "learning_rate": 0.0003249963216022951,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 172784128,
+      "step": 79990
+    },
+    {
+      "epoch": 13.049755301794454,
+      "grad_norm": 0.01640213653445244,
+      "learning_rate": 0.0003249296458939932,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 172794368,
+      "step": 79995
+    },
+    {
+      "epoch": 13.05057096247961,
+      "grad_norm": 0.012024256400763988,
+      "learning_rate": 0.0003248629737337141,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 172805600,
+      "step": 80000
+    },
+    {
+      "epoch": 13.051386623164763,
+      "grad_norm": 0.004929613322019577,
+      "learning_rate": 0.000324796305122809,
+      "loss": 0.013,
+      "num_input_tokens_seen": 172815296,
+      "step": 80005
+    },
+    {
+      "epoch": 13.052202283849919,
+      "grad_norm": 0.028229599818587303,
+      "learning_rate": 0.000324729640062629,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 172825280,
+      "step": 80010
+    },
+    {
+      "epoch": 13.053017944535073,
+      "grad_norm": 0.002132690977305174,
+      "learning_rate": 0.0003246629785545252,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 172836576,
+      "step": 80015
+    },
+    {
+      "epoch": 13.053833605220229,
+      "grad_norm": 0.00830269604921341,
+      "learning_rate": 0.0003245963205998485,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 172847296,
+      "step": 80020
+    },
+    {
+      "epoch": 13.054649265905383,
+      "grad_norm": 0.009801110252737999,
+      "learning_rate": 0.00032452966619994997,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 172857440,
+      "step": 80025
+    },
+    {
+      "epoch": 13.055464926590538,
+      "grad_norm": 0.03717103973031044,
+      "learning_rate": 0.00032446301535618034,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 172869344,
+      "step": 80030
+    },
+    {
+      "epoch": 13.056280587275694,
+      "grad_norm": 0.01708907075226307,
+      "learning_rate": 0.0003243963680698904,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 172878528,
+      "step": 80035
+    },
+    {
+      "epoch": 13.057096247960848,
+      "grad_norm": 0.034726761281490326,
+      "learning_rate": 0.0003243297243424308,
+      "loss": 0.0395,
+      "num_input_tokens_seen": 172888992,
+      "step": 80040
+    },
+    {
+      "epoch": 13.057911908646004,
+      "grad_norm": 0.0035679759457707405,
+      "learning_rate": 0.0003242630841751522,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 172899776,
+      "step": 80045
+    },
+    {
+      "epoch": 13.058727569331158,
+      "grad_norm": 0.044592756778001785,
+      "learning_rate": 0.00032419644756940527,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 172910368,
+      "step": 80050
+    },
+    {
+      "epoch": 13.059543230016313,
+      "grad_norm": 0.0022370279766619205,
+      "learning_rate": 0.0003241298145265401,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 172921664,
+      "step": 80055
+    },
+    {
+      "epoch": 13.060358890701469,
+      "grad_norm": 0.002283082576468587,
+      "learning_rate": 0.00032406318504790753,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 172933472,
+      "step": 80060
+    },
+    {
+      "epoch": 13.061174551386623,
+      "grad_norm": 0.3229667842388153,
+      "learning_rate": 0.0003239965591348576,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 172943872,
+      "step": 80065
+    },
+    {
+      "epoch": 13.061990212071779,
+      "grad_norm": 0.01312661450356245,
+      "learning_rate": 0.00032392993678874085,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 172954912,
+      "step": 80070
+    },
+    {
+      "epoch": 13.062805872756933,
+      "grad_norm": 0.0027966343332082033,
+      "learning_rate": 0.0003238633180109071,
+      "loss": 0.0726,
+      "num_input_tokens_seen": 172964736,
+      "step": 80075
+    },
+    {
+      "epoch": 13.063621533442088,
+      "grad_norm": 0.00816719327121973,
+      "learning_rate": 0.00032379670280270677,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 172974848,
+      "step": 80080
+    },
+    {
+      "epoch": 13.064437194127244,
+      "grad_norm": 0.0017934865318238735,
+      "learning_rate": 0.0003237300911654897,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 172984448,
+      "step": 80085
+    },
+    {
+      "epoch": 13.065252854812398,
+      "grad_norm": 0.33631932735443115,
+      "learning_rate": 0.0003236634831006061,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 172995776,
+      "step": 80090
+    },
+    {
+      "epoch": 13.066068515497554,
+      "grad_norm": 0.002418245654553175,
+      "learning_rate": 0.0003235968786094055,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 173006016,
+      "step": 80095
+    },
+    {
+      "epoch": 13.066884176182707,
+      "grad_norm": 0.5294049978256226,
+      "learning_rate": 0.0003235302776932382,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 173016960,
+      "step": 80100
+    },
+    {
+      "epoch": 13.067699836867863,
+      "grad_norm": 0.38888972997665405,
+      "learning_rate": 0.00032346368035345344,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 173027648,
+      "step": 80105
+    },
+    {
+      "epoch": 13.068515497553017,
+      "grad_norm": 0.6325135231018066,
+      "learning_rate": 0.0003233970865914013,
+      "loss": 0.216,
+      "num_input_tokens_seen": 173039424,
+      "step": 80110
+    },
+    {
+      "epoch": 13.069331158238173,
+      "grad_norm": 0.0035932499449700117,
+      "learning_rate": 0.0003233304964084311,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 173050048,
+      "step": 80115
+    },
+    {
+      "epoch": 13.070146818923329,
+      "grad_norm": 0.02140737511217594,
+      "learning_rate": 0.0003232639098058927,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 173059904,
+      "step": 80120
+    },
+    {
+      "epoch": 13.070962479608482,
+      "grad_norm": 0.07032874971628189,
+      "learning_rate": 0.00032319732678513514,
+      "loss": 0.007,
+      "num_input_tokens_seen": 173070880,
+      "step": 80125
+    },
+    {
+      "epoch": 13.071778140293638,
+      "grad_norm": 0.0047665243037045,
+      "learning_rate": 0.00032313074734750813,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 173081280,
+      "step": 80130
+    },
+    {
+      "epoch": 13.072593800978792,
+      "grad_norm": 0.0695071592926979,
+      "learning_rate": 0.000323064171494361,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 173092960,
+      "step": 80135
+    },
+    {
+      "epoch": 13.073409461663948,
+      "grad_norm": 0.08060871809720993,
+      "learning_rate": 0.00032299759922704277,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 173105216,
+      "step": 80140
+    },
+    {
+      "epoch": 13.074225122349104,
+      "grad_norm": 0.008816416375339031,
+      "learning_rate": 0.0003229310305469029,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 173116352,
+      "step": 80145
+    },
+    {
+      "epoch": 13.075040783034257,
+      "grad_norm": 0.026547571644186974,
+      "learning_rate": 0.00032286446545529016,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 173127008,
+      "step": 80150
+    },
+    {
+      "epoch": 13.075856443719413,
+      "grad_norm": 1.0129142999649048,
+      "learning_rate": 0.0003227979039535538,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 173137856,
+      "step": 80155
+    },
+    {
+      "epoch": 13.076672104404567,
+      "grad_norm": 0.07595764100551605,
+      "learning_rate": 0.0003227313460430427,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 173149952,
+      "step": 80160
+    },
+    {
+      "epoch": 13.077487765089723,
+      "grad_norm": 0.029978493228554726,
+      "learning_rate": 0.0003226647917251058,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 173160512,
+      "step": 80165
+    },
+    {
+      "epoch": 13.078303425774878,
+      "grad_norm": 0.01935637556016445,
+      "learning_rate": 0.0003225982410010918,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 173171872,
+      "step": 80170
+    },
+    {
+      "epoch": 13.079119086460032,
+      "grad_norm": 0.06953626126050949,
+      "learning_rate": 0.00032253169387234953,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 173183552,
+      "step": 80175
+    },
+    {
+      "epoch": 13.079934747145188,
+      "grad_norm": 1.5633295774459839,
+      "learning_rate": 0.0003224651503402276,
+      "loss": 0.06,
+      "num_input_tokens_seen": 173194144,
+      "step": 80180
+    },
+    {
+      "epoch": 13.080750407830342,
+      "grad_norm": 0.01591937430202961,
+      "learning_rate": 0.00032239861040607464,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 173205024,
+      "step": 80185
+    },
+    {
+      "epoch": 13.081566068515498,
+      "grad_norm": 0.00395574327558279,
+      "learning_rate": 0.0003223320740712391,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 173214176,
+      "step": 80190
+    },
+    {
+      "epoch": 13.082381729200652,
+      "grad_norm": 0.5557219386100769,
+      "learning_rate": 0.0003222655413370696,
+      "loss": 0.061,
+      "num_input_tokens_seen": 173224832,
+      "step": 80195
+    },
+    {
+      "epoch": 13.083197389885807,
+      "grad_norm": 0.05771186947822571,
+      "learning_rate": 0.00032219901220491417,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 173234528,
+      "step": 80200
+    },
+    {
+      "epoch": 13.084013050570963,
+      "grad_norm": 0.005979506764560938,
+      "learning_rate": 0.0003221324866761215,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 173245248,
+      "step": 80205
+    },
+    {
+      "epoch": 13.084828711256117,
+      "grad_norm": 0.029441453516483307,
+      "learning_rate": 0.0003220659647520395,
+      "loss": 0.0248,
+      "num_input_tokens_seen": 173255776,
+      "step": 80210
+    },
+    {
+      "epoch": 13.085644371941273,
+      "grad_norm": 0.7436314225196838,
+      "learning_rate": 0.00032199944643401655,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 173266272,
+      "step": 80215
+    },
+    {
+      "epoch": 13.086460032626427,
+      "grad_norm": 0.006093572359532118,
+      "learning_rate": 0.00032193293172340056,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 173276064,
+      "step": 80220
+    },
+    {
+      "epoch": 13.087275693311582,
+      "grad_norm": 0.07572884112596512,
+      "learning_rate": 0.0003218664206215397,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 173286880,
+      "step": 80225
+    },
+    {
+      "epoch": 13.088091353996738,
+      "grad_norm": 0.0063800751231610775,
+      "learning_rate": 0.00032179991312978164,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 173297728,
+      "step": 80230
+    },
+    {
+      "epoch": 13.088907014681892,
+      "grad_norm": 0.014107972383499146,
+      "learning_rate": 0.00032173340924947436,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 173308512,
+      "step": 80235
+    },
+    {
+      "epoch": 13.089722675367048,
+      "grad_norm": 0.03823497146368027,
+      "learning_rate": 0.00032166690898196594,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 173320128,
+      "step": 80240
+    },
+    {
+      "epoch": 13.090538336052202,
+      "grad_norm": 0.021396825090050697,
+      "learning_rate": 0.0003216004123286036,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 173331168,
+      "step": 80245
+    },
+    {
+      "epoch": 13.091353996737357,
+      "grad_norm": 0.02987091988325119,
+      "learning_rate": 0.0003215339192907355,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 173341536,
+      "step": 80250
+    },
+    {
+      "epoch": 13.092169657422513,
+      "grad_norm": 0.3899349570274353,
+      "learning_rate": 0.00032146742986970865,
+      "loss": 0.0587,
+      "num_input_tokens_seen": 173352000,
+      "step": 80255
+    },
+    {
+      "epoch": 13.092985318107667,
+      "grad_norm": 0.06607574969530106,
+      "learning_rate": 0.000321400944066871,
+      "loss": 0.1516,
+      "num_input_tokens_seen": 173362368,
+      "step": 80260
+    },
+    {
+      "epoch": 13.093800978792823,
+      "grad_norm": 0.021596498787403107,
+      "learning_rate": 0.00032133446188356964,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 173374016,
+      "step": 80265
+    },
+    {
+      "epoch": 13.094616639477977,
+      "grad_norm": 0.0013468860415741801,
+      "learning_rate": 0.00032126798332115223,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 173384160,
+      "step": 80270
+    },
+    {
+      "epoch": 13.095432300163132,
+      "grad_norm": 0.09484121203422546,
+      "learning_rate": 0.00032120150838096576,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 173395296,
+      "step": 80275
+    },
+    {
+      "epoch": 13.096247960848286,
+      "grad_norm": 0.0008138703415170312,
+      "learning_rate": 0.00032113503706435767,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 173406304,
+      "step": 80280
+    },
+    {
+      "epoch": 13.097063621533442,
+      "grad_norm": 0.11847636848688126,
+      "learning_rate": 0.00032106856937267475,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 173416160,
+      "step": 80285
+    },
+    {
+      "epoch": 13.097879282218598,
+      "grad_norm": 0.029739893972873688,
+      "learning_rate": 0.00032100210530726446,
+      "loss": 0.1203,
+      "num_input_tokens_seen": 173427328,
+      "step": 80290
+    },
+    {
+      "epoch": 13.098694942903752,
+      "grad_norm": 0.0190031286329031,
+      "learning_rate": 0.00032093564486947347,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 173438784,
+      "step": 80295
+    },
+    {
+      "epoch": 13.099510603588907,
+      "grad_norm": 0.012608149088919163,
+      "learning_rate": 0.0003208691880606488,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 173450464,
+      "step": 80300
+    },
+    {
+      "epoch": 13.100326264274061,
+      "grad_norm": 0.5554617643356323,
+      "learning_rate": 0.0003208027348821373,
+      "loss": 0.0652,
+      "num_input_tokens_seen": 173461664,
+      "step": 80305
+    },
+    {
+      "epoch": 13.101141924959217,
+      "grad_norm": 0.026764320209622383,
+      "learning_rate": 0.00032073628533528574,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 173472704,
+      "step": 80310
+    },
+    {
+      "epoch": 13.101957585644373,
+      "grad_norm": 0.014278876595199108,
+      "learning_rate": 0.0003206698394214407,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 173483616,
+      "step": 80315
+    },
+    {
+      "epoch": 13.102773246329527,
+      "grad_norm": 0.009230894036591053,
+      "learning_rate": 0.00032060339714194897,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 173495104,
+      "step": 80320
+    },
+    {
+      "epoch": 13.103588907014682,
+      "grad_norm": 0.010614125989377499,
+      "learning_rate": 0.0003205369584981568,
+      "loss": 0.0987,
+      "num_input_tokens_seen": 173505376,
+      "step": 80325
+    },
+    {
+      "epoch": 13.104404567699836,
+      "grad_norm": 0.008995750918984413,
+      "learning_rate": 0.000320470523491411,
+      "loss": 0.027,
+      "num_input_tokens_seen": 173517024,
+      "step": 80330
+    },
+    {
+      "epoch": 13.105220228384992,
+      "grad_norm": 0.38214293122291565,
+      "learning_rate": 0.00032040409212305765,
+      "loss": 0.0829,
+      "num_input_tokens_seen": 173528256,
+      "step": 80335
+    },
+    {
+      "epoch": 13.106035889070148,
+      "grad_norm": 0.00634557381272316,
+      "learning_rate": 0.0003203376643944433,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 173538240,
+      "step": 80340
+    },
+    {
+      "epoch": 13.106851549755302,
+      "grad_norm": 0.009608942084014416,
+      "learning_rate": 0.0003202712403069141,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 173548160,
+      "step": 80345
+    },
+    {
+      "epoch": 13.107667210440457,
+      "grad_norm": 0.010670358315110207,
+      "learning_rate": 0.00032020481986181606,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 173559776,
+      "step": 80350
+    },
+    {
+      "epoch": 13.108482871125611,
+      "grad_norm": 0.019212661311030388,
+      "learning_rate": 0.0003201384030604957,
+      "loss": 0.0661,
+      "num_input_tokens_seen": 173570368,
+      "step": 80355
+    },
+    {
+      "epoch": 13.109298531810767,
+      "grad_norm": 0.3519008159637451,
+      "learning_rate": 0.0003200719899042985,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 173581792,
+      "step": 80360
+    },
+    {
+      "epoch": 13.11011419249592,
+      "grad_norm": 0.09790132939815521,
+      "learning_rate": 0.00032000558039457094,
+      "loss": 0.011,
+      "num_input_tokens_seen": 173592928,
+      "step": 80365
+    },
+    {
+      "epoch": 13.110929853181077,
+      "grad_norm": 0.008577114902436733,
+      "learning_rate": 0.0003199391745326585,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 173604032,
+      "step": 80370
+    },
+    {
+      "epoch": 13.111745513866232,
+      "grad_norm": 0.006519824266433716,
+      "learning_rate": 0.0003198727723199072,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 173614848,
+      "step": 80375
+    },
+    {
+      "epoch": 13.112561174551386,
+      "grad_norm": 0.001890502288006246,
+      "learning_rate": 0.0003198063737576625,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 173625472,
+      "step": 80380
+    },
+    {
+      "epoch": 13.113376835236542,
+      "grad_norm": 0.2293672114610672,
+      "learning_rate": 0.0003197399788472705,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 173637376,
+      "step": 80385
+    },
+    {
+      "epoch": 13.114192495921696,
+      "grad_norm": 0.005673011764883995,
+      "learning_rate": 0.0003196735875900762,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 173648800,
+      "step": 80390
+    },
+    {
+      "epoch": 13.115008156606851,
+      "grad_norm": 0.004373501054942608,
+      "learning_rate": 0.00031960719998742567,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 173659200,
+      "step": 80395
+    },
+    {
+      "epoch": 13.115823817292007,
+      "grad_norm": 0.024961533024907112,
+      "learning_rate": 0.0003195408160406638,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 173671168,
+      "step": 80400
+    },
+    {
+      "epoch": 13.116639477977161,
+      "grad_norm": 0.0037182255182415247,
+      "learning_rate": 0.00031947443575113655,
+      "loss": 0.011,
+      "num_input_tokens_seen": 173681280,
+      "step": 80405
+    },
+    {
+      "epoch": 13.117455138662317,
+      "grad_norm": 0.023325273767113686,
+      "learning_rate": 0.00031940805912018854,
+      "loss": 0.1272,
+      "num_input_tokens_seen": 173693024,
+      "step": 80410
+    },
+    {
+      "epoch": 13.11827079934747,
+      "grad_norm": 0.005407822318375111,
+      "learning_rate": 0.0003193416861491656,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 173702944,
+      "step": 80415
+    },
+    {
+      "epoch": 13.119086460032626,
+      "grad_norm": 0.013056616298854351,
+      "learning_rate": 0.00031927531683941234,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 173714592,
+      "step": 80420
+    },
+    {
+      "epoch": 13.119902120717782,
+      "grad_norm": 0.016717007383704185,
+      "learning_rate": 0.0003192089511922742,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 173726592,
+      "step": 80425
+    },
+    {
+      "epoch": 13.120717781402936,
+      "grad_norm": 0.2105436474084854,
+      "learning_rate": 0.0003191425892090959,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 173736896,
+      "step": 80430
+    },
+    {
+      "epoch": 13.121533442088092,
+      "grad_norm": 0.03821544349193573,
+      "learning_rate": 0.0003190762308912226,
+      "loss": 0.0942,
+      "num_input_tokens_seen": 173748352,
+      "step": 80435
+    },
+    {
+      "epoch": 13.122349102773246,
+      "grad_norm": 0.019991006702184677,
+      "learning_rate": 0.0003190098762399989,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 173759616,
+      "step": 80440
+    },
+    {
+      "epoch": 13.123164763458401,
+      "grad_norm": 0.007260370999574661,
+      "learning_rate": 0.0003189435252567697,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 173769632,
+      "step": 80445
+    },
+    {
+      "epoch": 13.123980424143557,
+      "grad_norm": 0.006024550646543503,
+      "learning_rate": 0.00031887717794287963,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 173780992,
+      "step": 80450
+    },
+    {
+      "epoch": 13.124796084828711,
+      "grad_norm": 0.001860006363131106,
+      "learning_rate": 0.0003188108342996732,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 173792128,
+      "step": 80455
+    },
+    {
+      "epoch": 13.125611745513867,
+      "grad_norm": 0.008678854443132877,
+      "learning_rate": 0.0003187444943284953,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 173802656,
+      "step": 80460
+    },
+    {
+      "epoch": 13.12642740619902,
+      "grad_norm": 0.006701524835079908,
+      "learning_rate": 0.00031867815803068996,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 173813792,
+      "step": 80465
+    },
+    {
+      "epoch": 13.127243066884176,
+      "grad_norm": 0.0022508781403303146,
+      "learning_rate": 0.0003186118254076018,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 173824800,
+      "step": 80470
+    },
+    {
+      "epoch": 13.12805872756933,
+      "grad_norm": 0.02744651958346367,
+      "learning_rate": 0.00031854549646057517,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 173835168,
+      "step": 80475
+    },
+    {
+      "epoch": 13.128874388254486,
+      "grad_norm": 0.544084370136261,
+      "learning_rate": 0.00031847917119095425,
+      "loss": 0.1083,
+      "num_input_tokens_seen": 173847168,
+      "step": 80480
+    },
+    {
+      "epoch": 13.129690048939642,
+      "grad_norm": 0.05963525548577309,
+      "learning_rate": 0.0003184128496000832,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 173857120,
+      "step": 80485
+    },
+    {
+      "epoch": 13.130505709624796,
+      "grad_norm": 0.005323616787791252,
+      "learning_rate": 0.00031834653168930614,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 173868064,
+      "step": 80490
+    },
+    {
+      "epoch": 13.131321370309951,
+      "grad_norm": 0.11876530200242996,
+      "learning_rate": 0.0003182802174599669,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 173878560,
+      "step": 80495
+    },
+    {
+      "epoch": 13.132137030995105,
+      "grad_norm": 0.011408278718590736,
+      "learning_rate": 0.00031821390691340985,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 173890176,
+      "step": 80500
+    },
+    {
+      "epoch": 13.132952691680261,
+      "grad_norm": 0.007186530157923698,
+      "learning_rate": 0.0003181476000509783,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 173900928,
+      "step": 80505
+    },
+    {
+      "epoch": 13.133768352365417,
+      "grad_norm": 0.06655506044626236,
+      "learning_rate": 0.00031808129687401664,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 173912128,
+      "step": 80510
+    },
+    {
+      "epoch": 13.13458401305057,
+      "grad_norm": 0.0020698008593171835,
+      "learning_rate": 0.00031801499738386797,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 173923200,
+      "step": 80515
+    },
+    {
+      "epoch": 13.135399673735726,
+      "grad_norm": 0.00747555959969759,
+      "learning_rate": 0.0003179487015818765,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 173933120,
+      "step": 80520
+    },
+    {
+      "epoch": 13.13621533442088,
+      "grad_norm": 0.12066885083913803,
+      "learning_rate": 0.00031788240946938534,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 173944160,
+      "step": 80525
+    },
+    {
+      "epoch": 13.137030995106036,
+      "grad_norm": 0.047779396176338196,
+      "learning_rate": 0.00031781612104773836,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 173955040,
+      "step": 80530
+    },
+    {
+      "epoch": 13.137846655791192,
+      "grad_norm": 0.021179448813199997,
+      "learning_rate": 0.00031774983631827866,
+      "loss": 0.004,
+      "num_input_tokens_seen": 173966272,
+      "step": 80535
+    },
+    {
+      "epoch": 13.138662316476346,
+      "grad_norm": 0.002796266693621874,
+      "learning_rate": 0.00031768355528234986,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 173976352,
+      "step": 80540
+    },
+    {
+      "epoch": 13.139477977161501,
+      "grad_norm": 0.0028553269803524017,
+      "learning_rate": 0.0003176172779412949,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 173987008,
+      "step": 80545
+    },
+    {
+      "epoch": 13.140293637846655,
+      "grad_norm": 0.07305045425891876,
+      "learning_rate": 0.00031755100429645746,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 173997856,
+      "step": 80550
+    },
+    {
+      "epoch": 13.141109298531811,
+      "grad_norm": 0.15813440084457397,
+      "learning_rate": 0.00031748473434918014,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 174009120,
+      "step": 80555
+    },
+    {
+      "epoch": 13.141924959216965,
+      "grad_norm": 0.4499052166938782,
+      "learning_rate": 0.0003174184681008061,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 174019776,
+      "step": 80560
+    },
+    {
+      "epoch": 13.14274061990212,
+      "grad_norm": 0.006134378258138895,
+      "learning_rate": 0.00031735220555267874,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 174030816,
+      "step": 80565
+    },
+    {
+      "epoch": 13.143556280587276,
+      "grad_norm": 0.013704081997275352,
+      "learning_rate": 0.0003172859467061404,
+      "loss": 0.0618,
+      "num_input_tokens_seen": 174041472,
+      "step": 80570
+    },
+    {
+      "epoch": 13.14437194127243,
+      "grad_norm": 0.0008135527605190873,
+      "learning_rate": 0.0003172196915625344,
+      "loss": 0.002,
+      "num_input_tokens_seen": 174054368,
+      "step": 80575
+    },
+    {
+      "epoch": 13.145187601957586,
+      "grad_norm": 0.024581970646977425,
+      "learning_rate": 0.0003171534401232029,
+      "loss": 0.0936,
+      "num_input_tokens_seen": 174065504,
+      "step": 80580
+    },
+    {
+      "epoch": 13.14600326264274,
+      "grad_norm": 0.022131305187940598,
+      "learning_rate": 0.0003170871923894892,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 174075744,
+      "step": 80585
+    },
+    {
+      "epoch": 13.146818923327896,
+      "grad_norm": 0.028195692226290703,
+      "learning_rate": 0.0003170209483627353,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 174085920,
+      "step": 80590
+    },
+    {
+      "epoch": 13.147634584013051,
+      "grad_norm": 0.08796575665473938,
+      "learning_rate": 0.00031695470804428427,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 174095968,
+      "step": 80595
+    },
+    {
+      "epoch": 13.148450244698205,
+      "grad_norm": 0.005800274666398764,
+      "learning_rate": 0.0003168884714354781,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 174106496,
+      "step": 80600
+    },
+    {
+      "epoch": 13.149265905383361,
+      "grad_norm": 0.6200029850006104,
+      "learning_rate": 0.0003168222385376596,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 174116256,
+      "step": 80605
+    },
+    {
+      "epoch": 13.150081566068515,
+      "grad_norm": 0.02263057976961136,
+      "learning_rate": 0.0003167560093521705,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 174127648,
+      "step": 80610
+    },
+    {
+      "epoch": 13.15089722675367,
+      "grad_norm": 0.002096653450280428,
+      "learning_rate": 0.00031668978388035347,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 174137856,
+      "step": 80615
+    },
+    {
+      "epoch": 13.151712887438826,
+      "grad_norm": 0.00246584415435791,
+      "learning_rate": 0.0003166235621235505,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 174148160,
+      "step": 80620
+    },
+    {
+      "epoch": 13.15252854812398,
+      "grad_norm": 0.15061096847057343,
+      "learning_rate": 0.00031655734408310367,
+      "loss": 0.026,
+      "num_input_tokens_seen": 174158144,
+      "step": 80625
+    },
+    {
+      "epoch": 13.153344208809136,
+      "grad_norm": 0.03953423351049423,
+      "learning_rate": 0.000316491129760355,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 174168096,
+      "step": 80630
+    },
+    {
+      "epoch": 13.15415986949429,
+      "grad_norm": 0.002793251071125269,
+      "learning_rate": 0.0003164249191566464,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 174178752,
+      "step": 80635
+    },
+    {
+      "epoch": 13.154975530179446,
+      "grad_norm": 0.00592702254652977,
+      "learning_rate": 0.00031635871227331957,
+      "loss": 0.0725,
+      "num_input_tokens_seen": 174190720,
+      "step": 80640
+    },
+    {
+      "epoch": 13.1557911908646,
+      "grad_norm": 0.04241395369172096,
+      "learning_rate": 0.00031629250911171657,
+      "loss": 0.004,
+      "num_input_tokens_seen": 174202080,
+      "step": 80645
+    },
+    {
+      "epoch": 13.156606851549755,
+      "grad_norm": 0.014272456057369709,
+      "learning_rate": 0.0003162263096731788,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 174213728,
+      "step": 80650
+    },
+    {
+      "epoch": 13.15742251223491,
+      "grad_norm": 0.013360538519918919,
+      "learning_rate": 0.0003161601139590482,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 174224320,
+      "step": 80655
+    },
+    {
+      "epoch": 13.158238172920065,
+      "grad_norm": 0.4321325123310089,
+      "learning_rate": 0.0003160939219706658,
+      "loss": 0.1981,
+      "num_input_tokens_seen": 174235808,
+      "step": 80660
+    },
+    {
+      "epoch": 13.15905383360522,
+      "grad_norm": 0.004693038295954466,
+      "learning_rate": 0.00031602773370937345,
+      "loss": 0.002,
+      "num_input_tokens_seen": 174246848,
+      "step": 80665
+    },
+    {
+      "epoch": 13.159869494290374,
+      "grad_norm": 0.005606858525425196,
+      "learning_rate": 0.00031596154917651266,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 174258720,
+      "step": 80670
+    },
+    {
+      "epoch": 13.16068515497553,
+      "grad_norm": 0.04412202537059784,
+      "learning_rate": 0.0003158953683734244,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 174268736,
+      "step": 80675
+    },
+    {
+      "epoch": 13.161500815660686,
+      "grad_norm": 0.04025116190314293,
+      "learning_rate": 0.00031582919130145016,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 174279136,
+      "step": 80680
+    },
+    {
+      "epoch": 13.16231647634584,
+      "grad_norm": 0.01368759199976921,
+      "learning_rate": 0.0003157630179619308,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 174291168,
+      "step": 80685
+    },
+    {
+      "epoch": 13.163132137030995,
+      "grad_norm": 0.03054218553006649,
+      "learning_rate": 0.00031569684835620784,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 174301440,
+      "step": 80690
+    },
+    {
+      "epoch": 13.16394779771615,
+      "grad_norm": 0.04629860818386078,
+      "learning_rate": 0.00031563068248562185,
+      "loss": 0.011,
+      "num_input_tokens_seen": 174312640,
+      "step": 80695
+    },
+    {
+      "epoch": 13.164763458401305,
+      "grad_norm": 0.019359026104211807,
+      "learning_rate": 0.00031556452035151416,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 174322880,
+      "step": 80700
+    },
+    {
+      "epoch": 13.16557911908646,
+      "grad_norm": 0.029904767870903015,
+      "learning_rate": 0.00031549836195522517,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 174333600,
+      "step": 80705
+    },
+    {
+      "epoch": 13.166394779771615,
+      "grad_norm": 0.0014057289808988571,
+      "learning_rate": 0.00031543220729809626,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 174344256,
+      "step": 80710
+    },
+    {
+      "epoch": 13.16721044045677,
+      "grad_norm": 0.002946326043456793,
+      "learning_rate": 0.00031536605638146756,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 174353888,
+      "step": 80715
+    },
+    {
+      "epoch": 13.168026101141924,
+      "grad_norm": 0.0019200635142624378,
+      "learning_rate": 0.0003152999092066801,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 174365312,
+      "step": 80720
+    },
+    {
+      "epoch": 13.16884176182708,
+      "grad_norm": 0.003745671361684799,
+      "learning_rate": 0.0003152337657750741,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 174375168,
+      "step": 80725
+    },
+    {
+      "epoch": 13.169657422512234,
+      "grad_norm": 0.0020364460069686174,
+      "learning_rate": 0.00031516762608799047,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 174387264,
+      "step": 80730
+    },
+    {
+      "epoch": 13.17047308319739,
+      "grad_norm": 0.052907831966876984,
+      "learning_rate": 0.0003151014901467691,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 174397152,
+      "step": 80735
+    },
+    {
+      "epoch": 13.171288743882545,
+      "grad_norm": 0.017299756407737732,
+      "learning_rate": 0.00031503535795275096,
+      "loss": 0.0206,
+      "num_input_tokens_seen": 174407136,
+      "step": 80740
+    },
+    {
+      "epoch": 13.1721044045677,
+      "grad_norm": 0.058468643575906754,
+      "learning_rate": 0.00031496922950727556,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 174416896,
+      "step": 80745
+    },
+    {
+      "epoch": 13.172920065252855,
+      "grad_norm": 0.016621742397546768,
+      "learning_rate": 0.00031490310481168375,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 174426976,
+      "step": 80750
+    },
+    {
+      "epoch": 13.173735725938009,
+      "grad_norm": 0.0437234528362751,
+      "learning_rate": 0.0003148369838673151,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 174436544,
+      "step": 80755
+    },
+    {
+      "epoch": 13.174551386623165,
+      "grad_norm": 0.006686724256724119,
+      "learning_rate": 0.00031477086667551003,
+      "loss": 0.014,
+      "num_input_tokens_seen": 174447040,
+      "step": 80760
+    },
+    {
+      "epoch": 13.17536704730832,
+      "grad_norm": 0.007379279471933842,
+      "learning_rate": 0.00031470475323760826,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 174456640,
+      "step": 80765
+    },
+    {
+      "epoch": 13.176182707993474,
+      "grad_norm": 0.004275395534932613,
+      "learning_rate": 0.0003146386435549496,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 174467328,
+      "step": 80770
+    },
+    {
+      "epoch": 13.17699836867863,
+      "grad_norm": 0.014936030842363834,
+      "learning_rate": 0.0003145725376288742,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 174478176,
+      "step": 80775
+    },
+    {
+      "epoch": 13.177814029363784,
+      "grad_norm": 0.0015776983927935362,
+      "learning_rate": 0.00031450643546072145,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 174490432,
+      "step": 80780
+    },
+    {
+      "epoch": 13.17862969004894,
+      "grad_norm": 0.3135847747325897,
+      "learning_rate": 0.0003144403370518311,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 174501120,
+      "step": 80785
+    },
+    {
+      "epoch": 13.179445350734095,
+      "grad_norm": 0.012622885406017303,
+      "learning_rate": 0.00031437424240354274,
+      "loss": 0.1161,
+      "num_input_tokens_seen": 174511232,
+      "step": 80790
+    },
+    {
+      "epoch": 13.18026101141925,
+      "grad_norm": 0.10842663049697876,
+      "learning_rate": 0.00031430815151719583,
+      "loss": 0.124,
+      "num_input_tokens_seen": 174521664,
+      "step": 80795
+    },
+    {
+      "epoch": 13.181076672104405,
+      "grad_norm": 0.15451642870903015,
+      "learning_rate": 0.00031424206439412984,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 174531424,
+      "step": 80800
+    },
+    {
+      "epoch": 13.181892332789559,
+      "grad_norm": 0.04291224852204323,
+      "learning_rate": 0.00031417598103568404,
+      "loss": 0.025,
+      "num_input_tokens_seen": 174542016,
+      "step": 80805
+    },
+    {
+      "epoch": 13.182707993474715,
+      "grad_norm": 0.2300167977809906,
+      "learning_rate": 0.00031410990144319756,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 174553088,
+      "step": 80810
+    },
+    {
+      "epoch": 13.18352365415987,
+      "grad_norm": 0.001681014895439148,
+      "learning_rate": 0.00031404382561801006,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 174563840,
+      "step": 80815
+    },
+    {
+      "epoch": 13.184339314845024,
+      "grad_norm": 0.007472775410860777,
+      "learning_rate": 0.00031397775356146004,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 174575648,
+      "step": 80820
+    },
+    {
+      "epoch": 13.18515497553018,
+      "grad_norm": 0.0014233127003535628,
+      "learning_rate": 0.000313911685274887,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 174587392,
+      "step": 80825
+    },
+    {
+      "epoch": 13.185970636215334,
+      "grad_norm": 0.003380796406418085,
+      "learning_rate": 0.0003138456207596296,
+      "loss": 0.0472,
+      "num_input_tokens_seen": 174598912,
+      "step": 80830
+    },
+    {
+      "epoch": 13.18678629690049,
+      "grad_norm": 0.004419084172695875,
+      "learning_rate": 0.0003137795600170271,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 174610112,
+      "step": 80835
+    },
+    {
+      "epoch": 13.187601957585644,
+      "grad_norm": 0.0024323707912117243,
+      "learning_rate": 0.0003137135030484177,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 174620928,
+      "step": 80840
+    },
+    {
+      "epoch": 13.1884176182708,
+      "grad_norm": 0.0012152445269748569,
+      "learning_rate": 0.00031364744985514084,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 174631712,
+      "step": 80845
+    },
+    {
+      "epoch": 13.189233278955955,
+      "grad_norm": 0.02515444904565811,
+      "learning_rate": 0.00031358140043853455,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 174642176,
+      "step": 80850
+    },
+    {
+      "epoch": 13.190048939641109,
+      "grad_norm": 0.0368582084774971,
+      "learning_rate": 0.00031351535479993785,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 174653152,
+      "step": 80855
+    },
+    {
+      "epoch": 13.190864600326265,
+      "grad_norm": 0.022137103602290154,
+      "learning_rate": 0.0003134493129406889,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 174664160,
+      "step": 80860
+    },
+    {
+      "epoch": 13.191680261011419,
+      "grad_norm": 0.003924847114831209,
+      "learning_rate": 0.00031338327486212647,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 174674432,
+      "step": 80865
+    },
+    {
+      "epoch": 13.192495921696574,
+      "grad_norm": 0.002630516653880477,
+      "learning_rate": 0.00031331724056558847,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 174685088,
+      "step": 80870
+    },
+    {
+      "epoch": 13.19331158238173,
+      "grad_norm": 0.011913495138287544,
+      "learning_rate": 0.0003132512100524134,
+      "loss": 0.0735,
+      "num_input_tokens_seen": 174696256,
+      "step": 80875
+    },
+    {
+      "epoch": 13.194127243066884,
+      "grad_norm": 0.0055811344645917416,
+      "learning_rate": 0.00031318518332393975,
+      "loss": 0.011,
+      "num_input_tokens_seen": 174707328,
+      "step": 80880
+    },
+    {
+      "epoch": 13.19494290375204,
+      "grad_norm": 0.003324878169223666,
+      "learning_rate": 0.0003131191603815051,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 174717248,
+      "step": 80885
+    },
+    {
+      "epoch": 13.195758564437194,
+      "grad_norm": 0.010468652471899986,
+      "learning_rate": 0.000313053141226448,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 174728160,
+      "step": 80890
+    },
+    {
+      "epoch": 13.19657422512235,
+      "grad_norm": 0.004916087724268436,
+      "learning_rate": 0.0003129871258601059,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 174738688,
+      "step": 80895
+    },
+    {
+      "epoch": 13.197389885807505,
+      "grad_norm": 0.05585349351167679,
+      "learning_rate": 0.0003129211142838171,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 174750016,
+      "step": 80900
+    },
+    {
+      "epoch": 13.198205546492659,
+      "grad_norm": 0.0034299406688660383,
+      "learning_rate": 0.0003128551064989191,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 174759456,
+      "step": 80905
+    },
+    {
+      "epoch": 13.199021207177815,
+      "grad_norm": 0.33458200097084045,
+      "learning_rate": 0.00031278910250674994,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 174769440,
+      "step": 80910
+    },
+    {
+      "epoch": 13.199836867862969,
+      "grad_norm": 0.009169838391244411,
+      "learning_rate": 0.00031272310230864695,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 174779488,
+      "step": 80915
+    },
+    {
+      "epoch": 13.200652528548124,
+      "grad_norm": 0.01070548314601183,
+      "learning_rate": 0.0003126571059059481,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 174790048,
+      "step": 80920
+    },
+    {
+      "epoch": 13.201468189233278,
+      "grad_norm": 0.013349352404475212,
+      "learning_rate": 0.00031259111329999035,
+      "loss": 0.003,
+      "num_input_tokens_seen": 174801056,
+      "step": 80925
+    },
+    {
+      "epoch": 13.202283849918434,
+      "grad_norm": 0.0030847955495119095,
+      "learning_rate": 0.00031252512449211163,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 174811872,
+      "step": 80930
+    },
+    {
+      "epoch": 13.20309951060359,
+      "grad_norm": 0.2001817226409912,
+      "learning_rate": 0.0003124591394836491,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 174822464,
+      "step": 80935
+    },
+    {
+      "epoch": 13.203915171288743,
+      "grad_norm": 0.009598773904144764,
+      "learning_rate": 0.00031239315827593994,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 174833984,
+      "step": 80940
+    },
+    {
+      "epoch": 13.2047308319739,
+      "grad_norm": 0.0008926258306019008,
+      "learning_rate": 0.0003123271808703215,
+      "loss": 0.008,
+      "num_input_tokens_seen": 174844608,
+      "step": 80945
+    },
+    {
+      "epoch": 13.205546492659053,
+      "grad_norm": 0.00110113644041121,
+      "learning_rate": 0.0003122612072681308,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 174856000,
+      "step": 80950
+    },
+    {
+      "epoch": 13.206362153344209,
+      "grad_norm": 0.044156067073345184,
+      "learning_rate": 0.00031219523747070475,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 174867200,
+      "step": 80955
+    },
+    {
+      "epoch": 13.207177814029365,
+      "grad_norm": 0.24586060643196106,
+      "learning_rate": 0.00031212927147938066,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 174877312,
+      "step": 80960
+    },
+    {
+      "epoch": 13.207993474714518,
+      "grad_norm": 0.008321182802319527,
+      "learning_rate": 0.0003120633092954951,
+      "loss": 0.002,
+      "num_input_tokens_seen": 174888960,
+      "step": 80965
+    },
+    {
+      "epoch": 13.208809135399674,
+      "grad_norm": 0.0031696436926722527,
+      "learning_rate": 0.0003119973509203851,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 174900448,
+      "step": 80970
+    },
+    {
+      "epoch": 13.209624796084828,
+      "grad_norm": 0.0024241674691438675,
+      "learning_rate": 0.00031193139635538714,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 174910208,
+      "step": 80975
+    },
+    {
+      "epoch": 13.210440456769984,
+      "grad_norm": 0.0023144527804106474,
+      "learning_rate": 0.00031186544560183796,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 174921664,
+      "step": 80980
+    },
+    {
+      "epoch": 13.21125611745514,
+      "grad_norm": 0.0020555031951516867,
+      "learning_rate": 0.00031179949866107443,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 174932416,
+      "step": 80985
+    },
+    {
+      "epoch": 13.212071778140293,
+      "grad_norm": 0.005608719773590565,
+      "learning_rate": 0.0003117335555344326,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 174942048,
+      "step": 80990
+    },
+    {
+      "epoch": 13.21288743882545,
+      "grad_norm": 0.07525213807821274,
+      "learning_rate": 0.00031166761622324936,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 174952960,
+      "step": 80995
+    },
+    {
+      "epoch": 13.213703099510603,
+      "grad_norm": 0.005778506398200989,
+      "learning_rate": 0.00031160168072886054,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 174963392,
+      "step": 81000
+    },
+    {
+      "epoch": 13.214518760195759,
+      "grad_norm": 0.22658313810825348,
+      "learning_rate": 0.00031153574905260287,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 174974624,
+      "step": 81005
+    },
+    {
+      "epoch": 13.215334420880913,
+      "grad_norm": 0.001897740876302123,
+      "learning_rate": 0.000311469821195812,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 174985024,
+      "step": 81010
+    },
+    {
+      "epoch": 13.216150081566068,
+      "grad_norm": 0.03674355894327164,
+      "learning_rate": 0.00031140389715982476,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 174995104,
+      "step": 81015
+    },
+    {
+      "epoch": 13.216965742251224,
+      "grad_norm": 0.47961094975471497,
+      "learning_rate": 0.00031133797694597655,
+      "loss": 0.127,
+      "num_input_tokens_seen": 175006464,
+      "step": 81020
+    },
+    {
+      "epoch": 13.217781402936378,
+      "grad_norm": 0.012490352615714073,
+      "learning_rate": 0.0003112720605556037,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 175017280,
+      "step": 81025
+    },
+    {
+      "epoch": 13.218597063621534,
+      "grad_norm": 0.00828443095088005,
+      "learning_rate": 0.00031120614799004184,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 175028800,
+      "step": 81030
+    },
+    {
+      "epoch": 13.219412724306688,
+      "grad_norm": 0.0018339533125981688,
+      "learning_rate": 0.0003111402392506271,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 175036800,
+      "step": 81035
+    },
+    {
+      "epoch": 13.220228384991843,
+      "grad_norm": 0.5048210024833679,
+      "learning_rate": 0.0003110743343386947,
+      "loss": 0.048,
+      "num_input_tokens_seen": 175047840,
+      "step": 81040
+    },
+    {
+      "epoch": 13.221044045676999,
+      "grad_norm": 0.007345435209572315,
+      "learning_rate": 0.0003110084332555808,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 175059552,
+      "step": 81045
+    },
+    {
+      "epoch": 13.221859706362153,
+      "grad_norm": 0.4212218225002289,
+      "learning_rate": 0.00031094253600262063,
+      "loss": 0.1887,
+      "num_input_tokens_seen": 175070400,
+      "step": 81050
+    },
+    {
+      "epoch": 13.222675367047309,
+      "grad_norm": 0.0020032948814332485,
+      "learning_rate": 0.00031087664258115,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 175080992,
+      "step": 81055
+    },
+    {
+      "epoch": 13.223491027732463,
+      "grad_norm": 0.017578184604644775,
+      "learning_rate": 0.0003108107529925038,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 175090976,
+      "step": 81060
+    },
+    {
+      "epoch": 13.224306688417618,
+      "grad_norm": 0.005086452234536409,
+      "learning_rate": 0.0003107448672380181,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 175101408,
+      "step": 81065
+    },
+    {
+      "epoch": 13.225122349102774,
+      "grad_norm": 0.003535451367497444,
+      "learning_rate": 0.0003106789853190274,
+      "loss": 0.007,
+      "num_input_tokens_seen": 175110912,
+      "step": 81070
+    },
+    {
+      "epoch": 13.225938009787928,
+      "grad_norm": 0.08481805771589279,
+      "learning_rate": 0.0003106131072368674,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 175122112,
+      "step": 81075
+    },
+    {
+      "epoch": 13.226753670473084,
+      "grad_norm": 0.03594028204679489,
+      "learning_rate": 0.00031054723299287303,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 175131808,
+      "step": 81080
+    },
+    {
+      "epoch": 13.227569331158238,
+      "grad_norm": 0.0058160750195384026,
+      "learning_rate": 0.00031048136258837923,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 175142752,
+      "step": 81085
+    },
+    {
+      "epoch": 13.228384991843393,
+      "grad_norm": 0.3698887228965759,
+      "learning_rate": 0.0003104154960247211,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 175152928,
+      "step": 81090
+    },
+    {
+      "epoch": 13.229200652528547,
+      "grad_norm": 0.24206924438476562,
+      "learning_rate": 0.0003103496333032334,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 175164352,
+      "step": 81095
+    },
+    {
+      "epoch": 13.230016313213703,
+      "grad_norm": 0.001961946953088045,
+      "learning_rate": 0.00031028377442525104,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 175175840,
+      "step": 81100
+    },
+    {
+      "epoch": 13.230831973898859,
+      "grad_norm": 0.025502916425466537,
+      "learning_rate": 0.0003102179193921086,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 175186848,
+      "step": 81105
+    },
+    {
+      "epoch": 13.231647634584013,
+      "grad_norm": 0.05788380652666092,
+      "learning_rate": 0.00031015206820514087,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 175197888,
+      "step": 81110
+    },
+    {
+      "epoch": 13.232463295269168,
+      "grad_norm": 0.010292734019458294,
+      "learning_rate": 0.0003100862208656823,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 175208000,
+      "step": 81115
+    },
+    {
+      "epoch": 13.233278955954322,
+      "grad_norm": 0.006660535931587219,
+      "learning_rate": 0.0003100203773750674,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 175219008,
+      "step": 81120
+    },
+    {
+      "epoch": 13.234094616639478,
+      "grad_norm": 0.003208763664588332,
+      "learning_rate": 0.00030995453773463035,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 175229728,
+      "step": 81125
+    },
+    {
+      "epoch": 13.234910277324634,
+      "grad_norm": 0.013174341060221195,
+      "learning_rate": 0.00030988870194570596,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 175241536,
+      "step": 81130
+    },
+    {
+      "epoch": 13.235725938009788,
+      "grad_norm": 0.00958284828811884,
+      "learning_rate": 0.00030982287000962805,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 175252992,
+      "step": 81135
+    },
+    {
+      "epoch": 13.236541598694943,
+      "grad_norm": 0.0013074814341962337,
+      "learning_rate": 0.000309757041927731,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 175263424,
+      "step": 81140
+    },
+    {
+      "epoch": 13.237357259380097,
+      "grad_norm": 0.02158118039369583,
+      "learning_rate": 0.00030969121770134877,
+      "loss": 0.01,
+      "num_input_tokens_seen": 175274304,
+      "step": 81145
+    },
+    {
+      "epoch": 13.238172920065253,
+      "grad_norm": 0.011400923132896423,
+      "learning_rate": 0.0003096253973318156,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 175284864,
+      "step": 81150
+    },
+    {
+      "epoch": 13.238988580750409,
+      "grad_norm": 0.00538475438952446,
+      "learning_rate": 0.000309559580820465,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 175295488,
+      "step": 81155
+    },
+    {
+      "epoch": 13.239804241435563,
+      "grad_norm": 0.013732331804931164,
+      "learning_rate": 0.0003094937681686314,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 175305216,
+      "step": 81160
+    },
+    {
+      "epoch": 13.240619902120718,
+      "grad_norm": 0.05636392906308174,
+      "learning_rate": 0.00030942795937764794,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 175316832,
+      "step": 81165
+    },
+    {
+      "epoch": 13.241435562805872,
+      "grad_norm": 0.0052260602824389935,
+      "learning_rate": 0.00030936215444884893,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 175328480,
+      "step": 81170
+    },
+    {
+      "epoch": 13.242251223491028,
+      "grad_norm": 0.005099338013678789,
+      "learning_rate": 0.00030929635338356745,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 175340736,
+      "step": 81175
+    },
+    {
+      "epoch": 13.243066884176184,
+      "grad_norm": 0.000985561404377222,
+      "learning_rate": 0.0003092305561831375,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 175351072,
+      "step": 81180
+    },
+    {
+      "epoch": 13.243882544861338,
+      "grad_norm": 0.0050900704227387905,
+      "learning_rate": 0.0003091647628488922,
+      "loss": 0.002,
+      "num_input_tokens_seen": 175361984,
+      "step": 81185
+    },
+    {
+      "epoch": 13.244698205546493,
+      "grad_norm": 0.06734821945428848,
+      "learning_rate": 0.0003090989733821652,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 175373120,
+      "step": 81190
+    },
+    {
+      "epoch": 13.245513866231647,
+      "grad_norm": 0.002881730208173394,
+      "learning_rate": 0.0003090331877842895,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 175385248,
+      "step": 81195
+    },
+    {
+      "epoch": 13.246329526916803,
+      "grad_norm": 0.005004175938665867,
+      "learning_rate": 0.00030896740605659845,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 175395776,
+      "step": 81200
+    },
+    {
+      "epoch": 13.247145187601957,
+      "grad_norm": 0.000822130125015974,
+      "learning_rate": 0.00030890162820042553,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 175405920,
+      "step": 81205
+    },
+    {
+      "epoch": 13.247960848287113,
+      "grad_norm": 0.33728986978530884,
+      "learning_rate": 0.00030883585421710334,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 175415936,
+      "step": 81210
+    },
+    {
+      "epoch": 13.248776508972268,
+      "grad_norm": 0.0008757903706282377,
+      "learning_rate": 0.00030877008410796526,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 175425856,
+      "step": 81215
+    },
+    {
+      "epoch": 13.249592169657422,
+      "grad_norm": 0.00804536696523428,
+      "learning_rate": 0.00030870431787434385,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 175436800,
+      "step": 81220
+    },
+    {
+      "epoch": 13.250407830342578,
+      "grad_norm": 0.3633720278739929,
+      "learning_rate": 0.00030863855551757223,
+      "loss": 0.1165,
+      "num_input_tokens_seen": 175447072,
+      "step": 81225
+    },
+    {
+      "epoch": 13.251223491027732,
+      "grad_norm": 0.15613357722759247,
+      "learning_rate": 0.0003085727970389829,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 175457472,
+      "step": 81230
+    },
+    {
+      "epoch": 13.252039151712887,
+      "grad_norm": 0.0012791818007826805,
+      "learning_rate": 0.0003085070424399089,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 175468672,
+      "step": 81235
+    },
+    {
+      "epoch": 13.252854812398043,
+      "grad_norm": 0.02506769821047783,
+      "learning_rate": 0.00030844129172168236,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 175479008,
+      "step": 81240
+    },
+    {
+      "epoch": 13.253670473083197,
+      "grad_norm": 0.002241175388917327,
+      "learning_rate": 0.0003083755448856361,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 175490144,
+      "step": 81245
+    },
+    {
+      "epoch": 13.254486133768353,
+      "grad_norm": 0.006746441125869751,
+      "learning_rate": 0.00030830980193310265,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 175501376,
+      "step": 81250
+    },
+    {
+      "epoch": 13.255301794453507,
+      "grad_norm": 0.0012192511931061745,
+      "learning_rate": 0.00030824406286541415,
+      "loss": 0.152,
+      "num_input_tokens_seen": 175511808,
+      "step": 81255
+    },
+    {
+      "epoch": 13.256117455138662,
+      "grad_norm": 0.016503628343343735,
+      "learning_rate": 0.00030817832768390306,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 175523584,
+      "step": 81260
+    },
+    {
+      "epoch": 13.256933115823816,
+      "grad_norm": 0.009415880776941776,
+      "learning_rate": 0.0003081125963899014,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 175533856,
+      "step": 81265
+    },
+    {
+      "epoch": 13.257748776508972,
+      "grad_norm": 0.039036672562360764,
+      "learning_rate": 0.0003080468689847414,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 175543840,
+      "step": 81270
+    },
+    {
+      "epoch": 13.258564437194128,
+      "grad_norm": 0.006212171167135239,
+      "learning_rate": 0.00030798114546975525,
+      "loss": 0.045,
+      "num_input_tokens_seen": 175555968,
+      "step": 81275
+    },
+    {
+      "epoch": 13.259380097879282,
+      "grad_norm": 0.06656394898891449,
+      "learning_rate": 0.00030791542584627455,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 175567424,
+      "step": 81280
+    },
+    {
+      "epoch": 13.260195758564437,
+      "grad_norm": 0.0009761211695149541,
+      "learning_rate": 0.0003078497101156317,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 175578016,
+      "step": 81285
+    },
+    {
+      "epoch": 13.261011419249591,
+      "grad_norm": 0.000771388178691268,
+      "learning_rate": 0.00030778399827915796,
+      "loss": 0.003,
+      "num_input_tokens_seen": 175588576,
+      "step": 81290
+    },
+    {
+      "epoch": 13.261827079934747,
+      "grad_norm": 0.000772759725805372,
+      "learning_rate": 0.0003077182903381856,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 175598848,
+      "step": 81295
+    },
+    {
+      "epoch": 13.262642740619903,
+      "grad_norm": 0.01377933844923973,
+      "learning_rate": 0.0003076525862940458,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 175609504,
+      "step": 81300
+    },
+    {
+      "epoch": 13.263458401305057,
+      "grad_norm": 0.6922663450241089,
+      "learning_rate": 0.00030758688614807033,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 175621184,
+      "step": 81305
+    },
+    {
+      "epoch": 13.264274061990212,
+      "grad_norm": 0.0026870991569012403,
+      "learning_rate": 0.0003075211899015909,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 175630816,
+      "step": 81310
+    },
+    {
+      "epoch": 13.265089722675366,
+      "grad_norm": 0.002322110114619136,
+      "learning_rate": 0.0003074554975559386,
+      "loss": 0.005,
+      "num_input_tokens_seen": 175640064,
+      "step": 81315
+    },
+    {
+      "epoch": 13.265905383360522,
+      "grad_norm": 0.009497624821960926,
+      "learning_rate": 0.000307389809112445,
+      "loss": 0.002,
+      "num_input_tokens_seen": 175650720,
+      "step": 81320
+    },
+    {
+      "epoch": 13.266721044045678,
+      "grad_norm": 0.015067550353705883,
+      "learning_rate": 0.0003073241245724411,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 175661920,
+      "step": 81325
+    },
+    {
+      "epoch": 13.267536704730832,
+      "grad_norm": 0.006270645186305046,
+      "learning_rate": 0.00030725844393725846,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 175672224,
+      "step": 81330
+    },
+    {
+      "epoch": 13.268352365415987,
+      "grad_norm": 0.016796309500932693,
+      "learning_rate": 0.00030719276720822774,
+      "loss": 0.0499,
+      "num_input_tokens_seen": 175681792,
+      "step": 81335
+    },
+    {
+      "epoch": 13.269168026101141,
+      "grad_norm": 1.0089938640594482,
+      "learning_rate": 0.0003071270943866804,
+      "loss": 0.0447,
+      "num_input_tokens_seen": 175692736,
+      "step": 81340
+    },
+    {
+      "epoch": 13.269983686786297,
+      "grad_norm": 0.17437076568603516,
+      "learning_rate": 0.000307061425473947,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 175705088,
+      "step": 81345
+    },
+    {
+      "epoch": 13.270799347471453,
+      "grad_norm": 0.36235466599464417,
+      "learning_rate": 0.00030699576047135875,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 175715392,
+      "step": 81350
+    },
+    {
+      "epoch": 13.271615008156607,
+      "grad_norm": 0.0024113464169204235,
+      "learning_rate": 0.0003069300993802461,
+      "loss": 0.002,
+      "num_input_tokens_seen": 175726464,
+      "step": 81355
+    },
+    {
+      "epoch": 13.272430668841762,
+      "grad_norm": 0.020136456936597824,
+      "learning_rate": 0.00030686444220194,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 175737120,
+      "step": 81360
+    },
+    {
+      "epoch": 13.273246329526916,
+      "grad_norm": 0.3934916853904724,
+      "learning_rate": 0.00030679878893777085,
+      "loss": 0.1054,
+      "num_input_tokens_seen": 175747328,
+      "step": 81365
+    },
+    {
+      "epoch": 13.274061990212072,
+      "grad_norm": 0.0014037713408470154,
+      "learning_rate": 0.0003067331395890696,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 175758784,
+      "step": 81370
+    },
+    {
+      "epoch": 13.274877650897226,
+      "grad_norm": 0.001718403771519661,
+      "learning_rate": 0.0003066674941571661,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 175770656,
+      "step": 81375
+    },
+    {
+      "epoch": 13.275693311582382,
+      "grad_norm": 0.0006151496199890971,
+      "learning_rate": 0.0003066018526433914,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 175780992,
+      "step": 81380
+    },
+    {
+      "epoch": 13.276508972267537,
+      "grad_norm": 0.0005740922060795128,
+      "learning_rate": 0.00030653621504907533,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 175791680,
+      "step": 81385
+    },
+    {
+      "epoch": 13.277324632952691,
+      "grad_norm": 0.04168350249528885,
+      "learning_rate": 0.0003064705813755483,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 175801664,
+      "step": 81390
+    },
+    {
+      "epoch": 13.278140293637847,
+      "grad_norm": 0.028292395174503326,
+      "learning_rate": 0.0003064049516241405,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 175811264,
+      "step": 81395
+    },
+    {
+      "epoch": 13.278955954323001,
+      "grad_norm": 0.012449781410396099,
+      "learning_rate": 0.00030633932579618195,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 175823616,
+      "step": 81400
+    },
+    {
+      "epoch": 13.279771615008157,
+      "grad_norm": 0.010674958117306232,
+      "learning_rate": 0.00030627370389300256,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 175834464,
+      "step": 81405
+    },
+    {
+      "epoch": 13.280587275693312,
+      "grad_norm": 0.05215312913060188,
+      "learning_rate": 0.0003062080859159323,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 175845728,
+      "step": 81410
+    },
+    {
+      "epoch": 13.281402936378466,
+      "grad_norm": 0.0022178348153829575,
+      "learning_rate": 0.0003061424718663011,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 175856576,
+      "step": 81415
+    },
+    {
+      "epoch": 13.282218597063622,
+      "grad_norm": 0.02007582038640976,
+      "learning_rate": 0.00030607686174543864,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 175867424,
+      "step": 81420
+    },
+    {
+      "epoch": 13.283034257748776,
+      "grad_norm": 0.34574416279792786,
+      "learning_rate": 0.00030601125555467456,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 175878496,
+      "step": 81425
+    },
+    {
+      "epoch": 13.283849918433932,
+      "grad_norm": 0.003219359088689089,
+      "learning_rate": 0.0003059456532953385,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 175889152,
+      "step": 81430
+    },
+    {
+      "epoch": 13.284665579119087,
+      "grad_norm": 0.029977506026625633,
+      "learning_rate": 0.00030588005496876,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 175899328,
+      "step": 81435
+    },
+    {
+      "epoch": 13.285481239804241,
+      "grad_norm": 0.0027198202442377806,
+      "learning_rate": 0.00030581446057626827,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 175908480,
+      "step": 81440
+    },
+    {
+      "epoch": 13.286296900489397,
+      "grad_norm": 0.028357025235891342,
+      "learning_rate": 0.00030574887011919306,
+      "loss": 0.0755,
+      "num_input_tokens_seen": 175918752,
+      "step": 81445
+    },
+    {
+      "epoch": 13.28711256117455,
+      "grad_norm": 0.0038904561661183834,
+      "learning_rate": 0.0003056832835988632,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 175929344,
+      "step": 81450
+    },
+    {
+      "epoch": 13.287928221859707,
+      "grad_norm": 0.004254198633134365,
+      "learning_rate": 0.00030561770101660837,
+      "loss": 0.0765,
+      "num_input_tokens_seen": 175937792,
+      "step": 81455
+    },
+    {
+      "epoch": 13.28874388254486,
+      "grad_norm": 0.010023529641330242,
+      "learning_rate": 0.0003055521223737572,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 175948960,
+      "step": 81460
+    },
+    {
+      "epoch": 13.289559543230016,
+      "grad_norm": 0.007340825628489256,
+      "learning_rate": 0.0003054865476716391,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 175960512,
+      "step": 81465
+    },
+    {
+      "epoch": 13.290375203915172,
+      "grad_norm": 0.7565301656723022,
+      "learning_rate": 0.0003054209769115827,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 175971904,
+      "step": 81470
+    },
+    {
+      "epoch": 13.291190864600326,
+      "grad_norm": 0.0019012526609003544,
+      "learning_rate": 0.0003053554100949173,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 175983136,
+      "step": 81475
+    },
+    {
+      "epoch": 13.292006525285482,
+      "grad_norm": 0.007661410607397556,
+      "learning_rate": 0.0003052898472229711,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 175994272,
+      "step": 81480
+    },
+    {
+      "epoch": 13.292822185970635,
+      "grad_norm": 0.20898938179016113,
+      "learning_rate": 0.0003052242882970735,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 176005056,
+      "step": 81485
+    },
+    {
+      "epoch": 13.293637846655791,
+      "grad_norm": 0.00497079873457551,
+      "learning_rate": 0.0003051587333185525,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 176015104,
+      "step": 81490
+    },
+    {
+      "epoch": 13.294453507340947,
+      "grad_norm": 0.011369774118065834,
+      "learning_rate": 0.00030509318228873715,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 176026080,
+      "step": 81495
+    },
+    {
+      "epoch": 13.2952691680261,
+      "grad_norm": 0.003535378258675337,
+      "learning_rate": 0.00030502763520895556,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 176036096,
+      "step": 81500
+    },
+    {
+      "epoch": 13.296084828711257,
+      "grad_norm": 0.030523095279932022,
+      "learning_rate": 0.00030496209208053643,
+      "loss": 0.004,
+      "num_input_tokens_seen": 176048128,
+      "step": 81505
+    },
+    {
+      "epoch": 13.29690048939641,
+      "grad_norm": 0.0029729788657277822,
+      "learning_rate": 0.0003048965529048078,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 176058848,
+      "step": 81510
+    },
+    {
+      "epoch": 13.297716150081566,
+      "grad_norm": 0.004624223802238703,
+      "learning_rate": 0.00030483101768309797,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 176069888,
+      "step": 81515
+    },
+    {
+      "epoch": 13.298531810766722,
+      "grad_norm": 0.05178157985210419,
+      "learning_rate": 0.00030476548641673537,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 176081216,
+      "step": 81520
+    },
+    {
+      "epoch": 13.299347471451876,
+      "grad_norm": 0.06961380690336227,
+      "learning_rate": 0.0003046999591070476,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 176092288,
+      "step": 81525
+    },
+    {
+      "epoch": 13.300163132137031,
+      "grad_norm": 0.09609808772802353,
+      "learning_rate": 0.0003046344357553632,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 176103456,
+      "step": 81530
+    },
+    {
+      "epoch": 13.300978792822185,
+      "grad_norm": 0.6587584018707275,
+      "learning_rate": 0.0003045689163630095,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 176114560,
+      "step": 81535
+    },
+    {
+      "epoch": 13.301794453507341,
+      "grad_norm": 0.043220143765211105,
+      "learning_rate": 0.000304503400931315,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 176126112,
+      "step": 81540
+    },
+    {
+      "epoch": 13.302610114192497,
+      "grad_norm": 0.0008794625173322856,
+      "learning_rate": 0.00030443788946160676,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 176137632,
+      "step": 81545
+    },
+    {
+      "epoch": 13.30342577487765,
+      "grad_norm": 0.001853870926424861,
+      "learning_rate": 0.000304372381955213,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 176148512,
+      "step": 81550
+    },
+    {
+      "epoch": 13.304241435562806,
+      "grad_norm": 0.0031397638376802206,
+      "learning_rate": 0.00030430687841346096,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 176159680,
+      "step": 81555
+    },
+    {
+      "epoch": 13.30505709624796,
+      "grad_norm": 0.013141549192368984,
+      "learning_rate": 0.00030424137883767826,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 176169568,
+      "step": 81560
+    },
+    {
+      "epoch": 13.305872756933116,
+      "grad_norm": 0.0030862074345350266,
+      "learning_rate": 0.00030417588322919243,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 176181120,
+      "step": 81565
+    },
+    {
+      "epoch": 13.30668841761827,
+      "grad_norm": 0.10375366359949112,
+      "learning_rate": 0.00030411039158933075,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 176191264,
+      "step": 81570
+    },
+    {
+      "epoch": 13.307504078303426,
+      "grad_norm": 0.0012237022165209055,
+      "learning_rate": 0.0003040449039194205,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 176202464,
+      "step": 81575
+    },
+    {
+      "epoch": 13.308319738988581,
+      "grad_norm": 0.008354654535651207,
+      "learning_rate": 0.00030397942022078884,
+      "loss": 0.0634,
+      "num_input_tokens_seen": 176213920,
+      "step": 81580
+    },
+    {
+      "epoch": 13.309135399673735,
+      "grad_norm": 0.022409193217754364,
+      "learning_rate": 0.00030391394049476275,
+      "loss": 0.002,
+      "num_input_tokens_seen": 176224672,
+      "step": 81585
+    },
+    {
+      "epoch": 13.309951060358891,
+      "grad_norm": 0.0038927465211600065,
+      "learning_rate": 0.00030384846474266965,
+      "loss": 0.0267,
+      "num_input_tokens_seen": 176234176,
+      "step": 81590
+    },
+    {
+      "epoch": 13.310766721044045,
+      "grad_norm": 0.004279454704374075,
+      "learning_rate": 0.0003037829929658361,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 176245792,
+      "step": 81595
+    },
+    {
+      "epoch": 13.3115823817292,
+      "grad_norm": 0.006501410156488419,
+      "learning_rate": 0.0003037175251655892,
+      "loss": 0.0762,
+      "num_input_tokens_seen": 176255392,
+      "step": 81600
+    },
+    {
+      "epoch": 13.312398042414356,
+      "grad_norm": 0.07710537314414978,
+      "learning_rate": 0.0003036520613432555,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 176266368,
+      "step": 81605
+    },
+    {
+      "epoch": 13.31321370309951,
+      "grad_norm": 0.01355685107409954,
+      "learning_rate": 0.0003035866015001621,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 176278080,
+      "step": 81610
+    },
+    {
+      "epoch": 13.314029363784666,
+      "grad_norm": 0.00818372517824173,
+      "learning_rate": 0.00030352114563763515,
+      "loss": 0.003,
+      "num_input_tokens_seen": 176289792,
+      "step": 81615
+    },
+    {
+      "epoch": 13.31484502446982,
+      "grad_norm": 0.39141932129859924,
+      "learning_rate": 0.00030345569375700145,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 176299840,
+      "step": 81620
+    },
+    {
+      "epoch": 13.315660685154976,
+      "grad_norm": 0.4454955458641052,
+      "learning_rate": 0.0003033902458595877,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 176310688,
+      "step": 81625
+    },
+    {
+      "epoch": 13.31647634584013,
+      "grad_norm": 0.0065238154493272305,
+      "learning_rate": 0.00030332480194671975,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 176321312,
+      "step": 81630
+    },
+    {
+      "epoch": 13.317292006525285,
+      "grad_norm": 0.0018881976138800383,
+      "learning_rate": 0.0003032593620197245,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 176333344,
+      "step": 81635
+    },
+    {
+      "epoch": 13.318107667210441,
+      "grad_norm": 0.0015710759907960892,
+      "learning_rate": 0.0003031939260799276,
+      "loss": 0.0308,
+      "num_input_tokens_seen": 176343552,
+      "step": 81640
+    },
+    {
+      "epoch": 13.318923327895595,
+      "grad_norm": 0.8399984240531921,
+      "learning_rate": 0.00030312849412865564,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 176354912,
+      "step": 81645
+    },
+    {
+      "epoch": 13.31973898858075,
+      "grad_norm": 0.366643488407135,
+      "learning_rate": 0.00030306306616723424,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 176366048,
+      "step": 81650
+    },
+    {
+      "epoch": 13.320554649265905,
+      "grad_norm": 0.031812455505132675,
+      "learning_rate": 0.00030299764219698987,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 176377120,
+      "step": 81655
+    },
+    {
+      "epoch": 13.32137030995106,
+      "grad_norm": 0.08288736641407013,
+      "learning_rate": 0.00030293222221924805,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 176387968,
+      "step": 81660
+    },
+    {
+      "epoch": 13.322185970636216,
+      "grad_norm": 0.003492532530799508,
+      "learning_rate": 0.0003028668062353349,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 176397472,
+      "step": 81665
+    },
+    {
+      "epoch": 13.32300163132137,
+      "grad_norm": 0.004395823460072279,
+      "learning_rate": 0.0003028013942465758,
+      "loss": 0.0439,
+      "num_input_tokens_seen": 176408224,
+      "step": 81670
+    },
+    {
+      "epoch": 13.323817292006526,
+      "grad_norm": 0.002135923132300377,
+      "learning_rate": 0.00030273598625429687,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 176419552,
+      "step": 81675
+    },
+    {
+      "epoch": 13.32463295269168,
+      "grad_norm": 0.002409202978014946,
+      "learning_rate": 0.00030267058225982315,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 176430272,
+      "step": 81680
+    },
+    {
+      "epoch": 13.325448613376835,
+      "grad_norm": 0.0041789524257183075,
+      "learning_rate": 0.00030260518226448064,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 176440064,
+      "step": 81685
+    },
+    {
+      "epoch": 13.326264274061991,
+      "grad_norm": 0.00487999664619565,
+      "learning_rate": 0.00030253978626959435,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 176450400,
+      "step": 81690
+    },
+    {
+      "epoch": 13.327079934747145,
+      "grad_norm": 0.00734216021373868,
+      "learning_rate": 0.00030247439427649,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 176459968,
+      "step": 81695
+    },
+    {
+      "epoch": 13.3278955954323,
+      "grad_norm": 0.0037031807005405426,
+      "learning_rate": 0.0003024090062864924,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 176470080,
+      "step": 81700
+    },
+    {
+      "epoch": 13.328711256117455,
+      "grad_norm": 0.023402415215969086,
+      "learning_rate": 0.00030234362230092705,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 176481120,
+      "step": 81705
+    },
+    {
+      "epoch": 13.32952691680261,
+      "grad_norm": 0.012723736464977264,
+      "learning_rate": 0.0003022782423211189,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 176492864,
+      "step": 81710
+    },
+    {
+      "epoch": 13.330342577487766,
+      "grad_norm": 0.01561590563505888,
+      "learning_rate": 0.0003022128663483931,
+      "loss": 0.009,
+      "num_input_tokens_seen": 176503232,
+      "step": 81715
+    },
+    {
+      "epoch": 13.33115823817292,
+      "grad_norm": 0.009133810177445412,
+      "learning_rate": 0.0003021474943840743,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 176513024,
+      "step": 81720
+    },
+    {
+      "epoch": 13.331973898858076,
+      "grad_norm": 0.0011698536109179258,
+      "learning_rate": 0.00030208212642948755,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 176524288,
+      "step": 81725
+    },
+    {
+      "epoch": 13.33278955954323,
+      "grad_norm": 0.3569418489933014,
+      "learning_rate": 0.0003020167624859577,
+      "loss": 0.018,
+      "num_input_tokens_seen": 176535744,
+      "step": 81730
+    },
+    {
+      "epoch": 13.333605220228385,
+      "grad_norm": 0.13893947005271912,
+      "learning_rate": 0.00030195140255480927,
+      "loss": 0.008,
+      "num_input_tokens_seen": 176546848,
+      "step": 81735
+    },
+    {
+      "epoch": 13.33442088091354,
+      "grad_norm": 0.004899358842521906,
+      "learning_rate": 0.0003018860466373669,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 176558336,
+      "step": 81740
+    },
+    {
+      "epoch": 13.335236541598695,
+      "grad_norm": 0.006934888660907745,
+      "learning_rate": 0.0003018206947349551,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 176570304,
+      "step": 81745
+    },
+    {
+      "epoch": 13.33605220228385,
+      "grad_norm": 0.6603171825408936,
+      "learning_rate": 0.00030175534684889836,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 176580224,
+      "step": 81750
+    },
+    {
+      "epoch": 13.336867862969005,
+      "grad_norm": 0.07441363483667374,
+      "learning_rate": 0.00030169000298052096,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 176590784,
+      "step": 81755
+    },
+    {
+      "epoch": 13.33768352365416,
+      "grad_norm": 0.021589141339063644,
+      "learning_rate": 0.00030162466313114734,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 176601248,
+      "step": 81760
+    },
+    {
+      "epoch": 13.338499184339314,
+      "grad_norm": 0.007798145059496164,
+      "learning_rate": 0.00030155932730210145,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 176612704,
+      "step": 81765
+    },
+    {
+      "epoch": 13.33931484502447,
+      "grad_norm": 0.018131252378225327,
+      "learning_rate": 0.00030149399549470767,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 176623424,
+      "step": 81770
+    },
+    {
+      "epoch": 13.340130505709626,
+      "grad_norm": 0.014698930084705353,
+      "learning_rate": 0.00030142866771028974,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 176634048,
+      "step": 81775
+    },
+    {
+      "epoch": 13.34094616639478,
+      "grad_norm": 0.0022598044015467167,
+      "learning_rate": 0.00030136334395017197,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 176644704,
+      "step": 81780
+    },
+    {
+      "epoch": 13.341761827079935,
+      "grad_norm": 0.0038392143324017525,
+      "learning_rate": 0.0003012980242156778,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 176654848,
+      "step": 81785
+    },
+    {
+      "epoch": 13.34257748776509,
+      "grad_norm": 0.04017645865678787,
+      "learning_rate": 0.00030123270850813147,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 176666048,
+      "step": 81790
+    },
+    {
+      "epoch": 13.343393148450245,
+      "grad_norm": 0.00553273456171155,
+      "learning_rate": 0.0003011673968288562,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 176677472,
+      "step": 81795
+    },
+    {
+      "epoch": 13.3442088091354,
+      "grad_norm": 0.012419447302818298,
+      "learning_rate": 0.00030110208917917607,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 176688864,
+      "step": 81800
+    },
+    {
+      "epoch": 13.345024469820554,
+      "grad_norm": 0.03526076301932335,
+      "learning_rate": 0.00030103678556041427,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 176700864,
+      "step": 81805
+    },
+    {
+      "epoch": 13.34584013050571,
+      "grad_norm": 0.0011652401881292462,
+      "learning_rate": 0.00030097148597389456,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 176711936,
+      "step": 81810
+    },
+    {
+      "epoch": 13.346655791190864,
+      "grad_norm": 0.0031598478090018034,
+      "learning_rate": 0.00030090619042094,
+      "loss": 0.0289,
+      "num_input_tokens_seen": 176722464,
+      "step": 81815
+    },
+    {
+      "epoch": 13.34747145187602,
+      "grad_norm": 0.002571272198110819,
+      "learning_rate": 0.0003008408989028743,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 176733440,
+      "step": 81820
+    },
+    {
+      "epoch": 13.348287112561174,
+      "grad_norm": 0.012336530722677708,
+      "learning_rate": 0.00030077561142102024,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 176743104,
+      "step": 81825
+    },
+    {
+      "epoch": 13.34910277324633,
+      "grad_norm": 0.007683815434575081,
+      "learning_rate": 0.0003007103279767013,
+      "loss": 0.009,
+      "num_input_tokens_seen": 176753792,
+      "step": 81830
+    },
+    {
+      "epoch": 13.349918433931485,
+      "grad_norm": 0.06616160273551941,
+      "learning_rate": 0.0003006450485712402,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 176764832,
+      "step": 81835
+    },
+    {
+      "epoch": 13.350734094616639,
+      "grad_norm": 0.0150661151856184,
+      "learning_rate": 0.00030057977320596007,
+      "loss": 0.007,
+      "num_input_tokens_seen": 176776128,
+      "step": 81840
+    },
+    {
+      "epoch": 13.351549755301795,
+      "grad_norm": 0.0010423744097352028,
+      "learning_rate": 0.00030051450188218397,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 176787072,
+      "step": 81845
+    },
+    {
+      "epoch": 13.352365415986949,
+      "grad_norm": 0.10020679235458374,
+      "learning_rate": 0.0003004492346012345,
+      "loss": 0.019,
+      "num_input_tokens_seen": 176798816,
+      "step": 81850
+    },
+    {
+      "epoch": 13.353181076672104,
+      "grad_norm": 0.0933566614985466,
+      "learning_rate": 0.0003003839713644345,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 176809984,
+      "step": 81855
+    },
+    {
+      "epoch": 13.35399673735726,
+      "grad_norm": 0.023334039375185966,
+      "learning_rate": 0.0003003187121731064,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 176820288,
+      "step": 81860
+    },
+    {
+      "epoch": 13.354812398042414,
+      "grad_norm": 0.0006777640082873404,
+      "learning_rate": 0.0003002534570285731,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 176830080,
+      "step": 81865
+    },
+    {
+      "epoch": 13.35562805872757,
+      "grad_norm": 0.0137909771874547,
+      "learning_rate": 0.00030018820593215675,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 176841088,
+      "step": 81870
+    },
+    {
+      "epoch": 13.356443719412724,
+      "grad_norm": 0.0035228354390710592,
+      "learning_rate": 0.0003001229588851799,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 176852576,
+      "step": 81875
+    },
+    {
+      "epoch": 13.35725938009788,
+      "grad_norm": 0.010440012440085411,
+      "learning_rate": 0.0003000577158889649,
+      "loss": 0.0767,
+      "num_input_tokens_seen": 176863584,
+      "step": 81880
+    },
+    {
+      "epoch": 13.358075040783035,
+      "grad_norm": 0.001993312034755945,
+      "learning_rate": 0.00029999247694483395,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 176875584,
+      "step": 81885
+    },
+    {
+      "epoch": 13.358890701468189,
+      "grad_norm": 0.04758576303720474,
+      "learning_rate": 0.00029992724205410914,
+      "loss": 0.004,
+      "num_input_tokens_seen": 176886752,
+      "step": 81890
+    },
+    {
+      "epoch": 13.359706362153345,
+      "grad_norm": 0.2109840214252472,
+      "learning_rate": 0.0002998620112181126,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 176896672,
+      "step": 81895
+    },
+    {
+      "epoch": 13.360522022838499,
+      "grad_norm": 0.043509677052497864,
+      "learning_rate": 0.0002997967844381662,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 176907840,
+      "step": 81900
+    },
+    {
+      "epoch": 13.361337683523654,
+      "grad_norm": 0.016660314053297043,
+      "learning_rate": 0.00029973156171559214,
+      "loss": 0.0402,
+      "num_input_tokens_seen": 176918368,
+      "step": 81905
+    },
+    {
+      "epoch": 13.362153344208808,
+      "grad_norm": 0.002962973900139332,
+      "learning_rate": 0.0002996663430517118,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 176929600,
+      "step": 81910
+    },
+    {
+      "epoch": 13.362969004893964,
+      "grad_norm": 0.0031862088944762945,
+      "learning_rate": 0.0002996011284478474,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 176939360,
+      "step": 81915
+    },
+    {
+      "epoch": 13.36378466557912,
+      "grad_norm": 0.004130939487367868,
+      "learning_rate": 0.00029953591790532014,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 176950272,
+      "step": 81920
+    },
+    {
+      "epoch": 13.364600326264274,
+      "grad_norm": 0.0006332904449664056,
+      "learning_rate": 0.000299470711425452,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 176959648,
+      "step": 81925
+    },
+    {
+      "epoch": 13.36541598694943,
+      "grad_norm": 0.013381035067141056,
+      "learning_rate": 0.0002994055090095641,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 176969600,
+      "step": 81930
+    },
+    {
+      "epoch": 13.366231647634583,
+      "grad_norm": 0.002639003796502948,
+      "learning_rate": 0.00029934031065897824,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 176980608,
+      "step": 81935
+    },
+    {
+      "epoch": 13.367047308319739,
+      "grad_norm": 0.004228521604090929,
+      "learning_rate": 0.00029927511637501536,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 176990656,
+      "step": 81940
+    },
+    {
+      "epoch": 13.367862969004895,
+      "grad_norm": 0.4222617447376251,
+      "learning_rate": 0.0002992099261589968,
+      "loss": 0.0184,
+      "num_input_tokens_seen": 177001120,
+      "step": 81945
+    },
+    {
+      "epoch": 13.368678629690049,
+      "grad_norm": 0.0035730917006731033,
+      "learning_rate": 0.00029914474001224413,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 177012448,
+      "step": 81950
+    },
+    {
+      "epoch": 13.369494290375204,
+      "grad_norm": 0.10068176686763763,
+      "learning_rate": 0.0002990795579360778,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 177023168,
+      "step": 81955
+    },
+    {
+      "epoch": 13.370309951060358,
+      "grad_norm": 0.008547582663595676,
+      "learning_rate": 0.00029901437993181936,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 177035136,
+      "step": 81960
+    },
+    {
+      "epoch": 13.371125611745514,
+      "grad_norm": 0.4465034306049347,
+      "learning_rate": 0.0002989492060007893,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 177046208,
+      "step": 81965
+    },
+    {
+      "epoch": 13.37194127243067,
+      "grad_norm": 0.0010136293713003397,
+      "learning_rate": 0.0002988840361443088,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 177056256,
+      "step": 81970
+    },
+    {
+      "epoch": 13.372756933115824,
+      "grad_norm": 0.001000964897684753,
+      "learning_rate": 0.0002988188703636983,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 177067040,
+      "step": 81975
+    },
+    {
+      "epoch": 13.37357259380098,
+      "grad_norm": 0.9909574389457703,
+      "learning_rate": 0.0002987537086602787,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 177077120,
+      "step": 81980
+    },
+    {
+      "epoch": 13.374388254486133,
+      "grad_norm": 0.0032265952322632074,
+      "learning_rate": 0.0002986885510353703,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 177087744,
+      "step": 81985
+    },
+    {
+      "epoch": 13.375203915171289,
+      "grad_norm": 0.013295507058501244,
+      "learning_rate": 0.00029862339749029413,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 177100096,
+      "step": 81990
+    },
+    {
+      "epoch": 13.376019575856443,
+      "grad_norm": 0.00572703592479229,
+      "learning_rate": 0.0002985582480263699,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 177110816,
+      "step": 81995
+    },
+    {
+      "epoch": 13.376835236541599,
+      "grad_norm": 0.013873127289116383,
+      "learning_rate": 0.00029849310264491865,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 177121792,
+      "step": 82000
+    },
+    {
+      "epoch": 13.377650897226754,
+      "grad_norm": 1.48568856716156,
+      "learning_rate": 0.00029842796134726,
+      "loss": 0.0551,
+      "num_input_tokens_seen": 177131936,
+      "step": 82005
+    },
+    {
+      "epoch": 13.378466557911908,
+      "grad_norm": 0.036852333694696426,
+      "learning_rate": 0.0002983628241347147,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 177142848,
+      "step": 82010
+    },
+    {
+      "epoch": 13.379282218597064,
+      "grad_norm": 0.10424373298883438,
+      "learning_rate": 0.0002982976910086024,
+      "loss": 0.017,
+      "num_input_tokens_seen": 177153312,
+      "step": 82015
+    },
+    {
+      "epoch": 13.380097879282218,
+      "grad_norm": 0.08175593614578247,
+      "learning_rate": 0.0002982325619702433,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 177164224,
+      "step": 82020
+    },
+    {
+      "epoch": 13.380913539967374,
+      "grad_norm": 0.006303591188043356,
+      "learning_rate": 0.0002981674370209573,
+      "loss": 0.0893,
+      "num_input_tokens_seen": 177174944,
+      "step": 82025
+    },
+    {
+      "epoch": 13.38172920065253,
+      "grad_norm": 0.0339217446744442,
+      "learning_rate": 0.00029810231616206426,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 177185184,
+      "step": 82030
+    },
+    {
+      "epoch": 13.382544861337683,
+      "grad_norm": 0.002143233548849821,
+      "learning_rate": 0.00029803719939488387,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 177197536,
+      "step": 82035
+    },
+    {
+      "epoch": 13.383360522022839,
+      "grad_norm": 0.0740416944026947,
+      "learning_rate": 0.0002979720867207358,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 177209184,
+      "step": 82040
+    },
+    {
+      "epoch": 13.384176182707993,
+      "grad_norm": 0.005400381051003933,
+      "learning_rate": 0.0002979069781409397,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 177220416,
+      "step": 82045
+    },
+    {
+      "epoch": 13.384991843393149,
+      "grad_norm": 0.012265348806977272,
+      "learning_rate": 0.00029784187365681516,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 177232032,
+      "step": 82050
+    },
+    {
+      "epoch": 13.385807504078304,
+      "grad_norm": 0.002419403288513422,
+      "learning_rate": 0.00029777677326968144,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 177243328,
+      "step": 82055
+    },
+    {
+      "epoch": 13.386623164763458,
+      "grad_norm": 0.0014468590961769223,
+      "learning_rate": 0.0002977116769808579,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 177254368,
+      "step": 82060
+    },
+    {
+      "epoch": 13.387438825448614,
+      "grad_norm": 0.0005729938857257366,
+      "learning_rate": 0.000297646584791664,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 177264960,
+      "step": 82065
+    },
+    {
+      "epoch": 13.388254486133768,
+      "grad_norm": 0.023177186027169228,
+      "learning_rate": 0.0002975814967034185,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 177275936,
+      "step": 82070
+    },
+    {
+      "epoch": 13.389070146818923,
+      "grad_norm": 0.02205835096538067,
+      "learning_rate": 0.000297516412717441,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 177286144,
+      "step": 82075
+    },
+    {
+      "epoch": 13.38988580750408,
+      "grad_norm": 0.004381283186376095,
+      "learning_rate": 0.0002974513328350501,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 177297408,
+      "step": 82080
+    },
+    {
+      "epoch": 13.390701468189233,
+      "grad_norm": 0.004533675499260426,
+      "learning_rate": 0.00029738625705756514,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 177309568,
+      "step": 82085
+    },
+    {
+      "epoch": 13.391517128874389,
+      "grad_norm": 0.002455994486808777,
+      "learning_rate": 0.0002973211853863044,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 177320352,
+      "step": 82090
+    },
+    {
+      "epoch": 13.392332789559543,
+      "grad_norm": 0.0036011829506605864,
+      "learning_rate": 0.0002972561178225872,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 177330048,
+      "step": 82095
+    },
+    {
+      "epoch": 13.393148450244698,
+      "grad_norm": 0.0032857232727110386,
+      "learning_rate": 0.00029719105436773187,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 177340896,
+      "step": 82100
+    },
+    {
+      "epoch": 13.393964110929852,
+      "grad_norm": 0.002111183013767004,
+      "learning_rate": 0.00029712599502305714,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 177352480,
+      "step": 82105
+    },
+    {
+      "epoch": 13.394779771615008,
+      "grad_norm": 0.0007205134606920183,
+      "learning_rate": 0.0002970609397898814,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 177361856,
+      "step": 82110
+    },
+    {
+      "epoch": 13.395595432300164,
+      "grad_norm": 0.0033076724503189325,
+      "learning_rate": 0.0002969958886695233,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 177372768,
+      "step": 82115
+    },
+    {
+      "epoch": 13.396411092985318,
+      "grad_norm": 0.0014311681734398007,
+      "learning_rate": 0.00029693084166330084,
+      "loss": 0.009,
+      "num_input_tokens_seen": 177383360,
+      "step": 82120
+    },
+    {
+      "epoch": 13.397226753670473,
+      "grad_norm": 0.017201535403728485,
+      "learning_rate": 0.00029686579877253276,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 177393888,
+      "step": 82125
+    },
+    {
+      "epoch": 13.398042414355627,
+      "grad_norm": 0.00801269244402647,
+      "learning_rate": 0.0002968007599985367,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 177404992,
+      "step": 82130
+    },
+    {
+      "epoch": 13.398858075040783,
+      "grad_norm": 0.018369020894169807,
+      "learning_rate": 0.0002967357253426313,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 177415136,
+      "step": 82135
+    },
+    {
+      "epoch": 13.399673735725939,
+      "grad_norm": 0.008904990740120411,
+      "learning_rate": 0.000296670694806134,
+      "loss": 0.0965,
+      "num_input_tokens_seen": 177424256,
+      "step": 82140
+    },
+    {
+      "epoch": 13.400489396411093,
+      "grad_norm": 0.003861672943457961,
+      "learning_rate": 0.00029660566839036315,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 177435456,
+      "step": 82145
+    },
+    {
+      "epoch": 13.401305057096248,
+      "grad_norm": 0.447512149810791,
+      "learning_rate": 0.0002965406460966364,
+      "loss": 0.0375,
+      "num_input_tokens_seen": 177445536,
+      "step": 82150
+    },
+    {
+      "epoch": 13.402120717781402,
+      "grad_norm": 0.00251060351729393,
+      "learning_rate": 0.00029647562792627145,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 177457184,
+      "step": 82155
+    },
+    {
+      "epoch": 13.402936378466558,
+      "grad_norm": 0.016238614916801453,
+      "learning_rate": 0.0002964106138805864,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 177467488,
+      "step": 82160
+    },
+    {
+      "epoch": 13.403752039151712,
+      "grad_norm": 0.010289501398801804,
+      "learning_rate": 0.00029634560396089827,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 177477856,
+      "step": 82165
+    },
+    {
+      "epoch": 13.404567699836868,
+      "grad_norm": 0.0029544297140091658,
+      "learning_rate": 0.00029628059816852497,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 177488480,
+      "step": 82170
+    },
+    {
+      "epoch": 13.405383360522023,
+      "grad_norm": 0.012710874900221825,
+      "learning_rate": 0.0002962155965047837,
+      "loss": 0.029,
+      "num_input_tokens_seen": 177498656,
+      "step": 82175
+    },
+    {
+      "epoch": 13.406199021207177,
+      "grad_norm": 0.0044509959407150745,
+      "learning_rate": 0.00029615059897099196,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 177510016,
+      "step": 82180
+    },
+    {
+      "epoch": 13.407014681892333,
+      "grad_norm": 0.019407030194997787,
+      "learning_rate": 0.0002960856055684668,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 177521216,
+      "step": 82185
+    },
+    {
+      "epoch": 13.407830342577487,
+      "grad_norm": 0.004138377495110035,
+      "learning_rate": 0.0002960206162985256,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 177530784,
+      "step": 82190
+    },
+    {
+      "epoch": 13.408646003262643,
+      "grad_norm": 0.0222416240721941,
+      "learning_rate": 0.0002959556311624855,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 177540800,
+      "step": 82195
+    },
+    {
+      "epoch": 13.409461663947798,
+      "grad_norm": 0.0034956561867147684,
+      "learning_rate": 0.0002958906501616632,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 177551328,
+      "step": 82200
+    },
+    {
+      "epoch": 13.410277324632952,
+      "grad_norm": 0.0069087352603673935,
+      "learning_rate": 0.0002958256732973759,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 177563872,
+      "step": 82205
+    },
+    {
+      "epoch": 13.411092985318108,
+      "grad_norm": 0.0064132362604141235,
+      "learning_rate": 0.00029576070057094034,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 177575808,
+      "step": 82210
+    },
+    {
+      "epoch": 13.411908646003262,
+      "grad_norm": 0.4843251407146454,
+      "learning_rate": 0.00029569573198367317,
+      "loss": 0.05,
+      "num_input_tokens_seen": 177586304,
+      "step": 82215
+    },
+    {
+      "epoch": 13.412724306688418,
+      "grad_norm": 0.007687193341553211,
+      "learning_rate": 0.00029563076753689137,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 177597760,
+      "step": 82220
+    },
+    {
+      "epoch": 13.413539967373573,
+      "grad_norm": 0.018417716026306152,
+      "learning_rate": 0.00029556580723191116,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 177608992,
+      "step": 82225
+    },
+    {
+      "epoch": 13.414355628058727,
+      "grad_norm": 0.03263521566987038,
+      "learning_rate": 0.00029550085107004937,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 177620096,
+      "step": 82230
+    },
+    {
+      "epoch": 13.415171288743883,
+      "grad_norm": 0.006521139293909073,
+      "learning_rate": 0.0002954358990526221,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 177630848,
+      "step": 82235
+    },
+    {
+      "epoch": 13.415986949429037,
+      "grad_norm": 0.010773967020213604,
+      "learning_rate": 0.000295370951180946,
+      "loss": 0.1575,
+      "num_input_tokens_seen": 177641600,
+      "step": 82240
+    },
+    {
+      "epoch": 13.416802610114193,
+      "grad_norm": 0.032416198402643204,
+      "learning_rate": 0.00029530600745633693,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 177652992,
+      "step": 82245
+    },
+    {
+      "epoch": 13.417618270799348,
+      "grad_norm": 0.0022988219279795885,
+      "learning_rate": 0.0002952410678801116,
+      "loss": 0.0608,
+      "num_input_tokens_seen": 177664384,
+      "step": 82250
+    },
+    {
+      "epoch": 13.418433931484502,
+      "grad_norm": 0.002156211994588375,
+      "learning_rate": 0.0002951761324535855,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 177674784,
+      "step": 82255
+    },
+    {
+      "epoch": 13.419249592169658,
+      "grad_norm": 0.002031585667282343,
+      "learning_rate": 0.00029511120117807493,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 177684768,
+      "step": 82260
+    },
+    {
+      "epoch": 13.420065252854812,
+      "grad_norm": 0.002410220680758357,
+      "learning_rate": 0.00029504627405489605,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 177695456,
+      "step": 82265
+    },
+    {
+      "epoch": 13.420880913539968,
+      "grad_norm": 0.11466678231954575,
+      "learning_rate": 0.0002949813510853641,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 177706912,
+      "step": 82270
+    },
+    {
+      "epoch": 13.421696574225122,
+      "grad_norm": 0.0004403699131216854,
+      "learning_rate": 0.00029491643227079543,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 177718240,
+      "step": 82275
+    },
+    {
+      "epoch": 13.422512234910277,
+      "grad_norm": 0.019405366852879524,
+      "learning_rate": 0.00029485151761250527,
+      "loss": 0.1391,
+      "num_input_tokens_seen": 177728384,
+      "step": 82280
+    },
+    {
+      "epoch": 13.423327895595433,
+      "grad_norm": 0.0068669854663312435,
+      "learning_rate": 0.0002947866071118095,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 177739328,
+      "step": 82285
+    },
+    {
+      "epoch": 13.424143556280587,
+      "grad_norm": 0.4046556353569031,
+      "learning_rate": 0.00029472170077002324,
+      "loss": 0.129,
+      "num_input_tokens_seen": 177749120,
+      "step": 82290
+    },
+    {
+      "epoch": 13.424959216965743,
+      "grad_norm": 0.0009423498995602131,
+      "learning_rate": 0.0002946567985884624,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 177759808,
+      "step": 82295
+    },
+    {
+      "epoch": 13.425774877650896,
+      "grad_norm": 0.004357687663286924,
+      "learning_rate": 0.0002945919005684418,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 177768512,
+      "step": 82300
+    },
+    {
+      "epoch": 13.426590538336052,
+      "grad_norm": 0.0007036282331682742,
+      "learning_rate": 0.0002945270067112771,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 177779104,
+      "step": 82305
+    },
+    {
+      "epoch": 13.427406199021208,
+      "grad_norm": 0.004518335685133934,
+      "learning_rate": 0.0002944621170182831,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 177789024,
+      "step": 82310
+    },
+    {
+      "epoch": 13.428221859706362,
+      "grad_norm": 0.002193318447098136,
+      "learning_rate": 0.00029439723149077523,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 177799392,
+      "step": 82315
+    },
+    {
+      "epoch": 13.429037520391518,
+      "grad_norm": 0.050887856632471085,
+      "learning_rate": 0.0002943323501300681,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 177809088,
+      "step": 82320
+    },
+    {
+      "epoch": 13.429853181076671,
+      "grad_norm": 0.05680084228515625,
+      "learning_rate": 0.00029426747293747685,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 177820608,
+      "step": 82325
+    },
+    {
+      "epoch": 13.430668841761827,
+      "grad_norm": 0.00340280425734818,
+      "learning_rate": 0.00029420259991431633,
+      "loss": 0.006,
+      "num_input_tokens_seen": 177832352,
+      "step": 82330
+    },
+    {
+      "epoch": 13.431484502446983,
+      "grad_norm": 0.018648672848939896,
+      "learning_rate": 0.0002941377310619011,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 177843616,
+      "step": 82335
+    },
+    {
+      "epoch": 13.432300163132137,
+      "grad_norm": 1.2718156576156616,
+      "learning_rate": 0.00029407286638154597,
+      "loss": 0.0984,
+      "num_input_tokens_seen": 177854144,
+      "step": 82340
+    },
+    {
+      "epoch": 13.433115823817293,
+      "grad_norm": 0.009632064029574394,
+      "learning_rate": 0.00029400800587456544,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 177865152,
+      "step": 82345
+    },
+    {
+      "epoch": 13.433931484502446,
+      "grad_norm": 0.0709516853094101,
+      "learning_rate": 0.00029394314954227387,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 177876416,
+      "step": 82350
+    },
+    {
+      "epoch": 13.434747145187602,
+      "grad_norm": 0.0647798404097557,
+      "learning_rate": 0.000293878297385986,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 177887424,
+      "step": 82355
+    },
+    {
+      "epoch": 13.435562805872756,
+      "grad_norm": 0.007885068655014038,
+      "learning_rate": 0.0002938134494070157,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 177899392,
+      "step": 82360
+    },
+    {
+      "epoch": 13.436378466557912,
+      "grad_norm": 0.016093425452709198,
+      "learning_rate": 0.00029374860560667747,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 177910048,
+      "step": 82365
+    },
+    {
+      "epoch": 13.437194127243067,
+      "grad_norm": 0.01708192005753517,
+      "learning_rate": 0.00029368376598628545,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 177920224,
+      "step": 82370
+    },
+    {
+      "epoch": 13.438009787928221,
+      "grad_norm": 0.0012648747069761157,
+      "learning_rate": 0.00029361893054715365,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 177930880,
+      "step": 82375
+    },
+    {
+      "epoch": 13.438825448613377,
+      "grad_norm": 0.007827023044228554,
+      "learning_rate": 0.000293554099290596,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 177942016,
+      "step": 82380
+    },
+    {
+      "epoch": 13.439641109298531,
+      "grad_norm": 0.009230383671820164,
+      "learning_rate": 0.0002934892722179264,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 177950560,
+      "step": 82385
+    },
+    {
+      "epoch": 13.440456769983687,
+      "grad_norm": 0.0039056178648024797,
+      "learning_rate": 0.0002934244493304588,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 177961088,
+      "step": 82390
+    },
+    {
+      "epoch": 13.441272430668842,
+      "grad_norm": 0.0029746955260634422,
+      "learning_rate": 0.0002933596306295066,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 177970656,
+      "step": 82395
+    },
+    {
+      "epoch": 13.442088091353996,
+      "grad_norm": 0.009408979676663876,
+      "learning_rate": 0.0002932948161163839,
+      "loss": 0.1229,
+      "num_input_tokens_seen": 177981792,
+      "step": 82400
+    },
+    {
+      "epoch": 13.442903752039152,
+      "grad_norm": 0.06069672852754593,
+      "learning_rate": 0.0002932300057924037,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 177992480,
+      "step": 82405
+    },
+    {
+      "epoch": 13.443719412724306,
+      "grad_norm": 0.0016424978384748101,
+      "learning_rate": 0.0002931651996588799,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 178002944,
+      "step": 82410
+    },
+    {
+      "epoch": 13.444535073409462,
+      "grad_norm": 0.12447664141654968,
+      "learning_rate": 0.0002931003977171256,
+      "loss": 0.009,
+      "num_input_tokens_seen": 178012704,
+      "step": 82415
+    },
+    {
+      "epoch": 13.445350734094617,
+      "grad_norm": 0.0165871512144804,
+      "learning_rate": 0.00029303559996845434,
+      "loss": 0.0542,
+      "num_input_tokens_seen": 178024160,
+      "step": 82420
+    },
+    {
+      "epoch": 13.446166394779771,
+      "grad_norm": 0.003005496459081769,
+      "learning_rate": 0.00029297080641417907,
+      "loss": 0.034,
+      "num_input_tokens_seen": 178035552,
+      "step": 82425
+    },
+    {
+      "epoch": 13.446982055464927,
+      "grad_norm": 0.0012617846950888634,
+      "learning_rate": 0.0002929060170556132,
+      "loss": 0.1092,
+      "num_input_tokens_seen": 178046848,
+      "step": 82430
+    },
+    {
+      "epoch": 13.447797716150081,
+      "grad_norm": 0.6911592483520508,
+      "learning_rate": 0.00029284123189406944,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 178058432,
+      "step": 82435
+    },
+    {
+      "epoch": 13.448613376835237,
+      "grad_norm": 0.03883085772395134,
+      "learning_rate": 0.00029277645093086114,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 178070496,
+      "step": 82440
+    },
+    {
+      "epoch": 13.449429037520392,
+      "grad_norm": 0.0312496330589056,
+      "learning_rate": 0.00029271167416730073,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 178080960,
+      "step": 82445
+    },
+    {
+      "epoch": 13.450244698205546,
+      "grad_norm": 0.008447905071079731,
+      "learning_rate": 0.0002926469016047013,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 178092000,
+      "step": 82450
+    },
+    {
+      "epoch": 13.451060358890702,
+      "grad_norm": 0.031177420169115067,
+      "learning_rate": 0.00029258213324437533,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 178102336,
+      "step": 82455
+    },
+    {
+      "epoch": 13.451876019575856,
+      "grad_norm": 0.10189617425203323,
+      "learning_rate": 0.00029251736908763584,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 178113248,
+      "step": 82460
+    },
+    {
+      "epoch": 13.452691680261012,
+      "grad_norm": 0.6185612678527832,
+      "learning_rate": 0.00029245260913579477,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 178124192,
+      "step": 82465
+    },
+    {
+      "epoch": 13.453507340946166,
+      "grad_norm": 0.013284931890666485,
+      "learning_rate": 0.00029238785339016487,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 178135424,
+      "step": 82470
+    },
+    {
+      "epoch": 13.454323001631321,
+      "grad_norm": 0.19014760851860046,
+      "learning_rate": 0.0002923231018520588,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 178145952,
+      "step": 82475
+    },
+    {
+      "epoch": 13.455138662316477,
+      "grad_norm": 0.006610923446714878,
+      "learning_rate": 0.0002922583545227882,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 178156768,
+      "step": 82480
+    },
+    {
+      "epoch": 13.455954323001631,
+      "grad_norm": 0.14724524319171906,
+      "learning_rate": 0.00029219361140366587,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 178167616,
+      "step": 82485
+    },
+    {
+      "epoch": 13.456769983686787,
+      "grad_norm": 0.026569068431854248,
+      "learning_rate": 0.0002921288724960034,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 178179008,
+      "step": 82490
+    },
+    {
+      "epoch": 13.45758564437194,
+      "grad_norm": 0.009068429470062256,
+      "learning_rate": 0.00029206413780111305,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 178189312,
+      "step": 82495
+    },
+    {
+      "epoch": 13.458401305057096,
+      "grad_norm": 0.002162341959774494,
+      "learning_rate": 0.00029199940732030686,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 178198688,
+      "step": 82500
+    },
+    {
+      "epoch": 13.459216965742252,
+      "grad_norm": 0.008699199184775352,
+      "learning_rate": 0.0002919346810548965,
+      "loss": 0.052,
+      "num_input_tokens_seen": 178208768,
+      "step": 82505
+    },
+    {
+      "epoch": 13.460032626427406,
+      "grad_norm": 1.6339211463928223,
+      "learning_rate": 0.00029186995900619373,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 178219776,
+      "step": 82510
+    },
+    {
+      "epoch": 13.460848287112562,
+      "grad_norm": 0.012227796018123627,
+      "learning_rate": 0.00029180524117551035,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 178230560,
+      "step": 82515
+    },
+    {
+      "epoch": 13.461663947797716,
+      "grad_norm": 0.000886613386683166,
+      "learning_rate": 0.0002917405275641578,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 178240704,
+      "step": 82520
+    },
+    {
+      "epoch": 13.462479608482871,
+      "grad_norm": 0.04731287062168121,
+      "learning_rate": 0.00029167581817344775,
+      "loss": 0.0819,
+      "num_input_tokens_seen": 178252096,
+      "step": 82525
+    },
+    {
+      "epoch": 13.463295269168025,
+      "grad_norm": 0.0025267750024795532,
+      "learning_rate": 0.00029161111300469143,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 178262400,
+      "step": 82530
+    },
+    {
+      "epoch": 13.464110929853181,
+      "grad_norm": 0.04110927879810333,
+      "learning_rate": 0.0002915464120592003,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 178273568,
+      "step": 82535
+    },
+    {
+      "epoch": 13.464926590538337,
+      "grad_norm": 0.007446099538356066,
+      "learning_rate": 0.0002914817153382856,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 178284576,
+      "step": 82540
+    },
+    {
+      "epoch": 13.46574225122349,
+      "grad_norm": 0.005990834906697273,
+      "learning_rate": 0.00029141702284325846,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 178295456,
+      "step": 82545
+    },
+    {
+      "epoch": 13.466557911908646,
+      "grad_norm": 0.017972951754927635,
+      "learning_rate": 0.0002913523345754299,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 178306848,
+      "step": 82550
+    },
+    {
+      "epoch": 13.4673735725938,
+      "grad_norm": 0.0014292324194684625,
+      "learning_rate": 0.0002912876505361111,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 178318688,
+      "step": 82555
+    },
+    {
+      "epoch": 13.468189233278956,
+      "grad_norm": 0.010235908441245556,
+      "learning_rate": 0.00029122297072661264,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 178328288,
+      "step": 82560
+    },
+    {
+      "epoch": 13.469004893964112,
+      "grad_norm": 0.019145233556628227,
+      "learning_rate": 0.00029115829514824565,
+      "loss": 0.018,
+      "num_input_tokens_seen": 178337600,
+      "step": 82565
+    },
+    {
+      "epoch": 13.469820554649266,
+      "grad_norm": 0.0088666882365942,
+      "learning_rate": 0.00029109362380232075,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 178347552,
+      "step": 82570
+    },
+    {
+      "epoch": 13.470636215334421,
+      "grad_norm": 0.036711398512125015,
+      "learning_rate": 0.0002910289566901485,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 178359520,
+      "step": 82575
+    },
+    {
+      "epoch": 13.471451876019575,
+      "grad_norm": 0.004469173029065132,
+      "learning_rate": 0.0002909642938130394,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 178371104,
+      "step": 82580
+    },
+    {
+      "epoch": 13.47226753670473,
+      "grad_norm": 0.005990062840282917,
+      "learning_rate": 0.0002908996351723043,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 178381984,
+      "step": 82585
+    },
+    {
+      "epoch": 13.473083197389887,
+      "grad_norm": 0.0013577784411609173,
+      "learning_rate": 0.0002908349807692533,
+      "loss": 0.008,
+      "num_input_tokens_seen": 178392032,
+      "step": 82590
+    },
+    {
+      "epoch": 13.47389885807504,
+      "grad_norm": 0.29914239048957825,
+      "learning_rate": 0.00029077033060519674,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 178402272,
+      "step": 82595
+    },
+    {
+      "epoch": 13.474714518760196,
+      "grad_norm": 0.006352984346449375,
+      "learning_rate": 0.0002907056846814449,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 178412992,
+      "step": 82600
+    },
+    {
+      "epoch": 13.47553017944535,
+      "grad_norm": 0.003830127650871873,
+      "learning_rate": 0.00029064104299930785,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 178423904,
+      "step": 82605
+    },
+    {
+      "epoch": 13.476345840130506,
+      "grad_norm": 0.0034729652106761932,
+      "learning_rate": 0.00029057640556009567,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 178433376,
+      "step": 82610
+    },
+    {
+      "epoch": 13.477161500815662,
+      "grad_norm": 0.0034876209683716297,
+      "learning_rate": 0.0002905117723651183,
+      "loss": 0.094,
+      "num_input_tokens_seen": 178444480,
+      "step": 82615
+    },
+    {
+      "epoch": 13.477977161500815,
+      "grad_norm": 0.06251949816942215,
+      "learning_rate": 0.0002904471434156856,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 178455328,
+      "step": 82620
+    },
+    {
+      "epoch": 13.478792822185971,
+      "grad_norm": 0.006139388307929039,
+      "learning_rate": 0.0002903825187131074,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 178465888,
+      "step": 82625
+    },
+    {
+      "epoch": 13.479608482871125,
+      "grad_norm": 0.01711699180305004,
+      "learning_rate": 0.00029031789825869334,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 178476288,
+      "step": 82630
+    },
+    {
+      "epoch": 13.48042414355628,
+      "grad_norm": 0.009003594517707825,
+      "learning_rate": 0.0002902532820537531,
+      "loss": 0.0763,
+      "num_input_tokens_seen": 178486688,
+      "step": 82635
+    },
+    {
+      "epoch": 13.481239804241435,
+      "grad_norm": 0.0052217403426766396,
+      "learning_rate": 0.00029018867009959623,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 178496928,
+      "step": 82640
+    },
+    {
+      "epoch": 13.48205546492659,
+      "grad_norm": 0.15717969834804535,
+      "learning_rate": 0.0002901240623975321,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 178507296,
+      "step": 82645
+    },
+    {
+      "epoch": 13.482871125611746,
+      "grad_norm": 0.13155721127986908,
+      "learning_rate": 0.00029005945894887,
+      "loss": 0.119,
+      "num_input_tokens_seen": 178518592,
+      "step": 82650
+    },
+    {
+      "epoch": 13.4836867862969,
+      "grad_norm": 0.026101280003786087,
+      "learning_rate": 0.0002899948597549194,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 178528896,
+      "step": 82655
+    },
+    {
+      "epoch": 13.484502446982056,
+      "grad_norm": 0.35371142625808716,
+      "learning_rate": 0.00028993026481698934,
+      "loss": 0.1464,
+      "num_input_tokens_seen": 178539712,
+      "step": 82660
+    },
+    {
+      "epoch": 13.48531810766721,
+      "grad_norm": 0.16254015266895294,
+      "learning_rate": 0.00028986567413638895,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 178549728,
+      "step": 82665
+    },
+    {
+      "epoch": 13.486133768352365,
+      "grad_norm": 0.010674665682017803,
+      "learning_rate": 0.00028980108771442726,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 178561248,
+      "step": 82670
+    },
+    {
+      "epoch": 13.486949429037521,
+      "grad_norm": 0.0005801775259897113,
+      "learning_rate": 0.00028973650555241316,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 178572256,
+      "step": 82675
+    },
+    {
+      "epoch": 13.487765089722675,
+      "grad_norm": 0.04390391334891319,
+      "learning_rate": 0.0002896719276516555,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 178583584,
+      "step": 82680
+    },
+    {
+      "epoch": 13.48858075040783,
+      "grad_norm": 0.718368649482727,
+      "learning_rate": 0.0002896073540134631,
+      "loss": 0.0385,
+      "num_input_tokens_seen": 178594720,
+      "step": 82685
+    },
+    {
+      "epoch": 13.489396411092985,
+      "grad_norm": 0.02619067020714283,
+      "learning_rate": 0.00028954278463914435,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 178604480,
+      "step": 82690
+    },
+    {
+      "epoch": 13.49021207177814,
+      "grad_norm": 0.005772117991000414,
+      "learning_rate": 0.00028947821953000845,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 178614272,
+      "step": 82695
+    },
+    {
+      "epoch": 13.491027732463296,
+      "grad_norm": 0.0048257578164339066,
+      "learning_rate": 0.00028941365868736315,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 178624608,
+      "step": 82700
+    },
+    {
+      "epoch": 13.49184339314845,
+      "grad_norm": 0.1376570165157318,
+      "learning_rate": 0.00028934910211251755,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 178635552,
+      "step": 82705
+    },
+    {
+      "epoch": 13.492659053833606,
+      "grad_norm": 0.0016758694546297193,
+      "learning_rate": 0.0002892845498067792,
+      "loss": 0.1607,
+      "num_input_tokens_seen": 178647008,
+      "step": 82710
+    },
+    {
+      "epoch": 13.49347471451876,
+      "grad_norm": 0.00668095238506794,
+      "learning_rate": 0.0002892200017714572,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 178659040,
+      "step": 82715
+    },
+    {
+      "epoch": 13.494290375203915,
+      "grad_norm": 0.056710727512836456,
+      "learning_rate": 0.00028915545800785883,
+      "loss": 0.044,
+      "num_input_tokens_seen": 178669600,
+      "step": 82720
+    },
+    {
+      "epoch": 13.49510603588907,
+      "grad_norm": 0.02826865203678608,
+      "learning_rate": 0.0002890909185172928,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 178678560,
+      "step": 82725
+    },
+    {
+      "epoch": 13.495921696574225,
+      "grad_norm": 1.417874813079834,
+      "learning_rate": 0.00028902638330106684,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 178689504,
+      "step": 82730
+    },
+    {
+      "epoch": 13.49673735725938,
+      "grad_norm": 0.0027501648291945457,
+      "learning_rate": 0.0002889618523604889,
+      "loss": 0.1004,
+      "num_input_tokens_seen": 178700608,
+      "step": 82735
+    },
+    {
+      "epoch": 13.497553017944535,
+      "grad_norm": 0.003090892219915986,
+      "learning_rate": 0.0002888973256968667,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 178711744,
+      "step": 82740
+    },
+    {
+      "epoch": 13.49836867862969,
+      "grad_norm": 0.009183863177895546,
+      "learning_rate": 0.000288832803311508,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 178722016,
+      "step": 82745
+    },
+    {
+      "epoch": 13.499184339314844,
+      "grad_norm": 0.0019286853494122624,
+      "learning_rate": 0.00028876828520572043,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 178733056,
+      "step": 82750
+    },
+    {
+      "epoch": 13.5,
+      "grad_norm": 0.013043577782809734,
+      "learning_rate": 0.0002887037713808116,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 178744384,
+      "step": 82755
+    },
+    {
+      "epoch": 13.500815660685156,
+      "grad_norm": 0.005044702906161547,
+      "learning_rate": 0.0002886392618380888,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 178755104,
+      "step": 82760
+    },
+    {
+      "epoch": 13.50163132137031,
+      "grad_norm": 0.08455964177846909,
+      "learning_rate": 0.00028857475657885956,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 178766208,
+      "step": 82765
+    },
+    {
+      "epoch": 13.502446982055465,
+      "grad_norm": 0.1594812124967575,
+      "learning_rate": 0.00028851025560443103,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 178776672,
+      "step": 82770
+    },
+    {
+      "epoch": 13.50326264274062,
+      "grad_norm": 0.0038309351075440645,
+      "learning_rate": 0.0002884457589161105,
+      "loss": 0.0946,
+      "num_input_tokens_seen": 178787648,
+      "step": 82775
+    },
+    {
+      "epoch": 13.504078303425775,
+      "grad_norm": 0.004739274736493826,
+      "learning_rate": 0.000288381266515205,
+      "loss": 0.004,
+      "num_input_tokens_seen": 178799328,
+      "step": 82780
+    },
+    {
+      "epoch": 13.50489396411093,
+      "grad_norm": 0.010969329625368118,
+      "learning_rate": 0.0002883167784030216,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 178809984,
+      "step": 82785
+    },
+    {
+      "epoch": 13.505709624796085,
+      "grad_norm": 0.20839625597000122,
+      "learning_rate": 0.00028825229458086726,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 178819392,
+      "step": 82790
+    },
+    {
+      "epoch": 13.50652528548124,
+      "grad_norm": 0.0025618516374379396,
+      "learning_rate": 0.0002881878150500486,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 178830624,
+      "step": 82795
+    },
+    {
+      "epoch": 13.507340946166394,
+      "grad_norm": 0.116312175989151,
+      "learning_rate": 0.00028812333981187297,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 178840512,
+      "step": 82800
+    },
+    {
+      "epoch": 13.50815660685155,
+      "grad_norm": 0.020539624616503716,
+      "learning_rate": 0.00028805886886764623,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 178851168,
+      "step": 82805
+    },
+    {
+      "epoch": 13.508972267536706,
+      "grad_norm": 0.052292123436927795,
+      "learning_rate": 0.00028799440221867576,
+      "loss": 0.007,
+      "num_input_tokens_seen": 178862112,
+      "step": 82810
+    },
+    {
+      "epoch": 13.50978792822186,
+      "grad_norm": 0.04409019276499748,
+      "learning_rate": 0.00028792993986626725,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 178873888,
+      "step": 82815
+    },
+    {
+      "epoch": 13.510603588907015,
+      "grad_norm": 0.10002454370260239,
+      "learning_rate": 0.000287865481811728,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 178884448,
+      "step": 82820
+    },
+    {
+      "epoch": 13.51141924959217,
+      "grad_norm": 0.004765619989484549,
+      "learning_rate": 0.00028780102805636346,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 178895648,
+      "step": 82825
+    },
+    {
+      "epoch": 13.512234910277325,
+      "grad_norm": 0.011683987453579903,
+      "learning_rate": 0.0002877365786014806,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 178906304,
+      "step": 82830
+    },
+    {
+      "epoch": 13.513050570962479,
+      "grad_norm": 0.0020222472958266735,
+      "learning_rate": 0.00028767213344838493,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 178917440,
+      "step": 82835
+    },
+    {
+      "epoch": 13.513866231647635,
+      "grad_norm": 0.0032288068905472755,
+      "learning_rate": 0.00028760769259838327,
+      "loss": 0.1212,
+      "num_input_tokens_seen": 178929216,
+      "step": 82840
+    },
+    {
+      "epoch": 13.51468189233279,
+      "grad_norm": 0.008228391408920288,
+      "learning_rate": 0.00028754325605278067,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 178940512,
+      "step": 82845
+    },
+    {
+      "epoch": 13.515497553017944,
+      "grad_norm": 0.0787166953086853,
+      "learning_rate": 0.00028747882381288393,
+      "loss": 0.016,
+      "num_input_tokens_seen": 178951040,
+      "step": 82850
+    },
+    {
+      "epoch": 13.5163132137031,
+      "grad_norm": 0.007508369162678719,
+      "learning_rate": 0.00028741439587999805,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 178962784,
+      "step": 82855
+    },
+    {
+      "epoch": 13.517128874388254,
+      "grad_norm": 0.0014908368466421962,
+      "learning_rate": 0.00028734997225542954,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 178973696,
+      "step": 82860
+    },
+    {
+      "epoch": 13.51794453507341,
+      "grad_norm": 0.519140362739563,
+      "learning_rate": 0.0002872855529404832,
+      "loss": 0.0338,
+      "num_input_tokens_seen": 178984960,
+      "step": 82865
+    },
+    {
+      "epoch": 13.518760195758565,
+      "grad_norm": 0.015057248063385487,
+      "learning_rate": 0.0002872211379364651,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 178995904,
+      "step": 82870
+    },
+    {
+      "epoch": 13.51957585644372,
+      "grad_norm": 0.19566139578819275,
+      "learning_rate": 0.00028715672724468065,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 179006784,
+      "step": 82875
+    },
+    {
+      "epoch": 13.520391517128875,
+      "grad_norm": 0.012074259109795094,
+      "learning_rate": 0.0002870923208664351,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 179017472,
+      "step": 82880
+    },
+    {
+      "epoch": 13.521207177814029,
+      "grad_norm": 0.01812121272087097,
+      "learning_rate": 0.0002870279188030338,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 179028960,
+      "step": 82885
+    },
+    {
+      "epoch": 13.522022838499185,
+      "grad_norm": 0.08663219213485718,
+      "learning_rate": 0.00028696352105578185,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 179040448,
+      "step": 82890
+    },
+    {
+      "epoch": 13.522838499184338,
+      "grad_norm": 0.008986803703010082,
+      "learning_rate": 0.0002868991276259844,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 179052064,
+      "step": 82895
+    },
+    {
+      "epoch": 13.523654159869494,
+      "grad_norm": 0.001685730996541679,
+      "learning_rate": 0.0002868347385149465,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 179062464,
+      "step": 82900
+    },
+    {
+      "epoch": 13.52446982055465,
+      "grad_norm": 0.033600907772779465,
+      "learning_rate": 0.000286770353723973,
+      "loss": 0.0366,
+      "num_input_tokens_seen": 179073152,
+      "step": 82905
+    },
+    {
+      "epoch": 13.525285481239804,
+      "grad_norm": 0.014643524773418903,
+      "learning_rate": 0.00028670597325436886,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 179083328,
+      "step": 82910
+    },
+    {
+      "epoch": 13.52610114192496,
+      "grad_norm": 0.010406344197690487,
+      "learning_rate": 0.0002866415971074387,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 179093920,
+      "step": 82915
+    },
+    {
+      "epoch": 13.526916802610113,
+      "grad_norm": 0.006890468765050173,
+      "learning_rate": 0.000286577225284487,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 179105344,
+      "step": 82920
+    },
+    {
+      "epoch": 13.52773246329527,
+      "grad_norm": 0.0029026255942881107,
+      "learning_rate": 0.00028651285778681906,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 179116704,
+      "step": 82925
+    },
+    {
+      "epoch": 13.528548123980425,
+      "grad_norm": 0.003112967126071453,
+      "learning_rate": 0.00028644849461573847,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 179128032,
+      "step": 82930
+    },
+    {
+      "epoch": 13.529363784665579,
+      "grad_norm": 0.026661496609449387,
+      "learning_rate": 0.0002863841357725504,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 179139104,
+      "step": 82935
+    },
+    {
+      "epoch": 13.530179445350734,
+      "grad_norm": 0.011198869906365871,
+      "learning_rate": 0.00028631978125855844,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 179149984,
+      "step": 82940
+    },
+    {
+      "epoch": 13.530995106035888,
+      "grad_norm": 0.29773199558258057,
+      "learning_rate": 0.0002862554310750676,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 179161184,
+      "step": 82945
+    },
+    {
+      "epoch": 13.531810766721044,
+      "grad_norm": 0.010510992258787155,
+      "learning_rate": 0.0002861910852233812,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 179173024,
+      "step": 82950
+    },
+    {
+      "epoch": 13.5326264274062,
+      "grad_norm": 0.002821574453264475,
+      "learning_rate": 0.00028612674370480406,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 179183520,
+      "step": 82955
+    },
+    {
+      "epoch": 13.533442088091354,
+      "grad_norm": 0.005407446064054966,
+      "learning_rate": 0.0002860624065206394,
+      "loss": 0.0724,
+      "num_input_tokens_seen": 179194240,
+      "step": 82960
+    },
+    {
+      "epoch": 13.53425774877651,
+      "grad_norm": 0.0026232078671455383,
+      "learning_rate": 0.0002859980736721918,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 179203424,
+      "step": 82965
+    },
+    {
+      "epoch": 13.535073409461663,
+      "grad_norm": 0.06447270512580872,
+      "learning_rate": 0.0002859337451607644,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 179214880,
+      "step": 82970
+    },
+    {
+      "epoch": 13.535889070146819,
+      "grad_norm": 0.005597327370196581,
+      "learning_rate": 0.0002858694209876616,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 179226080,
+      "step": 82975
+    },
+    {
+      "epoch": 13.536704730831975,
+      "grad_norm": 0.04041731357574463,
+      "learning_rate": 0.00028580510115418624,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 179237856,
+      "step": 82980
+    },
+    {
+      "epoch": 13.537520391517129,
+      "grad_norm": 0.0014987689210101962,
+      "learning_rate": 0.0002857407856616426,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 179248928,
+      "step": 82985
+    },
+    {
+      "epoch": 13.538336052202284,
+      "grad_norm": 0.018002718687057495,
+      "learning_rate": 0.0002856764745113334,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 179260128,
+      "step": 82990
+    },
+    {
+      "epoch": 13.539151712887438,
+      "grad_norm": 0.3203493356704712,
+      "learning_rate": 0.00028561216770456267,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 179270912,
+      "step": 82995
+    },
+    {
+      "epoch": 13.539967373572594,
+      "grad_norm": 0.01611095853149891,
+      "learning_rate": 0.000285547865242633,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 179280864,
+      "step": 83000
+    },
+    {
+      "epoch": 13.540783034257748,
+      "grad_norm": 0.012098937295377254,
+      "learning_rate": 0.000285483567126848,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 179292288,
+      "step": 83005
+    },
+    {
+      "epoch": 13.541598694942904,
+      "grad_norm": 0.009693530388176441,
+      "learning_rate": 0.0002854192733585107,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 179302432,
+      "step": 83010
+    },
+    {
+      "epoch": 13.54241435562806,
+      "grad_norm": 0.0010672948556020856,
+      "learning_rate": 0.000285354983938924,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 179313440,
+      "step": 83015
+    },
+    {
+      "epoch": 13.543230016313213,
+      "grad_norm": 0.05182463303208351,
+      "learning_rate": 0.0002852906988693909,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 179324960,
+      "step": 83020
+    },
+    {
+      "epoch": 13.544045676998369,
+      "grad_norm": 0.10404568165540695,
+      "learning_rate": 0.0002852264181512142,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 179335424,
+      "step": 83025
+    },
+    {
+      "epoch": 13.544861337683523,
+      "grad_norm": 0.013150133192539215,
+      "learning_rate": 0.00028516214178569656,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 179347392,
+      "step": 83030
+    },
+    {
+      "epoch": 13.545676998368679,
+      "grad_norm": 0.05724117159843445,
+      "learning_rate": 0.0002850978697741406,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 179357920,
+      "step": 83035
+    },
+    {
+      "epoch": 13.546492659053834,
+      "grad_norm": 0.004341833759099245,
+      "learning_rate": 0.000285033602117849,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 179368736,
+      "step": 83040
+    },
+    {
+      "epoch": 13.547308319738988,
+      "grad_norm": 0.03877821937203407,
+      "learning_rate": 0.0002849693388181241,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 179380320,
+      "step": 83045
+    },
+    {
+      "epoch": 13.548123980424144,
+      "grad_norm": 0.015632281079888344,
+      "learning_rate": 0.00028490507987626837,
+      "loss": 0.0901,
+      "num_input_tokens_seen": 179389792,
+      "step": 83050
+    },
+    {
+      "epoch": 13.548939641109298,
+      "grad_norm": 0.0029565368313342333,
+      "learning_rate": 0.00028484082529358403,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 179401504,
+      "step": 83055
+    },
+    {
+      "epoch": 13.549755301794454,
+      "grad_norm": 0.6263442039489746,
+      "learning_rate": 0.0002847765750713733,
+      "loss": 0.1232,
+      "num_input_tokens_seen": 179412736,
+      "step": 83060
+    },
+    {
+      "epoch": 13.550570962479608,
+      "grad_norm": 0.009329462423920631,
+      "learning_rate": 0.0002847123292109382,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 179424288,
+      "step": 83065
+    },
+    {
+      "epoch": 13.551386623164763,
+      "grad_norm": 0.004615492187440395,
+      "learning_rate": 0.0002846480877135812,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 179435904,
+      "step": 83070
+    },
+    {
+      "epoch": 13.552202283849919,
+      "grad_norm": 0.08717557042837143,
+      "learning_rate": 0.00028458385058060355,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 179446688,
+      "step": 83075
+    },
+    {
+      "epoch": 13.553017944535073,
+      "grad_norm": 0.05257457494735718,
+      "learning_rate": 0.0002845196178133078,
+      "loss": 0.104,
+      "num_input_tokens_seen": 179456992,
+      "step": 83080
+    },
+    {
+      "epoch": 13.553833605220229,
+      "grad_norm": 0.0037878549192100763,
+      "learning_rate": 0.00028445538941299493,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 179468000,
+      "step": 83085
+    },
+    {
+      "epoch": 13.554649265905383,
+      "grad_norm": 0.015577950514853,
+      "learning_rate": 0.00028439116538096743,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 179478880,
+      "step": 83090
+    },
+    {
+      "epoch": 13.555464926590538,
+      "grad_norm": 0.011540939100086689,
+      "learning_rate": 0.0002843269457185261,
+      "loss": 0.1051,
+      "num_input_tokens_seen": 179490208,
+      "step": 83095
+    },
+    {
+      "epoch": 13.556280587275694,
+      "grad_norm": 0.005807126872241497,
+      "learning_rate": 0.00028426273042697327,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 179501056,
+      "step": 83100
+    },
+    {
+      "epoch": 13.557096247960848,
+      "grad_norm": 0.3871236741542816,
+      "learning_rate": 0.0002841985195076094,
+      "loss": 0.1398,
+      "num_input_tokens_seen": 179511872,
+      "step": 83105
+    },
+    {
+      "epoch": 13.557911908646004,
+      "grad_norm": 0.002544855000451207,
+      "learning_rate": 0.0002841343129617365,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 179522784,
+      "step": 83110
+    },
+    {
+      "epoch": 13.558727569331158,
+      "grad_norm": 0.006097372155636549,
+      "learning_rate": 0.0002840701107906557,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 179534528,
+      "step": 83115
+    },
+    {
+      "epoch": 13.559543230016313,
+      "grad_norm": 0.22003108263015747,
+      "learning_rate": 0.00028400591299566793,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 179545312,
+      "step": 83120
+    },
+    {
+      "epoch": 13.560358890701469,
+      "grad_norm": 0.006511087529361248,
+      "learning_rate": 0.00028394171957807433,
+      "loss": 0.0388,
+      "num_input_tokens_seen": 179554720,
+      "step": 83125
+    },
+    {
+      "epoch": 13.561174551386623,
+      "grad_norm": 0.013055982068181038,
+      "learning_rate": 0.000283877530539176,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 179566304,
+      "step": 83130
+    },
+    {
+      "epoch": 13.561990212071779,
+      "grad_norm": 1.0412561893463135,
+      "learning_rate": 0.00028381334588027353,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 179575968,
+      "step": 83135
+    },
+    {
+      "epoch": 13.562805872756933,
+      "grad_norm": 0.006631617899984121,
+      "learning_rate": 0.00028374916560266794,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 179586688,
+      "step": 83140
+    },
+    {
+      "epoch": 13.563621533442088,
+      "grad_norm": 0.004046297632157803,
+      "learning_rate": 0.0002836849897076598,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 179597280,
+      "step": 83145
+    },
+    {
+      "epoch": 13.564437194127244,
+      "grad_norm": 0.054977841675281525,
+      "learning_rate": 0.00028362081819654984,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 179607904,
+      "step": 83150
+    },
+    {
+      "epoch": 13.565252854812398,
+      "grad_norm": 0.00645839050412178,
+      "learning_rate": 0.00028355665107063845,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 179620256,
+      "step": 83155
+    },
+    {
+      "epoch": 13.566068515497554,
+      "grad_norm": 0.0034914060961455107,
+      "learning_rate": 0.00028349248833122603,
+      "loss": 0.0818,
+      "num_input_tokens_seen": 179630720,
+      "step": 83160
+    },
+    {
+      "epoch": 13.566884176182707,
+      "grad_norm": 0.03189859911799431,
+      "learning_rate": 0.0002834283299796131,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 179640352,
+      "step": 83165
+    },
+    {
+      "epoch": 13.567699836867863,
+      "grad_norm": 0.010987777262926102,
+      "learning_rate": 0.00028336417601709975,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 179652128,
+      "step": 83170
+    },
+    {
+      "epoch": 13.568515497553017,
+      "grad_norm": 0.009719179011881351,
+      "learning_rate": 0.0002833000264449862,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 179663584,
+      "step": 83175
+    },
+    {
+      "epoch": 13.569331158238173,
+      "grad_norm": 0.008665206842124462,
+      "learning_rate": 0.00028323588126457255,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 179674912,
+      "step": 83180
+    },
+    {
+      "epoch": 13.570146818923329,
+      "grad_norm": 0.002040495164692402,
+      "learning_rate": 0.00028317174047715873,
+      "loss": 0.093,
+      "num_input_tokens_seen": 179685664,
+      "step": 83185
+    },
+    {
+      "epoch": 13.570962479608482,
+      "grad_norm": 0.010339323431253433,
+      "learning_rate": 0.0002831076040840446,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 179696608,
+      "step": 83190
+    },
+    {
+      "epoch": 13.571778140293638,
+      "grad_norm": 0.03784068301320076,
+      "learning_rate": 0.0002830434720865301,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 179706560,
+      "step": 83195
+    },
+    {
+      "epoch": 13.572593800978792,
+      "grad_norm": 0.011570471338927746,
+      "learning_rate": 0.0002829793444859148,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 179718336,
+      "step": 83200
+    },
+    {
+      "epoch": 13.573409461663948,
+      "grad_norm": 0.0015834379009902477,
+      "learning_rate": 0.0002829152212834984,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 179728896,
+      "step": 83205
+    },
+    {
+      "epoch": 13.574225122349104,
+      "grad_norm": 0.025010643526911736,
+      "learning_rate": 0.0002828511024805803,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 179739424,
+      "step": 83210
+    },
+    {
+      "epoch": 13.575040783034257,
+      "grad_norm": 0.03622874245047569,
+      "learning_rate": 0.0002827869880784605,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 179749024,
+      "step": 83215
+    },
+    {
+      "epoch": 13.575856443719413,
+      "grad_norm": 0.2895975112915039,
+      "learning_rate": 0.00028272287807843744,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 179759712,
+      "step": 83220
+    },
+    {
+      "epoch": 13.576672104404567,
+      "grad_norm": 0.03724903613328934,
+      "learning_rate": 0.00028265877248181113,
+      "loss": 0.1597,
+      "num_input_tokens_seen": 179769344,
+      "step": 83225
+    },
+    {
+      "epoch": 13.577487765089723,
+      "grad_norm": 0.005164381116628647,
+      "learning_rate": 0.0002825946712898806,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 179781216,
+      "step": 83230
+    },
+    {
+      "epoch": 13.578303425774878,
+      "grad_norm": 0.08302219212055206,
+      "learning_rate": 0.0002825305745039447,
+      "loss": 0.1403,
+      "num_input_tokens_seen": 179792448,
+      "step": 83235
+    },
+    {
+      "epoch": 13.579119086460032,
+      "grad_norm": 0.05873296037316322,
+      "learning_rate": 0.00028246648212530267,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 179802528,
+      "step": 83240
+    },
+    {
+      "epoch": 13.579934747145188,
+      "grad_norm": 0.04700169339776039,
+      "learning_rate": 0.00028240239415525337,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 179813216,
+      "step": 83245
+    },
+    {
+      "epoch": 13.580750407830342,
+      "grad_norm": 0.05630794167518616,
+      "learning_rate": 0.0002823383105950955,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 179824864,
+      "step": 83250
+    },
+    {
+      "epoch": 13.581566068515498,
+      "grad_norm": 0.035866476595401764,
+      "learning_rate": 0.00028227423144612794,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 179836416,
+      "step": 83255
+    },
+    {
+      "epoch": 13.582381729200652,
+      "grad_norm": 0.021164124831557274,
+      "learning_rate": 0.00028221015670964935,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 179848064,
+      "step": 83260
+    },
+    {
+      "epoch": 13.583197389885807,
+      "grad_norm": 0.40941694378852844,
+      "learning_rate": 0.0002821460863869582,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 179859968,
+      "step": 83265
+    },
+    {
+      "epoch": 13.584013050570963,
+      "grad_norm": 0.0200693067163229,
+      "learning_rate": 0.0002820820204793529,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 179870816,
+      "step": 83270
+    },
+    {
+      "epoch": 13.584828711256117,
+      "grad_norm": 0.6771963238716125,
+      "learning_rate": 0.0002820179589881319,
+      "loss": 0.0799,
+      "num_input_tokens_seen": 179881952,
+      "step": 83275
+    },
+    {
+      "epoch": 13.585644371941273,
+      "grad_norm": 0.01566133089363575,
+      "learning_rate": 0.00028195390191459356,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 179892896,
+      "step": 83280
+    },
+    {
+      "epoch": 13.586460032626427,
+      "grad_norm": 0.00984056293964386,
+      "learning_rate": 0.000281889849260036,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 179903584,
+      "step": 83285
+    },
+    {
+      "epoch": 13.587275693311582,
+      "grad_norm": 0.014284429140388966,
+      "learning_rate": 0.00028182580102575726,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 179914528,
+      "step": 83290
+    },
+    {
+      "epoch": 13.588091353996738,
+      "grad_norm": 0.010695664212107658,
+      "learning_rate": 0.00028176175721305555,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 179925184,
+      "step": 83295
+    },
+    {
+      "epoch": 13.588907014681892,
+      "grad_norm": 0.04023078456521034,
+      "learning_rate": 0.0002816977178232286,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 179934880,
+      "step": 83300
+    },
+    {
+      "epoch": 13.589722675367048,
+      "grad_norm": 0.11148897558450699,
+      "learning_rate": 0.0002816336828575744,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 179944768,
+      "step": 83305
+    },
+    {
+      "epoch": 13.590538336052202,
+      "grad_norm": 0.02717600390315056,
+      "learning_rate": 0.0002815696523173906,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 179954240,
+      "step": 83310
+    },
+    {
+      "epoch": 13.591353996737357,
+      "grad_norm": 0.05596160888671875,
+      "learning_rate": 0.0002815056262039749,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 179965568,
+      "step": 83315
+    },
+    {
+      "epoch": 13.592169657422513,
+      "grad_norm": 0.008291252888739109,
+      "learning_rate": 0.0002814416045186249,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 179976032,
+      "step": 83320
+    },
+    {
+      "epoch": 13.592985318107667,
+      "grad_norm": 1.1229381561279297,
+      "learning_rate": 0.00028137758726263796,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 179987232,
+      "step": 83325
+    },
+    {
+      "epoch": 13.593800978792823,
+      "grad_norm": 0.07029259949922562,
+      "learning_rate": 0.0002813135744373114,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 179998176,
+      "step": 83330
+    },
+    {
+      "epoch": 13.594616639477977,
+      "grad_norm": 0.0030100038275122643,
+      "learning_rate": 0.000281249566043943,
+      "loss": 0.018,
+      "num_input_tokens_seen": 180008768,
+      "step": 83335
+    },
+    {
+      "epoch": 13.595432300163132,
+      "grad_norm": 0.005541645456105471,
+      "learning_rate": 0.0002811855620838294,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 180018208,
+      "step": 83340
+    },
+    {
+      "epoch": 13.596247960848288,
+      "grad_norm": 0.008036543615162373,
+      "learning_rate": 0.00028112156255826826,
+      "loss": 0.0709,
+      "num_input_tokens_seen": 180029792,
+      "step": 83345
+    },
+    {
+      "epoch": 13.597063621533442,
+      "grad_norm": 0.0052529601380229,
+      "learning_rate": 0.000281057567468556,
+      "loss": 0.009,
+      "num_input_tokens_seen": 180041184,
+      "step": 83350
+    },
+    {
+      "epoch": 13.597879282218598,
+      "grad_norm": 0.1867624670267105,
+      "learning_rate": 0.00028099357681599004,
+      "loss": 0.011,
+      "num_input_tokens_seen": 180052032,
+      "step": 83355
+    },
+    {
+      "epoch": 13.598694942903752,
+      "grad_norm": 0.04028286039829254,
+      "learning_rate": 0.0002809295906018671,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 180061664,
+      "step": 83360
+    },
+    {
+      "epoch": 13.599510603588907,
+      "grad_norm": 0.056735120713710785,
+      "learning_rate": 0.00028086560882748386,
+      "loss": 0.1783,
+      "num_input_tokens_seen": 180072960,
+      "step": 83365
+    },
+    {
+      "epoch": 13.600326264274061,
+      "grad_norm": 0.0013902663486078382,
+      "learning_rate": 0.00028080163149413705,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 180084576,
+      "step": 83370
+    },
+    {
+      "epoch": 13.601141924959217,
+      "grad_norm": 0.0006005800678394735,
+      "learning_rate": 0.0002807376586031233,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 180095008,
+      "step": 83375
+    },
+    {
+      "epoch": 13.601957585644373,
+      "grad_norm": 0.002407664433121681,
+      "learning_rate": 0.0002806736901557391,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 180106784,
+      "step": 83380
+    },
+    {
+      "epoch": 13.602773246329527,
+      "grad_norm": 0.04227178543806076,
+      "learning_rate": 0.00028060972615328065,
+      "loss": 0.013,
+      "num_input_tokens_seen": 180117152,
+      "step": 83385
+    },
+    {
+      "epoch": 13.603588907014682,
+      "grad_norm": 0.00501489220187068,
+      "learning_rate": 0.00028054576659704457,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 180128576,
+      "step": 83390
+    },
+    {
+      "epoch": 13.604404567699836,
+      "grad_norm": 0.00669768825173378,
+      "learning_rate": 0.00028048181148832685,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 180139264,
+      "step": 83395
+    },
+    {
+      "epoch": 13.605220228384992,
+      "grad_norm": 0.02733282558619976,
+      "learning_rate": 0.00028041786082842366,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 180148736,
+      "step": 83400
+    },
+    {
+      "epoch": 13.606035889070148,
+      "grad_norm": 0.0024951754603534937,
+      "learning_rate": 0.0002803539146186311,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 180158944,
+      "step": 83405
+    },
+    {
+      "epoch": 13.606851549755302,
+      "grad_norm": 0.0043714833445847034,
+      "learning_rate": 0.0002802899728602452,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 180169664,
+      "step": 83410
+    },
+    {
+      "epoch": 13.607667210440457,
+      "grad_norm": 0.0753655731678009,
+      "learning_rate": 0.00028022603555456164,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 180180064,
+      "step": 83415
+    },
+    {
+      "epoch": 13.608482871125611,
+      "grad_norm": 0.013464689254760742,
+      "learning_rate": 0.00028016210270287635,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 180190912,
+      "step": 83420
+    },
+    {
+      "epoch": 13.609298531810767,
+      "grad_norm": 0.06028769165277481,
+      "learning_rate": 0.00028009817430648483,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 180202880,
+      "step": 83425
+    },
+    {
+      "epoch": 13.61011419249592,
+      "grad_norm": 0.014267779886722565,
+      "learning_rate": 0.00028003425036668287,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 180213728,
+      "step": 83430
+    },
+    {
+      "epoch": 13.610929853181077,
+      "grad_norm": 0.0189402736723423,
+      "learning_rate": 0.00027997033088476554,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 180223936,
+      "step": 83435
+    },
+    {
+      "epoch": 13.611745513866232,
+      "grad_norm": 0.18437455594539642,
+      "learning_rate": 0.000279906415862029,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 180234624,
+      "step": 83440
+    },
+    {
+      "epoch": 13.612561174551386,
+      "grad_norm": 0.2045287787914276,
+      "learning_rate": 0.00027984250529976783,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 180245088,
+      "step": 83445
+    },
+    {
+      "epoch": 13.613376835236542,
+      "grad_norm": 0.06810999661684036,
+      "learning_rate": 0.000279778599199278,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 180257344,
+      "step": 83450
+    },
+    {
+      "epoch": 13.614192495921696,
+      "grad_norm": 0.01237307209521532,
+      "learning_rate": 0.0002797146975618538,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 180268672,
+      "step": 83455
+    },
+    {
+      "epoch": 13.615008156606851,
+      "grad_norm": 0.0055781882256269455,
+      "learning_rate": 0.0002796508003887911,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 180280640,
+      "step": 83460
+    },
+    {
+      "epoch": 13.615823817292007,
+      "grad_norm": 0.08466996997594833,
+      "learning_rate": 0.00027958690768138406,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 180290656,
+      "step": 83465
+    },
+    {
+      "epoch": 13.616639477977161,
+      "grad_norm": 0.2827630639076233,
+      "learning_rate": 0.0002795230194409283,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 180300672,
+      "step": 83470
+    },
+    {
+      "epoch": 13.617455138662317,
+      "grad_norm": 0.037059321999549866,
+      "learning_rate": 0.00027945913566871793,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 180311008,
+      "step": 83475
+    },
+    {
+      "epoch": 13.61827079934747,
+      "grad_norm": 0.38653436303138733,
+      "learning_rate": 0.0002793952563660483,
+      "loss": 0.0219,
+      "num_input_tokens_seen": 180322048,
+      "step": 83480
+    },
+    {
+      "epoch": 13.619086460032626,
+      "grad_norm": 0.250503808259964,
+      "learning_rate": 0.0002793313815342133,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 180332960,
+      "step": 83485
+    },
+    {
+      "epoch": 13.619902120717782,
+      "grad_norm": 0.4236673414707184,
+      "learning_rate": 0.0002792675111745081,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 180343040,
+      "step": 83490
+    },
+    {
+      "epoch": 13.620717781402936,
+      "grad_norm": 0.009462445043027401,
+      "learning_rate": 0.0002792036452882265,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 180353792,
+      "step": 83495
+    },
+    {
+      "epoch": 13.621533442088092,
+      "grad_norm": 0.005843911319971085,
+      "learning_rate": 0.00027913978387666326,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 180363264,
+      "step": 83500
+    },
+    {
+      "epoch": 13.622349102773246,
+      "grad_norm": 0.06309421360492706,
+      "learning_rate": 0.0002790759269411125,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 180374272,
+      "step": 83505
+    },
+    {
+      "epoch": 13.623164763458401,
+      "grad_norm": 0.005838216748088598,
+      "learning_rate": 0.00027901207448286836,
+      "loss": 0.112,
+      "num_input_tokens_seen": 180385952,
+      "step": 83510
+    },
+    {
+      "epoch": 13.623980424143557,
+      "grad_norm": 0.15519148111343384,
+      "learning_rate": 0.0002789482265032249,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 180396192,
+      "step": 83515
+    },
+    {
+      "epoch": 13.624796084828711,
+      "grad_norm": 0.024984611198306084,
+      "learning_rate": 0.00027888438300347607,
+      "loss": 0.1304,
+      "num_input_tokens_seen": 180406976,
+      "step": 83520
+    },
+    {
+      "epoch": 13.625611745513867,
+      "grad_norm": 0.3052389323711395,
+      "learning_rate": 0.00027882054398491564,
+      "loss": 0.0616,
+      "num_input_tokens_seen": 180418752,
+      "step": 83525
+    },
+    {
+      "epoch": 13.62642740619902,
+      "grad_norm": 0.007396694738417864,
+      "learning_rate": 0.0002787567094488375,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 180430048,
+      "step": 83530
+    },
+    {
+      "epoch": 13.627243066884176,
+      "grad_norm": 0.019618911668658257,
+      "learning_rate": 0.00027869287939653534,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 180441792,
+      "step": 83535
+    },
+    {
+      "epoch": 13.62805872756933,
+      "grad_norm": 0.012303023599088192,
+      "learning_rate": 0.0002786290538293027,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 180453152,
+      "step": 83540
+    },
+    {
+      "epoch": 13.628874388254486,
+      "grad_norm": 0.09575760364532471,
+      "learning_rate": 0.00027856523274843314,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 180463296,
+      "step": 83545
+    },
+    {
+      "epoch": 13.629690048939642,
+      "grad_norm": 0.014896899461746216,
+      "learning_rate": 0.00027850141615521983,
+      "loss": 0.1152,
+      "num_input_tokens_seen": 180473856,
+      "step": 83550
+    },
+    {
+      "epoch": 13.630505709624796,
+      "grad_norm": 0.14120285212993622,
+      "learning_rate": 0.0002784376040509567,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 180483264,
+      "step": 83555
+    },
+    {
+      "epoch": 13.631321370309951,
+      "grad_norm": 0.01524326205253601,
+      "learning_rate": 0.00027837379643693615,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 180493376,
+      "step": 83560
+    },
+    {
+      "epoch": 13.632137030995105,
+      "grad_norm": 0.161854088306427,
+      "learning_rate": 0.0002783099933144523,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 180504064,
+      "step": 83565
+    },
+    {
+      "epoch": 13.632952691680261,
+      "grad_norm": 0.0047560338862240314,
+      "learning_rate": 0.00027824619468479715,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 180515392,
+      "step": 83570
+    },
+    {
+      "epoch": 13.633768352365417,
+      "grad_norm": 0.027127450332045555,
+      "learning_rate": 0.00027818240054926463,
+      "loss": 0.007,
+      "num_input_tokens_seen": 180525216,
+      "step": 83575
+    },
+    {
+      "epoch": 13.63458401305057,
+      "grad_norm": 0.0030362384859472513,
+      "learning_rate": 0.0002781186109091467,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 180537024,
+      "step": 83580
+    },
+    {
+      "epoch": 13.635399673735726,
+      "grad_norm": 0.00605916790664196,
+      "learning_rate": 0.0002780548257657371,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 180547744,
+      "step": 83585
+    },
+    {
+      "epoch": 13.63621533442088,
+      "grad_norm": 0.06712619960308075,
+      "learning_rate": 0.00027799104512032756,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 180557472,
+      "step": 83590
+    },
+    {
+      "epoch": 13.637030995106036,
+      "grad_norm": 0.0055035678669810295,
+      "learning_rate": 0.0002779272689742115,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 180568320,
+      "step": 83595
+    },
+    {
+      "epoch": 13.63784665579119,
+      "grad_norm": 0.009830011986196041,
+      "learning_rate": 0.0002778634973286807,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 180579040,
+      "step": 83600
+    },
+    {
+      "epoch": 13.638662316476346,
+      "grad_norm": 0.059241216629743576,
+      "learning_rate": 0.00027779973018502834,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 180590016,
+      "step": 83605
+    },
+    {
+      "epoch": 13.639477977161501,
+      "grad_norm": 0.002657790668308735,
+      "learning_rate": 0.0002777359675445459,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 180600960,
+      "step": 83610
+    },
+    {
+      "epoch": 13.640293637846655,
+      "grad_norm": 0.11882360279560089,
+      "learning_rate": 0.00027767220940852646,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 180610848,
+      "step": 83615
+    },
+    {
+      "epoch": 13.641109298531811,
+      "grad_norm": 0.004164085257798433,
+      "learning_rate": 0.0002776084557782613,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 180622048,
+      "step": 83620
+    },
+    {
+      "epoch": 13.641924959216965,
+      "grad_norm": 0.007447056006640196,
+      "learning_rate": 0.00027754470665504336,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 180634016,
+      "step": 83625
+    },
+    {
+      "epoch": 13.64274061990212,
+      "grad_norm": 0.007610693573951721,
+      "learning_rate": 0.0002774809620401637,
+      "loss": 0.002,
+      "num_input_tokens_seen": 180644576,
+      "step": 83630
+    },
+    {
+      "epoch": 13.643556280587276,
+      "grad_norm": 0.017725123092532158,
+      "learning_rate": 0.000277417221934915,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 180656544,
+      "step": 83635
+    },
+    {
+      "epoch": 13.64437194127243,
+      "grad_norm": 0.002556213643401861,
+      "learning_rate": 0.00027735348634058834,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 180668480,
+      "step": 83640
+    },
+    {
+      "epoch": 13.645187601957586,
+      "grad_norm": 2.327058792114258,
+      "learning_rate": 0.0002772897552584759,
+      "loss": 0.1113,
+      "num_input_tokens_seen": 180679424,
+      "step": 83645
+    },
+    {
+      "epoch": 13.64600326264274,
+      "grad_norm": 0.0008912270423024893,
+      "learning_rate": 0.000277226028689869,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 180690208,
+      "step": 83650
+    },
+    {
+      "epoch": 13.646818923327896,
+      "grad_norm": 0.03987288847565651,
+      "learning_rate": 0.00027716230663605933,
+      "loss": 0.013,
+      "num_input_tokens_seen": 180700704,
+      "step": 83655
+    },
+    {
+      "epoch": 13.647634584013051,
+      "grad_norm": 0.09051557630300522,
+      "learning_rate": 0.00027709858909833823,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 180711488,
+      "step": 83660
+    },
+    {
+      "epoch": 13.648450244698205,
+      "grad_norm": 0.2718043923377991,
+      "learning_rate": 0.000277034876077997,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 180722400,
+      "step": 83665
+    },
+    {
+      "epoch": 13.649265905383361,
+      "grad_norm": 0.012056714855134487,
+      "learning_rate": 0.00027697116757632677,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 180733472,
+      "step": 83670
+    },
+    {
+      "epoch": 13.650081566068515,
+      "grad_norm": 0.0026014503091573715,
+      "learning_rate": 0.0002769074635946188,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 180744416,
+      "step": 83675
+    },
+    {
+      "epoch": 13.65089722675367,
+      "grad_norm": 0.006171499844640493,
+      "learning_rate": 0.0002768437641341641,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 180756480,
+      "step": 83680
+    },
+    {
+      "epoch": 13.651712887438826,
+      "grad_norm": 0.018329549580812454,
+      "learning_rate": 0.00027678006919625367,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 180766912,
+      "step": 83685
+    },
+    {
+      "epoch": 13.65252854812398,
+      "grad_norm": 0.09856487810611725,
+      "learning_rate": 0.00027671637878217824,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 180777888,
+      "step": 83690
+    },
+    {
+      "epoch": 13.653344208809136,
+      "grad_norm": 0.0025012048427015543,
+      "learning_rate": 0.0002766526928932285,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 180789408,
+      "step": 83695
+    },
+    {
+      "epoch": 13.65415986949429,
+      "grad_norm": 0.007546972017735243,
+      "learning_rate": 0.0002765890115306956,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 180799712,
+      "step": 83700
+    },
+    {
+      "epoch": 13.654975530179446,
+      "grad_norm": 0.023198723793029785,
+      "learning_rate": 0.0002765253346958695,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 180811104,
+      "step": 83705
+    },
+    {
+      "epoch": 13.655791190864601,
+      "grad_norm": 0.0014068408636376262,
+      "learning_rate": 0.00027646166239004134,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 180823296,
+      "step": 83710
+    },
+    {
+      "epoch": 13.656606851549755,
+      "grad_norm": 0.005566820967942476,
+      "learning_rate": 0.0002763979946145008,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 180834336,
+      "step": 83715
+    },
+    {
+      "epoch": 13.65742251223491,
+      "grad_norm": 0.0010641274275258183,
+      "learning_rate": 0.00027633433137053885,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 180844192,
+      "step": 83720
+    },
+    {
+      "epoch": 13.658238172920065,
+      "grad_norm": 0.006609211675822735,
+      "learning_rate": 0.00027627067265944514,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 180855616,
+      "step": 83725
+    },
+    {
+      "epoch": 13.65905383360522,
+      "grad_norm": 0.06236208230257034,
+      "learning_rate": 0.0002762070184825104,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 180867552,
+      "step": 83730
+    },
+    {
+      "epoch": 13.659869494290374,
+      "grad_norm": 0.0006166854873299599,
+      "learning_rate": 0.00027614336884102393,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 180878208,
+      "step": 83735
+    },
+    {
+      "epoch": 13.66068515497553,
+      "grad_norm": 0.7124009728431702,
+      "learning_rate": 0.0002760797237362765,
+      "loss": 0.0983,
+      "num_input_tokens_seen": 180889664,
+      "step": 83740
+    },
+    {
+      "epoch": 13.661500815660686,
+      "grad_norm": 0.029279787093400955,
+      "learning_rate": 0.00027601608316955715,
+      "loss": 0.0246,
+      "num_input_tokens_seen": 180901280,
+      "step": 83745
+    },
+    {
+      "epoch": 13.66231647634584,
+      "grad_norm": 0.0014781494392082095,
+      "learning_rate": 0.0002759524471421562,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 180911712,
+      "step": 83750
+    },
+    {
+      "epoch": 13.663132137030995,
+      "grad_norm": 0.007471561431884766,
+      "learning_rate": 0.00027588881565536303,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 180922368,
+      "step": 83755
+    },
+    {
+      "epoch": 13.66394779771615,
+      "grad_norm": 0.0038479752838611603,
+      "learning_rate": 0.00027582518871046744,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 180933504,
+      "step": 83760
+    },
+    {
+      "epoch": 13.664763458401305,
+      "grad_norm": 0.03010265901684761,
+      "learning_rate": 0.00027576156630875875,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 180943296,
+      "step": 83765
+    },
+    {
+      "epoch": 13.66557911908646,
+      "grad_norm": 0.0018516803393140435,
+      "learning_rate": 0.0002756979484515264,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 180954944,
+      "step": 83770
+    },
+    {
+      "epoch": 13.666394779771615,
+      "grad_norm": 0.00570902694016695,
+      "learning_rate": 0.00027563433514005966,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 180965504,
+      "step": 83775
+    },
+    {
+      "epoch": 13.66721044045677,
+      "grad_norm": 0.5824912190437317,
+      "learning_rate": 0.0002755707263756477,
+      "loss": 0.1139,
+      "num_input_tokens_seen": 180977504,
+      "step": 83780
+    },
+    {
+      "epoch": 13.668026101141924,
+      "grad_norm": 0.01962290145456791,
+      "learning_rate": 0.0002755071221595798,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 180988160,
+      "step": 83785
+    },
+    {
+      "epoch": 13.66884176182708,
+      "grad_norm": 0.004911630880087614,
+      "learning_rate": 0.0002754435224931447,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 180998368,
+      "step": 83790
+    },
+    {
+      "epoch": 13.669657422512234,
+      "grad_norm": 0.00739239202812314,
+      "learning_rate": 0.00027537992737763163,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 181009024,
+      "step": 83795
+    },
+    {
+      "epoch": 13.67047308319739,
+      "grad_norm": 0.04392838850617409,
+      "learning_rate": 0.00027531633681432925,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 181020640,
+      "step": 83800
+    },
+    {
+      "epoch": 13.671288743882545,
+      "grad_norm": 0.004304789938032627,
+      "learning_rate": 0.0002752527508045263,
+      "loss": 0.1498,
+      "num_input_tokens_seen": 181030368,
+      "step": 83805
+    },
+    {
+      "epoch": 13.6721044045677,
+      "grad_norm": 0.0005669619422405958,
+      "learning_rate": 0.0002751891693495115,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 181040896,
+      "step": 83810
+    },
+    {
+      "epoch": 13.672920065252855,
+      "grad_norm": 0.011217975057661533,
+      "learning_rate": 0.00027512559245057333,
+      "loss": 0.064,
+      "num_input_tokens_seen": 181052256,
+      "step": 83815
+    },
+    {
+      "epoch": 13.673735725938009,
+      "grad_norm": 0.0023022620007395744,
+      "learning_rate": 0.00027506202010900037,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 181062912,
+      "step": 83820
+    },
+    {
+      "epoch": 13.674551386623165,
+      "grad_norm": 0.0035705927293747663,
+      "learning_rate": 0.00027499845232608087,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 181073632,
+      "step": 83825
+    },
+    {
+      "epoch": 13.67536704730832,
+      "grad_norm": 0.01892230100929737,
+      "learning_rate": 0.00027493488910310316,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 181084576,
+      "step": 83830
+    },
+    {
+      "epoch": 13.676182707993474,
+      "grad_norm": 0.008273656480014324,
+      "learning_rate": 0.0002748713304413555,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 181095360,
+      "step": 83835
+    },
+    {
+      "epoch": 13.67699836867863,
+      "grad_norm": 0.009142505936324596,
+      "learning_rate": 0.0002748077763421257,
+      "loss": 0.1122,
+      "num_input_tokens_seen": 181107712,
+      "step": 83840
+    },
+    {
+      "epoch": 13.677814029363784,
+      "grad_norm": 0.06141829863190651,
+      "learning_rate": 0.0002747442268067024,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 181119008,
+      "step": 83845
+    },
+    {
+      "epoch": 13.67862969004894,
+      "grad_norm": 0.0016691337805241346,
+      "learning_rate": 0.00027468068183637265,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 181130720,
+      "step": 83850
+    },
+    {
+      "epoch": 13.679445350734095,
+      "grad_norm": 0.0046843248419463634,
+      "learning_rate": 0.0002746171414324249,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 181142976,
+      "step": 83855
+    },
+    {
+      "epoch": 13.68026101141925,
+      "grad_norm": 0.44291582703590393,
+      "learning_rate": 0.00027455360559614677,
+      "loss": 0.027,
+      "num_input_tokens_seen": 181153920,
+      "step": 83860
+    },
+    {
+      "epoch": 13.681076672104405,
+      "grad_norm": 0.00250981654971838,
+      "learning_rate": 0.00027449007432882576,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 181163712,
+      "step": 83865
+    },
+    {
+      "epoch": 13.681892332789559,
+      "grad_norm": 0.011784011498093605,
+      "learning_rate": 0.00027442654763174955,
+      "loss": 0.0846,
+      "num_input_tokens_seen": 181173568,
+      "step": 83870
+    },
+    {
+      "epoch": 13.682707993474715,
+      "grad_norm": 0.008331255055963993,
+      "learning_rate": 0.00027436302550620545,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 181182752,
+      "step": 83875
+    },
+    {
+      "epoch": 13.68352365415987,
+      "grad_norm": 0.008108728565275669,
+      "learning_rate": 0.0002742995079534809,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 181193216,
+      "step": 83880
+    },
+    {
+      "epoch": 13.684339314845024,
+      "grad_norm": 0.006428302265703678,
+      "learning_rate": 0.0002742359949748632,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 181204512,
+      "step": 83885
+    },
+    {
+      "epoch": 13.68515497553018,
+      "grad_norm": 0.005887574050575495,
+      "learning_rate": 0.0002741724865716394,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 181215520,
+      "step": 83890
+    },
+    {
+      "epoch": 13.685970636215334,
+      "grad_norm": 0.021212387830018997,
+      "learning_rate": 0.0002741089827450966,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 181225984,
+      "step": 83895
+    },
+    {
+      "epoch": 13.68678629690049,
+      "grad_norm": 0.19733788073062897,
+      "learning_rate": 0.0002740454834965219,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 181237952,
+      "step": 83900
+    },
+    {
+      "epoch": 13.687601957585644,
+      "grad_norm": 0.058703526854515076,
+      "learning_rate": 0.0002739819888272021,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 181247840,
+      "step": 83905
+    },
+    {
+      "epoch": 13.6884176182708,
+      "grad_norm": 0.0021352344192564487,
+      "learning_rate": 0.000273918498738424,
+      "loss": 0.1252,
+      "num_input_tokens_seen": 181258048,
+      "step": 83910
+    },
+    {
+      "epoch": 13.689233278955955,
+      "grad_norm": 0.001603231648914516,
+      "learning_rate": 0.00027385501323147433,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 181268288,
+      "step": 83915
+    },
+    {
+      "epoch": 13.690048939641109,
+      "grad_norm": 0.0029747539665549994,
+      "learning_rate": 0.00027379153230763976,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 181278304,
+      "step": 83920
+    },
+    {
+      "epoch": 13.690864600326265,
+      "grad_norm": 0.0037416473496705294,
+      "learning_rate": 0.00027372805596820673,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 181289312,
+      "step": 83925
+    },
+    {
+      "epoch": 13.691680261011419,
+      "grad_norm": 0.0018563204212114215,
+      "learning_rate": 0.0002736645842144616,
+      "loss": 0.004,
+      "num_input_tokens_seen": 181300928,
+      "step": 83930
+    },
+    {
+      "epoch": 13.692495921696574,
+      "grad_norm": 0.042291343212127686,
+      "learning_rate": 0.00027360111704769093,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 181311840,
+      "step": 83935
+    },
+    {
+      "epoch": 13.69331158238173,
+      "grad_norm": 0.0007176153594627976,
+      "learning_rate": 0.00027353765446918075,
+      "loss": 0.0386,
+      "num_input_tokens_seen": 181321696,
+      "step": 83940
+    },
+    {
+      "epoch": 13.694127243066884,
+      "grad_norm": 0.0034198344219475985,
+      "learning_rate": 0.0002734741964802173,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 181333088,
+      "step": 83945
+    },
+    {
+      "epoch": 13.69494290375204,
+      "grad_norm": 0.0027348636649549007,
+      "learning_rate": 0.00027341074308208667,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 181344736,
+      "step": 83950
+    },
+    {
+      "epoch": 13.695758564437194,
+      "grad_norm": 0.0024968599900603294,
+      "learning_rate": 0.00027334729427607476,
+      "loss": 0.1133,
+      "num_input_tokens_seen": 181355136,
+      "step": 83955
+    },
+    {
+      "epoch": 13.69657422512235,
+      "grad_norm": 0.003038478083908558,
+      "learning_rate": 0.00027328385006346746,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 181365824,
+      "step": 83960
+    },
+    {
+      "epoch": 13.697389885807503,
+      "grad_norm": 0.1116863489151001,
+      "learning_rate": 0.00027322041044555045,
+      "loss": 0.0469,
+      "num_input_tokens_seen": 181376576,
+      "step": 83965
+    },
+    {
+      "epoch": 13.698205546492659,
+      "grad_norm": 0.016957435756921768,
+      "learning_rate": 0.00027315697542360944,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 181387744,
+      "step": 83970
+    },
+    {
+      "epoch": 13.699021207177815,
+      "grad_norm": 0.08671362698078156,
+      "learning_rate": 0.00027309354499893045,
+      "loss": 0.006,
+      "num_input_tokens_seen": 181398912,
+      "step": 83975
+    },
+    {
+      "epoch": 13.699836867862969,
+      "grad_norm": 0.0035883912350982428,
+      "learning_rate": 0.00027303011917279826,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 181410112,
+      "step": 83980
+    },
+    {
+      "epoch": 13.700652528548124,
+      "grad_norm": 0.21623927354812622,
+      "learning_rate": 0.00027296669794649875,
+      "loss": 0.011,
+      "num_input_tokens_seen": 181421600,
+      "step": 83985
+    },
+    {
+      "epoch": 13.701468189233278,
+      "grad_norm": 0.001589043764397502,
+      "learning_rate": 0.0002729032813213172,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 181432192,
+      "step": 83990
+    },
+    {
+      "epoch": 13.702283849918434,
+      "grad_norm": 0.0007788580842316151,
+      "learning_rate": 0.00027283986929853873,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 181443200,
+      "step": 83995
+    },
+    {
+      "epoch": 13.70309951060359,
+      "grad_norm": 0.005699070170521736,
+      "learning_rate": 0.0002727764618794485,
+      "loss": 0.0345,
+      "num_input_tokens_seen": 181453728,
+      "step": 84000
+    },
+    {
+      "epoch": 13.703915171288743,
+      "grad_norm": 0.00218218844383955,
+      "learning_rate": 0.00027271305906533146,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 181464192,
+      "step": 84005
+    },
+    {
+      "epoch": 13.7047308319739,
+      "grad_norm": 0.026671582832932472,
+      "learning_rate": 0.00027264966085747267,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 181475040,
+      "step": 84010
+    },
+    {
+      "epoch": 13.705546492659053,
+      "grad_norm": 0.010932182893157005,
+      "learning_rate": 0.00027258626725715684,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 181485952,
+      "step": 84015
+    },
+    {
+      "epoch": 13.706362153344209,
+      "grad_norm": 0.0035217327531427145,
+      "learning_rate": 0.0002725228782656689,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 181497504,
+      "step": 84020
+    },
+    {
+      "epoch": 13.707177814029365,
+      "grad_norm": 0.0011677873553708196,
+      "learning_rate": 0.00027245949388429334,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 181508896,
+      "step": 84025
+    },
+    {
+      "epoch": 13.707993474714518,
+      "grad_norm": 0.007658544462174177,
+      "learning_rate": 0.0002723961141143148,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 181519904,
+      "step": 84030
+    },
+    {
+      "epoch": 13.708809135399674,
+      "grad_norm": 0.009968415834009647,
+      "learning_rate": 0.0002723327389570177,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 181530688,
+      "step": 84035
+    },
+    {
+      "epoch": 13.709624796084828,
+      "grad_norm": 0.05588683858513832,
+      "learning_rate": 0.00027226936841368655,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 181541792,
+      "step": 84040
+    },
+    {
+      "epoch": 13.710440456769984,
+      "grad_norm": 0.0008577611879445612,
+      "learning_rate": 0.00027220600248560557,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 181552864,
+      "step": 84045
+    },
+    {
+      "epoch": 13.71125611745514,
+      "grad_norm": 0.4839954376220703,
+      "learning_rate": 0.00027214264117405884,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 181563264,
+      "step": 84050
+    },
+    {
+      "epoch": 13.712071778140293,
+      "grad_norm": 0.006796311587095261,
+      "learning_rate": 0.0002720792844803306,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 181574848,
+      "step": 84055
+    },
+    {
+      "epoch": 13.71288743882545,
+      "grad_norm": 0.0028383873868733644,
+      "learning_rate": 0.00027201593240570475,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 181584864,
+      "step": 84060
+    },
+    {
+      "epoch": 13.713703099510603,
+      "grad_norm": 0.011330782435834408,
+      "learning_rate": 0.00027195258495146525,
+      "loss": 0.0236,
+      "num_input_tokens_seen": 181596320,
+      "step": 84065
+    },
+    {
+      "epoch": 13.714518760195759,
+      "grad_norm": 0.004811130929738283,
+      "learning_rate": 0.00027188924211889593,
+      "loss": 0.002,
+      "num_input_tokens_seen": 181605632,
+      "step": 84070
+    },
+    {
+      "epoch": 13.715334420880914,
+      "grad_norm": 0.0025700810365378857,
+      "learning_rate": 0.0002718259039092803,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 181617888,
+      "step": 84075
+    },
+    {
+      "epoch": 13.716150081566068,
+      "grad_norm": 0.022676723077893257,
+      "learning_rate": 0.0002717625703239026,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 181629088,
+      "step": 84080
+    },
+    {
+      "epoch": 13.716965742251224,
+      "grad_norm": 0.05975797772407532,
+      "learning_rate": 0.00027169924136404553,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 181640064,
+      "step": 84085
+    },
+    {
+      "epoch": 13.717781402936378,
+      "grad_norm": 0.0030763172544538975,
+      "learning_rate": 0.00027163591703099335,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 181650432,
+      "step": 84090
+    },
+    {
+      "epoch": 13.718597063621534,
+      "grad_norm": 0.007155897095799446,
+      "learning_rate": 0.0002715725973260286,
+      "loss": 0.0326,
+      "num_input_tokens_seen": 181660512,
+      "step": 84095
+    },
+    {
+      "epoch": 13.719412724306688,
+      "grad_norm": 0.12784910202026367,
+      "learning_rate": 0.00027150928225043545,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 181672000,
+      "step": 84100
+    },
+    {
+      "epoch": 13.720228384991843,
+      "grad_norm": 0.006302386522293091,
+      "learning_rate": 0.00027144597180549603,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 181682688,
+      "step": 84105
+    },
+    {
+      "epoch": 13.721044045676999,
+      "grad_norm": 0.004140893928706646,
+      "learning_rate": 0.0002713826659924944,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 181693056,
+      "step": 84110
+    },
+    {
+      "epoch": 13.721859706362153,
+      "grad_norm": 0.009677722118794918,
+      "learning_rate": 0.00027131936481271265,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 181703072,
+      "step": 84115
+    },
+    {
+      "epoch": 13.722675367047309,
+      "grad_norm": 0.0024610969703644514,
+      "learning_rate": 0.00027125606826743445,
+      "loss": 0.0525,
+      "num_input_tokens_seen": 181714112,
+      "step": 84120
+    },
+    {
+      "epoch": 13.723491027732463,
+      "grad_norm": 0.01368603203445673,
+      "learning_rate": 0.0002711927763579418,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 181725088,
+      "step": 84125
+    },
+    {
+      "epoch": 13.724306688417618,
+      "grad_norm": 0.00212348741479218,
+      "learning_rate": 0.00027112948908551807,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 181734368,
+      "step": 84130
+    },
+    {
+      "epoch": 13.725122349102774,
+      "grad_norm": 0.0046083335764706135,
+      "learning_rate": 0.00027106620645144555,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 181744576,
+      "step": 84135
+    },
+    {
+      "epoch": 13.725938009787928,
+      "grad_norm": 0.004685471300035715,
+      "learning_rate": 0.00027100292845700676,
+      "loss": 0.0795,
+      "num_input_tokens_seen": 181754496,
+      "step": 84140
+    },
+    {
+      "epoch": 13.726753670473084,
+      "grad_norm": 0.002028076443821192,
+      "learning_rate": 0.0002709396551034842,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 181763840,
+      "step": 84145
+    },
+    {
+      "epoch": 13.727569331158238,
+      "grad_norm": 0.0031546044629067183,
+      "learning_rate": 0.00027087638639215994,
+      "loss": 0.005,
+      "num_input_tokens_seen": 181774656,
+      "step": 84150
+    },
+    {
+      "epoch": 13.728384991843393,
+      "grad_norm": 0.0017633294919505715,
+      "learning_rate": 0.00027081312232431654,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 181785696,
+      "step": 84155
+    },
+    {
+      "epoch": 13.729200652528547,
+      "grad_norm": 0.03633604198694229,
+      "learning_rate": 0.00027074986290123596,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 181796288,
+      "step": 84160
+    },
+    {
+      "epoch": 13.730016313213703,
+      "grad_norm": 0.013025002554059029,
+      "learning_rate": 0.0002706866081242001,
+      "loss": 0.028,
+      "num_input_tokens_seen": 181805376,
+      "step": 84165
+    },
+    {
+      "epoch": 13.730831973898859,
+      "grad_norm": 0.003769845236092806,
+      "learning_rate": 0.0002706233579944911,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 181814752,
+      "step": 84170
+    },
+    {
+      "epoch": 13.731647634584013,
+      "grad_norm": 0.006845514755696058,
+      "learning_rate": 0.00027056011251339073,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 181826496,
+      "step": 84175
+    },
+    {
+      "epoch": 13.732463295269168,
+      "grad_norm": 0.009542626328766346,
+      "learning_rate": 0.0002704968716821806,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 181836096,
+      "step": 84180
+    },
+    {
+      "epoch": 13.733278955954322,
+      "grad_norm": 0.0029800382908433676,
+      "learning_rate": 0.00027043363550214287,
+      "loss": 0.0934,
+      "num_input_tokens_seen": 181846976,
+      "step": 84185
+    },
+    {
+      "epoch": 13.734094616639478,
+      "grad_norm": 0.06575489789247513,
+      "learning_rate": 0.00027037040397455837,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 181856160,
+      "step": 84190
+    },
+    {
+      "epoch": 13.734910277324634,
+      "grad_norm": 0.002500128000974655,
+      "learning_rate": 0.0002703071771007093,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 181866496,
+      "step": 84195
+    },
+    {
+      "epoch": 13.735725938009788,
+      "grad_norm": 1.1656486988067627,
+      "learning_rate": 0.0002702439548818763,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 181876736,
+      "step": 84200
+    },
+    {
+      "epoch": 13.736541598694943,
+      "grad_norm": 0.0023803820367902517,
+      "learning_rate": 0.0002701807373193414,
+      "loss": 0.1148,
+      "num_input_tokens_seen": 181887616,
+      "step": 84205
+    },
+    {
+      "epoch": 13.737357259380097,
+      "grad_norm": 0.008336534723639488,
+      "learning_rate": 0.000270117524414385,
+      "loss": 0.0364,
+      "num_input_tokens_seen": 181897536,
+      "step": 84210
+    },
+    {
+      "epoch": 13.738172920065253,
+      "grad_norm": 0.003979240078479052,
+      "learning_rate": 0.000270054316168289,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 181909504,
+      "step": 84215
+    },
+    {
+      "epoch": 13.738988580750409,
+      "grad_norm": 0.003386629745364189,
+      "learning_rate": 0.0002699911125823336,
+      "loss": 0.004,
+      "num_input_tokens_seen": 181921088,
+      "step": 84220
+    },
+    {
+      "epoch": 13.739804241435563,
+      "grad_norm": 0.0035156127996742725,
+      "learning_rate": 0.0002699279136578005,
+      "loss": 0.1362,
+      "num_input_tokens_seen": 181931712,
+      "step": 84225
+    },
+    {
+      "epoch": 13.740619902120718,
+      "grad_norm": 0.00738931680098176,
+      "learning_rate": 0.0002698647193959697,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 181942816,
+      "step": 84230
+    },
+    {
+      "epoch": 13.741435562805872,
+      "grad_norm": 0.0014010763261467218,
+      "learning_rate": 0.00026980152979812265,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 181954016,
+      "step": 84235
+    },
+    {
+      "epoch": 13.742251223491028,
+      "grad_norm": 0.007098844274878502,
+      "learning_rate": 0.0002697383448655393,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 181964448,
+      "step": 84240
+    },
+    {
+      "epoch": 13.743066884176184,
+      "grad_norm": 0.0010831760009750724,
+      "learning_rate": 0.00026967516459950084,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 181974880,
+      "step": 84245
+    },
+    {
+      "epoch": 13.743882544861338,
+      "grad_norm": 0.46945667266845703,
+      "learning_rate": 0.000269611989001287,
+      "loss": 0.0636,
+      "num_input_tokens_seen": 181986080,
+      "step": 84250
+    },
+    {
+      "epoch": 13.744698205546493,
+      "grad_norm": 0.006263429298996925,
+      "learning_rate": 0.0002695488180721789,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 181995360,
+      "step": 84255
+    },
+    {
+      "epoch": 13.745513866231647,
+      "grad_norm": 0.025617733597755432,
+      "learning_rate": 0.0002694856518134559,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 182007648,
+      "step": 84260
+    },
+    {
+      "epoch": 13.746329526916803,
+      "grad_norm": 0.048633527010679245,
+      "learning_rate": 0.000269422490226399,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 182018080,
+      "step": 84265
+    },
+    {
+      "epoch": 13.747145187601957,
+      "grad_norm": 0.017586344853043556,
+      "learning_rate": 0.00026935933331228743,
+      "loss": 0.1629,
+      "num_input_tokens_seen": 182030368,
+      "step": 84270
+    },
+    {
+      "epoch": 13.747960848287113,
+      "grad_norm": 0.563724935054779,
+      "learning_rate": 0.00026929618107240173,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 182041504,
+      "step": 84275
+    },
+    {
+      "epoch": 13.748776508972268,
+      "grad_norm": 0.002480928786098957,
+      "learning_rate": 0.0002692330335080216,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 182050208,
+      "step": 84280
+    },
+    {
+      "epoch": 13.749592169657422,
+      "grad_norm": 0.6787986159324646,
+      "learning_rate": 0.00026916989062042684,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 182060704,
+      "step": 84285
+    },
+    {
+      "epoch": 13.750407830342578,
+      "grad_norm": 0.010774930939078331,
+      "learning_rate": 0.0002691067524108971,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 182072544,
+      "step": 84290
+    },
+    {
+      "epoch": 13.751223491027732,
+      "grad_norm": 0.022650204598903656,
+      "learning_rate": 0.00026904361888071193,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 182082656,
+      "step": 84295
+    },
+    {
+      "epoch": 13.752039151712887,
+      "grad_norm": 0.0077858190052211285,
+      "learning_rate": 0.0002689804900311508,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 182093088,
+      "step": 84300
+    },
+    {
+      "epoch": 13.752854812398043,
+      "grad_norm": 0.011099128052592278,
+      "learning_rate": 0.000268917365863493,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 182103648,
+      "step": 84305
+    },
+    {
+      "epoch": 13.753670473083197,
+      "grad_norm": 0.001572756445966661,
+      "learning_rate": 0.000268854246379018,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 182114976,
+      "step": 84310
+    },
+    {
+      "epoch": 13.754486133768353,
+      "grad_norm": 0.012012061662971973,
+      "learning_rate": 0.00026879113157900496,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 182125056,
+      "step": 84315
+    },
+    {
+      "epoch": 13.755301794453507,
+      "grad_norm": 0.004653714597225189,
+      "learning_rate": 0.00026872802146473296,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 182135104,
+      "step": 84320
+    },
+    {
+      "epoch": 13.756117455138662,
+      "grad_norm": 2.9742019176483154,
+      "learning_rate": 0.0002686649160374808,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 182146144,
+      "step": 84325
+    },
+    {
+      "epoch": 13.756933115823816,
+      "grad_norm": 0.0020722979679703712,
+      "learning_rate": 0.0002686018152985279,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 182158464,
+      "step": 84330
+    },
+    {
+      "epoch": 13.757748776508972,
+      "grad_norm": 0.0032649089116603136,
+      "learning_rate": 0.0002685387192491524,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 182168640,
+      "step": 84335
+    },
+    {
+      "epoch": 13.758564437194128,
+      "grad_norm": 0.014669415540993214,
+      "learning_rate": 0.0002684756278906338,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 182179712,
+      "step": 84340
+    },
+    {
+      "epoch": 13.759380097879282,
+      "grad_norm": 0.08696259558200836,
+      "learning_rate": 0.0002684125412242499,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 182191296,
+      "step": 84345
+    },
+    {
+      "epoch": 13.760195758564437,
+      "grad_norm": 0.19893871247768402,
+      "learning_rate": 0.00026834945925128005,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 182201696,
+      "step": 84350
+    },
+    {
+      "epoch": 13.761011419249591,
+      "grad_norm": 0.004175386857241392,
+      "learning_rate": 0.00026828638197300185,
+      "loss": 0.005,
+      "num_input_tokens_seen": 182211328,
+      "step": 84355
+    },
+    {
+      "epoch": 13.761827079934747,
+      "grad_norm": 0.01928592659533024,
+      "learning_rate": 0.0002682233093906945,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 182222336,
+      "step": 84360
+    },
+    {
+      "epoch": 13.762642740619903,
+      "grad_norm": 0.2888076603412628,
+      "learning_rate": 0.00026816024150563546,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 182233728,
+      "step": 84365
+    },
+    {
+      "epoch": 13.763458401305057,
+      "grad_norm": 0.46259981393814087,
+      "learning_rate": 0.00026809717831910353,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 182243296,
+      "step": 84370
+    },
+    {
+      "epoch": 13.764274061990212,
+      "grad_norm": 0.012987246736884117,
+      "learning_rate": 0.0002680341198323761,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 182254240,
+      "step": 84375
+    },
+    {
+      "epoch": 13.765089722675366,
+      "grad_norm": 0.009005763567984104,
+      "learning_rate": 0.0002679710660467319,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 182265632,
+      "step": 84380
+    },
+    {
+      "epoch": 13.765905383360522,
+      "grad_norm": 0.0051773120649158955,
+      "learning_rate": 0.00026790801696344814,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 182276960,
+      "step": 84385
+    },
+    {
+      "epoch": 13.766721044045678,
+      "grad_norm": 0.01954108476638794,
+      "learning_rate": 0.00026784497258380293,
+      "loss": 0.045,
+      "num_input_tokens_seen": 182288800,
+      "step": 84390
+    },
+    {
+      "epoch": 13.767536704730832,
+      "grad_norm": 0.02403266169130802,
+      "learning_rate": 0.0002677819329090738,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 182299136,
+      "step": 84395
+    },
+    {
+      "epoch": 13.768352365415987,
+      "grad_norm": 0.005993073806166649,
+      "learning_rate": 0.00026771889794053845,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 182309728,
+      "step": 84400
+    },
+    {
+      "epoch": 13.769168026101141,
+      "grad_norm": 0.004992147441953421,
+      "learning_rate": 0.00026765586767947433,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 182320352,
+      "step": 84405
+    },
+    {
+      "epoch": 13.769983686786297,
+      "grad_norm": 0.009609325788915157,
+      "learning_rate": 0.00026759284212715873,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 182330880,
+      "step": 84410
+    },
+    {
+      "epoch": 13.770799347471453,
+      "grad_norm": 0.004481468815356493,
+      "learning_rate": 0.000267529821284869,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 182341664,
+      "step": 84415
+    },
+    {
+      "epoch": 13.771615008156607,
+      "grad_norm": 0.00853494182229042,
+      "learning_rate": 0.0002674668051538824,
+      "loss": 0.0531,
+      "num_input_tokens_seen": 182353024,
+      "step": 84420
+    },
+    {
+      "epoch": 13.772430668841762,
+      "grad_norm": 0.05223782733082771,
+      "learning_rate": 0.0002674037937354761,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 182363840,
+      "step": 84425
+    },
+    {
+      "epoch": 13.773246329526916,
+      "grad_norm": 0.009661542251706123,
+      "learning_rate": 0.00026734078703092684,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 182374368,
+      "step": 84430
+    },
+    {
+      "epoch": 13.774061990212072,
+      "grad_norm": 0.004293730482459068,
+      "learning_rate": 0.0002672777850415117,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 182385024,
+      "step": 84435
+    },
+    {
+      "epoch": 13.774877650897226,
+      "grad_norm": 0.018209824338555336,
+      "learning_rate": 0.0002672147877685075,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 182394656,
+      "step": 84440
+    },
+    {
+      "epoch": 13.775693311582382,
+      "grad_norm": 0.001877213828265667,
+      "learning_rate": 0.00026715179521319095,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 182405536,
+      "step": 84445
+    },
+    {
+      "epoch": 13.776508972267537,
+      "grad_norm": 0.0022872108966112137,
+      "learning_rate": 0.00026708880737683863,
+      "loss": 0.1174,
+      "num_input_tokens_seen": 182416640,
+      "step": 84450
+    },
+    {
+      "epoch": 13.777324632952691,
+      "grad_norm": 0.07921797782182693,
+      "learning_rate": 0.00026702582426072705,
+      "loss": 0.008,
+      "num_input_tokens_seen": 182427712,
+      "step": 84455
+    },
+    {
+      "epoch": 13.778140293637847,
+      "grad_norm": 0.39221569895744324,
+      "learning_rate": 0.0002669628458661326,
+      "loss": 0.1612,
+      "num_input_tokens_seen": 182438432,
+      "step": 84460
+    },
+    {
+      "epoch": 13.778955954323001,
+      "grad_norm": 0.02193089947104454,
+      "learning_rate": 0.000266899872194332,
+      "loss": 0.1029,
+      "num_input_tokens_seen": 182448608,
+      "step": 84465
+    },
+    {
+      "epoch": 13.779771615008157,
+      "grad_norm": 0.015678465366363525,
+      "learning_rate": 0.0002668369032466009,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 182459168,
+      "step": 84470
+    },
+    {
+      "epoch": 13.780587275693312,
+      "grad_norm": 0.18530204892158508,
+      "learning_rate": 0.0002667739390242161,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 182469664,
+      "step": 84475
+    },
+    {
+      "epoch": 13.781402936378466,
+      "grad_norm": 0.373296320438385,
+      "learning_rate": 0.00026671097952845284,
+      "loss": 0.0379,
+      "num_input_tokens_seen": 182479136,
+      "step": 84480
+    },
+    {
+      "epoch": 13.782218597063622,
+      "grad_norm": 0.0032780959736555815,
+      "learning_rate": 0.00026664802476058803,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 182489632,
+      "step": 84485
+    },
+    {
+      "epoch": 13.783034257748776,
+      "grad_norm": 0.027845237404108047,
+      "learning_rate": 0.00026658507472189654,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 182501024,
+      "step": 84490
+    },
+    {
+      "epoch": 13.783849918433932,
+      "grad_norm": 0.013598952442407608,
+      "learning_rate": 0.0002665221294136548,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 182511936,
+      "step": 84495
+    },
+    {
+      "epoch": 13.784665579119086,
+      "grad_norm": 0.009678972885012627,
+      "learning_rate": 0.0002664591888371384,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 182521248,
+      "step": 84500
+    },
+    {
+      "epoch": 13.785481239804241,
+      "grad_norm": 0.003536543343216181,
+      "learning_rate": 0.00026639625299362276,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 182532256,
+      "step": 84505
+    },
+    {
+      "epoch": 13.786296900489397,
+      "grad_norm": 0.005610863212496042,
+      "learning_rate": 0.00026633332188438335,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 182543392,
+      "step": 84510
+    },
+    {
+      "epoch": 13.78711256117455,
+      "grad_norm": 0.004347702953964472,
+      "learning_rate": 0.00026627039551069563,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 182553536,
+      "step": 84515
+    },
+    {
+      "epoch": 13.787928221859707,
+      "grad_norm": 0.013319053687155247,
+      "learning_rate": 0.00026620747387383494,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 182564448,
+      "step": 84520
+    },
+    {
+      "epoch": 13.78874388254486,
+      "grad_norm": 0.033942725509405136,
+      "learning_rate": 0.0002661445569750762,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 182575424,
+      "step": 84525
+    },
+    {
+      "epoch": 13.789559543230016,
+      "grad_norm": 0.07782161235809326,
+      "learning_rate": 0.00026608164481569486,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 182586528,
+      "step": 84530
+    },
+    {
+      "epoch": 13.790375203915172,
+      "grad_norm": 0.1057814285159111,
+      "learning_rate": 0.0002660187373969656,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 182596224,
+      "step": 84535
+    },
+    {
+      "epoch": 13.791190864600326,
+      "grad_norm": 0.014159079641103745,
+      "learning_rate": 0.00026595583472016355,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 182607424,
+      "step": 84540
+    },
+    {
+      "epoch": 13.792006525285482,
+      "grad_norm": 0.0020694267004728317,
+      "learning_rate": 0.00026589293678656336,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 182618368,
+      "step": 84545
+    },
+    {
+      "epoch": 13.792822185970635,
+      "grad_norm": 0.017610616981983185,
+      "learning_rate": 0.0002658300435974398,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 182628832,
+      "step": 84550
+    },
+    {
+      "epoch": 13.793637846655791,
+      "grad_norm": 0.011342491954565048,
+      "learning_rate": 0.00026576715515406747,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 182639552,
+      "step": 84555
+    },
+    {
+      "epoch": 13.794453507340947,
+      "grad_norm": 0.0068123419769108295,
+      "learning_rate": 0.0002657042714577209,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 182650560,
+      "step": 84560
+    },
+    {
+      "epoch": 13.7952691680261,
+      "grad_norm": 0.0036243554204702377,
+      "learning_rate": 0.0002656413925096745,
+      "loss": 0.004,
+      "num_input_tokens_seen": 182660992,
+      "step": 84565
+    },
+    {
+      "epoch": 13.796084828711257,
+      "grad_norm": 0.0034546160604804754,
+      "learning_rate": 0.00026557851831120254,
+      "loss": 0.0406,
+      "num_input_tokens_seen": 182671648,
+      "step": 84570
+    },
+    {
+      "epoch": 13.79690048939641,
+      "grad_norm": 0.03969002887606621,
+      "learning_rate": 0.00026551564886357937,
+      "loss": 0.1201,
+      "num_input_tokens_seen": 182683264,
+      "step": 84575
+    },
+    {
+      "epoch": 13.797716150081566,
+      "grad_norm": 0.0044247061014175415,
+      "learning_rate": 0.00026545278416807895,
+      "loss": 0.002,
+      "num_input_tokens_seen": 182694976,
+      "step": 84580
+    },
+    {
+      "epoch": 13.798531810766722,
+      "grad_norm": 0.04211275652050972,
+      "learning_rate": 0.00026538992422597547,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 182706752,
+      "step": 84585
+    },
+    {
+      "epoch": 13.799347471451876,
+      "grad_norm": 0.0638275295495987,
+      "learning_rate": 0.0002653270690385428,
+      "loss": 0.0599,
+      "num_input_tokens_seen": 182718848,
+      "step": 84590
+    },
+    {
+      "epoch": 13.800163132137031,
+      "grad_norm": 0.006323820445686579,
+      "learning_rate": 0.00026526421860705474,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 182728928,
+      "step": 84595
+    },
+    {
+      "epoch": 13.800978792822185,
+      "grad_norm": 0.007789155002683401,
+      "learning_rate": 0.0002652013729327849,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 182740832,
+      "step": 84600
+    },
+    {
+      "epoch": 13.801794453507341,
+      "grad_norm": 0.022198403254151344,
+      "learning_rate": 0.00026513853201700727,
+      "loss": 0.1351,
+      "num_input_tokens_seen": 182752352,
+      "step": 84605
+    },
+    {
+      "epoch": 13.802610114192497,
+      "grad_norm": 0.007201942149549723,
+      "learning_rate": 0.00026507569586099527,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 182763488,
+      "step": 84610
+    },
+    {
+      "epoch": 13.80342577487765,
+      "grad_norm": 0.009613179601728916,
+      "learning_rate": 0.0002650128644660223,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 182774048,
+      "step": 84615
+    },
+    {
+      "epoch": 13.804241435562806,
+      "grad_norm": 0.055438682436943054,
+      "learning_rate": 0.0002649500378333617,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 182784480,
+      "step": 84620
+    },
+    {
+      "epoch": 13.80505709624796,
+      "grad_norm": 0.00259758229367435,
+      "learning_rate": 0.0002648872159642868,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 182794912,
+      "step": 84625
+    },
+    {
+      "epoch": 13.805872756933116,
+      "grad_norm": 0.01642073690891266,
+      "learning_rate": 0.00026482439886007077,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 182805792,
+      "step": 84630
+    },
+    {
+      "epoch": 13.80668841761827,
+      "grad_norm": 0.5491905212402344,
+      "learning_rate": 0.00026476158652198655,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 182818080,
+      "step": 84635
+    },
+    {
+      "epoch": 13.807504078303426,
+      "grad_norm": 0.00983067974448204,
+      "learning_rate": 0.00026469877895130727,
+      "loss": 0.211,
+      "num_input_tokens_seen": 182828608,
+      "step": 84640
+    },
+    {
+      "epoch": 13.808319738988581,
+      "grad_norm": 0.1057048887014389,
+      "learning_rate": 0.00026463597614930575,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 182839488,
+      "step": 84645
+    },
+    {
+      "epoch": 13.809135399673735,
+      "grad_norm": 0.01889374665915966,
+      "learning_rate": 0.00026457317811725466,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 182849856,
+      "step": 84650
+    },
+    {
+      "epoch": 13.809951060358891,
+      "grad_norm": 0.012557010166347027,
+      "learning_rate": 0.00026451038485642687,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 182857760,
+      "step": 84655
+    },
+    {
+      "epoch": 13.810766721044045,
+      "grad_norm": 0.0034552598372101784,
+      "learning_rate": 0.0002644475963680948,
+      "loss": 0.0596,
+      "num_input_tokens_seen": 182868000,
+      "step": 84660
+    },
+    {
+      "epoch": 13.8115823817292,
+      "grad_norm": 0.1016710177063942,
+      "learning_rate": 0.0002643848126535311,
+      "loss": 0.0273,
+      "num_input_tokens_seen": 182880032,
+      "step": 84665
+    },
+    {
+      "epoch": 13.812398042414356,
+      "grad_norm": 0.0039877621456980705,
+      "learning_rate": 0.000264322033714008,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 182891136,
+      "step": 84670
+    },
+    {
+      "epoch": 13.81321370309951,
+      "grad_norm": 0.009610519744455814,
+      "learning_rate": 0.0002642592595507979,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 182902944,
+      "step": 84675
+    },
+    {
+      "epoch": 13.814029363784666,
+      "grad_norm": 0.047046490013599396,
+      "learning_rate": 0.0002641964901651729,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 182913440,
+      "step": 84680
+    },
+    {
+      "epoch": 13.81484502446982,
+      "grad_norm": 0.002050283830612898,
+      "learning_rate": 0.0002641337255584052,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 182923872,
+      "step": 84685
+    },
+    {
+      "epoch": 13.815660685154976,
+      "grad_norm": 0.016913149505853653,
+      "learning_rate": 0.0002640709657317668,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 182934432,
+      "step": 84690
+    },
+    {
+      "epoch": 13.81647634584013,
+      "grad_norm": 0.007640815805643797,
+      "learning_rate": 0.0002640082106865295,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 182946464,
+      "step": 84695
+    },
+    {
+      "epoch": 13.817292006525285,
+      "grad_norm": 0.008956543169915676,
+      "learning_rate": 0.00026394546042396525,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 182957728,
+      "step": 84700
+    },
+    {
+      "epoch": 13.818107667210441,
+      "grad_norm": 1.4677728414535522,
+      "learning_rate": 0.0002638827149453457,
+      "loss": 0.1167,
+      "num_input_tokens_seen": 182966976,
+      "step": 84705
+    },
+    {
+      "epoch": 13.818923327895595,
+      "grad_norm": 0.018476588651537895,
+      "learning_rate": 0.0002638199742519425,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 182977920,
+      "step": 84710
+    },
+    {
+      "epoch": 13.81973898858075,
+      "grad_norm": 0.03129766136407852,
+      "learning_rate": 0.00026375723834502686,
+      "loss": 0.008,
+      "num_input_tokens_seen": 182989504,
+      "step": 84715
+    },
+    {
+      "epoch": 13.820554649265905,
+      "grad_norm": 0.061310023069381714,
+      "learning_rate": 0.0002636945072258709,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 183000992,
+      "step": 84720
+    },
+    {
+      "epoch": 13.82137030995106,
+      "grad_norm": 0.04653109982609749,
+      "learning_rate": 0.00026363178089574516,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 183011776,
+      "step": 84725
+    },
+    {
+      "epoch": 13.822185970636216,
+      "grad_norm": 0.0033070375211536884,
+      "learning_rate": 0.0002635690593559216,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 183023072,
+      "step": 84730
+    },
+    {
+      "epoch": 13.82300163132137,
+      "grad_norm": 0.0212293341755867,
+      "learning_rate": 0.0002635063426076706,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 183034144,
+      "step": 84735
+    },
+    {
+      "epoch": 13.823817292006526,
+      "grad_norm": 0.0049853515811264515,
+      "learning_rate": 0.000263443630652264,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 183044320,
+      "step": 84740
+    },
+    {
+      "epoch": 13.82463295269168,
+      "grad_norm": 0.002307276474311948,
+      "learning_rate": 0.00026338092349097186,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 183054368,
+      "step": 84745
+    },
+    {
+      "epoch": 13.825448613376835,
+      "grad_norm": 0.004544033668935299,
+      "learning_rate": 0.00026331822112506576,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 183064800,
+      "step": 84750
+    },
+    {
+      "epoch": 13.826264274061991,
+      "grad_norm": 0.002783995820209384,
+      "learning_rate": 0.0002632555235558161,
+      "loss": 0.005,
+      "num_input_tokens_seen": 183075168,
+      "step": 84755
+    },
+    {
+      "epoch": 13.827079934747145,
+      "grad_norm": 0.04571967199444771,
+      "learning_rate": 0.00026319283078449365,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 183087296,
+      "step": 84760
+    },
+    {
+      "epoch": 13.8278955954323,
+      "grad_norm": 0.6793679594993591,
+      "learning_rate": 0.0002631301428123688,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 183097184,
+      "step": 84765
+    },
+    {
+      "epoch": 13.828711256117455,
+      "grad_norm": 0.04691294580698013,
+      "learning_rate": 0.00026306745964071223,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 183107712,
+      "step": 84770
+    },
+    {
+      "epoch": 13.82952691680261,
+      "grad_norm": 0.08239693194627762,
+      "learning_rate": 0.00026300478127079405,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 183118080,
+      "step": 84775
+    },
+    {
+      "epoch": 13.830342577487766,
+      "grad_norm": 0.0026116548106074333,
+      "learning_rate": 0.0002629421077038846,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 183129216,
+      "step": 84780
+    },
+    {
+      "epoch": 13.83115823817292,
+      "grad_norm": 0.03541423752903938,
+      "learning_rate": 0.00026287943894125415,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 183140736,
+      "step": 84785
+    },
+    {
+      "epoch": 13.831973898858076,
+      "grad_norm": 0.00940261036157608,
+      "learning_rate": 0.0002628167749841727,
+      "loss": 0.005,
+      "num_input_tokens_seen": 183151296,
+      "step": 84790
+    },
+    {
+      "epoch": 13.83278955954323,
+      "grad_norm": 0.006862754467874765,
+      "learning_rate": 0.0002627541158339101,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 183163488,
+      "step": 84795
+    },
+    {
+      "epoch": 13.833605220228385,
+      "grad_norm": 0.015600350685417652,
+      "learning_rate": 0.0002626914614917364,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 183174272,
+      "step": 84800
+    },
+    {
+      "epoch": 13.83442088091354,
+      "grad_norm": 0.008726726286113262,
+      "learning_rate": 0.0002626288119589212,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 183184384,
+      "step": 84805
+    },
+    {
+      "epoch": 13.835236541598695,
+      "grad_norm": 0.009681164287030697,
+      "learning_rate": 0.0002625661672367343,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 183195552,
+      "step": 84810
+    },
+    {
+      "epoch": 13.83605220228385,
+      "grad_norm": 0.012375738471746445,
+      "learning_rate": 0.00026250352732644524,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 183207328,
+      "step": 84815
+    },
+    {
+      "epoch": 13.836867862969005,
+      "grad_norm": 1.4686344861984253,
+      "learning_rate": 0.0002624408922293232,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 183218048,
+      "step": 84820
+    },
+    {
+      "epoch": 13.83768352365416,
+      "grad_norm": 0.004356234800070524,
+      "learning_rate": 0.0002623782619466383,
+      "loss": 0.0714,
+      "num_input_tokens_seen": 183228928,
+      "step": 84825
+    },
+    {
+      "epoch": 13.838499184339314,
+      "grad_norm": 0.0027383537963032722,
+      "learning_rate": 0.00026231563647965896,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 183239776,
+      "step": 84830
+    },
+    {
+      "epoch": 13.83931484502447,
+      "grad_norm": 0.9869494438171387,
+      "learning_rate": 0.00026225301582965524,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 183250144,
+      "step": 84835
+    },
+    {
+      "epoch": 13.840130505709626,
+      "grad_norm": 0.003971732687205076,
+      "learning_rate": 0.0002621903999978953,
+      "loss": 0.022,
+      "num_input_tokens_seen": 183261344,
+      "step": 84840
+    },
+    {
+      "epoch": 13.84094616639478,
+      "grad_norm": 0.004560328088700771,
+      "learning_rate": 0.0002621277889856489,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 183273120,
+      "step": 84845
+    },
+    {
+      "epoch": 13.841761827079935,
+      "grad_norm": 0.0031801187433302402,
+      "learning_rate": 0.0002620651827941843,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 183284384,
+      "step": 84850
+    },
+    {
+      "epoch": 13.84257748776509,
+      "grad_norm": 0.218495711684227,
+      "learning_rate": 0.00026200258142477107,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 183294720,
+      "step": 84855
+    },
+    {
+      "epoch": 13.843393148450245,
+      "grad_norm": 0.0040638744831085205,
+      "learning_rate": 0.00026193998487867697,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 183305792,
+      "step": 84860
+    },
+    {
+      "epoch": 13.844208809135399,
+      "grad_norm": 0.6690198183059692,
+      "learning_rate": 0.0002618773931571715,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 183316448,
+      "step": 84865
+    },
+    {
+      "epoch": 13.845024469820554,
+      "grad_norm": 0.010879079811275005,
+      "learning_rate": 0.00026181480626152236,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 183326880,
+      "step": 84870
+    },
+    {
+      "epoch": 13.84584013050571,
+      "grad_norm": 0.30008864402770996,
+      "learning_rate": 0.0002617522241929987,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 183337856,
+      "step": 84875
+    },
+    {
+      "epoch": 13.846655791190864,
+      "grad_norm": 0.00918416865170002,
+      "learning_rate": 0.0002616896469528681,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 183348256,
+      "step": 84880
+    },
+    {
+      "epoch": 13.84747145187602,
+      "grad_norm": 0.0027300086803734303,
+      "learning_rate": 0.00026162707454239944,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 183360160,
+      "step": 84885
+    },
+    {
+      "epoch": 13.848287112561174,
+      "grad_norm": 0.047441281378269196,
+      "learning_rate": 0.00026156450696286014,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 183371648,
+      "step": 84890
+    },
+    {
+      "epoch": 13.84910277324633,
+      "grad_norm": 0.002008978510275483,
+      "learning_rate": 0.0002615019442155189,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 183384032,
+      "step": 84895
+    },
+    {
+      "epoch": 13.849918433931485,
+      "grad_norm": 0.002454567002132535,
+      "learning_rate": 0.00026143938630164316,
+      "loss": 0.0367,
+      "num_input_tokens_seen": 183395072,
+      "step": 84900
+    },
+    {
+      "epoch": 13.850734094616639,
+      "grad_norm": 0.013349570333957672,
+      "learning_rate": 0.00026137683322250094,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 183405824,
+      "step": 84905
+    },
+    {
+      "epoch": 13.851549755301795,
+      "grad_norm": 0.06632737070322037,
+      "learning_rate": 0.00026131428497935995,
+      "loss": 0.003,
+      "num_input_tokens_seen": 183416704,
+      "step": 84910
+    },
+    {
+      "epoch": 13.852365415986949,
+      "grad_norm": 0.4345989525318146,
+      "learning_rate": 0.0002612517415734877,
+      "loss": 0.0761,
+      "num_input_tokens_seen": 183427616,
+      "step": 84915
+    },
+    {
+      "epoch": 13.853181076672104,
+      "grad_norm": 0.15262597799301147,
+      "learning_rate": 0.00026118920300615187,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 183436960,
+      "step": 84920
+    },
+    {
+      "epoch": 13.85399673735726,
+      "grad_norm": 0.00835461262613535,
+      "learning_rate": 0.0002611266692786197,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 183447296,
+      "step": 84925
+    },
+    {
+      "epoch": 13.854812398042414,
+      "grad_norm": 0.10195163637399673,
+      "learning_rate": 0.00026106414039215865,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 183458048,
+      "step": 84930
+    },
+    {
+      "epoch": 13.85562805872757,
+      "grad_norm": 0.030093245208263397,
+      "learning_rate": 0.00026100161634803594,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 183469376,
+      "step": 84935
+    },
+    {
+      "epoch": 13.856443719412724,
+      "grad_norm": 0.007934209890663624,
+      "learning_rate": 0.0002609390971475186,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 183480064,
+      "step": 84940
+    },
+    {
+      "epoch": 13.85725938009788,
+      "grad_norm": 0.1264921873807907,
+      "learning_rate": 0.00026087658279187357,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 183490880,
+      "step": 84945
+    },
+    {
+      "epoch": 13.858075040783035,
+      "grad_norm": 1.145666241645813,
+      "learning_rate": 0.0002608140732823684,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 183502048,
+      "step": 84950
+    },
+    {
+      "epoch": 13.858890701468189,
+      "grad_norm": 0.013281790539622307,
+      "learning_rate": 0.00026075156862026896,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 183512960,
+      "step": 84955
+    },
+    {
+      "epoch": 13.859706362153345,
+      "grad_norm": 0.003783997381106019,
+      "learning_rate": 0.00026068906880684297,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 183523840,
+      "step": 84960
+    },
+    {
+      "epoch": 13.860522022838499,
+      "grad_norm": 0.20053230226039886,
+      "learning_rate": 0.0002606265738433561,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 183534176,
+      "step": 84965
+    },
+    {
+      "epoch": 13.861337683523654,
+      "grad_norm": 0.02767985127866268,
+      "learning_rate": 0.0002605640837310758,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 183544320,
+      "step": 84970
+    },
+    {
+      "epoch": 13.86215334420881,
+      "grad_norm": 0.0010478844633325934,
+      "learning_rate": 0.0002605015984712678,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 183553600,
+      "step": 84975
+    },
+    {
+      "epoch": 13.862969004893964,
+      "grad_norm": 0.002999087329953909,
+      "learning_rate": 0.000260439118065199,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 183563744,
+      "step": 84980
+    },
+    {
+      "epoch": 13.86378466557912,
+      "grad_norm": 0.015121141448616982,
+      "learning_rate": 0.000260376642514135,
+      "loss": 0.009,
+      "num_input_tokens_seen": 183574592,
+      "step": 84985
+    },
+    {
+      "epoch": 13.864600326264274,
+      "grad_norm": 0.014611300081014633,
+      "learning_rate": 0.00026031417181934276,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 183585344,
+      "step": 84990
+    },
+    {
+      "epoch": 13.86541598694943,
+      "grad_norm": 0.0058423797599971294,
+      "learning_rate": 0.0002602517059820875,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 183596544,
+      "step": 84995
+    },
+    {
+      "epoch": 13.866231647634583,
+      "grad_norm": 0.04339960962533951,
+      "learning_rate": 0.0002601892450036359,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 183606976,
+      "step": 85000
+    },
+    {
+      "epoch": 13.867047308319739,
+      "grad_norm": 0.003346919547766447,
+      "learning_rate": 0.0002601267888852531,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 183618720,
+      "step": 85005
+    },
+    {
+      "epoch": 13.867862969004895,
+      "grad_norm": 0.005301931872963905,
+      "learning_rate": 0.0002600643376282056,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 183629760,
+      "step": 85010
+    },
+    {
+      "epoch": 13.868678629690049,
+      "grad_norm": 0.005934323649853468,
+      "learning_rate": 0.0002600018912337584,
+      "loss": 0.156,
+      "num_input_tokens_seen": 183639584,
+      "step": 85015
+    },
+    {
+      "epoch": 13.869494290375204,
+      "grad_norm": 0.006170249078422785,
+      "learning_rate": 0.00025993944970317763,
+      "loss": 0.065,
+      "num_input_tokens_seen": 183651040,
+      "step": 85020
+    },
+    {
+      "epoch": 13.870309951060358,
+      "grad_norm": 0.005769214127212763,
+      "learning_rate": 0.00025987701303772806,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 183663200,
+      "step": 85025
+    },
+    {
+      "epoch": 13.871125611745514,
+      "grad_norm": 0.17763355374336243,
+      "learning_rate": 0.00025981458123867566,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 183672864,
+      "step": 85030
+    },
+    {
+      "epoch": 13.87194127243067,
+      "grad_norm": 0.016868766397237778,
+      "learning_rate": 0.0002597521543072854,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 183683296,
+      "step": 85035
+    },
+    {
+      "epoch": 13.872756933115824,
+      "grad_norm": 0.0015195843297988176,
+      "learning_rate": 0.00025968973224482257,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 183694176,
+      "step": 85040
+    },
+    {
+      "epoch": 13.87357259380098,
+      "grad_norm": 0.07358266413211823,
+      "learning_rate": 0.00025962731505255215,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 183706304,
+      "step": 85045
+    },
+    {
+      "epoch": 13.874388254486133,
+      "grad_norm": 0.0072519490495324135,
+      "learning_rate": 0.0002595649027317392,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 183717312,
+      "step": 85050
+    },
+    {
+      "epoch": 13.875203915171289,
+      "grad_norm": 0.013897925615310669,
+      "learning_rate": 0.0002595024952836484,
+      "loss": 0.2139,
+      "num_input_tokens_seen": 183728928,
+      "step": 85055
+    },
+    {
+      "epoch": 13.876019575856443,
+      "grad_norm": 0.0067464206367731094,
+      "learning_rate": 0.00025944009270954463,
+      "loss": 0.007,
+      "num_input_tokens_seen": 183740896,
+      "step": 85060
+    },
+    {
+      "epoch": 13.876835236541599,
+      "grad_norm": 0.009500235319137573,
+      "learning_rate": 0.00025937769501069264,
+      "loss": 0.003,
+      "num_input_tokens_seen": 183749856,
+      "step": 85065
+    },
+    {
+      "epoch": 13.877650897226754,
+      "grad_norm": 0.6065912246704102,
+      "learning_rate": 0.00025931530218835684,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 183760256,
+      "step": 85070
+    },
+    {
+      "epoch": 13.878466557911908,
+      "grad_norm": 0.013110343366861343,
+      "learning_rate": 0.00025925291424380183,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 183771616,
+      "step": 85075
+    },
+    {
+      "epoch": 13.879282218597064,
+      "grad_norm": 0.10349424928426743,
+      "learning_rate": 0.00025919053117829185,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 183781984,
+      "step": 85080
+    },
+    {
+      "epoch": 13.880097879282218,
+      "grad_norm": 0.10486262291669846,
+      "learning_rate": 0.0002591281529930913,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 183793440,
+      "step": 85085
+    },
+    {
+      "epoch": 13.880913539967374,
+      "grad_norm": 0.13725866377353668,
+      "learning_rate": 0.0002590657796894641,
+      "loss": 0.0872,
+      "num_input_tokens_seen": 183803072,
+      "step": 85090
+    },
+    {
+      "epoch": 13.88172920065253,
+      "grad_norm": 0.003872843226417899,
+      "learning_rate": 0.0002590034112686749,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 183814176,
+      "step": 85095
+    },
+    {
+      "epoch": 13.882544861337683,
+      "grad_norm": 0.005437849089503288,
+      "learning_rate": 0.0002589410477319869,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 183823712,
+      "step": 85100
+    },
+    {
+      "epoch": 13.883360522022839,
+      "grad_norm": 0.0025222674012184143,
+      "learning_rate": 0.0002588786890806647,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 183834048,
+      "step": 85105
+    },
+    {
+      "epoch": 13.884176182707993,
+      "grad_norm": 0.006505226716399193,
+      "learning_rate": 0.0002588163353159715,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 183844864,
+      "step": 85110
+    },
+    {
+      "epoch": 13.884991843393149,
+      "grad_norm": 0.007280663587152958,
+      "learning_rate": 0.00025875398643917147,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 183856672,
+      "step": 85115
+    },
+    {
+      "epoch": 13.885807504078304,
+      "grad_norm": 0.26501476764678955,
+      "learning_rate": 0.00025869164245152765,
+      "loss": 0.0507,
+      "num_input_tokens_seen": 183867840,
+      "step": 85120
+    },
+    {
+      "epoch": 13.886623164763458,
+      "grad_norm": 0.003495575860142708,
+      "learning_rate": 0.00025862930335430426,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 183878688,
+      "step": 85125
+    },
+    {
+      "epoch": 13.887438825448614,
+      "grad_norm": 0.8573818206787109,
+      "learning_rate": 0.0002585669691487637,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 183889920,
+      "step": 85130
+    },
+    {
+      "epoch": 13.888254486133768,
+      "grad_norm": 0.09581318497657776,
+      "learning_rate": 0.00025850463983617005,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 183901888,
+      "step": 85135
+    },
+    {
+      "epoch": 13.889070146818923,
+      "grad_norm": 0.010820590890944004,
+      "learning_rate": 0.0002584423154177863,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 183912672,
+      "step": 85140
+    },
+    {
+      "epoch": 13.88988580750408,
+      "grad_norm": 0.002558765932917595,
+      "learning_rate": 0.0002583799958948754,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 183922752,
+      "step": 85145
+    },
+    {
+      "epoch": 13.890701468189233,
+      "grad_norm": 0.007388087455183268,
+      "learning_rate": 0.00025831768126870035,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 183934272,
+      "step": 85150
+    },
+    {
+      "epoch": 13.891517128874389,
+      "grad_norm": 0.013861283659934998,
+      "learning_rate": 0.00025825537154052414,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 183944320,
+      "step": 85155
+    },
+    {
+      "epoch": 13.892332789559543,
+      "grad_norm": 0.38176852464675903,
+      "learning_rate": 0.00025819306671160953,
+      "loss": 0.1258,
+      "num_input_tokens_seen": 183954688,
+      "step": 85160
+    },
+    {
+      "epoch": 13.893148450244698,
+      "grad_norm": 0.06643305718898773,
+      "learning_rate": 0.00025813076678321914,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 183965312,
+      "step": 85165
+    },
+    {
+      "epoch": 13.893964110929852,
+      "grad_norm": 0.012475523166358471,
+      "learning_rate": 0.0002580684717566156,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 183977056,
+      "step": 85170
+    },
+    {
+      "epoch": 13.894779771615008,
+      "grad_norm": 0.015131724998354912,
+      "learning_rate": 0.0002580061816330614,
+      "loss": 0.096,
+      "num_input_tokens_seen": 183988224,
+      "step": 85175
+    },
+    {
+      "epoch": 13.895595432300164,
+      "grad_norm": 0.28440892696380615,
+      "learning_rate": 0.00025794389641381894,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 183999136,
+      "step": 85180
+    },
+    {
+      "epoch": 13.896411092985318,
+      "grad_norm": 0.01567523181438446,
+      "learning_rate": 0.0002578816161001505,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 184008928,
+      "step": 85185
+    },
+    {
+      "epoch": 13.897226753670473,
+      "grad_norm": 0.00586994644254446,
+      "learning_rate": 0.0002578193406933182,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 184019520,
+      "step": 85190
+    },
+    {
+      "epoch": 13.898042414355627,
+      "grad_norm": 0.002432781970128417,
+      "learning_rate": 0.00025775707019458415,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 184030592,
+      "step": 85195
+    },
+    {
+      "epoch": 13.898858075040783,
+      "grad_norm": 0.005925891920924187,
+      "learning_rate": 0.0002576948046052105,
+      "loss": 0.185,
+      "num_input_tokens_seen": 184041216,
+      "step": 85200
+    },
+    {
+      "epoch": 13.899673735725939,
+      "grad_norm": 0.039722055196762085,
+      "learning_rate": 0.000257632543926459,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 184051712,
+      "step": 85205
+    },
+    {
+      "epoch": 13.900489396411093,
+      "grad_norm": 0.01062532514333725,
+      "learning_rate": 0.0002575702881595914,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 184063424,
+      "step": 85210
+    },
+    {
+      "epoch": 13.901305057096248,
+      "grad_norm": 0.02566523477435112,
+      "learning_rate": 0.0002575080373058695,
+      "loss": 0.0604,
+      "num_input_tokens_seen": 184074912,
+      "step": 85215
+    },
+    {
+      "epoch": 13.902120717781402,
+      "grad_norm": 0.4470478296279907,
+      "learning_rate": 0.0002574457913665548,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 184085696,
+      "step": 85220
+    },
+    {
+      "epoch": 13.902936378466558,
+      "grad_norm": 0.049299828708171844,
+      "learning_rate": 0.00025738355034290886,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 184095552,
+      "step": 85225
+    },
+    {
+      "epoch": 13.903752039151712,
+      "grad_norm": 0.06083039939403534,
+      "learning_rate": 0.00025732131423619303,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 184107008,
+      "step": 85230
+    },
+    {
+      "epoch": 13.904567699836868,
+      "grad_norm": 0.028353175148367882,
+      "learning_rate": 0.0002572590830476685,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 184117120,
+      "step": 85235
+    },
+    {
+      "epoch": 13.905383360522023,
+      "grad_norm": 0.37317419052124023,
+      "learning_rate": 0.0002571968567785967,
+      "loss": 0.139,
+      "num_input_tokens_seen": 184129408,
+      "step": 85240
+    },
+    {
+      "epoch": 13.906199021207177,
+      "grad_norm": 0.009255973622202873,
+      "learning_rate": 0.0002571346354302387,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 184140384,
+      "step": 85245
+    },
+    {
+      "epoch": 13.907014681892333,
+      "grad_norm": 0.005792307201772928,
+      "learning_rate": 0.0002570724190038554,
+      "loss": 0.004,
+      "num_input_tokens_seen": 184150720,
+      "step": 85250
+    },
+    {
+      "epoch": 13.907830342577487,
+      "grad_norm": 0.001610096194781363,
+      "learning_rate": 0.00025701020750070765,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 184161344,
+      "step": 85255
+    },
+    {
+      "epoch": 13.908646003262643,
+      "grad_norm": 0.008702469989657402,
+      "learning_rate": 0.0002569480009220563,
+      "loss": 0.026,
+      "num_input_tokens_seen": 184171936,
+      "step": 85260
+    },
+    {
+      "epoch": 13.909461663947798,
+      "grad_norm": 0.009642422199249268,
+      "learning_rate": 0.00025688579926916213,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 184183200,
+      "step": 85265
+    },
+    {
+      "epoch": 13.910277324632952,
+      "grad_norm": 0.009435923770070076,
+      "learning_rate": 0.0002568236025432855,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 184194880,
+      "step": 85270
+    },
+    {
+      "epoch": 13.911092985318108,
+      "grad_norm": 0.5569436550140381,
+      "learning_rate": 0.00025676141074568713,
+      "loss": 0.0775,
+      "num_input_tokens_seen": 184205248,
+      "step": 85275
+    },
+    {
+      "epoch": 13.911908646003262,
+      "grad_norm": 0.023024236783385277,
+      "learning_rate": 0.00025669922387762747,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 184214976,
+      "step": 85280
+    },
+    {
+      "epoch": 13.912724306688418,
+      "grad_norm": 0.4745536744594574,
+      "learning_rate": 0.00025663704194036653,
+      "loss": 0.1285,
+      "num_input_tokens_seen": 184226240,
+      "step": 85285
+    },
+    {
+      "epoch": 13.913539967373573,
+      "grad_norm": 0.04086502268910408,
+      "learning_rate": 0.0002565748649351647,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 184237248,
+      "step": 85290
+    },
+    {
+      "epoch": 13.914355628058727,
+      "grad_norm": 0.005516092758625746,
+      "learning_rate": 0.0002565126928632821,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 184248640,
+      "step": 85295
+    },
+    {
+      "epoch": 13.915171288743883,
+      "grad_norm": 0.02265411801636219,
+      "learning_rate": 0.00025645052572597856,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 184259328,
+      "step": 85300
+    },
+    {
+      "epoch": 13.915986949429037,
+      "grad_norm": 0.026116758584976196,
+      "learning_rate": 0.0002563883635245141,
+      "loss": 0.017,
+      "num_input_tokens_seen": 184269984,
+      "step": 85305
+    },
+    {
+      "epoch": 13.916802610114193,
+      "grad_norm": 0.0021625554654747248,
+      "learning_rate": 0.0002563262062601486,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 184279712,
+      "step": 85310
+    },
+    {
+      "epoch": 13.917618270799348,
+      "grad_norm": 0.02202964387834072,
+      "learning_rate": 0.0002562640539341415,
+      "loss": 0.005,
+      "num_input_tokens_seen": 184289760,
+      "step": 85315
+    },
+    {
+      "epoch": 13.918433931484502,
+      "grad_norm": 0.10059604048728943,
+      "learning_rate": 0.0002562019065477527,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 184300512,
+      "step": 85320
+    },
+    {
+      "epoch": 13.919249592169658,
+      "grad_norm": 0.08960135281085968,
+      "learning_rate": 0.00025613976410224145,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 184312224,
+      "step": 85325
+    },
+    {
+      "epoch": 13.920065252854812,
+      "grad_norm": 0.07900179177522659,
+      "learning_rate": 0.00025607762659886726,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 184323360,
+      "step": 85330
+    },
+    {
+      "epoch": 13.920880913539968,
+      "grad_norm": 0.024132825434207916,
+      "learning_rate": 0.00025601549403888934,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 184333152,
+      "step": 85335
+    },
+    {
+      "epoch": 13.921696574225122,
+      "grad_norm": 0.02644437924027443,
+      "learning_rate": 0.00025595336642356706,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 184343488,
+      "step": 85340
+    },
+    {
+      "epoch": 13.922512234910277,
+      "grad_norm": 0.01221081055700779,
+      "learning_rate": 0.0002558912437541594,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 184354080,
+      "step": 85345
+    },
+    {
+      "epoch": 13.923327895595433,
+      "grad_norm": 0.20858865976333618,
+      "learning_rate": 0.0002558291260319253,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 184364352,
+      "step": 85350
+    },
+    {
+      "epoch": 13.924143556280587,
+      "grad_norm": 0.006945399101823568,
+      "learning_rate": 0.0002557670132581235,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 184376672,
+      "step": 85355
+    },
+    {
+      "epoch": 13.924959216965743,
+      "grad_norm": 0.470683753490448,
+      "learning_rate": 0.00025570490543401345,
+      "loss": 0.0933,
+      "num_input_tokens_seen": 184387104,
+      "step": 85360
+    },
+    {
+      "epoch": 13.925774877650896,
+      "grad_norm": 0.4291492700576782,
+      "learning_rate": 0.00025564280256085305,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 184396736,
+      "step": 85365
+    },
+    {
+      "epoch": 13.926590538336052,
+      "grad_norm": 0.04624152556061745,
+      "learning_rate": 0.0002555807046399016,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 184406208,
+      "step": 85370
+    },
+    {
+      "epoch": 13.927406199021208,
+      "grad_norm": 0.021825360134243965,
+      "learning_rate": 0.00025551861167241675,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 184417280,
+      "step": 85375
+    },
+    {
+      "epoch": 13.928221859706362,
+      "grad_norm": 0.33354225754737854,
+      "learning_rate": 0.00025545652365965767,
+      "loss": 0.0929,
+      "num_input_tokens_seen": 184428768,
+      "step": 85380
+    },
+    {
+      "epoch": 13.929037520391518,
+      "grad_norm": 0.02854643389582634,
+      "learning_rate": 0.00025539444060288235,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 184439904,
+      "step": 85385
+    },
+    {
+      "epoch": 13.929853181076671,
+      "grad_norm": 0.0056158872321248055,
+      "learning_rate": 0.000255332362503349,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 184450496,
+      "step": 85390
+    },
+    {
+      "epoch": 13.930668841761827,
+      "grad_norm": 0.027426814660429955,
+      "learning_rate": 0.00025527028936231567,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 184461152,
+      "step": 85395
+    },
+    {
+      "epoch": 13.931484502446983,
+      "grad_norm": 0.03571975603699684,
+      "learning_rate": 0.0002552082211810405,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 184472544,
+      "step": 85400
+    },
+    {
+      "epoch": 13.932300163132137,
+      "grad_norm": 0.0027300782967358828,
+      "learning_rate": 0.0002551461579607811,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 184482240,
+      "step": 85405
+    },
+    {
+      "epoch": 13.933115823817293,
+      "grad_norm": 0.08104506134986877,
+      "learning_rate": 0.00025508409970279554,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 184492448,
+      "step": 85410
+    },
+    {
+      "epoch": 13.933931484502446,
+      "grad_norm": 0.0030523252207785845,
+      "learning_rate": 0.00025502204640834135,
+      "loss": 0.0523,
+      "num_input_tokens_seen": 184502816,
+      "step": 85415
+    },
+    {
+      "epoch": 13.934747145187602,
+      "grad_norm": 0.04271979257464409,
+      "learning_rate": 0.0002549599980786762,
+      "loss": 0.055,
+      "num_input_tokens_seen": 184514080,
+      "step": 85420
+    },
+    {
+      "epoch": 13.935562805872756,
+      "grad_norm": 0.0023610251955688,
+      "learning_rate": 0.0002548979547150576,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 184525312,
+      "step": 85425
+    },
+    {
+      "epoch": 13.936378466557912,
+      "grad_norm": 0.00905569177120924,
+      "learning_rate": 0.0002548359163187428,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 184536224,
+      "step": 85430
+    },
+    {
+      "epoch": 13.937194127243067,
+      "grad_norm": 0.017019646242260933,
+      "learning_rate": 0.0002547738828909891,
+      "loss": 0.0426,
+      "num_input_tokens_seen": 184547776,
+      "step": 85435
+    },
+    {
+      "epoch": 13.938009787928221,
+      "grad_norm": 0.004658792167901993,
+      "learning_rate": 0.0002547118544330539,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 184558656,
+      "step": 85440
+    },
+    {
+      "epoch": 13.938825448613377,
+      "grad_norm": 0.001412428799085319,
+      "learning_rate": 0.0002546498309461941,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 184568640,
+      "step": 85445
+    },
+    {
+      "epoch": 13.939641109298531,
+      "grad_norm": 3.1154069900512695,
+      "learning_rate": 0.00025458781243166667,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 184580736,
+      "step": 85450
+    },
+    {
+      "epoch": 13.940456769983687,
+      "grad_norm": 0.03391305357217789,
+      "learning_rate": 0.0002545257988907286,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 184593184,
+      "step": 85455
+    },
+    {
+      "epoch": 13.941272430668842,
+      "grad_norm": 0.00259930407628417,
+      "learning_rate": 0.0002544637903246364,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 184603392,
+      "step": 85460
+    },
+    {
+      "epoch": 13.942088091353996,
+      "grad_norm": 0.0017219664296135306,
+      "learning_rate": 0.0002544017867346474,
+      "loss": 0.0688,
+      "num_input_tokens_seen": 184614528,
+      "step": 85465
+    },
+    {
+      "epoch": 13.942903752039152,
+      "grad_norm": 0.017398755997419357,
+      "learning_rate": 0.0002543397881220173,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 184625888,
+      "step": 85470
+    },
+    {
+      "epoch": 13.943719412724306,
+      "grad_norm": 0.05955229327082634,
+      "learning_rate": 0.00025427779448800345,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 184636000,
+      "step": 85475
+    },
+    {
+      "epoch": 13.944535073409462,
+      "grad_norm": 0.012460576370358467,
+      "learning_rate": 0.0002542158058338615,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 184647808,
+      "step": 85480
+    },
+    {
+      "epoch": 13.945350734094617,
+      "grad_norm": 0.0023759007453918457,
+      "learning_rate": 0.00025415382216084837,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 184660000,
+      "step": 85485
+    },
+    {
+      "epoch": 13.946166394779771,
+      "grad_norm": 0.16356733441352844,
+      "learning_rate": 0.0002540918434702195,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 184670240,
+      "step": 85490
+    },
+    {
+      "epoch": 13.946982055464927,
+      "grad_norm": 0.00025423121405765414,
+      "learning_rate": 0.0002540298697632318,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 184681056,
+      "step": 85495
+    },
+    {
+      "epoch": 13.947797716150081,
+      "grad_norm": 0.11059121787548065,
+      "learning_rate": 0.0002539679010411404,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 184691264,
+      "step": 85500
+    },
+    {
+      "epoch": 13.948613376835237,
+      "grad_norm": 0.020271632820367813,
+      "learning_rate": 0.00025390593730520206,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 184701824,
+      "step": 85505
+    },
+    {
+      "epoch": 13.949429037520392,
+      "grad_norm": 0.4572683572769165,
+      "learning_rate": 0.00025384397855667164,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 184712640,
+      "step": 85510
+    },
+    {
+      "epoch": 13.950244698205546,
+      "grad_norm": 0.005310698878020048,
+      "learning_rate": 0.0002537820247968057,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 184723552,
+      "step": 85515
+    },
+    {
+      "epoch": 13.951060358890702,
+      "grad_norm": 0.005224080290645361,
+      "learning_rate": 0.00025372007602685894,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 184735008,
+      "step": 85520
+    },
+    {
+      "epoch": 13.951876019575856,
+      "grad_norm": 0.007012546062469482,
+      "learning_rate": 0.00025365813224808746,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 184745856,
+      "step": 85525
+    },
+    {
+      "epoch": 13.952691680261012,
+      "grad_norm": 0.0013683406868949533,
+      "learning_rate": 0.00025359619346174644,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 184756000,
+      "step": 85530
+    },
+    {
+      "epoch": 13.953507340946166,
+      "grad_norm": 0.027201242744922638,
+      "learning_rate": 0.0002535342596690912,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 184766752,
+      "step": 85535
+    },
+    {
+      "epoch": 13.954323001631321,
+      "grad_norm": 0.6355860829353333,
+      "learning_rate": 0.0002534723308713768,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 184778592,
+      "step": 85540
+    },
+    {
+      "epoch": 13.955138662316477,
+      "grad_norm": 0.002448199549689889,
+      "learning_rate": 0.0002534104070698584,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 184789376,
+      "step": 85545
+    },
+    {
+      "epoch": 13.955954323001631,
+      "grad_norm": 0.0003716732608154416,
+      "learning_rate": 0.00025334848826579095,
+      "loss": 0.008,
+      "num_input_tokens_seen": 184801152,
+      "step": 85550
+    },
+    {
+      "epoch": 13.956769983686787,
+      "grad_norm": 0.3382447361946106,
+      "learning_rate": 0.0002532865744604292,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 184812256,
+      "step": 85555
+    },
+    {
+      "epoch": 13.95758564437194,
+      "grad_norm": 0.003654716769233346,
+      "learning_rate": 0.000253224665655028,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 184823680,
+      "step": 85560
+    },
+    {
+      "epoch": 13.958401305057096,
+      "grad_norm": 0.12044371664524078,
+      "learning_rate": 0.0002531627618508421,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 184835072,
+      "step": 85565
+    },
+    {
+      "epoch": 13.959216965742252,
+      "grad_norm": 0.6087353825569153,
+      "learning_rate": 0.00025310086304912584,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 184844864,
+      "step": 85570
+    },
+    {
+      "epoch": 13.960032626427406,
+      "grad_norm": 0.018098818138241768,
+      "learning_rate": 0.0002530389692511337,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 184855776,
+      "step": 85575
+    },
+    {
+      "epoch": 13.960848287112562,
+      "grad_norm": 0.014368905685842037,
+      "learning_rate": 0.0002529770804581205,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 184866272,
+      "step": 85580
+    },
+    {
+      "epoch": 13.961663947797716,
+      "grad_norm": 0.012142996303737164,
+      "learning_rate": 0.0002529151966713398,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 184877312,
+      "step": 85585
+    },
+    {
+      "epoch": 13.962479608482871,
+      "grad_norm": 0.002565637230873108,
+      "learning_rate": 0.00025285331789204633,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 184888192,
+      "step": 85590
+    },
+    {
+      "epoch": 13.963295269168025,
+      "grad_norm": 0.0035322627518326044,
+      "learning_rate": 0.0002527914441214937,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 184896448,
+      "step": 85595
+    },
+    {
+      "epoch": 13.964110929853181,
+      "grad_norm": 0.3586525022983551,
+      "learning_rate": 0.00025272957536093634,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 184908032,
+      "step": 85600
+    },
+    {
+      "epoch": 13.964926590538337,
+      "grad_norm": 0.0012097652070224285,
+      "learning_rate": 0.00025266771161162736,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 184918176,
+      "step": 85605
+    },
+    {
+      "epoch": 13.96574225122349,
+      "grad_norm": 0.005765705835074186,
+      "learning_rate": 0.00025260585287482153,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 184927104,
+      "step": 85610
+    },
+    {
+      "epoch": 13.966557911908646,
+      "grad_norm": 0.0335857979953289,
+      "learning_rate": 0.0002525439991517714,
+      "loss": 0.004,
+      "num_input_tokens_seen": 184938240,
+      "step": 85615
+    },
+    {
+      "epoch": 13.9673735725938,
+      "grad_norm": 0.004372979048639536,
+      "learning_rate": 0.0002524821504437316,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 184949088,
+      "step": 85620
+    },
+    {
+      "epoch": 13.968189233278956,
+      "grad_norm": 0.0033910067286342382,
+      "learning_rate": 0.0002524203067519545,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 184960096,
+      "step": 85625
+    },
+    {
+      "epoch": 13.969004893964112,
+      "grad_norm": 0.021418794989585876,
+      "learning_rate": 0.00025235846807769433,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 184969504,
+      "step": 85630
+    },
+    {
+      "epoch": 13.969820554649266,
+      "grad_norm": 0.004271005280315876,
+      "learning_rate": 0.0002522966344222036,
+      "loss": 0.1278,
+      "num_input_tokens_seen": 184980320,
+      "step": 85635
+    },
+    {
+      "epoch": 13.970636215334421,
+      "grad_norm": 0.026607416570186615,
+      "learning_rate": 0.00025223480578673627,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 184991616,
+      "step": 85640
+    },
+    {
+      "epoch": 13.971451876019575,
+      "grad_norm": 0.005434891674667597,
+      "learning_rate": 0.00025217298217254446,
+      "loss": 0.012,
+      "num_input_tokens_seen": 185000352,
+      "step": 85645
+    },
+    {
+      "epoch": 13.97226753670473,
+      "grad_norm": 0.00019001559121534228,
+      "learning_rate": 0.0002521111635808819,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 185011328,
+      "step": 85650
+    },
+    {
+      "epoch": 13.973083197389887,
+      "grad_norm": 0.0019092840375378728,
+      "learning_rate": 0.0002520493500130008,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 185021408,
+      "step": 85655
+    },
+    {
+      "epoch": 13.97389885807504,
+      "grad_norm": 0.0820712149143219,
+      "learning_rate": 0.0002519875414701545,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 185031392,
+      "step": 85660
+    },
+    {
+      "epoch": 13.974714518760196,
+      "grad_norm": 0.01357912179082632,
+      "learning_rate": 0.0002519257379535949,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 185042176,
+      "step": 85665
+    },
+    {
+      "epoch": 13.97553017944535,
+      "grad_norm": 0.0026590253692120314,
+      "learning_rate": 0.00025186393946457516,
+      "loss": 0.1236,
+      "num_input_tokens_seen": 185053248,
+      "step": 85670
+    },
+    {
+      "epoch": 13.976345840130506,
+      "grad_norm": 0.25764936208724976,
+      "learning_rate": 0.0002518021460043474,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 185063872,
+      "step": 85675
+    },
+    {
+      "epoch": 13.977161500815662,
+      "grad_norm": 0.0026979451067745686,
+      "learning_rate": 0.0002517403575741641,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 185076192,
+      "step": 85680
+    },
+    {
+      "epoch": 13.977977161500815,
+      "grad_norm": 0.27346065640449524,
+      "learning_rate": 0.0002516785741752773,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 185086656,
+      "step": 85685
+    },
+    {
+      "epoch": 13.978792822185971,
+      "grad_norm": 0.0007937068003229797,
+      "learning_rate": 0.0002516167958089393,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 185097728,
+      "step": 85690
+    },
+    {
+      "epoch": 13.979608482871125,
+      "grad_norm": 0.01872055046260357,
+      "learning_rate": 0.00025155502247640196,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 185109120,
+      "step": 85695
+    },
+    {
+      "epoch": 13.98042414355628,
+      "grad_norm": 0.04877206310629845,
+      "learning_rate": 0.0002514932541789173,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 185117792,
+      "step": 85700
+    },
+    {
+      "epoch": 13.981239804241435,
+      "grad_norm": 0.005501462146639824,
+      "learning_rate": 0.0002514314909177371,
+      "loss": 0.002,
+      "num_input_tokens_seen": 185128928,
+      "step": 85705
+    },
+    {
+      "epoch": 13.98205546492659,
+      "grad_norm": 0.01914447546005249,
+      "learning_rate": 0.00025136973269411305,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 185138400,
+      "step": 85710
+    },
+    {
+      "epoch": 13.982871125611746,
+      "grad_norm": 0.0917380303144455,
+      "learning_rate": 0.0002513079795092968,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 185149760,
+      "step": 85715
+    },
+    {
+      "epoch": 13.9836867862969,
+      "grad_norm": 0.0017335203010588884,
+      "learning_rate": 0.0002512462313645396,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 185160864,
+      "step": 85720
+    },
+    {
+      "epoch": 13.984502446982056,
+      "grad_norm": 0.023793328553438187,
+      "learning_rate": 0.0002511844882610935,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 185169888,
+      "step": 85725
+    },
+    {
+      "epoch": 13.98531810766721,
+      "grad_norm": 0.20731094479560852,
+      "learning_rate": 0.00025112275020020903,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 185181632,
+      "step": 85730
+    },
+    {
+      "epoch": 13.986133768352365,
+      "grad_norm": 0.09553972631692886,
+      "learning_rate": 0.0002510610171831381,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 185192576,
+      "step": 85735
+    },
+    {
+      "epoch": 13.986949429037521,
+      "grad_norm": 0.008362910710275173,
+      "learning_rate": 0.00025099928921113113,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 185203968,
+      "step": 85740
+    },
+    {
+      "epoch": 13.987765089722675,
+      "grad_norm": 0.1448216736316681,
+      "learning_rate": 0.0002509375662854397,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 185215808,
+      "step": 85745
+    },
+    {
+      "epoch": 13.98858075040783,
+      "grad_norm": 0.07602065801620483,
+      "learning_rate": 0.0002508758484073142,
+      "loss": 0.033,
+      "num_input_tokens_seen": 185226720,
+      "step": 85750
+    },
+    {
+      "epoch": 13.989396411092985,
+      "grad_norm": 0.0024841674603521824,
+      "learning_rate": 0.00025081413557800604,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 185236704,
+      "step": 85755
+    },
+    {
+      "epoch": 13.99021207177814,
+      "grad_norm": 0.10913265496492386,
+      "learning_rate": 0.0002507524277987651,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 185248256,
+      "step": 85760
+    },
+    {
+      "epoch": 13.991027732463294,
+      "grad_norm": 0.005257087759673595,
+      "learning_rate": 0.0002506907250708428,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 185258976,
+      "step": 85765
+    },
+    {
+      "epoch": 13.99184339314845,
+      "grad_norm": 0.003243145067244768,
+      "learning_rate": 0.0002506290273954888,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 185270048,
+      "step": 85770
+    },
+    {
+      "epoch": 13.992659053833606,
+      "grad_norm": 0.033470362424850464,
+      "learning_rate": 0.00025056733477395415,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 185281856,
+      "step": 85775
+    },
+    {
+      "epoch": 13.99347471451876,
+      "grad_norm": 0.015511090867221355,
+      "learning_rate": 0.0002505056472074889,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 185293152,
+      "step": 85780
+    },
+    {
+      "epoch": 13.994290375203915,
+      "grad_norm": 0.0026244802866131067,
+      "learning_rate": 0.0002504439646973432,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 185305184,
+      "step": 85785
+    },
+    {
+      "epoch": 13.99510603588907,
+      "grad_norm": 0.005293934140354395,
+      "learning_rate": 0.00025038228724476715,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 185316480,
+      "step": 85790
+    },
+    {
+      "epoch": 13.995921696574225,
+      "grad_norm": 0.3593876361846924,
+      "learning_rate": 0.00025032061485101066,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 185325888,
+      "step": 85795
+    },
+    {
+      "epoch": 13.99673735725938,
+      "grad_norm": 0.0052078114822506905,
+      "learning_rate": 0.0002502589475173237,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 185335808,
+      "step": 85800
+    },
+    {
+      "epoch": 13.997553017944535,
+      "grad_norm": 0.011453598737716675,
+      "learning_rate": 0.000250197285244956,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 185347040,
+      "step": 85805
+    },
+    {
+      "epoch": 13.99836867862969,
+      "grad_norm": 0.00860854797065258,
+      "learning_rate": 0.0002501356280351572,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 185357888,
+      "step": 85810
+    },
+    {
+      "epoch": 13.999184339314844,
+      "grad_norm": 0.0036592965479940176,
+      "learning_rate": 0.00025007397588917683,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 185368896,
+      "step": 85815
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.8848853707313538,
+      "learning_rate": 0.0002500123288082644,
+      "loss": 0.2741,
+      "num_input_tokens_seen": 185378480,
+      "step": 85820
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.2316729873418808,
+      "eval_runtime": 104.2082,
+      "eval_samples_per_second": 26.15,
+      "eval_steps_per_second": 6.545,
+      "num_input_tokens_seen": 185378480,
+      "step": 85820
+    },
+    {
+      "epoch": 14.000815660685156,
+      "grad_norm": 0.0017862764652818441,
+      "learning_rate": 0.00024995068679366933,
+      "loss": 0.001,
+      "num_input_tokens_seen": 185389712,
+      "step": 85825
+    },
+    {
+      "epoch": 14.00163132137031,
+      "grad_norm": 0.00797954760491848,
+      "learning_rate": 0.00024988904984664075,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 185400880,
+      "step": 85830
+    },
+    {
+      "epoch": 14.002446982055465,
+      "grad_norm": 0.09861485660076141,
+      "learning_rate": 0.00024982741796842787,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 185411248,
+      "step": 85835
+    },
+    {
+      "epoch": 14.00326264274062,
+      "grad_norm": 0.013391591608524323,
+      "learning_rate": 0.00024976579116027975,
+      "loss": 0.1774,
+      "num_input_tokens_seen": 185422608,
+      "step": 85840
+    },
+    {
+      "epoch": 14.004078303425775,
+      "grad_norm": 0.0022156049963086843,
+      "learning_rate": 0.00024970416942344533,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 185433040,
+      "step": 85845
+    },
+    {
+      "epoch": 14.00489396411093,
+      "grad_norm": 0.009373231790959835,
+      "learning_rate": 0.00024964255275917335,
+      "loss": 0.002,
+      "num_input_tokens_seen": 185444656,
+      "step": 85850
+    },
+    {
+      "epoch": 14.005709624796085,
+      "grad_norm": 0.08181966841220856,
+      "learning_rate": 0.00024958094116871274,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 185456368,
+      "step": 85855
+    },
+    {
+      "epoch": 14.00652528548124,
+      "grad_norm": 0.003635540371760726,
+      "learning_rate": 0.000249519334653312,
+      "loss": 0.003,
+      "num_input_tokens_seen": 185465872,
+      "step": 85860
+    },
+    {
+      "epoch": 14.007340946166394,
+      "grad_norm": 0.0031431580428034067,
+      "learning_rate": 0.0002494577332142195,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 185477520,
+      "step": 85865
+    },
+    {
+      "epoch": 14.00815660685155,
+      "grad_norm": 0.04018649458885193,
+      "learning_rate": 0.0002493961368526843,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 185488688,
+      "step": 85870
+    },
+    {
+      "epoch": 14.008972267536704,
+      "grad_norm": 0.017326852306723595,
+      "learning_rate": 0.0002493345455699538,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 185499632,
+      "step": 85875
+    },
+    {
+      "epoch": 14.00978792822186,
+      "grad_norm": 0.12720097601413727,
+      "learning_rate": 0.000249272959367277,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 185510928,
+      "step": 85880
+    },
+    {
+      "epoch": 14.010603588907015,
+      "grad_norm": 0.006081325467675924,
+      "learning_rate": 0.0002492113782459017,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 185521712,
+      "step": 85885
+    },
+    {
+      "epoch": 14.01141924959217,
+      "grad_norm": 0.075434111058712,
+      "learning_rate": 0.00024914980220707605,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 185532272,
+      "step": 85890
+    },
+    {
+      "epoch": 14.012234910277325,
+      "grad_norm": 0.01512030977755785,
+      "learning_rate": 0.00024908823125204785,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 185543280,
+      "step": 85895
+    },
+    {
+      "epoch": 14.013050570962479,
+      "grad_norm": 0.08885496854782104,
+      "learning_rate": 0.00024902666538206494,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 185553392,
+      "step": 85900
+    },
+    {
+      "epoch": 14.013866231647635,
+      "grad_norm": 0.022448772564530373,
+      "learning_rate": 0.000248965104598375,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 185564464,
+      "step": 85905
+    },
+    {
+      "epoch": 14.01468189233279,
+      "grad_norm": 0.09179883450269699,
+      "learning_rate": 0.0002489035489022257,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 185575664,
+      "step": 85910
+    },
+    {
+      "epoch": 14.015497553017944,
+      "grad_norm": 0.00924753863364458,
+      "learning_rate": 0.0002488419982948646,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 185586224,
+      "step": 85915
+    },
+    {
+      "epoch": 14.0163132137031,
+      "grad_norm": 0.007630279287695885,
+      "learning_rate": 0.0002487804527775389,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 185596112,
+      "step": 85920
+    },
+    {
+      "epoch": 14.017128874388254,
+      "grad_norm": 0.006223857868462801,
+      "learning_rate": 0.0002487189123514961,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 185606544,
+      "step": 85925
+    },
+    {
+      "epoch": 14.01794453507341,
+      "grad_norm": 0.019415950402617455,
+      "learning_rate": 0.0002486573770179833,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 185615824,
+      "step": 85930
+    },
+    {
+      "epoch": 14.018760195758565,
+      "grad_norm": 0.024973466992378235,
+      "learning_rate": 0.00024859584677824757,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 185627312,
+      "step": 85935
+    },
+    {
+      "epoch": 14.01957585644372,
+      "grad_norm": 0.020961524918675423,
+      "learning_rate": 0.00024853432163353596,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 185638064,
+      "step": 85940
+    },
+    {
+      "epoch": 14.020391517128875,
+      "grad_norm": 0.06421557813882828,
+      "learning_rate": 0.00024847280158509535,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 185649200,
+      "step": 85945
+    },
+    {
+      "epoch": 14.021207177814029,
+      "grad_norm": 0.032138630747795105,
+      "learning_rate": 0.00024841128663417243,
+      "loss": 0.1026,
+      "num_input_tokens_seen": 185658928,
+      "step": 85950
+    },
+    {
+      "epoch": 14.022022838499185,
+      "grad_norm": 0.035478681325912476,
+      "learning_rate": 0.000248349776782014,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 185670544,
+      "step": 85955
+    },
+    {
+      "epoch": 14.022838499184338,
+      "grad_norm": 0.016271864995360374,
+      "learning_rate": 0.0002482882720298666,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 185681808,
+      "step": 85960
+    },
+    {
+      "epoch": 14.023654159869494,
+      "grad_norm": 0.03173820301890373,
+      "learning_rate": 0.0002482267723789767,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 185692720,
+      "step": 85965
+    },
+    {
+      "epoch": 14.02446982055465,
+      "grad_norm": 0.004889285191893578,
+      "learning_rate": 0.0002481652778305906,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 185702992,
+      "step": 85970
+    },
+    {
+      "epoch": 14.025285481239804,
+      "grad_norm": 0.0015836816746741533,
+      "learning_rate": 0.00024810378838595467,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 185714416,
+      "step": 85975
+    },
+    {
+      "epoch": 14.02610114192496,
+      "grad_norm": 0.30528175830841064,
+      "learning_rate": 0.00024804230404631495,
+      "loss": 0.1344,
+      "num_input_tokens_seen": 185724624,
+      "step": 85980
+    },
+    {
+      "epoch": 14.026916802610113,
+      "grad_norm": 0.011321947909891605,
+      "learning_rate": 0.0002479808248129174,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 185735248,
+      "step": 85985
+    },
+    {
+      "epoch": 14.02773246329527,
+      "grad_norm": 0.007731277495622635,
+      "learning_rate": 0.00024791935068700855,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 185745168,
+      "step": 85990
+    },
+    {
+      "epoch": 14.028548123980425,
+      "grad_norm": 0.0016969919670373201,
+      "learning_rate": 0.0002478578816698335,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 185757200,
+      "step": 85995
+    },
+    {
+      "epoch": 14.029363784665579,
+      "grad_norm": 0.06662982702255249,
+      "learning_rate": 0.00024779641776263866,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 185767664,
+      "step": 86000
+    },
+    {
+      "epoch": 14.030179445350734,
+      "grad_norm": 0.013063081540167332,
+      "learning_rate": 0.00024773495896666904,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 185777040,
+      "step": 86005
+    },
+    {
+      "epoch": 14.030995106035888,
+      "grad_norm": 0.0027070636861026287,
+      "learning_rate": 0.0002476735052831706,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 185788432,
+      "step": 86010
+    },
+    {
+      "epoch": 14.031810766721044,
+      "grad_norm": 0.05823206901550293,
+      "learning_rate": 0.0002476120567133888,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 185799088,
+      "step": 86015
+    },
+    {
+      "epoch": 14.0326264274062,
+      "grad_norm": 0.022384580224752426,
+      "learning_rate": 0.0002475506132585687,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 185808944,
+      "step": 86020
+    },
+    {
+      "epoch": 14.033442088091354,
+      "grad_norm": 0.022329630330204964,
+      "learning_rate": 0.0002474891749199558,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 185819376,
+      "step": 86025
+    },
+    {
+      "epoch": 14.03425774877651,
+      "grad_norm": 0.0012048856588080525,
+      "learning_rate": 0.000247427741698795,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 185829904,
+      "step": 86030
+    },
+    {
+      "epoch": 14.035073409461663,
+      "grad_norm": 0.0027390222530812025,
+      "learning_rate": 0.00024736631359633147,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 185840528,
+      "step": 86035
+    },
+    {
+      "epoch": 14.035889070146819,
+      "grad_norm": 0.01180250570178032,
+      "learning_rate": 0.00024730489061381013,
+      "loss": 0.002,
+      "num_input_tokens_seen": 185851984,
+      "step": 86040
+    },
+    {
+      "epoch": 14.036704730831975,
+      "grad_norm": 0.008089886978268623,
+      "learning_rate": 0.00024724347275247564,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 185862896,
+      "step": 86045
+    },
+    {
+      "epoch": 14.037520391517129,
+      "grad_norm": 0.0009739563683979213,
+      "learning_rate": 0.0002471820600135729,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 185873904,
+      "step": 86050
+    },
+    {
+      "epoch": 14.038336052202284,
+      "grad_norm": 0.002611349569633603,
+      "learning_rate": 0.0002471206523983465,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 185885232,
+      "step": 86055
+    },
+    {
+      "epoch": 14.039151712887438,
+      "grad_norm": 0.0013060198398306966,
+      "learning_rate": 0.00024705924990804076,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 185895920,
+      "step": 86060
+    },
+    {
+      "epoch": 14.039967373572594,
+      "grad_norm": 0.0006362605490721762,
+      "learning_rate": 0.0002469978525439002,
+      "loss": 0.002,
+      "num_input_tokens_seen": 185906928,
+      "step": 86065
+    },
+    {
+      "epoch": 14.040783034257748,
+      "grad_norm": 0.0027871110942214727,
+      "learning_rate": 0.00024693646030716923,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 185917840,
+      "step": 86070
+    },
+    {
+      "epoch": 14.041598694942904,
+      "grad_norm": 0.044228702783584595,
+      "learning_rate": 0.0002468750731990918,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 185928304,
+      "step": 86075
+    },
+    {
+      "epoch": 14.04241435562806,
+      "grad_norm": 0.016400212422013283,
+      "learning_rate": 0.0002468136912209122,
+      "loss": 0.1018,
+      "num_input_tokens_seen": 185938992,
+      "step": 86080
+    },
+    {
+      "epoch": 14.043230016313213,
+      "grad_norm": 0.03972737863659859,
+      "learning_rate": 0.0002467523143738743,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 185949584,
+      "step": 86085
+    },
+    {
+      "epoch": 14.044045676998369,
+      "grad_norm": 0.0019362044986337423,
+      "learning_rate": 0.00024669094265922204,
+      "loss": 0.003,
+      "num_input_tokens_seen": 185961296,
+      "step": 86090
+    },
+    {
+      "epoch": 14.044861337683523,
+      "grad_norm": 0.2900139391422272,
+      "learning_rate": 0.00024662957607819914,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 185972400,
+      "step": 86095
+    },
+    {
+      "epoch": 14.045676998368679,
+      "grad_norm": 0.0015170919941738248,
+      "learning_rate": 0.00024656821463204913,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 185982736,
+      "step": 86100
+    },
+    {
+      "epoch": 14.046492659053834,
+      "grad_norm": 0.04802202805876732,
+      "learning_rate": 0.0002465068583220161,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 185993712,
+      "step": 86105
+    },
+    {
+      "epoch": 14.047308319738988,
+      "grad_norm": 0.0018274127505719662,
+      "learning_rate": 0.0002464455071493429,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 186004368,
+      "step": 86110
+    },
+    {
+      "epoch": 14.048123980424144,
+      "grad_norm": 0.0069192443042993546,
+      "learning_rate": 0.00024638416111527346,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 186014736,
+      "step": 86115
+    },
+    {
+      "epoch": 14.048939641109298,
+      "grad_norm": 0.0008330877753905952,
+      "learning_rate": 0.0002463228202210503,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 186025392,
+      "step": 86120
+    },
+    {
+      "epoch": 14.049755301794454,
+      "grad_norm": 0.002327044727280736,
+      "learning_rate": 0.00024626148446791745,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 186037008,
+      "step": 86125
+    },
+    {
+      "epoch": 14.05057096247961,
+      "grad_norm": 0.003909484948962927,
+      "learning_rate": 0.00024620015385711706,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 186048048,
+      "step": 86130
+    },
+    {
+      "epoch": 14.051386623164763,
+      "grad_norm": 0.006379165221005678,
+      "learning_rate": 0.000246138828389893,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 186058448,
+      "step": 86135
+    },
+    {
+      "epoch": 14.052202283849919,
+      "grad_norm": 0.003839249489828944,
+      "learning_rate": 0.0002460775080674872,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 186068400,
+      "step": 86140
+    },
+    {
+      "epoch": 14.053017944535073,
+      "grad_norm": 0.07193329930305481,
+      "learning_rate": 0.0002460161928911432,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 186080752,
+      "step": 86145
+    },
+    {
+      "epoch": 14.053833605220229,
+      "grad_norm": 0.011074123904109001,
+      "learning_rate": 0.0002459548828621028,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 186092336,
+      "step": 86150
+    },
+    {
+      "epoch": 14.054649265905383,
+      "grad_norm": 0.002707752399146557,
+      "learning_rate": 0.00024589357798160925,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 186103632,
+      "step": 86155
+    },
+    {
+      "epoch": 14.055464926590538,
+      "grad_norm": 0.0034250058233737946,
+      "learning_rate": 0.0002458322782509047,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 186114256,
+      "step": 86160
+    },
+    {
+      "epoch": 14.056280587275694,
+      "grad_norm": 0.010328114964067936,
+      "learning_rate": 0.00024577098367123146,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 186124816,
+      "step": 86165
+    },
+    {
+      "epoch": 14.057096247960848,
+      "grad_norm": 0.0008839413640089333,
+      "learning_rate": 0.00024570969424383174,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 186136624,
+      "step": 86170
+    },
+    {
+      "epoch": 14.057911908646004,
+      "grad_norm": 0.00860717985779047,
+      "learning_rate": 0.00024564840996994764,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 186146864,
+      "step": 86175
+    },
+    {
+      "epoch": 14.058727569331158,
+      "grad_norm": 0.0009140484617091715,
+      "learning_rate": 0.0002455871308508212,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 186157904,
+      "step": 86180
+    },
+    {
+      "epoch": 14.059543230016313,
+      "grad_norm": 0.8887136578559875,
+      "learning_rate": 0.0002455258568876943,
+      "loss": 0.1385,
+      "num_input_tokens_seen": 186168464,
+      "step": 86185
+    },
+    {
+      "epoch": 14.060358890701469,
+      "grad_norm": 0.0013078611809760332,
+      "learning_rate": 0.0002454645880818087,
+      "loss": 0.002,
+      "num_input_tokens_seen": 186179568,
+      "step": 86190
+    },
+    {
+      "epoch": 14.061174551386623,
+      "grad_norm": 0.7345595955848694,
+      "learning_rate": 0.00024540332443440615,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 186191152,
+      "step": 86195
+    },
+    {
+      "epoch": 14.061990212071779,
+      "grad_norm": 0.027177168056368828,
+      "learning_rate": 0.0002453420659467282,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 186201776,
+      "step": 86200
+    },
+    {
+      "epoch": 14.062805872756933,
+      "grad_norm": 0.009244061075150967,
+      "learning_rate": 0.00024528081262001615,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 186213392,
+      "step": 86205
+    },
+    {
+      "epoch": 14.063621533442088,
+      "grad_norm": 0.0036014586221426725,
+      "learning_rate": 0.000245219564455512,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 186222448,
+      "step": 86210
+    },
+    {
+      "epoch": 14.064437194127244,
+      "grad_norm": 0.006802697200328112,
+      "learning_rate": 0.00024515832145445614,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 186232624,
+      "step": 86215
+    },
+    {
+      "epoch": 14.065252854812398,
+      "grad_norm": 0.004956814460456371,
+      "learning_rate": 0.0002450970836180906,
+      "loss": 0.006,
+      "num_input_tokens_seen": 186242896,
+      "step": 86220
+    },
+    {
+      "epoch": 14.066068515497554,
+      "grad_norm": 0.051006123423576355,
+      "learning_rate": 0.0002450358509476556,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 186253616,
+      "step": 86225
+    },
+    {
+      "epoch": 14.066884176182707,
+      "grad_norm": 0.08910132199525833,
+      "learning_rate": 0.00024497462344439297,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 186264080,
+      "step": 86230
+    },
+    {
+      "epoch": 14.067699836867863,
+      "grad_norm": 0.002252694685012102,
+      "learning_rate": 0.0002449134011095427,
+      "loss": 0.0855,
+      "num_input_tokens_seen": 186275760,
+      "step": 86235
+    },
+    {
+      "epoch": 14.068515497553017,
+      "grad_norm": 0.0041665323078632355,
+      "learning_rate": 0.0002448521839443464,
+      "loss": 0.1032,
+      "num_input_tokens_seen": 186286864,
+      "step": 86240
+    },
+    {
+      "epoch": 14.069331158238173,
+      "grad_norm": 0.00127582682762295,
+      "learning_rate": 0.00024479097195004377,
+      "loss": 0.032,
+      "num_input_tokens_seen": 186296560,
+      "step": 86245
+    },
+    {
+      "epoch": 14.070146818923329,
+      "grad_norm": 0.0045285290107131,
+      "learning_rate": 0.0002447297651278763,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 186307600,
+      "step": 86250
+    },
+    {
+      "epoch": 14.070962479608482,
+      "grad_norm": 0.0880713164806366,
+      "learning_rate": 0.0002446685634790836,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 186318704,
+      "step": 86255
+    },
+    {
+      "epoch": 14.071778140293638,
+      "grad_norm": 0.0022388026118278503,
+      "learning_rate": 0.00024460736700490676,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 186328016,
+      "step": 86260
+    },
+    {
+      "epoch": 14.072593800978792,
+      "grad_norm": 0.005308662075549364,
+      "learning_rate": 0.00024454617570658524,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 186340048,
+      "step": 86265
+    },
+    {
+      "epoch": 14.073409461663948,
+      "grad_norm": 0.010273891501128674,
+      "learning_rate": 0.00024448498958535984,
+      "loss": 0.004,
+      "num_input_tokens_seen": 186351408,
+      "step": 86270
+    },
+    {
+      "epoch": 14.074225122349104,
+      "grad_norm": 0.0025942821521312,
+      "learning_rate": 0.00024442380864247,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 186361904,
+      "step": 86275
+    },
+    {
+      "epoch": 14.075040783034257,
+      "grad_norm": 0.0011069714091718197,
+      "learning_rate": 0.00024436263287915623,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 186372848,
+      "step": 86280
+    },
+    {
+      "epoch": 14.075856443719413,
+      "grad_norm": 0.001931919134221971,
+      "learning_rate": 0.00024430146229665754,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 186384240,
+      "step": 86285
+    },
+    {
+      "epoch": 14.076672104404567,
+      "grad_norm": 0.018992312252521515,
+      "learning_rate": 0.0002442402968962146,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 186394608,
+      "step": 86290
+    },
+    {
+      "epoch": 14.077487765089723,
+      "grad_norm": 0.017261963337659836,
+      "learning_rate": 0.00024417913667906604,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 186404560,
+      "step": 86295
+    },
+    {
+      "epoch": 14.078303425774878,
+      "grad_norm": 0.007981205359101295,
+      "learning_rate": 0.00024411798164645205,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 186415248,
+      "step": 86300
+    },
+    {
+      "epoch": 14.079119086460032,
+      "grad_norm": 0.4204510450363159,
+      "learning_rate": 0.00024405683179961176,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 186426544,
+      "step": 86305
+    },
+    {
+      "epoch": 14.079934747145188,
+      "grad_norm": 0.012655510567128658,
+      "learning_rate": 0.00024399568713978444,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 186437040,
+      "step": 86310
+    },
+    {
+      "epoch": 14.080750407830342,
+      "grad_norm": 0.00166032905690372,
+      "learning_rate": 0.00024393454766820927,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 186448336,
+      "step": 86315
+    },
+    {
+      "epoch": 14.081566068515498,
+      "grad_norm": 0.11170172691345215,
+      "learning_rate": 0.00024387341338612535,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 186459152,
+      "step": 86320
+    },
+    {
+      "epoch": 14.082381729200652,
+      "grad_norm": 0.0015688682906329632,
+      "learning_rate": 0.00024381228429477166,
+      "loss": 0.002,
+      "num_input_tokens_seen": 186471504,
+      "step": 86325
+    },
+    {
+      "epoch": 14.083197389885807,
+      "grad_norm": 0.003982523921877146,
+      "learning_rate": 0.00024375116039538697,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 186481360,
+      "step": 86330
+    },
+    {
+      "epoch": 14.084013050570963,
+      "grad_norm": 0.0194878950715065,
+      "learning_rate": 0.0002436900416892101,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 186493328,
+      "step": 86335
+    },
+    {
+      "epoch": 14.084828711256117,
+      "grad_norm": 0.33860138058662415,
+      "learning_rate": 0.00024362892817747972,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 186504688,
+      "step": 86340
+    },
+    {
+      "epoch": 14.085644371941273,
+      "grad_norm": 0.0014220515731722116,
+      "learning_rate": 0.00024356781986143434,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 186516144,
+      "step": 86345
+    },
+    {
+      "epoch": 14.086460032626427,
+      "grad_norm": 0.002930557122454047,
+      "learning_rate": 0.00024350671674231217,
+      "loss": 0.1392,
+      "num_input_tokens_seen": 186526288,
+      "step": 86350
+    },
+    {
+      "epoch": 14.087275693311582,
+      "grad_norm": 0.01115860790014267,
+      "learning_rate": 0.0002434456188213522,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 186536432,
+      "step": 86355
+    },
+    {
+      "epoch": 14.088091353996738,
+      "grad_norm": 0.004121196456253529,
+      "learning_rate": 0.00024338452609979177,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 186546064,
+      "step": 86360
+    },
+    {
+      "epoch": 14.088907014681892,
+      "grad_norm": 0.005770614370703697,
+      "learning_rate": 0.0002433234385788699,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 186557872,
+      "step": 86365
+    },
+    {
+      "epoch": 14.089722675367048,
+      "grad_norm": 0.004038193728774786,
+      "learning_rate": 0.00024326235625982378,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 186569136,
+      "step": 86370
+    },
+    {
+      "epoch": 14.090538336052202,
+      "grad_norm": 0.03139469772577286,
+      "learning_rate": 0.00024320127914389213,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 186581232,
+      "step": 86375
+    },
+    {
+      "epoch": 14.091353996737357,
+      "grad_norm": 0.16970932483673096,
+      "learning_rate": 0.00024314020723231183,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 186592144,
+      "step": 86380
+    },
+    {
+      "epoch": 14.092169657422513,
+      "grad_norm": 0.04780832678079605,
+      "learning_rate": 0.00024307914052632159,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 186603504,
+      "step": 86385
+    },
+    {
+      "epoch": 14.092985318107667,
+      "grad_norm": 0.002771410159766674,
+      "learning_rate": 0.000243018079027158,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 186615024,
+      "step": 86390
+    },
+    {
+      "epoch": 14.093800978792823,
+      "grad_norm": 0.029407048597931862,
+      "learning_rate": 0.0002429570227360595,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 186624976,
+      "step": 86395
+    },
+    {
+      "epoch": 14.094616639477977,
+      "grad_norm": 0.0027717319317162037,
+      "learning_rate": 0.00024289597165426264,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 186636752,
+      "step": 86400
+    },
+    {
+      "epoch": 14.095432300163132,
+      "grad_norm": 0.016943685710430145,
+      "learning_rate": 0.00024283492578300542,
+      "loss": 0.0805,
+      "num_input_tokens_seen": 186647632,
+      "step": 86405
+    },
+    {
+      "epoch": 14.096247960848286,
+      "grad_norm": 0.002924926346167922,
+      "learning_rate": 0.00024277388512352428,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 186658896,
+      "step": 86410
+    },
+    {
+      "epoch": 14.097063621533442,
+      "grad_norm": 0.014270029030740261,
+      "learning_rate": 0.00024271284967705687,
+      "loss": 0.016,
+      "num_input_tokens_seen": 186671056,
+      "step": 86415
+    },
+    {
+      "epoch": 14.097879282218598,
+      "grad_norm": 0.0008768712286837399,
+      "learning_rate": 0.00024265181944483995,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 186681872,
+      "step": 86420
+    },
+    {
+      "epoch": 14.098694942903752,
+      "grad_norm": 0.004642259329557419,
+      "learning_rate": 0.0002425907944281104,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 186692880,
+      "step": 86425
+    },
+    {
+      "epoch": 14.099510603588907,
+      "grad_norm": 0.017092658206820488,
+      "learning_rate": 0.00024252977462810494,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 186702704,
+      "step": 86430
+    },
+    {
+      "epoch": 14.100326264274061,
+      "grad_norm": 0.0033077350817620754,
+      "learning_rate": 0.0002424687600460602,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 186712944,
+      "step": 86435
+    },
+    {
+      "epoch": 14.101141924959217,
+      "grad_norm": 0.0017457004869356751,
+      "learning_rate": 0.00024240775068321273,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 186723408,
+      "step": 86440
+    },
+    {
+      "epoch": 14.101957585644373,
+      "grad_norm": 0.0013185646384954453,
+      "learning_rate": 0.00024234674654079901,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 186735312,
+      "step": 86445
+    },
+    {
+      "epoch": 14.102773246329527,
+      "grad_norm": 0.0159031692892313,
+      "learning_rate": 0.00024228574762005534,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 186746544,
+      "step": 86450
+    },
+    {
+      "epoch": 14.103588907014682,
+      "grad_norm": 0.03777594491839409,
+      "learning_rate": 0.00024222475392221787,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 186757712,
+      "step": 86455
+    },
+    {
+      "epoch": 14.104404567699836,
+      "grad_norm": 0.015740415081381798,
+      "learning_rate": 0.0002421637654485228,
+      "loss": 0.002,
+      "num_input_tokens_seen": 186768144,
+      "step": 86460
+    },
+    {
+      "epoch": 14.105220228384992,
+      "grad_norm": 2.156970977783203,
+      "learning_rate": 0.00024210278220020614,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 186778096,
+      "step": 86465
+    },
+    {
+      "epoch": 14.106035889070148,
+      "grad_norm": 0.005683009047061205,
+      "learning_rate": 0.00024204180417850373,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 186789008,
+      "step": 86470
+    },
+    {
+      "epoch": 14.106851549755302,
+      "grad_norm": 0.07511241734027863,
+      "learning_rate": 0.00024198083138465143,
+      "loss": 0.005,
+      "num_input_tokens_seen": 186799280,
+      "step": 86475
+    },
+    {
+      "epoch": 14.107667210440457,
+      "grad_norm": 0.05983182042837143,
+      "learning_rate": 0.0002419198638198849,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 186809808,
+      "step": 86480
+    },
+    {
+      "epoch": 14.108482871125611,
+      "grad_norm": 0.011176004074513912,
+      "learning_rate": 0.0002418589014854397,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 186821104,
+      "step": 86485
+    },
+    {
+      "epoch": 14.109298531810767,
+      "grad_norm": 0.024094609543681145,
+      "learning_rate": 0.00024179794438255133,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 186830864,
+      "step": 86490
+    },
+    {
+      "epoch": 14.11011419249592,
+      "grad_norm": 0.020474612712860107,
+      "learning_rate": 0.000241736992512455,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 186841936,
+      "step": 86495
+    },
+    {
+      "epoch": 14.110929853181077,
+      "grad_norm": 0.0037670359015464783,
+      "learning_rate": 0.00024167604587638653,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 186852944,
+      "step": 86500
+    },
+    {
+      "epoch": 14.111745513866232,
+      "grad_norm": 0.020464560016989708,
+      "learning_rate": 0.00024161510447558032,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 186863152,
+      "step": 86505
+    },
+    {
+      "epoch": 14.112561174551386,
+      "grad_norm": 0.030841641128063202,
+      "learning_rate": 0.0002415541683112722,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 186873904,
+      "step": 86510
+    },
+    {
+      "epoch": 14.113376835236542,
+      "grad_norm": 0.0019353614188730717,
+      "learning_rate": 0.0002414932373846963,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 186884592,
+      "step": 86515
+    },
+    {
+      "epoch": 14.114192495921696,
+      "grad_norm": 0.0009746397845447063,
+      "learning_rate": 0.00024143231169708806,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 186895536,
+      "step": 86520
+    },
+    {
+      "epoch": 14.115008156606851,
+      "grad_norm": 0.01233255211263895,
+      "learning_rate": 0.0002413713912496821,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 186906448,
+      "step": 86525
+    },
+    {
+      "epoch": 14.115823817292007,
+      "grad_norm": 0.005642162170261145,
+      "learning_rate": 0.00024131047604371292,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 186917328,
+      "step": 86530
+    },
+    {
+      "epoch": 14.116639477977161,
+      "grad_norm": 0.012053254060447216,
+      "learning_rate": 0.0002412495660804152,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 186928336,
+      "step": 86535
+    },
+    {
+      "epoch": 14.117455138662317,
+      "grad_norm": 0.01833995431661606,
+      "learning_rate": 0.0002411886613610232,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 186938896,
+      "step": 86540
+    },
+    {
+      "epoch": 14.11827079934747,
+      "grad_norm": 0.007797705475240946,
+      "learning_rate": 0.00024112776188677133,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 186948688,
+      "step": 86545
+    },
+    {
+      "epoch": 14.119086460032626,
+      "grad_norm": 0.01950424164533615,
+      "learning_rate": 0.0002410668676588938,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 186958928,
+      "step": 86550
+    },
+    {
+      "epoch": 14.119902120717782,
+      "grad_norm": 0.6473231315612793,
+      "learning_rate": 0.0002410059786786246,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 186969744,
+      "step": 86555
+    },
+    {
+      "epoch": 14.120717781402936,
+      "grad_norm": 0.07638765871524811,
+      "learning_rate": 0.00024094509494719784,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 186980528,
+      "step": 86560
+    },
+    {
+      "epoch": 14.121533442088092,
+      "grad_norm": 0.03419485315680504,
+      "learning_rate": 0.0002408842164658474,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 186991280,
+      "step": 86565
+    },
+    {
+      "epoch": 14.122349102773246,
+      "grad_norm": 0.0056074392050504684,
+      "learning_rate": 0.00024082334323580695,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 187002448,
+      "step": 86570
+    },
+    {
+      "epoch": 14.123164763458401,
+      "grad_norm": 0.043900150805711746,
+      "learning_rate": 0.0002407624752583103,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 187013552,
+      "step": 86575
+    },
+    {
+      "epoch": 14.123980424143557,
+      "grad_norm": 0.006590542383491993,
+      "learning_rate": 0.00024070161253459093,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 187023984,
+      "step": 86580
+    },
+    {
+      "epoch": 14.124796084828711,
+      "grad_norm": 0.0019354376709088683,
+      "learning_rate": 0.00024064075506588235,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 187036496,
+      "step": 86585
+    },
+    {
+      "epoch": 14.125611745513867,
+      "grad_norm": 0.013171792961657047,
+      "learning_rate": 0.00024057990285341786,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 187047056,
+      "step": 86590
+    },
+    {
+      "epoch": 14.12642740619902,
+      "grad_norm": 0.06522294878959656,
+      "learning_rate": 0.00024051905589843076,
+      "loss": 0.0573,
+      "num_input_tokens_seen": 187057712,
+      "step": 86595
+    },
+    {
+      "epoch": 14.127243066884176,
+      "grad_norm": 0.0005969098419882357,
+      "learning_rate": 0.00024045821420215412,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 187069296,
+      "step": 86600
+    },
+    {
+      "epoch": 14.12805872756933,
+      "grad_norm": 0.6809018850326538,
+      "learning_rate": 0.0002403973777658211,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 187080368,
+      "step": 86605
+    },
+    {
+      "epoch": 14.128874388254486,
+      "grad_norm": 0.0005238762823864818,
+      "learning_rate": 0.0002403365465906645,
+      "loss": 0.003,
+      "num_input_tokens_seen": 187091728,
+      "step": 86610
+    },
+    {
+      "epoch": 14.129690048939642,
+      "grad_norm": 0.0008300320478156209,
+      "learning_rate": 0.0002402757206779172,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 187101584,
+      "step": 86615
+    },
+    {
+      "epoch": 14.130505709624796,
+      "grad_norm": 0.006851747632026672,
+      "learning_rate": 0.00024021490002881186,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 187112112,
+      "step": 86620
+    },
+    {
+      "epoch": 14.131321370309951,
+      "grad_norm": 0.004974581766873598,
+      "learning_rate": 0.000240154084644581,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 187123440,
+      "step": 86625
+    },
+    {
+      "epoch": 14.132137030995105,
+      "grad_norm": 0.5447921752929688,
+      "learning_rate": 0.0002400932745264574,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 187134416,
+      "step": 86630
+    },
+    {
+      "epoch": 14.132952691680261,
+      "grad_norm": 0.02428017184138298,
+      "learning_rate": 0.00024003246967567332,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 187146128,
+      "step": 86635
+    },
+    {
+      "epoch": 14.133768352365417,
+      "grad_norm": 0.001342527917586267,
+      "learning_rate": 0.00023997167009346104,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 187156624,
+      "step": 86640
+    },
+    {
+      "epoch": 14.13458401305057,
+      "grad_norm": 0.03645501285791397,
+      "learning_rate": 0.00023991087578105274,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 187167600,
+      "step": 86645
+    },
+    {
+      "epoch": 14.135399673735726,
+      "grad_norm": 0.00650134077295661,
+      "learning_rate": 0.00023985008673968052,
+      "loss": 0.0191,
+      "num_input_tokens_seen": 187179248,
+      "step": 86650
+    },
+    {
+      "epoch": 14.13621533442088,
+      "grad_norm": 0.0668526217341423,
+      "learning_rate": 0.00023978930297057627,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 187189872,
+      "step": 86655
+    },
+    {
+      "epoch": 14.137030995106036,
+      "grad_norm": 0.05055573210120201,
+      "learning_rate": 0.0002397285244749719,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 187201616,
+      "step": 86660
+    },
+    {
+      "epoch": 14.137846655791192,
+      "grad_norm": 0.008112654089927673,
+      "learning_rate": 0.00023966775125409918,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 187211856,
+      "step": 86665
+    },
+    {
+      "epoch": 14.138662316476346,
+      "grad_norm": 0.0011952114291489124,
+      "learning_rate": 0.00023960698330918972,
+      "loss": 0.002,
+      "num_input_tokens_seen": 187222864,
+      "step": 86670
+    },
+    {
+      "epoch": 14.139477977161501,
+      "grad_norm": 0.0007925685495138168,
+      "learning_rate": 0.00023954622064147507,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 187232912,
+      "step": 86675
+    },
+    {
+      "epoch": 14.140293637846655,
+      "grad_norm": 0.05681190267205238,
+      "learning_rate": 0.00023948546325218667,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 187243984,
+      "step": 86680
+    },
+    {
+      "epoch": 14.141109298531811,
+      "grad_norm": 0.036385323852300644,
+      "learning_rate": 0.00023942471114255588,
+      "loss": 0.0228,
+      "num_input_tokens_seen": 187255280,
+      "step": 86685
+    },
+    {
+      "epoch": 14.141924959216965,
+      "grad_norm": 0.0023627562914043665,
+      "learning_rate": 0.00023936396431381386,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 187265488,
+      "step": 86690
+    },
+    {
+      "epoch": 14.14274061990212,
+      "grad_norm": 0.1351795792579651,
+      "learning_rate": 0.00023930322276719175,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 187277872,
+      "step": 86695
+    },
+    {
+      "epoch": 14.143556280587276,
+      "grad_norm": 0.011718549765646458,
+      "learning_rate": 0.0002392424865039205,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 187288144,
+      "step": 86700
+    },
+    {
+      "epoch": 14.14437194127243,
+      "grad_norm": 0.001978749642148614,
+      "learning_rate": 0.0002391817555252311,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 187297488,
+      "step": 86705
+    },
+    {
+      "epoch": 14.145187601957586,
+      "grad_norm": 0.03943789377808571,
+      "learning_rate": 0.0002391210298323543,
+      "loss": 0.012,
+      "num_input_tokens_seen": 187309904,
+      "step": 86710
+    },
+    {
+      "epoch": 14.14600326264274,
+      "grad_norm": 0.0004417496966198087,
+      "learning_rate": 0.00023906030942652073,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 187321136,
+      "step": 86715
+    },
+    {
+      "epoch": 14.146818923327896,
+      "grad_norm": 0.010585743933916092,
+      "learning_rate": 0.00023899959430896106,
+      "loss": 0.2156,
+      "num_input_tokens_seen": 187331440,
+      "step": 86720
+    },
+    {
+      "epoch": 14.147634584013051,
+      "grad_norm": 0.006574005354195833,
+      "learning_rate": 0.00023893888448090573,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 187342352,
+      "step": 86725
+    },
+    {
+      "epoch": 14.148450244698205,
+      "grad_norm": 0.004500469658523798,
+      "learning_rate": 0.00023887817994358484,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 187352496,
+      "step": 86730
+    },
+    {
+      "epoch": 14.149265905383361,
+      "grad_norm": 0.00272945174947381,
+      "learning_rate": 0.0002388174806982293,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 187362480,
+      "step": 86735
+    },
+    {
+      "epoch": 14.150081566068515,
+      "grad_norm": 0.004126972518861294,
+      "learning_rate": 0.00023875678674606848,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 187374064,
+      "step": 86740
+    },
+    {
+      "epoch": 14.15089722675367,
+      "grad_norm": 0.030439136549830437,
+      "learning_rate": 0.00023869609808833316,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 187384176,
+      "step": 86745
+    },
+    {
+      "epoch": 14.151712887438826,
+      "grad_norm": 0.009578816592693329,
+      "learning_rate": 0.0002386354147262525,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 187395568,
+      "step": 86750
+    },
+    {
+      "epoch": 14.15252854812398,
+      "grad_norm": 0.004324750974774361,
+      "learning_rate": 0.0002385747366610571,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 187407408,
+      "step": 86755
+    },
+    {
+      "epoch": 14.153344208809136,
+      "grad_norm": 0.0028149730060249567,
+      "learning_rate": 0.00023851406389397594,
+      "loss": 0.003,
+      "num_input_tokens_seen": 187418032,
+      "step": 86760
+    },
+    {
+      "epoch": 14.15415986949429,
+      "grad_norm": 0.003918309696018696,
+      "learning_rate": 0.00023845339642623937,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 187428464,
+      "step": 86765
+    },
+    {
+      "epoch": 14.154975530179446,
+      "grad_norm": 0.004220111761242151,
+      "learning_rate": 0.00023839273425907615,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 187438256,
+      "step": 86770
+    },
+    {
+      "epoch": 14.1557911908646,
+      "grad_norm": 0.0007073664455674589,
+      "learning_rate": 0.0002383320773937162,
+      "loss": 0.0956,
+      "num_input_tokens_seen": 187448496,
+      "step": 86775
+    },
+    {
+      "epoch": 14.156606851549755,
+      "grad_norm": 0.0012666697148233652,
+      "learning_rate": 0.00023827142583138873,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 187459792,
+      "step": 86780
+    },
+    {
+      "epoch": 14.15742251223491,
+      "grad_norm": 0.0030706448014825583,
+      "learning_rate": 0.00023821077957332276,
+      "loss": 0.002,
+      "num_input_tokens_seen": 187471984,
+      "step": 86785
+    },
+    {
+      "epoch": 14.158238172920065,
+      "grad_norm": 0.0018182602943852544,
+      "learning_rate": 0.00023815013862074746,
+      "loss": 0.004,
+      "num_input_tokens_seen": 187482960,
+      "step": 86790
+    },
+    {
+      "epoch": 14.15905383360522,
+      "grad_norm": 0.006480704993009567,
+      "learning_rate": 0.0002380895029748918,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 187493680,
+      "step": 86795
+    },
+    {
+      "epoch": 14.159869494290374,
+      "grad_norm": 0.005142877344042063,
+      "learning_rate": 0.00023802887263698464,
+      "loss": 0.0995,
+      "num_input_tokens_seen": 187505488,
+      "step": 86800
+    },
+    {
+      "epoch": 14.16068515497553,
+      "grad_norm": 0.025212204083800316,
+      "learning_rate": 0.00023796824760825464,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 187516336,
+      "step": 86805
+    },
+    {
+      "epoch": 14.161500815660686,
+      "grad_norm": 0.004730370827019215,
+      "learning_rate": 0.0002379076278899306,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 187526576,
+      "step": 86810
+    },
+    {
+      "epoch": 14.16231647634584,
+      "grad_norm": 0.008115909993648529,
+      "learning_rate": 0.0002378470134832409,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 187537936,
+      "step": 86815
+    },
+    {
+      "epoch": 14.163132137030995,
+      "grad_norm": 0.019025664776563644,
+      "learning_rate": 0.00023778640438941408,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 187547792,
+      "step": 86820
+    },
+    {
+      "epoch": 14.16394779771615,
+      "grad_norm": 0.04850027337670326,
+      "learning_rate": 0.00023772580060967834,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 187559024,
+      "step": 86825
+    },
+    {
+      "epoch": 14.164763458401305,
+      "grad_norm": 0.0032715355046093464,
+      "learning_rate": 0.00023766520214526206,
+      "loss": 0.005,
+      "num_input_tokens_seen": 187570288,
+      "step": 86830
+    },
+    {
+      "epoch": 14.16557911908646,
+      "grad_norm": 0.03740094229578972,
+      "learning_rate": 0.00023760460899739322,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 187580624,
+      "step": 86835
+    },
+    {
+      "epoch": 14.166394779771615,
+      "grad_norm": 0.0004254610976204276,
+      "learning_rate": 0.00023754402116729983,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 187591248,
+      "step": 86840
+    },
+    {
+      "epoch": 14.16721044045677,
+      "grad_norm": 0.003979322500526905,
+      "learning_rate": 0.00023748343865620964,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 187601136,
+      "step": 86845
+    },
+    {
+      "epoch": 14.168026101141924,
+      "grad_norm": 0.0024420591071248055,
+      "learning_rate": 0.00023742286146535098,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 187611472,
+      "step": 86850
+    },
+    {
+      "epoch": 14.16884176182708,
+      "grad_norm": 0.027474381029605865,
+      "learning_rate": 0.00023736228959595073,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 187621488,
+      "step": 86855
+    },
+    {
+      "epoch": 14.169657422512234,
+      "grad_norm": 0.0005245811189524829,
+      "learning_rate": 0.00023730172304923725,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 187631696,
+      "step": 86860
+    },
+    {
+      "epoch": 14.17047308319739,
+      "grad_norm": 0.002572552999481559,
+      "learning_rate": 0.00023724116182643725,
+      "loss": 0.009,
+      "num_input_tokens_seen": 187642768,
+      "step": 86865
+    },
+    {
+      "epoch": 14.171288743882545,
+      "grad_norm": 0.5119752287864685,
+      "learning_rate": 0.00023718060592877878,
+      "loss": 0.046,
+      "num_input_tokens_seen": 187653488,
+      "step": 86870
+    },
+    {
+      "epoch": 14.1721044045677,
+      "grad_norm": 0.0018368182936683297,
+      "learning_rate": 0.00023712005535748838,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 187663632,
+      "step": 86875
+    },
+    {
+      "epoch": 14.172920065252855,
+      "grad_norm": 0.0015098400181159377,
+      "learning_rate": 0.0002370595101137939,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 187672912,
+      "step": 86880
+    },
+    {
+      "epoch": 14.173735725938009,
+      "grad_norm": 0.014908955432474613,
+      "learning_rate": 0.00023699897019892165,
+      "loss": 0.001,
+      "num_input_tokens_seen": 187683536,
+      "step": 86885
+    },
+    {
+      "epoch": 14.174551386623165,
+      "grad_norm": 0.008537651039659977,
+      "learning_rate": 0.00023693843561409928,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 187695280,
+      "step": 86890
+    },
+    {
+      "epoch": 14.17536704730832,
+      "grad_norm": 0.0010102560045197606,
+      "learning_rate": 0.0002368779063605529,
+      "loss": 0.001,
+      "num_input_tokens_seen": 187705744,
+      "step": 86895
+    },
+    {
+      "epoch": 14.176182707993474,
+      "grad_norm": 0.17667905986309052,
+      "learning_rate": 0.00023681738243950984,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 187716976,
+      "step": 86900
+    },
+    {
+      "epoch": 14.17699836867863,
+      "grad_norm": 0.5679713487625122,
+      "learning_rate": 0.00023675686385219607,
+      "loss": 0.0884,
+      "num_input_tokens_seen": 187728208,
+      "step": 86905
+    },
+    {
+      "epoch": 14.177814029363784,
+      "grad_norm": 0.004683853592723608,
+      "learning_rate": 0.0002366963505998388,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 187738608,
+      "step": 86910
+    },
+    {
+      "epoch": 14.17862969004894,
+      "grad_norm": 0.02120167389512062,
+      "learning_rate": 0.00023663584268366356,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 187750032,
+      "step": 86915
+    },
+    {
+      "epoch": 14.179445350734095,
+      "grad_norm": 0.010204663500189781,
+      "learning_rate": 0.00023657534010489733,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 187760272,
+      "step": 86920
+    },
+    {
+      "epoch": 14.18026101141925,
+      "grad_norm": 0.0016371725359931588,
+      "learning_rate": 0.000236514842864766,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 187770832,
+      "step": 86925
+    },
+    {
+      "epoch": 14.181076672104405,
+      "grad_norm": 0.0017514110077172518,
+      "learning_rate": 0.00023645435096449557,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 187782192,
+      "step": 86930
+    },
+    {
+      "epoch": 14.181892332789559,
+      "grad_norm": 0.0801762267947197,
+      "learning_rate": 0.00023639386440531208,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 187793456,
+      "step": 86935
+    },
+    {
+      "epoch": 14.182707993474715,
+      "grad_norm": 0.5289106369018555,
+      "learning_rate": 0.00023633338318844137,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 187804976,
+      "step": 86940
+    },
+    {
+      "epoch": 14.18352365415987,
+      "grad_norm": 0.006982157472521067,
+      "learning_rate": 0.00023627290731510908,
+      "loss": 0.0869,
+      "num_input_tokens_seen": 187815120,
+      "step": 86945
+    },
+    {
+      "epoch": 14.184339314845024,
+      "grad_norm": 0.010652474127709866,
+      "learning_rate": 0.00023621243678654099,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 187825776,
+      "step": 86950
+    },
+    {
+      "epoch": 14.18515497553018,
+      "grad_norm": 0.16883718967437744,
+      "learning_rate": 0.0002361519716039624,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 187835920,
+      "step": 86955
+    },
+    {
+      "epoch": 14.185970636215334,
+      "grad_norm": 0.024424118921160698,
+      "learning_rate": 0.00023609151176859884,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 187846832,
+      "step": 86960
+    },
+    {
+      "epoch": 14.18678629690049,
+      "grad_norm": 0.09532174468040466,
+      "learning_rate": 0.00023603105728167562,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 187856624,
+      "step": 86965
+    },
+    {
+      "epoch": 14.187601957585644,
+      "grad_norm": 0.026332538574934006,
+      "learning_rate": 0.00023597060814441767,
+      "loss": 0.1008,
+      "num_input_tokens_seen": 187867120,
+      "step": 86970
+    },
+    {
+      "epoch": 14.1884176182708,
+      "grad_norm": 0.0035820265766233206,
+      "learning_rate": 0.00023591016435805067,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 187877040,
+      "step": 86975
+    },
+    {
+      "epoch": 14.189233278955955,
+      "grad_norm": 0.0029624279122799635,
+      "learning_rate": 0.00023584972592379888,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 187888304,
+      "step": 86980
+    },
+    {
+      "epoch": 14.190048939641109,
+      "grad_norm": 0.03424012288451195,
+      "learning_rate": 0.0002357892928428878,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 187897680,
+      "step": 86985
+    },
+    {
+      "epoch": 14.190864600326265,
+      "grad_norm": 0.0046348837204277515,
+      "learning_rate": 0.00023572886511654157,
+      "loss": 0.002,
+      "num_input_tokens_seen": 187908784,
+      "step": 86990
+    },
+    {
+      "epoch": 14.191680261011419,
+      "grad_norm": 0.0020335959270596504,
+      "learning_rate": 0.00023566844274598548,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 187919920,
+      "step": 86995
+    },
+    {
+      "epoch": 14.192495921696574,
+      "grad_norm": 0.06452670693397522,
+      "learning_rate": 0.00023560802573244333,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 187931408,
+      "step": 87000
+    },
+    {
+      "epoch": 14.19331158238173,
+      "grad_norm": 0.006201412994414568,
+      "learning_rate": 0.00023554761407714036,
+      "loss": 0.0519,
+      "num_input_tokens_seen": 187940816,
+      "step": 87005
+    },
+    {
+      "epoch": 14.194127243066884,
+      "grad_norm": 0.027852863073349,
+      "learning_rate": 0.00023548720778130005,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 187951664,
+      "step": 87010
+    },
+    {
+      "epoch": 14.19494290375204,
+      "grad_norm": 0.09883508831262589,
+      "learning_rate": 0.0002354268068461475,
+      "loss": 0.018,
+      "num_input_tokens_seen": 187962768,
+      "step": 87015
+    },
+    {
+      "epoch": 14.195758564437194,
+      "grad_norm": 0.008603896014392376,
+      "learning_rate": 0.00023536641127290588,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 187972624,
+      "step": 87020
+    },
+    {
+      "epoch": 14.19657422512235,
+      "grad_norm": 0.0015382606070488691,
+      "learning_rate": 0.00023530602106280004,
+      "loss": 0.2456,
+      "num_input_tokens_seen": 187984592,
+      "step": 87025
+    },
+    {
+      "epoch": 14.197389885807505,
+      "grad_norm": 0.21547020971775055,
+      "learning_rate": 0.00023524563621705308,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 187996688,
+      "step": 87030
+    },
+    {
+      "epoch": 14.198205546492659,
+      "grad_norm": 0.018739258870482445,
+      "learning_rate": 0.00023518525673688957,
+      "loss": 0.003,
+      "num_input_tokens_seen": 188007600,
+      "step": 87035
+    },
+    {
+      "epoch": 14.199021207177815,
+      "grad_norm": 0.3604316711425781,
+      "learning_rate": 0.0002351248826235324,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 188018288,
+      "step": 87040
+    },
+    {
+      "epoch": 14.199836867862969,
+      "grad_norm": 0.0037503130733966827,
+      "learning_rate": 0.00023506451387820588,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 188029456,
+      "step": 87045
+    },
+    {
+      "epoch": 14.200652528548124,
+      "grad_norm": 0.015447917394340038,
+      "learning_rate": 0.0002350041505021327,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 188042864,
+      "step": 87050
+    },
+    {
+      "epoch": 14.201468189233278,
+      "grad_norm": 0.04216151684522629,
+      "learning_rate": 0.00023494379249653675,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 188053904,
+      "step": 87055
+    },
+    {
+      "epoch": 14.202283849918434,
+      "grad_norm": 0.13910488784313202,
+      "learning_rate": 0.0002348834398626411,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 188063504,
+      "step": 87060
+    },
+    {
+      "epoch": 14.20309951060359,
+      "grad_norm": 0.0654771700501442,
+      "learning_rate": 0.0002348230926016689,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 188073712,
+      "step": 87065
+    },
+    {
+      "epoch": 14.203915171288743,
+      "grad_norm": 0.011523857712745667,
+      "learning_rate": 0.00023476275071484309,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 188083888,
+      "step": 87070
+    },
+    {
+      "epoch": 14.2047308319739,
+      "grad_norm": 0.003080186201259494,
+      "learning_rate": 0.0002347024142033866,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 188094640,
+      "step": 87075
+    },
+    {
+      "epoch": 14.205546492659053,
+      "grad_norm": 0.5070033669471741,
+      "learning_rate": 0.0002346420830685223,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 188106256,
+      "step": 87080
+    },
+    {
+      "epoch": 14.206362153344209,
+      "grad_norm": 0.008827326819300652,
+      "learning_rate": 0.0002345817573114728,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 188115536,
+      "step": 87085
+    },
+    {
+      "epoch": 14.207177814029365,
+      "grad_norm": 0.003627562429755926,
+      "learning_rate": 0.00023452143693346067,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 188126800,
+      "step": 87090
+    },
+    {
+      "epoch": 14.207993474714518,
+      "grad_norm": 0.007856626994907856,
+      "learning_rate": 0.0002344611219357084,
+      "loss": 0.05,
+      "num_input_tokens_seen": 188137680,
+      "step": 87095
+    },
+    {
+      "epoch": 14.208809135399674,
+      "grad_norm": 0.10289426147937775,
+      "learning_rate": 0.0002344008123194384,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 188149200,
+      "step": 87100
+    },
+    {
+      "epoch": 14.209624796084828,
+      "grad_norm": 0.00227095908485353,
+      "learning_rate": 0.0002343405080858728,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 188160080,
+      "step": 87105
+    },
+    {
+      "epoch": 14.210440456769984,
+      "grad_norm": 0.11845573782920837,
+      "learning_rate": 0.00023428020923623382,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 188171856,
+      "step": 87110
+    },
+    {
+      "epoch": 14.21125611745514,
+      "grad_norm": 0.0016365720657631755,
+      "learning_rate": 0.0002342199157717434,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 188181936,
+      "step": 87115
+    },
+    {
+      "epoch": 14.212071778140293,
+      "grad_norm": 0.0020826237741857767,
+      "learning_rate": 0.00023415962769362386,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 188193040,
+      "step": 87120
+    },
+    {
+      "epoch": 14.21288743882545,
+      "grad_norm": 0.023198019713163376,
+      "learning_rate": 0.00023409934500309633,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 188202864,
+      "step": 87125
+    },
+    {
+      "epoch": 14.213703099510603,
+      "grad_norm": 0.010550117120146751,
+      "learning_rate": 0.00023403906770138328,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 188214032,
+      "step": 87130
+    },
+    {
+      "epoch": 14.214518760195759,
+      "grad_norm": 0.005151396617293358,
+      "learning_rate": 0.00023397879578970554,
+      "loss": 0.008,
+      "num_input_tokens_seen": 188224784,
+      "step": 87135
+    },
+    {
+      "epoch": 14.215334420880913,
+      "grad_norm": 0.010745275765657425,
+      "learning_rate": 0.00023391852926928536,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 188235152,
+      "step": 87140
+    },
+    {
+      "epoch": 14.216150081566068,
+      "grad_norm": 0.004303690977394581,
+      "learning_rate": 0.0002338582681413433,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 188246288,
+      "step": 87145
+    },
+    {
+      "epoch": 14.216965742251224,
+      "grad_norm": 0.008361046202480793,
+      "learning_rate": 0.0002337980124071015,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 188258160,
+      "step": 87150
+    },
+    {
+      "epoch": 14.217781402936378,
+      "grad_norm": 0.0012672094162553549,
+      "learning_rate": 0.0002337377620677803,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 188268656,
+      "step": 87155
+    },
+    {
+      "epoch": 14.218597063621534,
+      "grad_norm": 0.004940166603773832,
+      "learning_rate": 0.00023367751712460134,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 188279664,
+      "step": 87160
+    },
+    {
+      "epoch": 14.219412724306688,
+      "grad_norm": 0.016097739338874817,
+      "learning_rate": 0.00023361727757878527,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 188290512,
+      "step": 87165
+    },
+    {
+      "epoch": 14.220228384991843,
+      "grad_norm": 0.009004230611026287,
+      "learning_rate": 0.00023355704343155305,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 188300848,
+      "step": 87170
+    },
+    {
+      "epoch": 14.221044045676999,
+      "grad_norm": 0.014903482049703598,
+      "learning_rate": 0.00023349681468412537,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 188310832,
+      "step": 87175
+    },
+    {
+      "epoch": 14.221859706362153,
+      "grad_norm": 0.030258629471063614,
+      "learning_rate": 0.00023343659133772277,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 188322704,
+      "step": 87180
+    },
+    {
+      "epoch": 14.222675367047309,
+      "grad_norm": 0.40277299284935,
+      "learning_rate": 0.0002333763733935659,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 188332656,
+      "step": 87185
+    },
+    {
+      "epoch": 14.223491027732463,
+      "grad_norm": 0.001041868468746543,
+      "learning_rate": 0.00023331616085287492,
+      "loss": 0.002,
+      "num_input_tokens_seen": 188343408,
+      "step": 87190
+    },
+    {
+      "epoch": 14.224306688417618,
+      "grad_norm": 0.03579118847846985,
+      "learning_rate": 0.00023325595371687037,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 188354736,
+      "step": 87195
+    },
+    {
+      "epoch": 14.225122349102774,
+      "grad_norm": 0.006182889919728041,
+      "learning_rate": 0.00023319575198677223,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 188364944,
+      "step": 87200
+    },
+    {
+      "epoch": 14.225938009787928,
+      "grad_norm": 0.0006182396900840104,
+      "learning_rate": 0.00023313555566380068,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 188374928,
+      "step": 87205
+    },
+    {
+      "epoch": 14.226753670473084,
+      "grad_norm": 0.006085644010454416,
+      "learning_rate": 0.00023307536474917567,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 188384816,
+      "step": 87210
+    },
+    {
+      "epoch": 14.227569331158238,
+      "grad_norm": 0.052729446440935135,
+      "learning_rate": 0.00023301517924411696,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 188394128,
+      "step": 87215
+    },
+    {
+      "epoch": 14.228384991843393,
+      "grad_norm": 0.003131187055259943,
+      "learning_rate": 0.00023295499914984436,
+      "loss": 0.002,
+      "num_input_tokens_seen": 188405552,
+      "step": 87220
+    },
+    {
+      "epoch": 14.229200652528547,
+      "grad_norm": 0.004549449775367975,
+      "learning_rate": 0.00023289482446757747,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 188416368,
+      "step": 87225
+    },
+    {
+      "epoch": 14.230016313213703,
+      "grad_norm": 0.48102879524230957,
+      "learning_rate": 0.0002328346551985358,
+      "loss": 0.1339,
+      "num_input_tokens_seen": 188426512,
+      "step": 87230
+    },
+    {
+      "epoch": 14.230831973898859,
+      "grad_norm": 0.002627470064908266,
+      "learning_rate": 0.00023277449134393875,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 188437968,
+      "step": 87235
+    },
+    {
+      "epoch": 14.231647634584013,
+      "grad_norm": 0.021344967186450958,
+      "learning_rate": 0.00023271433290500567,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 188448304,
+      "step": 87240
+    },
+    {
+      "epoch": 14.232463295269168,
+      "grad_norm": 0.003346246900036931,
+      "learning_rate": 0.00023265417988295567,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 188458320,
+      "step": 87245
+    },
+    {
+      "epoch": 14.233278955954322,
+      "grad_norm": 1.6928178071975708,
+      "learning_rate": 0.0002325940322790079,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 188469040,
+      "step": 87250
+    },
+    {
+      "epoch": 14.234094616639478,
+      "grad_norm": 0.0035675603430718184,
+      "learning_rate": 0.0002325338900943813,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 188480880,
+      "step": 87255
+    },
+    {
+      "epoch": 14.234910277324634,
+      "grad_norm": 0.004161432385444641,
+      "learning_rate": 0.00023247375333029452,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 188491824,
+      "step": 87260
+    },
+    {
+      "epoch": 14.235725938009788,
+      "grad_norm": 0.04490378871560097,
+      "learning_rate": 0.00023241362198796666,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 188502896,
+      "step": 87265
+    },
+    {
+      "epoch": 14.236541598694943,
+      "grad_norm": 0.4051935374736786,
+      "learning_rate": 0.00023235349606861628,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 188514800,
+      "step": 87270
+    },
+    {
+      "epoch": 14.237357259380097,
+      "grad_norm": 0.005929006729274988,
+      "learning_rate": 0.00023229337557346174,
+      "loss": 0.0267,
+      "num_input_tokens_seen": 188524048,
+      "step": 87275
+    },
+    {
+      "epoch": 14.238172920065253,
+      "grad_norm": 0.0033224388025701046,
+      "learning_rate": 0.00023223326050372163,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 188535600,
+      "step": 87280
+    },
+    {
+      "epoch": 14.238988580750409,
+      "grad_norm": 0.024302540346980095,
+      "learning_rate": 0.0002321731508606142,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 188546288,
+      "step": 87285
+    },
+    {
+      "epoch": 14.239804241435563,
+      "grad_norm": 0.004064117558300495,
+      "learning_rate": 0.0002321130466453576,
+      "loss": 0.1404,
+      "num_input_tokens_seen": 188557424,
+      "step": 87290
+    },
+    {
+      "epoch": 14.240619902120718,
+      "grad_norm": 0.05272166058421135,
+      "learning_rate": 0.0002320529478591699,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 188566928,
+      "step": 87295
+    },
+    {
+      "epoch": 14.241435562805872,
+      "grad_norm": 0.006723629776388407,
+      "learning_rate": 0.00023199285450326918,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 188576528,
+      "step": 87300
+    },
+    {
+      "epoch": 14.242251223491028,
+      "grad_norm": 0.0016809606458991766,
+      "learning_rate": 0.00023193276657887326,
+      "loss": 0.004,
+      "num_input_tokens_seen": 188586992,
+      "step": 87305
+    },
+    {
+      "epoch": 14.243066884176184,
+      "grad_norm": 0.014636986888945103,
+      "learning_rate": 0.00023187268408719986,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 188597776,
+      "step": 87310
+    },
+    {
+      "epoch": 14.243882544861338,
+      "grad_norm": 0.5428915023803711,
+      "learning_rate": 0.00023181260702946673,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 188608784,
+      "step": 87315
+    },
+    {
+      "epoch": 14.244698205546493,
+      "grad_norm": 0.003895719302818179,
+      "learning_rate": 0.00023175253540689124,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 188620656,
+      "step": 87320
+    },
+    {
+      "epoch": 14.245513866231647,
+      "grad_norm": 0.0009167763637378812,
+      "learning_rate": 0.00023169246922069098,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 188631920,
+      "step": 87325
+    },
+    {
+      "epoch": 14.246329526916803,
+      "grad_norm": 0.035440631210803986,
+      "learning_rate": 0.00023163240847208318,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 188641744,
+      "step": 87330
+    },
+    {
+      "epoch": 14.247145187601957,
+      "grad_norm": 0.6476132273674011,
+      "learning_rate": 0.0002315723531622851,
+      "loss": 0.1426,
+      "num_input_tokens_seen": 188653168,
+      "step": 87335
+    },
+    {
+      "epoch": 14.247960848287113,
+      "grad_norm": 0.10940902680158615,
+      "learning_rate": 0.00023151230329251376,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 188664144,
+      "step": 87340
+    },
+    {
+      "epoch": 14.248776508972268,
+      "grad_norm": 0.002636961406096816,
+      "learning_rate": 0.00023145225886398617,
+      "loss": 0.033,
+      "num_input_tokens_seen": 188674736,
+      "step": 87345
+    },
+    {
+      "epoch": 14.249592169657422,
+      "grad_norm": 0.00327065447345376,
+      "learning_rate": 0.0002313922198779193,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 188686960,
+      "step": 87350
+    },
+    {
+      "epoch": 14.250407830342578,
+      "grad_norm": 0.007365102879703045,
+      "learning_rate": 0.00023133218633552982,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 188698576,
+      "step": 87355
+    },
+    {
+      "epoch": 14.251223491027732,
+      "grad_norm": 0.03469528630375862,
+      "learning_rate": 0.00023127215823803444,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 188709808,
+      "step": 87360
+    },
+    {
+      "epoch": 14.252039151712887,
+      "grad_norm": 0.30641695857048035,
+      "learning_rate": 0.00023121213558664966,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 188721712,
+      "step": 87365
+    },
+    {
+      "epoch": 14.252854812398043,
+      "grad_norm": 0.0382346473634243,
+      "learning_rate": 0.00023115211838259175,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 188731920,
+      "step": 87370
+    },
+    {
+      "epoch": 14.253670473083197,
+      "grad_norm": 0.0007187232258729637,
+      "learning_rate": 0.00023109210662707757,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 188742448,
+      "step": 87375
+    },
+    {
+      "epoch": 14.254486133768353,
+      "grad_norm": 0.004653709474951029,
+      "learning_rate": 0.00023103210032132267,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 188752976,
+      "step": 87380
+    },
+    {
+      "epoch": 14.255301794453507,
+      "grad_norm": 0.0012320553651079535,
+      "learning_rate": 0.0002309720994665438,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 188763664,
+      "step": 87385
+    },
+    {
+      "epoch": 14.256117455138662,
+      "grad_norm": 0.0008974694646894932,
+      "learning_rate": 0.00023091210406395624,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 188773936,
+      "step": 87390
+    },
+    {
+      "epoch": 14.256933115823816,
+      "grad_norm": 0.008518456481397152,
+      "learning_rate": 0.00023085211411477663,
+      "loss": 0.001,
+      "num_input_tokens_seen": 188784176,
+      "step": 87395
+    },
+    {
+      "epoch": 14.257748776508972,
+      "grad_norm": 0.019535856321454048,
+      "learning_rate": 0.00023079212962022,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 188794736,
+      "step": 87400
+    },
+    {
+      "epoch": 14.258564437194128,
+      "grad_norm": 0.015992237254977226,
+      "learning_rate": 0.00023073215058150255,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 188805200,
+      "step": 87405
+    },
+    {
+      "epoch": 14.259380097879282,
+      "grad_norm": 0.0015473555540665984,
+      "learning_rate": 0.00023067217699983966,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 188816240,
+      "step": 87410
+    },
+    {
+      "epoch": 14.260195758564437,
+      "grad_norm": 0.005111176986247301,
+      "learning_rate": 0.00023061220887644679,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 188824848,
+      "step": 87415
+    },
+    {
+      "epoch": 14.261011419249591,
+      "grad_norm": 0.00272758980281651,
+      "learning_rate": 0.00023055224621253923,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 188835888,
+      "step": 87420
+    },
+    {
+      "epoch": 14.261827079934747,
+      "grad_norm": 0.0052657704800367355,
+      "learning_rate": 0.00023049228900933223,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 188846608,
+      "step": 87425
+    },
+    {
+      "epoch": 14.262642740619903,
+      "grad_norm": 0.005922100506722927,
+      "learning_rate": 0.00023043233726804087,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 188858096,
+      "step": 87430
+    },
+    {
+      "epoch": 14.263458401305057,
+      "grad_norm": 0.09431520849466324,
+      "learning_rate": 0.00023037239098988016,
+      "loss": 0.016,
+      "num_input_tokens_seen": 188868880,
+      "step": 87435
+    },
+    {
+      "epoch": 14.264274061990212,
+      "grad_norm": 0.011786018498241901,
+      "learning_rate": 0.00023031245017606506,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 188880144,
+      "step": 87440
+    },
+    {
+      "epoch": 14.265089722675366,
+      "grad_norm": 0.049001362174749374,
+      "learning_rate": 0.00023025251482781023,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 188890896,
+      "step": 87445
+    },
+    {
+      "epoch": 14.265905383360522,
+      "grad_norm": 0.012988328002393246,
+      "learning_rate": 0.00023019258494633038,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 188901680,
+      "step": 87450
+    },
+    {
+      "epoch": 14.266721044045678,
+      "grad_norm": 0.05504751577973366,
+      "learning_rate": 0.0002301326605328401,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 188912400,
+      "step": 87455
+    },
+    {
+      "epoch": 14.267536704730832,
+      "grad_norm": 0.0019441379699856043,
+      "learning_rate": 0.00023007274158855378,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 188924048,
+      "step": 87460
+    },
+    {
+      "epoch": 14.268352365415987,
+      "grad_norm": 0.01831858977675438,
+      "learning_rate": 0.00023001282811468577,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 188935536,
+      "step": 87465
+    },
+    {
+      "epoch": 14.269168026101141,
+      "grad_norm": 0.3804619610309601,
+      "learning_rate": 0.00022995292011245033,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 188947216,
+      "step": 87470
+    },
+    {
+      "epoch": 14.269983686786297,
+      "grad_norm": 0.0805104523897171,
+      "learning_rate": 0.00022989301758306153,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 188958288,
+      "step": 87475
+    },
+    {
+      "epoch": 14.270799347471453,
+      "grad_norm": 0.00453876843675971,
+      "learning_rate": 0.00022983312052773336,
+      "loss": 0.003,
+      "num_input_tokens_seen": 188967920,
+      "step": 87480
+    },
+    {
+      "epoch": 14.271615008156607,
+      "grad_norm": 0.001278862589970231,
+      "learning_rate": 0.0002297732289476796,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 188977712,
+      "step": 87485
+    },
+    {
+      "epoch": 14.272430668841762,
+      "grad_norm": 0.0043226066045463085,
+      "learning_rate": 0.0002297133428441145,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 188987728,
+      "step": 87490
+    },
+    {
+      "epoch": 14.273246329526916,
+      "grad_norm": 0.005642724223434925,
+      "learning_rate": 0.000229653462218251,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 188999088,
+      "step": 87495
+    },
+    {
+      "epoch": 14.274061990212072,
+      "grad_norm": 0.01294635608792305,
+      "learning_rate": 0.00022959358707130346,
+      "loss": 0.0259,
+      "num_input_tokens_seen": 189010288,
+      "step": 87500
+    },
+    {
+      "epoch": 14.274877650897226,
+      "grad_norm": 0.000444377918029204,
+      "learning_rate": 0.00022953371740448453,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 189021744,
+      "step": 87505
+    },
+    {
+      "epoch": 14.275693311582382,
+      "grad_norm": 0.0009572534472681582,
+      "learning_rate": 0.00022947385321900825,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 189031568,
+      "step": 87510
+    },
+    {
+      "epoch": 14.276508972267537,
+      "grad_norm": 0.0006329436437226832,
+      "learning_rate": 0.00022941399451608725,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 189042032,
+      "step": 87515
+    },
+    {
+      "epoch": 14.277324632952691,
+      "grad_norm": 0.0018760806415230036,
+      "learning_rate": 0.00022935414129693523,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 189051856,
+      "step": 87520
+    },
+    {
+      "epoch": 14.278140293637847,
+      "grad_norm": 0.017724091187119484,
+      "learning_rate": 0.0002292942935627645,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 189062096,
+      "step": 87525
+    },
+    {
+      "epoch": 14.278955954323001,
+      "grad_norm": 0.000525585375726223,
+      "learning_rate": 0.00022923445131478866,
+      "loss": 0.1287,
+      "num_input_tokens_seen": 189072656,
+      "step": 87530
+    },
+    {
+      "epoch": 14.279771615008157,
+      "grad_norm": 0.1081756129860878,
+      "learning_rate": 0.00022917461455421984,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 189081904,
+      "step": 87535
+    },
+    {
+      "epoch": 14.280587275693312,
+      "grad_norm": 0.043451886624097824,
+      "learning_rate": 0.00022911478328227136,
+      "loss": 0.1889,
+      "num_input_tokens_seen": 189092176,
+      "step": 87540
+    },
+    {
+      "epoch": 14.281402936378466,
+      "grad_norm": 0.005053219385445118,
+      "learning_rate": 0.00022905495750015508,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 189102096,
+      "step": 87545
+    },
+    {
+      "epoch": 14.282218597063622,
+      "grad_norm": 0.1774892508983612,
+      "learning_rate": 0.000228995137209084,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 189113808,
+      "step": 87550
+    },
+    {
+      "epoch": 14.283034257748776,
+      "grad_norm": 0.0033074861858040094,
+      "learning_rate": 0.00022893532241027026,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 189123312,
+      "step": 87555
+    },
+    {
+      "epoch": 14.283849918433932,
+      "grad_norm": 0.0016520784702152014,
+      "learning_rate": 0.00022887551310492605,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 189135184,
+      "step": 87560
+    },
+    {
+      "epoch": 14.284665579119087,
+      "grad_norm": 0.008472919464111328,
+      "learning_rate": 0.00022881570929426354,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 189145936,
+      "step": 87565
+    },
+    {
+      "epoch": 14.285481239804241,
+      "grad_norm": 0.8978723287582397,
+      "learning_rate": 0.00022875591097949472,
+      "loss": 0.118,
+      "num_input_tokens_seen": 189156304,
+      "step": 87570
+    },
+    {
+      "epoch": 14.286296900489397,
+      "grad_norm": 0.02543191984295845,
+      "learning_rate": 0.00022869611816183144,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 189166448,
+      "step": 87575
+    },
+    {
+      "epoch": 14.28711256117455,
+      "grad_norm": 0.0005691770347766578,
+      "learning_rate": 0.00022863633084248549,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 189177456,
+      "step": 87580
+    },
+    {
+      "epoch": 14.287928221859707,
+      "grad_norm": 0.008937807753682137,
+      "learning_rate": 0.00022857654902266856,
+      "loss": 0.004,
+      "num_input_tokens_seen": 189187248,
+      "step": 87585
+    },
+    {
+      "epoch": 14.28874388254486,
+      "grad_norm": 0.0018283298704773188,
+      "learning_rate": 0.00022851677270359217,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 189197776,
+      "step": 87590
+    },
+    {
+      "epoch": 14.289559543230016,
+      "grad_norm": 0.01428473275154829,
+      "learning_rate": 0.0002284570018864678,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 189208624,
+      "step": 87595
+    },
+    {
+      "epoch": 14.290375203915172,
+      "grad_norm": 0.0034628030844032764,
+      "learning_rate": 0.0002283972365725066,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 189219568,
+      "step": 87600
+    },
+    {
+      "epoch": 14.291190864600326,
+      "grad_norm": 0.012105366215109825,
+      "learning_rate": 0.00022833747676292027,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 189231120,
+      "step": 87605
+    },
+    {
+      "epoch": 14.292006525285482,
+      "grad_norm": 0.3718734085559845,
+      "learning_rate": 0.00022827772245891925,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 189241904,
+      "step": 87610
+    },
+    {
+      "epoch": 14.292822185970635,
+      "grad_norm": 0.08666027337312698,
+      "learning_rate": 0.00022821797366171531,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 189252336,
+      "step": 87615
+    },
+    {
+      "epoch": 14.293637846655791,
+      "grad_norm": 0.01287077460438013,
+      "learning_rate": 0.00022815823037251849,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 189263184,
+      "step": 87620
+    },
+    {
+      "epoch": 14.294453507340947,
+      "grad_norm": 0.0899038165807724,
+      "learning_rate": 0.00022809849259254034,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 189274384,
+      "step": 87625
+    },
+    {
+      "epoch": 14.2952691680261,
+      "grad_norm": 0.03881601616740227,
+      "learning_rate": 0.00022803876032299086,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 189285648,
+      "step": 87630
+    },
+    {
+      "epoch": 14.296084828711257,
+      "grad_norm": 0.04519505426287651,
+      "learning_rate": 0.00022797903356508125,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 189295920,
+      "step": 87635
+    },
+    {
+      "epoch": 14.29690048939641,
+      "grad_norm": 0.003327068639919162,
+      "learning_rate": 0.00022791931232002123,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 189307280,
+      "step": 87640
+    },
+    {
+      "epoch": 14.297716150081566,
+      "grad_norm": 0.04209542274475098,
+      "learning_rate": 0.00022785959658902188,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 189319568,
+      "step": 87645
+    },
+    {
+      "epoch": 14.298531810766722,
+      "grad_norm": 0.0016900094924494624,
+      "learning_rate": 0.00022779988637329263,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 189329616,
+      "step": 87650
+    },
+    {
+      "epoch": 14.299347471451876,
+      "grad_norm": 0.0013236630475148559,
+      "learning_rate": 0.00022774018167404442,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 189340496,
+      "step": 87655
+    },
+    {
+      "epoch": 14.300163132137031,
+      "grad_norm": 0.022487998008728027,
+      "learning_rate": 0.00022768048249248646,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 189350416,
+      "step": 87660
+    },
+    {
+      "epoch": 14.300978792822185,
+      "grad_norm": 0.0019900943152606487,
+      "learning_rate": 0.00022762078882982928,
+      "loss": 0.001,
+      "num_input_tokens_seen": 189361840,
+      "step": 87665
+    },
+    {
+      "epoch": 14.301794453507341,
+      "grad_norm": 0.007686574477702379,
+      "learning_rate": 0.00022756110068728204,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 189372880,
+      "step": 87670
+    },
+    {
+      "epoch": 14.302610114192497,
+      "grad_norm": 0.00679362565279007,
+      "learning_rate": 0.00022750141806605507,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 189384944,
+      "step": 87675
+    },
+    {
+      "epoch": 14.30342577487765,
+      "grad_norm": 0.028075747191905975,
+      "learning_rate": 0.00022744174096735715,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 189395824,
+      "step": 87680
+    },
+    {
+      "epoch": 14.304241435562806,
+      "grad_norm": 1.1675291061401367,
+      "learning_rate": 0.00022738206939239852,
+      "loss": 0.019,
+      "num_input_tokens_seen": 189406352,
+      "step": 87685
+    },
+    {
+      "epoch": 14.30505709624796,
+      "grad_norm": 0.002868425566703081,
+      "learning_rate": 0.0002273224033423877,
+      "loss": 0.002,
+      "num_input_tokens_seen": 189417584,
+      "step": 87690
+    },
+    {
+      "epoch": 14.305872756933116,
+      "grad_norm": 0.21164196729660034,
+      "learning_rate": 0.0002272627428185345,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 189428944,
+      "step": 87695
+    },
+    {
+      "epoch": 14.30668841761827,
+      "grad_norm": 0.042567916214466095,
+      "learning_rate": 0.0002272030878220478,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 189439632,
+      "step": 87700
+    },
+    {
+      "epoch": 14.307504078303426,
+      "grad_norm": 0.058382321149110794,
+      "learning_rate": 0.0002271434383541366,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 189450672,
+      "step": 87705
+    },
+    {
+      "epoch": 14.308319738988581,
+      "grad_norm": 0.01143584307283163,
+      "learning_rate": 0.00022708379441600975,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 189461200,
+      "step": 87710
+    },
+    {
+      "epoch": 14.309135399673735,
+      "grad_norm": 0.0020317668095231056,
+      "learning_rate": 0.000227024156008876,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 189470480,
+      "step": 87715
+    },
+    {
+      "epoch": 14.309951060358891,
+      "grad_norm": 0.006676700431853533,
+      "learning_rate": 0.00022696452313394406,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 189481520,
+      "step": 87720
+    },
+    {
+      "epoch": 14.310766721044045,
+      "grad_norm": 0.0036642735358327627,
+      "learning_rate": 0.0002269048957924224,
+      "loss": 0.004,
+      "num_input_tokens_seen": 189491280,
+      "step": 87725
+    },
+    {
+      "epoch": 14.3115823817292,
+      "grad_norm": 0.0023649828508496284,
+      "learning_rate": 0.0002268452739855195,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 189501648,
+      "step": 87730
+    },
+    {
+      "epoch": 14.312398042414356,
+      "grad_norm": 0.09851660579442978,
+      "learning_rate": 0.00022678565771444364,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 189513616,
+      "step": 87735
+    },
+    {
+      "epoch": 14.31321370309951,
+      "grad_norm": 0.011403873562812805,
+      "learning_rate": 0.00022672604698040306,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 189523984,
+      "step": 87740
+    },
+    {
+      "epoch": 14.314029363784666,
+      "grad_norm": 0.7276797294616699,
+      "learning_rate": 0.00022666644178460555,
+      "loss": 0.018,
+      "num_input_tokens_seen": 189535088,
+      "step": 87745
+    },
+    {
+      "epoch": 14.31484502446982,
+      "grad_norm": 0.0041549173183739185,
+      "learning_rate": 0.00022660684212825978,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 189546800,
+      "step": 87750
+    },
+    {
+      "epoch": 14.315660685154976,
+      "grad_norm": 0.003960830625146627,
+      "learning_rate": 0.00022654724801257276,
+      "loss": 0.1172,
+      "num_input_tokens_seen": 189558192,
+      "step": 87755
+    },
+    {
+      "epoch": 14.31647634584013,
+      "grad_norm": 0.0012428623158484697,
+      "learning_rate": 0.00022648765943875305,
+      "loss": 0.002,
+      "num_input_tokens_seen": 189568720,
+      "step": 87760
+    },
+    {
+      "epoch": 14.317292006525285,
+      "grad_norm": 0.09902480244636536,
+      "learning_rate": 0.00022642807640800756,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 189579216,
+      "step": 87765
+    },
+    {
+      "epoch": 14.318107667210441,
+      "grad_norm": 0.005643976386636496,
+      "learning_rate": 0.0002263684989215445,
+      "loss": 0.015,
+      "num_input_tokens_seen": 189589648,
+      "step": 87770
+    },
+    {
+      "epoch": 14.318923327895595,
+      "grad_norm": 0.015322118066251278,
+      "learning_rate": 0.00022630892698057055,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 189600592,
+      "step": 87775
+    },
+    {
+      "epoch": 14.31973898858075,
+      "grad_norm": 0.29420289397239685,
+      "learning_rate": 0.00022624936058629374,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 189612176,
+      "step": 87780
+    },
+    {
+      "epoch": 14.320554649265905,
+      "grad_norm": 0.004782841540873051,
+      "learning_rate": 0.00022618979973992054,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 189623600,
+      "step": 87785
+    },
+    {
+      "epoch": 14.32137030995106,
+      "grad_norm": 0.00045195547863841057,
+      "learning_rate": 0.00022613024444265883,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 189633360,
+      "step": 87790
+    },
+    {
+      "epoch": 14.322185970636216,
+      "grad_norm": 0.005995205603539944,
+      "learning_rate": 0.00022607069469571473,
+      "loss": 0.001,
+      "num_input_tokens_seen": 189642288,
+      "step": 87795
+    },
+    {
+      "epoch": 14.32300163132137,
+      "grad_norm": 0.009188726544380188,
+      "learning_rate": 0.00022601115050029574,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 189653040,
+      "step": 87800
+    },
+    {
+      "epoch": 14.323817292006526,
+      "grad_norm": 0.0009074592380784452,
+      "learning_rate": 0.0002259516118576083,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 189663440,
+      "step": 87805
+    },
+    {
+      "epoch": 14.32463295269168,
+      "grad_norm": 0.0021508075296878815,
+      "learning_rate": 0.00022589207876885914,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 189673392,
+      "step": 87810
+    },
+    {
+      "epoch": 14.325448613376835,
+      "grad_norm": 0.033135004341602325,
+      "learning_rate": 0.00022583255123525476,
+      "loss": 0.1537,
+      "num_input_tokens_seen": 189684144,
+      "step": 87815
+    },
+    {
+      "epoch": 14.326264274061991,
+      "grad_norm": 0.003989869728684425,
+      "learning_rate": 0.00022577302925800153,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 189695440,
+      "step": 87820
+    },
+    {
+      "epoch": 14.327079934747145,
+      "grad_norm": 0.0038525178097188473,
+      "learning_rate": 0.0002257135128383057,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 189705936,
+      "step": 87825
+    },
+    {
+      "epoch": 14.3278955954323,
+      "grad_norm": 0.009815668687224388,
+      "learning_rate": 0.00022565400197737352,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 189716848,
+      "step": 87830
+    },
+    {
+      "epoch": 14.328711256117455,
+      "grad_norm": 0.03508485481142998,
+      "learning_rate": 0.000225594496676411,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 189727088,
+      "step": 87835
+    },
+    {
+      "epoch": 14.32952691680261,
+      "grad_norm": 0.0028070693369954824,
+      "learning_rate": 0.0002255349969366241,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 189738608,
+      "step": 87840
+    },
+    {
+      "epoch": 14.330342577487766,
+      "grad_norm": 0.03543877974152565,
+      "learning_rate": 0.0002254755027592187,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 189749712,
+      "step": 87845
+    },
+    {
+      "epoch": 14.33115823817292,
+      "grad_norm": 0.1265224665403366,
+      "learning_rate": 0.00022541601414540052,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 189760624,
+      "step": 87850
+    },
+    {
+      "epoch": 14.331973898858076,
+      "grad_norm": 0.002698419615626335,
+      "learning_rate": 0.00022535653109637512,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 189770224,
+      "step": 87855
+    },
+    {
+      "epoch": 14.33278955954323,
+      "grad_norm": 0.0011117426911368966,
+      "learning_rate": 0.000225297053613348,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 189780752,
+      "step": 87860
+    },
+    {
+      "epoch": 14.333605220228385,
+      "grad_norm": 0.0030760967638343573,
+      "learning_rate": 0.0002252375816975246,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 189792240,
+      "step": 87865
+    },
+    {
+      "epoch": 14.33442088091354,
+      "grad_norm": 0.3648514747619629,
+      "learning_rate": 0.0002251781153501102,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 189803120,
+      "step": 87870
+    },
+    {
+      "epoch": 14.335236541598695,
+      "grad_norm": 0.006983945611864328,
+      "learning_rate": 0.0002251186545723099,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 189814416,
+      "step": 87875
+    },
+    {
+      "epoch": 14.33605220228385,
+      "grad_norm": 0.01047761645168066,
+      "learning_rate": 0.00022505919936532877,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 189824016,
+      "step": 87880
+    },
+    {
+      "epoch": 14.336867862969005,
+      "grad_norm": 0.016600316390395164,
+      "learning_rate": 0.00022499974973037173,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 189834416,
+      "step": 87885
+    },
+    {
+      "epoch": 14.33768352365416,
+      "grad_norm": 0.0008033128106035292,
+      "learning_rate": 0.0002249403056686435,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 189844496,
+      "step": 87890
+    },
+    {
+      "epoch": 14.338499184339314,
+      "grad_norm": 0.48811638355255127,
+      "learning_rate": 0.0002248808671813492,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 189855792,
+      "step": 87895
+    },
+    {
+      "epoch": 14.33931484502447,
+      "grad_norm": 0.008555108681321144,
+      "learning_rate": 0.00022482143426969282,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 189867376,
+      "step": 87900
+    },
+    {
+      "epoch": 14.340130505709626,
+      "grad_norm": 0.001388808828778565,
+      "learning_rate": 0.00022476200693487936,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 189878768,
+      "step": 87905
+    },
+    {
+      "epoch": 14.34094616639478,
+      "grad_norm": 0.0068275779485702515,
+      "learning_rate": 0.000224702585178113,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 189889744,
+      "step": 87910
+    },
+    {
+      "epoch": 14.341761827079935,
+      "grad_norm": 0.005051123443990946,
+      "learning_rate": 0.00022464316900059795,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 189900752,
+      "step": 87915
+    },
+    {
+      "epoch": 14.34257748776509,
+      "grad_norm": 0.00225257920101285,
+      "learning_rate": 0.0002245837584035384,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 189910000,
+      "step": 87920
+    },
+    {
+      "epoch": 14.343393148450245,
+      "grad_norm": 0.0017936478834599257,
+      "learning_rate": 0.00022452435338813842,
+      "loss": 0.1515,
+      "num_input_tokens_seen": 189920240,
+      "step": 87925
+    },
+    {
+      "epoch": 14.3442088091354,
+      "grad_norm": 0.0054099103435873985,
+      "learning_rate": 0.00022446495395560186,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 189930704,
+      "step": 87930
+    },
+    {
+      "epoch": 14.345024469820554,
+      "grad_norm": 0.003530829679220915,
+      "learning_rate": 0.00022440556010713253,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 189941456,
+      "step": 87935
+    },
+    {
+      "epoch": 14.34584013050571,
+      "grad_norm": 0.008934364654123783,
+      "learning_rate": 0.00022434617184393418,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 189952688,
+      "step": 87940
+    },
+    {
+      "epoch": 14.346655791190864,
+      "grad_norm": 0.002388365101069212,
+      "learning_rate": 0.00022428678916721029,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 189963984,
+      "step": 87945
+    },
+    {
+      "epoch": 14.34747145187602,
+      "grad_norm": 0.026174485683441162,
+      "learning_rate": 0.00022422741207816444,
+      "loss": 0.002,
+      "num_input_tokens_seen": 189975024,
+      "step": 87950
+    },
+    {
+      "epoch": 14.348287112561174,
+      "grad_norm": 0.00028221847605891526,
+      "learning_rate": 0.00022416804057799988,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 189986544,
+      "step": 87955
+    },
+    {
+      "epoch": 14.34910277324633,
+      "grad_norm": 0.07184788584709167,
+      "learning_rate": 0.00022410867466791996,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 189997840,
+      "step": 87960
+    },
+    {
+      "epoch": 14.349918433931485,
+      "grad_norm": 0.0035779913887381554,
+      "learning_rate": 0.00022404931434912768,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 190009360,
+      "step": 87965
+    },
+    {
+      "epoch": 14.350734094616639,
+      "grad_norm": 0.02154787816107273,
+      "learning_rate": 0.00022398995962282615,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 190021328,
+      "step": 87970
+    },
+    {
+      "epoch": 14.351549755301795,
+      "grad_norm": 0.05506477877497673,
+      "learning_rate": 0.00022393061049021823,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 190030256,
+      "step": 87975
+    },
+    {
+      "epoch": 14.352365415986949,
+      "grad_norm": 0.0024936876725405455,
+      "learning_rate": 0.0002238712669525067,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 190040400,
+      "step": 87980
+    },
+    {
+      "epoch": 14.353181076672104,
+      "grad_norm": 0.05352950841188431,
+      "learning_rate": 0.0002238119290108942,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 190051888,
+      "step": 87985
+    },
+    {
+      "epoch": 14.35399673735726,
+      "grad_norm": 0.0007369217346422374,
+      "learning_rate": 0.00022375259666658338,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 190062576,
+      "step": 87990
+    },
+    {
+      "epoch": 14.354812398042414,
+      "grad_norm": 0.0017139033880084753,
+      "learning_rate": 0.0002236932699207766,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 190073776,
+      "step": 87995
+    },
+    {
+      "epoch": 14.35562805872757,
+      "grad_norm": 0.4416674077510834,
+      "learning_rate": 0.00022363394877467625,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 190085168,
+      "step": 88000
+    },
+    {
+      "epoch": 14.356443719412724,
+      "grad_norm": 0.004349089693278074,
+      "learning_rate": 0.0002235746332294845,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 190096080,
+      "step": 88005
+    },
+    {
+      "epoch": 14.35725938009788,
+      "grad_norm": 0.002140692202374339,
+      "learning_rate": 0.00022351532328640335,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 190107056,
+      "step": 88010
+    },
+    {
+      "epoch": 14.358075040783035,
+      "grad_norm": 0.0060596526600420475,
+      "learning_rate": 0.0002234560189466352,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 190117968,
+      "step": 88015
+    },
+    {
+      "epoch": 14.358890701468189,
+      "grad_norm": 0.004749086685478687,
+      "learning_rate": 0.00022339672021138136,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 190128112,
+      "step": 88020
+    },
+    {
+      "epoch": 14.359706362153345,
+      "grad_norm": 0.005048302933573723,
+      "learning_rate": 0.00022333742708184417,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 190139120,
+      "step": 88025
+    },
+    {
+      "epoch": 14.360522022838499,
+      "grad_norm": 0.04125377535820007,
+      "learning_rate": 0.0002232781395592247,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 190150256,
+      "step": 88030
+    },
+    {
+      "epoch": 14.361337683523654,
+      "grad_norm": 0.001568611478433013,
+      "learning_rate": 0.00022321885764472495,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 190161904,
+      "step": 88035
+    },
+    {
+      "epoch": 14.362153344208808,
+      "grad_norm": 0.014550375752151012,
+      "learning_rate": 0.00022315958133954612,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 190173104,
+      "step": 88040
+    },
+    {
+      "epoch": 14.362969004893964,
+      "grad_norm": 0.005815689451992512,
+      "learning_rate": 0.00022310031064488962,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 190185200,
+      "step": 88045
+    },
+    {
+      "epoch": 14.36378466557912,
+      "grad_norm": 0.0417536124587059,
+      "learning_rate": 0.0002230410455619566,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 190195664,
+      "step": 88050
+    },
+    {
+      "epoch": 14.364600326264274,
+      "grad_norm": 0.0010946786496788263,
+      "learning_rate": 0.00022298178609194807,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 190207376,
+      "step": 88055
+    },
+    {
+      "epoch": 14.36541598694943,
+      "grad_norm": 0.008044305257499218,
+      "learning_rate": 0.00022292253223606513,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 190217264,
+      "step": 88060
+    },
+    {
+      "epoch": 14.366231647634583,
+      "grad_norm": 0.0005770522402599454,
+      "learning_rate": 0.0002228632839955086,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 190227600,
+      "step": 88065
+    },
+    {
+      "epoch": 14.367047308319739,
+      "grad_norm": 0.030013680458068848,
+      "learning_rate": 0.00022280404137147914,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 190237584,
+      "step": 88070
+    },
+    {
+      "epoch": 14.367862969004895,
+      "grad_norm": 0.002448596293106675,
+      "learning_rate": 0.00022274480436517742,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 190249040,
+      "step": 88075
+    },
+    {
+      "epoch": 14.368678629690049,
+      "grad_norm": 0.010528423823416233,
+      "learning_rate": 0.00022268557297780396,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 190260240,
+      "step": 88080
+    },
+    {
+      "epoch": 14.369494290375204,
+      "grad_norm": 0.0026562747079879045,
+      "learning_rate": 0.00022262634721055918,
+      "loss": 0.123,
+      "num_input_tokens_seen": 190271856,
+      "step": 88085
+    },
+    {
+      "epoch": 14.370309951060358,
+      "grad_norm": 0.044105686247348785,
+      "learning_rate": 0.00022256712706464338,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 190282832,
+      "step": 88090
+    },
+    {
+      "epoch": 14.371125611745514,
+      "grad_norm": 0.03261735662817955,
+      "learning_rate": 0.0002225079125412567,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 190293296,
+      "step": 88095
+    },
+    {
+      "epoch": 14.37194127243067,
+      "grad_norm": 0.004019154701381922,
+      "learning_rate": 0.00022244870364159912,
+      "loss": 0.1147,
+      "num_input_tokens_seen": 190304752,
+      "step": 88100
+    },
+    {
+      "epoch": 14.372756933115824,
+      "grad_norm": 0.00436245184391737,
+      "learning_rate": 0.00022238950036687071,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 190315280,
+      "step": 88105
+    },
+    {
+      "epoch": 14.37357259380098,
+      "grad_norm": 0.002692397916689515,
+      "learning_rate": 0.00022233030271827126,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 190324880,
+      "step": 88110
+    },
+    {
+      "epoch": 14.374388254486133,
+      "grad_norm": 0.17537789046764374,
+      "learning_rate": 0.0002222711106970003,
+      "loss": 0.1043,
+      "num_input_tokens_seen": 190335792,
+      "step": 88115
+    },
+    {
+      "epoch": 14.375203915171289,
+      "grad_norm": 0.02732802927494049,
+      "learning_rate": 0.0002222119243042579,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 190345936,
+      "step": 88120
+    },
+    {
+      "epoch": 14.376019575856443,
+      "grad_norm": 0.0324014350771904,
+      "learning_rate": 0.00022215274354124294,
+      "loss": 0.0205,
+      "num_input_tokens_seen": 190357488,
+      "step": 88125
+    },
+    {
+      "epoch": 14.376835236541599,
+      "grad_norm": 0.0018137918086722493,
+      "learning_rate": 0.00022209356840915552,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 190368688,
+      "step": 88130
+    },
+    {
+      "epoch": 14.377650897226754,
+      "grad_norm": 0.02366684377193451,
+      "learning_rate": 0.00022203439890919403,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 190379504,
+      "step": 88135
+    },
+    {
+      "epoch": 14.378466557911908,
+      "grad_norm": 0.0013595132622867823,
+      "learning_rate": 0.00022197523504255846,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 190390256,
+      "step": 88140
+    },
+    {
+      "epoch": 14.379282218597064,
+      "grad_norm": 0.0014586466131731868,
+      "learning_rate": 0.00022191607681044712,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 190400016,
+      "step": 88145
+    },
+    {
+      "epoch": 14.380097879282218,
+      "grad_norm": 0.5295431017875671,
+      "learning_rate": 0.00022185692421405962,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 190410544,
+      "step": 88150
+    },
+    {
+      "epoch": 14.380913539967374,
+      "grad_norm": 0.024179702624678612,
+      "learning_rate": 0.000221797777254594,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 190422032,
+      "step": 88155
+    },
+    {
+      "epoch": 14.38172920065253,
+      "grad_norm": 0.05698935687541962,
+      "learning_rate": 0.00022173863593324971,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 190433392,
+      "step": 88160
+    },
+    {
+      "epoch": 14.382544861337683,
+      "grad_norm": 0.002039377810433507,
+      "learning_rate": 0.00022167950025122463,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 190443760,
+      "step": 88165
+    },
+    {
+      "epoch": 14.383360522022839,
+      "grad_norm": 0.09846755862236023,
+      "learning_rate": 0.00022162037020971793,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 190454288,
+      "step": 88170
+    },
+    {
+      "epoch": 14.384176182707993,
+      "grad_norm": 0.002468029735609889,
+      "learning_rate": 0.00022156124580992716,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 190465168,
+      "step": 88175
+    },
+    {
+      "epoch": 14.384991843393149,
+      "grad_norm": 0.0019818132277578115,
+      "learning_rate": 0.00022150212705305118,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 190476720,
+      "step": 88180
+    },
+    {
+      "epoch": 14.385807504078304,
+      "grad_norm": 0.004764073994010687,
+      "learning_rate": 0.00022144301394028793,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 190488048,
+      "step": 88185
+    },
+    {
+      "epoch": 14.386623164763458,
+      "grad_norm": 0.005842797923833132,
+      "learning_rate": 0.0002213839064728353,
+      "loss": 0.001,
+      "num_input_tokens_seen": 190497488,
+      "step": 88190
+    },
+    {
+      "epoch": 14.387438825448614,
+      "grad_norm": 0.06038953736424446,
+      "learning_rate": 0.0002213248046518913,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 190506640,
+      "step": 88195
+    },
+    {
+      "epoch": 14.388254486133768,
+      "grad_norm": 0.0026502537075430155,
+      "learning_rate": 0.00022126570847865368,
+      "loss": 0.002,
+      "num_input_tokens_seen": 190516656,
+      "step": 88200
+    },
+    {
+      "epoch": 14.389070146818923,
+      "grad_norm": 0.04889017343521118,
+      "learning_rate": 0.00022120661795432,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 190528464,
+      "step": 88205
+    },
+    {
+      "epoch": 14.38988580750408,
+      "grad_norm": 0.030095215886831284,
+      "learning_rate": 0.00022114753308008795,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 190539536,
+      "step": 88210
+    },
+    {
+      "epoch": 14.390701468189233,
+      "grad_norm": 0.6848757863044739,
+      "learning_rate": 0.00022108845385715488,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 190551376,
+      "step": 88215
+    },
+    {
+      "epoch": 14.391517128874389,
+      "grad_norm": 0.3863895833492279,
+      "learning_rate": 0.00022102938028671816,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 190562320,
+      "step": 88220
+    },
+    {
+      "epoch": 14.392332789559543,
+      "grad_norm": 0.0029419090133160353,
+      "learning_rate": 0.00022097031236997488,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 190572432,
+      "step": 88225
+    },
+    {
+      "epoch": 14.393148450244698,
+      "grad_norm": 0.001146205817349255,
+      "learning_rate": 0.00022091125010812202,
+      "loss": 0.001,
+      "num_input_tokens_seen": 190583184,
+      "step": 88230
+    },
+    {
+      "epoch": 14.393964110929852,
+      "grad_norm": 0.0018329378217458725,
+      "learning_rate": 0.00022085219350235707,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 190593712,
+      "step": 88235
+    },
+    {
+      "epoch": 14.394779771615008,
+      "grad_norm": 0.0034815967082977295,
+      "learning_rate": 0.00022079314255387623,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 190604464,
+      "step": 88240
+    },
+    {
+      "epoch": 14.395595432300164,
+      "grad_norm": 0.048917580395936966,
+      "learning_rate": 0.00022073409726387688,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 190615952,
+      "step": 88245
+    },
+    {
+      "epoch": 14.396411092985318,
+      "grad_norm": 0.00788689311593771,
+      "learning_rate": 0.000220675057633555,
+      "loss": 0.002,
+      "num_input_tokens_seen": 190627216,
+      "step": 88250
+    },
+    {
+      "epoch": 14.397226753670473,
+      "grad_norm": 0.003668892662972212,
+      "learning_rate": 0.00022061602366410776,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 190637968,
+      "step": 88255
+    },
+    {
+      "epoch": 14.398042414355627,
+      "grad_norm": 0.0010389218805357814,
+      "learning_rate": 0.0002205569953567309,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 190649168,
+      "step": 88260
+    },
+    {
+      "epoch": 14.398858075040783,
+      "grad_norm": 0.2328641712665558,
+      "learning_rate": 0.00022049797271262133,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 190660240,
+      "step": 88265
+    },
+    {
+      "epoch": 14.399673735725939,
+      "grad_norm": 0.14842480421066284,
+      "learning_rate": 0.00022043895573297463,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 190670640,
+      "step": 88270
+    },
+    {
+      "epoch": 14.400489396411093,
+      "grad_norm": 0.02398735098540783,
+      "learning_rate": 0.0002203799444189874,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 190679984,
+      "step": 88275
+    },
+    {
+      "epoch": 14.401305057096248,
+      "grad_norm": 0.0224875770509243,
+      "learning_rate": 0.00022032093877185504,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 190690608,
+      "step": 88280
+    },
+    {
+      "epoch": 14.402120717781402,
+      "grad_norm": 0.020505795255303383,
+      "learning_rate": 0.000220261938792774,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 190701840,
+      "step": 88285
+    },
+    {
+      "epoch": 14.402936378466558,
+      "grad_norm": 0.0015917181735858321,
+      "learning_rate": 0.00022020294448293925,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 190714096,
+      "step": 88290
+    },
+    {
+      "epoch": 14.403752039151712,
+      "grad_norm": 0.003339561866596341,
+      "learning_rate": 0.00022014395584354717,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 190725296,
+      "step": 88295
+    },
+    {
+      "epoch": 14.404567699836868,
+      "grad_norm": 0.007421552669256926,
+      "learning_rate": 0.0002200849728757925,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 190736016,
+      "step": 88300
+    },
+    {
+      "epoch": 14.405383360522023,
+      "grad_norm": 0.0025911256670951843,
+      "learning_rate": 0.00022002599558087126,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 190748304,
+      "step": 88305
+    },
+    {
+      "epoch": 14.406199021207177,
+      "grad_norm": 0.007793547119945288,
+      "learning_rate": 0.00021996702395997807,
+      "loss": 0.002,
+      "num_input_tokens_seen": 190759824,
+      "step": 88310
+    },
+    {
+      "epoch": 14.407014681892333,
+      "grad_norm": 0.035313066095113754,
+      "learning_rate": 0.00021990805801430874,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 190771056,
+      "step": 88315
+    },
+    {
+      "epoch": 14.407830342577487,
+      "grad_norm": 0.0019238482927903533,
+      "learning_rate": 0.00021984909774505756,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 190782608,
+      "step": 88320
+    },
+    {
+      "epoch": 14.408646003262643,
+      "grad_norm": 0.019743841141462326,
+      "learning_rate": 0.00021979014315342,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 190794352,
+      "step": 88325
+    },
+    {
+      "epoch": 14.409461663947798,
+      "grad_norm": 0.0016499466728419065,
+      "learning_rate": 0.00021973119424059068,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 190805360,
+      "step": 88330
+    },
+    {
+      "epoch": 14.410277324632952,
+      "grad_norm": 0.008232859894633293,
+      "learning_rate": 0.00021967225100776424,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 190815408,
+      "step": 88335
+    },
+    {
+      "epoch": 14.411092985318108,
+      "grad_norm": 0.3779599070549011,
+      "learning_rate": 0.00021961331345613522,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 190826576,
+      "step": 88340
+    },
+    {
+      "epoch": 14.411908646003262,
+      "grad_norm": 0.0002817259228322655,
+      "learning_rate": 0.00021955438158689818,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 190836688,
+      "step": 88345
+    },
+    {
+      "epoch": 14.412724306688418,
+      "grad_norm": 0.5337850451469421,
+      "learning_rate": 0.00021949545540124734,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 190846800,
+      "step": 88350
+    },
+    {
+      "epoch": 14.413539967373573,
+      "grad_norm": 0.08282860368490219,
+      "learning_rate": 0.0002194365349003769,
+      "loss": 0.1119,
+      "num_input_tokens_seen": 190856240,
+      "step": 88355
+    },
+    {
+      "epoch": 14.414355628058727,
+      "grad_norm": 0.006659589242190123,
+      "learning_rate": 0.00021937762008548102,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 190867024,
+      "step": 88360
+    },
+    {
+      "epoch": 14.415171288743883,
+      "grad_norm": 0.005563710350543261,
+      "learning_rate": 0.00021931871095775364,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 190877200,
+      "step": 88365
+    },
+    {
+      "epoch": 14.415986949429037,
+      "grad_norm": 0.00834878534078598,
+      "learning_rate": 0.0002192598075183887,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 190887536,
+      "step": 88370
+    },
+    {
+      "epoch": 14.416802610114193,
+      "grad_norm": 0.37227877974510193,
+      "learning_rate": 0.00021920090976857971,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 190897872,
+      "step": 88375
+    },
+    {
+      "epoch": 14.417618270799348,
+      "grad_norm": 0.00478452630341053,
+      "learning_rate": 0.00021914201770952086,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 190909072,
+      "step": 88380
+    },
+    {
+      "epoch": 14.418433931484502,
+      "grad_norm": 0.6292222738265991,
+      "learning_rate": 0.00021908313134240493,
+      "loss": 0.0597,
+      "num_input_tokens_seen": 190920080,
+      "step": 88385
+    },
+    {
+      "epoch": 14.419249592169658,
+      "grad_norm": 0.0013072388246655464,
+      "learning_rate": 0.00021902425066842608,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 190931600,
+      "step": 88390
+    },
+    {
+      "epoch": 14.420065252854812,
+      "grad_norm": 0.0008924621506594121,
+      "learning_rate": 0.00021896537568877688,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 190943312,
+      "step": 88395
+    },
+    {
+      "epoch": 14.420880913539968,
+      "grad_norm": 0.004021234344691038,
+      "learning_rate": 0.00021890650640465125,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 190954064,
+      "step": 88400
+    },
+    {
+      "epoch": 14.421696574225122,
+      "grad_norm": 0.004071609117090702,
+      "learning_rate": 0.00021884764281724145,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 190964848,
+      "step": 88405
+    },
+    {
+      "epoch": 14.422512234910277,
+      "grad_norm": 0.00245073065161705,
+      "learning_rate": 0.00021878878492774125,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 190975696,
+      "step": 88410
+    },
+    {
+      "epoch": 14.423327895595433,
+      "grad_norm": 0.006399341858923435,
+      "learning_rate": 0.00021872993273734266,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 190986448,
+      "step": 88415
+    },
+    {
+      "epoch": 14.424143556280587,
+      "grad_norm": 0.0016032133717089891,
+      "learning_rate": 0.0002186710862472392,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 190996912,
+      "step": 88420
+    },
+    {
+      "epoch": 14.424959216965743,
+      "grad_norm": 0.0015737857902422547,
+      "learning_rate": 0.00021861224545862264,
+      "loss": 0.006,
+      "num_input_tokens_seen": 191007440,
+      "step": 88425
+    },
+    {
+      "epoch": 14.425774877650896,
+      "grad_norm": 0.08014027774333954,
+      "learning_rate": 0.0002185534103726863,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 191019344,
+      "step": 88430
+    },
+    {
+      "epoch": 14.426590538336052,
+      "grad_norm": 0.48051971197128296,
+      "learning_rate": 0.00021849458099062175,
+      "loss": 0.105,
+      "num_input_tokens_seen": 191030000,
+      "step": 88435
+    },
+    {
+      "epoch": 14.427406199021208,
+      "grad_norm": 0.003187313210219145,
+      "learning_rate": 0.00021843575731362187,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 191040656,
+      "step": 88440
+    },
+    {
+      "epoch": 14.428221859706362,
+      "grad_norm": 0.6462088823318481,
+      "learning_rate": 0.0002183769393428785,
+      "loss": 0.0935,
+      "num_input_tokens_seen": 191052240,
+      "step": 88445
+    },
+    {
+      "epoch": 14.429037520391518,
+      "grad_norm": 0.04802269861102104,
+      "learning_rate": 0.00021831812707958376,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 191063408,
+      "step": 88450
+    },
+    {
+      "epoch": 14.429853181076671,
+      "grad_norm": 0.03946414217352867,
+      "learning_rate": 0.00021825932052492946,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 191074352,
+      "step": 88455
+    },
+    {
+      "epoch": 14.430668841761827,
+      "grad_norm": 0.01283244974911213,
+      "learning_rate": 0.0002182005196801075,
+      "loss": 0.171,
+      "num_input_tokens_seen": 191084496,
+      "step": 88460
+    },
+    {
+      "epoch": 14.431484502446983,
+      "grad_norm": 0.11222032457590103,
+      "learning_rate": 0.0002181417245463095,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 191095696,
+      "step": 88465
+    },
+    {
+      "epoch": 14.432300163132137,
+      "grad_norm": 0.013230902142822742,
+      "learning_rate": 0.00021808293512472698,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 191106480,
+      "step": 88470
+    },
+    {
+      "epoch": 14.433115823817293,
+      "grad_norm": 0.004127667285501957,
+      "learning_rate": 0.0002180241514165514,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 191118416,
+      "step": 88475
+    },
+    {
+      "epoch": 14.433931484502446,
+      "grad_norm": 0.08697032928466797,
+      "learning_rate": 0.00021796537342297413,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 191129232,
+      "step": 88480
+    },
+    {
+      "epoch": 14.434747145187602,
+      "grad_norm": 0.08197087794542313,
+      "learning_rate": 0.00021790660114518633,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 191139184,
+      "step": 88485
+    },
+    {
+      "epoch": 14.435562805872756,
+      "grad_norm": 0.37481895089149475,
+      "learning_rate": 0.0002178478345843792,
+      "loss": 0.011,
+      "num_input_tokens_seen": 191149456,
+      "step": 88490
+    },
+    {
+      "epoch": 14.436378466557912,
+      "grad_norm": 0.011596872471272945,
+      "learning_rate": 0.00021778907374174356,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 191160656,
+      "step": 88495
+    },
+    {
+      "epoch": 14.437194127243067,
+      "grad_norm": 0.010168236680328846,
+      "learning_rate": 0.00021773031861847036,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 191172336,
+      "step": 88500
+    },
+    {
+      "epoch": 14.438009787928221,
+      "grad_norm": 0.12285585701465607,
+      "learning_rate": 0.0002176715692157503,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 191184176,
+      "step": 88505
+    },
+    {
+      "epoch": 14.438825448613377,
+      "grad_norm": 0.049924153834581375,
+      "learning_rate": 0.00021761282553477412,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 191194256,
+      "step": 88510
+    },
+    {
+      "epoch": 14.439641109298531,
+      "grad_norm": 0.5651575326919556,
+      "learning_rate": 0.00021755408757673228,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 191205584,
+      "step": 88515
+    },
+    {
+      "epoch": 14.440456769983687,
+      "grad_norm": 0.0005408431752584875,
+      "learning_rate": 0.00021749535534281488,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 191217104,
+      "step": 88520
+    },
+    {
+      "epoch": 14.441272430668842,
+      "grad_norm": 0.007131251972168684,
+      "learning_rate": 0.00021743662883421294,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 191228176,
+      "step": 88525
+    },
+    {
+      "epoch": 14.442088091353996,
+      "grad_norm": 0.0007430678233504295,
+      "learning_rate": 0.00021737790805211578,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 191237872,
+      "step": 88530
+    },
+    {
+      "epoch": 14.442903752039152,
+      "grad_norm": 0.0031173175666481256,
+      "learning_rate": 0.00021731919299771424,
+      "loss": 0.007,
+      "num_input_tokens_seen": 191249040,
+      "step": 88535
+    },
+    {
+      "epoch": 14.443719412724306,
+      "grad_norm": 0.0021781879477202892,
+      "learning_rate": 0.00021726048367219747,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 191260848,
+      "step": 88540
+    },
+    {
+      "epoch": 14.444535073409462,
+      "grad_norm": 0.0342792384326458,
+      "learning_rate": 0.00021720178007675583,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 191272304,
+      "step": 88545
+    },
+    {
+      "epoch": 14.445350734094617,
+      "grad_norm": 0.14234837889671326,
+      "learning_rate": 0.00021714308221257889,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 191281904,
+      "step": 88550
+    },
+    {
+      "epoch": 14.446166394779771,
+      "grad_norm": 0.03180849552154541,
+      "learning_rate": 0.00021708439008085624,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 191292304,
+      "step": 88555
+    },
+    {
+      "epoch": 14.446982055464927,
+      "grad_norm": 0.020385757088661194,
+      "learning_rate": 0.0002170257036827773,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 191303696,
+      "step": 88560
+    },
+    {
+      "epoch": 14.447797716150081,
+      "grad_norm": 0.0029727816581726074,
+      "learning_rate": 0.00021696702301953147,
+      "loss": 0.0619,
+      "num_input_tokens_seen": 191313648,
+      "step": 88565
+    },
+    {
+      "epoch": 14.448613376835237,
+      "grad_norm": 0.007808151189237833,
+      "learning_rate": 0.00021690834809230797,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 191323856,
+      "step": 88570
+    },
+    {
+      "epoch": 14.449429037520392,
+      "grad_norm": 0.005912197753787041,
+      "learning_rate": 0.00021684967890229595,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 191334512,
+      "step": 88575
+    },
+    {
+      "epoch": 14.450244698205546,
+      "grad_norm": 0.5385004878044128,
+      "learning_rate": 0.00021679101545068436,
+      "loss": 0.2575,
+      "num_input_tokens_seen": 191345616,
+      "step": 88580
+    },
+    {
+      "epoch": 14.451060358890702,
+      "grad_norm": 0.004685994237661362,
+      "learning_rate": 0.00021673235773866212,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 191356592,
+      "step": 88585
+    },
+    {
+      "epoch": 14.451876019575856,
+      "grad_norm": 0.0021670262794941664,
+      "learning_rate": 0.00021667370576741802,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 191367792,
+      "step": 88590
+    },
+    {
+      "epoch": 14.452691680261012,
+      "grad_norm": 0.02692868933081627,
+      "learning_rate": 0.00021661505953814064,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 191378928,
+      "step": 88595
+    },
+    {
+      "epoch": 14.453507340946166,
+      "grad_norm": 0.005074275657534599,
+      "learning_rate": 0.0002165564190520186,
+      "loss": 0.0835,
+      "num_input_tokens_seen": 191390224,
+      "step": 88600
+    },
+    {
+      "epoch": 14.454323001631321,
+      "grad_norm": 0.024734511971473694,
+      "learning_rate": 0.00021649778431024035,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 191401232,
+      "step": 88605
+    },
+    {
+      "epoch": 14.455138662316477,
+      "grad_norm": 0.0013288380578160286,
+      "learning_rate": 0.0002164391553139941,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 191411248,
+      "step": 88610
+    },
+    {
+      "epoch": 14.455954323001631,
+      "grad_norm": 0.002668878063559532,
+      "learning_rate": 0.00021638053206446813,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 191421840,
+      "step": 88615
+    },
+    {
+      "epoch": 14.456769983686787,
+      "grad_norm": 0.01918703131377697,
+      "learning_rate": 0.00021632191456285045,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 191432688,
+      "step": 88620
+    },
+    {
+      "epoch": 14.45758564437194,
+      "grad_norm": 0.28013843297958374,
+      "learning_rate": 0.00021626330281032902,
+      "loss": 0.027,
+      "num_input_tokens_seen": 191443312,
+      "step": 88625
+    },
+    {
+      "epoch": 14.458401305057096,
+      "grad_norm": 0.026643967255949974,
+      "learning_rate": 0.00021620469680809173,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 191453104,
+      "step": 88630
+    },
+    {
+      "epoch": 14.459216965742252,
+      "grad_norm": 0.0020155615638941526,
+      "learning_rate": 0.0002161460965573263,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 191464144,
+      "step": 88635
+    },
+    {
+      "epoch": 14.460032626427406,
+      "grad_norm": 0.012268748134374619,
+      "learning_rate": 0.0002160875020592203,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 191475088,
+      "step": 88640
+    },
+    {
+      "epoch": 14.460848287112562,
+      "grad_norm": 0.002203174866735935,
+      "learning_rate": 0.00021602891331496123,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 191485840,
+      "step": 88645
+    },
+    {
+      "epoch": 14.461663947797716,
+      "grad_norm": 0.0011056186631321907,
+      "learning_rate": 0.0002159703303257363,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 191496720,
+      "step": 88650
+    },
+    {
+      "epoch": 14.462479608482871,
+      "grad_norm": 0.05333087965846062,
+      "learning_rate": 0.00021591175309273314,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 191507728,
+      "step": 88655
+    },
+    {
+      "epoch": 14.463295269168025,
+      "grad_norm": 0.013012475334107876,
+      "learning_rate": 0.00021585318161713868,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 191518096,
+      "step": 88660
+    },
+    {
+      "epoch": 14.464110929853181,
+      "grad_norm": 0.013713795691728592,
+      "learning_rate": 0.00021579461590013994,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 191528560,
+      "step": 88665
+    },
+    {
+      "epoch": 14.464926590538337,
+      "grad_norm": 0.0031545383390039206,
+      "learning_rate": 0.0002157360559429239,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 191539024,
+      "step": 88670
+    },
+    {
+      "epoch": 14.46574225122349,
+      "grad_norm": 0.03223045915365219,
+      "learning_rate": 0.00021567750174667722,
+      "loss": 0.1562,
+      "num_input_tokens_seen": 191550672,
+      "step": 88675
+    },
+    {
+      "epoch": 14.466557911908646,
+      "grad_norm": 0.000889264396391809,
+      "learning_rate": 0.00021561895331258674,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 191561456,
+      "step": 88680
+    },
+    {
+      "epoch": 14.4673735725938,
+      "grad_norm": 0.004097413271665573,
+      "learning_rate": 0.0002155604106418389,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 191573104,
+      "step": 88685
+    },
+    {
+      "epoch": 14.468189233278956,
+      "grad_norm": 0.023272814229130745,
+      "learning_rate": 0.00021550187373562015,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 191582832,
+      "step": 88690
+    },
+    {
+      "epoch": 14.469004893964112,
+      "grad_norm": 0.16478866338729858,
+      "learning_rate": 0.00021544334259511688,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 191592784,
+      "step": 88695
+    },
+    {
+      "epoch": 14.469820554649266,
+      "grad_norm": 0.33433669805526733,
+      "learning_rate": 0.0002153848172215152,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 191603344,
+      "step": 88700
+    },
+    {
+      "epoch": 14.470636215334421,
+      "grad_norm": 0.0031498237513005733,
+      "learning_rate": 0.00021532629761600132,
+      "loss": 0.1815,
+      "num_input_tokens_seen": 191613744,
+      "step": 88705
+    },
+    {
+      "epoch": 14.471451876019575,
+      "grad_norm": 0.07845421880483627,
+      "learning_rate": 0.00021526778377976114,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 191624784,
+      "step": 88710
+    },
+    {
+      "epoch": 14.47226753670473,
+      "grad_norm": 0.4229518473148346,
+      "learning_rate": 0.00021520927571398052,
+      "loss": 0.1305,
+      "num_input_tokens_seen": 191635440,
+      "step": 88715
+    },
+    {
+      "epoch": 14.473083197389887,
+      "grad_norm": 0.012796735391020775,
+      "learning_rate": 0.00021515077341984523,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 191644880,
+      "step": 88720
+    },
+    {
+      "epoch": 14.47389885807504,
+      "grad_norm": 0.07664711028337479,
+      "learning_rate": 0.00021509227689854083,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 191655120,
+      "step": 88725
+    },
+    {
+      "epoch": 14.474714518760196,
+      "grad_norm": 0.013845582492649555,
+      "learning_rate": 0.0002150337861512529,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 191666032,
+      "step": 88730
+    },
+    {
+      "epoch": 14.47553017944535,
+      "grad_norm": 0.019843915477395058,
+      "learning_rate": 0.0002149753011791668,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 191675760,
+      "step": 88735
+    },
+    {
+      "epoch": 14.476345840130506,
+      "grad_norm": 0.033653657883405685,
+      "learning_rate": 0.00021491682198346778,
+      "loss": 0.2274,
+      "num_input_tokens_seen": 191685584,
+      "step": 88740
+    },
+    {
+      "epoch": 14.477161500815662,
+      "grad_norm": 0.004855956416577101,
+      "learning_rate": 0.00021485834856534104,
+      "loss": 0.0764,
+      "num_input_tokens_seen": 191695632,
+      "step": 88745
+    },
+    {
+      "epoch": 14.477977161500815,
+      "grad_norm": 0.026927856728434563,
+      "learning_rate": 0.00021479988092597157,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 191706416,
+      "step": 88750
+    },
+    {
+      "epoch": 14.478792822185971,
+      "grad_norm": 0.0082674166187644,
+      "learning_rate": 0.00021474141906654414,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 191717936,
+      "step": 88755
+    },
+    {
+      "epoch": 14.479608482871125,
+      "grad_norm": 0.013341606594622135,
+      "learning_rate": 0.00021468296298824413,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 191728976,
+      "step": 88760
+    },
+    {
+      "epoch": 14.48042414355628,
+      "grad_norm": 0.008929502218961716,
+      "learning_rate": 0.00021462451269225547,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 191740272,
+      "step": 88765
+    },
+    {
+      "epoch": 14.481239804241435,
+      "grad_norm": 0.007938308641314507,
+      "learning_rate": 0.00021456606817976337,
+      "loss": 0.003,
+      "num_input_tokens_seen": 191751888,
+      "step": 88770
+    },
+    {
+      "epoch": 14.48205546492659,
+      "grad_norm": 0.015212338417768478,
+      "learning_rate": 0.00021450762945195167,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 191763728,
+      "step": 88775
+    },
+    {
+      "epoch": 14.482871125611746,
+      "grad_norm": 1.0990099906921387,
+      "learning_rate": 0.00021444919651000544,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 191774640,
+      "step": 88780
+    },
+    {
+      "epoch": 14.4836867862969,
+      "grad_norm": 0.03344845771789551,
+      "learning_rate": 0.0002143907693551081,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 191784656,
+      "step": 88785
+    },
+    {
+      "epoch": 14.484502446982056,
+      "grad_norm": 0.019984211772680283,
+      "learning_rate": 0.00021433234798844448,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 191796848,
+      "step": 88790
+    },
+    {
+      "epoch": 14.48531810766721,
+      "grad_norm": 0.02110087312757969,
+      "learning_rate": 0.00021427393241119785,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 191806032,
+      "step": 88795
+    },
+    {
+      "epoch": 14.486133768352365,
+      "grad_norm": 0.0715024396777153,
+      "learning_rate": 0.00021421552262455268,
+      "loss": 0.0311,
+      "num_input_tokens_seen": 191817328,
+      "step": 88800
+    },
+    {
+      "epoch": 14.486949429037521,
+      "grad_norm": 0.008351379074156284,
+      "learning_rate": 0.00021415711862969244,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 191827888,
+      "step": 88805
+    },
+    {
+      "epoch": 14.487765089722675,
+      "grad_norm": 0.01090281642973423,
+      "learning_rate": 0.00021409872042780083,
+      "loss": 0.0766,
+      "num_input_tokens_seen": 191839280,
+      "step": 88810
+    },
+    {
+      "epoch": 14.48858075040783,
+      "grad_norm": 0.01043806690722704,
+      "learning_rate": 0.00021404032802006134,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 191848784,
+      "step": 88815
+    },
+    {
+      "epoch": 14.489396411092985,
+      "grad_norm": 0.0038927318528294563,
+      "learning_rate": 0.00021398194140765736,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 191858800,
+      "step": 88820
+    },
+    {
+      "epoch": 14.49021207177814,
+      "grad_norm": 0.005791252013295889,
+      "learning_rate": 0.0002139235605917722,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 191870608,
+      "step": 88825
+    },
+    {
+      "epoch": 14.491027732463296,
+      "grad_norm": 0.003040252486243844,
+      "learning_rate": 0.00021386518557358898,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 191881296,
+      "step": 88830
+    },
+    {
+      "epoch": 14.49184339314845,
+      "grad_norm": 0.029066117480397224,
+      "learning_rate": 0.00021380681635429079,
+      "loss": 0.0905,
+      "num_input_tokens_seen": 191892400,
+      "step": 88835
+    },
+    {
+      "epoch": 14.492659053833606,
+      "grad_norm": 0.028188761323690414,
+      "learning_rate": 0.00021374845293506046,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 191901680,
+      "step": 88840
+    },
+    {
+      "epoch": 14.49347471451876,
+      "grad_norm": 0.011652766726911068,
+      "learning_rate": 0.00021369009531708094,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 191911824,
+      "step": 88845
+    },
+    {
+      "epoch": 14.494290375203915,
+      "grad_norm": 0.006433951668441296,
+      "learning_rate": 0.0002136317435015348,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 191922992,
+      "step": 88850
+    },
+    {
+      "epoch": 14.49510603588907,
+      "grad_norm": 0.02798541635274887,
+      "learning_rate": 0.0002135733974896047,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 191932496,
+      "step": 88855
+    },
+    {
+      "epoch": 14.495921696574225,
+      "grad_norm": 0.007322490680962801,
+      "learning_rate": 0.00021351505728247282,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 191942672,
+      "step": 88860
+    },
+    {
+      "epoch": 14.49673735725938,
+      "grad_norm": 0.015419857576489449,
+      "learning_rate": 0.00021345672288132218,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 191953936,
+      "step": 88865
+    },
+    {
+      "epoch": 14.497553017944535,
+      "grad_norm": 0.05873335525393486,
+      "learning_rate": 0.00021339839428733415,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 191963504,
+      "step": 88870
+    },
+    {
+      "epoch": 14.49836867862969,
+      "grad_norm": 0.08444296568632126,
+      "learning_rate": 0.0002133400715016916,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 191973776,
+      "step": 88875
+    },
+    {
+      "epoch": 14.499184339314844,
+      "grad_norm": 0.01983826793730259,
+      "learning_rate": 0.0002132817545255758,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 191982800,
+      "step": 88880
+    },
+    {
+      "epoch": 14.5,
+      "grad_norm": 0.020987823605537415,
+      "learning_rate": 0.0002132234433601693,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 191994608,
+      "step": 88885
+    },
+    {
+      "epoch": 14.500815660685156,
+      "grad_norm": 0.05628190189599991,
+      "learning_rate": 0.00021316513800665322,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 192004112,
+      "step": 88890
+    },
+    {
+      "epoch": 14.50163132137031,
+      "grad_norm": 0.013542087748646736,
+      "learning_rate": 0.0002131068384662098,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 192016720,
+      "step": 88895
+    },
+    {
+      "epoch": 14.502446982055465,
+      "grad_norm": 0.01771514117717743,
+      "learning_rate": 0.00021304854474001993,
+      "loss": 0.003,
+      "num_input_tokens_seen": 192027760,
+      "step": 88900
+    },
+    {
+      "epoch": 14.50326264274062,
+      "grad_norm": 0.021325405687093735,
+      "learning_rate": 0.00021299025682926565,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 192038992,
+      "step": 88905
+    },
+    {
+      "epoch": 14.504078303425775,
+      "grad_norm": 0.002273843390867114,
+      "learning_rate": 0.0002129319747351276,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 192050032,
+      "step": 88910
+    },
+    {
+      "epoch": 14.50489396411093,
+      "grad_norm": 0.20562784373760223,
+      "learning_rate": 0.00021287369845878756,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 192060400,
+      "step": 88915
+    },
+    {
+      "epoch": 14.505709624796085,
+      "grad_norm": 0.002092252252623439,
+      "learning_rate": 0.00021281542800142595,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 192070448,
+      "step": 88920
+    },
+    {
+      "epoch": 14.50652528548124,
+      "grad_norm": 0.025624606758356094,
+      "learning_rate": 0.00021275716336422435,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 192081712,
+      "step": 88925
+    },
+    {
+      "epoch": 14.507340946166394,
+      "grad_norm": 0.03953010216355324,
+      "learning_rate": 0.00021269890454836288,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 192092752,
+      "step": 88930
+    },
+    {
+      "epoch": 14.50815660685155,
+      "grad_norm": 0.010210723616182804,
+      "learning_rate": 0.00021264065155502293,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 192104112,
+      "step": 88935
+    },
+    {
+      "epoch": 14.508972267536706,
+      "grad_norm": 0.00433401670306921,
+      "learning_rate": 0.00021258240438538434,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 192114448,
+      "step": 88940
+    },
+    {
+      "epoch": 14.50978792822186,
+      "grad_norm": 0.006997460499405861,
+      "learning_rate": 0.0002125241630406281,
+      "loss": 0.005,
+      "num_input_tokens_seen": 192124176,
+      "step": 88945
+    },
+    {
+      "epoch": 14.510603588907015,
+      "grad_norm": 0.004508296027779579,
+      "learning_rate": 0.00021246592752193445,
+      "loss": 0.1081,
+      "num_input_tokens_seen": 192134960,
+      "step": 88950
+    },
+    {
+      "epoch": 14.51141924959217,
+      "grad_norm": 0.0038452772423624992,
+      "learning_rate": 0.00021240769783048352,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 192145648,
+      "step": 88955
+    },
+    {
+      "epoch": 14.512234910277325,
+      "grad_norm": 0.009463680908083916,
+      "learning_rate": 0.00021234947396745542,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 192156560,
+      "step": 88960
+    },
+    {
+      "epoch": 14.513050570962479,
+      "grad_norm": 0.005169307813048363,
+      "learning_rate": 0.00021229125593403016,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 192167184,
+      "step": 88965
+    },
+    {
+      "epoch": 14.513866231647635,
+      "grad_norm": 0.0034116103779524565,
+      "learning_rate": 0.00021223304373138753,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 192178608,
+      "step": 88970
+    },
+    {
+      "epoch": 14.51468189233279,
+      "grad_norm": 0.014676249586045742,
+      "learning_rate": 0.00021217483736070736,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 192189328,
+      "step": 88975
+    },
+    {
+      "epoch": 14.515497553017944,
+      "grad_norm": 0.039021145552396774,
+      "learning_rate": 0.00021211663682316922,
+      "loss": 0.025,
+      "num_input_tokens_seen": 192200880,
+      "step": 88980
+    },
+    {
+      "epoch": 14.5163132137031,
+      "grad_norm": 0.026364067569375038,
+      "learning_rate": 0.00021205844211995268,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 192211504,
+      "step": 88985
+    },
+    {
+      "epoch": 14.517128874388254,
+      "grad_norm": 0.051095642149448395,
+      "learning_rate": 0.0002120002532522371,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 192223216,
+      "step": 88990
+    },
+    {
+      "epoch": 14.51794453507341,
+      "grad_norm": 0.009368719533085823,
+      "learning_rate": 0.00021194207022120153,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 192234640,
+      "step": 88995
+    },
+    {
+      "epoch": 14.518760195758565,
+      "grad_norm": 0.005646569188684225,
+      "learning_rate": 0.0002118838930280257,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 192244752,
+      "step": 89000
+    },
+    {
+      "epoch": 14.51957585644372,
+      "grad_norm": 0.0006784353754483163,
+      "learning_rate": 0.00021182572167388792,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 192254448,
+      "step": 89005
+    },
+    {
+      "epoch": 14.520391517128875,
+      "grad_norm": 0.013773053884506226,
+      "learning_rate": 0.00021176755615996785,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 192265584,
+      "step": 89010
+    },
+    {
+      "epoch": 14.521207177814029,
+      "grad_norm": 0.014610863290727139,
+      "learning_rate": 0.00021170939648744346,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 192277200,
+      "step": 89015
+    },
+    {
+      "epoch": 14.522022838499185,
+      "grad_norm": 0.06779501587152481,
+      "learning_rate": 0.00021165124265749431,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 192288848,
+      "step": 89020
+    },
+    {
+      "epoch": 14.522838499184338,
+      "grad_norm": 0.0008561646100133657,
+      "learning_rate": 0.00021159309467129816,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 192299056,
+      "step": 89025
+    },
+    {
+      "epoch": 14.523654159869494,
+      "grad_norm": 0.08283943682909012,
+      "learning_rate": 0.0002115349525300342,
+      "loss": 0.006,
+      "num_input_tokens_seen": 192309232,
+      "step": 89030
+    },
+    {
+      "epoch": 14.52446982055465,
+      "grad_norm": 0.037029191851615906,
+      "learning_rate": 0.00021147681623487997,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 192320112,
+      "step": 89035
+    },
+    {
+      "epoch": 14.525285481239804,
+      "grad_norm": 0.01584443263709545,
+      "learning_rate": 0.0002114186857870144,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 192330096,
+      "step": 89040
+    },
+    {
+      "epoch": 14.52610114192496,
+      "grad_norm": 0.10031913965940475,
+      "learning_rate": 0.00021136056118761494,
+      "loss": 0.0497,
+      "num_input_tokens_seen": 192341744,
+      "step": 89045
+    },
+    {
+      "epoch": 14.526916802610113,
+      "grad_norm": 0.04384492337703705,
+      "learning_rate": 0.00021130244243786024,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 192353200,
+      "step": 89050
+    },
+    {
+      "epoch": 14.52773246329527,
+      "grad_norm": 0.006799424532800913,
+      "learning_rate": 0.00021124432953892742,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 192364496,
+      "step": 89055
+    },
+    {
+      "epoch": 14.528548123980425,
+      "grad_norm": 0.004936617333441973,
+      "learning_rate": 0.00021118622249199494,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 192373680,
+      "step": 89060
+    },
+    {
+      "epoch": 14.529363784665579,
+      "grad_norm": 0.003013910725712776,
+      "learning_rate": 0.00021112812129823967,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 192384496,
+      "step": 89065
+    },
+    {
+      "epoch": 14.530179445350734,
+      "grad_norm": 0.5813406109809875,
+      "learning_rate": 0.00021107002595883978,
+      "loss": 0.0227,
+      "num_input_tokens_seen": 192394768,
+      "step": 89070
+    },
+    {
+      "epoch": 14.530995106035888,
+      "grad_norm": 0.00857462827116251,
+      "learning_rate": 0.00021101193647497208,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 192406736,
+      "step": 89075
+    },
+    {
+      "epoch": 14.531810766721044,
+      "grad_norm": 0.013798504136502743,
+      "learning_rate": 0.00021095385284781426,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 192418192,
+      "step": 89080
+    },
+    {
+      "epoch": 14.5326264274062,
+      "grad_norm": 0.005595772061496973,
+      "learning_rate": 0.00021089577507854324,
+      "loss": 0.0981,
+      "num_input_tokens_seen": 192429424,
+      "step": 89085
+    },
+    {
+      "epoch": 14.533442088091354,
+      "grad_norm": 0.035856693983078,
+      "learning_rate": 0.00021083770316833618,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 192439952,
+      "step": 89090
+    },
+    {
+      "epoch": 14.53425774877651,
+      "grad_norm": 0.0023227352648973465,
+      "learning_rate": 0.00021077963711836983,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 192450096,
+      "step": 89095
+    },
+    {
+      "epoch": 14.535073409461663,
+      "grad_norm": 0.3182942569255829,
+      "learning_rate": 0.00021072157692982103,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 192461456,
+      "step": 89100
+    },
+    {
+      "epoch": 14.535889070146819,
+      "grad_norm": 0.00510216411203146,
+      "learning_rate": 0.00021066352260386644,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 192471824,
+      "step": 89105
+    },
+    {
+      "epoch": 14.536704730831975,
+      "grad_norm": 0.07574431598186493,
+      "learning_rate": 0.0002106054741416827,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 192482320,
+      "step": 89110
+    },
+    {
+      "epoch": 14.537520391517129,
+      "grad_norm": 0.004888062831014395,
+      "learning_rate": 0.00021054743154444607,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 192492816,
+      "step": 89115
+    },
+    {
+      "epoch": 14.538336052202284,
+      "grad_norm": 0.016683122143149376,
+      "learning_rate": 0.00021048939481333297,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 192504016,
+      "step": 89120
+    },
+    {
+      "epoch": 14.539151712887438,
+      "grad_norm": 0.006947814021259546,
+      "learning_rate": 0.00021043136394951955,
+      "loss": 0.125,
+      "num_input_tokens_seen": 192514416,
+      "step": 89125
+    },
+    {
+      "epoch": 14.539967373572594,
+      "grad_norm": 0.01835622824728489,
+      "learning_rate": 0.00021037333895418186,
+      "loss": 0.0437,
+      "num_input_tokens_seen": 192524336,
+      "step": 89130
+    },
+    {
+      "epoch": 14.540783034257748,
+      "grad_norm": 0.0712086632847786,
+      "learning_rate": 0.0002103153198284959,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 192533200,
+      "step": 89135
+    },
+    {
+      "epoch": 14.541598694942904,
+      "grad_norm": 0.002161943819373846,
+      "learning_rate": 0.0002102573065736373,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 192545104,
+      "step": 89140
+    },
+    {
+      "epoch": 14.54241435562806,
+      "grad_norm": 0.0018386748852208257,
+      "learning_rate": 0.00021019929919078228,
+      "loss": 0.009,
+      "num_input_tokens_seen": 192555856,
+      "step": 89145
+    },
+    {
+      "epoch": 14.543230016313213,
+      "grad_norm": 0.8079872727394104,
+      "learning_rate": 0.00021014129768110574,
+      "loss": 0.098,
+      "num_input_tokens_seen": 192566192,
+      "step": 89150
+    },
+    {
+      "epoch": 14.544045676998369,
+      "grad_norm": 0.020592303946614265,
+      "learning_rate": 0.0002100833020457839,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 192577680,
+      "step": 89155
+    },
+    {
+      "epoch": 14.544861337683523,
+      "grad_norm": 0.5749585628509521,
+      "learning_rate": 0.00021002531228599136,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 192588400,
+      "step": 89160
+    },
+    {
+      "epoch": 14.545676998368679,
+      "grad_norm": 0.017069535329937935,
+      "learning_rate": 0.00020996732840290405,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 192599376,
+      "step": 89165
+    },
+    {
+      "epoch": 14.546492659053834,
+      "grad_norm": 0.009924108162522316,
+      "learning_rate": 0.0002099093503976965,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 192610960,
+      "step": 89170
+    },
+    {
+      "epoch": 14.547308319738988,
+      "grad_norm": 0.24204865097999573,
+      "learning_rate": 0.0002098513782715442,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 192621680,
+      "step": 89175
+    },
+    {
+      "epoch": 14.548123980424144,
+      "grad_norm": 0.05922012776136398,
+      "learning_rate": 0.00020979341202562152,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 192633328,
+      "step": 89180
+    },
+    {
+      "epoch": 14.548939641109298,
+      "grad_norm": 0.05222422257065773,
+      "learning_rate": 0.00020973545166110368,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 192644816,
+      "step": 89185
+    },
+    {
+      "epoch": 14.549755301794454,
+      "grad_norm": 0.015433356165885925,
+      "learning_rate": 0.00020967749717916513,
+      "loss": 0.006,
+      "num_input_tokens_seen": 192655760,
+      "step": 89190
+    },
+    {
+      "epoch": 14.550570962479608,
+      "grad_norm": 0.10926583409309387,
+      "learning_rate": 0.00020961954858098037,
+      "loss": 0.009,
+      "num_input_tokens_seen": 192666096,
+      "step": 89195
+    },
+    {
+      "epoch": 14.551386623164763,
+      "grad_norm": 0.0032105380669236183,
+      "learning_rate": 0.0002095616058677239,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 192675440,
+      "step": 89200
+    },
+    {
+      "epoch": 14.552202283849919,
+      "grad_norm": 0.14845839142799377,
+      "learning_rate": 0.00020950366904056984,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 192686416,
+      "step": 89205
+    },
+    {
+      "epoch": 14.553017944535073,
+      "grad_norm": 0.008143202401697636,
+      "learning_rate": 0.00020944573810069252,
+      "loss": 0.005,
+      "num_input_tokens_seen": 192697936,
+      "step": 89210
+    },
+    {
+      "epoch": 14.553833605220229,
+      "grad_norm": 0.0077461740002036095,
+      "learning_rate": 0.00020938781304926586,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 192709008,
+      "step": 89215
+    },
+    {
+      "epoch": 14.554649265905383,
+      "grad_norm": 0.0006443687016144395,
+      "learning_rate": 0.00020932989388746387,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 192717552,
+      "step": 89220
+    },
+    {
+      "epoch": 14.555464926590538,
+      "grad_norm": 0.0020855157636106014,
+      "learning_rate": 0.0002092719806164603,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 192727888,
+      "step": 89225
+    },
+    {
+      "epoch": 14.556280587275694,
+      "grad_norm": 0.009736152365803719,
+      "learning_rate": 0.00020921407323742892,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 192739984,
+      "step": 89230
+    },
+    {
+      "epoch": 14.557096247960848,
+      "grad_norm": 0.006911523174494505,
+      "learning_rate": 0.00020915617175154316,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 192751312,
+      "step": 89235
+    },
+    {
+      "epoch": 14.557911908646004,
+      "grad_norm": 0.009532546624541283,
+      "learning_rate": 0.00020909827615997657,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 192763248,
+      "step": 89240
+    },
+    {
+      "epoch": 14.558727569331158,
+      "grad_norm": 0.020412901416420937,
+      "learning_rate": 0.00020904038646390246,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 192774672,
+      "step": 89245
+    },
+    {
+      "epoch": 14.559543230016313,
+      "grad_norm": 0.050955090671777725,
+      "learning_rate": 0.00020898250266449399,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 192785552,
+      "step": 89250
+    },
+    {
+      "epoch": 14.560358890701469,
+      "grad_norm": 0.004365491680800915,
+      "learning_rate": 0.0002089246247629243,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 192795952,
+      "step": 89255
+    },
+    {
+      "epoch": 14.561174551386623,
+      "grad_norm": 0.009529031813144684,
+      "learning_rate": 0.00020886675276036637,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 192806544,
+      "step": 89260
+    },
+    {
+      "epoch": 14.561990212071779,
+      "grad_norm": 0.01040890347212553,
+      "learning_rate": 0.00020880888665799304,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 192817520,
+      "step": 89265
+    },
+    {
+      "epoch": 14.562805872756933,
+      "grad_norm": 0.00223185820505023,
+      "learning_rate": 0.00020875102645697696,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 192827920,
+      "step": 89270
+    },
+    {
+      "epoch": 14.563621533442088,
+      "grad_norm": 0.0598750114440918,
+      "learning_rate": 0.0002086931721584908,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 192838736,
+      "step": 89275
+    },
+    {
+      "epoch": 14.564437194127244,
+      "grad_norm": 0.10287459939718246,
+      "learning_rate": 0.00020863532376370715,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 192849776,
+      "step": 89280
+    },
+    {
+      "epoch": 14.565252854812398,
+      "grad_norm": 0.007824460975825787,
+      "learning_rate": 0.000208577481273798,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 192858800,
+      "step": 89285
+    },
+    {
+      "epoch": 14.566068515497554,
+      "grad_norm": 0.026574891060590744,
+      "learning_rate": 0.00020851964468993612,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 192870064,
+      "step": 89290
+    },
+    {
+      "epoch": 14.566884176182707,
+      "grad_norm": 0.0022794893011450768,
+      "learning_rate": 0.00020846181401329338,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 192881872,
+      "step": 89295
+    },
+    {
+      "epoch": 14.567699836867863,
+      "grad_norm": 0.0017811759607866406,
+      "learning_rate": 0.00020840398924504188,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 192892464,
+      "step": 89300
+    },
+    {
+      "epoch": 14.568515497553017,
+      "grad_norm": 0.043051186949014664,
+      "learning_rate": 0.0002083461703863534,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 192903792,
+      "step": 89305
+    },
+    {
+      "epoch": 14.569331158238173,
+      "grad_norm": 0.009227285161614418,
+      "learning_rate": 0.0002082883574383998,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 192914704,
+      "step": 89310
+    },
+    {
+      "epoch": 14.570146818923329,
+      "grad_norm": 0.12363433092832565,
+      "learning_rate": 0.00020823055040235266,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 192925776,
+      "step": 89315
+    },
+    {
+      "epoch": 14.570962479608482,
+      "grad_norm": 0.039080094546079636,
+      "learning_rate": 0.0002081727492793836,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 192936656,
+      "step": 89320
+    },
+    {
+      "epoch": 14.571778140293638,
+      "grad_norm": 0.0033353553153574467,
+      "learning_rate": 0.00020811495407066394,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 192948048,
+      "step": 89325
+    },
+    {
+      "epoch": 14.572593800978792,
+      "grad_norm": 0.056662097573280334,
+      "learning_rate": 0.00020805716477736508,
+      "loss": 0.0373,
+      "num_input_tokens_seen": 192957840,
+      "step": 89330
+    },
+    {
+      "epoch": 14.573409461663948,
+      "grad_norm": 0.0010778683936223388,
+      "learning_rate": 0.00020799938140065804,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 192968528,
+      "step": 89335
+    },
+    {
+      "epoch": 14.574225122349104,
+      "grad_norm": 0.0030743195675313473,
+      "learning_rate": 0.00020794160394171403,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 192979088,
+      "step": 89340
+    },
+    {
+      "epoch": 14.575040783034257,
+      "grad_norm": 0.007394440937787294,
+      "learning_rate": 0.00020788383240170395,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 192990640,
+      "step": 89345
+    },
+    {
+      "epoch": 14.575856443719413,
+      "grad_norm": 0.001514918520115316,
+      "learning_rate": 0.0002078260667817985,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 193001840,
+      "step": 89350
+    },
+    {
+      "epoch": 14.576672104404567,
+      "grad_norm": 0.002615422708913684,
+      "learning_rate": 0.0002077683070831685,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 193013232,
+      "step": 89355
+    },
+    {
+      "epoch": 14.577487765089723,
+      "grad_norm": 0.027480650693178177,
+      "learning_rate": 0.00020771055330698446,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 193025040,
+      "step": 89360
+    },
+    {
+      "epoch": 14.578303425774878,
+      "grad_norm": 0.43630602955818176,
+      "learning_rate": 0.0002076528054544169,
+      "loss": 0.0143,
+      "num_input_tokens_seen": 193036464,
+      "step": 89365
+    },
+    {
+      "epoch": 14.579119086460032,
+      "grad_norm": 0.009855729527771473,
+      "learning_rate": 0.00020759506352663605,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 193046896,
+      "step": 89370
+    },
+    {
+      "epoch": 14.579934747145188,
+      "grad_norm": 0.46799859404563904,
+      "learning_rate": 0.0002075373275248122,
+      "loss": 0.1245,
+      "num_input_tokens_seen": 193058192,
+      "step": 89375
+    },
+    {
+      "epoch": 14.580750407830342,
+      "grad_norm": 0.010498947463929653,
+      "learning_rate": 0.00020747959745011542,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 193069808,
+      "step": 89380
+    },
+    {
+      "epoch": 14.581566068515498,
+      "grad_norm": 0.07971848547458649,
+      "learning_rate": 0.0002074218733037157,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 193081392,
+      "step": 89385
+    },
+    {
+      "epoch": 14.582381729200652,
+      "grad_norm": 0.0011771656572818756,
+      "learning_rate": 0.00020736415508678285,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 193092144,
+      "step": 89390
+    },
+    {
+      "epoch": 14.583197389885807,
+      "grad_norm": 0.07137224078178406,
+      "learning_rate": 0.0002073064428004865,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 193103312,
+      "step": 89395
+    },
+    {
+      "epoch": 14.584013050570963,
+      "grad_norm": 0.004249855410307646,
+      "learning_rate": 0.00020724873644599668,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 193115152,
+      "step": 89400
+    },
+    {
+      "epoch": 14.584828711256117,
+      "grad_norm": 0.08202840387821198,
+      "learning_rate": 0.0002071910360244823,
+      "loss": 0.0753,
+      "num_input_tokens_seen": 193125776,
+      "step": 89405
+    },
+    {
+      "epoch": 14.585644371941273,
+      "grad_norm": 0.017344074323773384,
+      "learning_rate": 0.0002071333415371134,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 193136208,
+      "step": 89410
+    },
+    {
+      "epoch": 14.586460032626427,
+      "grad_norm": 0.013641850091516972,
+      "learning_rate": 0.00020707565298505842,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 193148208,
+      "step": 89415
+    },
+    {
+      "epoch": 14.587275693311582,
+      "grad_norm": 0.002559355227276683,
+      "learning_rate": 0.00020701797036948739,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 193159088,
+      "step": 89420
+    },
+    {
+      "epoch": 14.588091353996738,
+      "grad_norm": 0.003523677121847868,
+      "learning_rate": 0.00020696029369156844,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 193169648,
+      "step": 89425
+    },
+    {
+      "epoch": 14.588907014681892,
+      "grad_norm": 0.0047660889104008675,
+      "learning_rate": 0.0002069026229524711,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 193180624,
+      "step": 89430
+    },
+    {
+      "epoch": 14.589722675367048,
+      "grad_norm": 0.0020290075335651636,
+      "learning_rate": 0.00020684495815336392,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 193191408,
+      "step": 89435
+    },
+    {
+      "epoch": 14.590538336052202,
+      "grad_norm": 0.0014430329902097583,
+      "learning_rate": 0.00020678729929541552,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 193201008,
+      "step": 89440
+    },
+    {
+      "epoch": 14.591353996737357,
+      "grad_norm": 0.0040334672667086124,
+      "learning_rate": 0.00020672964637979453,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 193211120,
+      "step": 89445
+    },
+    {
+      "epoch": 14.592169657422513,
+      "grad_norm": 0.0017633815295994282,
+      "learning_rate": 0.00020667199940766924,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 193221936,
+      "step": 89450
+    },
+    {
+      "epoch": 14.592985318107667,
+      "grad_norm": 0.7666230201721191,
+      "learning_rate": 0.00020661435838020798,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 193233616,
+      "step": 89455
+    },
+    {
+      "epoch": 14.593800978792823,
+      "grad_norm": 0.005272711627185345,
+      "learning_rate": 0.000206556723298579,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 193242992,
+      "step": 89460
+    },
+    {
+      "epoch": 14.594616639477977,
+      "grad_norm": 0.0023867280688136816,
+      "learning_rate": 0.00020649909416395025,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 193252912,
+      "step": 89465
+    },
+    {
+      "epoch": 14.595432300163132,
+      "grad_norm": 0.016159815713763237,
+      "learning_rate": 0.00020644147097748967,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 193264304,
+      "step": 89470
+    },
+    {
+      "epoch": 14.596247960848288,
+      "grad_norm": 0.0027893621008843184,
+      "learning_rate": 0.0002063838537403651,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 193275632,
+      "step": 89475
+    },
+    {
+      "epoch": 14.597063621533442,
+      "grad_norm": 0.00795994233340025,
+      "learning_rate": 0.00020632624245374426,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 193285680,
+      "step": 89480
+    },
+    {
+      "epoch": 14.597879282218598,
+      "grad_norm": 0.014036700129508972,
+      "learning_rate": 0.0002062686371187946,
+      "loss": 0.0968,
+      "num_input_tokens_seen": 193295792,
+      "step": 89485
+    },
+    {
+      "epoch": 14.598694942903752,
+      "grad_norm": 0.0036570588126778603,
+      "learning_rate": 0.00020621103773668366,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 193306320,
+      "step": 89490
+    },
+    {
+      "epoch": 14.599510603588907,
+      "grad_norm": 0.004171954933553934,
+      "learning_rate": 0.00020615344430857874,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 193317616,
+      "step": 89495
+    },
+    {
+      "epoch": 14.600326264274061,
+      "grad_norm": 0.005262458231300116,
+      "learning_rate": 0.00020609585683564687,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 193328784,
+      "step": 89500
+    },
+    {
+      "epoch": 14.601141924959217,
+      "grad_norm": 0.0018460382707417011,
+      "learning_rate": 0.00020603827531905566,
+      "loss": 0.0877,
+      "num_input_tokens_seen": 193339408,
+      "step": 89505
+    },
+    {
+      "epoch": 14.601957585644373,
+      "grad_norm": 0.0008219721494242549,
+      "learning_rate": 0.00020598069975997135,
+      "loss": 0.0909,
+      "num_input_tokens_seen": 193349744,
+      "step": 89510
+    },
+    {
+      "epoch": 14.602773246329527,
+      "grad_norm": 0.008539113216102123,
+      "learning_rate": 0.0002059231301595615,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 193360528,
+      "step": 89515
+    },
+    {
+      "epoch": 14.603588907014682,
+      "grad_norm": 0.008514752611517906,
+      "learning_rate": 0.00020586556651899213,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 193371792,
+      "step": 89520
+    },
+    {
+      "epoch": 14.604404567699836,
+      "grad_norm": 0.138560950756073,
+      "learning_rate": 0.00020580800883943058,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 193381392,
+      "step": 89525
+    },
+    {
+      "epoch": 14.605220228384992,
+      "grad_norm": 0.015043669380247593,
+      "learning_rate": 0.00020575045712204254,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 193392272,
+      "step": 89530
+    },
+    {
+      "epoch": 14.606035889070148,
+      "grad_norm": 0.1300588846206665,
+      "learning_rate": 0.00020569291136799512,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 193402800,
+      "step": 89535
+    },
+    {
+      "epoch": 14.606851549755302,
+      "grad_norm": 0.02232443168759346,
+      "learning_rate": 0.00020563537157845392,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 193413008,
+      "step": 89540
+    },
+    {
+      "epoch": 14.607667210440457,
+      "grad_norm": 0.33156269788742065,
+      "learning_rate": 0.0002055778377545856,
+      "loss": 0.012,
+      "num_input_tokens_seen": 193424272,
+      "step": 89545
+    },
+    {
+      "epoch": 14.608482871125611,
+      "grad_norm": 0.4333055317401886,
+      "learning_rate": 0.0002055203098975556,
+      "loss": 0.1049,
+      "num_input_tokens_seen": 193434928,
+      "step": 89550
+    },
+    {
+      "epoch": 14.609298531810767,
+      "grad_norm": 0.00710340915247798,
+      "learning_rate": 0.00020546278800853048,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 193447184,
+      "step": 89555
+    },
+    {
+      "epoch": 14.61011419249592,
+      "grad_norm": 1.8786109685897827,
+      "learning_rate": 0.00020540527208867522,
+      "loss": 0.2019,
+      "num_input_tokens_seen": 193458448,
+      "step": 89560
+    },
+    {
+      "epoch": 14.610929853181077,
+      "grad_norm": 0.00856061466038227,
+      "learning_rate": 0.00020534776213915619,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 193469680,
+      "step": 89565
+    },
+    {
+      "epoch": 14.611745513866232,
+      "grad_norm": 2.7863962650299072,
+      "learning_rate": 0.00020529025816113817,
+      "loss": 0.3,
+      "num_input_tokens_seen": 193480848,
+      "step": 89570
+    },
+    {
+      "epoch": 14.612561174551386,
+      "grad_norm": 0.006839493755251169,
+      "learning_rate": 0.00020523276015578713,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 193491280,
+      "step": 89575
+    },
+    {
+      "epoch": 14.613376835236542,
+      "grad_norm": 0.0007321059238165617,
+      "learning_rate": 0.0002051752681242682,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 193502384,
+      "step": 89580
+    },
+    {
+      "epoch": 14.614192495921696,
+      "grad_norm": 0.005245604086667299,
+      "learning_rate": 0.0002051177820677464,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 193510896,
+      "step": 89585
+    },
+    {
+      "epoch": 14.615008156606851,
+      "grad_norm": 0.0040390766225755215,
+      "learning_rate": 0.00020506030198738683,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 193521712,
+      "step": 89590
+    },
+    {
+      "epoch": 14.615823817292007,
+      "grad_norm": 0.017503926530480385,
+      "learning_rate": 0.00020500282788435441,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 193533008,
+      "step": 89595
+    },
+    {
+      "epoch": 14.616639477977161,
+      "grad_norm": 0.03211967274546623,
+      "learning_rate": 0.00020494535975981398,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 193543472,
+      "step": 89600
+    },
+    {
+      "epoch": 14.617455138662317,
+      "grad_norm": 0.397350013256073,
+      "learning_rate": 0.0002048878976149301,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 193553392,
+      "step": 89605
+    },
+    {
+      "epoch": 14.61827079934747,
+      "grad_norm": 0.008442388847470284,
+      "learning_rate": 0.00020483044145086732,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 193564912,
+      "step": 89610
+    },
+    {
+      "epoch": 14.619086460032626,
+      "grad_norm": 0.0035397973842918873,
+      "learning_rate": 0.00020477299126879013,
+      "loss": 0.0635,
+      "num_input_tokens_seen": 193574512,
+      "step": 89615
+    },
+    {
+      "epoch": 14.619902120717782,
+      "grad_norm": 0.004368765279650688,
+      "learning_rate": 0.00020471554706986273,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 193585968,
+      "step": 89620
+    },
+    {
+      "epoch": 14.620717781402936,
+      "grad_norm": 0.002169569954276085,
+      "learning_rate": 0.00020465810885524928,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 193596304,
+      "step": 89625
+    },
+    {
+      "epoch": 14.621533442088092,
+      "grad_norm": 0.015089782886207104,
+      "learning_rate": 0.0002046006766261142,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 193606672,
+      "step": 89630
+    },
+    {
+      "epoch": 14.622349102773246,
+      "grad_norm": 0.012145834043622017,
+      "learning_rate": 0.00020454325038362083,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 193616912,
+      "step": 89635
+    },
+    {
+      "epoch": 14.623164763458401,
+      "grad_norm": 0.004161675926297903,
+      "learning_rate": 0.00020448583012893363,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 193627856,
+      "step": 89640
+    },
+    {
+      "epoch": 14.623980424143557,
+      "grad_norm": 0.0038490283768624067,
+      "learning_rate": 0.00020442841586321565,
+      "loss": 0.0627,
+      "num_input_tokens_seen": 193638896,
+      "step": 89645
+    },
+    {
+      "epoch": 14.624796084828711,
+      "grad_norm": 0.005434063263237476,
+      "learning_rate": 0.0002043710075876311,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 193648816,
+      "step": 89650
+    },
+    {
+      "epoch": 14.625611745513867,
+      "grad_norm": 0.02254394255578518,
+      "learning_rate": 0.00020431360530334282,
+      "loss": 0.003,
+      "num_input_tokens_seen": 193660144,
+      "step": 89655
+    },
+    {
+      "epoch": 14.62642740619902,
+      "grad_norm": 0.05815372243523598,
+      "learning_rate": 0.0002042562090115147,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 193671024,
+      "step": 89660
+    },
+    {
+      "epoch": 14.627243066884176,
+      "grad_norm": 0.11653152108192444,
+      "learning_rate": 0.0002041988187133094,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 193682960,
+      "step": 89665
+    },
+    {
+      "epoch": 14.62805872756933,
+      "grad_norm": 0.0057633547112345695,
+      "learning_rate": 0.00020414143440989062,
+      "loss": 0.126,
+      "num_input_tokens_seen": 193693136,
+      "step": 89670
+    },
+    {
+      "epoch": 14.628874388254486,
+      "grad_norm": 0.053961724042892456,
+      "learning_rate": 0.00020408405610242063,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 193704592,
+      "step": 89675
+    },
+    {
+      "epoch": 14.629690048939642,
+      "grad_norm": 0.009925310499966145,
+      "learning_rate": 0.000204026683792063,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 193715088,
+      "step": 89680
+    },
+    {
+      "epoch": 14.630505709624796,
+      "grad_norm": 0.006178427021950483,
+      "learning_rate": 0.00020396931747997978,
+      "loss": 0.003,
+      "num_input_tokens_seen": 193726160,
+      "step": 89685
+    },
+    {
+      "epoch": 14.631321370309951,
+      "grad_norm": 0.12800955772399902,
+      "learning_rate": 0.0002039119571673342,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 193736848,
+      "step": 89690
+    },
+    {
+      "epoch": 14.632137030995105,
+      "grad_norm": 0.25726088881492615,
+      "learning_rate": 0.00020385460285528807,
+      "loss": 0.0543,
+      "num_input_tokens_seen": 193748080,
+      "step": 89695
+    },
+    {
+      "epoch": 14.632952691680261,
+      "grad_norm": 0.0024385061115026474,
+      "learning_rate": 0.0002037972545450044,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 193759440,
+      "step": 89700
+    },
+    {
+      "epoch": 14.633768352365417,
+      "grad_norm": 0.008196687325835228,
+      "learning_rate": 0.0002037399122376449,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 193770768,
+      "step": 89705
+    },
+    {
+      "epoch": 14.63458401305057,
+      "grad_norm": 0.024108847603201866,
+      "learning_rate": 0.0002036825759343721,
+      "loss": 0.003,
+      "num_input_tokens_seen": 193781616,
+      "step": 89710
+    },
+    {
+      "epoch": 14.635399673735726,
+      "grad_norm": 0.03441760316491127,
+      "learning_rate": 0.0002036252456363476,
+      "loss": 0.022,
+      "num_input_tokens_seen": 193792656,
+      "step": 89715
+    },
+    {
+      "epoch": 14.63621533442088,
+      "grad_norm": 0.010302347131073475,
+      "learning_rate": 0.00020356792134473356,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 193802384,
+      "step": 89720
+    },
+    {
+      "epoch": 14.637030995106036,
+      "grad_norm": 0.009490042924880981,
+      "learning_rate": 0.0002035106030606917,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 193812400,
+      "step": 89725
+    },
+    {
+      "epoch": 14.63784665579119,
+      "grad_norm": 0.017873436212539673,
+      "learning_rate": 0.00020345329078538354,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 193823664,
+      "step": 89730
+    },
+    {
+      "epoch": 14.638662316476346,
+      "grad_norm": 0.03383546322584152,
+      "learning_rate": 0.00020339598451997066,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 193835696,
+      "step": 89735
+    },
+    {
+      "epoch": 14.639477977161501,
+      "grad_norm": 0.006421535741537809,
+      "learning_rate": 0.00020333868426561448,
+      "loss": 0.002,
+      "num_input_tokens_seen": 193847376,
+      "step": 89740
+    },
+    {
+      "epoch": 14.640293637846655,
+      "grad_norm": 0.0031049128156155348,
+      "learning_rate": 0.00020328139002347612,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 193858480,
+      "step": 89745
+    },
+    {
+      "epoch": 14.641109298531811,
+      "grad_norm": 0.037416599690914154,
+      "learning_rate": 0.00020322410179471684,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 193871024,
+      "step": 89750
+    },
+    {
+      "epoch": 14.641924959216965,
+      "grad_norm": 0.007306250277906656,
+      "learning_rate": 0.00020316681958049758,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 193881104,
+      "step": 89755
+    },
+    {
+      "epoch": 14.64274061990212,
+      "grad_norm": 0.007262531202286482,
+      "learning_rate": 0.00020310954338197934,
+      "loss": 0.002,
+      "num_input_tokens_seen": 193892784,
+      "step": 89760
+    },
+    {
+      "epoch": 14.643556280587276,
+      "grad_norm": 0.0022280393168330193,
+      "learning_rate": 0.00020305227320032283,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 193904528,
+      "step": 89765
+    },
+    {
+      "epoch": 14.64437194127243,
+      "grad_norm": 0.0012667253613471985,
+      "learning_rate": 0.00020299500903668856,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 193914640,
+      "step": 89770
+    },
+    {
+      "epoch": 14.645187601957586,
+      "grad_norm": 0.0008011406753212214,
+      "learning_rate": 0.00020293775089223748,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 193926416,
+      "step": 89775
+    },
+    {
+      "epoch": 14.64600326264274,
+      "grad_norm": 0.0034976284950971603,
+      "learning_rate": 0.00020288049876812943,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 193937776,
+      "step": 89780
+    },
+    {
+      "epoch": 14.646818923327896,
+      "grad_norm": 0.003417432773858309,
+      "learning_rate": 0.00020282325266552536,
+      "loss": 0.1563,
+      "num_input_tokens_seen": 193948976,
+      "step": 89785
+    },
+    {
+      "epoch": 14.647634584013051,
+      "grad_norm": 0.014804985374212265,
+      "learning_rate": 0.0002027660125855847,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 193959408,
+      "step": 89790
+    },
+    {
+      "epoch": 14.648450244698205,
+      "grad_norm": 0.0008979029953479767,
+      "learning_rate": 0.00020270877852946817,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 193971536,
+      "step": 89795
+    },
+    {
+      "epoch": 14.649265905383361,
+      "grad_norm": 0.0022123174276202917,
+      "learning_rate": 0.0002026515504983351,
+      "loss": 0.007,
+      "num_input_tokens_seen": 193981392,
+      "step": 89800
+    },
+    {
+      "epoch": 14.650081566068515,
+      "grad_norm": 0.0016149893635883927,
+      "learning_rate": 0.00020259432849334592,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 193992592,
+      "step": 89805
+    },
+    {
+      "epoch": 14.65089722675367,
+      "grad_norm": 0.4601063132286072,
+      "learning_rate": 0.00020253711251565953,
+      "loss": 0.1179,
+      "num_input_tokens_seen": 194003280,
+      "step": 89810
+    },
+    {
+      "epoch": 14.651712887438826,
+      "grad_norm": 0.0017725087236613035,
+      "learning_rate": 0.00020247990256643634,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 194014160,
+      "step": 89815
+    },
+    {
+      "epoch": 14.65252854812398,
+      "grad_norm": 0.0016594589687883854,
+      "learning_rate": 0.000202422698646835,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 194025072,
+      "step": 89820
+    },
+    {
+      "epoch": 14.653344208809136,
+      "grad_norm": 0.004949385765939951,
+      "learning_rate": 0.00020236550075801535,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 194034384,
+      "step": 89825
+    },
+    {
+      "epoch": 14.65415986949429,
+      "grad_norm": 0.002924638567492366,
+      "learning_rate": 0.0002023083089011364,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 194046064,
+      "step": 89830
+    },
+    {
+      "epoch": 14.654975530179446,
+      "grad_norm": 0.5376624464988708,
+      "learning_rate": 0.00020225112307735717,
+      "loss": 0.1602,
+      "num_input_tokens_seen": 194056016,
+      "step": 89835
+    },
+    {
+      "epoch": 14.655791190864601,
+      "grad_norm": 0.0024497162085026503,
+      "learning_rate": 0.00020219394328783668,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 194067056,
+      "step": 89840
+    },
+    {
+      "epoch": 14.656606851549755,
+      "grad_norm": 0.057129036635160446,
+      "learning_rate": 0.00020213676953373372,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 194077712,
+      "step": 89845
+    },
+    {
+      "epoch": 14.65742251223491,
+      "grad_norm": 0.006286917254328728,
+      "learning_rate": 0.00020207960181620706,
+      "loss": 0.003,
+      "num_input_tokens_seen": 194087312,
+      "step": 89850
+    },
+    {
+      "epoch": 14.658238172920065,
+      "grad_norm": 0.05066222324967384,
+      "learning_rate": 0.00020202244013641513,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 194098800,
+      "step": 89855
+    },
+    {
+      "epoch": 14.65905383360522,
+      "grad_norm": 0.004280565306544304,
+      "learning_rate": 0.0002019652844955165,
+      "loss": 0.002,
+      "num_input_tokens_seen": 194110704,
+      "step": 89860
+    },
+    {
+      "epoch": 14.659869494290374,
+      "grad_norm": 0.0028599584475159645,
+      "learning_rate": 0.00020190813489466943,
+      "loss": 0.1685,
+      "num_input_tokens_seen": 194122000,
+      "step": 89865
+    },
+    {
+      "epoch": 14.66068515497553,
+      "grad_norm": 0.003662576898932457,
+      "learning_rate": 0.00020185099133503216,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 194132336,
+      "step": 89870
+    },
+    {
+      "epoch": 14.661500815660686,
+      "grad_norm": 0.0418967604637146,
+      "learning_rate": 0.00020179385381776283,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 194144080,
+      "step": 89875
+    },
+    {
+      "epoch": 14.66231647634584,
+      "grad_norm": 0.009954468347132206,
+      "learning_rate": 0.00020173672234401928,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 194153200,
+      "step": 89880
+    },
+    {
+      "epoch": 14.663132137030995,
+      "grad_norm": 0.023417534306645393,
+      "learning_rate": 0.00020167959691495946,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 194165104,
+      "step": 89885
+    },
+    {
+      "epoch": 14.66394779771615,
+      "grad_norm": 0.008343107998371124,
+      "learning_rate": 0.00020162247753174105,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 194175600,
+      "step": 89890
+    },
+    {
+      "epoch": 14.664763458401305,
+      "grad_norm": 0.006546036805957556,
+      "learning_rate": 0.00020156536419552168,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 194184880,
+      "step": 89895
+    },
+    {
+      "epoch": 14.66557911908646,
+      "grad_norm": 0.005429636221379042,
+      "learning_rate": 0.00020150825690745883,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 194195152,
+      "step": 89900
+    },
+    {
+      "epoch": 14.666394779771615,
+      "grad_norm": 0.003119829809293151,
+      "learning_rate": 0.00020145115566870975,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 194205744,
+      "step": 89905
+    },
+    {
+      "epoch": 14.66721044045677,
+      "grad_norm": 0.14407505095005035,
+      "learning_rate": 0.00020139406048043173,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 194215920,
+      "step": 89910
+    },
+    {
+      "epoch": 14.668026101141924,
+      "grad_norm": 0.1059744581580162,
+      "learning_rate": 0.00020133697134378176,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 194226736,
+      "step": 89915
+    },
+    {
+      "epoch": 14.66884176182708,
+      "grad_norm": 0.011918950825929642,
+      "learning_rate": 0.0002012798882599173,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 194238320,
+      "step": 89920
+    },
+    {
+      "epoch": 14.669657422512234,
+      "grad_norm": 0.05558808147907257,
+      "learning_rate": 0.00020122281122999443,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 194249744,
+      "step": 89925
+    },
+    {
+      "epoch": 14.67047308319739,
+      "grad_norm": 0.0026128387544304132,
+      "learning_rate": 0.00020116574025517053,
+      "loss": 0.0203,
+      "num_input_tokens_seen": 194259664,
+      "step": 89930
+    },
+    {
+      "epoch": 14.671288743882545,
+      "grad_norm": 0.5910449028015137,
+      "learning_rate": 0.00020110867533660204,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 194271600,
+      "step": 89935
+    },
+    {
+      "epoch": 14.6721044045677,
+      "grad_norm": 0.005343761760741472,
+      "learning_rate": 0.00020105161647544534,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 194281840,
+      "step": 89940
+    },
+    {
+      "epoch": 14.672920065252855,
+      "grad_norm": 0.016192588955163956,
+      "learning_rate": 0.00020099456367285695,
+      "loss": 0.1246,
+      "num_input_tokens_seen": 194292816,
+      "step": 89945
+    },
+    {
+      "epoch": 14.673735725938009,
+      "grad_norm": 0.009091212414205074,
+      "learning_rate": 0.00020093751692999302,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 194304176,
+      "step": 89950
+    },
+    {
+      "epoch": 14.674551386623165,
+      "grad_norm": 0.06575567275285721,
+      "learning_rate": 0.00020088047624800966,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 194314128,
+      "step": 89955
+    },
+    {
+      "epoch": 14.67536704730832,
+      "grad_norm": 0.07140957564115524,
+      "learning_rate": 0.00020082344162806293,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 194324976,
+      "step": 89960
+    },
+    {
+      "epoch": 14.676182707993474,
+      "grad_norm": 0.05011884495615959,
+      "learning_rate": 0.00020076641307130872,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 194336112,
+      "step": 89965
+    },
+    {
+      "epoch": 14.67699836867863,
+      "grad_norm": 0.007385524921119213,
+      "learning_rate": 0.00020070939057890275,
+      "loss": 0.0217,
+      "num_input_tokens_seen": 194347728,
+      "step": 89970
+    },
+    {
+      "epoch": 14.677814029363784,
+      "grad_norm": 0.01539340615272522,
+      "learning_rate": 0.00020065237415200062,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 194358576,
+      "step": 89975
+    },
+    {
+      "epoch": 14.67862969004894,
+      "grad_norm": 0.03188261017203331,
+      "learning_rate": 0.00020059536379175792,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 194368464,
+      "step": 89980
+    },
+    {
+      "epoch": 14.679445350734095,
+      "grad_norm": 0.8307998180389404,
+      "learning_rate": 0.0002005383594993299,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 194378352,
+      "step": 89985
+    },
+    {
+      "epoch": 14.68026101141925,
+      "grad_norm": 0.02968890219926834,
+      "learning_rate": 0.00020048136127587203,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 194388720,
+      "step": 89990
+    },
+    {
+      "epoch": 14.681076672104405,
+      "grad_norm": 0.002068957546725869,
+      "learning_rate": 0.0002004243691225393,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 194400080,
+      "step": 89995
+    },
+    {
+      "epoch": 14.681892332789559,
+      "grad_norm": 0.008313358761370182,
+      "learning_rate": 0.00020036738304048674,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 194410832,
+      "step": 90000
+    },
+    {
+      "epoch": 14.682707993474715,
+      "grad_norm": 0.013613566756248474,
+      "learning_rate": 0.00020031040303086932,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 194421840,
+      "step": 90005
+    },
+    {
+      "epoch": 14.68352365415987,
+      "grad_norm": 0.0009858844568952918,
+      "learning_rate": 0.00020025342909484173,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 194432752,
+      "step": 90010
+    },
+    {
+      "epoch": 14.684339314845024,
+      "grad_norm": 0.06172553449869156,
+      "learning_rate": 0.00020019646123355868,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 194443344,
+      "step": 90015
+    },
+    {
+      "epoch": 14.68515497553018,
+      "grad_norm": 0.009558094665408134,
+      "learning_rate": 0.00020013949944817466,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 194454544,
+      "step": 90020
+    },
+    {
+      "epoch": 14.685970636215334,
+      "grad_norm": 0.021997565403580666,
+      "learning_rate": 0.00020008254373984408,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 194465136,
+      "step": 90025
+    },
+    {
+      "epoch": 14.68678629690049,
+      "grad_norm": 0.004823493305593729,
+      "learning_rate": 0.00020002559410972121,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 194476016,
+      "step": 90030
+    },
+    {
+      "epoch": 14.687601957585644,
+      "grad_norm": 0.009510107338428497,
+      "learning_rate": 0.00019996865055896008,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 194486320,
+      "step": 90035
+    },
+    {
+      "epoch": 14.6884176182708,
+      "grad_norm": 0.0036022786516696215,
+      "learning_rate": 0.0001999117130887152,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 194497232,
+      "step": 90040
+    },
+    {
+      "epoch": 14.689233278955955,
+      "grad_norm": 0.01022917777299881,
+      "learning_rate": 0.00019985478170013977,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 194508784,
+      "step": 90045
+    },
+    {
+      "epoch": 14.690048939641109,
+      "grad_norm": 0.17686966061592102,
+      "learning_rate": 0.00019979785639438836,
+      "loss": 0.0376,
+      "num_input_tokens_seen": 194519120,
+      "step": 90050
+    },
+    {
+      "epoch": 14.690864600326265,
+      "grad_norm": 0.08314191550016403,
+      "learning_rate": 0.00019974093717261383,
+      "loss": 0.004,
+      "num_input_tokens_seen": 194528144,
+      "step": 90055
+    },
+    {
+      "epoch": 14.691680261011419,
+      "grad_norm": 0.057678647339344025,
+      "learning_rate": 0.0001996840240359703,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 194539344,
+      "step": 90060
+    },
+    {
+      "epoch": 14.692495921696574,
+      "grad_norm": 0.015334702096879482,
+      "learning_rate": 0.00019962711698561097,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 194550160,
+      "step": 90065
+    },
+    {
+      "epoch": 14.69331158238173,
+      "grad_norm": 0.011460235342383385,
+      "learning_rate": 0.0001995702160226892,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 194561936,
+      "step": 90070
+    },
+    {
+      "epoch": 14.694127243066884,
+      "grad_norm": 0.0077322013676166534,
+      "learning_rate": 0.00019951332114835808,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 194572368,
+      "step": 90075
+    },
+    {
+      "epoch": 14.69494290375204,
+      "grad_norm": 0.008056914433836937,
+      "learning_rate": 0.00019945643236377074,
+      "loss": 0.002,
+      "num_input_tokens_seen": 194583152,
+      "step": 90080
+    },
+    {
+      "epoch": 14.695758564437194,
+      "grad_norm": 0.014877298846840858,
+      "learning_rate": 0.00019939954967008005,
+      "loss": 0.1314,
+      "num_input_tokens_seen": 194594768,
+      "step": 90085
+    },
+    {
+      "epoch": 14.69657422512235,
+      "grad_norm": 0.015234891325235367,
+      "learning_rate": 0.00019934267306843885,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 194606032,
+      "step": 90090
+    },
+    {
+      "epoch": 14.697389885807503,
+      "grad_norm": 0.02361419051885605,
+      "learning_rate": 0.0001992858025599998,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 194617328,
+      "step": 90095
+    },
+    {
+      "epoch": 14.698205546492659,
+      "grad_norm": 0.006071890238672495,
+      "learning_rate": 0.00019922893814591541,
+      "loss": 0.005,
+      "num_input_tokens_seen": 194627920,
+      "step": 90100
+    },
+    {
+      "epoch": 14.699021207177815,
+      "grad_norm": 0.0035932869650423527,
+      "learning_rate": 0.00019917207982733814,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 194637936,
+      "step": 90105
+    },
+    {
+      "epoch": 14.699836867862969,
+      "grad_norm": 0.0846271961927414,
+      "learning_rate": 0.00019911522760542028,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 194648688,
+      "step": 90110
+    },
+    {
+      "epoch": 14.700652528548124,
+      "grad_norm": 0.0042757634073495865,
+      "learning_rate": 0.0001990583814813141,
+      "loss": 0.003,
+      "num_input_tokens_seen": 194659184,
+      "step": 90115
+    },
+    {
+      "epoch": 14.701468189233278,
+      "grad_norm": 0.0037720445543527603,
+      "learning_rate": 0.00019900154145617157,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 194670384,
+      "step": 90120
+    },
+    {
+      "epoch": 14.702283849918434,
+      "grad_norm": 0.002661908743903041,
+      "learning_rate": 0.00019894470753114456,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 194680400,
+      "step": 90125
+    },
+    {
+      "epoch": 14.70309951060359,
+      "grad_norm": 0.31255388259887695,
+      "learning_rate": 0.00019888787970738508,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 194691152,
+      "step": 90130
+    },
+    {
+      "epoch": 14.703915171288743,
+      "grad_norm": 0.0013531736331060529,
+      "learning_rate": 0.00019883105798604468,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 194701744,
+      "step": 90135
+    },
+    {
+      "epoch": 14.7047308319739,
+      "grad_norm": 0.07724149525165558,
+      "learning_rate": 0.00019877424236827473,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 194713488,
+      "step": 90140
+    },
+    {
+      "epoch": 14.705546492659053,
+      "grad_norm": 0.00285876146517694,
+      "learning_rate": 0.00019871743285522725,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 194723664,
+      "step": 90145
+    },
+    {
+      "epoch": 14.706362153344209,
+      "grad_norm": 0.5335696339607239,
+      "learning_rate": 0.0001986606294480529,
+      "loss": 0.0215,
+      "num_input_tokens_seen": 194733712,
+      "step": 90150
+    },
+    {
+      "epoch": 14.707177814029365,
+      "grad_norm": 0.007888701744377613,
+      "learning_rate": 0.00019860383214790345,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 194743504,
+      "step": 90155
+    },
+    {
+      "epoch": 14.707993474714518,
+      "grad_norm": 0.005462154280394316,
+      "learning_rate": 0.0001985470409559294,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 194755248,
+      "step": 90160
+    },
+    {
+      "epoch": 14.708809135399674,
+      "grad_norm": 0.0036751835141330957,
+      "learning_rate": 0.00019849025587328228,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 194766128,
+      "step": 90165
+    },
+    {
+      "epoch": 14.709624796084828,
+      "grad_norm": 0.22061067819595337,
+      "learning_rate": 0.00019843347690111235,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 194777360,
+      "step": 90170
+    },
+    {
+      "epoch": 14.710440456769984,
+      "grad_norm": 0.032692890614271164,
+      "learning_rate": 0.00019837670404057085,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 194788656,
+      "step": 90175
+    },
+    {
+      "epoch": 14.71125611745514,
+      "grad_norm": 0.004137896467000246,
+      "learning_rate": 0.00019831993729280774,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 194798096,
+      "step": 90180
+    },
+    {
+      "epoch": 14.712071778140293,
+      "grad_norm": 0.0014908617595210671,
+      "learning_rate": 0.0001982631766589742,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 194809456,
+      "step": 90185
+    },
+    {
+      "epoch": 14.71288743882545,
+      "grad_norm": 0.01189829409122467,
+      "learning_rate": 0.00019820642214021979,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 194820080,
+      "step": 90190
+    },
+    {
+      "epoch": 14.713703099510603,
+      "grad_norm": 0.47292107343673706,
+      "learning_rate": 0.00019814967373769544,
+      "loss": 0.0814,
+      "num_input_tokens_seen": 194830320,
+      "step": 90195
+    },
+    {
+      "epoch": 14.714518760195759,
+      "grad_norm": 0.001293840236030519,
+      "learning_rate": 0.00019809293145255048,
+      "loss": 0.079,
+      "num_input_tokens_seen": 194841776,
+      "step": 90200
+    },
+    {
+      "epoch": 14.715334420880914,
+      "grad_norm": 0.14460763335227966,
+      "learning_rate": 0.00019803619528593547,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 194851408,
+      "step": 90205
+    },
+    {
+      "epoch": 14.716150081566068,
+      "grad_norm": 0.03119935840368271,
+      "learning_rate": 0.00019797946523900006,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 194861200,
+      "step": 90210
+    },
+    {
+      "epoch": 14.716965742251224,
+      "grad_norm": 0.020736441016197205,
+      "learning_rate": 0.0001979227413128939,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 194871248,
+      "step": 90215
+    },
+    {
+      "epoch": 14.717781402936378,
+      "grad_norm": 0.8582524657249451,
+      "learning_rate": 0.0001978660235087666,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 194882416,
+      "step": 90220
+    },
+    {
+      "epoch": 14.718597063621534,
+      "grad_norm": 0.006416116375476122,
+      "learning_rate": 0.00019780931182776762,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 194892816,
+      "step": 90225
+    },
+    {
+      "epoch": 14.719412724306688,
+      "grad_norm": 0.10771431028842926,
+      "learning_rate": 0.0001977526062710463,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 194904176,
+      "step": 90230
+    },
+    {
+      "epoch": 14.720228384991843,
+      "grad_norm": 0.3856275677680969,
+      "learning_rate": 0.0001976959068397518,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 194916112,
+      "step": 90235
+    },
+    {
+      "epoch": 14.721044045676999,
+      "grad_norm": 0.0013380798045545816,
+      "learning_rate": 0.00019763921353503335,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 194926416,
+      "step": 90240
+    },
+    {
+      "epoch": 14.721859706362153,
+      "grad_norm": 0.031052274629473686,
+      "learning_rate": 0.0001975825263580397,
+      "loss": 0.003,
+      "num_input_tokens_seen": 194936464,
+      "step": 90245
+    },
+    {
+      "epoch": 14.722675367047309,
+      "grad_norm": 0.1070781797170639,
+      "learning_rate": 0.00019752584530991984,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 194947376,
+      "step": 90250
+    },
+    {
+      "epoch": 14.723491027732463,
+      "grad_norm": 0.016105569899082184,
+      "learning_rate": 0.00019746917039182226,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 194957456,
+      "step": 90255
+    },
+    {
+      "epoch": 14.724306688417618,
+      "grad_norm": 0.6800005435943604,
+      "learning_rate": 0.0001974125016048961,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 194969200,
+      "step": 90260
+    },
+    {
+      "epoch": 14.725122349102774,
+      "grad_norm": 0.00817457027733326,
+      "learning_rate": 0.0001973558389502891,
+      "loss": 0.005,
+      "num_input_tokens_seen": 194980560,
+      "step": 90265
+    },
+    {
+      "epoch": 14.725938009787928,
+      "grad_norm": 0.02452375739812851,
+      "learning_rate": 0.0001972991824291503,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 194989968,
+      "step": 90270
+    },
+    {
+      "epoch": 14.726753670473084,
+      "grad_norm": 0.018420519307255745,
+      "learning_rate": 0.00019724253204262717,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 195001264,
+      "step": 90275
+    },
+    {
+      "epoch": 14.727569331158238,
+      "grad_norm": 0.005502955988049507,
+      "learning_rate": 0.00019718588779186864,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 195014000,
+      "step": 90280
+    },
+    {
+      "epoch": 14.728384991843393,
+      "grad_norm": 0.0030444420408457518,
+      "learning_rate": 0.00019712924967802182,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 195025712,
+      "step": 90285
+    },
+    {
+      "epoch": 14.729200652528547,
+      "grad_norm": 0.004858762491494417,
+      "learning_rate": 0.00019707261770223532,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 195036912,
+      "step": 90290
+    },
+    {
+      "epoch": 14.730016313213703,
+      "grad_norm": 0.0944218784570694,
+      "learning_rate": 0.00019701599186565621,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 195048112,
+      "step": 90295
+    },
+    {
+      "epoch": 14.730831973898859,
+      "grad_norm": 0.004670348484069109,
+      "learning_rate": 0.00019695937216943272,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 195058736,
+      "step": 90300
+    },
+    {
+      "epoch": 14.731647634584013,
+      "grad_norm": 0.05685482174158096,
+      "learning_rate": 0.00019690275861471168,
+      "loss": 0.004,
+      "num_input_tokens_seen": 195068144,
+      "step": 90305
+    },
+    {
+      "epoch": 14.732463295269168,
+      "grad_norm": 0.004699467681348324,
+      "learning_rate": 0.00019684615120264104,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 195078608,
+      "step": 90310
+    },
+    {
+      "epoch": 14.733278955954322,
+      "grad_norm": 0.011271055787801743,
+      "learning_rate": 0.00019678954993436736,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 195089072,
+      "step": 90315
+    },
+    {
+      "epoch": 14.734094616639478,
+      "grad_norm": 0.4532552659511566,
+      "learning_rate": 0.00019673295481103847,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 195101648,
+      "step": 90320
+    },
+    {
+      "epoch": 14.734910277324634,
+      "grad_norm": 0.017157189548015594,
+      "learning_rate": 0.00019667636583380066,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 195113520,
+      "step": 90325
+    },
+    {
+      "epoch": 14.735725938009788,
+      "grad_norm": 0.0010682785650715232,
+      "learning_rate": 0.0001966197830038014,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 195125008,
+      "step": 90330
+    },
+    {
+      "epoch": 14.736541598694943,
+      "grad_norm": 0.007584839593619108,
+      "learning_rate": 0.00019656320632218676,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 195136208,
+      "step": 90335
+    },
+    {
+      "epoch": 14.737357259380097,
+      "grad_norm": 0.018214622512459755,
+      "learning_rate": 0.00019650663579010401,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 195145264,
+      "step": 90340
+    },
+    {
+      "epoch": 14.738172920065253,
+      "grad_norm": 0.031968094408512115,
+      "learning_rate": 0.00019645007140869897,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 195156912,
+      "step": 90345
+    },
+    {
+      "epoch": 14.738988580750409,
+      "grad_norm": 0.009707508608698845,
+      "learning_rate": 0.00019639351317911853,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 195168464,
+      "step": 90350
+    },
+    {
+      "epoch": 14.739804241435563,
+      "grad_norm": 0.5486598610877991,
+      "learning_rate": 0.00019633696110250864,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 195179888,
+      "step": 90355
+    },
+    {
+      "epoch": 14.740619902120718,
+      "grad_norm": 0.002595171332359314,
+      "learning_rate": 0.0001962804151800155,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 195190352,
+      "step": 90360
+    },
+    {
+      "epoch": 14.741435562805872,
+      "grad_norm": 0.04814111813902855,
+      "learning_rate": 0.00019622387541278497,
+      "loss": 0.002,
+      "num_input_tokens_seen": 195200880,
+      "step": 90365
+    },
+    {
+      "epoch": 14.742251223491028,
+      "grad_norm": 0.00787262711673975,
+      "learning_rate": 0.000196167341801963,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 195211600,
+      "step": 90370
+    },
+    {
+      "epoch": 14.743066884176184,
+      "grad_norm": 0.001716782571747899,
+      "learning_rate": 0.00019611081434869532,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 195222480,
+      "step": 90375
+    },
+    {
+      "epoch": 14.743882544861338,
+      "grad_norm": 0.004030111711472273,
+      "learning_rate": 0.00019605429305412746,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 195232976,
+      "step": 90380
+    },
+    {
+      "epoch": 14.744698205546493,
+      "grad_norm": 0.0008914527716115117,
+      "learning_rate": 0.00019599777791940497,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 195243856,
+      "step": 90385
+    },
+    {
+      "epoch": 14.745513866231647,
+      "grad_norm": 0.016651881858706474,
+      "learning_rate": 0.00019594126894567315,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 195255216,
+      "step": 90390
+    },
+    {
+      "epoch": 14.746329526916803,
+      "grad_norm": 0.009090129286050797,
+      "learning_rate": 0.00019588476613407725,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 195265712,
+      "step": 90395
+    },
+    {
+      "epoch": 14.747145187601957,
+      "grad_norm": 0.000620881502982229,
+      "learning_rate": 0.00019582826948576215,
+      "loss": 0.001,
+      "num_input_tokens_seen": 195276944,
+      "step": 90400
+    },
+    {
+      "epoch": 14.747960848287113,
+      "grad_norm": 0.004584138281643391,
+      "learning_rate": 0.00019577177900187342,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 195285136,
+      "step": 90405
+    },
+    {
+      "epoch": 14.748776508972268,
+      "grad_norm": 0.0013352871173992753,
+      "learning_rate": 0.0001957152946835552,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 195294832,
+      "step": 90410
+    },
+    {
+      "epoch": 14.749592169657422,
+      "grad_norm": 0.013338768854737282,
+      "learning_rate": 0.00019565881653195284,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 195306384,
+      "step": 90415
+    },
+    {
+      "epoch": 14.750407830342578,
+      "grad_norm": 0.009870841167867184,
+      "learning_rate": 0.00019560234454821034,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 195317488,
+      "step": 90420
+    },
+    {
+      "epoch": 14.751223491027732,
+      "grad_norm": 0.007064263802021742,
+      "learning_rate": 0.0001955458787334728,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 195327824,
+      "step": 90425
+    },
+    {
+      "epoch": 14.752039151712887,
+      "grad_norm": 0.0038319004233926535,
+      "learning_rate": 0.00019548941908888396,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 195338288,
+      "step": 90430
+    },
+    {
+      "epoch": 14.752854812398043,
+      "grad_norm": 0.011020504869520664,
+      "learning_rate": 0.00019543296561558865,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 195347760,
+      "step": 90435
+    },
+    {
+      "epoch": 14.753670473083197,
+      "grad_norm": 0.10672824084758759,
+      "learning_rate": 0.0001953765183147303,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 195359120,
+      "step": 90440
+    },
+    {
+      "epoch": 14.754486133768353,
+      "grad_norm": 0.005035056732594967,
+      "learning_rate": 0.00019532007718745366,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 195369872,
+      "step": 90445
+    },
+    {
+      "epoch": 14.755301794453507,
+      "grad_norm": 0.027038784697651863,
+      "learning_rate": 0.00019526364223490172,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 195380816,
+      "step": 90450
+    },
+    {
+      "epoch": 14.756117455138662,
+      "grad_norm": 0.009903905913233757,
+      "learning_rate": 0.00019520721345821907,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 195392080,
+      "step": 90455
+    },
+    {
+      "epoch": 14.756933115823816,
+      "grad_norm": 0.013743668794631958,
+      "learning_rate": 0.00019515079085854854,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 195403408,
+      "step": 90460
+    },
+    {
+      "epoch": 14.757748776508972,
+      "grad_norm": 0.002215584507212043,
+      "learning_rate": 0.00019509437443703415,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 195414480,
+      "step": 90465
+    },
+    {
+      "epoch": 14.758564437194128,
+      "grad_norm": 0.021999172866344452,
+      "learning_rate": 0.00019503796419481908,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 195425520,
+      "step": 90470
+    },
+    {
+      "epoch": 14.759380097879282,
+      "grad_norm": 0.01619911380112171,
+      "learning_rate": 0.00019498156013304647,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 195435792,
+      "step": 90475
+    },
+    {
+      "epoch": 14.760195758564437,
+      "grad_norm": 0.022966833785176277,
+      "learning_rate": 0.0001949251622528595,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 195446512,
+      "step": 90480
+    },
+    {
+      "epoch": 14.761011419249591,
+      "grad_norm": 0.06447285413742065,
+      "learning_rate": 0.0001948687705554012,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 195456656,
+      "step": 90485
+    },
+    {
+      "epoch": 14.761827079934747,
+      "grad_norm": 0.005138483829796314,
+      "learning_rate": 0.00019481238504181431,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 195468336,
+      "step": 90490
+    },
+    {
+      "epoch": 14.762642740619903,
+      "grad_norm": 0.0013741077855229378,
+      "learning_rate": 0.0001947560057132416,
+      "loss": 0.156,
+      "num_input_tokens_seen": 195479056,
+      "step": 90495
+    },
+    {
+      "epoch": 14.763458401305057,
+      "grad_norm": 0.0013339656870812178,
+      "learning_rate": 0.00019469963257082564,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 195490512,
+      "step": 90500
+    },
+    {
+      "epoch": 14.764274061990212,
+      "grad_norm": 0.4919218122959137,
+      "learning_rate": 0.00019464326561570894,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 195502704,
+      "step": 90505
+    },
+    {
+      "epoch": 14.765089722675366,
+      "grad_norm": 0.0020044157281517982,
+      "learning_rate": 0.0001945869048490338,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 195512816,
+      "step": 90510
+    },
+    {
+      "epoch": 14.765905383360522,
+      "grad_norm": 0.010413050651550293,
+      "learning_rate": 0.00019453055027194256,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 195524592,
+      "step": 90515
+    },
+    {
+      "epoch": 14.766721044045678,
+      "grad_norm": 0.12600289285182953,
+      "learning_rate": 0.00019447420188557714,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 195535024,
+      "step": 90520
+    },
+    {
+      "epoch": 14.767536704730832,
+      "grad_norm": 0.0043631913140416145,
+      "learning_rate": 0.00019441785969107967,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 195546384,
+      "step": 90525
+    },
+    {
+      "epoch": 14.768352365415987,
+      "grad_norm": 0.0018164021894335747,
+      "learning_rate": 0.00019436152368959193,
+      "loss": 0.0518,
+      "num_input_tokens_seen": 195556240,
+      "step": 90530
+    },
+    {
+      "epoch": 14.769168026101141,
+      "grad_norm": 0.005169565323740244,
+      "learning_rate": 0.0001943051938822556,
+      "loss": 0.016,
+      "num_input_tokens_seen": 195566864,
+      "step": 90535
+    },
+    {
+      "epoch": 14.769983686786297,
+      "grad_norm": 0.0052770026959478855,
+      "learning_rate": 0.00019424887027021237,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 195578672,
+      "step": 90540
+    },
+    {
+      "epoch": 14.770799347471453,
+      "grad_norm": 0.004595869220793247,
+      "learning_rate": 0.00019419255285460347,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 195588496,
+      "step": 90545
+    },
+    {
+      "epoch": 14.771615008156607,
+      "grad_norm": 0.3980657756328583,
+      "learning_rate": 0.00019413624163657072,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 195598160,
+      "step": 90550
+    },
+    {
+      "epoch": 14.772430668841762,
+      "grad_norm": 0.01790624111890793,
+      "learning_rate": 0.00019407993661725475,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 195608432,
+      "step": 90555
+    },
+    {
+      "epoch": 14.773246329526916,
+      "grad_norm": 0.1566634178161621,
+      "learning_rate": 0.0001940236377977973,
+      "loss": 0.137,
+      "num_input_tokens_seen": 195619504,
+      "step": 90560
+    },
+    {
+      "epoch": 14.774061990212072,
+      "grad_norm": 1.9931586980819702,
+      "learning_rate": 0.00019396734517933867,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 195629968,
+      "step": 90565
+    },
+    {
+      "epoch": 14.774877650897226,
+      "grad_norm": 0.013670021668076515,
+      "learning_rate": 0.00019391105876302012,
+      "loss": 0.1662,
+      "num_input_tokens_seen": 195642320,
+      "step": 90570
+    },
+    {
+      "epoch": 14.775693311582382,
+      "grad_norm": 0.00712958350777626,
+      "learning_rate": 0.00019385477854998235,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 195651984,
+      "step": 90575
+    },
+    {
+      "epoch": 14.776508972267537,
+      "grad_norm": 0.45859119296073914,
+      "learning_rate": 0.00019379850454136582,
+      "loss": 0.125,
+      "num_input_tokens_seen": 195662672,
+      "step": 90580
+    },
+    {
+      "epoch": 14.777324632952691,
+      "grad_norm": 0.09679024666547775,
+      "learning_rate": 0.00019374223673831103,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 195674640,
+      "step": 90585
+    },
+    {
+      "epoch": 14.778140293637847,
+      "grad_norm": 0.01906924694776535,
+      "learning_rate": 0.00019368597514195834,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 195685424,
+      "step": 90590
+    },
+    {
+      "epoch": 14.778955954323001,
+      "grad_norm": 0.005224125925451517,
+      "learning_rate": 0.00019362971975344796,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 195696944,
+      "step": 90595
+    },
+    {
+      "epoch": 14.779771615008157,
+      "grad_norm": 0.004919872619211674,
+      "learning_rate": 0.00019357347057391994,
+      "loss": 0.005,
+      "num_input_tokens_seen": 195707920,
+      "step": 90600
+    },
+    {
+      "epoch": 14.780587275693312,
+      "grad_norm": 0.014207074418663979,
+      "learning_rate": 0.0001935172276045143,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 195718544,
+      "step": 90605
+    },
+    {
+      "epoch": 14.781402936378466,
+      "grad_norm": 0.09853319078683853,
+      "learning_rate": 0.0001934609908463708,
+      "loss": 0.1058,
+      "num_input_tokens_seen": 195728304,
+      "step": 90610
+    },
+    {
+      "epoch": 14.782218597063622,
+      "grad_norm": 0.011572792194783688,
+      "learning_rate": 0.00019340476030062925,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 195739344,
+      "step": 90615
+    },
+    {
+      "epoch": 14.783034257748776,
+      "grad_norm": 0.003625387093052268,
+      "learning_rate": 0.00019334853596842915,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 195749936,
+      "step": 90620
+    },
+    {
+      "epoch": 14.783849918433932,
+      "grad_norm": 0.0010916964383795857,
+      "learning_rate": 0.00019329231785090994,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 195760048,
+      "step": 90625
+    },
+    {
+      "epoch": 14.784665579119086,
+      "grad_norm": 0.002343985252082348,
+      "learning_rate": 0.0001932361059492111,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 195771632,
+      "step": 90630
+    },
+    {
+      "epoch": 14.785481239804241,
+      "grad_norm": 0.009995860978960991,
+      "learning_rate": 0.00019317990026447164,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 195781520,
+      "step": 90635
+    },
+    {
+      "epoch": 14.786296900489397,
+      "grad_norm": 0.0010385174537077546,
+      "learning_rate": 0.00019312370079783075,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 195793648,
+      "step": 90640
+    },
+    {
+      "epoch": 14.78711256117455,
+      "grad_norm": 0.055788811296224594,
+      "learning_rate": 0.0001930675075504274,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 195802928,
+      "step": 90645
+    },
+    {
+      "epoch": 14.787928221859707,
+      "grad_norm": 0.010686542838811874,
+      "learning_rate": 0.00019301132052340031,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 195814352,
+      "step": 90650
+    },
+    {
+      "epoch": 14.78874388254486,
+      "grad_norm": 0.014930814504623413,
+      "learning_rate": 0.0001929551397178883,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 195825232,
+      "step": 90655
+    },
+    {
+      "epoch": 14.789559543230016,
+      "grad_norm": 0.00482224440202117,
+      "learning_rate": 0.00019289896513502991,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 195836880,
+      "step": 90660
+    },
+    {
+      "epoch": 14.790375203915172,
+      "grad_norm": 0.7234705090522766,
+      "learning_rate": 0.00019284279677596355,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 195847952,
+      "step": 90665
+    },
+    {
+      "epoch": 14.791190864600326,
+      "grad_norm": 0.005445053800940514,
+      "learning_rate": 0.0001927866346418276,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 195858960,
+      "step": 90670
+    },
+    {
+      "epoch": 14.792006525285482,
+      "grad_norm": 0.8060768842697144,
+      "learning_rate": 0.00019273047873376005,
+      "loss": 0.0477,
+      "num_input_tokens_seen": 195869264,
+      "step": 90675
+    },
+    {
+      "epoch": 14.792822185970635,
+      "grad_norm": 0.3666798770427704,
+      "learning_rate": 0.00019267432905289945,
+      "loss": 0.0736,
+      "num_input_tokens_seen": 195880368,
+      "step": 90680
+    },
+    {
+      "epoch": 14.793637846655791,
+      "grad_norm": 0.03639459237456322,
+      "learning_rate": 0.00019261818560038313,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 195890416,
+      "step": 90685
+    },
+    {
+      "epoch": 14.794453507340947,
+      "grad_norm": 0.010454765520989895,
+      "learning_rate": 0.00019256204837734937,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 195900464,
+      "step": 90690
+    },
+    {
+      "epoch": 14.7952691680261,
+      "grad_norm": 0.004342780914157629,
+      "learning_rate": 0.00019250591738493572,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 195911536,
+      "step": 90695
+    },
+    {
+      "epoch": 14.796084828711257,
+      "grad_norm": 0.055346082895994186,
+      "learning_rate": 0.00019244979262427974,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 195922704,
+      "step": 90700
+    },
+    {
+      "epoch": 14.79690048939641,
+      "grad_norm": 0.015100730583071709,
+      "learning_rate": 0.00019239367409651893,
+      "loss": 0.0173,
+      "num_input_tokens_seen": 195933296,
+      "step": 90705
+    },
+    {
+      "epoch": 14.797716150081566,
+      "grad_norm": 0.015843048691749573,
+      "learning_rate": 0.00019233756180279043,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 195942768,
+      "step": 90710
+    },
+    {
+      "epoch": 14.798531810766722,
+      "grad_norm": 0.012738611549139023,
+      "learning_rate": 0.00019228145574423162,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 195953808,
+      "step": 90715
+    },
+    {
+      "epoch": 14.799347471451876,
+      "grad_norm": 0.6077333688735962,
+      "learning_rate": 0.00019222535592197944,
+      "loss": 0.1671,
+      "num_input_tokens_seen": 195964464,
+      "step": 90720
+    },
+    {
+      "epoch": 14.800163132137031,
+      "grad_norm": 0.30826112627983093,
+      "learning_rate": 0.00019216926233717085,
+      "loss": 0.0347,
+      "num_input_tokens_seen": 195975664,
+      "step": 90725
+    },
+    {
+      "epoch": 14.800978792822185,
+      "grad_norm": 0.13063177466392517,
+      "learning_rate": 0.0001921131749909427,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 195986320,
+      "step": 90730
+    },
+    {
+      "epoch": 14.801794453507341,
+      "grad_norm": 0.014707125723361969,
+      "learning_rate": 0.00019205709388443165,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 195996784,
+      "step": 90735
+    },
+    {
+      "epoch": 14.802610114192497,
+      "grad_norm": 0.003288878360763192,
+      "learning_rate": 0.00019200101901877426,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 196008304,
+      "step": 90740
+    },
+    {
+      "epoch": 14.80342577487765,
+      "grad_norm": 0.011088044382631779,
+      "learning_rate": 0.0001919449503951069,
+      "loss": 0.0785,
+      "num_input_tokens_seen": 196018864,
+      "step": 90745
+    },
+    {
+      "epoch": 14.804241435562806,
+      "grad_norm": 0.0074303289875388145,
+      "learning_rate": 0.00019188888801456594,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 196029648,
+      "step": 90750
+    },
+    {
+      "epoch": 14.80505709624796,
+      "grad_norm": 0.0014132543001323938,
+      "learning_rate": 0.0001918328318782875,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 196039568,
+      "step": 90755
+    },
+    {
+      "epoch": 14.805872756933116,
+      "grad_norm": 0.013476034626364708,
+      "learning_rate": 0.00019177678198740766,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 196051280,
+      "step": 90760
+    },
+    {
+      "epoch": 14.80668841761827,
+      "grad_norm": 0.03059094212949276,
+      "learning_rate": 0.00019172073834306235,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 196062928,
+      "step": 90765
+    },
+    {
+      "epoch": 14.807504078303426,
+      "grad_norm": 0.04523979872465134,
+      "learning_rate": 0.00019166470094638739,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 196073680,
+      "step": 90770
+    },
+    {
+      "epoch": 14.808319738988581,
+      "grad_norm": 0.005500610917806625,
+      "learning_rate": 0.00019160866979851842,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 196083984,
+      "step": 90775
+    },
+    {
+      "epoch": 14.809135399673735,
+      "grad_norm": 0.010868792422115803,
+      "learning_rate": 0.00019155264490059077,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 196093968,
+      "step": 90780
+    },
+    {
+      "epoch": 14.809951060358891,
+      "grad_norm": 0.022862639278173447,
+      "learning_rate": 0.00019149662625374042,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 196103824,
+      "step": 90785
+    },
+    {
+      "epoch": 14.810766721044045,
+      "grad_norm": 0.00445165578275919,
+      "learning_rate": 0.00019144061385910195,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 196113104,
+      "step": 90790
+    },
+    {
+      "epoch": 14.8115823817292,
+      "grad_norm": 0.0044853598810732365,
+      "learning_rate": 0.00019138460771781125,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 196124560,
+      "step": 90795
+    },
+    {
+      "epoch": 14.812398042414356,
+      "grad_norm": 0.0008106532623060048,
+      "learning_rate": 0.0001913286078310026,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 196134928,
+      "step": 90800
+    },
+    {
+      "epoch": 14.81321370309951,
+      "grad_norm": 0.0041127754375338554,
+      "learning_rate": 0.00019127261419981168,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 196146352,
+      "step": 90805
+    },
+    {
+      "epoch": 14.814029363784666,
+      "grad_norm": 0.011095692403614521,
+      "learning_rate": 0.0001912166268253725,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 196156368,
+      "step": 90810
+    },
+    {
+      "epoch": 14.81484502446982,
+      "grad_norm": 0.005023022647947073,
+      "learning_rate": 0.0001911606457088204,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 196167696,
+      "step": 90815
+    },
+    {
+      "epoch": 14.815660685154976,
+      "grad_norm": 0.008457830175757408,
+      "learning_rate": 0.00019110467085128936,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 196178512,
+      "step": 90820
+    },
+    {
+      "epoch": 14.81647634584013,
+      "grad_norm": 0.011036441661417484,
+      "learning_rate": 0.00019104870225391412,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 196188432,
+      "step": 90825
+    },
+    {
+      "epoch": 14.817292006525285,
+      "grad_norm": 0.036544330418109894,
+      "learning_rate": 0.0001909927399178289,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 196199184,
+      "step": 90830
+    },
+    {
+      "epoch": 14.818107667210441,
+      "grad_norm": 0.026460448279976845,
+      "learning_rate": 0.0001909367838441678,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 196209840,
+      "step": 90835
+    },
+    {
+      "epoch": 14.818923327895595,
+      "grad_norm": 0.3815443813800812,
+      "learning_rate": 0.00019088083403406486,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 196221584,
+      "step": 90840
+    },
+    {
+      "epoch": 14.81973898858075,
+      "grad_norm": 0.009295003488659859,
+      "learning_rate": 0.00019082489048865393,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 196233328,
+      "step": 90845
+    },
+    {
+      "epoch": 14.820554649265905,
+      "grad_norm": 1.4162017107009888,
+      "learning_rate": 0.00019076895320906885,
+      "loss": 0.0921,
+      "num_input_tokens_seen": 196244144,
+      "step": 90850
+    },
+    {
+      "epoch": 14.82137030995106,
+      "grad_norm": 0.003560206387192011,
+      "learning_rate": 0.0001907130221964432,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 196254704,
+      "step": 90855
+    },
+    {
+      "epoch": 14.822185970636216,
+      "grad_norm": 0.006497807335108519,
+      "learning_rate": 0.0001906570974519105,
+      "loss": 0.0937,
+      "num_input_tokens_seen": 196265648,
+      "step": 90860
+    },
+    {
+      "epoch": 14.82300163132137,
+      "grad_norm": 0.0016851173713803291,
+      "learning_rate": 0.00019060117897660417,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 196276368,
+      "step": 90865
+    },
+    {
+      "epoch": 14.823817292006526,
+      "grad_norm": 0.4738226532936096,
+      "learning_rate": 0.00019054526677165744,
+      "loss": 0.142,
+      "num_input_tokens_seen": 196287696,
+      "step": 90870
+    },
+    {
+      "epoch": 14.82463295269168,
+      "grad_norm": 0.00117388810031116,
+      "learning_rate": 0.00019048936083820346,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 196298352,
+      "step": 90875
+    },
+    {
+      "epoch": 14.825448613376835,
+      "grad_norm": 0.0461152046918869,
+      "learning_rate": 0.00019043346117737526,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 196309296,
+      "step": 90880
+    },
+    {
+      "epoch": 14.826264274061991,
+      "grad_norm": 0.0075841969810426235,
+      "learning_rate": 0.00019037756779030545,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 196319568,
+      "step": 90885
+    },
+    {
+      "epoch": 14.827079934747145,
+      "grad_norm": 0.013668366707861423,
+      "learning_rate": 0.00019032168067812738,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 196330352,
+      "step": 90890
+    },
+    {
+      "epoch": 14.8278955954323,
+      "grad_norm": 0.0021600218024104834,
+      "learning_rate": 0.00019026579984197296,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 196341296,
+      "step": 90895
+    },
+    {
+      "epoch": 14.828711256117455,
+      "grad_norm": 0.010189131833612919,
+      "learning_rate": 0.00019020992528297537,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 196352560,
+      "step": 90900
+    },
+    {
+      "epoch": 14.82952691680261,
+      "grad_norm": 0.043539393693208694,
+      "learning_rate": 0.0001901540570022663,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 196363312,
+      "step": 90905
+    },
+    {
+      "epoch": 14.830342577487766,
+      "grad_norm": 0.022573234513401985,
+      "learning_rate": 0.0001900981950009787,
+      "loss": 0.0865,
+      "num_input_tokens_seen": 196374352,
+      "step": 90910
+    },
+    {
+      "epoch": 14.83115823817292,
+      "grad_norm": 0.004776300862431526,
+      "learning_rate": 0.00019004233928024395,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 196384656,
+      "step": 90915
+    },
+    {
+      "epoch": 14.831973898858076,
+      "grad_norm": 0.02242133766412735,
+      "learning_rate": 0.0001899864898411947,
+      "loss": 0.002,
+      "num_input_tokens_seen": 196396240,
+      "step": 90920
+    },
+    {
+      "epoch": 14.83278955954323,
+      "grad_norm": 0.003272157395258546,
+      "learning_rate": 0.00018993064668496225,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 196405808,
+      "step": 90925
+    },
+    {
+      "epoch": 14.833605220228385,
+      "grad_norm": 0.004656730219721794,
+      "learning_rate": 0.00018987480981267892,
+      "loss": 0.002,
+      "num_input_tokens_seen": 196417104,
+      "step": 90930
+    },
+    {
+      "epoch": 14.83442088091354,
+      "grad_norm": 0.0012749811867251992,
+      "learning_rate": 0.00018981897922547565,
+      "loss": 0.0258,
+      "num_input_tokens_seen": 196427952,
+      "step": 90935
+    },
+    {
+      "epoch": 14.835236541598695,
+      "grad_norm": 0.15742255747318268,
+      "learning_rate": 0.00018976315492448453,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 196439024,
+      "step": 90940
+    },
+    {
+      "epoch": 14.83605220228385,
+      "grad_norm": 0.013149394653737545,
+      "learning_rate": 0.00018970733691083637,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 196449584,
+      "step": 90945
+    },
+    {
+      "epoch": 14.836867862969005,
+      "grad_norm": 0.057830024510622025,
+      "learning_rate": 0.000189651525185663,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 196460528,
+      "step": 90950
+    },
+    {
+      "epoch": 14.83768352365416,
+      "grad_norm": 0.001897350768558681,
+      "learning_rate": 0.00018959571975009481,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 196471856,
+      "step": 90955
+    },
+    {
+      "epoch": 14.838499184339314,
+      "grad_norm": 0.6547830104827881,
+      "learning_rate": 0.00018953992060526348,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 196482096,
+      "step": 90960
+    },
+    {
+      "epoch": 14.83931484502447,
+      "grad_norm": 0.07979469001293182,
+      "learning_rate": 0.00018948412775229918,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 196492272,
+      "step": 90965
+    },
+    {
+      "epoch": 14.840130505709626,
+      "grad_norm": 0.00814758613705635,
+      "learning_rate": 0.0001894283411923331,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 196501872,
+      "step": 90970
+    },
+    {
+      "epoch": 14.84094616639478,
+      "grad_norm": 0.001418950268998742,
+      "learning_rate": 0.0001893725609264957,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 196514000,
+      "step": 90975
+    },
+    {
+      "epoch": 14.841761827079935,
+      "grad_norm": 0.0042955600656569,
+      "learning_rate": 0.00018931678695591742,
+      "loss": 0.0545,
+      "num_input_tokens_seen": 196524400,
+      "step": 90980
+    },
+    {
+      "epoch": 14.84257748776509,
+      "grad_norm": 0.0012596363667398691,
+      "learning_rate": 0.00018926101928172856,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 196535472,
+      "step": 90985
+    },
+    {
+      "epoch": 14.843393148450245,
+      "grad_norm": 0.007855188101530075,
+      "learning_rate": 0.00018920525790505933,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 196546576,
+      "step": 90990
+    },
+    {
+      "epoch": 14.844208809135399,
+      "grad_norm": 0.016350040212273598,
+      "learning_rate": 0.00018914950282703985,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 196557808,
+      "step": 90995
+    },
+    {
+      "epoch": 14.845024469820554,
+      "grad_norm": 0.06966894865036011,
+      "learning_rate": 0.00018909375404879998,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 196568112,
+      "step": 91000
+    },
+    {
+      "epoch": 14.84584013050571,
+      "grad_norm": 0.01267112884670496,
+      "learning_rate": 0.00018903801157146965,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 196579856,
+      "step": 91005
+    },
+    {
+      "epoch": 14.846655791190864,
+      "grad_norm": 0.012737995944917202,
+      "learning_rate": 0.00018898227539617852,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 196591152,
+      "step": 91010
+    },
+    {
+      "epoch": 14.84747145187602,
+      "grad_norm": 0.07722505927085876,
+      "learning_rate": 0.0001889265455240561,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 196601136,
+      "step": 91015
+    },
+    {
+      "epoch": 14.848287112561174,
+      "grad_norm": 0.18848595023155212,
+      "learning_rate": 0.00018887082195623167,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 196612112,
+      "step": 91020
+    },
+    {
+      "epoch": 14.84910277324633,
+      "grad_norm": 0.002311618998646736,
+      "learning_rate": 0.00018881510469383506,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 196621040,
+      "step": 91025
+    },
+    {
+      "epoch": 14.849918433931485,
+      "grad_norm": 0.019284280017018318,
+      "learning_rate": 0.00018875939373799483,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 196631632,
+      "step": 91030
+    },
+    {
+      "epoch": 14.850734094616639,
+      "grad_norm": 0.25687074661254883,
+      "learning_rate": 0.00018870368908984063,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 196641904,
+      "step": 91035
+    },
+    {
+      "epoch": 14.851549755301795,
+      "grad_norm": 0.009678049944341183,
+      "learning_rate": 0.00018864799075050078,
+      "loss": 0.0269,
+      "num_input_tokens_seen": 196652624,
+      "step": 91040
+    },
+    {
+      "epoch": 14.852365415986949,
+      "grad_norm": 0.1337086260318756,
+      "learning_rate": 0.00018859229872110467,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 196663152,
+      "step": 91045
+    },
+    {
+      "epoch": 14.853181076672104,
+      "grad_norm": 0.6179363131523132,
+      "learning_rate": 0.00018853661300278034,
+      "loss": 0.0868,
+      "num_input_tokens_seen": 196674384,
+      "step": 91050
+    },
+    {
+      "epoch": 14.85399673735726,
+      "grad_norm": 0.006021140608936548,
+      "learning_rate": 0.00018848093359665703,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 196684528,
+      "step": 91055
+    },
+    {
+      "epoch": 14.854812398042414,
+      "grad_norm": 0.44819143414497375,
+      "learning_rate": 0.0001884252605038624,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 196695600,
+      "step": 91060
+    },
+    {
+      "epoch": 14.85562805872757,
+      "grad_norm": 0.001804789761081338,
+      "learning_rate": 0.00018836959372552553,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 196706224,
+      "step": 91065
+    },
+    {
+      "epoch": 14.856443719412724,
+      "grad_norm": 0.01530960202217102,
+      "learning_rate": 0.0001883139332627738,
+      "loss": 0.003,
+      "num_input_tokens_seen": 196716432,
+      "step": 91070
+    },
+    {
+      "epoch": 14.85725938009788,
+      "grad_norm": 0.4987078607082367,
+      "learning_rate": 0.00018825827911673592,
+      "loss": 0.1173,
+      "num_input_tokens_seen": 196728016,
+      "step": 91075
+    },
+    {
+      "epoch": 14.858075040783035,
+      "grad_norm": 0.008473776280879974,
+      "learning_rate": 0.0001882026312885392,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 196738544,
+      "step": 91080
+    },
+    {
+      "epoch": 14.858890701468189,
+      "grad_norm": 0.49949583411216736,
+      "learning_rate": 0.00018814698977931204,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 196749072,
+      "step": 91085
+    },
+    {
+      "epoch": 14.859706362153345,
+      "grad_norm": 0.03785784915089607,
+      "learning_rate": 0.0001880913545901814,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 196759280,
+      "step": 91090
+    },
+    {
+      "epoch": 14.860522022838499,
+      "grad_norm": 0.013276136480271816,
+      "learning_rate": 0.00018803572572227546,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 196770832,
+      "step": 91095
+    },
+    {
+      "epoch": 14.861337683523654,
+      "grad_norm": 0.00885779783129692,
+      "learning_rate": 0.000187980103176721,
+      "loss": 0.0979,
+      "num_input_tokens_seen": 196780944,
+      "step": 91100
+    },
+    {
+      "epoch": 14.86215334420881,
+      "grad_norm": 0.07836762815713882,
+      "learning_rate": 0.0001879244869546457,
+      "loss": 0.018,
+      "num_input_tokens_seen": 196792464,
+      "step": 91105
+    },
+    {
+      "epoch": 14.862969004893964,
+      "grad_norm": 0.0056850542314350605,
+      "learning_rate": 0.00018786887705717658,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 196803216,
+      "step": 91110
+    },
+    {
+      "epoch": 14.86378466557912,
+      "grad_norm": 0.003115960629656911,
+      "learning_rate": 0.00018781327348544065,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 196814032,
+      "step": 91115
+    },
+    {
+      "epoch": 14.864600326264274,
+      "grad_norm": 0.005707794800400734,
+      "learning_rate": 0.00018775767624056472,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 196825072,
+      "step": 91120
+    },
+    {
+      "epoch": 14.86541598694943,
+      "grad_norm": 0.10761536657810211,
+      "learning_rate": 0.0001877020853236756,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 196835888,
+      "step": 91125
+    },
+    {
+      "epoch": 14.866231647634583,
+      "grad_norm": 0.0006443029851652682,
+      "learning_rate": 0.00018764650073589995,
+      "loss": 0.005,
+      "num_input_tokens_seen": 196846544,
+      "step": 91130
+    },
+    {
+      "epoch": 14.867047308319739,
+      "grad_norm": 0.004941369406878948,
+      "learning_rate": 0.0001875909224783642,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 196857168,
+      "step": 91135
+    },
+    {
+      "epoch": 14.867862969004895,
+      "grad_norm": 0.031196700409054756,
+      "learning_rate": 0.00018753535055219468,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 196867760,
+      "step": 91140
+    },
+    {
+      "epoch": 14.868678629690049,
+      "grad_norm": 0.011366274207830429,
+      "learning_rate": 0.0001874797849585177,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 196878928,
+      "step": 91145
+    },
+    {
+      "epoch": 14.869494290375204,
+      "grad_norm": 1.00128972530365,
+      "learning_rate": 0.00018742422569845935,
+      "loss": 0.0436,
+      "num_input_tokens_seen": 196888944,
+      "step": 91150
+    },
+    {
+      "epoch": 14.870309951060358,
+      "grad_norm": 0.45802080631256104,
+      "learning_rate": 0.00018736867277314556,
+      "loss": 0.0808,
+      "num_input_tokens_seen": 196898960,
+      "step": 91155
+    },
+    {
+      "epoch": 14.871125611745514,
+      "grad_norm": 0.016989484429359436,
+      "learning_rate": 0.00018731312618370228,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 196909808,
+      "step": 91160
+    },
+    {
+      "epoch": 14.87194127243067,
+      "grad_norm": 0.002204073593020439,
+      "learning_rate": 0.0001872575859312549,
+      "loss": 0.007,
+      "num_input_tokens_seen": 196919728,
+      "step": 91165
+    },
+    {
+      "epoch": 14.872756933115824,
+      "grad_norm": 0.006088990718126297,
+      "learning_rate": 0.00018720205201692975,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 196929456,
+      "step": 91170
+    },
+    {
+      "epoch": 14.87357259380098,
+      "grad_norm": 0.01547847967594862,
+      "learning_rate": 0.00018714652444185137,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 196939248,
+      "step": 91175
+    },
+    {
+      "epoch": 14.874388254486133,
+      "grad_norm": 0.02324049361050129,
+      "learning_rate": 0.00018709100320714594,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 196950544,
+      "step": 91180
+    },
+    {
+      "epoch": 14.875203915171289,
+      "grad_norm": 0.6144483089447021,
+      "learning_rate": 0.00018703548831393795,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 196961232,
+      "step": 91185
+    },
+    {
+      "epoch": 14.876019575856443,
+      "grad_norm": 0.006280634086579084,
+      "learning_rate": 0.00018697997976335317,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 196971536,
+      "step": 91190
+    },
+    {
+      "epoch": 14.876835236541599,
+      "grad_norm": 0.015296096913516521,
+      "learning_rate": 0.0001869244775565158,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 196982160,
+      "step": 91195
+    },
+    {
+      "epoch": 14.877650897226754,
+      "grad_norm": 0.003120235400274396,
+      "learning_rate": 0.00018686898169455147,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 196992944,
+      "step": 91200
+    },
+    {
+      "epoch": 14.878466557911908,
+      "grad_norm": 0.043369755148887634,
+      "learning_rate": 0.00018681349217858408,
+      "loss": 0.019,
+      "num_input_tokens_seen": 197003792,
+      "step": 91205
+    },
+    {
+      "epoch": 14.879282218597064,
+      "grad_norm": 0.004237358458340168,
+      "learning_rate": 0.00018675800900973876,
+      "loss": 0.004,
+      "num_input_tokens_seen": 197014960,
+      "step": 91210
+    },
+    {
+      "epoch": 14.880097879282218,
+      "grad_norm": 0.0031959593761712313,
+      "learning_rate": 0.00018670253218913975,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 197025552,
+      "step": 91215
+    },
+    {
+      "epoch": 14.880913539967374,
+      "grad_norm": 0.008891470730304718,
+      "learning_rate": 0.00018664706171791134,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 197036752,
+      "step": 91220
+    },
+    {
+      "epoch": 14.88172920065253,
+      "grad_norm": 0.00029773113783448935,
+      "learning_rate": 0.0001865915975971778,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 197047024,
+      "step": 91225
+    },
+    {
+      "epoch": 14.882544861337683,
+      "grad_norm": 0.005044011864811182,
+      "learning_rate": 0.00018653613982806311,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 197057392,
+      "step": 91230
+    },
+    {
+      "epoch": 14.883360522022839,
+      "grad_norm": 0.009152603335678577,
+      "learning_rate": 0.0001864806884116912,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 197066896,
+      "step": 91235
+    },
+    {
+      "epoch": 14.884176182707993,
+      "grad_norm": 0.004073834978044033,
+      "learning_rate": 0.00018642524334918582,
+      "loss": 0.002,
+      "num_input_tokens_seen": 197079248,
+      "step": 91240
+    },
+    {
+      "epoch": 14.884991843393149,
+      "grad_norm": 0.0020526114385575056,
+      "learning_rate": 0.00018636980464167076,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 197090288,
+      "step": 91245
+    },
+    {
+      "epoch": 14.885807504078304,
+      "grad_norm": 0.0018403942231088877,
+      "learning_rate": 0.00018631437229026942,
+      "loss": 0.002,
+      "num_input_tokens_seen": 197100784,
+      "step": 91250
+    },
+    {
+      "epoch": 14.886623164763458,
+      "grad_norm": 0.0024247504770755768,
+      "learning_rate": 0.0001862589462961053,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 197112752,
+      "step": 91255
+    },
+    {
+      "epoch": 14.887438825448614,
+      "grad_norm": 0.049593936651945114,
+      "learning_rate": 0.0001862035266603016,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 197123920,
+      "step": 91260
+    },
+    {
+      "epoch": 14.888254486133768,
+      "grad_norm": 0.009330598637461662,
+      "learning_rate": 0.00018614811338398153,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 197133584,
+      "step": 91265
+    },
+    {
+      "epoch": 14.889070146818923,
+      "grad_norm": 0.012051105499267578,
+      "learning_rate": 0.0001860927064682681,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 197143856,
+      "step": 91270
+    },
+    {
+      "epoch": 14.88988580750408,
+      "grad_norm": 0.06999044865369797,
+      "learning_rate": 0.0001860373059142842,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 197154640,
+      "step": 91275
+    },
+    {
+      "epoch": 14.890701468189233,
+      "grad_norm": 0.0663766860961914,
+      "learning_rate": 0.00018598191172315253,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 197165648,
+      "step": 91280
+    },
+    {
+      "epoch": 14.891517128874389,
+      "grad_norm": 0.07517898827791214,
+      "learning_rate": 0.00018592652389599583,
+      "loss": 0.0964,
+      "num_input_tokens_seen": 197176496,
+      "step": 91285
+    },
+    {
+      "epoch": 14.892332789559543,
+      "grad_norm": 0.002310275798663497,
+      "learning_rate": 0.00018587114243393655,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 197186992,
+      "step": 91290
+    },
+    {
+      "epoch": 14.893148450244698,
+      "grad_norm": 0.6070193648338318,
+      "learning_rate": 0.00018581576733809707,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 197197680,
+      "step": 91295
+    },
+    {
+      "epoch": 14.893964110929852,
+      "grad_norm": 0.004368333145976067,
+      "learning_rate": 0.00018576039860959966,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 197209168,
+      "step": 91300
+    },
+    {
+      "epoch": 14.894779771615008,
+      "grad_norm": 0.06271976977586746,
+      "learning_rate": 0.00018570503624956635,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 197219728,
+      "step": 91305
+    },
+    {
+      "epoch": 14.895595432300164,
+      "grad_norm": 0.05428668111562729,
+      "learning_rate": 0.00018564968025911905,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 197229744,
+      "step": 91310
+    },
+    {
+      "epoch": 14.896411092985318,
+      "grad_norm": 0.005725554656237364,
+      "learning_rate": 0.00018559433063937997,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 197240816,
+      "step": 91315
+    },
+    {
+      "epoch": 14.897226753670473,
+      "grad_norm": 0.00881729181855917,
+      "learning_rate": 0.00018553898739147057,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 197252464,
+      "step": 91320
+    },
+    {
+      "epoch": 14.898042414355627,
+      "grad_norm": 0.001196861732751131,
+      "learning_rate": 0.00018548365051651255,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 197262352,
+      "step": 91325
+    },
+    {
+      "epoch": 14.898858075040783,
+      "grad_norm": 0.031206313520669937,
+      "learning_rate": 0.00018542832001562732,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 197273520,
+      "step": 91330
+    },
+    {
+      "epoch": 14.899673735725939,
+      "grad_norm": 0.20482459664344788,
+      "learning_rate": 0.00018537299588993627,
+      "loss": 0.1099,
+      "num_input_tokens_seen": 197283920,
+      "step": 91335
+    },
+    {
+      "epoch": 14.900489396411093,
+      "grad_norm": 0.007990190759301186,
+      "learning_rate": 0.0001853176781405606,
+      "loss": 0.0922,
+      "num_input_tokens_seen": 197294448,
+      "step": 91340
+    },
+    {
+      "epoch": 14.901305057096248,
+      "grad_norm": 0.0065262895077466965,
+      "learning_rate": 0.00018526236676862134,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 197304016,
+      "step": 91345
+    },
+    {
+      "epoch": 14.902120717781402,
+      "grad_norm": 0.004501709248870611,
+      "learning_rate": 0.00018520706177523955,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 197314544,
+      "step": 91350
+    },
+    {
+      "epoch": 14.902936378466558,
+      "grad_norm": 0.0008994314703159034,
+      "learning_rate": 0.000185151763161536,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 197325808,
+      "step": 91355
+    },
+    {
+      "epoch": 14.903752039151712,
+      "grad_norm": 0.5988969206809998,
+      "learning_rate": 0.0001850964709286313,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 197338352,
+      "step": 91360
+    },
+    {
+      "epoch": 14.904567699836868,
+      "grad_norm": 0.015295770950615406,
+      "learning_rate": 0.00018504118507764618,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 197348976,
+      "step": 91365
+    },
+    {
+      "epoch": 14.905383360522023,
+      "grad_norm": 0.015201558358967304,
+      "learning_rate": 0.00018498590560970098,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 197359472,
+      "step": 91370
+    },
+    {
+      "epoch": 14.906199021207177,
+      "grad_norm": 0.07447752356529236,
+      "learning_rate": 0.00018493063252591596,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 197369776,
+      "step": 91375
+    },
+    {
+      "epoch": 14.907014681892333,
+      "grad_norm": 0.004664100240916014,
+      "learning_rate": 0.00018487536582741142,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 197379536,
+      "step": 91380
+    },
+    {
+      "epoch": 14.907830342577487,
+      "grad_norm": 0.004202402196824551,
+      "learning_rate": 0.00018482010551530736,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 197390160,
+      "step": 91385
+    },
+    {
+      "epoch": 14.908646003262643,
+      "grad_norm": 0.013313495554029942,
+      "learning_rate": 0.00018476485159072371,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 197401008,
+      "step": 91390
+    },
+    {
+      "epoch": 14.909461663947798,
+      "grad_norm": 0.0597468763589859,
+      "learning_rate": 0.0001847096040547802,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 197413520,
+      "step": 91395
+    },
+    {
+      "epoch": 14.910277324632952,
+      "grad_norm": 0.008388367481529713,
+      "learning_rate": 0.00018465436290859662,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 197424240,
+      "step": 91400
+    },
+    {
+      "epoch": 14.911092985318108,
+      "grad_norm": 0.0027642918284982443,
+      "learning_rate": 0.00018459912815329234,
+      "loss": 0.087,
+      "num_input_tokens_seen": 197436816,
+      "step": 91405
+    },
+    {
+      "epoch": 14.911908646003262,
+      "grad_norm": 0.0009764356655068696,
+      "learning_rate": 0.00018454389978998686,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 197448016,
+      "step": 91410
+    },
+    {
+      "epoch": 14.912724306688418,
+      "grad_norm": 0.0351264625787735,
+      "learning_rate": 0.00018448867781979943,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 197457744,
+      "step": 91415
+    },
+    {
+      "epoch": 14.913539967373573,
+      "grad_norm": 0.008587658405303955,
+      "learning_rate": 0.00018443346224384906,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 197469264,
+      "step": 91420
+    },
+    {
+      "epoch": 14.914355628058727,
+      "grad_norm": 0.005530293099582195,
+      "learning_rate": 0.00018437825306325524,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 197478960,
+      "step": 91425
+    },
+    {
+      "epoch": 14.915171288743883,
+      "grad_norm": 0.030203763395547867,
+      "learning_rate": 0.00018432305027913615,
+      "loss": 0.002,
+      "num_input_tokens_seen": 197489616,
+      "step": 91430
+    },
+    {
+      "epoch": 14.915986949429037,
+      "grad_norm": 0.009578707627952099,
+      "learning_rate": 0.00018426785389261124,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 197499376,
+      "step": 91435
+    },
+    {
+      "epoch": 14.916802610114193,
+      "grad_norm": 0.07021234184503555,
+      "learning_rate": 0.00018421266390479846,
+      "loss": 0.004,
+      "num_input_tokens_seen": 197509552,
+      "step": 91440
+    },
+    {
+      "epoch": 14.917618270799348,
+      "grad_norm": 0.0011171189835295081,
+      "learning_rate": 0.00018415748031681706,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 197520656,
+      "step": 91445
+    },
+    {
+      "epoch": 14.918433931484502,
+      "grad_norm": 0.04959210380911827,
+      "learning_rate": 0.0001841023031297846,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 197532432,
+      "step": 91450
+    },
+    {
+      "epoch": 14.919249592169658,
+      "grad_norm": 0.0012606215896084905,
+      "learning_rate": 0.0001840471323448199,
+      "loss": 0.0313,
+      "num_input_tokens_seen": 197543056,
+      "step": 91455
+    },
+    {
+      "epoch": 14.920065252854812,
+      "grad_norm": 0.0010699069825932384,
+      "learning_rate": 0.00018399196796304085,
+      "loss": 0.0691,
+      "num_input_tokens_seen": 197552880,
+      "step": 91460
+    },
+    {
+      "epoch": 14.920880913539968,
+      "grad_norm": 0.020792873576283455,
+      "learning_rate": 0.0001839368099855655,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 197564560,
+      "step": 91465
+    },
+    {
+      "epoch": 14.921696574225122,
+      "grad_norm": 0.003776568453758955,
+      "learning_rate": 0.00018388165841351162,
+      "loss": 0.009,
+      "num_input_tokens_seen": 197575312,
+      "step": 91470
+    },
+    {
+      "epoch": 14.922512234910277,
+      "grad_norm": 0.09122282266616821,
+      "learning_rate": 0.000183826513247997,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 197585264,
+      "step": 91475
+    },
+    {
+      "epoch": 14.923327895595433,
+      "grad_norm": 0.10566361993551254,
+      "learning_rate": 0.0001837713744901391,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 197595728,
+      "step": 91480
+    },
+    {
+      "epoch": 14.924143556280587,
+      "grad_norm": 0.5424984693527222,
+      "learning_rate": 0.00018371624214105553,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 197605296,
+      "step": 91485
+    },
+    {
+      "epoch": 14.924959216965743,
+      "grad_norm": 0.4760046601295471,
+      "learning_rate": 0.00018366111620186348,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 197615792,
+      "step": 91490
+    },
+    {
+      "epoch": 14.925774877650896,
+      "grad_norm": 0.04116629436612129,
+      "learning_rate": 0.0001836059966736803,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 197627312,
+      "step": 91495
+    },
+    {
+      "epoch": 14.926590538336052,
+      "grad_norm": 0.008484826423227787,
+      "learning_rate": 0.0001835508835576229,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 197637584,
+      "step": 91500
+    },
+    {
+      "epoch": 14.927406199021208,
+      "grad_norm": 0.033912546932697296,
+      "learning_rate": 0.00018349577685480834,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 197648560,
+      "step": 91505
+    },
+    {
+      "epoch": 14.928221859706362,
+      "grad_norm": 0.0016596310306340456,
+      "learning_rate": 0.0001834406765663534,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 197659536,
+      "step": 91510
+    },
+    {
+      "epoch": 14.929037520391518,
+      "grad_norm": 0.034390322864055634,
+      "learning_rate": 0.00018338558269337464,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 197669904,
+      "step": 91515
+    },
+    {
+      "epoch": 14.929853181076671,
+      "grad_norm": 0.2875620722770691,
+      "learning_rate": 0.00018333049523698876,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 197679280,
+      "step": 91520
+    },
+    {
+      "epoch": 14.930668841761827,
+      "grad_norm": 0.03757292404770851,
+      "learning_rate": 0.00018327541419831196,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 197690480,
+      "step": 91525
+    },
+    {
+      "epoch": 14.931484502446983,
+      "grad_norm": 0.008096279576420784,
+      "learning_rate": 0.00018322033957846097,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 197701712,
+      "step": 91530
+    },
+    {
+      "epoch": 14.932300163132137,
+      "grad_norm": 0.06404435634613037,
+      "learning_rate": 0.00018316527137855138,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 197712560,
+      "step": 91535
+    },
+    {
+      "epoch": 14.933115823817293,
+      "grad_norm": 0.0034364284947514534,
+      "learning_rate": 0.00018311020959969982,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 197722640,
+      "step": 91540
+    },
+    {
+      "epoch": 14.933931484502446,
+      "grad_norm": 0.013405256904661655,
+      "learning_rate": 0.0001830551542430215,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 197733616,
+      "step": 91545
+    },
+    {
+      "epoch": 14.934747145187602,
+      "grad_norm": 0.12012229114770889,
+      "learning_rate": 0.0001830001053096329,
+      "loss": 0.0743,
+      "num_input_tokens_seen": 197745552,
+      "step": 91550
+    },
+    {
+      "epoch": 14.935562805872756,
+      "grad_norm": 0.6721145510673523,
+      "learning_rate": 0.000182945062800649,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 197755632,
+      "step": 91555
+    },
+    {
+      "epoch": 14.936378466557912,
+      "grad_norm": 0.021277163177728653,
+      "learning_rate": 0.0001828900267171859,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 197765552,
+      "step": 91560
+    },
+    {
+      "epoch": 14.937194127243067,
+      "grad_norm": 0.14915668964385986,
+      "learning_rate": 0.0001828349970603584,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 197776720,
+      "step": 91565
+    },
+    {
+      "epoch": 14.938009787928221,
+      "grad_norm": 0.0062555489130318165,
+      "learning_rate": 0.00018277997383128237,
+      "loss": 0.013,
+      "num_input_tokens_seen": 197787824,
+      "step": 91570
+    },
+    {
+      "epoch": 14.938825448613377,
+      "grad_norm": 0.005437719635665417,
+      "learning_rate": 0.00018272495703107222,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 197797808,
+      "step": 91575
+    },
+    {
+      "epoch": 14.939641109298531,
+      "grad_norm": 0.0006717185606248677,
+      "learning_rate": 0.00018266994666084368,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 197808624,
+      "step": 91580
+    },
+    {
+      "epoch": 14.940456769983687,
+      "grad_norm": 0.2600712776184082,
+      "learning_rate": 0.0001826149427217109,
+      "loss": 0.0136,
+      "num_input_tokens_seen": 197819824,
+      "step": 91585
+    },
+    {
+      "epoch": 14.941272430668842,
+      "grad_norm": 0.006795211229473352,
+      "learning_rate": 0.00018255994521478925,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 197830800,
+      "step": 91590
+    },
+    {
+      "epoch": 14.942088091353996,
+      "grad_norm": 0.0022412503603845835,
+      "learning_rate": 0.00018250495414119273,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 197841968,
+      "step": 91595
+    },
+    {
+      "epoch": 14.942903752039152,
+      "grad_norm": 0.10791927576065063,
+      "learning_rate": 0.0001824499695020362,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 197852368,
+      "step": 91600
+    },
+    {
+      "epoch": 14.943719412724306,
+      "grad_norm": 0.005554559174925089,
+      "learning_rate": 0.0001823949912984339,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 197862960,
+      "step": 91605
+    },
+    {
+      "epoch": 14.944535073409462,
+      "grad_norm": 0.007660820614546537,
+      "learning_rate": 0.00018234001953149997,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 197874192,
+      "step": 91610
+    },
+    {
+      "epoch": 14.945350734094617,
+      "grad_norm": 0.0357113778591156,
+      "learning_rate": 0.00018228505420234858,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 197885680,
+      "step": 91615
+    },
+    {
+      "epoch": 14.946166394779771,
+      "grad_norm": 0.0036698810290545225,
+      "learning_rate": 0.00018223009531209355,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 197897040,
+      "step": 91620
+    },
+    {
+      "epoch": 14.946982055464927,
+      "grad_norm": 0.4504069685935974,
+      "learning_rate": 0.00018217514286184884,
+      "loss": 0.0453,
+      "num_input_tokens_seen": 197907952,
+      "step": 91625
+    },
+    {
+      "epoch": 14.947797716150081,
+      "grad_norm": 0.000682205252815038,
+      "learning_rate": 0.00018212019685272802,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 197920048,
+      "step": 91630
+    },
+    {
+      "epoch": 14.948613376835237,
+      "grad_norm": 0.004739740863442421,
+      "learning_rate": 0.00018206525728584462,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 197930672,
+      "step": 91635
+    },
+    {
+      "epoch": 14.949429037520392,
+      "grad_norm": 0.004977010656148195,
+      "learning_rate": 0.00018201032416231217,
+      "loss": 0.056,
+      "num_input_tokens_seen": 197942352,
+      "step": 91640
+    },
+    {
+      "epoch": 14.950244698205546,
+      "grad_norm": 0.6323051452636719,
+      "learning_rate": 0.00018195539748324386,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 197952784,
+      "step": 91645
+    },
+    {
+      "epoch": 14.951060358890702,
+      "grad_norm": 0.02068396657705307,
+      "learning_rate": 0.00018190047724975271,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 197963696,
+      "step": 91650
+    },
+    {
+      "epoch": 14.951876019575856,
+      "grad_norm": 0.0008221376338042319,
+      "learning_rate": 0.00018184556346295233,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 197974960,
+      "step": 91655
+    },
+    {
+      "epoch": 14.952691680261012,
+      "grad_norm": 0.0007419289904646575,
+      "learning_rate": 0.00018179065612395484,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 197985904,
+      "step": 91660
+    },
+    {
+      "epoch": 14.953507340946166,
+      "grad_norm": 0.23194904625415802,
+      "learning_rate": 0.0001817357552338737,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 197996688,
+      "step": 91665
+    },
+    {
+      "epoch": 14.954323001631321,
+      "grad_norm": 0.00299538834951818,
+      "learning_rate": 0.0001816808607938209,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 198007888,
+      "step": 91670
+    },
+    {
+      "epoch": 14.955138662316477,
+      "grad_norm": 0.01290897186845541,
+      "learning_rate": 0.00018162597280490966,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 198019632,
+      "step": 91675
+    },
+    {
+      "epoch": 14.955954323001631,
+      "grad_norm": 0.00599845964461565,
+      "learning_rate": 0.00018157109126825156,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 198029936,
+      "step": 91680
+    },
+    {
+      "epoch": 14.956769983686787,
+      "grad_norm": 0.005180804058909416,
+      "learning_rate": 0.0001815162161849596,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 198041264,
+      "step": 91685
+    },
+    {
+      "epoch": 14.95758564437194,
+      "grad_norm": 0.01789415255188942,
+      "learning_rate": 0.00018146134755614524,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 198052528,
+      "step": 91690
+    },
+    {
+      "epoch": 14.958401305057096,
+      "grad_norm": 0.003401143942028284,
+      "learning_rate": 0.0001814064853829211,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 198063216,
+      "step": 91695
+    },
+    {
+      "epoch": 14.959216965742252,
+      "grad_norm": 0.03557276725769043,
+      "learning_rate": 0.00018135162966639835,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 198074608,
+      "step": 91700
+    },
+    {
+      "epoch": 14.960032626427406,
+      "grad_norm": 0.0038898277562111616,
+      "learning_rate": 0.00018129678040768938,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 198085680,
+      "step": 91705
+    },
+    {
+      "epoch": 14.960848287112562,
+      "grad_norm": 0.010417568497359753,
+      "learning_rate": 0.00018124193760790514,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 198095888,
+      "step": 91710
+    },
+    {
+      "epoch": 14.961663947797716,
+      "grad_norm": 0.01605057343840599,
+      "learning_rate": 0.00018118710126815773,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 198106576,
+      "step": 91715
+    },
+    {
+      "epoch": 14.962479608482871,
+      "grad_norm": 0.00376236904412508,
+      "learning_rate": 0.00018113227138955785,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 198116368,
+      "step": 91720
+    },
+    {
+      "epoch": 14.963295269168025,
+      "grad_norm": 0.4293442368507385,
+      "learning_rate": 0.00018107744797321728,
+      "loss": 0.2416,
+      "num_input_tokens_seen": 198125552,
+      "step": 91725
+    },
+    {
+      "epoch": 14.964110929853181,
+      "grad_norm": 0.0034157487098127604,
+      "learning_rate": 0.00018102263102024653,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 198136912,
+      "step": 91730
+    },
+    {
+      "epoch": 14.964926590538337,
+      "grad_norm": 0.1372259259223938,
+      "learning_rate": 0.00018096782053175715,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 198146800,
+      "step": 91735
+    },
+    {
+      "epoch": 14.96574225122349,
+      "grad_norm": 0.7950195074081421,
+      "learning_rate": 0.00018091301650885922,
+      "loss": 0.1111,
+      "num_input_tokens_seen": 198157648,
+      "step": 91740
+    },
+    {
+      "epoch": 14.966557911908646,
+      "grad_norm": 0.012486966326832771,
+      "learning_rate": 0.00018085821895266402,
+      "loss": 0.0917,
+      "num_input_tokens_seen": 198170384,
+      "step": 91745
+    },
+    {
+      "epoch": 14.9673735725938,
+      "grad_norm": 0.00040594261372461915,
+      "learning_rate": 0.00018080342786428184,
+      "loss": 0.0339,
+      "num_input_tokens_seen": 198181104,
+      "step": 91750
+    },
+    {
+      "epoch": 14.968189233278956,
+      "grad_norm": 0.0035222459118813276,
+      "learning_rate": 0.00018074864324482315,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 198192176,
+      "step": 91755
+    },
+    {
+      "epoch": 14.969004893964112,
+      "grad_norm": 0.9425178170204163,
+      "learning_rate": 0.0001806938650953982,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 198203312,
+      "step": 91760
+    },
+    {
+      "epoch": 14.969820554649266,
+      "grad_norm": 0.005051793530583382,
+      "learning_rate": 0.00018063909341711716,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 198213904,
+      "step": 91765
+    },
+    {
+      "epoch": 14.970636215334421,
+      "grad_norm": 0.0014896744396537542,
+      "learning_rate": 0.00018058432821109,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 198225424,
+      "step": 91770
+    },
+    {
+      "epoch": 14.971451876019575,
+      "grad_norm": 0.011105705052614212,
+      "learning_rate": 0.00018052956947842665,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 198236496,
+      "step": 91775
+    },
+    {
+      "epoch": 14.97226753670473,
+      "grad_norm": 0.003602163400501013,
+      "learning_rate": 0.0001804748172202368,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 198248208,
+      "step": 91780
+    },
+    {
+      "epoch": 14.973083197389887,
+      "grad_norm": 0.002370339585468173,
+      "learning_rate": 0.00018042007143763018,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 198259824,
+      "step": 91785
+    },
+    {
+      "epoch": 14.97389885807504,
+      "grad_norm": 0.005036045331507921,
+      "learning_rate": 0.00018036533213171618,
+      "loss": 0.1786,
+      "num_input_tokens_seen": 198271856,
+      "step": 91790
+    },
+    {
+      "epoch": 14.974714518760196,
+      "grad_norm": 0.027367407456040382,
+      "learning_rate": 0.0001803105993036041,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 198282672,
+      "step": 91795
+    },
+    {
+      "epoch": 14.97553017944535,
+      "grad_norm": 0.0048852418549358845,
+      "learning_rate": 0.0001802558729544036,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 198293552,
+      "step": 91800
+    },
+    {
+      "epoch": 14.976345840130506,
+      "grad_norm": 0.1048927903175354,
+      "learning_rate": 0.0001802011530852231,
+      "loss": 0.0703,
+      "num_input_tokens_seen": 198304272,
+      "step": 91805
+    },
+    {
+      "epoch": 14.977161500815662,
+      "grad_norm": 0.723358690738678,
+      "learning_rate": 0.00018014643969717231,
+      "loss": 0.1453,
+      "num_input_tokens_seen": 198314992,
+      "step": 91810
+    },
+    {
+      "epoch": 14.977977161500815,
+      "grad_norm": 0.0012425847817212343,
+      "learning_rate": 0.0001800917327913593,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 198326352,
+      "step": 91815
+    },
+    {
+      "epoch": 14.978792822185971,
+      "grad_norm": 0.03811126574873924,
+      "learning_rate": 0.0001800370323688935,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 198336816,
+      "step": 91820
+    },
+    {
+      "epoch": 14.979608482871125,
+      "grad_norm": 0.11717061698436737,
+      "learning_rate": 0.00017998233843088284,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 198347536,
+      "step": 91825
+    },
+    {
+      "epoch": 14.98042414355628,
+      "grad_norm": 0.010843515396118164,
+      "learning_rate": 0.00017992765097843639,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 198358576,
+      "step": 91830
+    },
+    {
+      "epoch": 14.981239804241435,
+      "grad_norm": 0.0015287426067516208,
+      "learning_rate": 0.00017987297001266172,
+      "loss": 0.002,
+      "num_input_tokens_seen": 198370064,
+      "step": 91835
+    },
+    {
+      "epoch": 14.98205546492659,
+      "grad_norm": 0.005267042201012373,
+      "learning_rate": 0.00017981829553466783,
+      "loss": 0.0157,
+      "num_input_tokens_seen": 198380656,
+      "step": 91840
+    },
+    {
+      "epoch": 14.982871125611746,
+      "grad_norm": 0.0034920715261250734,
+      "learning_rate": 0.00017976362754556203,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 198392112,
+      "step": 91845
+    },
+    {
+      "epoch": 14.9836867862969,
+      "grad_norm": 0.005846341140568256,
+      "learning_rate": 0.0001797089660464527,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 198403440,
+      "step": 91850
+    },
+    {
+      "epoch": 14.984502446982056,
+      "grad_norm": 0.004615858197212219,
+      "learning_rate": 0.00017965431103844753,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 198413712,
+      "step": 91855
+    },
+    {
+      "epoch": 14.98531810766721,
+      "grad_norm": 0.00345953949727118,
+      "learning_rate": 0.00017959966252265407,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 198425424,
+      "step": 91860
+    },
+    {
+      "epoch": 14.986133768352365,
+      "grad_norm": 0.04297134652733803,
+      "learning_rate": 0.00017954502050018,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 198435920,
+      "step": 91865
+    },
+    {
+      "epoch": 14.986949429037521,
+      "grad_norm": 0.0170292966067791,
+      "learning_rate": 0.00017949038497213255,
+      "loss": 0.002,
+      "num_input_tokens_seen": 198448304,
+      "step": 91870
+    },
+    {
+      "epoch": 14.987765089722675,
+      "grad_norm": 0.0019456454319879413,
+      "learning_rate": 0.0001794357559396191,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 198458512,
+      "step": 91875
+    },
+    {
+      "epoch": 14.98858075040783,
+      "grad_norm": 0.0030888323672115803,
+      "learning_rate": 0.00017938113340374662,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 198469936,
+      "step": 91880
+    },
+    {
+      "epoch": 14.989396411092985,
+      "grad_norm": 0.008779522962868214,
+      "learning_rate": 0.00017932651736562226,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 198480688,
+      "step": 91885
+    },
+    {
+      "epoch": 14.99021207177814,
+      "grad_norm": 0.1324496865272522,
+      "learning_rate": 0.00017927190782635283,
+      "loss": 0.1448,
+      "num_input_tokens_seen": 198492240,
+      "step": 91890
+    },
+    {
+      "epoch": 14.991027732463294,
+      "grad_norm": 0.11609335243701935,
+      "learning_rate": 0.00017921730478704506,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 198502352,
+      "step": 91895
+    },
+    {
+      "epoch": 14.99184339314845,
+      "grad_norm": 0.004886234644800425,
+      "learning_rate": 0.0001791627082488056,
+      "loss": 0.0674,
+      "num_input_tokens_seen": 198514224,
+      "step": 91900
+    },
+    {
+      "epoch": 14.992659053833606,
+      "grad_norm": 0.03304458037018776,
+      "learning_rate": 0.00017910811821274082,
+      "loss": 0.008,
+      "num_input_tokens_seen": 198524720,
+      "step": 91905
+    },
+    {
+      "epoch": 14.99347471451876,
+      "grad_norm": 0.004803449381142855,
+      "learning_rate": 0.0001790535346799571,
+      "loss": 0.002,
+      "num_input_tokens_seen": 198536176,
+      "step": 91910
+    },
+    {
+      "epoch": 14.994290375203915,
+      "grad_norm": 0.004887313582003117,
+      "learning_rate": 0.00017899895765156065,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 198547952,
+      "step": 91915
+    },
+    {
+      "epoch": 14.99510603588907,
+      "grad_norm": 0.0403841994702816,
+      "learning_rate": 0.00017894438712865753,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 198559216,
+      "step": 91920
+    },
+    {
+      "epoch": 14.995921696574225,
+      "grad_norm": 0.0004432197310961783,
+      "learning_rate": 0.00017888982311235375,
+      "loss": 0.018,
+      "num_input_tokens_seen": 198570256,
+      "step": 91925
+    },
+    {
+      "epoch": 14.99673735725938,
+      "grad_norm": 0.04184507951140404,
+      "learning_rate": 0.00017883526560375502,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 198581808,
+      "step": 91930
+    },
+    {
+      "epoch": 14.997553017944535,
+      "grad_norm": 0.01710711419582367,
+      "learning_rate": 0.00017878071460396706,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 198593040,
+      "step": 91935
+    },
+    {
+      "epoch": 14.99836867862969,
+      "grad_norm": 0.1359815001487732,
+      "learning_rate": 0.0001787261701140952,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 198601776,
+      "step": 91940
+    },
+    {
+      "epoch": 14.999184339314844,
+      "grad_norm": 0.32246536016464233,
+      "learning_rate": 0.00017867163213524545,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 198611472,
+      "step": 91945
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.08324826508760452,
+      "learning_rate": 0.00017861710066852237,
+      "loss": 0.1494,
+      "num_input_tokens_seen": 198621168,
+      "step": 91950
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.2368113100528717,
+      "eval_runtime": 104.2294,
+      "eval_samples_per_second": 26.144,
+      "eval_steps_per_second": 6.543,
+      "num_input_tokens_seen": 198621168,
+      "step": 91950
+    },
+    {
+      "epoch": 15.000815660685156,
+      "grad_norm": 0.15005184710025787,
+      "learning_rate": 0.00017856257571503164,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 198632528,
+      "step": 91955
+    },
+    {
+      "epoch": 15.00163132137031,
+      "grad_norm": 0.026279544457793236,
+      "learning_rate": 0.00017850805727587804,
+      "loss": 0.0176,
+      "num_input_tokens_seen": 198643888,
+      "step": 91960
+    },
+    {
+      "epoch": 15.002446982055465,
+      "grad_norm": 0.0065717375837266445,
+      "learning_rate": 0.00017845354535216658,
+      "loss": 0.004,
+      "num_input_tokens_seen": 198654416,
+      "step": 91965
+    },
+    {
+      "epoch": 15.00326264274062,
+      "grad_norm": 0.0031500456389039755,
+      "learning_rate": 0.00017839903994500185,
+      "loss": 0.0419,
+      "num_input_tokens_seen": 198666960,
+      "step": 91970
+    },
+    {
+      "epoch": 15.004078303425775,
+      "grad_norm": 0.005922715645283461,
+      "learning_rate": 0.0001783445410554886,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 198677808,
+      "step": 91975
+    },
+    {
+      "epoch": 15.00489396411093,
+      "grad_norm": 0.0009123813943006098,
+      "learning_rate": 0.00017829004868473124,
+      "loss": 0.004,
+      "num_input_tokens_seen": 198688272,
+      "step": 91980
+    },
+    {
+      "epoch": 15.005709624796085,
+      "grad_norm": 0.009499759413301945,
+      "learning_rate": 0.00017823556283383418,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 198699504,
+      "step": 91985
+    },
+    {
+      "epoch": 15.00652528548124,
+      "grad_norm": 0.0025711434427648783,
+      "learning_rate": 0.0001781810835039016,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 198710544,
+      "step": 91990
+    },
+    {
+      "epoch": 15.007340946166394,
+      "grad_norm": 0.0020499620586633682,
+      "learning_rate": 0.0001781266106960377,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 198720496,
+      "step": 91995
+    },
+    {
+      "epoch": 15.00815660685155,
+      "grad_norm": 0.015157933346927166,
+      "learning_rate": 0.00017807214441134628,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 198729744,
+      "step": 92000
+    },
+    {
+      "epoch": 15.008972267536704,
+      "grad_norm": 0.01744169555604458,
+      "learning_rate": 0.00017801768465093126,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 198740400,
+      "step": 92005
+    },
+    {
+      "epoch": 15.00978792822186,
+      "grad_norm": 0.0031720127444714308,
+      "learning_rate": 0.00017796323141589638,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 198752368,
+      "step": 92010
+    },
+    {
+      "epoch": 15.010603588907015,
+      "grad_norm": 0.001125030335970223,
+      "learning_rate": 0.00017790878470734506,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 198762704,
+      "step": 92015
+    },
+    {
+      "epoch": 15.01141924959217,
+      "grad_norm": 0.07347182184457779,
+      "learning_rate": 0.0001778543445263809,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 198772656,
+      "step": 92020
+    },
+    {
+      "epoch": 15.012234910277325,
+      "grad_norm": 0.00362205458804965,
+      "learning_rate": 0.00017779991087410707,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 198782864,
+      "step": 92025
+    },
+    {
+      "epoch": 15.013050570962479,
+      "grad_norm": 0.00837631057947874,
+      "learning_rate": 0.0001777454837516268,
+      "loss": 0.0309,
+      "num_input_tokens_seen": 198793776,
+      "step": 92030
+    },
+    {
+      "epoch": 15.013866231647635,
+      "grad_norm": 1.850484848022461,
+      "learning_rate": 0.00017769106316004314,
+      "loss": 0.0401,
+      "num_input_tokens_seen": 198804496,
+      "step": 92035
+    },
+    {
+      "epoch": 15.01468189233279,
+      "grad_norm": 0.009433651342988014,
+      "learning_rate": 0.0001776366491004589,
+      "loss": 0.1475,
+      "num_input_tokens_seen": 198815216,
+      "step": 92040
+    },
+    {
+      "epoch": 15.015497553017944,
+      "grad_norm": 0.004046480171382427,
+      "learning_rate": 0.00017758224157397696,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 198825296,
+      "step": 92045
+    },
+    {
+      "epoch": 15.0163132137031,
+      "grad_norm": 0.06106355041265488,
+      "learning_rate": 0.00017752784058169992,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 198836080,
+      "step": 92050
+    },
+    {
+      "epoch": 15.017128874388254,
+      "grad_norm": 0.029603945091366768,
+      "learning_rate": 0.00017747344612473022,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 198847696,
+      "step": 92055
+    },
+    {
+      "epoch": 15.01794453507341,
+      "grad_norm": 0.0066187456250190735,
+      "learning_rate": 0.00017741905820417014,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 198860080,
+      "step": 92060
+    },
+    {
+      "epoch": 15.018760195758565,
+      "grad_norm": 0.009210659191012383,
+      "learning_rate": 0.00017736467682112245,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 198870640,
+      "step": 92065
+    },
+    {
+      "epoch": 15.01957585644372,
+      "grad_norm": 0.0005773415905423462,
+      "learning_rate": 0.00017731030197668847,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 198881488,
+      "step": 92070
+    },
+    {
+      "epoch": 15.020391517128875,
+      "grad_norm": 0.02137085609138012,
+      "learning_rate": 0.00017725593367197095,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 198892944,
+      "step": 92075
+    },
+    {
+      "epoch": 15.021207177814029,
+      "grad_norm": 0.014607875607907772,
+      "learning_rate": 0.00017720157190807107,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 198903408,
+      "step": 92080
+    },
+    {
+      "epoch": 15.022022838499185,
+      "grad_norm": 0.003844099584966898,
+      "learning_rate": 0.00017714721668609095,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 198914160,
+      "step": 92085
+    },
+    {
+      "epoch": 15.022838499184338,
+      "grad_norm": 0.003906742203980684,
+      "learning_rate": 0.00017709286800713202,
+      "loss": 0.025,
+      "num_input_tokens_seen": 198924304,
+      "step": 92090
+    },
+    {
+      "epoch": 15.023654159869494,
+      "grad_norm": 0.10455742478370667,
+      "learning_rate": 0.00017703852587229584,
+      "loss": 0.009,
+      "num_input_tokens_seen": 198935312,
+      "step": 92095
+    },
+    {
+      "epoch": 15.02446982055465,
+      "grad_norm": 0.00283225835300982,
+      "learning_rate": 0.00017698419028268358,
+      "loss": 0.001,
+      "num_input_tokens_seen": 198946640,
+      "step": 92100
+    },
+    {
+      "epoch": 15.025285481239804,
+      "grad_norm": 0.025962086394429207,
+      "learning_rate": 0.00017692986123939652,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 198956656,
+      "step": 92105
+    },
+    {
+      "epoch": 15.02610114192496,
+      "grad_norm": 0.008207517676055431,
+      "learning_rate": 0.00017687553874353563,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 198968304,
+      "step": 92110
+    },
+    {
+      "epoch": 15.026916802610113,
+      "grad_norm": 0.019631782546639442,
+      "learning_rate": 0.0001768212227962019,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 198979632,
+      "step": 92115
+    },
+    {
+      "epoch": 15.02773246329527,
+      "grad_norm": 0.018773145973682404,
+      "learning_rate": 0.00017676691339849605,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 198989808,
+      "step": 92120
+    },
+    {
+      "epoch": 15.028548123980425,
+      "grad_norm": 0.021854877471923828,
+      "learning_rate": 0.00017671261055151872,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 199001040,
+      "step": 92125
+    },
+    {
+      "epoch": 15.029363784665579,
+      "grad_norm": 0.05074403062462807,
+      "learning_rate": 0.00017665831425637052,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 199011568,
+      "step": 92130
+    },
+    {
+      "epoch": 15.030179445350734,
+      "grad_norm": 0.0030274391174316406,
+      "learning_rate": 0.0001766040245141517,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 199023312,
+      "step": 92135
+    },
+    {
+      "epoch": 15.030995106035888,
+      "grad_norm": 0.0029113576747477055,
+      "learning_rate": 0.00017654974132596263,
+      "loss": 0.0733,
+      "num_input_tokens_seen": 199033296,
+      "step": 92140
+    },
+    {
+      "epoch": 15.031810766721044,
+      "grad_norm": 0.010478825308382511,
+      "learning_rate": 0.00017649546469290333,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 199043856,
+      "step": 92145
+    },
+    {
+      "epoch": 15.0326264274062,
+      "grad_norm": 0.0034063730854541063,
+      "learning_rate": 0.00017644119461607388,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 199055056,
+      "step": 92150
+    },
+    {
+      "epoch": 15.033442088091354,
+      "grad_norm": 0.0036105539184063673,
+      "learning_rate": 0.0001763869310965741,
+      "loss": 0.2094,
+      "num_input_tokens_seen": 199065520,
+      "step": 92155
+    },
+    {
+      "epoch": 15.03425774877651,
+      "grad_norm": 0.0027978713624179363,
+      "learning_rate": 0.00017633267413550362,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 199076496,
+      "step": 92160
+    },
+    {
+      "epoch": 15.035073409461663,
+      "grad_norm": 0.0005292710848152637,
+      "learning_rate": 0.00017627842373396202,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 199086096,
+      "step": 92165
+    },
+    {
+      "epoch": 15.035889070146819,
+      "grad_norm": 0.014616936445236206,
+      "learning_rate": 0.00017622417989304913,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 199096016,
+      "step": 92170
+    },
+    {
+      "epoch": 15.036704730831975,
+      "grad_norm": 0.010652135126292706,
+      "learning_rate": 0.0001761699426138636,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 199106832,
+      "step": 92175
+    },
+    {
+      "epoch": 15.037520391517129,
+      "grad_norm": 0.03607923537492752,
+      "learning_rate": 0.00017611571189750537,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 199117680,
+      "step": 92180
+    },
+    {
+      "epoch": 15.038336052202284,
+      "grad_norm": 0.0021634928416460752,
+      "learning_rate": 0.00017606148774507274,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 199128368,
+      "step": 92185
+    },
+    {
+      "epoch": 15.039151712887438,
+      "grad_norm": 0.004082173574715853,
+      "learning_rate": 0.0001760072701576654,
+      "loss": 0.0655,
+      "num_input_tokens_seen": 199137872,
+      "step": 92190
+    },
+    {
+      "epoch": 15.039967373572594,
+      "grad_norm": 0.003854207694530487,
+      "learning_rate": 0.00017595305913638138,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 199148912,
+      "step": 92195
+    },
+    {
+      "epoch": 15.040783034257748,
+      "grad_norm": 0.027118144556879997,
+      "learning_rate": 0.00017589885468232002,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 199159888,
+      "step": 92200
+    },
+    {
+      "epoch": 15.041598694942904,
+      "grad_norm": 0.07028216123580933,
+      "learning_rate": 0.00017584465679657918,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 199170768,
+      "step": 92205
+    },
+    {
+      "epoch": 15.04241435562806,
+      "grad_norm": 0.001322569907642901,
+      "learning_rate": 0.00017579046548025796,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 199182800,
+      "step": 92210
+    },
+    {
+      "epoch": 15.043230016313213,
+      "grad_norm": 0.008521920070052147,
+      "learning_rate": 0.00017573628073445393,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 199194000,
+      "step": 92215
+    },
+    {
+      "epoch": 15.044045676998369,
+      "grad_norm": 0.007180997170507908,
+      "learning_rate": 0.00017568210256026578,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 199203888,
+      "step": 92220
+    },
+    {
+      "epoch": 15.044861337683523,
+      "grad_norm": 0.005620477721095085,
+      "learning_rate": 0.000175627930958791,
+      "loss": 0.008,
+      "num_input_tokens_seen": 199215184,
+      "step": 92225
+    },
+    {
+      "epoch": 15.045676998368679,
+      "grad_norm": 0.0026418042834848166,
+      "learning_rate": 0.0001755737659311278,
+      "loss": 0.0286,
+      "num_input_tokens_seen": 199225616,
+      "step": 92230
+    },
+    {
+      "epoch": 15.046492659053834,
+      "grad_norm": 0.004119323566555977,
+      "learning_rate": 0.00017551960747837382,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 199236304,
+      "step": 92235
+    },
+    {
+      "epoch": 15.047308319738988,
+      "grad_norm": 0.10706538707017899,
+      "learning_rate": 0.00017546545560162663,
+      "loss": 0.0644,
+      "num_input_tokens_seen": 199248496,
+      "step": 92240
+    },
+    {
+      "epoch": 15.048123980424144,
+      "grad_norm": 0.02891051024198532,
+      "learning_rate": 0.00017541131030198364,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 199258608,
+      "step": 92245
+    },
+    {
+      "epoch": 15.048939641109298,
+      "grad_norm": 0.00028251283220015466,
+      "learning_rate": 0.00017535717158054226,
+      "loss": 0.004,
+      "num_input_tokens_seen": 199268080,
+      "step": 92250
+    },
+    {
+      "epoch": 15.049755301794454,
+      "grad_norm": 0.001709071220830083,
+      "learning_rate": 0.00017530303943839965,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 199278800,
+      "step": 92255
+    },
+    {
+      "epoch": 15.05057096247961,
+      "grad_norm": 0.00671932240948081,
+      "learning_rate": 0.00017524891387665282,
+      "loss": 0.1309,
+      "num_input_tokens_seen": 199289360,
+      "step": 92260
+    },
+    {
+      "epoch": 15.051386623164763,
+      "grad_norm": 0.05627777799963951,
+      "learning_rate": 0.00017519479489639877,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 199300112,
+      "step": 92265
+    },
+    {
+      "epoch": 15.052202283849919,
+      "grad_norm": 0.008651613257825375,
+      "learning_rate": 0.0001751406824987342,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 199310768,
+      "step": 92270
+    },
+    {
+      "epoch": 15.053017944535073,
+      "grad_norm": 0.013139888644218445,
+      "learning_rate": 0.00017508657668475585,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 199320976,
+      "step": 92275
+    },
+    {
+      "epoch": 15.053833605220229,
+      "grad_norm": 0.015267265029251575,
+      "learning_rate": 0.00017503247745556,
+      "loss": 0.003,
+      "num_input_tokens_seen": 199331984,
+      "step": 92280
+    },
+    {
+      "epoch": 15.054649265905383,
+      "grad_norm": 0.008942226879298687,
+      "learning_rate": 0.0001749783848122436,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 199343568,
+      "step": 92285
+    },
+    {
+      "epoch": 15.055464926590538,
+      "grad_norm": 0.003952791448682547,
+      "learning_rate": 0.0001749242987559022,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 199353168,
+      "step": 92290
+    },
+    {
+      "epoch": 15.056280587275694,
+      "grad_norm": 0.014960017055273056,
+      "learning_rate": 0.00017487021928763263,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 199363728,
+      "step": 92295
+    },
+    {
+      "epoch": 15.057096247960848,
+      "grad_norm": 0.01710602268576622,
+      "learning_rate": 0.0001748161464085302,
+      "loss": 0.0973,
+      "num_input_tokens_seen": 199374192,
+      "step": 92300
+    },
+    {
+      "epoch": 15.057911908646004,
+      "grad_norm": 0.07812569290399551,
+      "learning_rate": 0.00017476208011969142,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 199386000,
+      "step": 92305
+    },
+    {
+      "epoch": 15.058727569331158,
+      "grad_norm": 0.0018170730909332633,
+      "learning_rate": 0.0001747080204222113,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 199396464,
+      "step": 92310
+    },
+    {
+      "epoch": 15.059543230016313,
+      "grad_norm": 0.021724211052060127,
+      "learning_rate": 0.00017465396731718619,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 199408176,
+      "step": 92315
+    },
+    {
+      "epoch": 15.060358890701469,
+      "grad_norm": 0.005055665969848633,
+      "learning_rate": 0.0001745999208057108,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 199419088,
+      "step": 92320
+    },
+    {
+      "epoch": 15.061174551386623,
+      "grad_norm": 0.05920695886015892,
+      "learning_rate": 0.00017454588088888117,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 199430736,
+      "step": 92325
+    },
+    {
+      "epoch": 15.061990212071779,
+      "grad_norm": 0.0020981167908757925,
+      "learning_rate": 0.00017449184756779178,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 199441456,
+      "step": 92330
+    },
+    {
+      "epoch": 15.062805872756933,
+      "grad_norm": 0.004952155519276857,
+      "learning_rate": 0.00017443782084353837,
+      "loss": 0.002,
+      "num_input_tokens_seen": 199451664,
+      "step": 92335
+    },
+    {
+      "epoch": 15.063621533442088,
+      "grad_norm": 0.04457241669297218,
+      "learning_rate": 0.0001743838007172152,
+      "loss": 0.004,
+      "num_input_tokens_seen": 199462800,
+      "step": 92340
+    },
+    {
+      "epoch": 15.064437194127244,
+      "grad_norm": 0.028170321136713028,
+      "learning_rate": 0.00017432978718991772,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 199473200,
+      "step": 92345
+    },
+    {
+      "epoch": 15.065252854812398,
+      "grad_norm": 0.015449753031134605,
+      "learning_rate": 0.00017427578026273988,
+      "loss": 0.046,
+      "num_input_tokens_seen": 199484144,
+      "step": 92350
+    },
+    {
+      "epoch": 15.066068515497554,
+      "grad_norm": 0.0020990390330553055,
+      "learning_rate": 0.00017422177993677696,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 199494800,
+      "step": 92355
+    },
+    {
+      "epoch": 15.066884176182707,
+      "grad_norm": 0.010104361921548843,
+      "learning_rate": 0.00017416778621312257,
+      "loss": 0.01,
+      "num_input_tokens_seen": 199505776,
+      "step": 92360
+    },
+    {
+      "epoch": 15.067699836867863,
+      "grad_norm": 0.010933980345726013,
+      "learning_rate": 0.00017411379909287167,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 199516784,
+      "step": 92365
+    },
+    {
+      "epoch": 15.068515497553017,
+      "grad_norm": 0.18525753915309906,
+      "learning_rate": 0.00017405981857711772,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 199528400,
+      "step": 92370
+    },
+    {
+      "epoch": 15.069331158238173,
+      "grad_norm": 0.0010363530600443482,
+      "learning_rate": 0.0001740058446669552,
+      "loss": 0.002,
+      "num_input_tokens_seen": 199540400,
+      "step": 92375
+    },
+    {
+      "epoch": 15.070146818923329,
+      "grad_norm": 0.2711713910102844,
+      "learning_rate": 0.00017395187736347778,
+      "loss": 0.01,
+      "num_input_tokens_seen": 199551408,
+      "step": 92380
+    },
+    {
+      "epoch": 15.070962479608482,
+      "grad_norm": 0.02081671543419361,
+      "learning_rate": 0.0001738979166677792,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 199560880,
+      "step": 92385
+    },
+    {
+      "epoch": 15.071778140293638,
+      "grad_norm": 0.001128299511037767,
+      "learning_rate": 0.00017384396258095304,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 199572144,
+      "step": 92390
+    },
+    {
+      "epoch": 15.072593800978792,
+      "grad_norm": 0.02086414210498333,
+      "learning_rate": 0.0001737900151040927,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 199584048,
+      "step": 92395
+    },
+    {
+      "epoch": 15.073409461663948,
+      "grad_norm": 0.16544772684574127,
+      "learning_rate": 0.00017373607423829159,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 199595824,
+      "step": 92400
+    },
+    {
+      "epoch": 15.074225122349104,
+      "grad_norm": 0.04024311900138855,
+      "learning_rate": 0.00017368213998464278,
+      "loss": 0.007,
+      "num_input_tokens_seen": 199607216,
+      "step": 92405
+    },
+    {
+      "epoch": 15.075040783034257,
+      "grad_norm": 0.000666849547997117,
+      "learning_rate": 0.00017362821234423936,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 199618736,
+      "step": 92410
+    },
+    {
+      "epoch": 15.075856443719413,
+      "grad_norm": 0.007606880739331245,
+      "learning_rate": 0.00017357429131817432,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 199629648,
+      "step": 92415
+    },
+    {
+      "epoch": 15.076672104404567,
+      "grad_norm": 0.001018756302073598,
+      "learning_rate": 0.0001735203769075403,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 199639888,
+      "step": 92420
+    },
+    {
+      "epoch": 15.077487765089723,
+      "grad_norm": 0.00730155361816287,
+      "learning_rate": 0.00017346646911342985,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 199651600,
+      "step": 92425
+    },
+    {
+      "epoch": 15.078303425774878,
+      "grad_norm": 0.0009757946827448905,
+      "learning_rate": 0.000173412567936936,
+      "loss": 0.002,
+      "num_input_tokens_seen": 199660848,
+      "step": 92430
+    },
+    {
+      "epoch": 15.079119086460032,
+      "grad_norm": 0.014223473146557808,
+      "learning_rate": 0.0001733586733791504,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 199671184,
+      "step": 92435
+    },
+    {
+      "epoch": 15.079934747145188,
+      "grad_norm": 0.0027299304492771626,
+      "learning_rate": 0.000173304785441166,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 199681136,
+      "step": 92440
+    },
+    {
+      "epoch": 15.080750407830342,
+      "grad_norm": 0.0019904670771211386,
+      "learning_rate": 0.00017325090412407423,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 199691344,
+      "step": 92445
+    },
+    {
+      "epoch": 15.081566068515498,
+      "grad_norm": 0.004478312563151121,
+      "learning_rate": 0.00017319702942896777,
+      "loss": 0.005,
+      "num_input_tokens_seen": 199701456,
+      "step": 92450
+    },
+    {
+      "epoch": 15.082381729200652,
+      "grad_norm": 0.014595243148505688,
+      "learning_rate": 0.00017314316135693775,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 199710800,
+      "step": 92455
+    },
+    {
+      "epoch": 15.083197389885807,
+      "grad_norm": 0.0018416885286569595,
+      "learning_rate": 0.00017308929990907652,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 199721072,
+      "step": 92460
+    },
+    {
+      "epoch": 15.084013050570963,
+      "grad_norm": 0.005210902541875839,
+      "learning_rate": 0.000173035445086475,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 199732816,
+      "step": 92465
+    },
+    {
+      "epoch": 15.084828711256117,
+      "grad_norm": 0.013290762901306152,
+      "learning_rate": 0.0001729815968902253,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 199743152,
+      "step": 92470
+    },
+    {
+      "epoch": 15.085644371941273,
+      "grad_norm": 0.0032980344258248806,
+      "learning_rate": 0.0001729277553214181,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 199753680,
+      "step": 92475
+    },
+    {
+      "epoch": 15.086460032626427,
+      "grad_norm": 0.006125927437096834,
+      "learning_rate": 0.00017287392038114514,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 199764400,
+      "step": 92480
+    },
+    {
+      "epoch": 15.087275693311582,
+      "grad_norm": 0.00176598085090518,
+      "learning_rate": 0.00017282009207049686,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 199774608,
+      "step": 92485
+    },
+    {
+      "epoch": 15.088091353996738,
+      "grad_norm": 0.0010756379924714565,
+      "learning_rate": 0.00017276627039056463,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 199784912,
+      "step": 92490
+    },
+    {
+      "epoch": 15.088907014681892,
+      "grad_norm": 0.020969685167074203,
+      "learning_rate": 0.00017271245534243912,
+      "loss": 0.1436,
+      "num_input_tokens_seen": 199795024,
+      "step": 92495
+    },
+    {
+      "epoch": 15.089722675367048,
+      "grad_norm": 0.010281615890562534,
+      "learning_rate": 0.00017265864692721084,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 199805904,
+      "step": 92500
+    },
+    {
+      "epoch": 15.090538336052202,
+      "grad_norm": 0.0017593882512301207,
+      "learning_rate": 0.00017260484514597035,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 199816208,
+      "step": 92505
+    },
+    {
+      "epoch": 15.091353996737357,
+      "grad_norm": 0.001155554549768567,
+      "learning_rate": 0.00017255104999980799,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 199826544,
+      "step": 92510
+    },
+    {
+      "epoch": 15.092169657422513,
+      "grad_norm": 0.010744703002274036,
+      "learning_rate": 0.00017249726148981399,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 199837360,
+      "step": 92515
+    },
+    {
+      "epoch": 15.092985318107667,
+      "grad_norm": 0.011290965601801872,
+      "learning_rate": 0.00017244347961707852,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 199848176,
+      "step": 92520
+    },
+    {
+      "epoch": 15.093800978792823,
+      "grad_norm": 0.006745223421603441,
+      "learning_rate": 0.00017238970438269142,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 199859344,
+      "step": 92525
+    },
+    {
+      "epoch": 15.094616639477977,
+      "grad_norm": 0.003182594198733568,
+      "learning_rate": 0.00017233593578774254,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 199869520,
+      "step": 92530
+    },
+    {
+      "epoch": 15.095432300163132,
+      "grad_norm": 0.1688506007194519,
+      "learning_rate": 0.00017228217383332163,
+      "loss": 0.008,
+      "num_input_tokens_seen": 199880592,
+      "step": 92535
+    },
+    {
+      "epoch": 15.096247960848286,
+      "grad_norm": 0.0019982391968369484,
+      "learning_rate": 0.00017222841852051817,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 199889936,
+      "step": 92540
+    },
+    {
+      "epoch": 15.097063621533442,
+      "grad_norm": 0.01286247931420803,
+      "learning_rate": 0.0001721746698504217,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 199899376,
+      "step": 92545
+    },
+    {
+      "epoch": 15.097879282218598,
+      "grad_norm": 0.0021901631262153387,
+      "learning_rate": 0.0001721209278241213,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 199910640,
+      "step": 92550
+    },
+    {
+      "epoch": 15.098694942903752,
+      "grad_norm": 0.31956011056900024,
+      "learning_rate": 0.00017206719244270636,
+      "loss": 0.0241,
+      "num_input_tokens_seen": 199921872,
+      "step": 92555
+    },
+    {
+      "epoch": 15.099510603588907,
+      "grad_norm": 0.024079471826553345,
+      "learning_rate": 0.00017201346370726572,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 199932624,
+      "step": 92560
+    },
+    {
+      "epoch": 15.100326264274061,
+      "grad_norm": 0.00888835173100233,
+      "learning_rate": 0.00017195974161888833,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 199943664,
+      "step": 92565
+    },
+    {
+      "epoch": 15.101141924959217,
+      "grad_norm": 0.13645078241825104,
+      "learning_rate": 0.00017190602617866274,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 199953488,
+      "step": 92570
+    },
+    {
+      "epoch": 15.101957585644373,
+      "grad_norm": 0.004840241279453039,
+      "learning_rate": 0.0001718523173876781,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 199962768,
+      "step": 92575
+    },
+    {
+      "epoch": 15.102773246329527,
+      "grad_norm": 0.0016001993790268898,
+      "learning_rate": 0.00017179861524702216,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 199974352,
+      "step": 92580
+    },
+    {
+      "epoch": 15.103588907014682,
+      "grad_norm": 0.004659554921090603,
+      "learning_rate": 0.000171744919757784,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 199983824,
+      "step": 92585
+    },
+    {
+      "epoch": 15.104404567699836,
+      "grad_norm": 0.010251539759337902,
+      "learning_rate": 0.00017169123092105115,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 199994704,
+      "step": 92590
+    },
+    {
+      "epoch": 15.105220228384992,
+      "grad_norm": 0.0009150686673820019,
+      "learning_rate": 0.0001716375487379121,
+      "loss": 0.0343,
+      "num_input_tokens_seen": 200007824,
+      "step": 92595
+    },
+    {
+      "epoch": 15.106035889070148,
+      "grad_norm": 0.0012699142098426819,
+      "learning_rate": 0.00017158387320945472,
+      "loss": 0.0291,
+      "num_input_tokens_seen": 200016880,
+      "step": 92600
+    },
+    {
+      "epoch": 15.106851549755302,
+      "grad_norm": 0.030986489728093147,
+      "learning_rate": 0.0001715302043367668,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 200028464,
+      "step": 92605
+    },
+    {
+      "epoch": 15.107667210440457,
+      "grad_norm": 0.007337637711316347,
+      "learning_rate": 0.00017147654212093595,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 200038480,
+      "step": 92610
+    },
+    {
+      "epoch": 15.108482871125611,
+      "grad_norm": 0.0179149117320776,
+      "learning_rate": 0.00017142288656304977,
+      "loss": 0.003,
+      "num_input_tokens_seen": 200049328,
+      "step": 92615
+    },
+    {
+      "epoch": 15.109298531810767,
+      "grad_norm": 0.010523026809096336,
+      "learning_rate": 0.0001713692376641956,
+      "loss": 0.1059,
+      "num_input_tokens_seen": 200059728,
+      "step": 92620
+    },
+    {
+      "epoch": 15.11011419249592,
+      "grad_norm": 0.006119042169302702,
+      "learning_rate": 0.0001713155954254607,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 200069552,
+      "step": 92625
+    },
+    {
+      "epoch": 15.110929853181077,
+      "grad_norm": 0.01386276911944151,
+      "learning_rate": 0.00017126195984793225,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 200079568,
+      "step": 92630
+    },
+    {
+      "epoch": 15.111745513866232,
+      "grad_norm": 0.011046777479350567,
+      "learning_rate": 0.0001712083309326972,
+      "loss": 0.005,
+      "num_input_tokens_seen": 200089776,
+      "step": 92635
+    },
+    {
+      "epoch": 15.112561174551386,
+      "grad_norm": 0.0011883076513186097,
+      "learning_rate": 0.0001711547086808425,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 200101200,
+      "step": 92640
+    },
+    {
+      "epoch": 15.113376835236542,
+      "grad_norm": 0.01813393086194992,
+      "learning_rate": 0.00017110109309345468,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 200111952,
+      "step": 92645
+    },
+    {
+      "epoch": 15.114192495921696,
+      "grad_norm": 0.003187261987477541,
+      "learning_rate": 0.00017104748417162054,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 200123184,
+      "step": 92650
+    },
+    {
+      "epoch": 15.115008156606851,
+      "grad_norm": 0.06230101361870766,
+      "learning_rate": 0.0001709938819164264,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 200134000,
+      "step": 92655
+    },
+    {
+      "epoch": 15.115823817292007,
+      "grad_norm": 0.08341676741838455,
+      "learning_rate": 0.00017094028632895863,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 200144976,
+      "step": 92660
+    },
+    {
+      "epoch": 15.116639477977161,
+      "grad_norm": 0.007194597739726305,
+      "learning_rate": 0.0001708866974103034,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 200157008,
+      "step": 92665
+    },
+    {
+      "epoch": 15.117455138662317,
+      "grad_norm": 0.08438636362552643,
+      "learning_rate": 0.0001708331151615467,
+      "loss": 0.124,
+      "num_input_tokens_seen": 200168656,
+      "step": 92670
+    },
+    {
+      "epoch": 15.11827079934747,
+      "grad_norm": 0.001630541984923184,
+      "learning_rate": 0.00017077953958377458,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 200180368,
+      "step": 92675
+    },
+    {
+      "epoch": 15.119086460032626,
+      "grad_norm": 0.001464636530727148,
+      "learning_rate": 0.0001707259706780727,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 200190864,
+      "step": 92680
+    },
+    {
+      "epoch": 15.119902120717782,
+      "grad_norm": 0.005892497021704912,
+      "learning_rate": 0.00017067240844552672,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 200200528,
+      "step": 92685
+    },
+    {
+      "epoch": 15.120717781402936,
+      "grad_norm": 0.002837817883118987,
+      "learning_rate": 0.00017061885288722218,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 200212144,
+      "step": 92690
+    },
+    {
+      "epoch": 15.121533442088092,
+      "grad_norm": 0.014140215702354908,
+      "learning_rate": 0.00017056530400424446,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 200222864,
+      "step": 92695
+    },
+    {
+      "epoch": 15.122349102773246,
+      "grad_norm": 0.003915575798600912,
+      "learning_rate": 0.00017051176179767858,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 200234320,
+      "step": 92700
+    },
+    {
+      "epoch": 15.123164763458401,
+      "grad_norm": 0.007146508898586035,
+      "learning_rate": 0.00017045822626861017,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 200244912,
+      "step": 92705
+    },
+    {
+      "epoch": 15.123980424143557,
+      "grad_norm": 0.06835640966892242,
+      "learning_rate": 0.00017040469741812353,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 200256784,
+      "step": 92710
+    },
+    {
+      "epoch": 15.124796084828711,
+      "grad_norm": 0.0016879525501281023,
+      "learning_rate": 0.00017035117524730398,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 200267472,
+      "step": 92715
+    },
+    {
+      "epoch": 15.125611745513867,
+      "grad_norm": 0.005772008560597897,
+      "learning_rate": 0.00017029765975723604,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 200278288,
+      "step": 92720
+    },
+    {
+      "epoch": 15.12642740619902,
+      "grad_norm": 0.0018967565847560763,
+      "learning_rate": 0.0001702441509490043,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 200288976,
+      "step": 92725
+    },
+    {
+      "epoch": 15.127243066884176,
+      "grad_norm": 0.02684551104903221,
+      "learning_rate": 0.00017019064882369317,
+      "loss": 0.1522,
+      "num_input_tokens_seen": 200299376,
+      "step": 92730
+    },
+    {
+      "epoch": 15.12805872756933,
+      "grad_norm": 0.018632011488080025,
+      "learning_rate": 0.00017013715338238695,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 200309680,
+      "step": 92735
+    },
+    {
+      "epoch": 15.128874388254486,
+      "grad_norm": 0.0026431684382259846,
+      "learning_rate": 0.00017008366462616976,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 200319696,
+      "step": 92740
+    },
+    {
+      "epoch": 15.129690048939642,
+      "grad_norm": 0.014334792271256447,
+      "learning_rate": 0.00017003018255612562,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 200330864,
+      "step": 92745
+    },
+    {
+      "epoch": 15.130505709624796,
+      "grad_norm": 0.0024962888564914465,
+      "learning_rate": 0.00016997670717333846,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 200341648,
+      "step": 92750
+    },
+    {
+      "epoch": 15.131321370309951,
+      "grad_norm": 0.03874950855970383,
+      "learning_rate": 0.00016992323847889195,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 200352816,
+      "step": 92755
+    },
+    {
+      "epoch": 15.132137030995105,
+      "grad_norm": 0.001166831818409264,
+      "learning_rate": 0.00016986977647386975,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 200364208,
+      "step": 92760
+    },
+    {
+      "epoch": 15.132952691680261,
+      "grad_norm": 0.11291606724262238,
+      "learning_rate": 0.00016981632115935536,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 200374224,
+      "step": 92765
+    },
+    {
+      "epoch": 15.133768352365417,
+      "grad_norm": 0.0012088071089237928,
+      "learning_rate": 0.00016976287253643208,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 200386064,
+      "step": 92770
+    },
+    {
+      "epoch": 15.13458401305057,
+      "grad_norm": 0.0039956653490662575,
+      "learning_rate": 0.0001697094306061831,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 200396240,
+      "step": 92775
+    },
+    {
+      "epoch": 15.135399673735726,
+      "grad_norm": 0.036707255989313126,
+      "learning_rate": 0.00016965599536969156,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 200406672,
+      "step": 92780
+    },
+    {
+      "epoch": 15.13621533442088,
+      "grad_norm": 0.016374798491597176,
+      "learning_rate": 0.00016960256682804032,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 200418320,
+      "step": 92785
+    },
+    {
+      "epoch": 15.137030995106036,
+      "grad_norm": 0.008576109074056149,
+      "learning_rate": 0.00016954914498231217,
+      "loss": 0.005,
+      "num_input_tokens_seen": 200429840,
+      "step": 92790
+    },
+    {
+      "epoch": 15.137846655791192,
+      "grad_norm": 0.0024898925330489874,
+      "learning_rate": 0.00016949572983358986,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 200440784,
+      "step": 92795
+    },
+    {
+      "epoch": 15.138662316476346,
+      "grad_norm": 0.014025689102709293,
+      "learning_rate": 0.0001694423213829558,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 200452048,
+      "step": 92800
+    },
+    {
+      "epoch": 15.139477977161501,
+      "grad_norm": 0.06928585469722748,
+      "learning_rate": 0.00016938891963149232,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 200462000,
+      "step": 92805
+    },
+    {
+      "epoch": 15.140293637846655,
+      "grad_norm": 0.0028578825294971466,
+      "learning_rate": 0.00016933552458028213,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 200472176,
+      "step": 92810
+    },
+    {
+      "epoch": 15.141109298531811,
+      "grad_norm": 0.04835427552461624,
+      "learning_rate": 0.0001692821362304066,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 200483216,
+      "step": 92815
+    },
+    {
+      "epoch": 15.141924959216965,
+      "grad_norm": 0.0028014755807816982,
+      "learning_rate": 0.00016922875458294856,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 200494160,
+      "step": 92820
+    },
+    {
+      "epoch": 15.14274061990212,
+      "grad_norm": 0.0011742091737687588,
+      "learning_rate": 0.00016917537963898903,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 200504560,
+      "step": 92825
+    },
+    {
+      "epoch": 15.143556280587276,
+      "grad_norm": 0.007004075683653355,
+      "learning_rate": 0.0001691220113996105,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 200515440,
+      "step": 92830
+    },
+    {
+      "epoch": 15.14437194127243,
+      "grad_norm": 0.01578759215772152,
+      "learning_rate": 0.00016906864986589377,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 200525712,
+      "step": 92835
+    },
+    {
+      "epoch": 15.145187601957586,
+      "grad_norm": 0.0015252482844516635,
+      "learning_rate": 0.00016901529503892098,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 200536784,
+      "step": 92840
+    },
+    {
+      "epoch": 15.14600326264274,
+      "grad_norm": 0.006211650092154741,
+      "learning_rate": 0.00016896194691977284,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 200548176,
+      "step": 92845
+    },
+    {
+      "epoch": 15.146818923327896,
+      "grad_norm": 0.001195227261632681,
+      "learning_rate": 0.00016890860550953092,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 200559920,
+      "step": 92850
+    },
+    {
+      "epoch": 15.147634584013051,
+      "grad_norm": 0.00874117948114872,
+      "learning_rate": 0.00016885527080927616,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 200569616,
+      "step": 92855
+    },
+    {
+      "epoch": 15.148450244698205,
+      "grad_norm": 0.1447891891002655,
+      "learning_rate": 0.00016880194282008941,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 200580464,
+      "step": 92860
+    },
+    {
+      "epoch": 15.149265905383361,
+      "grad_norm": 0.004833567887544632,
+      "learning_rate": 0.0001687486215430515,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 200592272,
+      "step": 92865
+    },
+    {
+      "epoch": 15.150081566068515,
+      "grad_norm": 0.009706101380288601,
+      "learning_rate": 0.0001686953069792429,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 200603824,
+      "step": 92870
+    },
+    {
+      "epoch": 15.15089722675367,
+      "grad_norm": 0.002112502697855234,
+      "learning_rate": 0.00016864199912974427,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 200613584,
+      "step": 92875
+    },
+    {
+      "epoch": 15.151712887438826,
+      "grad_norm": 0.008575985208153725,
+      "learning_rate": 0.00016858869799563585,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 200624464,
+      "step": 92880
+    },
+    {
+      "epoch": 15.15252854812398,
+      "grad_norm": 0.07412799447774887,
+      "learning_rate": 0.0001685354035779979,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 200635280,
+      "step": 92885
+    },
+    {
+      "epoch": 15.153344208809136,
+      "grad_norm": 0.00945495069026947,
+      "learning_rate": 0.00016848211587791045,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 200645968,
+      "step": 92890
+    },
+    {
+      "epoch": 15.15415986949429,
+      "grad_norm": 0.0040870546363294125,
+      "learning_rate": 0.00016842883489645355,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 200656016,
+      "step": 92895
+    },
+    {
+      "epoch": 15.154975530179446,
+      "grad_norm": 0.07097148895263672,
+      "learning_rate": 0.00016837556063470688,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 200665968,
+      "step": 92900
+    },
+    {
+      "epoch": 15.1557911908646,
+      "grad_norm": 0.21168480813503265,
+      "learning_rate": 0.0001683222930937502,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 200677296,
+      "step": 92905
+    },
+    {
+      "epoch": 15.156606851549755,
+      "grad_norm": 0.009473263286054134,
+      "learning_rate": 0.00016826903227466284,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 200687472,
+      "step": 92910
+    },
+    {
+      "epoch": 15.15742251223491,
+      "grad_norm": 0.16500073671340942,
+      "learning_rate": 0.00016821577817852473,
+      "loss": 0.0242,
+      "num_input_tokens_seen": 200698704,
+      "step": 92915
+    },
+    {
+      "epoch": 15.158238172920065,
+      "grad_norm": 0.013035625219345093,
+      "learning_rate": 0.00016816253080641441,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 200708272,
+      "step": 92920
+    },
+    {
+      "epoch": 15.15905383360522,
+      "grad_norm": 0.08334468305110931,
+      "learning_rate": 0.00016810929015941174,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 200718608,
+      "step": 92925
+    },
+    {
+      "epoch": 15.159869494290374,
+      "grad_norm": 0.0007003924110904336,
+      "learning_rate": 0.00016805605623859492,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 200730288,
+      "step": 92930
+    },
+    {
+      "epoch": 15.16068515497553,
+      "grad_norm": 0.003557375865057111,
+      "learning_rate": 0.0001680028290450436,
+      "loss": 0.1876,
+      "num_input_tokens_seen": 200741360,
+      "step": 92935
+    },
+    {
+      "epoch": 15.161500815660686,
+      "grad_norm": 0.012556234374642372,
+      "learning_rate": 0.00016794960857983583,
+      "loss": 0.2872,
+      "num_input_tokens_seen": 200753968,
+      "step": 92940
+    },
+    {
+      "epoch": 15.16231647634584,
+      "grad_norm": 0.03704483434557915,
+      "learning_rate": 0.00016789639484405077,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 200764112,
+      "step": 92945
+    },
+    {
+      "epoch": 15.163132137030995,
+      "grad_norm": 0.002027664100751281,
+      "learning_rate": 0.00016784318783876623,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 200776208,
+      "step": 92950
+    },
+    {
+      "epoch": 15.16394779771615,
+      "grad_norm": 0.005491977091878653,
+      "learning_rate": 0.0001677899875650612,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 200787152,
+      "step": 92955
+    },
+    {
+      "epoch": 15.164763458401305,
+      "grad_norm": 0.0017870229203253984,
+      "learning_rate": 0.00016773679402401321,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 200799024,
+      "step": 92960
+    },
+    {
+      "epoch": 15.16557911908646,
+      "grad_norm": 0.038198426365852356,
+      "learning_rate": 0.0001676836072167009,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 200810032,
+      "step": 92965
+    },
+    {
+      "epoch": 15.166394779771615,
+      "grad_norm": 0.002829183591529727,
+      "learning_rate": 0.0001676304271442015,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 200820816,
+      "step": 92970
+    },
+    {
+      "epoch": 15.16721044045677,
+      "grad_norm": 0.19888825714588165,
+      "learning_rate": 0.00016757725380759354,
+      "loss": 0.1378,
+      "num_input_tokens_seen": 200830128,
+      "step": 92975
+    },
+    {
+      "epoch": 15.168026101141924,
+      "grad_norm": 0.01338116079568863,
+      "learning_rate": 0.00016752408720795386,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 200840336,
+      "step": 92980
+    },
+    {
+      "epoch": 15.16884176182708,
+      "grad_norm": 0.00568029098212719,
+      "learning_rate": 0.00016747092734636067,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 200851376,
+      "step": 92985
+    },
+    {
+      "epoch": 15.169657422512234,
+      "grad_norm": 0.1049458459019661,
+      "learning_rate": 0.0001674177742238906,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 200863280,
+      "step": 92990
+    },
+    {
+      "epoch": 15.17047308319739,
+      "grad_norm": 0.002612957265228033,
+      "learning_rate": 0.0001673646278416215,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 200874224,
+      "step": 92995
+    },
+    {
+      "epoch": 15.171288743882545,
+      "grad_norm": 0.0045676566660404205,
+      "learning_rate": 0.00016731148820063013,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 200885104,
+      "step": 93000
+    },
+    {
+      "epoch": 15.1721044045677,
+      "grad_norm": 0.0016079711494967341,
+      "learning_rate": 0.00016725835530199352,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 200895568,
+      "step": 93005
+    },
+    {
+      "epoch": 15.172920065252855,
+      "grad_norm": 0.002138703130185604,
+      "learning_rate": 0.00016720522914678843,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 200907248,
+      "step": 93010
+    },
+    {
+      "epoch": 15.173735725938009,
+      "grad_norm": 0.005183606408536434,
+      "learning_rate": 0.00016715210973609158,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 200918064,
+      "step": 93015
+    },
+    {
+      "epoch": 15.174551386623165,
+      "grad_norm": 0.026629121974110603,
+      "learning_rate": 0.00016709899707097948,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 200928560,
+      "step": 93020
+    },
+    {
+      "epoch": 15.17536704730832,
+      "grad_norm": 0.018558355048298836,
+      "learning_rate": 0.0001670458911525285,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 200938448,
+      "step": 93025
+    },
+    {
+      "epoch": 15.176182707993474,
+      "grad_norm": 0.009968779049813747,
+      "learning_rate": 0.00016699279198181493,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 200949488,
+      "step": 93030
+    },
+    {
+      "epoch": 15.17699836867863,
+      "grad_norm": 0.0031037803273648024,
+      "learning_rate": 0.00016693969955991483,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 200961072,
+      "step": 93035
+    },
+    {
+      "epoch": 15.177814029363784,
+      "grad_norm": 0.029598917812108994,
+      "learning_rate": 0.00016688661388790434,
+      "loss": 0.0806,
+      "num_input_tokens_seen": 200972752,
+      "step": 93040
+    },
+    {
+      "epoch": 15.17862969004894,
+      "grad_norm": 0.0018472730880603194,
+      "learning_rate": 0.00016683353496685895,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 200983920,
+      "step": 93045
+    },
+    {
+      "epoch": 15.179445350734095,
+      "grad_norm": 0.018483439460396767,
+      "learning_rate": 0.00016678046279785497,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 200995408,
+      "step": 93050
+    },
+    {
+      "epoch": 15.18026101141925,
+      "grad_norm": 0.06471030414104462,
+      "learning_rate": 0.00016672739738196734,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 201005616,
+      "step": 93055
+    },
+    {
+      "epoch": 15.181076672104405,
+      "grad_norm": 0.000771304068621248,
+      "learning_rate": 0.0001666743387202721,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 201015344,
+      "step": 93060
+    },
+    {
+      "epoch": 15.181892332789559,
+      "grad_norm": 0.0015893502859398723,
+      "learning_rate": 0.00016662128681384388,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 201026448,
+      "step": 93065
+    },
+    {
+      "epoch": 15.182707993474715,
+      "grad_norm": 0.0014162855222821236,
+      "learning_rate": 0.00016656824166375855,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 201037456,
+      "step": 93070
+    },
+    {
+      "epoch": 15.18352365415987,
+      "grad_norm": 0.01789838634431362,
+      "learning_rate": 0.0001665152032710905,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 201048624,
+      "step": 93075
+    },
+    {
+      "epoch": 15.184339314845024,
+      "grad_norm": 0.0031051000114530325,
+      "learning_rate": 0.0001664621716369152,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 201059760,
+      "step": 93080
+    },
+    {
+      "epoch": 15.18515497553018,
+      "grad_norm": 0.0025171549059450626,
+      "learning_rate": 0.00016640914676230677,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 201072208,
+      "step": 93085
+    },
+    {
+      "epoch": 15.185970636215334,
+      "grad_norm": 0.08467067778110504,
+      "learning_rate": 0.00016635612864834048,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 201082416,
+      "step": 93090
+    },
+    {
+      "epoch": 15.18678629690049,
+      "grad_norm": 0.012077942490577698,
+      "learning_rate": 0.00016630311729609026,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 201092944,
+      "step": 93095
+    },
+    {
+      "epoch": 15.187601957585644,
+      "grad_norm": 0.10698788613080978,
+      "learning_rate": 0.00016625011270663098,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 201103504,
+      "step": 93100
+    },
+    {
+      "epoch": 15.1884176182708,
+      "grad_norm": 0.005380884278565645,
+      "learning_rate": 0.00016619711488103622,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 201115568,
+      "step": 93105
+    },
+    {
+      "epoch": 15.189233278955955,
+      "grad_norm": 0.025823216885328293,
+      "learning_rate": 0.0001661441238203807,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 201126000,
+      "step": 93110
+    },
+    {
+      "epoch": 15.190048939641109,
+      "grad_norm": 0.012832976877689362,
+      "learning_rate": 0.00016609113952573774,
+      "loss": 0.003,
+      "num_input_tokens_seen": 201138064,
+      "step": 93115
+    },
+    {
+      "epoch": 15.190864600326265,
+      "grad_norm": 0.005685700569301844,
+      "learning_rate": 0.0001660381619981817,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 201148368,
+      "step": 93120
+    },
+    {
+      "epoch": 15.191680261011419,
+      "grad_norm": 0.010949775576591492,
+      "learning_rate": 0.0001659851912387857,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 201159280,
+      "step": 93125
+    },
+    {
+      "epoch": 15.192495921696574,
+      "grad_norm": 0.003707254771143198,
+      "learning_rate": 0.00016593222724862366,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 201170032,
+      "step": 93130
+    },
+    {
+      "epoch": 15.19331158238173,
+      "grad_norm": 0.002400952624157071,
+      "learning_rate": 0.0001658792700287689,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 201179984,
+      "step": 93135
+    },
+    {
+      "epoch": 15.194127243066884,
+      "grad_norm": 0.014919549226760864,
+      "learning_rate": 0.00016582631958029454,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 201189872,
+      "step": 93140
+    },
+    {
+      "epoch": 15.19494290375204,
+      "grad_norm": 0.0005131821380928159,
+      "learning_rate": 0.00016577337590427372,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 201201392,
+      "step": 93145
+    },
+    {
+      "epoch": 15.195758564437194,
+      "grad_norm": 0.029786646366119385,
+      "learning_rate": 0.00016572043900177946,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 201213104,
+      "step": 93150
+    },
+    {
+      "epoch": 15.19657422512235,
+      "grad_norm": 0.004074044059962034,
+      "learning_rate": 0.0001656675088738846,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 201224432,
+      "step": 93155
+    },
+    {
+      "epoch": 15.197389885807505,
+      "grad_norm": 0.007668066769838333,
+      "learning_rate": 0.00016561458552166174,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 201235248,
+      "step": 93160
+    },
+    {
+      "epoch": 15.198205546492659,
+      "grad_norm": 0.8521307110786438,
+      "learning_rate": 0.00016556166894618352,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 201245168,
+      "step": 93165
+    },
+    {
+      "epoch": 15.199021207177815,
+      "grad_norm": 0.004517595283687115,
+      "learning_rate": 0.00016550875914852237,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 201254384,
+      "step": 93170
+    },
+    {
+      "epoch": 15.199836867862969,
+      "grad_norm": 0.0450996570289135,
+      "learning_rate": 0.00016545585612975051,
+      "loss": 0.0451,
+      "num_input_tokens_seen": 201265776,
+      "step": 93175
+    },
+    {
+      "epoch": 15.200652528548124,
+      "grad_norm": 0.0036346532870084047,
+      "learning_rate": 0.00016540295989094018,
+      "loss": 0.002,
+      "num_input_tokens_seen": 201277136,
+      "step": 93180
+    },
+    {
+      "epoch": 15.201468189233278,
+      "grad_norm": 0.008076614700257778,
+      "learning_rate": 0.0001653500704331633,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 201287856,
+      "step": 93185
+    },
+    {
+      "epoch": 15.202283849918434,
+      "grad_norm": 0.001289551379159093,
+      "learning_rate": 0.0001652971877574916,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 201297168,
+      "step": 93190
+    },
+    {
+      "epoch": 15.20309951060359,
+      "grad_norm": 0.1675768941640854,
+      "learning_rate": 0.00016524431186499733,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 201307920,
+      "step": 93195
+    },
+    {
+      "epoch": 15.203915171288743,
+      "grad_norm": 0.00890275463461876,
+      "learning_rate": 0.0001651914427567514,
+      "loss": 0.1466,
+      "num_input_tokens_seen": 201318704,
+      "step": 93200
+    },
+    {
+      "epoch": 15.2047308319739,
+      "grad_norm": 0.0075667728669941425,
+      "learning_rate": 0.000165138580433826,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 201329360,
+      "step": 93205
+    },
+    {
+      "epoch": 15.205546492659053,
+      "grad_norm": 0.019372614100575447,
+      "learning_rate": 0.00016508572489729172,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 201340528,
+      "step": 93210
+    },
+    {
+      "epoch": 15.206362153344209,
+      "grad_norm": 0.013845077715814114,
+      "learning_rate": 0.00016503287614822042,
+      "loss": 0.003,
+      "num_input_tokens_seen": 201351632,
+      "step": 93215
+    },
+    {
+      "epoch": 15.207177814029365,
+      "grad_norm": 0.012783776968717575,
+      "learning_rate": 0.00016498003418768248,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 201362704,
+      "step": 93220
+    },
+    {
+      "epoch": 15.207993474714518,
+      "grad_norm": 0.044286951422691345,
+      "learning_rate": 0.00016492719901674947,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 201373264,
+      "step": 93225
+    },
+    {
+      "epoch": 15.208809135399674,
+      "grad_norm": 0.0009127430967055261,
+      "learning_rate": 0.00016487437063649152,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 201382928,
+      "step": 93230
+    },
+    {
+      "epoch": 15.209624796084828,
+      "grad_norm": 0.017166294157505035,
+      "learning_rate": 0.00016482154904797974,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 201394896,
+      "step": 93235
+    },
+    {
+      "epoch": 15.210440456769984,
+      "grad_norm": 0.0013074681628495455,
+      "learning_rate": 0.0001647687342522845,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 201403952,
+      "step": 93240
+    },
+    {
+      "epoch": 15.21125611745514,
+      "grad_norm": 0.0034039251040667295,
+      "learning_rate": 0.00016471592625047615,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 201415856,
+      "step": 93245
+    },
+    {
+      "epoch": 15.212071778140293,
+      "grad_norm": 0.00026853723102249205,
+      "learning_rate": 0.00016466312504362485,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 201426800,
+      "step": 93250
+    },
+    {
+      "epoch": 15.21288743882545,
+      "grad_norm": 0.02092001773416996,
+      "learning_rate": 0.00016461033063280074,
+      "loss": 0.035,
+      "num_input_tokens_seen": 201437488,
+      "step": 93255
+    },
+    {
+      "epoch": 15.213703099510603,
+      "grad_norm": 0.0905800610780716,
+      "learning_rate": 0.00016455754301907376,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 201448336,
+      "step": 93260
+    },
+    {
+      "epoch": 15.214518760195759,
+      "grad_norm": 0.013709750957787037,
+      "learning_rate": 0.00016450476220351368,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 201459536,
+      "step": 93265
+    },
+    {
+      "epoch": 15.215334420880913,
+      "grad_norm": 0.017409684136509895,
+      "learning_rate": 0.00016445198818719025,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 201468944,
+      "step": 93270
+    },
+    {
+      "epoch": 15.216150081566068,
+      "grad_norm": 0.0011702359188348055,
+      "learning_rate": 0.00016439922097117294,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 201479664,
+      "step": 93275
+    },
+    {
+      "epoch": 15.216965742251224,
+      "grad_norm": 0.012537084519863129,
+      "learning_rate": 0.00016434646055653112,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 201490064,
+      "step": 93280
+    },
+    {
+      "epoch": 15.217781402936378,
+      "grad_norm": 0.01967203989624977,
+      "learning_rate": 0.0001642937069443341,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 201501776,
+      "step": 93285
+    },
+    {
+      "epoch": 15.218597063621534,
+      "grad_norm": 0.05715855583548546,
+      "learning_rate": 0.00016424096013565098,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 201513040,
+      "step": 93290
+    },
+    {
+      "epoch": 15.219412724306688,
+      "grad_norm": 0.024029148742556572,
+      "learning_rate": 0.00016418822013155077,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 201523856,
+      "step": 93295
+    },
+    {
+      "epoch": 15.220228384991843,
+      "grad_norm": 0.5616940855979919,
+      "learning_rate": 0.00016413548693310225,
+      "loss": 0.1153,
+      "num_input_tokens_seen": 201535376,
+      "step": 93300
+    },
+    {
+      "epoch": 15.221044045676999,
+      "grad_norm": 0.005037497729063034,
+      "learning_rate": 0.00016408276054137417,
+      "loss": 0.0673,
+      "num_input_tokens_seen": 201546064,
+      "step": 93305
+    },
+    {
+      "epoch": 15.221859706362153,
+      "grad_norm": 0.006846841424703598,
+      "learning_rate": 0.00016403004095743513,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 201557392,
+      "step": 93310
+    },
+    {
+      "epoch": 15.222675367047309,
+      "grad_norm": 0.0015953175025060773,
+      "learning_rate": 0.00016397732818235344,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 201568944,
+      "step": 93315
+    },
+    {
+      "epoch": 15.223491027732463,
+      "grad_norm": 0.022259226068854332,
+      "learning_rate": 0.0001639246222171975,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 201579376,
+      "step": 93320
+    },
+    {
+      "epoch": 15.224306688417618,
+      "grad_norm": 0.01390728447586298,
+      "learning_rate": 0.0001638719230630355,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 201590544,
+      "step": 93325
+    },
+    {
+      "epoch": 15.225122349102774,
+      "grad_norm": 0.00581662543118,
+      "learning_rate": 0.0001638192307209353,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 201602064,
+      "step": 93330
+    },
+    {
+      "epoch": 15.225938009787928,
+      "grad_norm": 0.022805117070674896,
+      "learning_rate": 0.00016376654519196477,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 201612944,
+      "step": 93335
+    },
+    {
+      "epoch": 15.226753670473084,
+      "grad_norm": 0.520837664604187,
+      "learning_rate": 0.00016371386647719182,
+      "loss": 0.0559,
+      "num_input_tokens_seen": 201622192,
+      "step": 93340
+    },
+    {
+      "epoch": 15.227569331158238,
+      "grad_norm": 0.003279214957728982,
+      "learning_rate": 0.00016366119457768407,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 201632560,
+      "step": 93345
+    },
+    {
+      "epoch": 15.228384991843393,
+      "grad_norm": 0.008738663047552109,
+      "learning_rate": 0.00016360852949450882,
+      "loss": 0.0631,
+      "num_input_tokens_seen": 201643792,
+      "step": 93350
+    },
+    {
+      "epoch": 15.229200652528547,
+      "grad_norm": 0.014815381728112698,
+      "learning_rate": 0.00016355587122873349,
+      "loss": 0.0396,
+      "num_input_tokens_seen": 201654416,
+      "step": 93355
+    },
+    {
+      "epoch": 15.230016313213703,
+      "grad_norm": 0.07490991055965424,
+      "learning_rate": 0.00016350321978142525,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 201665744,
+      "step": 93360
+    },
+    {
+      "epoch": 15.230831973898859,
+      "grad_norm": 0.022860554978251457,
+      "learning_rate": 0.00016345057515365115,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 201675216,
+      "step": 93365
+    },
+    {
+      "epoch": 15.231647634584013,
+      "grad_norm": 0.011496799066662788,
+      "learning_rate": 0.00016339793734647807,
+      "loss": 0.0903,
+      "num_input_tokens_seen": 201685776,
+      "step": 93370
+    },
+    {
+      "epoch": 15.232463295269168,
+      "grad_norm": 0.008875560946762562,
+      "learning_rate": 0.00016334530636097277,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 201697296,
+      "step": 93375
+    },
+    {
+      "epoch": 15.233278955954322,
+      "grad_norm": 0.004284188617020845,
+      "learning_rate": 0.00016329268219820192,
+      "loss": 0.1195,
+      "num_input_tokens_seen": 201707440,
+      "step": 93380
+    },
+    {
+      "epoch": 15.234094616639478,
+      "grad_norm": 1.4567502737045288,
+      "learning_rate": 0.00016324006485923204,
+      "loss": 0.0522,
+      "num_input_tokens_seen": 201718704,
+      "step": 93385
+    },
+    {
+      "epoch": 15.234910277324634,
+      "grad_norm": 0.020433912053704262,
+      "learning_rate": 0.00016318745434512944,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 201728592,
+      "step": 93390
+    },
+    {
+      "epoch": 15.235725938009788,
+      "grad_norm": 0.004512346815317869,
+      "learning_rate": 0.00016313485065696037,
+      "loss": 0.006,
+      "num_input_tokens_seen": 201738320,
+      "step": 93395
+    },
+    {
+      "epoch": 15.236541598694943,
+      "grad_norm": 0.03213776648044586,
+      "learning_rate": 0.00016308225379579088,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 201750160,
+      "step": 93400
+    },
+    {
+      "epoch": 15.237357259380097,
+      "grad_norm": 0.06638370454311371,
+      "learning_rate": 0.0001630296637626869,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 201761360,
+      "step": 93405
+    },
+    {
+      "epoch": 15.238172920065253,
+      "grad_norm": 0.08439627289772034,
+      "learning_rate": 0.0001629770805587143,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 201772496,
+      "step": 93410
+    },
+    {
+      "epoch": 15.238988580750409,
+      "grad_norm": 0.0017806835239753127,
+      "learning_rate": 0.0001629245041849387,
+      "loss": 0.1468,
+      "num_input_tokens_seen": 201782640,
+      "step": 93415
+    },
+    {
+      "epoch": 15.239804241435563,
+      "grad_norm": 0.03064138814806938,
+      "learning_rate": 0.0001628719346424256,
+      "loss": 0.009,
+      "num_input_tokens_seen": 201793968,
+      "step": 93420
+    },
+    {
+      "epoch": 15.240619902120718,
+      "grad_norm": 0.03552016243338585,
+      "learning_rate": 0.00016281937193224051,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 201805264,
+      "step": 93425
+    },
+    {
+      "epoch": 15.241435562805872,
+      "grad_norm": 0.009931345470249653,
+      "learning_rate": 0.0001627668160554485,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 201816112,
+      "step": 93430
+    },
+    {
+      "epoch": 15.242251223491028,
+      "grad_norm": 0.038621384650468826,
+      "learning_rate": 0.00016271426701311483,
+      "loss": 0.0474,
+      "num_input_tokens_seen": 201826064,
+      "step": 93435
+    },
+    {
+      "epoch": 15.243066884176184,
+      "grad_norm": 0.0006465500337071717,
+      "learning_rate": 0.00016266172480630436,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 201837200,
+      "step": 93440
+    },
+    {
+      "epoch": 15.243882544861338,
+      "grad_norm": 0.007097797933965921,
+      "learning_rate": 0.0001626091894360819,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 201848816,
+      "step": 93445
+    },
+    {
+      "epoch": 15.244698205546493,
+      "grad_norm": 0.02344132959842682,
+      "learning_rate": 0.00016255666090351245,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 201858416,
+      "step": 93450
+    },
+    {
+      "epoch": 15.245513866231647,
+      "grad_norm": 0.6161487102508545,
+      "learning_rate": 0.00016250413920966013,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 201868720,
+      "step": 93455
+    },
+    {
+      "epoch": 15.246329526916803,
+      "grad_norm": 0.010321940295398235,
+      "learning_rate": 0.0001624516243555898,
+      "loss": 0.0383,
+      "num_input_tokens_seen": 201879600,
+      "step": 93460
+    },
+    {
+      "epoch": 15.247145187601957,
+      "grad_norm": 0.003955533728003502,
+      "learning_rate": 0.00016239911634236527,
+      "loss": 0.1012,
+      "num_input_tokens_seen": 201892816,
+      "step": 93465
+    },
+    {
+      "epoch": 15.247960848287113,
+      "grad_norm": 0.001835820497944951,
+      "learning_rate": 0.00016234661517105115,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 201904816,
+      "step": 93470
+    },
+    {
+      "epoch": 15.248776508972268,
+      "grad_norm": 0.00370815210044384,
+      "learning_rate": 0.00016229412084271095,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 201915248,
+      "step": 93475
+    },
+    {
+      "epoch": 15.249592169657422,
+      "grad_norm": 0.005513612646609545,
+      "learning_rate": 0.00016224163335840897,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 201926064,
+      "step": 93480
+    },
+    {
+      "epoch": 15.250407830342578,
+      "grad_norm": 0.0008234487031586468,
+      "learning_rate": 0.00016218915271920875,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 201938000,
+      "step": 93485
+    },
+    {
+      "epoch": 15.251223491027732,
+      "grad_norm": 0.0024828226305544376,
+      "learning_rate": 0.00016213667892617394,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 201948112,
+      "step": 93490
+    },
+    {
+      "epoch": 15.252039151712887,
+      "grad_norm": 0.004459597636014223,
+      "learning_rate": 0.00016208421198036789,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 201959216,
+      "step": 93495
+    },
+    {
+      "epoch": 15.252854812398043,
+      "grad_norm": 0.32820403575897217,
+      "learning_rate": 0.00016203175188285397,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 201969936,
+      "step": 93500
+    },
+    {
+      "epoch": 15.253670473083197,
+      "grad_norm": 0.0012011234648525715,
+      "learning_rate": 0.00016197929863469534,
+      "loss": 0.006,
+      "num_input_tokens_seen": 201981872,
+      "step": 93505
+    },
+    {
+      "epoch": 15.254486133768353,
+      "grad_norm": 0.006218986120074987,
+      "learning_rate": 0.0001619268522369551,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 201992048,
+      "step": 93510
+    },
+    {
+      "epoch": 15.255301794453507,
+      "grad_norm": 0.004850749392062426,
+      "learning_rate": 0.00016187441269069596,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 202003120,
+      "step": 93515
+    },
+    {
+      "epoch": 15.256117455138662,
+      "grad_norm": 0.0029057359788566828,
+      "learning_rate": 0.00016182197999698084,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 202014320,
+      "step": 93520
+    },
+    {
+      "epoch": 15.256933115823816,
+      "grad_norm": 0.0069501763209700584,
+      "learning_rate": 0.00016176955415687233,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 202024208,
+      "step": 93525
+    },
+    {
+      "epoch": 15.257748776508972,
+      "grad_norm": 0.01931832917034626,
+      "learning_rate": 0.00016171713517143288,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 202034672,
+      "step": 93530
+    },
+    {
+      "epoch": 15.258564437194128,
+      "grad_norm": 0.02083902806043625,
+      "learning_rate": 0.0001616647230417248,
+      "loss": 0.012,
+      "num_input_tokens_seen": 202045008,
+      "step": 93535
+    },
+    {
+      "epoch": 15.259380097879282,
+      "grad_norm": 0.0012294130865484476,
+      "learning_rate": 0.0001616123177688103,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 202056848,
+      "step": 93540
+    },
+    {
+      "epoch": 15.260195758564437,
+      "grad_norm": 0.0032329263631254435,
+      "learning_rate": 0.00016155991935375147,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 202067600,
+      "step": 93545
+    },
+    {
+      "epoch": 15.261011419249591,
+      "grad_norm": 0.007929227314889431,
+      "learning_rate": 0.00016150752779761008,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 202078288,
+      "step": 93550
+    },
+    {
+      "epoch": 15.261827079934747,
+      "grad_norm": 0.003024327801540494,
+      "learning_rate": 0.00016145514310144838,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 202089104,
+      "step": 93555
+    },
+    {
+      "epoch": 15.262642740619903,
+      "grad_norm": 0.09575843811035156,
+      "learning_rate": 0.0001614027652663273,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 202098576,
+      "step": 93560
+    },
+    {
+      "epoch": 15.263458401305057,
+      "grad_norm": 0.00582880387082696,
+      "learning_rate": 0.00016135039429330912,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 202108528,
+      "step": 93565
+    },
+    {
+      "epoch": 15.264274061990212,
+      "grad_norm": 0.0019978994969278574,
+      "learning_rate": 0.0001612980301834544,
+      "loss": 0.0565,
+      "num_input_tokens_seen": 202119792,
+      "step": 93570
+    },
+    {
+      "epoch": 15.265089722675366,
+      "grad_norm": 0.040785159915685654,
+      "learning_rate": 0.00016124567293782517,
+      "loss": 0.0776,
+      "num_input_tokens_seen": 202131280,
+      "step": 93575
+    },
+    {
+      "epoch": 15.265905383360522,
+      "grad_norm": 0.012387178838253021,
+      "learning_rate": 0.00016119332255748177,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 202140880,
+      "step": 93580
+    },
+    {
+      "epoch": 15.266721044045678,
+      "grad_norm": 0.00521023478358984,
+      "learning_rate": 0.0001611409790434858,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 202152496,
+      "step": 93585
+    },
+    {
+      "epoch": 15.267536704730832,
+      "grad_norm": 0.5057440996170044,
+      "learning_rate": 0.00016108864239689746,
+      "loss": 0.0665,
+      "num_input_tokens_seen": 202162544,
+      "step": 93590
+    },
+    {
+      "epoch": 15.268352365415987,
+      "grad_norm": 0.23563796281814575,
+      "learning_rate": 0.00016103631261877799,
+      "loss": 0.01,
+      "num_input_tokens_seen": 202173584,
+      "step": 93595
+    },
+    {
+      "epoch": 15.269168026101141,
+      "grad_norm": 0.0431128591299057,
+      "learning_rate": 0.0001609839897101874,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 202184176,
+      "step": 93600
+    },
+    {
+      "epoch": 15.269983686786297,
+      "grad_norm": 0.01184097956866026,
+      "learning_rate": 0.00016093167367218665,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 202194544,
+      "step": 93605
+    },
+    {
+      "epoch": 15.270799347471453,
+      "grad_norm": 0.0048804692924022675,
+      "learning_rate": 0.0001608793645058353,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 202206896,
+      "step": 93610
+    },
+    {
+      "epoch": 15.271615008156607,
+      "grad_norm": 0.007331953849643469,
+      "learning_rate": 0.0001608270622121942,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 202216848,
+      "step": 93615
+    },
+    {
+      "epoch": 15.272430668841762,
+      "grad_norm": 0.0063942731358110905,
+      "learning_rate": 0.00016077476679232262,
+      "loss": 0.002,
+      "num_input_tokens_seen": 202228112,
+      "step": 93620
+    },
+    {
+      "epoch": 15.273246329526916,
+      "grad_norm": 0.003414425067603588,
+      "learning_rate": 0.00016072247824728086,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 202239248,
+      "step": 93625
+    },
+    {
+      "epoch": 15.274061990212072,
+      "grad_norm": 0.026459679007530212,
+      "learning_rate": 0.00016067019657812852,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 202251120,
+      "step": 93630
+    },
+    {
+      "epoch": 15.274877650897226,
+      "grad_norm": 0.06253305077552795,
+      "learning_rate": 0.0001606179217859251,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 202260560,
+      "step": 93635
+    },
+    {
+      "epoch": 15.275693311582382,
+      "grad_norm": 0.029631705954670906,
+      "learning_rate": 0.00016056565387173005,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 202271664,
+      "step": 93640
+    },
+    {
+      "epoch": 15.276508972267537,
+      "grad_norm": 0.005431040655821562,
+      "learning_rate": 0.0001605133928366026,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 202282320,
+      "step": 93645
+    },
+    {
+      "epoch": 15.277324632952691,
+      "grad_norm": 0.00246419757604599,
+      "learning_rate": 0.00016046113868160194,
+      "loss": 0.01,
+      "num_input_tokens_seen": 202292816,
+      "step": 93650
+    },
+    {
+      "epoch": 15.278140293637847,
+      "grad_norm": 0.0032046616543084383,
+      "learning_rate": 0.00016040889140778703,
+      "loss": 0.001,
+      "num_input_tokens_seen": 202302896,
+      "step": 93655
+    },
+    {
+      "epoch": 15.278955954323001,
+      "grad_norm": 0.02585562691092491,
+      "learning_rate": 0.00016035665101621672,
+      "loss": 0.1417,
+      "num_input_tokens_seen": 202313840,
+      "step": 93660
+    },
+    {
+      "epoch": 15.279771615008157,
+      "grad_norm": 0.09804775565862656,
+      "learning_rate": 0.00016030441750794976,
+      "loss": 0.0678,
+      "num_input_tokens_seen": 202324080,
+      "step": 93665
+    },
+    {
+      "epoch": 15.280587275693312,
+      "grad_norm": 0.05777350068092346,
+      "learning_rate": 0.00016025219088404468,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 202334960,
+      "step": 93670
+    },
+    {
+      "epoch": 15.281402936378466,
+      "grad_norm": 0.009660948067903519,
+      "learning_rate": 0.00016019997114555983,
+      "loss": 0.0801,
+      "num_input_tokens_seen": 202345648,
+      "step": 93675
+    },
+    {
+      "epoch": 15.282218597063622,
+      "grad_norm": 0.0101390415802598,
+      "learning_rate": 0.000160147758293554,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 202357008,
+      "step": 93680
+    },
+    {
+      "epoch": 15.283034257748776,
+      "grad_norm": 0.010949664749205112,
+      "learning_rate": 0.00016009555232908456,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 202367344,
+      "step": 93685
+    },
+    {
+      "epoch": 15.283849918433932,
+      "grad_norm": 0.19166868925094604,
+      "learning_rate": 0.00016004335325321033,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 202378416,
+      "step": 93690
+    },
+    {
+      "epoch": 15.284665579119087,
+      "grad_norm": 0.0036083634477108717,
+      "learning_rate": 0.00015999116106698848,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 202388848,
+      "step": 93695
+    },
+    {
+      "epoch": 15.285481239804241,
+      "grad_norm": 0.47052520513534546,
+      "learning_rate": 0.0001599389757714774,
+      "loss": 0.1437,
+      "num_input_tokens_seen": 202400048,
+      "step": 93700
+    },
+    {
+      "epoch": 15.286296900489397,
+      "grad_norm": 0.000593140721321106,
+      "learning_rate": 0.0001598867973677341,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 202411216,
+      "step": 93705
+    },
+    {
+      "epoch": 15.28711256117455,
+      "grad_norm": 0.05543004721403122,
+      "learning_rate": 0.00015983462585681657,
+      "loss": 0.006,
+      "num_input_tokens_seen": 202421424,
+      "step": 93710
+    },
+    {
+      "epoch": 15.287928221859707,
+      "grad_norm": 0.008918811567127705,
+      "learning_rate": 0.00015978246123978158,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 202433040,
+      "step": 93715
+    },
+    {
+      "epoch": 15.28874388254486,
+      "grad_norm": 0.15539592504501343,
+      "learning_rate": 0.0001597303035176869,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 202443760,
+      "step": 93720
+    },
+    {
+      "epoch": 15.289559543230016,
+      "grad_norm": 0.0010111124720424414,
+      "learning_rate": 0.00015967815269158904,
+      "loss": 0.001,
+      "num_input_tokens_seen": 202454480,
+      "step": 93725
+    },
+    {
+      "epoch": 15.290375203915172,
+      "grad_norm": 0.006419785786420107,
+      "learning_rate": 0.0001596260087625454,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 202464592,
+      "step": 93730
+    },
+    {
+      "epoch": 15.291190864600326,
+      "grad_norm": 0.08302279561758041,
+      "learning_rate": 0.0001595738717316122,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 202476528,
+      "step": 93735
+    },
+    {
+      "epoch": 15.292006525285482,
+      "grad_norm": 0.0035879616625607014,
+      "learning_rate": 0.00015952174159984667,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 202487440,
+      "step": 93740
+    },
+    {
+      "epoch": 15.292822185970635,
+      "grad_norm": 0.08168449252843857,
+      "learning_rate": 0.0001594696183683046,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 202498192,
+      "step": 93745
+    },
+    {
+      "epoch": 15.293637846655791,
+      "grad_norm": 0.035135045647621155,
+      "learning_rate": 0.00015941750203804305,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 202509616,
+      "step": 93750
+    },
+    {
+      "epoch": 15.294453507340947,
+      "grad_norm": 0.08051912486553192,
+      "learning_rate": 0.0001593653926101176,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 202520816,
+      "step": 93755
+    },
+    {
+      "epoch": 15.2952691680261,
+      "grad_norm": 0.007569537963718176,
+      "learning_rate": 0.00015931329008558477,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 202530928,
+      "step": 93760
+    },
+    {
+      "epoch": 15.296084828711257,
+      "grad_norm": 0.22661983966827393,
+      "learning_rate": 0.00015926119446550024,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 202541648,
+      "step": 93765
+    },
+    {
+      "epoch": 15.29690048939641,
+      "grad_norm": 0.0014906668802723289,
+      "learning_rate": 0.0001592091057509199,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 202553424,
+      "step": 93770
+    },
+    {
+      "epoch": 15.297716150081566,
+      "grad_norm": 0.00238198135048151,
+      "learning_rate": 0.00015915702394289933,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 202564944,
+      "step": 93775
+    },
+    {
+      "epoch": 15.298531810766722,
+      "grad_norm": 0.026480555534362793,
+      "learning_rate": 0.00015910494904249411,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 202575888,
+      "step": 93780
+    },
+    {
+      "epoch": 15.299347471451876,
+      "grad_norm": 0.14808295667171478,
+      "learning_rate": 0.0001590528810507595,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 202586800,
+      "step": 93785
+    },
+    {
+      "epoch": 15.300163132137031,
+      "grad_norm": 0.011909517459571362,
+      "learning_rate": 0.00015900081996875082,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 202597424,
+      "step": 93790
+    },
+    {
+      "epoch": 15.300978792822185,
+      "grad_norm": 0.00829069223254919,
+      "learning_rate": 0.0001589487657975231,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 202608080,
+      "step": 93795
+    },
+    {
+      "epoch": 15.301794453507341,
+      "grad_norm": 0.013668195344507694,
+      "learning_rate": 0.00015889671853813126,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 202618640,
+      "step": 93800
+    },
+    {
+      "epoch": 15.302610114192497,
+      "grad_norm": 0.6986984610557556,
+      "learning_rate": 0.0001588446781916302,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 202629360,
+      "step": 93805
+    },
+    {
+      "epoch": 15.30342577487765,
+      "grad_norm": 0.016121450811624527,
+      "learning_rate": 0.00015879264475907447,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 202641360,
+      "step": 93810
+    },
+    {
+      "epoch": 15.304241435562806,
+      "grad_norm": 0.005392593797296286,
+      "learning_rate": 0.00015874061824151865,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 202651216,
+      "step": 93815
+    },
+    {
+      "epoch": 15.30505709624796,
+      "grad_norm": 0.020854827016592026,
+      "learning_rate": 0.00015868859864001693,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 202663024,
+      "step": 93820
+    },
+    {
+      "epoch": 15.305872756933116,
+      "grad_norm": 0.00112466502469033,
+      "learning_rate": 0.00015863658595562414,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 202675056,
+      "step": 93825
+    },
+    {
+      "epoch": 15.30668841761827,
+      "grad_norm": 0.0506683811545372,
+      "learning_rate": 0.00015858458018939365,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 202685488,
+      "step": 93830
+    },
+    {
+      "epoch": 15.307504078303426,
+      "grad_norm": 0.029055537655949593,
+      "learning_rate": 0.00015853258134238007,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 202697232,
+      "step": 93835
+    },
+    {
+      "epoch": 15.308319738988581,
+      "grad_norm": 0.002884516492486,
+      "learning_rate": 0.0001584805894156366,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 202709008,
+      "step": 93840
+    },
+    {
+      "epoch": 15.309135399673735,
+      "grad_norm": 0.0017596816178411245,
+      "learning_rate": 0.0001584286044102175,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 202720368,
+      "step": 93845
+    },
+    {
+      "epoch": 15.309951060358891,
+      "grad_norm": 0.021234875544905663,
+      "learning_rate": 0.00015837662632717575,
+      "loss": 0.008,
+      "num_input_tokens_seen": 202730448,
+      "step": 93850
+    },
+    {
+      "epoch": 15.310766721044045,
+      "grad_norm": 0.017943846061825752,
+      "learning_rate": 0.00015832465516756538,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 202741552,
+      "step": 93855
+    },
+    {
+      "epoch": 15.3115823817292,
+      "grad_norm": 0.2247970998287201,
+      "learning_rate": 0.00015827269093243902,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 202753168,
+      "step": 93860
+    },
+    {
+      "epoch": 15.312398042414356,
+      "grad_norm": 0.004060364793986082,
+      "learning_rate": 0.0001582207336228504,
+      "loss": 0.0697,
+      "num_input_tokens_seen": 202763760,
+      "step": 93865
+    },
+    {
+      "epoch": 15.31321370309951,
+      "grad_norm": 0.030661238357424736,
+      "learning_rate": 0.00015816878323985184,
+      "loss": 0.0777,
+      "num_input_tokens_seen": 202774448,
+      "step": 93870
+    },
+    {
+      "epoch": 15.314029363784666,
+      "grad_norm": 0.004571146331727505,
+      "learning_rate": 0.0001581168397844967,
+      "loss": 0.005,
+      "num_input_tokens_seen": 202785712,
+      "step": 93875
+    },
+    {
+      "epoch": 15.31484502446982,
+      "grad_norm": 0.0031279721297323704,
+      "learning_rate": 0.0001580649032578375,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 202795248,
+      "step": 93880
+    },
+    {
+      "epoch": 15.315660685154976,
+      "grad_norm": 0.015604222193360329,
+      "learning_rate": 0.00015801297366092689,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 202806288,
+      "step": 93885
+    },
+    {
+      "epoch": 15.31647634584013,
+      "grad_norm": 0.09192720055580139,
+      "learning_rate": 0.00015796105099481712,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 202817872,
+      "step": 93890
+    },
+    {
+      "epoch": 15.317292006525285,
+      "grad_norm": 0.005644198041409254,
+      "learning_rate": 0.00015790913526056061,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 202828080,
+      "step": 93895
+    },
+    {
+      "epoch": 15.318107667210441,
+      "grad_norm": 0.3908234238624573,
+      "learning_rate": 0.00015785722645920942,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 202838192,
+      "step": 93900
+    },
+    {
+      "epoch": 15.318923327895595,
+      "grad_norm": 0.7623684406280518,
+      "learning_rate": 0.00015780532459181557,
+      "loss": 0.0279,
+      "num_input_tokens_seen": 202848976,
+      "step": 93905
+    },
+    {
+      "epoch": 15.31973898858075,
+      "grad_norm": 0.012597830034792423,
+      "learning_rate": 0.00015775342965943095,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 202860560,
+      "step": 93910
+    },
+    {
+      "epoch": 15.320554649265905,
+      "grad_norm": 0.0024378118105232716,
+      "learning_rate": 0.00015770154166310724,
+      "loss": 0.0787,
+      "num_input_tokens_seen": 202872400,
+      "step": 93915
+    },
+    {
+      "epoch": 15.32137030995106,
+      "grad_norm": 0.5856313109397888,
+      "learning_rate": 0.00015764966060389602,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 202883024,
+      "step": 93920
+    },
+    {
+      "epoch": 15.322185970636216,
+      "grad_norm": 0.0010387571528553963,
+      "learning_rate": 0.00015759778648284873,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 202894416,
+      "step": 93925
+    },
+    {
+      "epoch": 15.32300163132137,
+      "grad_norm": 0.3006853461265564,
+      "learning_rate": 0.00015754591930101664,
+      "loss": 0.1149,
+      "num_input_tokens_seen": 202905360,
+      "step": 93930
+    },
+    {
+      "epoch": 15.323817292006526,
+      "grad_norm": 0.06582503020763397,
+      "learning_rate": 0.00015749405905945095,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 202916240,
+      "step": 93935
+    },
+    {
+      "epoch": 15.32463295269168,
+      "grad_norm": 0.007767208386212587,
+      "learning_rate": 0.00015744220575920266,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 202927920,
+      "step": 93940
+    },
+    {
+      "epoch": 15.325448613376835,
+      "grad_norm": 0.014898211695253849,
+      "learning_rate": 0.00015739035940132262,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 202937840,
+      "step": 93945
+    },
+    {
+      "epoch": 15.326264274061991,
+      "grad_norm": 0.022433992475271225,
+      "learning_rate": 0.0001573385199868616,
+      "loss": 0.0144,
+      "num_input_tokens_seen": 202948912,
+      "step": 93950
+    },
+    {
+      "epoch": 15.327079934747145,
+      "grad_norm": 0.008677488192915916,
+      "learning_rate": 0.00015728668751687015,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 202959344,
+      "step": 93955
+    },
+    {
+      "epoch": 15.3278955954323,
+      "grad_norm": 0.0584244430065155,
+      "learning_rate": 0.00015723486199239878,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 202970736,
+      "step": 93960
+    },
+    {
+      "epoch": 15.328711256117455,
+      "grad_norm": 0.009163172915577888,
+      "learning_rate": 0.00015718304341449759,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 202981776,
+      "step": 93965
+    },
+    {
+      "epoch": 15.32952691680261,
+      "grad_norm": 0.00910011027008295,
+      "learning_rate": 0.00015713123178421717,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 202993328,
+      "step": 93970
+    },
+    {
+      "epoch": 15.330342577487766,
+      "grad_norm": 0.029195060953497887,
+      "learning_rate": 0.00015707942710260704,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 203004336,
+      "step": 93975
+    },
+    {
+      "epoch": 15.33115823817292,
+      "grad_norm": 0.01511499285697937,
+      "learning_rate": 0.00015702762937071747,
+      "loss": 0.006,
+      "num_input_tokens_seen": 203014576,
+      "step": 93980
+    },
+    {
+      "epoch": 15.331973898858076,
+      "grad_norm": 0.008337062783539295,
+      "learning_rate": 0.00015697583858959813,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 203025200,
+      "step": 93985
+    },
+    {
+      "epoch": 15.33278955954323,
+      "grad_norm": 0.01428698655217886,
+      "learning_rate": 0.00015692405476029853,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 203036016,
+      "step": 93990
+    },
+    {
+      "epoch": 15.333605220228385,
+      "grad_norm": 0.05316992104053497,
+      "learning_rate": 0.00015687227788386822,
+      "loss": 0.005,
+      "num_input_tokens_seen": 203047248,
+      "step": 93995
+    },
+    {
+      "epoch": 15.33442088091354,
+      "grad_norm": 0.0014572610380128026,
+      "learning_rate": 0.00015682050796135644,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 203057872,
+      "step": 94000
+    },
+    {
+      "epoch": 15.335236541598695,
+      "grad_norm": 0.0003803163126576692,
+      "learning_rate": 0.0001567687449938125,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 203069136,
+      "step": 94005
+    },
+    {
+      "epoch": 15.33605220228385,
+      "grad_norm": 0.0005980475689284503,
+      "learning_rate": 0.0001567169889822853,
+      "loss": 0.009,
+      "num_input_tokens_seen": 203078576,
+      "step": 94010
+    },
+    {
+      "epoch": 15.336867862969005,
+      "grad_norm": 0.0017918755766004324,
+      "learning_rate": 0.00015666523992782384,
+      "loss": 0.006,
+      "num_input_tokens_seen": 203087888,
+      "step": 94015
+    },
+    {
+      "epoch": 15.33768352365416,
+      "grad_norm": 0.017859825864434242,
+      "learning_rate": 0.00015661349783147678,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 203097904,
+      "step": 94020
+    },
+    {
+      "epoch": 15.338499184339314,
+      "grad_norm": 0.0014235659036785364,
+      "learning_rate": 0.00015656176269429283,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 203109072,
+      "step": 94025
+    },
+    {
+      "epoch": 15.33931484502447,
+      "grad_norm": 0.0009418278350494802,
+      "learning_rate": 0.00015651003451732048,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 203120208,
+      "step": 94030
+    },
+    {
+      "epoch": 15.340130505709626,
+      "grad_norm": 0.008652381598949432,
+      "learning_rate": 0.00015645831330160804,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 203130928,
+      "step": 94035
+    },
+    {
+      "epoch": 15.34094616639478,
+      "grad_norm": 0.00047669251216575503,
+      "learning_rate": 0.00015640659904820364,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 203141712,
+      "step": 94040
+    },
+    {
+      "epoch": 15.341761827079935,
+      "grad_norm": 0.0017961309058591723,
+      "learning_rate": 0.00015635489175815537,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 203152688,
+      "step": 94045
+    },
+    {
+      "epoch": 15.34257748776509,
+      "grad_norm": 0.006201804615557194,
+      "learning_rate": 0.0001563031914325112,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 203163408,
+      "step": 94050
+    },
+    {
+      "epoch": 15.343393148450245,
+      "grad_norm": 0.019376035779714584,
+      "learning_rate": 0.00015625149807231892,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 203174320,
+      "step": 94055
+    },
+    {
+      "epoch": 15.3442088091354,
+      "grad_norm": 0.0009080119198188186,
+      "learning_rate": 0.00015619981167862602,
+      "loss": 0.001,
+      "num_input_tokens_seen": 203184816,
+      "step": 94060
+    },
+    {
+      "epoch": 15.345024469820554,
+      "grad_norm": 0.015443303622305393,
+      "learning_rate": 0.00015614813225248015,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 203195056,
+      "step": 94065
+    },
+    {
+      "epoch": 15.34584013050571,
+      "grad_norm": 0.00035426352405920625,
+      "learning_rate": 0.00015609645979492855,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 203206000,
+      "step": 94070
+    },
+    {
+      "epoch": 15.346655791190864,
+      "grad_norm": 0.11414900422096252,
+      "learning_rate": 0.00015604479430701845,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 203217168,
+      "step": 94075
+    },
+    {
+      "epoch": 15.34747145187602,
+      "grad_norm": 0.004541793372482061,
+      "learning_rate": 0.00015599313578979696,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 203227248,
+      "step": 94080
+    },
+    {
+      "epoch": 15.348287112561174,
+      "grad_norm": 0.003625446930527687,
+      "learning_rate": 0.00015594148424431076,
+      "loss": 0.003,
+      "num_input_tokens_seen": 203238672,
+      "step": 94085
+    },
+    {
+      "epoch": 15.34910277324633,
+      "grad_norm": 0.011053141206502914,
+      "learning_rate": 0.00015588983967160724,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 203249552,
+      "step": 94090
+    },
+    {
+      "epoch": 15.349918433931485,
+      "grad_norm": 0.016718612983822823,
+      "learning_rate": 0.0001558382020727323,
+      "loss": 0.002,
+      "num_input_tokens_seen": 203259056,
+      "step": 94095
+    },
+    {
+      "epoch": 15.350734094616639,
+      "grad_norm": 0.011769182980060577,
+      "learning_rate": 0.00015578657144873316,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 203269456,
+      "step": 94100
+    },
+    {
+      "epoch": 15.351549755301795,
+      "grad_norm": 0.03749024122953415,
+      "learning_rate": 0.00015573494780065543,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 203278256,
+      "step": 94105
+    },
+    {
+      "epoch": 15.352365415986949,
+      "grad_norm": 0.005377328023314476,
+      "learning_rate": 0.00015568333112954592,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 203288880,
+      "step": 94110
+    },
+    {
+      "epoch": 15.353181076672104,
+      "grad_norm": 0.0017177603440359235,
+      "learning_rate": 0.00015563172143645044,
+      "loss": 0.008,
+      "num_input_tokens_seen": 203298640,
+      "step": 94115
+    },
+    {
+      "epoch": 15.35399673735726,
+      "grad_norm": 0.0025564224924892187,
+      "learning_rate": 0.00015558011872241506,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 203309168,
+      "step": 94120
+    },
+    {
+      "epoch": 15.354812398042414,
+      "grad_norm": 0.588083028793335,
+      "learning_rate": 0.00015552852298848546,
+      "loss": 0.0598,
+      "num_input_tokens_seen": 203320048,
+      "step": 94125
+    },
+    {
+      "epoch": 15.35562805872757,
+      "grad_norm": 0.0020723820198327303,
+      "learning_rate": 0.00015547693423570736,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 203331408,
+      "step": 94130
+    },
+    {
+      "epoch": 15.356443719412724,
+      "grad_norm": 0.0025758659467101097,
+      "learning_rate": 0.00015542535246512623,
+      "loss": 0.001,
+      "num_input_tokens_seen": 203342928,
+      "step": 94135
+    },
+    {
+      "epoch": 15.35725938009788,
+      "grad_norm": 0.019694067537784576,
+      "learning_rate": 0.00015537377767778742,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 203353552,
+      "step": 94140
+    },
+    {
+      "epoch": 15.358075040783035,
+      "grad_norm": 0.008567390032112598,
+      "learning_rate": 0.00015532220987473627,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 203363280,
+      "step": 94145
+    },
+    {
+      "epoch": 15.358890701468189,
+      "grad_norm": 0.002558504231274128,
+      "learning_rate": 0.00015527064905701776,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 203374288,
+      "step": 94150
+    },
+    {
+      "epoch": 15.359706362153345,
+      "grad_norm": 0.0029807421378791332,
+      "learning_rate": 0.00015521909522567685,
+      "loss": 0.0323,
+      "num_input_tokens_seen": 203385616,
+      "step": 94155
+    },
+    {
+      "epoch": 15.360522022838499,
+      "grad_norm": 0.0011462070979177952,
+      "learning_rate": 0.0001551675483817584,
+      "loss": 0.0462,
+      "num_input_tokens_seen": 203397104,
+      "step": 94160
+    },
+    {
+      "epoch": 15.361337683523654,
+      "grad_norm": 0.00590652646496892,
+      "learning_rate": 0.00015511600852630698,
+      "loss": 0.002,
+      "num_input_tokens_seen": 203408656,
+      "step": 94165
+    },
+    {
+      "epoch": 15.362153344208808,
+      "grad_norm": 0.011698364280164242,
+      "learning_rate": 0.0001550644756603672,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 203419120,
+      "step": 94170
+    },
+    {
+      "epoch": 15.362969004893964,
+      "grad_norm": 0.0006024792673997581,
+      "learning_rate": 0.00015501294978498344,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 203430960,
+      "step": 94175
+    },
+    {
+      "epoch": 15.36378466557912,
+      "grad_norm": 0.003224707907065749,
+      "learning_rate": 0.0001549614309011998,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 203441616,
+      "step": 94180
+    },
+    {
+      "epoch": 15.364600326264274,
+      "grad_norm": 0.01984231546521187,
+      "learning_rate": 0.00015490991901006052,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 203453008,
+      "step": 94185
+    },
+    {
+      "epoch": 15.36541598694943,
+      "grad_norm": 0.0009202081128023565,
+      "learning_rate": 0.00015485841411260937,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 203463184,
+      "step": 94190
+    },
+    {
+      "epoch": 15.366231647634583,
+      "grad_norm": 0.0021524764597415924,
+      "learning_rate": 0.00015480691620989062,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 203473936,
+      "step": 94195
+    },
+    {
+      "epoch": 15.367047308319739,
+      "grad_norm": 0.016492361202836037,
+      "learning_rate": 0.00015475542530294728,
+      "loss": 0.002,
+      "num_input_tokens_seen": 203485136,
+      "step": 94200
+    },
+    {
+      "epoch": 15.367862969004895,
+      "grad_norm": 0.02251831255853176,
+      "learning_rate": 0.00015470394139282357,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 203495760,
+      "step": 94205
+    },
+    {
+      "epoch": 15.368678629690049,
+      "grad_norm": 0.004201612900942564,
+      "learning_rate": 0.0001546524644805622,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 203507472,
+      "step": 94210
+    },
+    {
+      "epoch": 15.369494290375204,
+      "grad_norm": 0.001497769495472312,
+      "learning_rate": 0.00015460099456720706,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 203518352,
+      "step": 94215
+    },
+    {
+      "epoch": 15.370309951060358,
+      "grad_norm": 0.0014730320544913411,
+      "learning_rate": 0.0001545495316538006,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 203526960,
+      "step": 94220
+    },
+    {
+      "epoch": 15.371125611745514,
+      "grad_norm": 0.04781882092356682,
+      "learning_rate": 0.0001544980757413864,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 203538448,
+      "step": 94225
+    },
+    {
+      "epoch": 15.37194127243067,
+      "grad_norm": 0.0022414957638829947,
+      "learning_rate": 0.00015444662683100676,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 203548560,
+      "step": 94230
+    },
+    {
+      "epoch": 15.372756933115824,
+      "grad_norm": 0.0006568465032614768,
+      "learning_rate": 0.00015439518492370486,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 203558640,
+      "step": 94235
+    },
+    {
+      "epoch": 15.37357259380098,
+      "grad_norm": 0.0073090302757918835,
+      "learning_rate": 0.00015434375002052264,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 203569424,
+      "step": 94240
+    },
+    {
+      "epoch": 15.374388254486133,
+      "grad_norm": 0.002609936287626624,
+      "learning_rate": 0.00015429232212250317,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 203579408,
+      "step": 94245
+    },
+    {
+      "epoch": 15.375203915171289,
+      "grad_norm": 0.0006220395443961024,
+      "learning_rate": 0.00015424090123068802,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 203589840,
+      "step": 94250
+    },
+    {
+      "epoch": 15.376019575856443,
+      "grad_norm": 0.016170065850019455,
+      "learning_rate": 0.00015418948734611976,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 203600208,
+      "step": 94255
+    },
+    {
+      "epoch": 15.376835236541599,
+      "grad_norm": 0.0014452317263931036,
+      "learning_rate": 0.0001541380804698403,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 203611696,
+      "step": 94260
+    },
+    {
+      "epoch": 15.377650897226754,
+      "grad_norm": 0.001372209400869906,
+      "learning_rate": 0.00015408668060289132,
+      "loss": 0.002,
+      "num_input_tokens_seen": 203621648,
+      "step": 94265
+    },
+    {
+      "epoch": 15.378466557911908,
+      "grad_norm": 0.0006071311072446406,
+      "learning_rate": 0.00015403528774631463,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 203632080,
+      "step": 94270
+    },
+    {
+      "epoch": 15.379282218597064,
+      "grad_norm": 0.03576105460524559,
+      "learning_rate": 0.00015398390190115175,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 203642800,
+      "step": 94275
+    },
+    {
+      "epoch": 15.380097879282218,
+      "grad_norm": 0.0016932595754042268,
+      "learning_rate": 0.00015393252306844402,
+      "loss": 0.0318,
+      "num_input_tokens_seen": 203654160,
+      "step": 94280
+    },
+    {
+      "epoch": 15.380913539967374,
+      "grad_norm": 0.06304704397916794,
+      "learning_rate": 0.00015388115124923267,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 203665040,
+      "step": 94285
+    },
+    {
+      "epoch": 15.38172920065253,
+      "grad_norm": 0.016461336985230446,
+      "learning_rate": 0.00015382978644455896,
+      "loss": 0.0363,
+      "num_input_tokens_seen": 203675024,
+      "step": 94290
+    },
+    {
+      "epoch": 15.382544861337683,
+      "grad_norm": 0.011744924820959568,
+      "learning_rate": 0.00015377842865546372,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 203685616,
+      "step": 94295
+    },
+    {
+      "epoch": 15.383360522022839,
+      "grad_norm": 0.10838112235069275,
+      "learning_rate": 0.0001537270778829879,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 203696944,
+      "step": 94300
+    },
+    {
+      "epoch": 15.384176182707993,
+      "grad_norm": 0.6037494540214539,
+      "learning_rate": 0.00015367573412817186,
+      "loss": 0.0831,
+      "num_input_tokens_seen": 203707344,
+      "step": 94305
+    },
+    {
+      "epoch": 15.384991843393149,
+      "grad_norm": 0.0010668321046978235,
+      "learning_rate": 0.0001536243973920568,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 203717648,
+      "step": 94310
+    },
+    {
+      "epoch": 15.385807504078304,
+      "grad_norm": 0.002049540402367711,
+      "learning_rate": 0.00015357306767568242,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 203728560,
+      "step": 94315
+    },
+    {
+      "epoch": 15.386623164763458,
+      "grad_norm": 0.006294840015470982,
+      "learning_rate": 0.00015352174498008963,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 203740080,
+      "step": 94320
+    },
+    {
+      "epoch": 15.387438825448614,
+      "grad_norm": 0.01672750897705555,
+      "learning_rate": 0.00015347042930631788,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 203751472,
+      "step": 94325
+    },
+    {
+      "epoch": 15.388254486133768,
+      "grad_norm": 0.008858496323227882,
+      "learning_rate": 0.0001534191206554078,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 203763376,
+      "step": 94330
+    },
+    {
+      "epoch": 15.389070146818923,
+      "grad_norm": 0.02900371141731739,
+      "learning_rate": 0.00015336781902839858,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 203774320,
+      "step": 94335
+    },
+    {
+      "epoch": 15.38988580750408,
+      "grad_norm": 0.001398382824845612,
+      "learning_rate": 0.00015331652442633053,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 203785136,
+      "step": 94340
+    },
+    {
+      "epoch": 15.390701468189233,
+      "grad_norm": 0.03610919788479805,
+      "learning_rate": 0.00015326523685024263,
+      "loss": 0.013,
+      "num_input_tokens_seen": 203795280,
+      "step": 94345
+    },
+    {
+      "epoch": 15.391517128874389,
+      "grad_norm": 0.006073774769902229,
+      "learning_rate": 0.0001532139563011749,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 203806000,
+      "step": 94350
+    },
+    {
+      "epoch": 15.392332789559543,
+      "grad_norm": 0.0019028345122933388,
+      "learning_rate": 0.00015316268278016594,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 203816816,
+      "step": 94355
+    },
+    {
+      "epoch": 15.393148450244698,
+      "grad_norm": 0.0005348801496438682,
+      "learning_rate": 0.00015311141628825554,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 203827472,
+      "step": 94360
+    },
+    {
+      "epoch": 15.393964110929852,
+      "grad_norm": 0.0017356444150209427,
+      "learning_rate": 0.000153060156826482,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 203837680,
+      "step": 94365
+    },
+    {
+      "epoch": 15.394779771615008,
+      "grad_norm": 0.03037400357425213,
+      "learning_rate": 0.0001530089043958849,
+      "loss": 0.0235,
+      "num_input_tokens_seen": 203847760,
+      "step": 94370
+    },
+    {
+      "epoch": 15.395595432300164,
+      "grad_norm": 0.008682015351951122,
+      "learning_rate": 0.00015295765899750214,
+      "loss": 0.002,
+      "num_input_tokens_seen": 203857744,
+      "step": 94375
+    },
+    {
+      "epoch": 15.396411092985318,
+      "grad_norm": 0.029603829607367516,
+      "learning_rate": 0.00015290642063237302,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 203868720,
+      "step": 94380
+    },
+    {
+      "epoch": 15.397226753670473,
+      "grad_norm": 0.0024776794016361237,
+      "learning_rate": 0.0001528551893015353,
+      "loss": 0.0895,
+      "num_input_tokens_seen": 203879248,
+      "step": 94385
+    },
+    {
+      "epoch": 15.398042414355627,
+      "grad_norm": 0.002934439340606332,
+      "learning_rate": 0.00015280396500602783,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 203889296,
+      "step": 94390
+    },
+    {
+      "epoch": 15.398858075040783,
+      "grad_norm": 0.028770821169018745,
+      "learning_rate": 0.00015275274774688817,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 203900848,
+      "step": 94395
+    },
+    {
+      "epoch": 15.399673735725939,
+      "grad_norm": 0.11703412979841232,
+      "learning_rate": 0.00015270153752515474,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 203911408,
+      "step": 94400
+    },
+    {
+      "epoch": 15.400489396411093,
+      "grad_norm": 0.019773095846176147,
+      "learning_rate": 0.00015265033434186525,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 203923184,
+      "step": 94405
+    },
+    {
+      "epoch": 15.401305057096248,
+      "grad_norm": 0.005440262146294117,
+      "learning_rate": 0.00015259913819805736,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 203933552,
+      "step": 94410
+    },
+    {
+      "epoch": 15.402120717781402,
+      "grad_norm": 0.011708968318998814,
+      "learning_rate": 0.0001525479490947687,
+      "loss": 0.006,
+      "num_input_tokens_seen": 203944752,
+      "step": 94415
+    },
+    {
+      "epoch": 15.402936378466558,
+      "grad_norm": 0.0032694439869374037,
+      "learning_rate": 0.00015249676703303654,
+      "loss": 0.001,
+      "num_input_tokens_seen": 203955824,
+      "step": 94420
+    },
+    {
+      "epoch": 15.403752039151712,
+      "grad_norm": 0.0076155886054039,
+      "learning_rate": 0.0001524455920138983,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 203965456,
+      "step": 94425
+    },
+    {
+      "epoch": 15.404567699836868,
+      "grad_norm": 0.0033928006887435913,
+      "learning_rate": 0.00015239442403839105,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 203975536,
+      "step": 94430
+    },
+    {
+      "epoch": 15.405383360522023,
+      "grad_norm": 0.4387916922569275,
+      "learning_rate": 0.0001523432631075517,
+      "loss": 0.1567,
+      "num_input_tokens_seen": 203986256,
+      "step": 94435
+    },
+    {
+      "epoch": 15.406199021207177,
+      "grad_norm": 0.0012723475228995085,
+      "learning_rate": 0.00015229210922241721,
+      "loss": 0.1107,
+      "num_input_tokens_seen": 203997040,
+      "step": 94440
+    },
+    {
+      "epoch": 15.407014681892333,
+      "grad_norm": 0.004824480973184109,
+      "learning_rate": 0.0001522409623840242,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 204007920,
+      "step": 94445
+    },
+    {
+      "epoch": 15.407830342577487,
+      "grad_norm": 0.0012717196950688958,
+      "learning_rate": 0.00015218982259340908,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 204018448,
+      "step": 94450
+    },
+    {
+      "epoch": 15.408646003262643,
+      "grad_norm": 0.07703101634979248,
+      "learning_rate": 0.0001521386898516088,
+      "loss": 0.0332,
+      "num_input_tokens_seen": 204028752,
+      "step": 94455
+    },
+    {
+      "epoch": 15.409461663947798,
+      "grad_norm": 0.07954272627830505,
+      "learning_rate": 0.0001520875641596589,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 204039344,
+      "step": 94460
+    },
+    {
+      "epoch": 15.410277324632952,
+      "grad_norm": 0.008622833527624607,
+      "learning_rate": 0.0001520364455185962,
+      "loss": 0.029,
+      "num_input_tokens_seen": 204051376,
+      "step": 94465
+    },
+    {
+      "epoch": 15.411092985318108,
+      "grad_norm": 0.2871306538581848,
+      "learning_rate": 0.00015198533392945602,
+      "loss": 0.019,
+      "num_input_tokens_seen": 204062672,
+      "step": 94470
+    },
+    {
+      "epoch": 15.411908646003262,
+      "grad_norm": 0.531629741191864,
+      "learning_rate": 0.00015193422939327488,
+      "loss": 0.2146,
+      "num_input_tokens_seen": 204073360,
+      "step": 94475
+    },
+    {
+      "epoch": 15.412724306688418,
+      "grad_norm": 0.42784038186073303,
+      "learning_rate": 0.00015188313191108783,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 204084592,
+      "step": 94480
+    },
+    {
+      "epoch": 15.413539967373573,
+      "grad_norm": 0.07477138191461563,
+      "learning_rate": 0.00015183204148393103,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 204095696,
+      "step": 94485
+    },
+    {
+      "epoch": 15.414355628058727,
+      "grad_norm": 0.0180678591132164,
+      "learning_rate": 0.00015178095811283927,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 204106864,
+      "step": 94490
+    },
+    {
+      "epoch": 15.415171288743883,
+      "grad_norm": 0.04884007200598717,
+      "learning_rate": 0.00015172988179884846,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 204118896,
+      "step": 94495
+    },
+    {
+      "epoch": 15.415986949429037,
+      "grad_norm": 0.00031529387342743576,
+      "learning_rate": 0.0001516788125429931,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 204128016,
+      "step": 94500
+    },
+    {
+      "epoch": 15.416802610114193,
+      "grad_norm": 0.2522253394126892,
+      "learning_rate": 0.0001516277503463086,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 204138672,
+      "step": 94505
+    },
+    {
+      "epoch": 15.417618270799348,
+      "grad_norm": 0.03922179341316223,
+      "learning_rate": 0.00015157669520982975,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 204149840,
+      "step": 94510
+    },
+    {
+      "epoch": 15.418433931484502,
+      "grad_norm": 0.007353988941758871,
+      "learning_rate": 0.0001515256471345911,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 204159664,
+      "step": 94515
+    },
+    {
+      "epoch": 15.419249592169658,
+      "grad_norm": 0.005019092466682196,
+      "learning_rate": 0.00015147460612162733,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 204171056,
+      "step": 94520
+    },
+    {
+      "epoch": 15.420065252854812,
+      "grad_norm": 0.03900919482111931,
+      "learning_rate": 0.00015142357217197278,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 204181296,
+      "step": 94525
+    },
+    {
+      "epoch": 15.420880913539968,
+      "grad_norm": 0.05264601483941078,
+      "learning_rate": 0.00015137254528666178,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 204192304,
+      "step": 94530
+    },
+    {
+      "epoch": 15.421696574225122,
+      "grad_norm": 0.08832412958145142,
+      "learning_rate": 0.0001513215254667284,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 204203536,
+      "step": 94535
+    },
+    {
+      "epoch": 15.422512234910277,
+      "grad_norm": 0.0050577265210449696,
+      "learning_rate": 0.00015127051271320664,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 204214928,
+      "step": 94540
+    },
+    {
+      "epoch": 15.423327895595433,
+      "grad_norm": 0.0012761307880282402,
+      "learning_rate": 0.00015121950702713029,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 204226000,
+      "step": 94545
+    },
+    {
+      "epoch": 15.424143556280587,
+      "grad_norm": 0.0036849654279649258,
+      "learning_rate": 0.00015116850840953311,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 204237200,
+      "step": 94550
+    },
+    {
+      "epoch": 15.424959216965743,
+      "grad_norm": 0.0011683054035529494,
+      "learning_rate": 0.00015111751686144864,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 204248144,
+      "step": 94555
+    },
+    {
+      "epoch": 15.425774877650896,
+      "grad_norm": 0.10220471024513245,
+      "learning_rate": 0.00015106653238391028,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 204258768,
+      "step": 94560
+    },
+    {
+      "epoch": 15.426590538336052,
+      "grad_norm": 0.0024899379350245,
+      "learning_rate": 0.00015101555497795127,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 204268496,
+      "step": 94565
+    },
+    {
+      "epoch": 15.427406199021208,
+      "grad_norm": 0.0045095449313521385,
+      "learning_rate": 0.00015096458464460482,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 204278864,
+      "step": 94570
+    },
+    {
+      "epoch": 15.428221859706362,
+      "grad_norm": 0.01300779264420271,
+      "learning_rate": 0.0001509136213849038,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 204289648,
+      "step": 94575
+    },
+    {
+      "epoch": 15.429037520391518,
+      "grad_norm": 0.0015890076756477356,
+      "learning_rate": 0.00015086266519988108,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 204300528,
+      "step": 94580
+    },
+    {
+      "epoch": 15.429853181076671,
+      "grad_norm": 0.002844614442437887,
+      "learning_rate": 0.00015081171609056937,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 204310896,
+      "step": 94585
+    },
+    {
+      "epoch": 15.430668841761827,
+      "grad_norm": 0.0012606673408299685,
+      "learning_rate": 0.00015076077405800126,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 204322096,
+      "step": 94590
+    },
+    {
+      "epoch": 15.431484502446983,
+      "grad_norm": 0.0005698453169316053,
+      "learning_rate": 0.0001507098391032089,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 204333616,
+      "step": 94595
+    },
+    {
+      "epoch": 15.432300163132137,
+      "grad_norm": 0.024903813377022743,
+      "learning_rate": 0.00015065891122722507,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 204343824,
+      "step": 94600
+    },
+    {
+      "epoch": 15.433115823817293,
+      "grad_norm": 0.005087335593998432,
+      "learning_rate": 0.00015060799043108126,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 204354128,
+      "step": 94605
+    },
+    {
+      "epoch": 15.433931484502446,
+      "grad_norm": 0.0013004738138988614,
+      "learning_rate": 0.00015055707671581008,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 204365008,
+      "step": 94610
+    },
+    {
+      "epoch": 15.434747145187602,
+      "grad_norm": 0.006157164927572012,
+      "learning_rate": 0.00015050617008244272,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 204376368,
+      "step": 94615
+    },
+    {
+      "epoch": 15.435562805872756,
+      "grad_norm": 0.0021772703621536493,
+      "learning_rate": 0.00015045527053201137,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 204386288,
+      "step": 94620
+    },
+    {
+      "epoch": 15.436378466557912,
+      "grad_norm": 0.020397908985614777,
+      "learning_rate": 0.00015040437806554735,
+      "loss": 0.1338,
+      "num_input_tokens_seen": 204396784,
+      "step": 94625
+    },
+    {
+      "epoch": 15.437194127243067,
+      "grad_norm": 0.004979412537068129,
+      "learning_rate": 0.00015035349268408216,
+      "loss": 0.0911,
+      "num_input_tokens_seen": 204407184,
+      "step": 94630
+    },
+    {
+      "epoch": 15.438009787928221,
+      "grad_norm": 0.009470396675169468,
+      "learning_rate": 0.00015030261438864694,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 204416400,
+      "step": 94635
+    },
+    {
+      "epoch": 15.438825448613377,
+      "grad_norm": 0.0030095677357167006,
+      "learning_rate": 0.0001502517431802729,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 204426256,
+      "step": 94640
+    },
+    {
+      "epoch": 15.439641109298531,
+      "grad_norm": 0.041119664907455444,
+      "learning_rate": 0.00015020087905999097,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 204437424,
+      "step": 94645
+    },
+    {
+      "epoch": 15.440456769983687,
+      "grad_norm": 0.008877326734364033,
+      "learning_rate": 0.00015015002202883193,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 204446800,
+      "step": 94650
+    },
+    {
+      "epoch": 15.441272430668842,
+      "grad_norm": 0.07724998146295547,
+      "learning_rate": 0.00015009917208782657,
+      "loss": 0.017,
+      "num_input_tokens_seen": 204458576,
+      "step": 94655
+    },
+    {
+      "epoch": 15.442088091353996,
+      "grad_norm": 0.005192750133574009,
+      "learning_rate": 0.00015004832923800533,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 204468752,
+      "step": 94660
+    },
+    {
+      "epoch": 15.442903752039152,
+      "grad_norm": 0.010963196866214275,
+      "learning_rate": 0.00014999749348039866,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 204479024,
+      "step": 94665
+    },
+    {
+      "epoch": 15.443719412724306,
+      "grad_norm": 0.07558204233646393,
+      "learning_rate": 0.0001499466648160368,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 204489744,
+      "step": 94670
+    },
+    {
+      "epoch": 15.444535073409462,
+      "grad_norm": 0.005794727709144354,
+      "learning_rate": 0.00014989584324594986,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 204500592,
+      "step": 94675
+    },
+    {
+      "epoch": 15.445350734094617,
+      "grad_norm": 0.005403991788625717,
+      "learning_rate": 0.00014984502877116773,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 204510960,
+      "step": 94680
+    },
+    {
+      "epoch": 15.446166394779771,
+      "grad_norm": 0.018055513501167297,
+      "learning_rate": 0.00014979422139272037,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 204521776,
+      "step": 94685
+    },
+    {
+      "epoch": 15.446982055464927,
+      "grad_norm": 0.01070409920066595,
+      "learning_rate": 0.00014974342111163735,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 204530896,
+      "step": 94690
+    },
+    {
+      "epoch": 15.447797716150081,
+      "grad_norm": 0.09509050846099854,
+      "learning_rate": 0.00014969262792894822,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 204541648,
+      "step": 94695
+    },
+    {
+      "epoch": 15.448613376835237,
+      "grad_norm": 0.05279732868075371,
+      "learning_rate": 0.0001496418418456824,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 204552784,
+      "step": 94700
+    },
+    {
+      "epoch": 15.449429037520392,
+      "grad_norm": 0.0030731274746358395,
+      "learning_rate": 0.0001495910628628691,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 204564016,
+      "step": 94705
+    },
+    {
+      "epoch": 15.450244698205546,
+      "grad_norm": 0.0014273212291300297,
+      "learning_rate": 0.00014954029098153748,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 204574032,
+      "step": 94710
+    },
+    {
+      "epoch": 15.451060358890702,
+      "grad_norm": 0.001934555359184742,
+      "learning_rate": 0.00014948952620271643,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 204585552,
+      "step": 94715
+    },
+    {
+      "epoch": 15.451876019575856,
+      "grad_norm": 0.0016809795051813126,
+      "learning_rate": 0.00014943876852743475,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 204596848,
+      "step": 94720
+    },
+    {
+      "epoch": 15.452691680261012,
+      "grad_norm": 0.0013799264561384916,
+      "learning_rate": 0.00014938801795672102,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 204607792,
+      "step": 94725
+    },
+    {
+      "epoch": 15.453507340946166,
+      "grad_norm": 0.02855961211025715,
+      "learning_rate": 0.00014933727449160423,
+      "loss": 0.0382,
+      "num_input_tokens_seen": 204619184,
+      "step": 94730
+    },
+    {
+      "epoch": 15.454323001631321,
+      "grad_norm": 0.013205167837440968,
+      "learning_rate": 0.00014928653813311204,
+      "loss": 0.003,
+      "num_input_tokens_seen": 204629584,
+      "step": 94735
+    },
+    {
+      "epoch": 15.455138662316477,
+      "grad_norm": 0.0069459774531424046,
+      "learning_rate": 0.00014923580888227329,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 204641424,
+      "step": 94740
+    },
+    {
+      "epoch": 15.455954323001631,
+      "grad_norm": 0.004139984026551247,
+      "learning_rate": 0.00014918508674011582,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 204652208,
+      "step": 94745
+    },
+    {
+      "epoch": 15.456769983686787,
+      "grad_norm": 0.004607068374752998,
+      "learning_rate": 0.0001491343717076676,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 204662608,
+      "step": 94750
+    },
+    {
+      "epoch": 15.45758564437194,
+      "grad_norm": 1.534938931465149,
+      "learning_rate": 0.00014908366378595645,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 204674448,
+      "step": 94755
+    },
+    {
+      "epoch": 15.458401305057096,
+      "grad_norm": 0.002478801878169179,
+      "learning_rate": 0.00014903296297601,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 204686096,
+      "step": 94760
+    },
+    {
+      "epoch": 15.459216965742252,
+      "grad_norm": 0.010276932269334793,
+      "learning_rate": 0.00014898226927885584,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 204696048,
+      "step": 94765
+    },
+    {
+      "epoch": 15.460032626427406,
+      "grad_norm": 0.0010761553421616554,
+      "learning_rate": 0.00014893158269552127,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 204706704,
+      "step": 94770
+    },
+    {
+      "epoch": 15.460848287112562,
+      "grad_norm": 0.02356075681746006,
+      "learning_rate": 0.00014888090322703353,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 204716144,
+      "step": 94775
+    },
+    {
+      "epoch": 15.461663947797716,
+      "grad_norm": 0.023741189390420914,
+      "learning_rate": 0.00014883023087441965,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 204727984,
+      "step": 94780
+    },
+    {
+      "epoch": 15.462479608482871,
+      "grad_norm": 0.5104894042015076,
+      "learning_rate": 0.0001487795656387067,
+      "loss": 0.0932,
+      "num_input_tokens_seen": 204738960,
+      "step": 94785
+    },
+    {
+      "epoch": 15.463295269168025,
+      "grad_norm": 0.006746853701770306,
+      "learning_rate": 0.00014872890752092144,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 204749456,
+      "step": 94790
+    },
+    {
+      "epoch": 15.464110929853181,
+      "grad_norm": 0.023834139108657837,
+      "learning_rate": 0.00014867825652209045,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 204760304,
+      "step": 94795
+    },
+    {
+      "epoch": 15.464926590538337,
+      "grad_norm": 0.002329958835616708,
+      "learning_rate": 0.00014862761264324025,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 204771984,
+      "step": 94800
+    },
+    {
+      "epoch": 15.46574225122349,
+      "grad_norm": 0.007659323513507843,
+      "learning_rate": 0.00014857697588539727,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 204782640,
+      "step": 94805
+    },
+    {
+      "epoch": 15.466557911908646,
+      "grad_norm": 0.0002704902726691216,
+      "learning_rate": 0.00014852634624958766,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 204791632,
+      "step": 94810
+    },
+    {
+      "epoch": 15.4673735725938,
+      "grad_norm": 0.015242592431604862,
+      "learning_rate": 0.00014847572373683749,
+      "loss": 0.0133,
+      "num_input_tokens_seen": 204804080,
+      "step": 94815
+    },
+    {
+      "epoch": 15.468189233278956,
+      "grad_norm": 0.006385531276464462,
+      "learning_rate": 0.00014842510834817274,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 204814672,
+      "step": 94820
+    },
+    {
+      "epoch": 15.469004893964112,
+      "grad_norm": 0.005965860094875097,
+      "learning_rate": 0.00014837450008461922,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 204825552,
+      "step": 94825
+    },
+    {
+      "epoch": 15.469820554649266,
+      "grad_norm": 0.002931939670816064,
+      "learning_rate": 0.00014832389894720233,
+      "loss": 0.001,
+      "num_input_tokens_seen": 204835280,
+      "step": 94830
+    },
+    {
+      "epoch": 15.470636215334421,
+      "grad_norm": 0.0005909419851377606,
+      "learning_rate": 0.00014827330493694807,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 204844752,
+      "step": 94835
+    },
+    {
+      "epoch": 15.471451876019575,
+      "grad_norm": 0.0040916381403803825,
+      "learning_rate": 0.0001482227180548812,
+      "loss": 0.004,
+      "num_input_tokens_seen": 204855472,
+      "step": 94840
+    },
+    {
+      "epoch": 15.47226753670473,
+      "grad_norm": 0.006552472244948149,
+      "learning_rate": 0.00014817213830202748,
+      "loss": 0.008,
+      "num_input_tokens_seen": 204866832,
+      "step": 94845
+    },
+    {
+      "epoch": 15.473083197389887,
+      "grad_norm": 0.00648926105350256,
+      "learning_rate": 0.00014812156567941143,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 204877712,
+      "step": 94850
+    },
+    {
+      "epoch": 15.47389885807504,
+      "grad_norm": 0.2792307734489441,
+      "learning_rate": 0.00014807100018805853,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 204887696,
+      "step": 94855
+    },
+    {
+      "epoch": 15.474714518760196,
+      "grad_norm": 0.017968228086829185,
+      "learning_rate": 0.00014802044182899294,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 204899632,
+      "step": 94860
+    },
+    {
+      "epoch": 15.47553017944535,
+      "grad_norm": 0.00422089034691453,
+      "learning_rate": 0.00014796989060323997,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 204910000,
+      "step": 94865
+    },
+    {
+      "epoch": 15.476345840130506,
+      "grad_norm": 0.0017101641278713942,
+      "learning_rate": 0.00014791934651182338,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 204921168,
+      "step": 94870
+    },
+    {
+      "epoch": 15.477161500815662,
+      "grad_norm": 0.0047962963581085205,
+      "learning_rate": 0.0001478688095557682,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 204930704,
+      "step": 94875
+    },
+    {
+      "epoch": 15.477977161500815,
+      "grad_norm": 0.02295534871518612,
+      "learning_rate": 0.00014781827973609803,
+      "loss": 0.027,
+      "num_input_tokens_seen": 204941872,
+      "step": 94880
+    },
+    {
+      "epoch": 15.478792822185971,
+      "grad_norm": 0.008626680821180344,
+      "learning_rate": 0.00014776775705383733,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 204952208,
+      "step": 94885
+    },
+    {
+      "epoch": 15.479608482871125,
+      "grad_norm": 0.0017688804073259234,
+      "learning_rate": 0.00014771724151000986,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 204963728,
+      "step": 94890
+    },
+    {
+      "epoch": 15.48042414355628,
+      "grad_norm": 0.019344795495271683,
+      "learning_rate": 0.00014766673310563945,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 204975440,
+      "step": 94895
+    },
+    {
+      "epoch": 15.481239804241435,
+      "grad_norm": 0.013398679904639721,
+      "learning_rate": 0.0001476162318417496,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 204986768,
+      "step": 94900
+    },
+    {
+      "epoch": 15.48205546492659,
+      "grad_norm": 0.05068299174308777,
+      "learning_rate": 0.00014756573771936382,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 204998064,
+      "step": 94905
+    },
+    {
+      "epoch": 15.482871125611746,
+      "grad_norm": 0.002898820675909519,
+      "learning_rate": 0.0001475152507395055,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 205008304,
+      "step": 94910
+    },
+    {
+      "epoch": 15.4836867862969,
+      "grad_norm": 0.016531746834516525,
+      "learning_rate": 0.00014746477090319781,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 205018192,
+      "step": 94915
+    },
+    {
+      "epoch": 15.484502446982056,
+      "grad_norm": 0.06572934985160828,
+      "learning_rate": 0.00014741429821146375,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 205028816,
+      "step": 94920
+    },
+    {
+      "epoch": 15.48531810766721,
+      "grad_norm": 0.001525534433312714,
+      "learning_rate": 0.00014736383266532622,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 205039920,
+      "step": 94925
+    },
+    {
+      "epoch": 15.486133768352365,
+      "grad_norm": 0.0032828834373503923,
+      "learning_rate": 0.00014731337426580792,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 205050032,
+      "step": 94930
+    },
+    {
+      "epoch": 15.486949429037521,
+      "grad_norm": 0.01835629530251026,
+      "learning_rate": 0.0001472629230139314,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 205061968,
+      "step": 94935
+    },
+    {
+      "epoch": 15.487765089722675,
+      "grad_norm": 0.007460998836904764,
+      "learning_rate": 0.00014721247891071954,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 205072976,
+      "step": 94940
+    },
+    {
+      "epoch": 15.48858075040783,
+      "grad_norm": 0.0013818942243233323,
+      "learning_rate": 0.00014716204195719396,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 205082832,
+      "step": 94945
+    },
+    {
+      "epoch": 15.489396411092985,
+      "grad_norm": 0.008082177489995956,
+      "learning_rate": 0.00014711161215437757,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 205094736,
+      "step": 94950
+    },
+    {
+      "epoch": 15.49021207177814,
+      "grad_norm": 0.0091333519667387,
+      "learning_rate": 0.00014706118950329173,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 205105616,
+      "step": 94955
+    },
+    {
+      "epoch": 15.491027732463296,
+      "grad_norm": 0.001196563825942576,
+      "learning_rate": 0.00014701077400495894,
+      "loss": 0.0662,
+      "num_input_tokens_seen": 205115312,
+      "step": 94960
+    },
+    {
+      "epoch": 15.49184339314845,
+      "grad_norm": 0.0008588659111410379,
+      "learning_rate": 0.00014696036566040028,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 205126800,
+      "step": 94965
+    },
+    {
+      "epoch": 15.492659053833606,
+      "grad_norm": 0.00046497659059241414,
+      "learning_rate": 0.00014690996447063798,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 205137808,
+      "step": 94970
+    },
+    {
+      "epoch": 15.49347471451876,
+      "grad_norm": 0.001684483140707016,
+      "learning_rate": 0.00014685957043669283,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 205148560,
+      "step": 94975
+    },
+    {
+      "epoch": 15.494290375203915,
+      "grad_norm": 0.08418180793523788,
+      "learning_rate": 0.00014680918355958683,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 205160080,
+      "step": 94980
+    },
+    {
+      "epoch": 15.49510603588907,
+      "grad_norm": 0.0057790386490523815,
+      "learning_rate": 0.00014675880384034046,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 205170544,
+      "step": 94985
+    },
+    {
+      "epoch": 15.495921696574225,
+      "grad_norm": 0.001607961137779057,
+      "learning_rate": 0.00014670843127997542,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 205181712,
+      "step": 94990
+    },
+    {
+      "epoch": 15.49673735725938,
+      "grad_norm": 0.0023566484451293945,
+      "learning_rate": 0.0001466580658795118,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 205192560,
+      "step": 94995
+    },
+    {
+      "epoch": 15.497553017944535,
+      "grad_norm": 0.14754217863082886,
+      "learning_rate": 0.00014660770763997105,
+      "loss": 0.106,
+      "num_input_tokens_seen": 205202032,
+      "step": 95000
+    },
+    {
+      "epoch": 15.49836867862969,
+      "grad_norm": 0.009285212494432926,
+      "learning_rate": 0.00014655735656237312,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 205213104,
+      "step": 95005
+    },
+    {
+      "epoch": 15.499184339314844,
+      "grad_norm": 0.0009993219282478094,
+      "learning_rate": 0.00014650701264773907,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 205224752,
+      "step": 95010
+    },
+    {
+      "epoch": 15.5,
+      "grad_norm": 0.04408176988363266,
+      "learning_rate": 0.0001464566758970885,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 205236304,
+      "step": 95015
+    },
+    {
+      "epoch": 15.500815660685156,
+      "grad_norm": 0.0037940412294119596,
+      "learning_rate": 0.00014640634631144206,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 205246224,
+      "step": 95020
+    },
+    {
+      "epoch": 15.50163132137031,
+      "grad_norm": 0.013590458780527115,
+      "learning_rate": 0.00014635602389181956,
+      "loss": 0.003,
+      "num_input_tokens_seen": 205257424,
+      "step": 95025
+    },
+    {
+      "epoch": 15.502446982055465,
+      "grad_norm": 0.008497872389853,
+      "learning_rate": 0.00014630570863924088,
+      "loss": 0.008,
+      "num_input_tokens_seen": 205268560,
+      "step": 95030
+    },
+    {
+      "epoch": 15.50326264274062,
+      "grad_norm": 0.005137204192578793,
+      "learning_rate": 0.0001462554005547257,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 205279280,
+      "step": 95035
+    },
+    {
+      "epoch": 15.504078303425775,
+      "grad_norm": 0.012710629031062126,
+      "learning_rate": 0.00014620509963929362,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 205289616,
+      "step": 95040
+    },
+    {
+      "epoch": 15.50489396411093,
+      "grad_norm": 0.03326995298266411,
+      "learning_rate": 0.00014615480589396396,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 205300976,
+      "step": 95045
+    },
+    {
+      "epoch": 15.505709624796085,
+      "grad_norm": 0.0013846260262653232,
+      "learning_rate": 0.0001461045193197561,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 205311568,
+      "step": 95050
+    },
+    {
+      "epoch": 15.50652528548124,
+      "grad_norm": 0.02186959609389305,
+      "learning_rate": 0.00014605423991768908,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 205322032,
+      "step": 95055
+    },
+    {
+      "epoch": 15.507340946166394,
+      "grad_norm": 0.00837793666869402,
+      "learning_rate": 0.00014600396768878188,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 205333104,
+      "step": 95060
+    },
+    {
+      "epoch": 15.50815660685155,
+      "grad_norm": 0.18578238785266876,
+      "learning_rate": 0.0001459537026340534,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 205344496,
+      "step": 95065
+    },
+    {
+      "epoch": 15.508972267536706,
+      "grad_norm": 0.00431056646630168,
+      "learning_rate": 0.0001459034447545222,
+      "loss": 0.0303,
+      "num_input_tokens_seen": 205355248,
+      "step": 95070
+    },
+    {
+      "epoch": 15.50978792822186,
+      "grad_norm": 0.011880909092724323,
+      "learning_rate": 0.00014585319405120695,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 205367600,
+      "step": 95075
+    },
+    {
+      "epoch": 15.510603588907015,
+      "grad_norm": 0.0075214398093521595,
+      "learning_rate": 0.0001458029505251258,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 205376976,
+      "step": 95080
+    },
+    {
+      "epoch": 15.51141924959217,
+      "grad_norm": 0.01479738112539053,
+      "learning_rate": 0.0001457527141772975,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 205388272,
+      "step": 95085
+    },
+    {
+      "epoch": 15.512234910277325,
+      "grad_norm": 0.0015288260765373707,
+      "learning_rate": 0.00014570248500873963,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 205398864,
+      "step": 95090
+    },
+    {
+      "epoch": 15.513050570962479,
+      "grad_norm": 0.039064157754182816,
+      "learning_rate": 0.00014565226302047058,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 205409872,
+      "step": 95095
+    },
+    {
+      "epoch": 15.513866231647635,
+      "grad_norm": 0.44162848591804504,
+      "learning_rate": 0.00014560204821350764,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 205420208,
+      "step": 95100
+    },
+    {
+      "epoch": 15.51468189233279,
+      "grad_norm": 0.0027341239620000124,
+      "learning_rate": 0.00014555184058886905,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 205431536,
+      "step": 95105
+    },
+    {
+      "epoch": 15.515497553017944,
+      "grad_norm": 0.008773371577262878,
+      "learning_rate": 0.00014550164014757183,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 205443504,
+      "step": 95110
+    },
+    {
+      "epoch": 15.5163132137031,
+      "grad_norm": 0.6953399181365967,
+      "learning_rate": 0.00014545144689063382,
+      "loss": 0.2316,
+      "num_input_tokens_seen": 205453456,
+      "step": 95115
+    },
+    {
+      "epoch": 15.517128874388254,
+      "grad_norm": 0.7138208746910095,
+      "learning_rate": 0.0001454012608190718,
+      "loss": 0.072,
+      "num_input_tokens_seen": 205465136,
+      "step": 95120
+    },
+    {
+      "epoch": 15.51794453507341,
+      "grad_norm": 0.0015598111785948277,
+      "learning_rate": 0.0001453510819339033,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 205475184,
+      "step": 95125
+    },
+    {
+      "epoch": 15.518760195758565,
+      "grad_norm": 0.00230622966773808,
+      "learning_rate": 0.0001453009102361447,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 205484688,
+      "step": 95130
+    },
+    {
+      "epoch": 15.51957585644372,
+      "grad_norm": 0.02480519562959671,
+      "learning_rate": 0.0001452507457268135,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 205494960,
+      "step": 95135
+    },
+    {
+      "epoch": 15.520391517128875,
+      "grad_norm": 0.0014786440879106522,
+      "learning_rate": 0.00014520058840692562,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 205506064,
+      "step": 95140
+    },
+    {
+      "epoch": 15.521207177814029,
+      "grad_norm": 0.023763207718729973,
+      "learning_rate": 0.00014515043827749812,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 205516944,
+      "step": 95145
+    },
+    {
+      "epoch": 15.522022838499185,
+      "grad_norm": 0.05934037268161774,
+      "learning_rate": 0.0001451002953395471,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 205527056,
+      "step": 95150
+    },
+    {
+      "epoch": 15.522838499184338,
+      "grad_norm": 0.015051600523293018,
+      "learning_rate": 0.00014505015959408884,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 205536944,
+      "step": 95155
+    },
+    {
+      "epoch": 15.523654159869494,
+      "grad_norm": 0.0194566547870636,
+      "learning_rate": 0.00014500003104213932,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 205546768,
+      "step": 95160
+    },
+    {
+      "epoch": 15.52446982055465,
+      "grad_norm": 0.004796968307346106,
+      "learning_rate": 0.0001449499096847146,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 205557200,
+      "step": 95165
+    },
+    {
+      "epoch": 15.525285481239804,
+      "grad_norm": 0.004861933179199696,
+      "learning_rate": 0.00014489979552283035,
+      "loss": 0.093,
+      "num_input_tokens_seen": 205568144,
+      "step": 95170
+    },
+    {
+      "epoch": 15.52610114192496,
+      "grad_norm": 0.023706277832388878,
+      "learning_rate": 0.0001448496885575022,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 205579504,
+      "step": 95175
+    },
+    {
+      "epoch": 15.526916802610113,
+      "grad_norm": 0.010353012010455132,
+      "learning_rate": 0.00014479958878974564,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 205590256,
+      "step": 95180
+    },
+    {
+      "epoch": 15.52773246329527,
+      "grad_norm": 0.018889334052801132,
+      "learning_rate": 0.00014474949622057603,
+      "loss": 0.002,
+      "num_input_tokens_seen": 205601520,
+      "step": 95185
+    },
+    {
+      "epoch": 15.528548123980425,
+      "grad_norm": 0.008149920962750912,
+      "learning_rate": 0.00014469941085100857,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 205612304,
+      "step": 95190
+    },
+    {
+      "epoch": 15.529363784665579,
+      "grad_norm": 0.030473439022898674,
+      "learning_rate": 0.00014464933268205826,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 205622768,
+      "step": 95195
+    },
+    {
+      "epoch": 15.530179445350734,
+      "grad_norm": 0.01042587123811245,
+      "learning_rate": 0.00014459926171474002,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 205633072,
+      "step": 95200
+    },
+    {
+      "epoch": 15.530995106035888,
+      "grad_norm": 0.06183413416147232,
+      "learning_rate": 0.0001445491979500686,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 205643120,
+      "step": 95205
+    },
+    {
+      "epoch": 15.531810766721044,
+      "grad_norm": 0.0014860248193144798,
+      "learning_rate": 0.0001444991413890586,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 205653296,
+      "step": 95210
+    },
+    {
+      "epoch": 15.5326264274062,
+      "grad_norm": 0.0037677655927836895,
+      "learning_rate": 0.00014444909203272438,
+      "loss": 0.0344,
+      "num_input_tokens_seen": 205662672,
+      "step": 95215
+    },
+    {
+      "epoch": 15.533442088091354,
+      "grad_norm": 0.034878209233284,
+      "learning_rate": 0.0001443990498820806,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 205672752,
+      "step": 95220
+    },
+    {
+      "epoch": 15.53425774877651,
+      "grad_norm": 0.366243839263916,
+      "learning_rate": 0.0001443490149381409,
+      "loss": 0.022,
+      "num_input_tokens_seen": 205683984,
+      "step": 95225
+    },
+    {
+      "epoch": 15.535073409461663,
+      "grad_norm": 0.003331542480736971,
+      "learning_rate": 0.0001442989872019199,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 205694992,
+      "step": 95230
+    },
+    {
+      "epoch": 15.535889070146819,
+      "grad_norm": 0.0007717033731751144,
+      "learning_rate": 0.00014424896667443083,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 205706512,
+      "step": 95235
+    },
+    {
+      "epoch": 15.536704730831975,
+      "grad_norm": 0.004548640456050634,
+      "learning_rate": 0.00014419895335668809,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 205717968,
+      "step": 95240
+    },
+    {
+      "epoch": 15.537520391517129,
+      "grad_norm": 0.006112218368798494,
+      "learning_rate": 0.00014414894724970462,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 205728912,
+      "step": 95245
+    },
+    {
+      "epoch": 15.538336052202284,
+      "grad_norm": 0.02950763888657093,
+      "learning_rate": 0.00014409894835449444,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 205739888,
+      "step": 95250
+    },
+    {
+      "epoch": 15.539151712887438,
+      "grad_norm": 0.1370188146829605,
+      "learning_rate": 0.00014404895667207028,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 205751376,
+      "step": 95255
+    },
+    {
+      "epoch": 15.539967373572594,
+      "grad_norm": 0.0022804271429777145,
+      "learning_rate": 0.00014399897220344576,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 205761072,
+      "step": 95260
+    },
+    {
+      "epoch": 15.540783034257748,
+      "grad_norm": 0.001658109133131802,
+      "learning_rate": 0.00014394899494963364,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 205771824,
+      "step": 95265
+    },
+    {
+      "epoch": 15.541598694942904,
+      "grad_norm": 0.0006953808479011059,
+      "learning_rate": 0.00014389902491164681,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 205781616,
+      "step": 95270
+    },
+    {
+      "epoch": 15.54241435562806,
+      "grad_norm": 0.060906656086444855,
+      "learning_rate": 0.00014384906209049804,
+      "loss": 0.002,
+      "num_input_tokens_seen": 205792528,
+      "step": 95275
+    },
+    {
+      "epoch": 15.543230016313213,
+      "grad_norm": 0.008214866742491722,
+      "learning_rate": 0.0001437991064871998,
+      "loss": 0.1226,
+      "num_input_tokens_seen": 205803568,
+      "step": 95280
+    },
+    {
+      "epoch": 15.544045676998369,
+      "grad_norm": 0.0363452285528183,
+      "learning_rate": 0.0001437491581027645,
+      "loss": 0.0863,
+      "num_input_tokens_seen": 205813424,
+      "step": 95285
+    },
+    {
+      "epoch": 15.544861337683523,
+      "grad_norm": 0.0006147515960037708,
+      "learning_rate": 0.00014369921693820447,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 205824688,
+      "step": 95290
+    },
+    {
+      "epoch": 15.545676998368679,
+      "grad_norm": 0.004925783723592758,
+      "learning_rate": 0.00014364928299453184,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 205835760,
+      "step": 95295
+    },
+    {
+      "epoch": 15.546492659053834,
+      "grad_norm": 0.0010029467521235347,
+      "learning_rate": 0.00014359935627275856,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 205846672,
+      "step": 95300
+    },
+    {
+      "epoch": 15.547308319738988,
+      "grad_norm": 0.0026191682554781437,
+      "learning_rate": 0.00014354943677389643,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 205858384,
+      "step": 95305
+    },
+    {
+      "epoch": 15.548123980424144,
+      "grad_norm": 0.007862421683967113,
+      "learning_rate": 0.00014349952449895715,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 205868720,
+      "step": 95310
+    },
+    {
+      "epoch": 15.548939641109298,
+      "grad_norm": 0.0005457144579850137,
+      "learning_rate": 0.00014344961944895223,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 205877776,
+      "step": 95315
+    },
+    {
+      "epoch": 15.549755301794454,
+      "grad_norm": 0.011868278495967388,
+      "learning_rate": 0.00014339972162489317,
+      "loss": 0.015,
+      "num_input_tokens_seen": 205888912,
+      "step": 95320
+    },
+    {
+      "epoch": 15.550570962479608,
+      "grad_norm": 0.0013630108442157507,
+      "learning_rate": 0.0001433498310277911,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 205900240,
+      "step": 95325
+    },
+    {
+      "epoch": 15.551386623164763,
+      "grad_norm": 0.004692132119089365,
+      "learning_rate": 0.0001432999476586571,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 205911792,
+      "step": 95330
+    },
+    {
+      "epoch": 15.552202283849919,
+      "grad_norm": 0.002104677725583315,
+      "learning_rate": 0.00014325007151850218,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 205922704,
+      "step": 95335
+    },
+    {
+      "epoch": 15.553017944535073,
+      "grad_norm": 0.030288465321063995,
+      "learning_rate": 0.00014320020260833716,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 205934064,
+      "step": 95340
+    },
+    {
+      "epoch": 15.553833605220229,
+      "grad_norm": 0.0025799486320465803,
+      "learning_rate": 0.00014315034092917268,
+      "loss": 0.001,
+      "num_input_tokens_seen": 205943760,
+      "step": 95345
+    },
+    {
+      "epoch": 15.554649265905383,
+      "grad_norm": 0.0033469286281615496,
+      "learning_rate": 0.00014310048648201917,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 205952528,
+      "step": 95350
+    },
+    {
+      "epoch": 15.555464926590538,
+      "grad_norm": 0.021118100732564926,
+      "learning_rate": 0.0001430506392678871,
+      "loss": 0.004,
+      "num_input_tokens_seen": 205963056,
+      "step": 95355
+    },
+    {
+      "epoch": 15.556280587275694,
+      "grad_norm": 0.024281244724988937,
+      "learning_rate": 0.00014300079928778646,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 205973648,
+      "step": 95360
+    },
+    {
+      "epoch": 15.557096247960848,
+      "grad_norm": 0.09317111223936081,
+      "learning_rate": 0.00014295096654272772,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 205984112,
+      "step": 95365
+    },
+    {
+      "epoch": 15.557911908646004,
+      "grad_norm": 0.0007803754997439682,
+      "learning_rate": 0.00014290114103372058,
+      "loss": 0.0567,
+      "num_input_tokens_seen": 205994704,
+      "step": 95370
+    },
+    {
+      "epoch": 15.558727569331158,
+      "grad_norm": 0.009101621806621552,
+      "learning_rate": 0.00014285132276177482,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 206004784,
+      "step": 95375
+    },
+    {
+      "epoch": 15.559543230016313,
+      "grad_norm": 0.0009343404090031981,
+      "learning_rate": 0.00014280151172790006,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 206015472,
+      "step": 95380
+    },
+    {
+      "epoch": 15.560358890701469,
+      "grad_norm": 0.0013652790803462267,
+      "learning_rate": 0.00014275170793310582,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 206028336,
+      "step": 95385
+    },
+    {
+      "epoch": 15.561174551386623,
+      "grad_norm": 0.015270788222551346,
+      "learning_rate": 0.00014270191137840145,
+      "loss": 0.1079,
+      "num_input_tokens_seen": 206037424,
+      "step": 95390
+    },
+    {
+      "epoch": 15.561990212071779,
+      "grad_norm": 0.0003416137769818306,
+      "learning_rate": 0.00014265212206479604,
+      "loss": 0.014,
+      "num_input_tokens_seen": 206047600,
+      "step": 95395
+    },
+    {
+      "epoch": 15.562805872756933,
+      "grad_norm": 0.020423779264092445,
+      "learning_rate": 0.00014260233999329873,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 206057488,
+      "step": 95400
+    },
+    {
+      "epoch": 15.563621533442088,
+      "grad_norm": 0.001411057892255485,
+      "learning_rate": 0.00014255256516491845,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 206069008,
+      "step": 95405
+    },
+    {
+      "epoch": 15.564437194127244,
+      "grad_norm": 0.8168393969535828,
+      "learning_rate": 0.00014250279758066387,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 206079984,
+      "step": 95410
+    },
+    {
+      "epoch": 15.565252854812398,
+      "grad_norm": 0.04632632061839104,
+      "learning_rate": 0.00014245303724154358,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 206091248,
+      "step": 95415
+    },
+    {
+      "epoch": 15.566068515497554,
+      "grad_norm": 0.011034045368432999,
+      "learning_rate": 0.00014240328414856607,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 206101328,
+      "step": 95420
+    },
+    {
+      "epoch": 15.566884176182707,
+      "grad_norm": 0.006134867202490568,
+      "learning_rate": 0.00014235353830273966,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 206111472,
+      "step": 95425
+    },
+    {
+      "epoch": 15.567699836867863,
+      "grad_norm": 0.002034999430179596,
+      "learning_rate": 0.00014230379970507252,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 206122736,
+      "step": 95430
+    },
+    {
+      "epoch": 15.568515497553017,
+      "grad_norm": 0.0007061712676659226,
+      "learning_rate": 0.00014225406835657262,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 206134576,
+      "step": 95435
+    },
+    {
+      "epoch": 15.569331158238173,
+      "grad_norm": 0.04730561748147011,
+      "learning_rate": 0.00014220434425824785,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 206145040,
+      "step": 95440
+    },
+    {
+      "epoch": 15.570146818923329,
+      "grad_norm": 0.006063089240342379,
+      "learning_rate": 0.00014215462741110597,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 206156208,
+      "step": 95445
+    },
+    {
+      "epoch": 15.570962479608482,
+      "grad_norm": 0.5385159850120544,
+      "learning_rate": 0.00014210491781615453,
+      "loss": 0.0871,
+      "num_input_tokens_seen": 206167408,
+      "step": 95450
+    },
+    {
+      "epoch": 15.571778140293638,
+      "grad_norm": 0.002197818597778678,
+      "learning_rate": 0.00014205521547440092,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 206177808,
+      "step": 95455
+    },
+    {
+      "epoch": 15.572593800978792,
+      "grad_norm": 0.009187380783259869,
+      "learning_rate": 0.00014200552038685249,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 206188016,
+      "step": 95460
+    },
+    {
+      "epoch": 15.573409461663948,
+      "grad_norm": 0.00341814081184566,
+      "learning_rate": 0.00014195583255451633,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 206199472,
+      "step": 95465
+    },
+    {
+      "epoch": 15.574225122349104,
+      "grad_norm": 0.0038523096591234207,
+      "learning_rate": 0.00014190615197839929,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 206209520,
+      "step": 95470
+    },
+    {
+      "epoch": 15.575040783034257,
+      "grad_norm": 0.0005846923450008035,
+      "learning_rate": 0.00014185647865950861,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 206220368,
+      "step": 95475
+    },
+    {
+      "epoch": 15.575856443719413,
+      "grad_norm": 0.22896532714366913,
+      "learning_rate": 0.00014180681259885048,
+      "loss": 0.1469,
+      "num_input_tokens_seen": 206231568,
+      "step": 95480
+    },
+    {
+      "epoch": 15.576672104404567,
+      "grad_norm": 0.0027704713866114616,
+      "learning_rate": 0.000141757153797432,
+      "loss": 0.001,
+      "num_input_tokens_seen": 206243376,
+      "step": 95485
+    },
+    {
+      "epoch": 15.577487765089723,
+      "grad_norm": 0.05355888605117798,
+      "learning_rate": 0.00014170750225625888,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 206253360,
+      "step": 95490
+    },
+    {
+      "epoch": 15.578303425774878,
+      "grad_norm": 0.004209849517792463,
+      "learning_rate": 0.00014165785797633812,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 206263856,
+      "step": 95495
+    },
+    {
+      "epoch": 15.579119086460032,
+      "grad_norm": 0.004551318474113941,
+      "learning_rate": 0.00014160822095867515,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 206275376,
+      "step": 95500
+    },
+    {
+      "epoch": 15.579934747145188,
+      "grad_norm": 0.009526636451482773,
+      "learning_rate": 0.00014155859120427633,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 206286608,
+      "step": 95505
+    },
+    {
+      "epoch": 15.580750407830342,
+      "grad_norm": 0.05764400586485863,
+      "learning_rate": 0.00014150896871414743,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 206297616,
+      "step": 95510
+    },
+    {
+      "epoch": 15.581566068515498,
+      "grad_norm": 0.05977749451994896,
+      "learning_rate": 0.00014145935348929407,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 206309232,
+      "step": 95515
+    },
+    {
+      "epoch": 15.582381729200652,
+      "grad_norm": 0.00463469885289669,
+      "learning_rate": 0.0001414097455307217,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 206320528,
+      "step": 95520
+    },
+    {
+      "epoch": 15.583197389885807,
+      "grad_norm": 0.0017053117044270039,
+      "learning_rate": 0.00014136014483943576,
+      "loss": 0.0737,
+      "num_input_tokens_seen": 206330192,
+      "step": 95525
+    },
+    {
+      "epoch": 15.584013050570963,
+      "grad_norm": 0.02842816151678562,
+      "learning_rate": 0.0001413105514164415,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 206341200,
+      "step": 95530
+    },
+    {
+      "epoch": 15.584828711256117,
+      "grad_norm": 0.006738144904375076,
+      "learning_rate": 0.0001412609652627439,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 206351472,
+      "step": 95535
+    },
+    {
+      "epoch": 15.585644371941273,
+      "grad_norm": 0.13522782921791077,
+      "learning_rate": 0.00014121138637934795,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 206362512,
+      "step": 95540
+    },
+    {
+      "epoch": 15.586460032626427,
+      "grad_norm": 0.01704743131995201,
+      "learning_rate": 0.00014116181476725838,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 206374160,
+      "step": 95545
+    },
+    {
+      "epoch": 15.587275693311582,
+      "grad_norm": 0.0007164751878008246,
+      "learning_rate": 0.00014111225042747987,
+      "loss": 0.003,
+      "num_input_tokens_seen": 206383952,
+      "step": 95550
+    },
+    {
+      "epoch": 15.588091353996738,
+      "grad_norm": 0.0008742042118683457,
+      "learning_rate": 0.00014106269336101692,
+      "loss": 0.001,
+      "num_input_tokens_seen": 206393552,
+      "step": 95555
+    },
+    {
+      "epoch": 15.588907014681892,
+      "grad_norm": 0.0022135020699352026,
+      "learning_rate": 0.0001410131435688738,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 206404112,
+      "step": 95560
+    },
+    {
+      "epoch": 15.589722675367048,
+      "grad_norm": 0.006435474380850792,
+      "learning_rate": 0.00014096360105205475,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 206414704,
+      "step": 95565
+    },
+    {
+      "epoch": 15.590538336052202,
+      "grad_norm": 0.0010266860481351614,
+      "learning_rate": 0.00014091406581156373,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 206425264,
+      "step": 95570
+    },
+    {
+      "epoch": 15.591353996737357,
+      "grad_norm": 0.00455155223608017,
+      "learning_rate": 0.00014086453784840463,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 206434768,
+      "step": 95575
+    },
+    {
+      "epoch": 15.592169657422513,
+      "grad_norm": 0.0011100763222202659,
+      "learning_rate": 0.00014081501716358154,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 206446928,
+      "step": 95580
+    },
+    {
+      "epoch": 15.592985318107667,
+      "grad_norm": 0.002654121723026037,
+      "learning_rate": 0.0001407655037580975,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 206456880,
+      "step": 95585
+    },
+    {
+      "epoch": 15.593800978792823,
+      "grad_norm": 0.0031467049848288298,
+      "learning_rate": 0.0001407159976329565,
+      "loss": 0.001,
+      "num_input_tokens_seen": 206467216,
+      "step": 95590
+    },
+    {
+      "epoch": 15.594616639477977,
+      "grad_norm": 0.0007504248642362654,
+      "learning_rate": 0.00014066649878916133,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 206478128,
+      "step": 95595
+    },
+    {
+      "epoch": 15.595432300163132,
+      "grad_norm": 0.0024569076485931873,
+      "learning_rate": 0.00014061700722771569,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 206490128,
+      "step": 95600
+    },
+    {
+      "epoch": 15.596247960848288,
+      "grad_norm": 0.00822295993566513,
+      "learning_rate": 0.000140567522949622,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 206501040,
+      "step": 95605
+    },
+    {
+      "epoch": 15.597063621533442,
+      "grad_norm": 0.052377086132764816,
+      "learning_rate": 0.00014051804595588375,
+      "loss": 0.002,
+      "num_input_tokens_seen": 206511696,
+      "step": 95610
+    },
+    {
+      "epoch": 15.597879282218598,
+      "grad_norm": 0.014150702394545078,
+      "learning_rate": 0.00014046857624750304,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 206521936,
+      "step": 95615
+    },
+    {
+      "epoch": 15.598694942903752,
+      "grad_norm": 0.003785144304856658,
+      "learning_rate": 0.00014041911382548305,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 206533200,
+      "step": 95620
+    },
+    {
+      "epoch": 15.599510603588907,
+      "grad_norm": 0.019707906991243362,
+      "learning_rate": 0.00014036965869082551,
+      "loss": 0.022,
+      "num_input_tokens_seen": 206544304,
+      "step": 95625
+    },
+    {
+      "epoch": 15.600326264274061,
+      "grad_norm": 0.01421266794204712,
+      "learning_rate": 0.00014032021084453344,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 206555152,
+      "step": 95630
+    },
+    {
+      "epoch": 15.601141924959217,
+      "grad_norm": 0.01474962942302227,
+      "learning_rate": 0.0001402707702876082,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 206567056,
+      "step": 95635
+    },
+    {
+      "epoch": 15.601957585644373,
+      "grad_norm": 0.0010720965219661593,
+      "learning_rate": 0.0001402213370210525,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 206577520,
+      "step": 95640
+    },
+    {
+      "epoch": 15.602773246329527,
+      "grad_norm": 0.007528163492679596,
+      "learning_rate": 0.00014017191104586751,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 206588720,
+      "step": 95645
+    },
+    {
+      "epoch": 15.603588907014682,
+      "grad_norm": 0.045820482075214386,
+      "learning_rate": 0.00014012249236305542,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 206599760,
+      "step": 95650
+    },
+    {
+      "epoch": 15.604404567699836,
+      "grad_norm": 0.009412800893187523,
+      "learning_rate": 0.00014007308097361749,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 206610192,
+      "step": 95655
+    },
+    {
+      "epoch": 15.605220228384992,
+      "grad_norm": 0.005069994367659092,
+      "learning_rate": 0.00014002367687855516,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 206620240,
+      "step": 95660
+    },
+    {
+      "epoch": 15.606035889070148,
+      "grad_norm": 0.009124625474214554,
+      "learning_rate": 0.00013997428007886975,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 206631056,
+      "step": 95665
+    },
+    {
+      "epoch": 15.606851549755302,
+      "grad_norm": 0.0022985092364251614,
+      "learning_rate": 0.00013992489057556223,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 206642032,
+      "step": 95670
+    },
+    {
+      "epoch": 15.607667210440457,
+      "grad_norm": 0.002274824073538184,
+      "learning_rate": 0.00013987550836963358,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 206652528,
+      "step": 95675
+    },
+    {
+      "epoch": 15.608482871125611,
+      "grad_norm": 0.1229882463812828,
+      "learning_rate": 0.0001398261334620846,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 206662864,
+      "step": 95680
+    },
+    {
+      "epoch": 15.609298531810767,
+      "grad_norm": 0.0009678273927420378,
+      "learning_rate": 0.00013977676585391597,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 206673840,
+      "step": 95685
+    },
+    {
+      "epoch": 15.61011419249592,
+      "grad_norm": 0.008544718846678734,
+      "learning_rate": 0.00013972740554612817,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 206684240,
+      "step": 95690
+    },
+    {
+      "epoch": 15.610929853181077,
+      "grad_norm": 0.010948436334729195,
+      "learning_rate": 0.0001396780525397215,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 206695440,
+      "step": 95695
+    },
+    {
+      "epoch": 15.611745513866232,
+      "grad_norm": 0.06881558895111084,
+      "learning_rate": 0.00013962870683569605,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 206705840,
+      "step": 95700
+    },
+    {
+      "epoch": 15.612561174551386,
+      "grad_norm": 0.006645071320235729,
+      "learning_rate": 0.00013957936843505238,
+      "loss": 0.0306,
+      "num_input_tokens_seen": 206716176,
+      "step": 95705
+    },
+    {
+      "epoch": 15.613376835236542,
+      "grad_norm": 0.2631056606769562,
+      "learning_rate": 0.00013953003733878965,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 206727376,
+      "step": 95710
+    },
+    {
+      "epoch": 15.614192495921696,
+      "grad_norm": 0.007076509762555361,
+      "learning_rate": 0.0001394807135479083,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 206737648,
+      "step": 95715
+    },
+    {
+      "epoch": 15.615008156606851,
+      "grad_norm": 0.733444094657898,
+      "learning_rate": 0.0001394313970634074,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 206748592,
+      "step": 95720
+    },
+    {
+      "epoch": 15.615823817292007,
+      "grad_norm": 0.0013660003896802664,
+      "learning_rate": 0.0001393820878862869,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 206759120,
+      "step": 95725
+    },
+    {
+      "epoch": 15.616639477977161,
+      "grad_norm": 0.01996493898332119,
+      "learning_rate": 0.00013933278601754563,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 206770896,
+      "step": 95730
+    },
+    {
+      "epoch": 15.617455138662317,
+      "grad_norm": 0.0015449258498847485,
+      "learning_rate": 0.00013928349145818326,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 206782000,
+      "step": 95735
+    },
+    {
+      "epoch": 15.61827079934747,
+      "grad_norm": 0.014810550957918167,
+      "learning_rate": 0.00013923420420919823,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 206793072,
+      "step": 95740
+    },
+    {
+      "epoch": 15.619086460032626,
+      "grad_norm": 0.0011037884978577495,
+      "learning_rate": 0.00013918492427159002,
+      "loss": 0.0278,
+      "num_input_tokens_seen": 206805168,
+      "step": 95745
+    },
+    {
+      "epoch": 15.619902120717782,
+      "grad_norm": 0.004637254402041435,
+      "learning_rate": 0.00013913565164635672,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 206815440,
+      "step": 95750
+    },
+    {
+      "epoch": 15.620717781402936,
+      "grad_norm": 0.0011846721172332764,
+      "learning_rate": 0.00013908638633449756,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 206825008,
+      "step": 95755
+    },
+    {
+      "epoch": 15.621533442088092,
+      "grad_norm": 0.0013002973282709718,
+      "learning_rate": 0.00013903712833701032,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 206835536,
+      "step": 95760
+    },
+    {
+      "epoch": 15.622349102773246,
+      "grad_norm": 0.008994800969958305,
+      "learning_rate": 0.0001389878776548939,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 206847344,
+      "step": 95765
+    },
+    {
+      "epoch": 15.623164763458401,
+      "grad_norm": 0.0006031625671312213,
+      "learning_rate": 0.00013893863428914583,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 206858288,
+      "step": 95770
+    },
+    {
+      "epoch": 15.623980424143557,
+      "grad_norm": 0.10449585318565369,
+      "learning_rate": 0.00013888939824076464,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 206870512,
+      "step": 95775
+    },
+    {
+      "epoch": 15.624796084828711,
+      "grad_norm": 0.010346177034080029,
+      "learning_rate": 0.00013884016951074758,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 206882384,
+      "step": 95780
+    },
+    {
+      "epoch": 15.625611745513867,
+      "grad_norm": 0.0041154371574521065,
+      "learning_rate": 0.00013879094810009284,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 206892784,
+      "step": 95785
+    },
+    {
+      "epoch": 15.62642740619902,
+      "grad_norm": 0.0015759262023493648,
+      "learning_rate": 0.00013874173400979772,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 206904528,
+      "step": 95790
+    },
+    {
+      "epoch": 15.627243066884176,
+      "grad_norm": 0.01136757992208004,
+      "learning_rate": 0.00013869252724085974,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 206916400,
+      "step": 95795
+    },
+    {
+      "epoch": 15.62805872756933,
+      "grad_norm": 0.1922260969877243,
+      "learning_rate": 0.00013864332779427597,
+      "loss": 0.007,
+      "num_input_tokens_seen": 206927440,
+      "step": 95800
+    },
+    {
+      "epoch": 15.628874388254486,
+      "grad_norm": 0.000996628892607987,
+      "learning_rate": 0.00013859413567104357,
+      "loss": 0.018,
+      "num_input_tokens_seen": 206938608,
+      "step": 95805
+    },
+    {
+      "epoch": 15.629690048939642,
+      "grad_norm": 0.00351770780980587,
+      "learning_rate": 0.00013854495087215951,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 206949136,
+      "step": 95810
+    },
+    {
+      "epoch": 15.630505709624796,
+      "grad_norm": 0.0383528470993042,
+      "learning_rate": 0.00013849577339862057,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 206958544,
+      "step": 95815
+    },
+    {
+      "epoch": 15.631321370309951,
+      "grad_norm": 0.06590034067630768,
+      "learning_rate": 0.00013844660325142334,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 206969456,
+      "step": 95820
+    },
+    {
+      "epoch": 15.632137030995105,
+      "grad_norm": 0.0005166734335944057,
+      "learning_rate": 0.00013839744043156438,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 206980176,
+      "step": 95825
+    },
+    {
+      "epoch": 15.632952691680261,
+      "grad_norm": 0.004043356981128454,
+      "learning_rate": 0.00013834828494004004,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 206991184,
+      "step": 95830
+    },
+    {
+      "epoch": 15.633768352365417,
+      "grad_norm": 0.006381909362971783,
+      "learning_rate": 0.0001382991367778465,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 207001360,
+      "step": 95835
+    },
+    {
+      "epoch": 15.63458401305057,
+      "grad_norm": 0.0019231840269640088,
+      "learning_rate": 0.00013824999594597975,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 207010736,
+      "step": 95840
+    },
+    {
+      "epoch": 15.635399673735726,
+      "grad_norm": 0.00047763565089553595,
+      "learning_rate": 0.00013820086244543562,
+      "loss": 0.1042,
+      "num_input_tokens_seen": 207021840,
+      "step": 95845
+    },
+    {
+      "epoch": 15.63621533442088,
+      "grad_norm": 0.0834665521979332,
+      "learning_rate": 0.00013815173627721027,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 207032848,
+      "step": 95850
+    },
+    {
+      "epoch": 15.637030995106036,
+      "grad_norm": 0.09207990765571594,
+      "learning_rate": 0.00013810261744229873,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 207044336,
+      "step": 95855
+    },
+    {
+      "epoch": 15.63784665579119,
+      "grad_norm": 0.008700598031282425,
+      "learning_rate": 0.00013805350594169708,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 207055376,
+      "step": 95860
+    },
+    {
+      "epoch": 15.638662316476346,
+      "grad_norm": 0.03562851995229721,
+      "learning_rate": 0.0001380044017764,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 207065904,
+      "step": 95865
+    },
+    {
+      "epoch": 15.639477977161501,
+      "grad_norm": 0.00032584878499619663,
+      "learning_rate": 0.0001379553049474032,
+      "loss": 0.03,
+      "num_input_tokens_seen": 207076752,
+      "step": 95870
+    },
+    {
+      "epoch": 15.640293637846655,
+      "grad_norm": 0.025242719799280167,
+      "learning_rate": 0.00013790621545570114,
+      "loss": 0.004,
+      "num_input_tokens_seen": 207088016,
+      "step": 95875
+    },
+    {
+      "epoch": 15.641109298531811,
+      "grad_norm": 0.0008892813930287957,
+      "learning_rate": 0.00013785713330228928,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 207098160,
+      "step": 95880
+    },
+    {
+      "epoch": 15.641924959216965,
+      "grad_norm": 0.030518537387251854,
+      "learning_rate": 0.00013780805848816175,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 207108176,
+      "step": 95885
+    },
+    {
+      "epoch": 15.64274061990212,
+      "grad_norm": 0.016238387674093246,
+      "learning_rate": 0.0001377589910143135,
+      "loss": 0.008,
+      "num_input_tokens_seen": 207119440,
+      "step": 95890
+    },
+    {
+      "epoch": 15.643556280587276,
+      "grad_norm": 0.0018854053923860192,
+      "learning_rate": 0.00013770993088173884,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 207129168,
+      "step": 95895
+    },
+    {
+      "epoch": 15.64437194127243,
+      "grad_norm": 0.00233276654034853,
+      "learning_rate": 0.000137660878091432,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 207139600,
+      "step": 95900
+    },
+    {
+      "epoch": 15.645187601957586,
+      "grad_norm": 0.09753572940826416,
+      "learning_rate": 0.0001376118326443872,
+      "loss": 0.002,
+      "num_input_tokens_seen": 207150896,
+      "step": 95905
+    },
+    {
+      "epoch": 15.64600326264274,
+      "grad_norm": 0.1661272794008255,
+      "learning_rate": 0.00013756279454159827,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 207160592,
+      "step": 95910
+    },
+    {
+      "epoch": 15.646818923327896,
+      "grad_norm": 0.000456740875961259,
+      "learning_rate": 0.0001375137637840591,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 207171856,
+      "step": 95915
+    },
+    {
+      "epoch": 15.647634584013051,
+      "grad_norm": 0.006311553064733744,
+      "learning_rate": 0.00013746474037276335,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 207183728,
+      "step": 95920
+    },
+    {
+      "epoch": 15.648450244698205,
+      "grad_norm": 0.0018103966722264886,
+      "learning_rate": 0.0001374157243087046,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 207192976,
+      "step": 95925
+    },
+    {
+      "epoch": 15.649265905383361,
+      "grad_norm": 0.0052458480931818485,
+      "learning_rate": 0.00013736671559287612,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 207204560,
+      "step": 95930
+    },
+    {
+      "epoch": 15.650081566068515,
+      "grad_norm": 0.35821104049682617,
+      "learning_rate": 0.0001373177142262712,
+      "loss": 0.0182,
+      "num_input_tokens_seen": 207215824,
+      "step": 95935
+    },
+    {
+      "epoch": 15.65089722675367,
+      "grad_norm": 0.014001819305121899,
+      "learning_rate": 0.0001372687202098829,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 207226960,
+      "step": 95940
+    },
+    {
+      "epoch": 15.651712887438826,
+      "grad_norm": 0.0030215075239539146,
+      "learning_rate": 0.00013721973354470412,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 207237552,
+      "step": 95945
+    },
+    {
+      "epoch": 15.65252854812398,
+      "grad_norm": 0.002811993472278118,
+      "learning_rate": 0.00013717075423172765,
+      "loss": 0.001,
+      "num_input_tokens_seen": 207249424,
+      "step": 95950
+    },
+    {
+      "epoch": 15.653344208809136,
+      "grad_norm": 0.04759371280670166,
+      "learning_rate": 0.00013712178227194617,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 207259600,
+      "step": 95955
+    },
+    {
+      "epoch": 15.65415986949429,
+      "grad_norm": 0.0038091284222900867,
+      "learning_rate": 0.00013707281766635204,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 207270448,
+      "step": 95960
+    },
+    {
+      "epoch": 15.654975530179446,
+      "grad_norm": 0.04629696160554886,
+      "learning_rate": 0.00013702386041593772,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 207281424,
+      "step": 95965
+    },
+    {
+      "epoch": 15.655791190864601,
+      "grad_norm": 0.006149706896394491,
+      "learning_rate": 0.00013697491052169536,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 207292976,
+      "step": 95970
+    },
+    {
+      "epoch": 15.656606851549755,
+      "grad_norm": 0.01826256327331066,
+      "learning_rate": 0.00013692596798461692,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 207304240,
+      "step": 95975
+    },
+    {
+      "epoch": 15.65742251223491,
+      "grad_norm": 0.002373218536376953,
+      "learning_rate": 0.00013687703280569437,
+      "loss": 0.1386,
+      "num_input_tokens_seen": 207314896,
+      "step": 95980
+    },
+    {
+      "epoch": 15.658238172920065,
+      "grad_norm": 0.001200975151732564,
+      "learning_rate": 0.0001368281049859194,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 207326512,
+      "step": 95985
+    },
+    {
+      "epoch": 15.65905383360522,
+      "grad_norm": 0.046008266508579254,
+      "learning_rate": 0.0001367791845262834,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 207336944,
+      "step": 95990
+    },
+    {
+      "epoch": 15.659869494290374,
+      "grad_norm": 0.0028325358871370554,
+      "learning_rate": 0.0001367302714277784,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 207348560,
+      "step": 95995
+    },
+    {
+      "epoch": 15.66068515497553,
+      "grad_norm": 0.0385119691491127,
+      "learning_rate": 0.00013668136569139488,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 207359440,
+      "step": 96000
+    },
+    {
+      "epoch": 15.661500815660686,
+      "grad_norm": 0.0017604627646505833,
+      "learning_rate": 0.00013663246731812463,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 207370768,
+      "step": 96005
+    },
+    {
+      "epoch": 15.66231647634584,
+      "grad_norm": 0.0032870511058717966,
+      "learning_rate": 0.00013658357630895834,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 207382768,
+      "step": 96010
+    },
+    {
+      "epoch": 15.663132137030995,
+      "grad_norm": 0.0009842633735388517,
+      "learning_rate": 0.00013653469266488688,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 207392976,
+      "step": 96015
+    },
+    {
+      "epoch": 15.66394779771615,
+      "grad_norm": 0.023544909432530403,
+      "learning_rate": 0.000136485816386901,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 207404592,
+      "step": 96020
+    },
+    {
+      "epoch": 15.664763458401305,
+      "grad_norm": 0.0010194077622145414,
+      "learning_rate": 0.00013643694747599123,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 207415408,
+      "step": 96025
+    },
+    {
+      "epoch": 15.66557911908646,
+      "grad_norm": 0.0012003988958895206,
+      "learning_rate": 0.0001363880859331479,
+      "loss": 0.0907,
+      "num_input_tokens_seen": 207425232,
+      "step": 96030
+    },
+    {
+      "epoch": 15.666394779771615,
+      "grad_norm": 0.001043745898641646,
+      "learning_rate": 0.00013633923175936124,
+      "loss": 0.0779,
+      "num_input_tokens_seen": 207437584,
+      "step": 96035
+    },
+    {
+      "epoch": 15.66721044045677,
+      "grad_norm": 0.025039061903953552,
+      "learning_rate": 0.00013629038495562145,
+      "loss": 0.1374,
+      "num_input_tokens_seen": 207448816,
+      "step": 96040
+    },
+    {
+      "epoch": 15.668026101141924,
+      "grad_norm": 0.0040556760504841805,
+      "learning_rate": 0.00013624154552291834,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 207458960,
+      "step": 96045
+    },
+    {
+      "epoch": 15.66884176182708,
+      "grad_norm": 0.00263931299559772,
+      "learning_rate": 0.00013619271346224183,
+      "loss": 0.1143,
+      "num_input_tokens_seen": 207468656,
+      "step": 96050
+    },
+    {
+      "epoch": 15.669657422512234,
+      "grad_norm": 0.015455449931323528,
+      "learning_rate": 0.0001361438887745815,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 207479408,
+      "step": 96055
+    },
+    {
+      "epoch": 15.67047308319739,
+      "grad_norm": 0.03252527117729187,
+      "learning_rate": 0.0001360950714609268,
+      "loss": 0.004,
+      "num_input_tokens_seen": 207489968,
+      "step": 96060
+    },
+    {
+      "epoch": 15.671288743882545,
+      "grad_norm": 0.003963053692132235,
+      "learning_rate": 0.00013604626152226719,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 207502000,
+      "step": 96065
+    },
+    {
+      "epoch": 15.6721044045677,
+      "grad_norm": 0.008263356983661652,
+      "learning_rate": 0.00013599745895959175,
+      "loss": 0.0605,
+      "num_input_tokens_seen": 207512144,
+      "step": 96070
+    },
+    {
+      "epoch": 15.672920065252855,
+      "grad_norm": 0.45873066782951355,
+      "learning_rate": 0.00013594866377388958,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 207523248,
+      "step": 96075
+    },
+    {
+      "epoch": 15.673735725938009,
+      "grad_norm": 0.02381652407348156,
+      "learning_rate": 0.0001358998759661496,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 207532880,
+      "step": 96080
+    },
+    {
+      "epoch": 15.674551386623165,
+      "grad_norm": 0.020507873967289925,
+      "learning_rate": 0.00013585109553736053,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 207543696,
+      "step": 96085
+    },
+    {
+      "epoch": 15.67536704730832,
+      "grad_norm": 0.03291149064898491,
+      "learning_rate": 0.00013580232248851094,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 207554736,
+      "step": 96090
+    },
+    {
+      "epoch": 15.676182707993474,
+      "grad_norm": 0.011057699099183083,
+      "learning_rate": 0.00013575355682058932,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 207565808,
+      "step": 96095
+    },
+    {
+      "epoch": 15.67699836867863,
+      "grad_norm": 0.01052065659314394,
+      "learning_rate": 0.0001357047985345839,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 207575120,
+      "step": 96100
+    },
+    {
+      "epoch": 15.677814029363784,
+      "grad_norm": 0.0016519392374902964,
+      "learning_rate": 0.00013565604763148294,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 207586480,
+      "step": 96105
+    },
+    {
+      "epoch": 15.67862969004894,
+      "grad_norm": 0.0008954678778536618,
+      "learning_rate": 0.00013560730411227417,
+      "loss": 0.0528,
+      "num_input_tokens_seen": 207596656,
+      "step": 96110
+    },
+    {
+      "epoch": 15.679445350734095,
+      "grad_norm": 0.010876849293708801,
+      "learning_rate": 0.000135558567977946,
+      "loss": 0.052,
+      "num_input_tokens_seen": 207607728,
+      "step": 96115
+    },
+    {
+      "epoch": 15.68026101141925,
+      "grad_norm": 0.007376998197287321,
+      "learning_rate": 0.00013550983922948546,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 207617552,
+      "step": 96120
+    },
+    {
+      "epoch": 15.681076672104405,
+      "grad_norm": 0.5630950927734375,
+      "learning_rate": 0.00013546111786788073,
+      "loss": 0.0629,
+      "num_input_tokens_seen": 207628080,
+      "step": 96125
+    },
+    {
+      "epoch": 15.681892332789559,
+      "grad_norm": 0.005674498621374369,
+      "learning_rate": 0.00013541240389411857,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 207639696,
+      "step": 96130
+    },
+    {
+      "epoch": 15.682707993474715,
+      "grad_norm": 0.002528025070205331,
+      "learning_rate": 0.00013536369730918668,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 207649936,
+      "step": 96135
+    },
+    {
+      "epoch": 15.68352365415987,
+      "grad_norm": 0.024930205196142197,
+      "learning_rate": 0.00013531499811407212,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 207660400,
+      "step": 96140
+    },
+    {
+      "epoch": 15.684339314845024,
+      "grad_norm": 0.0038991905748844147,
+      "learning_rate": 0.00013526630630976172,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 207670608,
+      "step": 96145
+    },
+    {
+      "epoch": 15.68515497553018,
+      "grad_norm": 0.00235603260807693,
+      "learning_rate": 0.00013521762189724228,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 207681584,
+      "step": 96150
+    },
+    {
+      "epoch": 15.685970636215334,
+      "grad_norm": 0.763839840888977,
+      "learning_rate": 0.00013516894487750053,
+      "loss": 0.0579,
+      "num_input_tokens_seen": 207692368,
+      "step": 96155
+    },
+    {
+      "epoch": 15.68678629690049,
+      "grad_norm": 0.003856255440041423,
+      "learning_rate": 0.00013512027525152293,
+      "loss": 0.002,
+      "num_input_tokens_seen": 207703408,
+      "step": 96160
+    },
+    {
+      "epoch": 15.687601957585644,
+      "grad_norm": 0.00043420374277047813,
+      "learning_rate": 0.00013507161302029586,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 207714480,
+      "step": 96165
+    },
+    {
+      "epoch": 15.6884176182708,
+      "grad_norm": 0.02960328944027424,
+      "learning_rate": 0.00013502295818480548,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 207724656,
+      "step": 96170
+    },
+    {
+      "epoch": 15.689233278955955,
+      "grad_norm": 0.0026452350430190563,
+      "learning_rate": 0.00013497431074603784,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 207735984,
+      "step": 96175
+    },
+    {
+      "epoch": 15.690048939641109,
+      "grad_norm": 0.0021662067156285048,
+      "learning_rate": 0.00013492567070497885,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 207746864,
+      "step": 96180
+    },
+    {
+      "epoch": 15.690864600326265,
+      "grad_norm": 0.013586881570518017,
+      "learning_rate": 0.0001348770380626143,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 207757520,
+      "step": 96185
+    },
+    {
+      "epoch": 15.691680261011419,
+      "grad_norm": 0.39000317454338074,
+      "learning_rate": 0.00013482841281992975,
+      "loss": 0.1045,
+      "num_input_tokens_seen": 207769552,
+      "step": 96190
+    },
+    {
+      "epoch": 15.692495921696574,
+      "grad_norm": 0.02108220010995865,
+      "learning_rate": 0.00013477979497791064,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 207781168,
+      "step": 96195
+    },
+    {
+      "epoch": 15.69331158238173,
+      "grad_norm": 0.001122990041039884,
+      "learning_rate": 0.00013473118453754236,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 207792368,
+      "step": 96200
+    },
+    {
+      "epoch": 15.694127243066884,
+      "grad_norm": 0.004716485273092985,
+      "learning_rate": 0.00013468258149981,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 207802896,
+      "step": 96205
+    },
+    {
+      "epoch": 15.69494290375204,
+      "grad_norm": 0.0714481994509697,
+      "learning_rate": 0.00013463398586569854,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 207813552,
+      "step": 96210
+    },
+    {
+      "epoch": 15.695758564437194,
+      "grad_norm": 0.002846804680302739,
+      "learning_rate": 0.00013458539763619272,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 207822768,
+      "step": 96215
+    },
+    {
+      "epoch": 15.69657422512235,
+      "grad_norm": 0.05376075953245163,
+      "learning_rate": 0.00013453681681227763,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 207833008,
+      "step": 96220
+    },
+    {
+      "epoch": 15.697389885807503,
+      "grad_norm": 0.004778926260769367,
+      "learning_rate": 0.0001344882433949373,
+      "loss": 0.0266,
+      "num_input_tokens_seen": 207843920,
+      "step": 96225
+    },
+    {
+      "epoch": 15.698205546492659,
+      "grad_norm": 0.005003618076443672,
+      "learning_rate": 0.00013443967738515673,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 207853840,
+      "step": 96230
+    },
+    {
+      "epoch": 15.699021207177815,
+      "grad_norm": 0.0037451880052685738,
+      "learning_rate": 0.00013439111878391953,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 207865104,
+      "step": 96235
+    },
+    {
+      "epoch": 15.699836867862969,
+      "grad_norm": 0.5726847648620605,
+      "learning_rate": 0.00013434256759221037,
+      "loss": 0.066,
+      "num_input_tokens_seen": 207874224,
+      "step": 96240
+    },
+    {
+      "epoch": 15.700652528548124,
+      "grad_norm": 0.03150755539536476,
+      "learning_rate": 0.00013429402381101268,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 207884752,
+      "step": 96245
+    },
+    {
+      "epoch": 15.701468189233278,
+      "grad_norm": 0.0010075062746182084,
+      "learning_rate": 0.00013424548744131088,
+      "loss": 0.001,
+      "num_input_tokens_seen": 207894448,
+      "step": 96250
+    },
+    {
+      "epoch": 15.702283849918434,
+      "grad_norm": 0.782049298286438,
+      "learning_rate": 0.00013419695848408792,
+      "loss": 0.0916,
+      "num_input_tokens_seen": 207906608,
+      "step": 96255
+    },
+    {
+      "epoch": 15.70309951060359,
+      "grad_norm": 0.026163609698414803,
+      "learning_rate": 0.00013414843694032792,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 207918608,
+      "step": 96260
+    },
+    {
+      "epoch": 15.703915171288743,
+      "grad_norm": 0.004696679767221212,
+      "learning_rate": 0.00013409992281101368,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 207930064,
+      "step": 96265
+    },
+    {
+      "epoch": 15.7047308319739,
+      "grad_norm": 0.0025974763557314873,
+      "learning_rate": 0.000134051416097129,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 207942160,
+      "step": 96270
+    },
+    {
+      "epoch": 15.705546492659053,
+      "grad_norm": 0.039734333753585815,
+      "learning_rate": 0.00013400291679965633,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 207951312,
+      "step": 96275
+    },
+    {
+      "epoch": 15.706362153344209,
+      "grad_norm": 0.057665541768074036,
+      "learning_rate": 0.000133954424919579,
+      "loss": 0.083,
+      "num_input_tokens_seen": 207962768,
+      "step": 96280
+    },
+    {
+      "epoch": 15.707177814029365,
+      "grad_norm": 0.23219189047813416,
+      "learning_rate": 0.00013390594045787957,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 207973936,
+      "step": 96285
+    },
+    {
+      "epoch": 15.707993474714518,
+      "grad_norm": 0.022502528503537178,
+      "learning_rate": 0.00013385746341554067,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 207984688,
+      "step": 96290
+    },
+    {
+      "epoch": 15.708809135399674,
+      "grad_norm": 0.1352599561214447,
+      "learning_rate": 0.0001338089937935448,
+      "loss": 0.0849,
+      "num_input_tokens_seen": 207996208,
+      "step": 96295
+    },
+    {
+      "epoch": 15.709624796084828,
+      "grad_norm": 0.19445081055164337,
+      "learning_rate": 0.0001337605315928742,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 208007568,
+      "step": 96300
+    },
+    {
+      "epoch": 15.710440456769984,
+      "grad_norm": 0.4363537132740021,
+      "learning_rate": 0.00013371207681451102,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 208016912,
+      "step": 96305
+    },
+    {
+      "epoch": 15.71125611745514,
+      "grad_norm": 0.001682588830590248,
+      "learning_rate": 0.00013366362945943733,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 208026960,
+      "step": 96310
+    },
+    {
+      "epoch": 15.712071778140293,
+      "grad_norm": 0.001164038316346705,
+      "learning_rate": 0.00013361518952863488,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 208037104,
+      "step": 96315
+    },
+    {
+      "epoch": 15.71288743882545,
+      "grad_norm": 0.0353374183177948,
+      "learning_rate": 0.00013356675702308541,
+      "loss": 0.088,
+      "num_input_tokens_seen": 208047632,
+      "step": 96320
+    },
+    {
+      "epoch": 15.713703099510603,
+      "grad_norm": 0.08301739394664764,
+      "learning_rate": 0.00013351833194377044,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 208057744,
+      "step": 96325
+    },
+    {
+      "epoch": 15.714518760195759,
+      "grad_norm": 0.004812445491552353,
+      "learning_rate": 0.00013346991429167128,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 208067632,
+      "step": 96330
+    },
+    {
+      "epoch": 15.715334420880914,
+      "grad_norm": 0.0030532728414982557,
+      "learning_rate": 0.00013342150406776953,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 208078192,
+      "step": 96335
+    },
+    {
+      "epoch": 15.716150081566068,
+      "grad_norm": 0.00913258083164692,
+      "learning_rate": 0.00013337310127304575,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 208088912,
+      "step": 96340
+    },
+    {
+      "epoch": 15.716965742251224,
+      "grad_norm": 0.0003174035809934139,
+      "learning_rate": 0.0001333247059084815,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 208100464,
+      "step": 96345
+    },
+    {
+      "epoch": 15.717781402936378,
+      "grad_norm": 0.07068848609924316,
+      "learning_rate": 0.00013327631797505697,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 208110704,
+      "step": 96350
+    },
+    {
+      "epoch": 15.718597063621534,
+      "grad_norm": 0.0047727604396641254,
+      "learning_rate": 0.00013322793747375333,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 208122608,
+      "step": 96355
+    },
+    {
+      "epoch": 15.719412724306688,
+      "grad_norm": 0.0011388602433726192,
+      "learning_rate": 0.00013317956440555051,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 208133648,
+      "step": 96360
+    },
+    {
+      "epoch": 15.720228384991843,
+      "grad_norm": 0.00047913682647049427,
+      "learning_rate": 0.00013313119877142947,
+      "loss": 0.003,
+      "num_input_tokens_seen": 208144752,
+      "step": 96365
+    },
+    {
+      "epoch": 15.721044045676999,
+      "grad_norm": 0.0011415015906095505,
+      "learning_rate": 0.00013308284057236984,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 208154384,
+      "step": 96370
+    },
+    {
+      "epoch": 15.721859706362153,
+      "grad_norm": 0.2590673565864563,
+      "learning_rate": 0.00013303448980935218,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 208165296,
+      "step": 96375
+    },
+    {
+      "epoch": 15.722675367047309,
+      "grad_norm": 0.025836044922471046,
+      "learning_rate": 0.00013298614648335583,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 208176112,
+      "step": 96380
+    },
+    {
+      "epoch": 15.723491027732463,
+      "grad_norm": 0.021637318655848503,
+      "learning_rate": 0.0001329378105953611,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 208185872,
+      "step": 96385
+    },
+    {
+      "epoch": 15.724306688417618,
+      "grad_norm": 0.019314365461468697,
+      "learning_rate": 0.00013288948214634698,
+      "loss": 0.004,
+      "num_input_tokens_seen": 208196976,
+      "step": 96390
+    },
+    {
+      "epoch": 15.725122349102774,
+      "grad_norm": 0.007318970747292042,
+      "learning_rate": 0.00013284116113729356,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 208208336,
+      "step": 96395
+    },
+    {
+      "epoch": 15.725938009787928,
+      "grad_norm": 0.03209533914923668,
+      "learning_rate": 0.00013279284756917943,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 208219856,
+      "step": 96400
+    },
+    {
+      "epoch": 15.726753670473084,
+      "grad_norm": 0.0057929218746721745,
+      "learning_rate": 0.00013274454144298438,
+      "loss": 0.003,
+      "num_input_tokens_seen": 208229808,
+      "step": 96405
+    },
+    {
+      "epoch": 15.727569331158238,
+      "grad_norm": 0.03650674223899841,
+      "learning_rate": 0.00013269624275968683,
+      "loss": 0.0682,
+      "num_input_tokens_seen": 208239568,
+      "step": 96410
+    },
+    {
+      "epoch": 15.728384991843393,
+      "grad_norm": 0.0009229037095792592,
+      "learning_rate": 0.00013264795152026615,
+      "loss": 0.0198,
+      "num_input_tokens_seen": 208250448,
+      "step": 96415
+    },
+    {
+      "epoch": 15.729200652528547,
+      "grad_norm": 0.1574191153049469,
+      "learning_rate": 0.00013259966772570048,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 208261840,
+      "step": 96420
+    },
+    {
+      "epoch": 15.730016313213703,
+      "grad_norm": 0.026466218754649162,
+      "learning_rate": 0.00013255139137696874,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 208272752,
+      "step": 96425
+    },
+    {
+      "epoch": 15.730831973898859,
+      "grad_norm": 0.0026206725742667913,
+      "learning_rate": 0.0001325031224750492,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 208282800,
+      "step": 96430
+    },
+    {
+      "epoch": 15.731647634584013,
+      "grad_norm": 0.4331301748752594,
+      "learning_rate": 0.0001324548610209201,
+      "loss": 0.0106,
+      "num_input_tokens_seen": 208293072,
+      "step": 96435
+    },
+    {
+      "epoch": 15.732463295269168,
+      "grad_norm": 0.09264283627271652,
+      "learning_rate": 0.00013240660701555951,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 208304560,
+      "step": 96440
+    },
+    {
+      "epoch": 15.733278955954322,
+      "grad_norm": 0.0013159823138266802,
+      "learning_rate": 0.00013235836045994532,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 208316272,
+      "step": 96445
+    },
+    {
+      "epoch": 15.734094616639478,
+      "grad_norm": 0.012794621288776398,
+      "learning_rate": 0.00013231012135505538,
+      "loss": 0.004,
+      "num_input_tokens_seen": 208327184,
+      "step": 96450
+    },
+    {
+      "epoch": 15.734910277324634,
+      "grad_norm": 0.00966342631727457,
+      "learning_rate": 0.00013226188970186725,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 208338736,
+      "step": 96455
+    },
+    {
+      "epoch": 15.735725938009788,
+      "grad_norm": 0.002653430448845029,
+      "learning_rate": 0.0001322136655013585,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 208348272,
+      "step": 96460
+    },
+    {
+      "epoch": 15.736541598694943,
+      "grad_norm": 0.13813112676143646,
+      "learning_rate": 0.00013216544875450633,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 208358672,
+      "step": 96465
+    },
+    {
+      "epoch": 15.737357259380097,
+      "grad_norm": 0.005092136561870575,
+      "learning_rate": 0.00013211723946228798,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 208369264,
+      "step": 96470
+    },
+    {
+      "epoch": 15.738172920065253,
+      "grad_norm": 0.008314227685332298,
+      "learning_rate": 0.00013206903762568028,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 208380048,
+      "step": 96475
+    },
+    {
+      "epoch": 15.738988580750409,
+      "grad_norm": 0.013196723535656929,
+      "learning_rate": 0.00013202084324566066,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 208391024,
+      "step": 96480
+    },
+    {
+      "epoch": 15.739804241435563,
+      "grad_norm": 0.211594820022583,
+      "learning_rate": 0.0001319726563232051,
+      "loss": 0.0277,
+      "num_input_tokens_seen": 208401776,
+      "step": 96485
+    },
+    {
+      "epoch": 15.740619902120718,
+      "grad_norm": 0.005501213483512402,
+      "learning_rate": 0.00013192447685929088,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 208413776,
+      "step": 96490
+    },
+    {
+      "epoch": 15.741435562805872,
+      "grad_norm": 0.0033411455806344748,
+      "learning_rate": 0.00013187630485489378,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 208424112,
+      "step": 96495
+    },
+    {
+      "epoch": 15.742251223491028,
+      "grad_norm": 0.000817911874037236,
+      "learning_rate": 0.0001318281403109906,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 208435152,
+      "step": 96500
+    },
+    {
+      "epoch": 15.743066884176184,
+      "grad_norm": 0.00817803479731083,
+      "learning_rate": 0.00013177998322855695,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 208445552,
+      "step": 96505
+    },
+    {
+      "epoch": 15.743882544861338,
+      "grad_norm": 0.02054639346897602,
+      "learning_rate": 0.00013173183360856938,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 208455536,
+      "step": 96510
+    },
+    {
+      "epoch": 15.744698205546493,
+      "grad_norm": 0.0038372152484953403,
+      "learning_rate": 0.00013168369145200303,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 208466224,
+      "step": 96515
+    },
+    {
+      "epoch": 15.745513866231647,
+      "grad_norm": 0.040325090289115906,
+      "learning_rate": 0.0001316355567598343,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 208476752,
+      "step": 96520
+    },
+    {
+      "epoch": 15.746329526916803,
+      "grad_norm": 0.0026046517305076122,
+      "learning_rate": 0.00013158742953303792,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 208487280,
+      "step": 96525
+    },
+    {
+      "epoch": 15.747145187601957,
+      "grad_norm": 0.0007771203527227044,
+      "learning_rate": 0.00013153930977258987,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 208497776,
+      "step": 96530
+    },
+    {
+      "epoch": 15.747960848287113,
+      "grad_norm": 0.00024037643743213266,
+      "learning_rate": 0.0001314911974794651,
+      "loss": 0.002,
+      "num_input_tokens_seen": 208509168,
+      "step": 96535
+    },
+    {
+      "epoch": 15.748776508972268,
+      "grad_norm": 0.2253538817167282,
+      "learning_rate": 0.00013144309265463873,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 208519856,
+      "step": 96540
+    },
+    {
+      "epoch": 15.749592169657422,
+      "grad_norm": 0.0013409418752416968,
+      "learning_rate": 0.00013139499529908562,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 208530704,
+      "step": 96545
+    },
+    {
+      "epoch": 15.750407830342578,
+      "grad_norm": 0.00018763738626148552,
+      "learning_rate": 0.00013134690541378053,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 208541968,
+      "step": 96550
+    },
+    {
+      "epoch": 15.751223491027732,
+      "grad_norm": 0.0010253424989059567,
+      "learning_rate": 0.00013129882299969803,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 208553648,
+      "step": 96555
+    },
+    {
+      "epoch": 15.752039151712887,
+      "grad_norm": 0.0036719876807183027,
+      "learning_rate": 0.00013125074805781268,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 208564560,
+      "step": 96560
+    },
+    {
+      "epoch": 15.752854812398043,
+      "grad_norm": 0.001249134773388505,
+      "learning_rate": 0.0001312026805890987,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 208574832,
+      "step": 96565
+    },
+    {
+      "epoch": 15.753670473083197,
+      "grad_norm": 0.005163257010281086,
+      "learning_rate": 0.00013115462059453022,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 208584720,
+      "step": 96570
+    },
+    {
+      "epoch": 15.754486133768353,
+      "grad_norm": 0.0015362701378762722,
+      "learning_rate": 0.00013110656807508125,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 208595696,
+      "step": 96575
+    },
+    {
+      "epoch": 15.755301794453507,
+      "grad_norm": 0.07348399609327316,
+      "learning_rate": 0.0001310585230317257,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 208606352,
+      "step": 96580
+    },
+    {
+      "epoch": 15.756117455138662,
+      "grad_norm": 0.0003318371600471437,
+      "learning_rate": 0.0001310104854654372,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 208615664,
+      "step": 96585
+    },
+    {
+      "epoch": 15.756933115823816,
+      "grad_norm": 0.01745942048728466,
+      "learning_rate": 0.0001309624553771893,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 208626960,
+      "step": 96590
+    },
+    {
+      "epoch": 15.757748776508972,
+      "grad_norm": 0.010197905823588371,
+      "learning_rate": 0.00013091443276795544,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 208637232,
+      "step": 96595
+    },
+    {
+      "epoch": 15.758564437194128,
+      "grad_norm": 0.0012122580083087087,
+      "learning_rate": 0.00013086641763870876,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 208648048,
+      "step": 96600
+    },
+    {
+      "epoch": 15.759380097879282,
+      "grad_norm": 0.0027509070932865143,
+      "learning_rate": 0.00013081840999042244,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 208658960,
+      "step": 96605
+    },
+    {
+      "epoch": 15.760195758564437,
+      "grad_norm": 0.002174974186345935,
+      "learning_rate": 0.0001307704098240694,
+      "loss": 0.015,
+      "num_input_tokens_seen": 208670064,
+      "step": 96610
+    },
+    {
+      "epoch": 15.761011419249591,
+      "grad_norm": 0.0011658243602141738,
+      "learning_rate": 0.0001307224171406224,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 208681904,
+      "step": 96615
+    },
+    {
+      "epoch": 15.761827079934747,
+      "grad_norm": 0.0030715486500412226,
+      "learning_rate": 0.0001306744319410539,
+      "loss": 0.014,
+      "num_input_tokens_seen": 208693168,
+      "step": 96620
+    },
+    {
+      "epoch": 15.762642740619903,
+      "grad_norm": 0.11549370735883713,
+      "learning_rate": 0.00013062645422633683,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 208703344,
+      "step": 96625
+    },
+    {
+      "epoch": 15.763458401305057,
+      "grad_norm": 0.0026244190521538258,
+      "learning_rate": 0.000130578483997443,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 208712176,
+      "step": 96630
+    },
+    {
+      "epoch": 15.764274061990212,
+      "grad_norm": 0.0077323331497609615,
+      "learning_rate": 0.00013053052125534497,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 208723344,
+      "step": 96635
+    },
+    {
+      "epoch": 15.765089722675366,
+      "grad_norm": 0.0006282702088356018,
+      "learning_rate": 0.00013048256600101465,
+      "loss": 0.002,
+      "num_input_tokens_seen": 208732624,
+      "step": 96640
+    },
+    {
+      "epoch": 15.765905383360522,
+      "grad_norm": 0.0021541621536016464,
+      "learning_rate": 0.00013043461823542387,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 208744432,
+      "step": 96645
+    },
+    {
+      "epoch": 15.766721044045678,
+      "grad_norm": 0.0005122669972479343,
+      "learning_rate": 0.0001303866779595444,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 208754864,
+      "step": 96650
+    },
+    {
+      "epoch": 15.767536704730832,
+      "grad_norm": 0.006448698695749044,
+      "learning_rate": 0.0001303387451743478,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 208766544,
+      "step": 96655
+    },
+    {
+      "epoch": 15.768352365415987,
+      "grad_norm": 0.0061017731204628944,
+      "learning_rate": 0.00013029081988080545,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 208777392,
+      "step": 96660
+    },
+    {
+      "epoch": 15.769168026101141,
+      "grad_norm": 0.06350026279687881,
+      "learning_rate": 0.00013024290207988866,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 208787408,
+      "step": 96665
+    },
+    {
+      "epoch": 15.769983686786297,
+      "grad_norm": 0.012828153558075428,
+      "learning_rate": 0.00013019499177256848,
+      "loss": 0.1233,
+      "num_input_tokens_seen": 208797040,
+      "step": 96670
+    },
+    {
+      "epoch": 15.770799347471453,
+      "grad_norm": 0.005641296040266752,
+      "learning_rate": 0.00013014708895981597,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 208809648,
+      "step": 96675
+    },
+    {
+      "epoch": 15.771615008156607,
+      "grad_norm": 0.0009565745131112635,
+      "learning_rate": 0.00013009919364260193,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 208820592,
+      "step": 96680
+    },
+    {
+      "epoch": 15.772430668841762,
+      "grad_norm": 0.0075340899638831615,
+      "learning_rate": 0.0001300513058218969,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 208830672,
+      "step": 96685
+    },
+    {
+      "epoch": 15.773246329526916,
+      "grad_norm": 0.005056384485214949,
+      "learning_rate": 0.0001300034254986715,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 208841552,
+      "step": 96690
+    },
+    {
+      "epoch": 15.774061990212072,
+      "grad_norm": 0.01369437761604786,
+      "learning_rate": 0.00012995555267389608,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 208852208,
+      "step": 96695
+    },
+    {
+      "epoch": 15.774877650897226,
+      "grad_norm": 3.37766170501709,
+      "learning_rate": 0.0001299076873485408,
+      "loss": 0.1299,
+      "num_input_tokens_seen": 208862672,
+      "step": 96700
+    },
+    {
+      "epoch": 15.775693311582382,
+      "grad_norm": 0.0019586030393838882,
+      "learning_rate": 0.00012985982952357577,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 208873776,
+      "step": 96705
+    },
+    {
+      "epoch": 15.776508972267537,
+      "grad_norm": 0.00436317827552557,
+      "learning_rate": 0.00012981197919997078,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 208884368,
+      "step": 96710
+    },
+    {
+      "epoch": 15.777324632952691,
+      "grad_norm": 0.0014498537639155984,
+      "learning_rate": 0.00012976413637869573,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 208894512,
+      "step": 96715
+    },
+    {
+      "epoch": 15.778140293637847,
+      "grad_norm": 0.018102500587701797,
+      "learning_rate": 0.00012971630106072007,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 208905488,
+      "step": 96720
+    },
+    {
+      "epoch": 15.778955954323001,
+      "grad_norm": 0.0548224151134491,
+      "learning_rate": 0.00012966847324701337,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 208915760,
+      "step": 96725
+    },
+    {
+      "epoch": 15.779771615008157,
+      "grad_norm": 0.003279587486758828,
+      "learning_rate": 0.0001296206529385448,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 208925808,
+      "step": 96730
+    },
+    {
+      "epoch": 15.780587275693312,
+      "grad_norm": 0.009405073709785938,
+      "learning_rate": 0.00012957284013628357,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 208935024,
+      "step": 96735
+    },
+    {
+      "epoch": 15.781402936378466,
+      "grad_norm": 0.028064055368304253,
+      "learning_rate": 0.00012952503484119866,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 208943728,
+      "step": 96740
+    },
+    {
+      "epoch": 15.782218597063622,
+      "grad_norm": 0.00217696325853467,
+      "learning_rate": 0.0001294772370542589,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 208954096,
+      "step": 96745
+    },
+    {
+      "epoch": 15.783034257748776,
+      "grad_norm": 0.0025390072260051966,
+      "learning_rate": 0.00012942944677643282,
+      "loss": 0.001,
+      "num_input_tokens_seen": 208965136,
+      "step": 96750
+    },
+    {
+      "epoch": 15.783849918433932,
+      "grad_norm": 0.15127967298030853,
+      "learning_rate": 0.0001293816640086894,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 208976112,
+      "step": 96755
+    },
+    {
+      "epoch": 15.784665579119086,
+      "grad_norm": 0.0010695239761844277,
+      "learning_rate": 0.00012933388875199643,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 208986928,
+      "step": 96760
+    },
+    {
+      "epoch": 15.785481239804241,
+      "grad_norm": 0.00038432751898653805,
+      "learning_rate": 0.00012928612100732257,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 208998512,
+      "step": 96765
+    },
+    {
+      "epoch": 15.786296900489397,
+      "grad_norm": 0.005832038354128599,
+      "learning_rate": 0.00012923836077563576,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 209008208,
+      "step": 96770
+    },
+    {
+      "epoch": 15.78711256117455,
+      "grad_norm": 0.00981160532683134,
+      "learning_rate": 0.0001291906080579039,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 209018480,
+      "step": 96775
+    },
+    {
+      "epoch": 15.787928221859707,
+      "grad_norm": 0.012114566750824451,
+      "learning_rate": 0.0001291428628550948,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 209029072,
+      "step": 96780
+    },
+    {
+      "epoch": 15.78874388254486,
+      "grad_norm": 0.0163866113871336,
+      "learning_rate": 0.000129095125168176,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 209040304,
+      "step": 96785
+    },
+    {
+      "epoch": 15.789559543230016,
+      "grad_norm": 0.0029381830245256424,
+      "learning_rate": 0.00012904739499811508,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 209051152,
+      "step": 96790
+    },
+    {
+      "epoch": 15.790375203915172,
+      "grad_norm": 0.006611849181354046,
+      "learning_rate": 0.00012899967234587922,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 209062000,
+      "step": 96795
+    },
+    {
+      "epoch": 15.791190864600326,
+      "grad_norm": 0.00876909215003252,
+      "learning_rate": 0.00012895195721243568,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 209072304,
+      "step": 96800
+    },
+    {
+      "epoch": 15.792006525285482,
+      "grad_norm": 0.0037997523322701454,
+      "learning_rate": 0.00012890424959875147,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 209083888,
+      "step": 96805
+    },
+    {
+      "epoch": 15.792822185970635,
+      "grad_norm": 0.005078902002424002,
+      "learning_rate": 0.0001288565495057934,
+      "loss": 0.001,
+      "num_input_tokens_seen": 209095888,
+      "step": 96810
+    },
+    {
+      "epoch": 15.793637846655791,
+      "grad_norm": 0.0032598378602415323,
+      "learning_rate": 0.00012880885693452814,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 209106000,
+      "step": 96815
+    },
+    {
+      "epoch": 15.794453507340947,
+      "grad_norm": 0.0034630298614501953,
+      "learning_rate": 0.0001287611718859223,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 209115952,
+      "step": 96820
+    },
+    {
+      "epoch": 15.7952691680261,
+      "grad_norm": 0.0033087453339248896,
+      "learning_rate": 0.00012871349436094226,
+      "loss": 0.001,
+      "num_input_tokens_seen": 209127248,
+      "step": 96825
+    },
+    {
+      "epoch": 15.796084828711257,
+      "grad_norm": 0.001051778206601739,
+      "learning_rate": 0.0001286658243605543,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 209138288,
+      "step": 96830
+    },
+    {
+      "epoch": 15.79690048939641,
+      "grad_norm": 0.04102922976016998,
+      "learning_rate": 0.00012861816188572444,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 209149296,
+      "step": 96835
+    },
+    {
+      "epoch": 15.797716150081566,
+      "grad_norm": 0.0023798923939466476,
+      "learning_rate": 0.00012857050693741866,
+      "loss": 0.005,
+      "num_input_tokens_seen": 209160496,
+      "step": 96840
+    },
+    {
+      "epoch": 15.798531810766722,
+      "grad_norm": 0.009345081634819508,
+      "learning_rate": 0.00012852285951660275,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 209171440,
+      "step": 96845
+    },
+    {
+      "epoch": 15.799347471451876,
+      "grad_norm": 0.0020883092656731606,
+      "learning_rate": 0.00012847521962424237,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 209182704,
+      "step": 96850
+    },
+    {
+      "epoch": 15.800163132137031,
+      "grad_norm": 0.007022218778729439,
+      "learning_rate": 0.00012842758726130281,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 209194256,
+      "step": 96855
+    },
+    {
+      "epoch": 15.800978792822185,
+      "grad_norm": 0.0004571795871015638,
+      "learning_rate": 0.0001283799624287499,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 209205264,
+      "step": 96860
+    },
+    {
+      "epoch": 15.801794453507341,
+      "grad_norm": 0.0013870035763829947,
+      "learning_rate": 0.00012833234512754817,
+      "loss": 0.001,
+      "num_input_tokens_seen": 209215952,
+      "step": 96865
+    },
+    {
+      "epoch": 15.802610114192497,
+      "grad_norm": 0.002285180613398552,
+      "learning_rate": 0.0001282847353586632,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 209226928,
+      "step": 96870
+    },
+    {
+      "epoch": 15.80342577487765,
+      "grad_norm": 0.007267099339514971,
+      "learning_rate": 0.0001282371331230594,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 209238704,
+      "step": 96875
+    },
+    {
+      "epoch": 15.804241435562806,
+      "grad_norm": 0.6497460007667542,
+      "learning_rate": 0.00012818953842170193,
+      "loss": 0.1171,
+      "num_input_tokens_seen": 209249808,
+      "step": 96880
+    },
+    {
+      "epoch": 15.80505709624796,
+      "grad_norm": 0.00022022541088517755,
+      "learning_rate": 0.0001281419512555549,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 209259952,
+      "step": 96885
+    },
+    {
+      "epoch": 15.805872756933116,
+      "grad_norm": 0.0015587671659886837,
+      "learning_rate": 0.00012809437162558324,
+      "loss": 0.0659,
+      "num_input_tokens_seen": 209270576,
+      "step": 96890
+    },
+    {
+      "epoch": 15.80668841761827,
+      "grad_norm": 0.02945493347942829,
+      "learning_rate": 0.00012804679953275068,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 209281424,
+      "step": 96895
+    },
+    {
+      "epoch": 15.807504078303426,
+      "grad_norm": 0.03355622664093971,
+      "learning_rate": 0.00012799923497802185,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 209291664,
+      "step": 96900
+    },
+    {
+      "epoch": 15.808319738988581,
+      "grad_norm": 0.0016738567501306534,
+      "learning_rate": 0.00012795167796236012,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 209303088,
+      "step": 96905
+    },
+    {
+      "epoch": 15.809135399673735,
+      "grad_norm": 0.0012268935097381473,
+      "learning_rate": 0.00012790412848672977,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 209313328,
+      "step": 96910
+    },
+    {
+      "epoch": 15.809951060358891,
+      "grad_norm": 0.0003424619499128312,
+      "learning_rate": 0.0001278565865520943,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 209324080,
+      "step": 96915
+    },
+    {
+      "epoch": 15.810766721044045,
+      "grad_norm": 0.5638118386268616,
+      "learning_rate": 0.00012780905215941724,
+      "loss": 0.0926,
+      "num_input_tokens_seen": 209334992,
+      "step": 96920
+    },
+    {
+      "epoch": 15.8115823817292,
+      "grad_norm": 0.000379926961613819,
+      "learning_rate": 0.00012776152530966184,
+      "loss": 0.003,
+      "num_input_tokens_seen": 209345680,
+      "step": 96925
+    },
+    {
+      "epoch": 15.812398042414356,
+      "grad_norm": 0.12855461239814758,
+      "learning_rate": 0.0001277140060037914,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 209357072,
+      "step": 96930
+    },
+    {
+      "epoch": 15.81321370309951,
+      "grad_norm": 0.001596722868271172,
+      "learning_rate": 0.00012766649424276888,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 209368688,
+      "step": 96935
+    },
+    {
+      "epoch": 15.814029363784666,
+      "grad_norm": 0.002013827906921506,
+      "learning_rate": 0.00012761899002755716,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 209380176,
+      "step": 96940
+    },
+    {
+      "epoch": 15.81484502446982,
+      "grad_norm": 0.0006711476598866284,
+      "learning_rate": 0.00012757149335911906,
+      "loss": 0.004,
+      "num_input_tokens_seen": 209390000,
+      "step": 96945
+    },
+    {
+      "epoch": 15.815660685154976,
+      "grad_norm": 0.00945072341710329,
+      "learning_rate": 0.00012752400423841708,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 209401008,
+      "step": 96950
+    },
+    {
+      "epoch": 15.81647634584013,
+      "grad_norm": 0.10607539117336273,
+      "learning_rate": 0.0001274765226664137,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 209411216,
+      "step": 96955
+    },
+    {
+      "epoch": 15.817292006525285,
+      "grad_norm": 0.003964398056268692,
+      "learning_rate": 0.00012742904864407095,
+      "loss": 0.0188,
+      "num_input_tokens_seen": 209422384,
+      "step": 96960
+    },
+    {
+      "epoch": 15.818107667210441,
+      "grad_norm": 0.10050233453512192,
+      "learning_rate": 0.0001273815821723515,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 209433488,
+      "step": 96965
+    },
+    {
+      "epoch": 15.818923327895595,
+      "grad_norm": 0.10801159590482712,
+      "learning_rate": 0.00012733412325221673,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 209444496,
+      "step": 96970
+    },
+    {
+      "epoch": 15.81973898858075,
+      "grad_norm": 0.13759921491146088,
+      "learning_rate": 0.00012728667188462893,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 209454960,
+      "step": 96975
+    },
+    {
+      "epoch": 15.820554649265905,
+      "grad_norm": 0.002384861698374152,
+      "learning_rate": 0.00012723922807054934,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 209465456,
+      "step": 96980
+    },
+    {
+      "epoch": 15.82137030995106,
+      "grad_norm": 0.0007334126275964081,
+      "learning_rate": 0.00012719179181093992,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 209476080,
+      "step": 96985
+    },
+    {
+      "epoch": 15.822185970636216,
+      "grad_norm": 0.007079676259309053,
+      "learning_rate": 0.00012714436310676147,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 209487504,
+      "step": 96990
+    },
+    {
+      "epoch": 15.82300163132137,
+      "grad_norm": 0.010506193153560162,
+      "learning_rate": 0.00012709694195897587,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 209498704,
+      "step": 96995
+    },
+    {
+      "epoch": 15.823817292006526,
+      "grad_norm": 0.007928671315312386,
+      "learning_rate": 0.00012704952836854345,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 209509808,
+      "step": 97000
+    },
+    {
+      "epoch": 15.82463295269168,
+      "grad_norm": 0.005038387607783079,
+      "learning_rate": 0.00012700212233642577,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 209518896,
+      "step": 97005
+    },
+    {
+      "epoch": 15.825448613376835,
+      "grad_norm": 0.19782593846321106,
+      "learning_rate": 0.00012695472386358293,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 209529392,
+      "step": 97010
+    },
+    {
+      "epoch": 15.826264274061991,
+      "grad_norm": 0.013628569431602955,
+      "learning_rate": 0.00012690733295097617,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 209541072,
+      "step": 97015
+    },
+    {
+      "epoch": 15.827079934747145,
+      "grad_norm": 0.0022729025222361088,
+      "learning_rate": 0.00012685994959956532,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 209551568,
+      "step": 97020
+    },
+    {
+      "epoch": 15.8278955954323,
+      "grad_norm": 0.002973973285406828,
+      "learning_rate": 0.00012681257381031124,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 209562480,
+      "step": 97025
+    },
+    {
+      "epoch": 15.828711256117455,
+      "grad_norm": 0.0014633465325459838,
+      "learning_rate": 0.00012676520558417347,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 209572848,
+      "step": 97030
+    },
+    {
+      "epoch": 15.82952691680261,
+      "grad_norm": 0.0008202652097679675,
+      "learning_rate": 0.00012671784492211262,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 209584048,
+      "step": 97035
+    },
+    {
+      "epoch": 15.830342577487766,
+      "grad_norm": 0.000434060872066766,
+      "learning_rate": 0.00012667049182508788,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 209595088,
+      "step": 97040
+    },
+    {
+      "epoch": 15.83115823817292,
+      "grad_norm": 0.0006406829343177378,
+      "learning_rate": 0.00012662314629405936,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 209605200,
+      "step": 97045
+    },
+    {
+      "epoch": 15.831973898858076,
+      "grad_norm": 0.003248979104682803,
+      "learning_rate": 0.00012657580832998644,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 209615056,
+      "step": 97050
+    },
+    {
+      "epoch": 15.83278955954323,
+      "grad_norm": 0.0008684792555868626,
+      "learning_rate": 0.0001265284779338285,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 209625552,
+      "step": 97055
+    },
+    {
+      "epoch": 15.833605220228385,
+      "grad_norm": 0.029019569978117943,
+      "learning_rate": 0.00012648115510654473,
+      "loss": 0.006,
+      "num_input_tokens_seen": 209636336,
+      "step": 97060
+    },
+    {
+      "epoch": 15.83442088091354,
+      "grad_norm": 0.0013905549421906471,
+      "learning_rate": 0.00012643383984909423,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 209647056,
+      "step": 97065
+    },
+    {
+      "epoch": 15.835236541598695,
+      "grad_norm": 0.0020442737732082605,
+      "learning_rate": 0.0001263865321624358,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 209658512,
+      "step": 97070
+    },
+    {
+      "epoch": 15.83605220228385,
+      "grad_norm": 0.0013671980705112219,
+      "learning_rate": 0.0001263392320475283,
+      "loss": 0.0774,
+      "num_input_tokens_seen": 209668400,
+      "step": 97075
+    },
+    {
+      "epoch": 15.836867862969005,
+      "grad_norm": 0.000905030348803848,
+      "learning_rate": 0.0001262919395053303,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 209679920,
+      "step": 97080
+    },
+    {
+      "epoch": 15.83768352365416,
+      "grad_norm": 0.004797177854925394,
+      "learning_rate": 0.0001262446545368002,
+      "loss": 0.005,
+      "num_input_tokens_seen": 209690512,
+      "step": 97085
+    },
+    {
+      "epoch": 15.838499184339314,
+      "grad_norm": 0.0026325734797865152,
+      "learning_rate": 0.0001261973771428963,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 209701872,
+      "step": 97090
+    },
+    {
+      "epoch": 15.83931484502447,
+      "grad_norm": 0.0004018640611320734,
+      "learning_rate": 0.00012615010732457677,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 209713680,
+      "step": 97095
+    },
+    {
+      "epoch": 15.840130505709626,
+      "grad_norm": 0.01304841972887516,
+      "learning_rate": 0.00012610284508279956,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 209725552,
+      "step": 97100
+    },
+    {
+      "epoch": 15.84094616639478,
+      "grad_norm": 0.03244048357009888,
+      "learning_rate": 0.00012605559041852245,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 209735984,
+      "step": 97105
+    },
+    {
+      "epoch": 15.841761827079935,
+      "grad_norm": 0.02472323551774025,
+      "learning_rate": 0.0001260083433327034,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 209747312,
+      "step": 97110
+    },
+    {
+      "epoch": 15.84257748776509,
+      "grad_norm": 0.002015564125031233,
+      "learning_rate": 0.00012596110382629943,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 209757680,
+      "step": 97115
+    },
+    {
+      "epoch": 15.843393148450245,
+      "grad_norm": 0.0009261518134735525,
+      "learning_rate": 0.0001259138719002685,
+      "loss": 0.001,
+      "num_input_tokens_seen": 209769040,
+      "step": 97120
+    },
+    {
+      "epoch": 15.844208809135399,
+      "grad_norm": 0.0004853067803196609,
+      "learning_rate": 0.0001258666475555672,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 209780624,
+      "step": 97125
+    },
+    {
+      "epoch": 15.845024469820554,
+      "grad_norm": 0.0011482738191261888,
+      "learning_rate": 0.00012581943079315323,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 209791440,
+      "step": 97130
+    },
+    {
+      "epoch": 15.84584013050571,
+      "grad_norm": 0.012917263433337212,
+      "learning_rate": 0.00012577222161398288,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 209802800,
+      "step": 97135
+    },
+    {
+      "epoch": 15.846655791190864,
+      "grad_norm": 0.012864846736192703,
+      "learning_rate": 0.00012572502001901347,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 209813072,
+      "step": 97140
+    },
+    {
+      "epoch": 15.84747145187602,
+      "grad_norm": 0.0005281308549456298,
+      "learning_rate": 0.00012567782600920107,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 209825232,
+      "step": 97145
+    },
+    {
+      "epoch": 15.848287112561174,
+      "grad_norm": 0.0009208358242176473,
+      "learning_rate": 0.0001256306395855027,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 209835120,
+      "step": 97150
+    },
+    {
+      "epoch": 15.84910277324633,
+      "grad_norm": 0.02001389116048813,
+      "learning_rate": 0.000125583460748874,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 209845200,
+      "step": 97155
+    },
+    {
+      "epoch": 15.849918433931485,
+      "grad_norm": 0.010557861998677254,
+      "learning_rate": 0.00012553628950027175,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 209856336,
+      "step": 97160
+    },
+    {
+      "epoch": 15.850734094616639,
+      "grad_norm": 0.11188769340515137,
+      "learning_rate": 0.00012548912584065135,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 209868240,
+      "step": 97165
+    },
+    {
+      "epoch": 15.851549755301795,
+      "grad_norm": 0.00966912042349577,
+      "learning_rate": 0.00012544196977096905,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 209879120,
+      "step": 97170
+    },
+    {
+      "epoch": 15.852365415986949,
+      "grad_norm": 0.12375235557556152,
+      "learning_rate": 0.00012539482129218045,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 209889712,
+      "step": 97175
+    },
+    {
+      "epoch": 15.853181076672104,
+      "grad_norm": 0.000904184824321419,
+      "learning_rate": 0.00012534768040524098,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 209900816,
+      "step": 97180
+    },
+    {
+      "epoch": 15.85399673735726,
+      "grad_norm": 0.10164017230272293,
+      "learning_rate": 0.000125300547111106,
+      "loss": 0.004,
+      "num_input_tokens_seen": 209910320,
+      "step": 97185
+    },
+    {
+      "epoch": 15.854812398042414,
+      "grad_norm": 0.011888348497450352,
+      "learning_rate": 0.00012525342141073083,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 209920944,
+      "step": 97190
+    },
+    {
+      "epoch": 15.85562805872757,
+      "grad_norm": 0.008458067663013935,
+      "learning_rate": 0.00012520630330507042,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 209932272,
+      "step": 97195
+    },
+    {
+      "epoch": 15.856443719412724,
+      "grad_norm": 0.000870992022100836,
+      "learning_rate": 0.0001251591927950798,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 209942736,
+      "step": 97200
+    },
+    {
+      "epoch": 15.85725938009788,
+      "grad_norm": 0.000473090389277786,
+      "learning_rate": 0.00012511208988171362,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 209953072,
+      "step": 97205
+    },
+    {
+      "epoch": 15.858075040783035,
+      "grad_norm": 0.0010090031428262591,
+      "learning_rate": 0.0001250649945659265,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 209964112,
+      "step": 97210
+    },
+    {
+      "epoch": 15.858890701468189,
+      "grad_norm": 0.015405405312776566,
+      "learning_rate": 0.00012501790684867292,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 209975440,
+      "step": 97215
+    },
+    {
+      "epoch": 15.859706362153345,
+      "grad_norm": 0.010843812488019466,
+      "learning_rate": 0.0001249708267309072,
+      "loss": 0.001,
+      "num_input_tokens_seen": 209987088,
+      "step": 97220
+    },
+    {
+      "epoch": 15.860522022838499,
+      "grad_norm": 0.007993648760020733,
+      "learning_rate": 0.00012492375421358336,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 209998832,
+      "step": 97225
+    },
+    {
+      "epoch": 15.861337683523654,
+      "grad_norm": 0.008369416929781437,
+      "learning_rate": 0.00012487668929765555,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 210009328,
+      "step": 97230
+    },
+    {
+      "epoch": 15.86215334420881,
+      "grad_norm": 0.0016901845810934901,
+      "learning_rate": 0.00012482963198407742,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 210020080,
+      "step": 97235
+    },
+    {
+      "epoch": 15.862969004893964,
+      "grad_norm": 0.004488547798246145,
+      "learning_rate": 0.00012478258227380262,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 210030448,
+      "step": 97240
+    },
+    {
+      "epoch": 15.86378466557912,
+      "grad_norm": 0.003256887663155794,
+      "learning_rate": 0.0001247355401677851,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 210043024,
+      "step": 97245
+    },
+    {
+      "epoch": 15.864600326264274,
+      "grad_norm": 0.00019677575619425625,
+      "learning_rate": 0.00012468850566697758,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 210055024,
+      "step": 97250
+    },
+    {
+      "epoch": 15.86541598694943,
+      "grad_norm": 0.0008272241684608161,
+      "learning_rate": 0.00012464147877233394,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 210066096,
+      "step": 97255
+    },
+    {
+      "epoch": 15.866231647634583,
+      "grad_norm": 0.007103449199348688,
+      "learning_rate": 0.00012459445948480663,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 210076688,
+      "step": 97260
+    },
+    {
+      "epoch": 15.867047308319739,
+      "grad_norm": 0.021840078756213188,
+      "learning_rate": 0.0001245474478053491,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 210086256,
+      "step": 97265
+    },
+    {
+      "epoch": 15.867862969004895,
+      "grad_norm": 0.003334933193400502,
+      "learning_rate": 0.00012450044373491355,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 210097424,
+      "step": 97270
+    },
+    {
+      "epoch": 15.868678629690049,
+      "grad_norm": 0.0055555677972733974,
+      "learning_rate": 0.00012445344727445303,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 210107024,
+      "step": 97275
+    },
+    {
+      "epoch": 15.869494290375204,
+      "grad_norm": 0.0009360619587823749,
+      "learning_rate": 0.00012440645842491977,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 210116880,
+      "step": 97280
+    },
+    {
+      "epoch": 15.870309951060358,
+      "grad_norm": 0.002635387470945716,
+      "learning_rate": 0.0001243594771872661,
+      "loss": 0.1729,
+      "num_input_tokens_seen": 210127184,
+      "step": 97285
+    },
+    {
+      "epoch": 15.871125611745514,
+      "grad_norm": 0.06094209477305412,
+      "learning_rate": 0.00012431250356244422,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 210138224,
+      "step": 97290
+    },
+    {
+      "epoch": 15.87194127243067,
+      "grad_norm": 0.0005155637627467513,
+      "learning_rate": 0.000124265537551406,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 210148656,
+      "step": 97295
+    },
+    {
+      "epoch": 15.872756933115824,
+      "grad_norm": 0.4359850585460663,
+      "learning_rate": 0.00012421857915510332,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 210160496,
+      "step": 97300
+    },
+    {
+      "epoch": 15.87357259380098,
+      "grad_norm": 0.5114566683769226,
+      "learning_rate": 0.00012417162837448787,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 210172400,
+      "step": 97305
+    },
+    {
+      "epoch": 15.874388254486133,
+      "grad_norm": 0.0038012703880667686,
+      "learning_rate": 0.0001241246852105111,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 210183984,
+      "step": 97310
+    },
+    {
+      "epoch": 15.875203915171289,
+      "grad_norm": 0.013922316022217274,
+      "learning_rate": 0.00012407774966412445,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 210196112,
+      "step": 97315
+    },
+    {
+      "epoch": 15.876019575856443,
+      "grad_norm": 0.02212394028902054,
+      "learning_rate": 0.0001240308217362791,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 210207408,
+      "step": 97320
+    },
+    {
+      "epoch": 15.876835236541599,
+      "grad_norm": 0.017958035692572594,
+      "learning_rate": 0.0001239839014279261,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 210218832,
+      "step": 97325
+    },
+    {
+      "epoch": 15.877650897226754,
+      "grad_norm": 0.004952315706759691,
+      "learning_rate": 0.0001239369887400163,
+      "loss": 0.005,
+      "num_input_tokens_seen": 210230832,
+      "step": 97330
+    },
+    {
+      "epoch": 15.878466557911908,
+      "grad_norm": 0.10258053243160248,
+      "learning_rate": 0.0001238900836735005,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 210241168,
+      "step": 97335
+    },
+    {
+      "epoch": 15.879282218597064,
+      "grad_norm": 0.010011304169893265,
+      "learning_rate": 0.00012384318622932932,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 210252176,
+      "step": 97340
+    },
+    {
+      "epoch": 15.880097879282218,
+      "grad_norm": 0.000613482145126909,
+      "learning_rate": 0.00012379629640845314,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 210262704,
+      "step": 97345
+    },
+    {
+      "epoch": 15.880913539967374,
+      "grad_norm": 0.0014483414124697447,
+      "learning_rate": 0.0001237494142118223,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 210273104,
+      "step": 97350
+    },
+    {
+      "epoch": 15.88172920065253,
+      "grad_norm": 0.005220226943492889,
+      "learning_rate": 0.00012370253964038685,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 210283728,
+      "step": 97355
+    },
+    {
+      "epoch": 15.882544861337683,
+      "grad_norm": 0.0020932487677782774,
+      "learning_rate": 0.0001236556726950968,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 210295440,
+      "step": 97360
+    },
+    {
+      "epoch": 15.883360522022839,
+      "grad_norm": 0.03078819066286087,
+      "learning_rate": 0.000123608813376902,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 210307440,
+      "step": 97365
+    },
+    {
+      "epoch": 15.884176182707993,
+      "grad_norm": 0.00039980438305065036,
+      "learning_rate": 0.00012356196168675205,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 210317392,
+      "step": 97370
+    },
+    {
+      "epoch": 15.884991843393149,
+      "grad_norm": 0.0004841327026952058,
+      "learning_rate": 0.00012351511762559653,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 210327728,
+      "step": 97375
+    },
+    {
+      "epoch": 15.885807504078304,
+      "grad_norm": 0.752201497554779,
+      "learning_rate": 0.0001234682811943847,
+      "loss": 0.0498,
+      "num_input_tokens_seen": 210338672,
+      "step": 97380
+    },
+    {
+      "epoch": 15.886623164763458,
+      "grad_norm": 0.005839809309691191,
+      "learning_rate": 0.00012342145239406573,
+      "loss": 0.0702,
+      "num_input_tokens_seen": 210350352,
+      "step": 97385
+    },
+    {
+      "epoch": 15.887438825448614,
+      "grad_norm": 0.0002493146457709372,
+      "learning_rate": 0.00012337463122558885,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 210361872,
+      "step": 97390
+    },
+    {
+      "epoch": 15.888254486133768,
+      "grad_norm": 0.0055696722120046616,
+      "learning_rate": 0.00012332781768990286,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 210373520,
+      "step": 97395
+    },
+    {
+      "epoch": 15.889070146818923,
+      "grad_norm": 0.001248400192707777,
+      "learning_rate": 0.00012328101178795648,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 210384912,
+      "step": 97400
+    },
+    {
+      "epoch": 15.88988580750408,
+      "grad_norm": 0.058470193296670914,
+      "learning_rate": 0.0001232342135206983,
+      "loss": 0.024,
+      "num_input_tokens_seen": 210394896,
+      "step": 97405
+    },
+    {
+      "epoch": 15.890701468189233,
+      "grad_norm": 0.7765676379203796,
+      "learning_rate": 0.0001231874228890768,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 210405136,
+      "step": 97410
+    },
+    {
+      "epoch": 15.891517128874389,
+      "grad_norm": 0.0009560906910337508,
+      "learning_rate": 0.00012314063989404012,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 210416144,
+      "step": 97415
+    },
+    {
+      "epoch": 15.892332789559543,
+      "grad_norm": 0.0044351788237690926,
+      "learning_rate": 0.00012309386453653647,
+      "loss": 0.0407,
+      "num_input_tokens_seen": 210426960,
+      "step": 97420
+    },
+    {
+      "epoch": 15.893148450244698,
+      "grad_norm": 0.00936975609511137,
+      "learning_rate": 0.00012304709681751385,
+      "loss": 0.0128,
+      "num_input_tokens_seen": 210437680,
+      "step": 97425
+    },
+    {
+      "epoch": 15.893964110929852,
+      "grad_norm": 0.00683948677033186,
+      "learning_rate": 0.00012300033673792,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 210449200,
+      "step": 97430
+    },
+    {
+      "epoch": 15.894779771615008,
+      "grad_norm": 0.00031043830676935613,
+      "learning_rate": 0.00012295358429870252,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 210459824,
+      "step": 97435
+    },
+    {
+      "epoch": 15.895595432300164,
+      "grad_norm": 0.002923042280599475,
+      "learning_rate": 0.000122906839500809,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 210469808,
+      "step": 97440
+    },
+    {
+      "epoch": 15.896411092985318,
+      "grad_norm": 0.0020240000449121,
+      "learning_rate": 0.0001228601023451868,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 210479184,
+      "step": 97445
+    },
+    {
+      "epoch": 15.897226753670473,
+      "grad_norm": 0.0005645108758471906,
+      "learning_rate": 0.00012281337283278298,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 210489264,
+      "step": 97450
+    },
+    {
+      "epoch": 15.898042414355627,
+      "grad_norm": 0.00976780615746975,
+      "learning_rate": 0.0001227666509645447,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 210499280,
+      "step": 97455
+    },
+    {
+      "epoch": 15.898858075040783,
+      "grad_norm": 0.004547907970845699,
+      "learning_rate": 0.00012271993674141878,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 210509648,
+      "step": 97460
+    },
+    {
+      "epoch": 15.899673735725939,
+      "grad_norm": 0.0006972053670324385,
+      "learning_rate": 0.000122673230164352,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 210520752,
+      "step": 97465
+    },
+    {
+      "epoch": 15.900489396411093,
+      "grad_norm": 1.194573998451233,
+      "learning_rate": 0.00012262653123429085,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 210532336,
+      "step": 97470
+    },
+    {
+      "epoch": 15.901305057096248,
+      "grad_norm": 0.005130276549607515,
+      "learning_rate": 0.0001225798399521818,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 210543024,
+      "step": 97475
+    },
+    {
+      "epoch": 15.902120717781402,
+      "grad_norm": 0.010159132070839405,
+      "learning_rate": 0.00012253315631897106,
+      "loss": 0.0192,
+      "num_input_tokens_seen": 210553488,
+      "step": 97480
+    },
+    {
+      "epoch": 15.902936378466558,
+      "grad_norm": 0.01264498382806778,
+      "learning_rate": 0.00012248648033560473,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 210565296,
+      "step": 97485
+    },
+    {
+      "epoch": 15.903752039151712,
+      "grad_norm": 0.062267009168863297,
+      "learning_rate": 0.00012243981200302885,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 210575632,
+      "step": 97490
+    },
+    {
+      "epoch": 15.904567699836868,
+      "grad_norm": 0.012246742844581604,
+      "learning_rate": 0.00012239315132218898,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 210587184,
+      "step": 97495
+    },
+    {
+      "epoch": 15.905383360522023,
+      "grad_norm": 0.0017103358404710889,
+      "learning_rate": 0.00012234649829403116,
+      "loss": 0.0685,
+      "num_input_tokens_seen": 210596912,
+      "step": 97500
+    },
+    {
+      "epoch": 15.906199021207177,
+      "grad_norm": 0.0008929313044063747,
+      "learning_rate": 0.0001222998529195004,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 210607376,
+      "step": 97505
+    },
+    {
+      "epoch": 15.907014681892333,
+      "grad_norm": 0.015163707546889782,
+      "learning_rate": 0.00012225321519954258,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 210618192,
+      "step": 97510
+    },
+    {
+      "epoch": 15.907830342577487,
+      "grad_norm": 0.0005488864844664931,
+      "learning_rate": 0.00012220658513510224,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 210629904,
+      "step": 97515
+    },
+    {
+      "epoch": 15.908646003262643,
+      "grad_norm": 0.0006303298287093639,
+      "learning_rate": 0.00012215996272712498,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 210640592,
+      "step": 97520
+    },
+    {
+      "epoch": 15.909461663947798,
+      "grad_norm": 0.005725410301238298,
+      "learning_rate": 0.00012211334797655515,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 210651312,
+      "step": 97525
+    },
+    {
+      "epoch": 15.910277324632952,
+      "grad_norm": 0.0017852602759376168,
+      "learning_rate": 0.00012206674088433784,
+      "loss": 0.006,
+      "num_input_tokens_seen": 210660880,
+      "step": 97530
+    },
+    {
+      "epoch": 15.911092985318108,
+      "grad_norm": 0.046053625643253326,
+      "learning_rate": 0.00012202014145141749,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 210671472,
+      "step": 97535
+    },
+    {
+      "epoch": 15.911908646003262,
+      "grad_norm": 0.0011109462939202785,
+      "learning_rate": 0.00012197354967873847,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 210682768,
+      "step": 97540
+    },
+    {
+      "epoch": 15.912724306688418,
+      "grad_norm": 0.00119930156506598,
+      "learning_rate": 0.00012192696556724497,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 210693296,
+      "step": 97545
+    },
+    {
+      "epoch": 15.913539967373573,
+      "grad_norm": 0.013788484036922455,
+      "learning_rate": 0.00012188038911788119,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 210704080,
+      "step": 97550
+    },
+    {
+      "epoch": 15.914355628058727,
+      "grad_norm": 0.034569744020700455,
+      "learning_rate": 0.00012183382033159101,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 210714704,
+      "step": 97555
+    },
+    {
+      "epoch": 15.915171288743883,
+      "grad_norm": 0.003412411315366626,
+      "learning_rate": 0.00012178725920931816,
+      "loss": 0.1418,
+      "num_input_tokens_seen": 210725264,
+      "step": 97560
+    },
+    {
+      "epoch": 15.915986949429037,
+      "grad_norm": 0.00040752938366495073,
+      "learning_rate": 0.0001217407057520063,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 210736272,
+      "step": 97565
+    },
+    {
+      "epoch": 15.916802610114193,
+      "grad_norm": 0.003446828341111541,
+      "learning_rate": 0.0001216941599605989,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 210746320,
+      "step": 97570
+    },
+    {
+      "epoch": 15.917618270799348,
+      "grad_norm": 0.02085341326892376,
+      "learning_rate": 0.00012164762183603928,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 210757712,
+      "step": 97575
+    },
+    {
+      "epoch": 15.918433931484502,
+      "grad_norm": 0.0007540509686805308,
+      "learning_rate": 0.00012160109137927061,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 210768560,
+      "step": 97580
+    },
+    {
+      "epoch": 15.919249592169658,
+      "grad_norm": 0.00683918921276927,
+      "learning_rate": 0.00012155456859123582,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 210779440,
+      "step": 97585
+    },
+    {
+      "epoch": 15.920065252854812,
+      "grad_norm": 0.009121835231781006,
+      "learning_rate": 0.00012150805347287774,
+      "loss": 0.0957,
+      "num_input_tokens_seen": 210789616,
+      "step": 97590
+    },
+    {
+      "epoch": 15.920880913539968,
+      "grad_norm": 0.007207232527434826,
+      "learning_rate": 0.00012146154602513915,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 210800560,
+      "step": 97595
+    },
+    {
+      "epoch": 15.921696574225122,
+      "grad_norm": 0.002390147652477026,
+      "learning_rate": 0.00012141504624896244,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 210809488,
+      "step": 97600
+    },
+    {
+      "epoch": 15.922512234910277,
+      "grad_norm": 0.041978128254413605,
+      "learning_rate": 0.0001213685541452903,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 210819696,
+      "step": 97605
+    },
+    {
+      "epoch": 15.923327895595433,
+      "grad_norm": 0.010881558991968632,
+      "learning_rate": 0.00012132206971506449,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 210831440,
+      "step": 97610
+    },
+    {
+      "epoch": 15.924143556280587,
+      "grad_norm": 0.008309472352266312,
+      "learning_rate": 0.00012127559295922764,
+      "loss": 0.001,
+      "num_input_tokens_seen": 210841680,
+      "step": 97615
+    },
+    {
+      "epoch": 15.924959216965743,
+      "grad_norm": 0.00020515847427304834,
+      "learning_rate": 0.00012122912387872098,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 210852528,
+      "step": 97620
+    },
+    {
+      "epoch": 15.925774877650896,
+      "grad_norm": 0.003146476112306118,
+      "learning_rate": 0.000121182662474487,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 210863440,
+      "step": 97625
+    },
+    {
+      "epoch": 15.926590538336052,
+      "grad_norm": 0.0006061471067368984,
+      "learning_rate": 0.00012113620874746656,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 210874640,
+      "step": 97630
+    },
+    {
+      "epoch": 15.927406199021208,
+      "grad_norm": 0.00795169360935688,
+      "learning_rate": 0.00012108976269860183,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 210886064,
+      "step": 97635
+    },
+    {
+      "epoch": 15.928221859706362,
+      "grad_norm": 0.01079578511416912,
+      "learning_rate": 0.00012104332432883342,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 210894896,
+      "step": 97640
+    },
+    {
+      "epoch": 15.929037520391518,
+      "grad_norm": 0.005672822240740061,
+      "learning_rate": 0.0001209968936391031,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 210905296,
+      "step": 97645
+    },
+    {
+      "epoch": 15.929853181076671,
+      "grad_norm": 0.0013776031555607915,
+      "learning_rate": 0.00012095047063035119,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 210916368,
+      "step": 97650
+    },
+    {
+      "epoch": 15.930668841761827,
+      "grad_norm": 0.003583358135074377,
+      "learning_rate": 0.00012090405530351916,
+      "loss": 0.0664,
+      "num_input_tokens_seen": 210926032,
+      "step": 97655
+    },
+    {
+      "epoch": 15.931484502446983,
+      "grad_norm": 0.20289726555347443,
+      "learning_rate": 0.0001208576476595471,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 210937584,
+      "step": 97660
+    },
+    {
+      "epoch": 15.932300163132137,
+      "grad_norm": 0.0075626983307302,
+      "learning_rate": 0.00012081124769937607,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 210950224,
+      "step": 97665
+    },
+    {
+      "epoch": 15.933115823817293,
+      "grad_norm": 0.07312007993459702,
+      "learning_rate": 0.00012076485542394583,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 210961104,
+      "step": 97670
+    },
+    {
+      "epoch": 15.933931484502446,
+      "grad_norm": 0.04900915548205376,
+      "learning_rate": 0.00012071847083419708,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 210972880,
+      "step": 97675
+    },
+    {
+      "epoch": 15.934747145187602,
+      "grad_norm": 0.006645069923251867,
+      "learning_rate": 0.00012067209393106959,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 210984272,
+      "step": 97680
+    },
+    {
+      "epoch": 15.935562805872756,
+      "grad_norm": 0.0015154111897572875,
+      "learning_rate": 0.00012062572471550337,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 210994320,
+      "step": 97685
+    },
+    {
+      "epoch": 15.936378466557912,
+      "grad_norm": 0.0016459511825814843,
+      "learning_rate": 0.00012057936318843816,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 211005392,
+      "step": 97690
+    },
+    {
+      "epoch": 15.937194127243067,
+      "grad_norm": 0.0007665985031053424,
+      "learning_rate": 0.00012053300935081341,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 211016336,
+      "step": 97695
+    },
+    {
+      "epoch": 15.938009787928221,
+      "grad_norm": 0.002678055316209793,
+      "learning_rate": 0.00012048666320356865,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 211027312,
+      "step": 97700
+    },
+    {
+      "epoch": 15.938825448613377,
+      "grad_norm": 0.06500992923974991,
+      "learning_rate": 0.0001204403247476431,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 211037456,
+      "step": 97705
+    },
+    {
+      "epoch": 15.939641109298531,
+      "grad_norm": 0.0016458886675536633,
+      "learning_rate": 0.00012039399398397588,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 211048624,
+      "step": 97710
+    },
+    {
+      "epoch": 15.940456769983687,
+      "grad_norm": 0.11121902614831924,
+      "learning_rate": 0.00012034767091350591,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 211059248,
+      "step": 97715
+    },
+    {
+      "epoch": 15.941272430668842,
+      "grad_norm": 0.0037498734891414642,
+      "learning_rate": 0.00012030135553717204,
+      "loss": 0.0221,
+      "num_input_tokens_seen": 211069808,
+      "step": 97720
+    },
+    {
+      "epoch": 15.942088091353996,
+      "grad_norm": 0.02941116690635681,
+      "learning_rate": 0.00012025504785591273,
+      "loss": 0.0391,
+      "num_input_tokens_seen": 211081264,
+      "step": 97725
+    },
+    {
+      "epoch": 15.942903752039152,
+      "grad_norm": 0.036870796233415604,
+      "learning_rate": 0.00012020874787066688,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 211092688,
+      "step": 97730
+    },
+    {
+      "epoch": 15.943719412724306,
+      "grad_norm": 0.0026832197327166796,
+      "learning_rate": 0.00012016245558237232,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 211102960,
+      "step": 97735
+    },
+    {
+      "epoch": 15.944535073409462,
+      "grad_norm": 0.012120860628783703,
+      "learning_rate": 0.0001201161709919677,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 211114416,
+      "step": 97740
+    },
+    {
+      "epoch": 15.945350734094617,
+      "grad_norm": 0.0010019437177106738,
+      "learning_rate": 0.00012006989410039055,
+      "loss": 0.0397,
+      "num_input_tokens_seen": 211125936,
+      "step": 97745
+    },
+    {
+      "epoch": 15.946166394779771,
+      "grad_norm": 0.00462432811036706,
+      "learning_rate": 0.00012002362490857921,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 211138608,
+      "step": 97750
+    },
+    {
+      "epoch": 15.946982055464927,
+      "grad_norm": 0.001551853958517313,
+      "learning_rate": 0.00011997736341747085,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 211151184,
+      "step": 97755
+    },
+    {
+      "epoch": 15.947797716150081,
+      "grad_norm": 0.0018696035258471966,
+      "learning_rate": 0.00011993110962800363,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 211161584,
+      "step": 97760
+    },
+    {
+      "epoch": 15.948613376835237,
+      "grad_norm": 0.0018065494950860739,
+      "learning_rate": 0.00011988486354111433,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 211172496,
+      "step": 97765
+    },
+    {
+      "epoch": 15.949429037520392,
+      "grad_norm": 0.005451989360153675,
+      "learning_rate": 0.0001198386251577408,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 211183536,
+      "step": 97770
+    },
+    {
+      "epoch": 15.950244698205546,
+      "grad_norm": 0.7213369011878967,
+      "learning_rate": 0.00011979239447881945,
+      "loss": 0.0131,
+      "num_input_tokens_seen": 211194480,
+      "step": 97775
+    },
+    {
+      "epoch": 15.951060358890702,
+      "grad_norm": 0.0018106530187651515,
+      "learning_rate": 0.00011974617150528788,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 211204944,
+      "step": 97780
+    },
+    {
+      "epoch": 15.951876019575856,
+      "grad_norm": 0.002773257438093424,
+      "learning_rate": 0.00011969995623808221,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 211215472,
+      "step": 97785
+    },
+    {
+      "epoch": 15.952691680261012,
+      "grad_norm": 0.016532791778445244,
+      "learning_rate": 0.00011965374867813972,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 211227216,
+      "step": 97790
+    },
+    {
+      "epoch": 15.953507340946166,
+      "grad_norm": 0.0011013613548129797,
+      "learning_rate": 0.00011960754882639619,
+      "loss": 0.0986,
+      "num_input_tokens_seen": 211238768,
+      "step": 97795
+    },
+    {
+      "epoch": 15.954323001631321,
+      "grad_norm": 0.0032066667918115854,
+      "learning_rate": 0.00011956135668378853,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 211249232,
+      "step": 97800
+    },
+    {
+      "epoch": 15.955138662316477,
+      "grad_norm": 0.0005308827967382967,
+      "learning_rate": 0.00011951517225125231,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 211259792,
+      "step": 97805
+    },
+    {
+      "epoch": 15.955954323001631,
+      "grad_norm": 0.0034774949308484793,
+      "learning_rate": 0.00011946899552972395,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 211270448,
+      "step": 97810
+    },
+    {
+      "epoch": 15.956769983686787,
+      "grad_norm": 0.0022737339604645967,
+      "learning_rate": 0.00011942282652013914,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 211280624,
+      "step": 97815
+    },
+    {
+      "epoch": 15.95758564437194,
+      "grad_norm": 0.0004652600619010627,
+      "learning_rate": 0.00011937666522343354,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 211291760,
+      "step": 97820
+    },
+    {
+      "epoch": 15.958401305057096,
+      "grad_norm": 0.001015088171698153,
+      "learning_rate": 0.0001193305116405427,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 211301392,
+      "step": 97825
+    },
+    {
+      "epoch": 15.959216965742252,
+      "grad_norm": 0.002087209140881896,
+      "learning_rate": 0.00011928436577240193,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 211312560,
+      "step": 97830
+    },
+    {
+      "epoch": 15.960032626427406,
+      "grad_norm": 0.0011707304511219263,
+      "learning_rate": 0.00011923822761994646,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 211324784,
+      "step": 97835
+    },
+    {
+      "epoch": 15.960848287112562,
+      "grad_norm": 0.4978778660297394,
+      "learning_rate": 0.00011919209718411134,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 211335216,
+      "step": 97840
+    },
+    {
+      "epoch": 15.961663947797716,
+      "grad_norm": 0.0035809699911624193,
+      "learning_rate": 0.00011914597446583147,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 211346864,
+      "step": 97845
+    },
+    {
+      "epoch": 15.962479608482871,
+      "grad_norm": 0.0041794972494244576,
+      "learning_rate": 0.00011909985946604157,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 211358192,
+      "step": 97850
+    },
+    {
+      "epoch": 15.963295269168025,
+      "grad_norm": 0.0012313545448705554,
+      "learning_rate": 0.00011905375218567621,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 211369968,
+      "step": 97855
+    },
+    {
+      "epoch": 15.964110929853181,
+      "grad_norm": 0.014864086173474789,
+      "learning_rate": 0.00011900765262566988,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 211380304,
+      "step": 97860
+    },
+    {
+      "epoch": 15.964926590538337,
+      "grad_norm": 0.0016739999409765005,
+      "learning_rate": 0.00011896156078695675,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 211391888,
+      "step": 97865
+    },
+    {
+      "epoch": 15.96574225122349,
+      "grad_norm": 0.004763337317854166,
+      "learning_rate": 0.00011891547667047082,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 211402800,
+      "step": 97870
+    },
+    {
+      "epoch": 15.966557911908646,
+      "grad_norm": 0.015505307354032993,
+      "learning_rate": 0.00011886940027714649,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 211413776,
+      "step": 97875
+    },
+    {
+      "epoch": 15.9673735725938,
+      "grad_norm": 0.9275649785995483,
+      "learning_rate": 0.00011882333160791697,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 211424816,
+      "step": 97880
+    },
+    {
+      "epoch": 15.968189233278956,
+      "grad_norm": 0.006364729721099138,
+      "learning_rate": 0.00011877727066371646,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 211435568,
+      "step": 97885
+    },
+    {
+      "epoch": 15.969004893964112,
+      "grad_norm": 0.014689773321151733,
+      "learning_rate": 0.00011873121744547794,
+      "loss": 0.0689,
+      "num_input_tokens_seen": 211446704,
+      "step": 97890
+    },
+    {
+      "epoch": 15.969820554649266,
+      "grad_norm": 0.006804941687732935,
+      "learning_rate": 0.00011868517195413525,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 211456304,
+      "step": 97895
+    },
+    {
+      "epoch": 15.970636215334421,
+      "grad_norm": 0.0007602769765071571,
+      "learning_rate": 0.00011863913419062095,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 211467824,
+      "step": 97900
+    },
+    {
+      "epoch": 15.971451876019575,
+      "grad_norm": 0.0020225904881954193,
+      "learning_rate": 0.00011859310415586871,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 211478672,
+      "step": 97905
+    },
+    {
+      "epoch": 15.97226753670473,
+      "grad_norm": 0.0005114731029607356,
+      "learning_rate": 0.00011854708185081076,
+      "loss": 0.001,
+      "num_input_tokens_seen": 211489520,
+      "step": 97910
+    },
+    {
+      "epoch": 15.973083197389887,
+      "grad_norm": 0.0024293966125696898,
+      "learning_rate": 0.00011850106727638026,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 211501008,
+      "step": 97915
+    },
+    {
+      "epoch": 15.97389885807504,
+      "grad_norm": 0.1450122594833374,
+      "learning_rate": 0.00011845506043350956,
+      "loss": 0.008,
+      "num_input_tokens_seen": 211510928,
+      "step": 97920
+    },
+    {
+      "epoch": 15.974714518760196,
+      "grad_norm": 0.014834724366664886,
+      "learning_rate": 0.00011840906132313117,
+      "loss": 0.1368,
+      "num_input_tokens_seen": 211521264,
+      "step": 97925
+    },
+    {
+      "epoch": 15.97553017944535,
+      "grad_norm": 0.6983307003974915,
+      "learning_rate": 0.00011836306994617718,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 211532272,
+      "step": 97930
+    },
+    {
+      "epoch": 15.976345840130506,
+      "grad_norm": 0.009043251164257526,
+      "learning_rate": 0.00011831708630357968,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 211542992,
+      "step": 97935
+    },
+    {
+      "epoch": 15.977161500815662,
+      "grad_norm": 0.008625411428511143,
+      "learning_rate": 0.0001182711103962707,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 211551312,
+      "step": 97940
+    },
+    {
+      "epoch": 15.977977161500815,
+      "grad_norm": 0.004919607657939196,
+      "learning_rate": 0.00011822514222518188,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 211562672,
+      "step": 97945
+    },
+    {
+      "epoch": 15.978792822185971,
+      "grad_norm": 0.0008576642139814794,
+      "learning_rate": 0.00011817918179124487,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 211574384,
+      "step": 97950
+    },
+    {
+      "epoch": 15.979608482871125,
+      "grad_norm": 0.0007568973815068603,
+      "learning_rate": 0.00011813322909539115,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 211585168,
+      "step": 97955
+    },
+    {
+      "epoch": 15.98042414355628,
+      "grad_norm": 0.0010796175338327885,
+      "learning_rate": 0.0001180872841385519,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 211594384,
+      "step": 97960
+    },
+    {
+      "epoch": 15.981239804241435,
+      "grad_norm": 0.09835665673017502,
+      "learning_rate": 0.00011804134692165841,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 211604496,
+      "step": 97965
+    },
+    {
+      "epoch": 15.98205546492659,
+      "grad_norm": 0.03971698135137558,
+      "learning_rate": 0.00011799541744564151,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 211615056,
+      "step": 97970
+    },
+    {
+      "epoch": 15.982871125611746,
+      "grad_norm": 0.020225724205374718,
+      "learning_rate": 0.00011794949571143215,
+      "loss": 0.001,
+      "num_input_tokens_seen": 211626832,
+      "step": 97975
+    },
+    {
+      "epoch": 15.9836867862969,
+      "grad_norm": 0.0011494300561025739,
+      "learning_rate": 0.00011790358171996086,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 211636752,
+      "step": 97980
+    },
+    {
+      "epoch": 15.984502446982056,
+      "grad_norm": 0.00521137984469533,
+      "learning_rate": 0.00011785767547215825,
+      "loss": 0.006,
+      "num_input_tokens_seen": 211648272,
+      "step": 97985
+    },
+    {
+      "epoch": 15.98531810766721,
+      "grad_norm": 0.013017826713621616,
+      "learning_rate": 0.00011781177696895462,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 211659344,
+      "step": 97990
+    },
+    {
+      "epoch": 15.986133768352365,
+      "grad_norm": 0.024100029841065407,
+      "learning_rate": 0.00011776588621128015,
+      "loss": 0.1615,
+      "num_input_tokens_seen": 211670544,
+      "step": 97995
+    },
+    {
+      "epoch": 15.986949429037521,
+      "grad_norm": 0.0009241014486178756,
+      "learning_rate": 0.00011772000320006493,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 211681776,
+      "step": 98000
+    },
+    {
+      "epoch": 15.987765089722675,
+      "grad_norm": 0.2770422101020813,
+      "learning_rate": 0.00011767412793623878,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 211691952,
+      "step": 98005
+    },
+    {
+      "epoch": 15.98858075040783,
+      "grad_norm": 0.004331182222813368,
+      "learning_rate": 0.00011762826042073144,
+      "loss": 0.001,
+      "num_input_tokens_seen": 211702288,
+      "step": 98010
+    },
+    {
+      "epoch": 15.989396411092985,
+      "grad_norm": 0.02343442477285862,
+      "learning_rate": 0.00011758240065447234,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 211712496,
+      "step": 98015
+    },
+    {
+      "epoch": 15.99021207177814,
+      "grad_norm": 0.013188188895583153,
+      "learning_rate": 0.00011753654863839114,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 211724688,
+      "step": 98020
+    },
+    {
+      "epoch": 15.991027732463294,
+      "grad_norm": 0.001225476386025548,
+      "learning_rate": 0.00011749070437341702,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 211736656,
+      "step": 98025
+    },
+    {
+      "epoch": 15.99184339314845,
+      "grad_norm": 0.0011202679015696049,
+      "learning_rate": 0.00011744486786047898,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 211746864,
+      "step": 98030
+    },
+    {
+      "epoch": 15.992659053833606,
+      "grad_norm": 0.002501759212464094,
+      "learning_rate": 0.00011739903910050603,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 211758896,
+      "step": 98035
+    },
+    {
+      "epoch": 15.99347471451876,
+      "grad_norm": 0.4698786735534668,
+      "learning_rate": 0.00011735321809442689,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 211769968,
+      "step": 98040
+    },
+    {
+      "epoch": 15.994290375203915,
+      "grad_norm": 0.466574490070343,
+      "learning_rate": 0.00011730740484317021,
+      "loss": 0.0282,
+      "num_input_tokens_seen": 211782512,
+      "step": 98045
+    },
+    {
+      "epoch": 15.99510603588907,
+      "grad_norm": 0.08782917261123657,
+      "learning_rate": 0.00011726159934766445,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 211792528,
+      "step": 98050
+    },
+    {
+      "epoch": 15.995921696574225,
+      "grad_norm": 0.0014665591297671199,
+      "learning_rate": 0.00011721580160883794,
+      "loss": 0.0961,
+      "num_input_tokens_seen": 211803696,
+      "step": 98055
+    },
+    {
+      "epoch": 15.99673735725938,
+      "grad_norm": 0.005211786832660437,
+      "learning_rate": 0.00011717001162761881,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 211814128,
+      "step": 98060
+    },
+    {
+      "epoch": 15.997553017944535,
+      "grad_norm": 0.0027232381980866194,
+      "learning_rate": 0.000117124229404935,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 211825872,
+      "step": 98065
+    },
+    {
+      "epoch": 15.99836867862969,
+      "grad_norm": 0.001201624283567071,
+      "learning_rate": 0.00011707845494171443,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 211837392,
+      "step": 98070
+    },
+    {
+      "epoch": 15.999184339314844,
+      "grad_norm": 0.0005471862968988717,
+      "learning_rate": 0.00011703268823888475,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 211847184,
+      "step": 98075
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.0004963973187841475,
+      "learning_rate": 0.00011698692929737348,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 211855376,
+      "step": 98080
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.262260377407074,
+      "eval_runtime": 104.0194,
+      "eval_samples_per_second": 26.197,
+      "eval_steps_per_second": 6.556,
+      "num_input_tokens_seen": 211855376,
+      "step": 98080
+    },
+    {
+      "epoch": 16.000815660685156,
+      "grad_norm": 0.015522826462984085,
+      "learning_rate": 0.00011694117811810795,
+      "loss": 0.0904,
+      "num_input_tokens_seen": 211865616,
+      "step": 98085
+    },
+    {
+      "epoch": 16.00163132137031,
+      "grad_norm": 0.005051231477409601,
+      "learning_rate": 0.00011689543470201536,
+      "loss": 0.001,
+      "num_input_tokens_seen": 211877392,
+      "step": 98090
+    },
+    {
+      "epoch": 16.002446982055464,
+      "grad_norm": 0.028706401586532593,
+      "learning_rate": 0.00011684969905002286,
+      "loss": 0.002,
+      "num_input_tokens_seen": 211887856,
+      "step": 98095
+    },
+    {
+      "epoch": 16.00326264274062,
+      "grad_norm": 0.015213343314826488,
+      "learning_rate": 0.00011680397116305719,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 211898256,
+      "step": 98100
+    },
+    {
+      "epoch": 16.004078303425775,
+      "grad_norm": 1.6256518363952637,
+      "learning_rate": 0.00011675825104204523,
+      "loss": 0.044,
+      "num_input_tokens_seen": 211909136,
+      "step": 98105
+    },
+    {
+      "epoch": 16.00489396411093,
+      "grad_norm": 0.0015888881171122193,
+      "learning_rate": 0.00011671253868791343,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 211920208,
+      "step": 98110
+    },
+    {
+      "epoch": 16.005709624796086,
+      "grad_norm": 0.0021806336008012295,
+      "learning_rate": 0.00011666683410158829,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 211930512,
+      "step": 98115
+    },
+    {
+      "epoch": 16.00652528548124,
+      "grad_norm": 0.24877884984016418,
+      "learning_rate": 0.0001166211372839961,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 211941968,
+      "step": 98120
+    },
+    {
+      "epoch": 16.007340946166394,
+      "grad_norm": 0.05665234103798866,
+      "learning_rate": 0.00011657544823606286,
+      "loss": 0.012,
+      "num_input_tokens_seen": 211953168,
+      "step": 98125
+    },
+    {
+      "epoch": 16.00815660685155,
+      "grad_norm": 0.007977227680385113,
+      "learning_rate": 0.00011652976695871459,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 211964432,
+      "step": 98130
+    },
+    {
+      "epoch": 16.008972267536706,
+      "grad_norm": 0.0041960496455430984,
+      "learning_rate": 0.00011648409345287691,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 211975504,
+      "step": 98135
+    },
+    {
+      "epoch": 16.00978792822186,
+      "grad_norm": 0.0007657354581169784,
+      "learning_rate": 0.00011643842771947588,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 211987184,
+      "step": 98140
+    },
+    {
+      "epoch": 16.010603588907014,
+      "grad_norm": 0.04990185424685478,
+      "learning_rate": 0.00011639276975943641,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 211998224,
+      "step": 98145
+    },
+    {
+      "epoch": 16.01141924959217,
+      "grad_norm": 0.08976588398218155,
+      "learning_rate": 0.00011634711957368438,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 212008944,
+      "step": 98150
+    },
+    {
+      "epoch": 16.012234910277325,
+      "grad_norm": 0.012806740589439869,
+      "learning_rate": 0.00011630147716314443,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 212020112,
+      "step": 98155
+    },
+    {
+      "epoch": 16.01305057096248,
+      "grad_norm": 0.0011214031837880611,
+      "learning_rate": 0.00011625584252874189,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 212030928,
+      "step": 98160
+    },
+    {
+      "epoch": 16.013866231647636,
+      "grad_norm": 0.7840534448623657,
+      "learning_rate": 0.00011621021567140156,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 212043152,
+      "step": 98165
+    },
+    {
+      "epoch": 16.01468189233279,
+      "grad_norm": 0.00202510179951787,
+      "learning_rate": 0.00011616459659204803,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 212053936,
+      "step": 98170
+    },
+    {
+      "epoch": 16.015497553017944,
+      "grad_norm": 0.00578334229066968,
+      "learning_rate": 0.00011611898529160591,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 212064016,
+      "step": 98175
+    },
+    {
+      "epoch": 16.0163132137031,
+      "grad_norm": 0.003464588662609458,
+      "learning_rate": 0.00011607338177099952,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 212075216,
+      "step": 98180
+    },
+    {
+      "epoch": 16.017128874388256,
+      "grad_norm": 0.007143693510442972,
+      "learning_rate": 0.00011602778603115311,
+      "loss": 0.01,
+      "num_input_tokens_seen": 212086512,
+      "step": 98185
+    },
+    {
+      "epoch": 16.017944535073408,
+      "grad_norm": 0.00191160524263978,
+      "learning_rate": 0.00011598219807299076,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 212097232,
+      "step": 98190
+    },
+    {
+      "epoch": 16.018760195758563,
+      "grad_norm": 0.010454155504703522,
+      "learning_rate": 0.00011593661789743626,
+      "loss": 0.0412,
+      "num_input_tokens_seen": 212107696,
+      "step": 98195
+    },
+    {
+      "epoch": 16.01957585644372,
+      "grad_norm": 0.005367065314203501,
+      "learning_rate": 0.00011589104550541346,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 212116944,
+      "step": 98200
+    },
+    {
+      "epoch": 16.020391517128875,
+      "grad_norm": 0.003508794354274869,
+      "learning_rate": 0.00011584548089784585,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 212126608,
+      "step": 98205
+    },
+    {
+      "epoch": 16.02120717781403,
+      "grad_norm": 0.003974012564867735,
+      "learning_rate": 0.00011579992407565698,
+      "loss": 0.001,
+      "num_input_tokens_seen": 212137040,
+      "step": 98210
+    },
+    {
+      "epoch": 16.022022838499183,
+      "grad_norm": 0.004293251316994429,
+      "learning_rate": 0.00011575437503976998,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 212147792,
+      "step": 98215
+    },
+    {
+      "epoch": 16.02283849918434,
+      "grad_norm": 0.03774509206414223,
+      "learning_rate": 0.00011570883379110803,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 212158032,
+      "step": 98220
+    },
+    {
+      "epoch": 16.023654159869494,
+      "grad_norm": 0.04184706136584282,
+      "learning_rate": 0.00011566330033059407,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 212167536,
+      "step": 98225
+    },
+    {
+      "epoch": 16.02446982055465,
+      "grad_norm": 0.005745955277234316,
+      "learning_rate": 0.00011561777465915091,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 212177712,
+      "step": 98230
+    },
+    {
+      "epoch": 16.025285481239806,
+      "grad_norm": 0.0024114667903631926,
+      "learning_rate": 0.00011557225677770116,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 212188624,
+      "step": 98235
+    },
+    {
+      "epoch": 16.026101141924958,
+      "grad_norm": 0.0005438401130959392,
+      "learning_rate": 0.00011552674668716723,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 212199504,
+      "step": 98240
+    },
+    {
+      "epoch": 16.026916802610113,
+      "grad_norm": 0.007553048897534609,
+      "learning_rate": 0.00011548124438847174,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 212209552,
+      "step": 98245
+    },
+    {
+      "epoch": 16.02773246329527,
+      "grad_norm": 0.010238065384328365,
+      "learning_rate": 0.0001154357498825363,
+      "loss": 0.1005,
+      "num_input_tokens_seen": 212219376,
+      "step": 98250
+    },
+    {
+      "epoch": 16.028548123980425,
+      "grad_norm": 0.30445703864097595,
+      "learning_rate": 0.00011539026317028361,
+      "loss": 0.017,
+      "num_input_tokens_seen": 212229968,
+      "step": 98255
+    },
+    {
+      "epoch": 16.02936378466558,
+      "grad_norm": 0.0014553911751136184,
+      "learning_rate": 0.00011534478425263484,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 212239792,
+      "step": 98260
+    },
+    {
+      "epoch": 16.030179445350733,
+      "grad_norm": 0.009973454289138317,
+      "learning_rate": 0.00011529931313051222,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 212251632,
+      "step": 98265
+    },
+    {
+      "epoch": 16.03099510603589,
+      "grad_norm": 0.04578957334160805,
+      "learning_rate": 0.00011525384980483683,
+      "loss": 0.1222,
+      "num_input_tokens_seen": 212262864,
+      "step": 98270
+    },
+    {
+      "epoch": 16.031810766721044,
+      "grad_norm": 0.002932838397100568,
+      "learning_rate": 0.00011520839427653052,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 212273328,
+      "step": 98275
+    },
+    {
+      "epoch": 16.0326264274062,
+      "grad_norm": 0.001764679211191833,
+      "learning_rate": 0.00011516294654651393,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 212284880,
+      "step": 98280
+    },
+    {
+      "epoch": 16.033442088091356,
+      "grad_norm": 0.003940457943826914,
+      "learning_rate": 0.00011511750661570875,
+      "loss": 0.008,
+      "num_input_tokens_seen": 212294800,
+      "step": 98285
+    },
+    {
+      "epoch": 16.034257748776508,
+      "grad_norm": 0.00984375923871994,
+      "learning_rate": 0.00011507207448503526,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 212305424,
+      "step": 98290
+    },
+    {
+      "epoch": 16.035073409461663,
+      "grad_norm": 0.003804681124165654,
+      "learning_rate": 0.00011502665015541481,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 212316336,
+      "step": 98295
+    },
+    {
+      "epoch": 16.03588907014682,
+      "grad_norm": 0.048975877463817596,
+      "learning_rate": 0.0001149812336277673,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 212327216,
+      "step": 98300
+    },
+    {
+      "epoch": 16.036704730831975,
+      "grad_norm": 0.0003695717023219913,
+      "learning_rate": 0.00011493582490301374,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 212338576,
+      "step": 98305
+    },
+    {
+      "epoch": 16.03752039151713,
+      "grad_norm": 0.03170023486018181,
+      "learning_rate": 0.00011489042398207416,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 212348496,
+      "step": 98310
+    },
+    {
+      "epoch": 16.038336052202283,
+      "grad_norm": 0.005363030359148979,
+      "learning_rate": 0.00011484503086586867,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 212360240,
+      "step": 98315
+    },
+    {
+      "epoch": 16.03915171288744,
+      "grad_norm": 0.00753002380952239,
+      "learning_rate": 0.00011479964555531725,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 212370256,
+      "step": 98320
+    },
+    {
+      "epoch": 16.039967373572594,
+      "grad_norm": 0.017763635143637657,
+      "learning_rate": 0.00011475426805133965,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 212382288,
+      "step": 98325
+    },
+    {
+      "epoch": 16.04078303425775,
+      "grad_norm": 0.0341855026781559,
+      "learning_rate": 0.00011470889835485554,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 212393008,
+      "step": 98330
+    },
+    {
+      "epoch": 16.041598694942905,
+      "grad_norm": 0.0011914388742297888,
+      "learning_rate": 0.0001146635364667844,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 212404272,
+      "step": 98335
+    },
+    {
+      "epoch": 16.042414355628058,
+      "grad_norm": 0.005368915386497974,
+      "learning_rate": 0.0001146181823880455,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 212415888,
+      "step": 98340
+    },
+    {
+      "epoch": 16.043230016313213,
+      "grad_norm": 0.0011746870586648583,
+      "learning_rate": 0.00011457283611955804,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 212426320,
+      "step": 98345
+    },
+    {
+      "epoch": 16.04404567699837,
+      "grad_norm": 0.0012608602410182357,
+      "learning_rate": 0.00011452749766224102,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 212436880,
+      "step": 98350
+    },
+    {
+      "epoch": 16.044861337683525,
+      "grad_norm": 0.20264336466789246,
+      "learning_rate": 0.00011448216701701309,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 212446832,
+      "step": 98355
+    },
+    {
+      "epoch": 16.045676998368677,
+      "grad_norm": 0.005520314909517765,
+      "learning_rate": 0.00011443684418479344,
+      "loss": 0.007,
+      "num_input_tokens_seen": 212457424,
+      "step": 98360
+    },
+    {
+      "epoch": 16.046492659053833,
+      "grad_norm": 0.0019661204423755407,
+      "learning_rate": 0.00011439152916649992,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 212468848,
+      "step": 98365
+    },
+    {
+      "epoch": 16.04730831973899,
+      "grad_norm": 0.004119037184864283,
+      "learning_rate": 0.00011434622196305156,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 212480048,
+      "step": 98370
+    },
+    {
+      "epoch": 16.048123980424144,
+      "grad_norm": 0.01271512359380722,
+      "learning_rate": 0.00011430092257536596,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 212490928,
+      "step": 98375
+    },
+    {
+      "epoch": 16.0489396411093,
+      "grad_norm": 0.06934128701686859,
+      "learning_rate": 0.00011425563100436175,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 212500880,
+      "step": 98380
+    },
+    {
+      "epoch": 16.049755301794452,
+      "grad_norm": 0.06471730768680573,
+      "learning_rate": 0.00011421034725095625,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 212511824,
+      "step": 98385
+    },
+    {
+      "epoch": 16.050570962479608,
+      "grad_norm": 0.0072989496402442455,
+      "learning_rate": 0.00011416507131606773,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 212522032,
+      "step": 98390
+    },
+    {
+      "epoch": 16.051386623164763,
+      "grad_norm": 0.057368844747543335,
+      "learning_rate": 0.00011411980320061322,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 212532016,
+      "step": 98395
+    },
+    {
+      "epoch": 16.05220228384992,
+      "grad_norm": 0.0406746082007885,
+      "learning_rate": 0.00011407454290551073,
+      "loss": 0.041,
+      "num_input_tokens_seen": 212542672,
+      "step": 98400
+    },
+    {
+      "epoch": 16.053017944535075,
+      "grad_norm": 0.0061463662423193455,
+      "learning_rate": 0.00011402929043167692,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 212553104,
+      "step": 98405
+    },
+    {
+      "epoch": 16.053833605220227,
+      "grad_norm": 0.0020612115040421486,
+      "learning_rate": 0.00011398404578002946,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 212564752,
+      "step": 98410
+    },
+    {
+      "epoch": 16.054649265905383,
+      "grad_norm": 0.005618616472929716,
+      "learning_rate": 0.00011393880895148473,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 212575760,
+      "step": 98415
+    },
+    {
+      "epoch": 16.05546492659054,
+      "grad_norm": 0.0006880142027512193,
+      "learning_rate": 0.00011389357994696003,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 212587376,
+      "step": 98420
+    },
+    {
+      "epoch": 16.056280587275694,
+      "grad_norm": 0.009598582983016968,
+      "learning_rate": 0.00011384835876737154,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 212598896,
+      "step": 98425
+    },
+    {
+      "epoch": 16.05709624796085,
+      "grad_norm": 0.008436683565378189,
+      "learning_rate": 0.00011380314541363612,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 212610448,
+      "step": 98430
+    },
+    {
+      "epoch": 16.057911908646002,
+      "grad_norm": 0.054017916321754456,
+      "learning_rate": 0.00011375793988666966,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 212622032,
+      "step": 98435
+    },
+    {
+      "epoch": 16.058727569331158,
+      "grad_norm": 0.004722116515040398,
+      "learning_rate": 0.0001137127421873888,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 212633904,
+      "step": 98440
+    },
+    {
+      "epoch": 16.059543230016313,
+      "grad_norm": 0.05647740885615349,
+      "learning_rate": 0.000113667552316709,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 212645744,
+      "step": 98445
+    },
+    {
+      "epoch": 16.06035889070147,
+      "grad_norm": 0.008270112797617912,
+      "learning_rate": 0.00011362237027554645,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 212655600,
+      "step": 98450
+    },
+    {
+      "epoch": 16.061174551386625,
+      "grad_norm": 0.005991316866129637,
+      "learning_rate": 0.00011357719606481675,
+      "loss": 0.005,
+      "num_input_tokens_seen": 212667408,
+      "step": 98455
+    },
+    {
+      "epoch": 16.061990212071777,
+      "grad_norm": 0.005687070544809103,
+      "learning_rate": 0.00011353202968543535,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 212676304,
+      "step": 98460
+    },
+    {
+      "epoch": 16.062805872756933,
+      "grad_norm": 0.0009080614545382559,
+      "learning_rate": 0.00011348687113831768,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 212686864,
+      "step": 98465
+    },
+    {
+      "epoch": 16.063621533442088,
+      "grad_norm": 0.007313088979572058,
+      "learning_rate": 0.00011344172042437889,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 212697328,
+      "step": 98470
+    },
+    {
+      "epoch": 16.064437194127244,
+      "grad_norm": 0.7464372515678406,
+      "learning_rate": 0.00011339657754453398,
+      "loss": 0.0857,
+      "num_input_tokens_seen": 212708432,
+      "step": 98475
+    },
+    {
+      "epoch": 16.0652528548124,
+      "grad_norm": 0.003813547547906637,
+      "learning_rate": 0.00011335144249969793,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 212719216,
+      "step": 98480
+    },
+    {
+      "epoch": 16.06606851549755,
+      "grad_norm": 0.0055252122692763805,
+      "learning_rate": 0.00011330631529078533,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 212730320,
+      "step": 98485
+    },
+    {
+      "epoch": 16.066884176182707,
+      "grad_norm": 0.038586895912885666,
+      "learning_rate": 0.00011326119591871087,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 212741520,
+      "step": 98490
+    },
+    {
+      "epoch": 16.067699836867863,
+      "grad_norm": 0.01220710203051567,
+      "learning_rate": 0.00011321608438438885,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 212752112,
+      "step": 98495
+    },
+    {
+      "epoch": 16.06851549755302,
+      "grad_norm": 0.005802713334560394,
+      "learning_rate": 0.00011317098068873339,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 212763280,
+      "step": 98500
+    },
+    {
+      "epoch": 16.069331158238175,
+      "grad_norm": 0.019641386345028877,
+      "learning_rate": 0.000113125884832659,
+      "loss": 0.015,
+      "num_input_tokens_seen": 212775120,
+      "step": 98505
+    },
+    {
+      "epoch": 16.070146818923327,
+      "grad_norm": 0.0012488446664065123,
+      "learning_rate": 0.00011308079681707911,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 212785904,
+      "step": 98510
+    },
+    {
+      "epoch": 16.070962479608482,
+      "grad_norm": 0.3433908224105835,
+      "learning_rate": 0.00011303571664290801,
+      "loss": 0.017,
+      "num_input_tokens_seen": 212797296,
+      "step": 98515
+    },
+    {
+      "epoch": 16.071778140293638,
+      "grad_norm": 0.018292676657438278,
+      "learning_rate": 0.0001129906443110587,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 212807312,
+      "step": 98520
+    },
+    {
+      "epoch": 16.072593800978794,
+      "grad_norm": 0.00970328226685524,
+      "learning_rate": 0.0001129455798224452,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 212817712,
+      "step": 98525
+    },
+    {
+      "epoch": 16.07340946166395,
+      "grad_norm": 0.07746391743421555,
+      "learning_rate": 0.00011290052317798027,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 212829104,
+      "step": 98530
+    },
+    {
+      "epoch": 16.0742251223491,
+      "grad_norm": 0.020664365962147713,
+      "learning_rate": 0.00011285547437857763,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 212839856,
+      "step": 98535
+    },
+    {
+      "epoch": 16.075040783034257,
+      "grad_norm": 0.000956006464548409,
+      "learning_rate": 0.00011281043342514957,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 212851280,
+      "step": 98540
+    },
+    {
+      "epoch": 16.075856443719413,
+      "grad_norm": 0.005796929355710745,
+      "learning_rate": 0.0001127654003186096,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 212861808,
+      "step": 98545
+    },
+    {
+      "epoch": 16.07667210440457,
+      "grad_norm": 0.03431297466158867,
+      "learning_rate": 0.00011272037505986976,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 212872496,
+      "step": 98550
+    },
+    {
+      "epoch": 16.07748776508972,
+      "grad_norm": 0.011982480064034462,
+      "learning_rate": 0.00011267535764984293,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 212882160,
+      "step": 98555
+    },
+    {
+      "epoch": 16.078303425774877,
+      "grad_norm": 0.008244593627750874,
+      "learning_rate": 0.00011263034808944134,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 212892720,
+      "step": 98560
+    },
+    {
+      "epoch": 16.079119086460032,
+      "grad_norm": 0.013054000213742256,
+      "learning_rate": 0.00011258534637957718,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 212904208,
+      "step": 98565
+    },
+    {
+      "epoch": 16.079934747145188,
+      "grad_norm": 0.0004884781083092093,
+      "learning_rate": 0.0001125403525211624,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 212913232,
+      "step": 98570
+    },
+    {
+      "epoch": 16.080750407830344,
+      "grad_norm": 0.0003876937844324857,
+      "learning_rate": 0.00011249536651510894,
+      "loss": 0.0263,
+      "num_input_tokens_seen": 212923280,
+      "step": 98575
+    },
+    {
+      "epoch": 16.081566068515496,
+      "grad_norm": 0.052026715129613876,
+      "learning_rate": 0.00011245038836232846,
+      "loss": 0.005,
+      "num_input_tokens_seen": 212933392,
+      "step": 98580
+    },
+    {
+      "epoch": 16.08238172920065,
+      "grad_norm": 0.011535944417119026,
+      "learning_rate": 0.0001124054180637325,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 212944080,
+      "step": 98585
+    },
+    {
+      "epoch": 16.083197389885807,
+      "grad_norm": 0.006972441915422678,
+      "learning_rate": 0.00011236045562023245,
+      "loss": 0.005,
+      "num_input_tokens_seen": 212954128,
+      "step": 98590
+    },
+    {
+      "epoch": 16.084013050570963,
+      "grad_norm": 0.016211438924074173,
+      "learning_rate": 0.00011231550103273952,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 212964784,
+      "step": 98595
+    },
+    {
+      "epoch": 16.08482871125612,
+      "grad_norm": 0.004645606502890587,
+      "learning_rate": 0.00011227055430216476,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 212976048,
+      "step": 98600
+    },
+    {
+      "epoch": 16.08564437194127,
+      "grad_norm": 0.005268410313874483,
+      "learning_rate": 0.00011222561542941906,
+      "loss": 0.002,
+      "num_input_tokens_seen": 212985712,
+      "step": 98605
+    },
+    {
+      "epoch": 16.086460032626427,
+      "grad_norm": 0.009896847419440746,
+      "learning_rate": 0.00011218068441541323,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 212996784,
+      "step": 98610
+    },
+    {
+      "epoch": 16.087275693311582,
+      "grad_norm": 0.003218175610527396,
+      "learning_rate": 0.0001121357612610578,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 213007440,
+      "step": 98615
+    },
+    {
+      "epoch": 16.088091353996738,
+      "grad_norm": 0.011862734332680702,
+      "learning_rate": 0.0001120908459672632,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 213018704,
+      "step": 98620
+    },
+    {
+      "epoch": 16.088907014681894,
+      "grad_norm": 0.10315841436386108,
+      "learning_rate": 0.00011204593853493978,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 213029584,
+      "step": 98625
+    },
+    {
+      "epoch": 16.089722675367046,
+      "grad_norm": 0.0024018334224820137,
+      "learning_rate": 0.00011200103896499748,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 213040816,
+      "step": 98630
+    },
+    {
+      "epoch": 16.0905383360522,
+      "grad_norm": 0.0007672040374018252,
+      "learning_rate": 0.00011195614725834636,
+      "loss": 0.002,
+      "num_input_tokens_seen": 213050928,
+      "step": 98635
+    },
+    {
+      "epoch": 16.091353996737357,
+      "grad_norm": 0.03508285805583,
+      "learning_rate": 0.0001119112634158962,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 213061968,
+      "step": 98640
+    },
+    {
+      "epoch": 16.092169657422513,
+      "grad_norm": 0.002200368558987975,
+      "learning_rate": 0.00011186638743855643,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 213073456,
+      "step": 98645
+    },
+    {
+      "epoch": 16.09298531810767,
+      "grad_norm": 0.012955213896930218,
+      "learning_rate": 0.00011182151932723706,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 213084112,
+      "step": 98650
+    },
+    {
+      "epoch": 16.09380097879282,
+      "grad_norm": 0.003678369102999568,
+      "learning_rate": 0.00011177665908284667,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 213095664,
+      "step": 98655
+    },
+    {
+      "epoch": 16.094616639477977,
+      "grad_norm": 0.00983490701764822,
+      "learning_rate": 0.00011173180670629496,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 213106640,
+      "step": 98660
+    },
+    {
+      "epoch": 16.095432300163132,
+      "grad_norm": 0.0047003780491650105,
+      "learning_rate": 0.00011168696219849078,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 213117840,
+      "step": 98665
+    },
+    {
+      "epoch": 16.096247960848288,
+      "grad_norm": 0.0013329943176358938,
+      "learning_rate": 0.00011164212556034287,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 213129424,
+      "step": 98670
+    },
+    {
+      "epoch": 16.097063621533444,
+      "grad_norm": 0.004717966075986624,
+      "learning_rate": 0.00011159729679275999,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 213140944,
+      "step": 98675
+    },
+    {
+      "epoch": 16.097879282218596,
+      "grad_norm": 0.15023410320281982,
+      "learning_rate": 0.00011155247589665057,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 213151248,
+      "step": 98680
+    },
+    {
+      "epoch": 16.09869494290375,
+      "grad_norm": 0.020730411633849144,
+      "learning_rate": 0.00011150766287292302,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 213162320,
+      "step": 98685
+    },
+    {
+      "epoch": 16.099510603588907,
+      "grad_norm": 0.004016099963337183,
+      "learning_rate": 0.00011146285772248555,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 213172432,
+      "step": 98690
+    },
+    {
+      "epoch": 16.100326264274063,
+      "grad_norm": 0.006559828761965036,
+      "learning_rate": 0.00011141806044624614,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 213183184,
+      "step": 98695
+    },
+    {
+      "epoch": 16.10114192495922,
+      "grad_norm": 0.0008914469508454204,
+      "learning_rate": 0.00011137327104511268,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 213193072,
+      "step": 98700
+    },
+    {
+      "epoch": 16.10195758564437,
+      "grad_norm": 0.006500248797237873,
+      "learning_rate": 0.00011132848951999286,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 213203824,
+      "step": 98705
+    },
+    {
+      "epoch": 16.102773246329527,
+      "grad_norm": 0.004205408971756697,
+      "learning_rate": 0.00011128371587179431,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 213214800,
+      "step": 98710
+    },
+    {
+      "epoch": 16.103588907014682,
+      "grad_norm": 0.0021865079179406166,
+      "learning_rate": 0.00011123895010142437,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 213225488,
+      "step": 98715
+    },
+    {
+      "epoch": 16.104404567699838,
+      "grad_norm": 0.0016050647245720029,
+      "learning_rate": 0.00011119419220979033,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 213235760,
+      "step": 98720
+    },
+    {
+      "epoch": 16.10522022838499,
+      "grad_norm": 0.01331863272935152,
+      "learning_rate": 0.00011114944219779916,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 213246704,
+      "step": 98725
+    },
+    {
+      "epoch": 16.106035889070146,
+      "grad_norm": 0.0021768363658338785,
+      "learning_rate": 0.00011110470006635781,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 213258672,
+      "step": 98730
+    },
+    {
+      "epoch": 16.1068515497553,
+      "grad_norm": 0.19919277727603912,
+      "learning_rate": 0.00011105996581637312,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 213270608,
+      "step": 98735
+    },
+    {
+      "epoch": 16.107667210440457,
+      "grad_norm": 0.007927102036774158,
+      "learning_rate": 0.00011101523944875163,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 213281360,
+      "step": 98740
+    },
+    {
+      "epoch": 16.108482871125613,
+      "grad_norm": 0.018627608194947243,
+      "learning_rate": 0.00011097052096439974,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 213292048,
+      "step": 98745
+    },
+    {
+      "epoch": 16.109298531810765,
+      "grad_norm": 0.002585037611424923,
+      "learning_rate": 0.00011092581036422378,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 213303280,
+      "step": 98750
+    },
+    {
+      "epoch": 16.11011419249592,
+      "grad_norm": 0.005573483649641275,
+      "learning_rate": 0.00011088110764912984,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 213313744,
+      "step": 98755
+    },
+    {
+      "epoch": 16.110929853181077,
+      "grad_norm": 0.7131521701812744,
+      "learning_rate": 0.00011083641282002387,
+      "loss": 0.0908,
+      "num_input_tokens_seen": 213324592,
+      "step": 98760
+    },
+    {
+      "epoch": 16.111745513866232,
+      "grad_norm": 0.005434775725007057,
+      "learning_rate": 0.00011079172587781172,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 213336400,
+      "step": 98765
+    },
+    {
+      "epoch": 16.112561174551388,
+      "grad_norm": 0.007682743947952986,
+      "learning_rate": 0.00011074704682339897,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 213346000,
+      "step": 98770
+    },
+    {
+      "epoch": 16.11337683523654,
+      "grad_norm": 0.008814748376607895,
+      "learning_rate": 0.00011070237565769097,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 213358096,
+      "step": 98775
+    },
+    {
+      "epoch": 16.114192495921696,
+      "grad_norm": 0.004235987085849047,
+      "learning_rate": 0.0001106577123815935,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 213367408,
+      "step": 98780
+    },
+    {
+      "epoch": 16.11500815660685,
+      "grad_norm": 2.6287970542907715,
+      "learning_rate": 0.0001106130569960111,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 213377840,
+      "step": 98785
+    },
+    {
+      "epoch": 16.115823817292007,
+      "grad_norm": 0.04276340827345848,
+      "learning_rate": 0.00011056840950184921,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 213388144,
+      "step": 98790
+    },
+    {
+      "epoch": 16.116639477977163,
+      "grad_norm": 0.5271095633506775,
+      "learning_rate": 0.00011052376990001256,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 213399088,
+      "step": 98795
+    },
+    {
+      "epoch": 16.117455138662315,
+      "grad_norm": 0.007122796028852463,
+      "learning_rate": 0.00011047913819140576,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 213409840,
+      "step": 98800
+    },
+    {
+      "epoch": 16.11827079934747,
+      "grad_norm": 0.13764910399913788,
+      "learning_rate": 0.00011043451437693342,
+      "loss": 0.013,
+      "num_input_tokens_seen": 213420528,
+      "step": 98805
+    },
+    {
+      "epoch": 16.119086460032626,
+      "grad_norm": 0.0022578334901481867,
+      "learning_rate": 0.00011038989845749981,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 213430800,
+      "step": 98810
+    },
+    {
+      "epoch": 16.119902120717782,
+      "grad_norm": 0.004519890993833542,
+      "learning_rate": 0.00011034529043400915,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 213441936,
+      "step": 98815
+    },
+    {
+      "epoch": 16.120717781402938,
+      "grad_norm": 0.0013229832984507084,
+      "learning_rate": 0.00011030069030736551,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 213452688,
+      "step": 98820
+    },
+    {
+      "epoch": 16.12153344208809,
+      "grad_norm": 0.004833935294300318,
+      "learning_rate": 0.0001102560980784727,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 213463312,
+      "step": 98825
+    },
+    {
+      "epoch": 16.122349102773246,
+      "grad_norm": 0.06656540185213089,
+      "learning_rate": 0.00011021151374823457,
+      "loss": 0.0899,
+      "num_input_tokens_seen": 213474192,
+      "step": 98830
+    },
+    {
+      "epoch": 16.1231647634584,
+      "grad_norm": 0.028403708711266518,
+      "learning_rate": 0.00011016693731755456,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 213485232,
+      "step": 98835
+    },
+    {
+      "epoch": 16.123980424143557,
+      "grad_norm": 0.01657683216035366,
+      "learning_rate": 0.00011012236878733606,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 213496048,
+      "step": 98840
+    },
+    {
+      "epoch": 16.124796084828713,
+      "grad_norm": 0.009340647608041763,
+      "learning_rate": 0.00011007780815848239,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 213507472,
+      "step": 98845
+    },
+    {
+      "epoch": 16.125611745513865,
+      "grad_norm": 0.0011907644802704453,
+      "learning_rate": 0.00011003325543189663,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 213517520,
+      "step": 98850
+    },
+    {
+      "epoch": 16.12642740619902,
+      "grad_norm": 0.0006321436958387494,
+      "learning_rate": 0.0001099887106084816,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 213528336,
+      "step": 98855
+    },
+    {
+      "epoch": 16.127243066884176,
+      "grad_norm": 0.0071949586272239685,
+      "learning_rate": 0.00010994417368914011,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 213539856,
+      "step": 98860
+    },
+    {
+      "epoch": 16.128058727569332,
+      "grad_norm": 0.0012756186770275235,
+      "learning_rate": 0.00010989964467477481,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 213550448,
+      "step": 98865
+    },
+    {
+      "epoch": 16.128874388254488,
+      "grad_norm": 0.002935679629445076,
+      "learning_rate": 0.00010985512356628807,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 213562192,
+      "step": 98870
+    },
+    {
+      "epoch": 16.12969004893964,
+      "grad_norm": 0.006117780692875385,
+      "learning_rate": 0.00010981061036458218,
+      "loss": 0.002,
+      "num_input_tokens_seen": 213573360,
+      "step": 98875
+    },
+    {
+      "epoch": 16.130505709624796,
+      "grad_norm": 0.029337430372834206,
+      "learning_rate": 0.00010976610507055906,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 213584112,
+      "step": 98880
+    },
+    {
+      "epoch": 16.13132137030995,
+      "grad_norm": 0.14752079546451569,
+      "learning_rate": 0.00010972160768512123,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 213595216,
+      "step": 98885
+    },
+    {
+      "epoch": 16.132137030995107,
+      "grad_norm": 0.004511414561420679,
+      "learning_rate": 0.00010967711820916982,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 213606160,
+      "step": 98890
+    },
+    {
+      "epoch": 16.13295269168026,
+      "grad_norm": 0.0020912738982588053,
+      "learning_rate": 0.00010963263664360706,
+      "loss": 0.108,
+      "num_input_tokens_seen": 213615984,
+      "step": 98895
+    },
+    {
+      "epoch": 16.133768352365415,
+      "grad_norm": 0.03671063110232353,
+      "learning_rate": 0.00010958816298933383,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 213627440,
+      "step": 98900
+    },
+    {
+      "epoch": 16.13458401305057,
+      "grad_norm": 0.0017622812883928418,
+      "learning_rate": 0.00010954369724725205,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 213638384,
+      "step": 98905
+    },
+    {
+      "epoch": 16.135399673735726,
+      "grad_norm": 0.11492667347192764,
+      "learning_rate": 0.00010949923941826229,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 213649040,
+      "step": 98910
+    },
+    {
+      "epoch": 16.136215334420882,
+      "grad_norm": 0.012901815585792065,
+      "learning_rate": 0.0001094547895032661,
+      "loss": 0.001,
+      "num_input_tokens_seen": 213658256,
+      "step": 98915
+    },
+    {
+      "epoch": 16.137030995106034,
+      "grad_norm": 0.014208734035491943,
+      "learning_rate": 0.00010941034750316375,
+      "loss": 0.003,
+      "num_input_tokens_seen": 213668560,
+      "step": 98920
+    },
+    {
+      "epoch": 16.13784665579119,
+      "grad_norm": 0.0005539971170946956,
+      "learning_rate": 0.00010936591341885648,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 213678896,
+      "step": 98925
+    },
+    {
+      "epoch": 16.138662316476346,
+      "grad_norm": 0.2483779489994049,
+      "learning_rate": 0.0001093214872512443,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 213689712,
+      "step": 98930
+    },
+    {
+      "epoch": 16.1394779771615,
+      "grad_norm": 0.023973651230335236,
+      "learning_rate": 0.00010927706900122791,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 213699920,
+      "step": 98935
+    },
+    {
+      "epoch": 16.140293637846657,
+      "grad_norm": 0.018499545753002167,
+      "learning_rate": 0.00010923265866970739,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 213710864,
+      "step": 98940
+    },
+    {
+      "epoch": 16.14110929853181,
+      "grad_norm": 0.0017729535466060042,
+      "learning_rate": 0.00010918825625758273,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 213721200,
+      "step": 98945
+    },
+    {
+      "epoch": 16.141924959216965,
+      "grad_norm": 0.001103546703234315,
+      "learning_rate": 0.00010914386176575386,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 213732752,
+      "step": 98950
+    },
+    {
+      "epoch": 16.14274061990212,
+      "grad_norm": 0.0006307591684162617,
+      "learning_rate": 0.00010909947519512048,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 213743056,
+      "step": 98955
+    },
+    {
+      "epoch": 16.143556280587276,
+      "grad_norm": 0.0002562662702985108,
+      "learning_rate": 0.00010905509654658208,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 213753584,
+      "step": 98960
+    },
+    {
+      "epoch": 16.144371941272432,
+      "grad_norm": 0.09816617518663406,
+      "learning_rate": 0.00010901072582103816,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 213762992,
+      "step": 98965
+    },
+    {
+      "epoch": 16.145187601957584,
+      "grad_norm": 0.022168634459376335,
+      "learning_rate": 0.00010896636301938784,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 213773072,
+      "step": 98970
+    },
+    {
+      "epoch": 16.14600326264274,
+      "grad_norm": 0.03289058804512024,
+      "learning_rate": 0.00010892200814253023,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 213784816,
+      "step": 98975
+    },
+    {
+      "epoch": 16.146818923327896,
+      "grad_norm": 0.0013062867801636457,
+      "learning_rate": 0.00010887766119136427,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 213795440,
+      "step": 98980
+    },
+    {
+      "epoch": 16.14763458401305,
+      "grad_norm": 0.3104763627052307,
+      "learning_rate": 0.00010883332216678853,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 213807088,
+      "step": 98985
+    },
+    {
+      "epoch": 16.148450244698207,
+      "grad_norm": 0.005590509623289108,
+      "learning_rate": 0.00010878899106970203,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 213818832,
+      "step": 98990
+    },
+    {
+      "epoch": 16.14926590538336,
+      "grad_norm": 0.5460083484649658,
+      "learning_rate": 0.00010874466790100268,
+      "loss": 0.0888,
+      "num_input_tokens_seen": 213829264,
+      "step": 98995
+    },
+    {
+      "epoch": 16.150081566068515,
+      "grad_norm": 0.027004707604646683,
+      "learning_rate": 0.00010870035266158918,
+      "loss": 0.003,
+      "num_input_tokens_seen": 213839792,
+      "step": 99000
+    },
+    {
+      "epoch": 16.15089722675367,
+      "grad_norm": 0.0023864214308559895,
+      "learning_rate": 0.00010865604535235918,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 213850736,
+      "step": 99005
+    },
+    {
+      "epoch": 16.151712887438826,
+      "grad_norm": 0.020365918055176735,
+      "learning_rate": 0.0001086117459742112,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 213862704,
+      "step": 99010
+    },
+    {
+      "epoch": 16.152528548123982,
+      "grad_norm": 0.029816294088959694,
+      "learning_rate": 0.00010856745452804234,
+      "loss": 0.047,
+      "num_input_tokens_seen": 213873296,
+      "step": 99015
+    },
+    {
+      "epoch": 16.153344208809134,
+      "grad_norm": 0.0036337687633931637,
+      "learning_rate": 0.0001085231710147509,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 213884560,
+      "step": 99020
+    },
+    {
+      "epoch": 16.15415986949429,
+      "grad_norm": 0.005663975607603788,
+      "learning_rate": 0.00010847889543523376,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 213894928,
+      "step": 99025
+    },
+    {
+      "epoch": 16.154975530179446,
+      "grad_norm": 0.001540932571515441,
+      "learning_rate": 0.00010843462779038876,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 213905904,
+      "step": 99030
+    },
+    {
+      "epoch": 16.1557911908646,
+      "grad_norm": 0.008301756344735622,
+      "learning_rate": 0.00010839036808111246,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 213915952,
+      "step": 99035
+    },
+    {
+      "epoch": 16.156606851549757,
+      "grad_norm": 0.009943228214979172,
+      "learning_rate": 0.00010834611630830244,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 213927248,
+      "step": 99040
+    },
+    {
+      "epoch": 16.15742251223491,
+      "grad_norm": 0.01648455671966076,
+      "learning_rate": 0.00010830187247285489,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 213938736,
+      "step": 99045
+    },
+    {
+      "epoch": 16.158238172920065,
+      "grad_norm": 0.0015992774860933423,
+      "learning_rate": 0.00010825763657566717,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 213949840,
+      "step": 99050
+    },
+    {
+      "epoch": 16.15905383360522,
+      "grad_norm": 0.0430905781686306,
+      "learning_rate": 0.00010821340861763506,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 213960112,
+      "step": 99055
+    },
+    {
+      "epoch": 16.159869494290376,
+      "grad_norm": 0.010663102380931377,
+      "learning_rate": 0.00010816918859965552,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 213970416,
+      "step": 99060
+    },
+    {
+      "epoch": 16.160685154975532,
+      "grad_norm": 0.06955873966217041,
+      "learning_rate": 0.00010812497652262421,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 213981264,
+      "step": 99065
+    },
+    {
+      "epoch": 16.161500815660684,
+      "grad_norm": 0.01041333470493555,
+      "learning_rate": 0.00010808077238743763,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 213991888,
+      "step": 99070
+    },
+    {
+      "epoch": 16.16231647634584,
+      "grad_norm": 0.03263779357075691,
+      "learning_rate": 0.00010803657619499107,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 214003600,
+      "step": 99075
+    },
+    {
+      "epoch": 16.163132137030995,
+      "grad_norm": 0.017389433458447456,
+      "learning_rate": 0.00010799238794618077,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 214013808,
+      "step": 99080
+    },
+    {
+      "epoch": 16.16394779771615,
+      "grad_norm": 0.00429139519110322,
+      "learning_rate": 0.00010794820764190194,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 214024624,
+      "step": 99085
+    },
+    {
+      "epoch": 16.164763458401303,
+      "grad_norm": 0.034365396946668625,
+      "learning_rate": 0.00010790403528305004,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 214035376,
+      "step": 99090
+    },
+    {
+      "epoch": 16.16557911908646,
+      "grad_norm": 0.023165516555309296,
+      "learning_rate": 0.0001078598708705203,
+      "loss": 0.0413,
+      "num_input_tokens_seen": 214045104,
+      "step": 99095
+    },
+    {
+      "epoch": 16.166394779771615,
+      "grad_norm": 0.0035238233394920826,
+      "learning_rate": 0.00010781571440520777,
+      "loss": 0.001,
+      "num_input_tokens_seen": 214055536,
+      "step": 99100
+    },
+    {
+      "epoch": 16.16721044045677,
+      "grad_norm": 0.0005931582418270409,
+      "learning_rate": 0.00010777156588800724,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 214065680,
+      "step": 99105
+    },
+    {
+      "epoch": 16.168026101141926,
+      "grad_norm": 0.07158027589321136,
+      "learning_rate": 0.00010772742531981356,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 214074800,
+      "step": 99110
+    },
+    {
+      "epoch": 16.16884176182708,
+      "grad_norm": 0.0070646717213094234,
+      "learning_rate": 0.00010768329270152122,
+      "loss": 0.001,
+      "num_input_tokens_seen": 214085648,
+      "step": 99115
+    },
+    {
+      "epoch": 16.169657422512234,
+      "grad_norm": 0.007711863610893488,
+      "learning_rate": 0.00010763916803402463,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 214095952,
+      "step": 99120
+    },
+    {
+      "epoch": 16.17047308319739,
+      "grad_norm": 0.0007553675677627325,
+      "learning_rate": 0.00010759505131821806,
+      "loss": 0.004,
+      "num_input_tokens_seen": 214107472,
+      "step": 99125
+    },
+    {
+      "epoch": 16.171288743882545,
+      "grad_norm": 0.017188599333167076,
+      "learning_rate": 0.00010755094255499542,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 214120144,
+      "step": 99130
+    },
+    {
+      "epoch": 16.1721044045677,
+      "grad_norm": 0.01340003963559866,
+      "learning_rate": 0.00010750684174525111,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 214131120,
+      "step": 99135
+    },
+    {
+      "epoch": 16.172920065252853,
+      "grad_norm": 0.009431690908968449,
+      "learning_rate": 0.00010746274888987822,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 214141616,
+      "step": 99140
+    },
+    {
+      "epoch": 16.17373572593801,
+      "grad_norm": 0.062283746898174286,
+      "learning_rate": 0.00010741866398977101,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 214152784,
+      "step": 99145
+    },
+    {
+      "epoch": 16.174551386623165,
+      "grad_norm": 0.009358714334666729,
+      "learning_rate": 0.00010737458704582232,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 214163952,
+      "step": 99150
+    },
+    {
+      "epoch": 16.17536704730832,
+      "grad_norm": 0.013387867249548435,
+      "learning_rate": 0.00010733051805892602,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 214173680,
+      "step": 99155
+    },
+    {
+      "epoch": 16.176182707993476,
+      "grad_norm": 0.00021368158922996372,
+      "learning_rate": 0.00010728645702997458,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 214184912,
+      "step": 99160
+    },
+    {
+      "epoch": 16.17699836867863,
+      "grad_norm": 0.012210970744490623,
+      "learning_rate": 0.00010724240395986156,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 214195152,
+      "step": 99165
+    },
+    {
+      "epoch": 16.177814029363784,
+      "grad_norm": 0.0026052501052618027,
+      "learning_rate": 0.00010719835884947921,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 214205104,
+      "step": 99170
+    },
+    {
+      "epoch": 16.17862969004894,
+      "grad_norm": 0.0005025434657000005,
+      "learning_rate": 0.00010715432169972067,
+      "loss": 0.0549,
+      "num_input_tokens_seen": 214215184,
+      "step": 99175
+    },
+    {
+      "epoch": 16.179445350734095,
+      "grad_norm": 0.000986822065897286,
+      "learning_rate": 0.00010711029251147791,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 214226896,
+      "step": 99180
+    },
+    {
+      "epoch": 16.18026101141925,
+      "grad_norm": 0.018340054899454117,
+      "learning_rate": 0.00010706627128564378,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 214238672,
+      "step": 99185
+    },
+    {
+      "epoch": 16.181076672104403,
+      "grad_norm": 0.009344175457954407,
+      "learning_rate": 0.00010702225802310983,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 214248432,
+      "step": 99190
+    },
+    {
+      "epoch": 16.18189233278956,
+      "grad_norm": 0.00024389364989474416,
+      "learning_rate": 0.00010697825272476847,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 214259376,
+      "step": 99195
+    },
+    {
+      "epoch": 16.182707993474715,
+      "grad_norm": 0.0008997777476906776,
+      "learning_rate": 0.00010693425539151141,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 214270256,
+      "step": 99200
+    },
+    {
+      "epoch": 16.18352365415987,
+      "grad_norm": 0.003580469638109207,
+      "learning_rate": 0.00010689026602423036,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 214280624,
+      "step": 99205
+    },
+    {
+      "epoch": 16.184339314845026,
+      "grad_norm": 0.013014066033065319,
+      "learning_rate": 0.00010684628462381673,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 214293232,
+      "step": 99210
+    },
+    {
+      "epoch": 16.18515497553018,
+      "grad_norm": 0.0009328118176199496,
+      "learning_rate": 0.00010680231119116185,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 214302192,
+      "step": 99215
+    },
+    {
+      "epoch": 16.185970636215334,
+      "grad_norm": 0.00644258176907897,
+      "learning_rate": 0.00010675834572715698,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 214313264,
+      "step": 99220
+    },
+    {
+      "epoch": 16.18678629690049,
+      "grad_norm": 0.029108474031090736,
+      "learning_rate": 0.00010671438823269314,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 214323504,
+      "step": 99225
+    },
+    {
+      "epoch": 16.187601957585645,
+      "grad_norm": 0.045794326812028885,
+      "learning_rate": 0.00010667043870866105,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 214332688,
+      "step": 99230
+    },
+    {
+      "epoch": 16.1884176182708,
+      "grad_norm": 0.0035296755377203226,
+      "learning_rate": 0.00010662649715595157,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 214343728,
+      "step": 99235
+    },
+    {
+      "epoch": 16.189233278955953,
+      "grad_norm": 0.015425696969032288,
+      "learning_rate": 0.00010658256357545509,
+      "loss": 0.036,
+      "num_input_tokens_seen": 214354160,
+      "step": 99240
+    },
+    {
+      "epoch": 16.19004893964111,
+      "grad_norm": 0.0035507178399711847,
+      "learning_rate": 0.00010653863796806213,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 214365232,
+      "step": 99245
+    },
+    {
+      "epoch": 16.190864600326265,
+      "grad_norm": 0.0019442274933680892,
+      "learning_rate": 0.00010649472033466273,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 214377616,
+      "step": 99250
+    },
+    {
+      "epoch": 16.19168026101142,
+      "grad_norm": 0.0013061447534710169,
+      "learning_rate": 0.00010645081067614703,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 214387856,
+      "step": 99255
+    },
+    {
+      "epoch": 16.192495921696572,
+      "grad_norm": 0.0017848755232989788,
+      "learning_rate": 0.00010640690899340494,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 214398352,
+      "step": 99260
+    },
+    {
+      "epoch": 16.193311582381728,
+      "grad_norm": 0.0009831542847678065,
+      "learning_rate": 0.00010636301528732612,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 214409520,
+      "step": 99265
+    },
+    {
+      "epoch": 16.194127243066884,
+      "grad_norm": 0.00133727234788239,
+      "learning_rate": 0.00010631912955880018,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 214420400,
+      "step": 99270
+    },
+    {
+      "epoch": 16.19494290375204,
+      "grad_norm": 0.0031839951407164335,
+      "learning_rate": 0.00010627525180871633,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 214431664,
+      "step": 99275
+    },
+    {
+      "epoch": 16.195758564437195,
+      "grad_norm": 0.00220080791041255,
+      "learning_rate": 0.00010623138203796429,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 214441808,
+      "step": 99280
+    },
+    {
+      "epoch": 16.196574225122347,
+      "grad_norm": 0.032900307327508926,
+      "learning_rate": 0.00010618752024743255,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 214453680,
+      "step": 99285
+    },
+    {
+      "epoch": 16.197389885807503,
+      "grad_norm": 0.0010238890536129475,
+      "learning_rate": 0.00010614366643801055,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 214464176,
+      "step": 99290
+    },
+    {
+      "epoch": 16.19820554649266,
+      "grad_norm": 0.009197982028126717,
+      "learning_rate": 0.00010609982061058654,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 214474000,
+      "step": 99295
+    },
+    {
+      "epoch": 16.199021207177815,
+      "grad_norm": 0.5025539398193359,
+      "learning_rate": 0.0001060559827660495,
+      "loss": 0.0729,
+      "num_input_tokens_seen": 214485328,
+      "step": 99300
+    },
+    {
+      "epoch": 16.19983686786297,
+      "grad_norm": 0.0005666270735673606,
+      "learning_rate": 0.0001060121529052877,
+      "loss": 0.001,
+      "num_input_tokens_seen": 214496080,
+      "step": 99305
+    },
+    {
+      "epoch": 16.200652528548122,
+      "grad_norm": 0.005442335736006498,
+      "learning_rate": 0.0001059683310291894,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 214507216,
+      "step": 99310
+    },
+    {
+      "epoch": 16.201468189233278,
+      "grad_norm": 0.0619342066347599,
+      "learning_rate": 0.00010592451713864282,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 214517648,
+      "step": 99315
+    },
+    {
+      "epoch": 16.202283849918434,
+      "grad_norm": 0.0022380822338163853,
+      "learning_rate": 0.00010588071123453574,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 214528816,
+      "step": 99320
+    },
+    {
+      "epoch": 16.20309951060359,
+      "grad_norm": 0.12963344156742096,
+      "learning_rate": 0.00010583691331775608,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 214539568,
+      "step": 99325
+    },
+    {
+      "epoch": 16.203915171288745,
+      "grad_norm": 0.008783910423517227,
+      "learning_rate": 0.0001057931233891914,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 214551920,
+      "step": 99330
+    },
+    {
+      "epoch": 16.204730831973897,
+      "grad_norm": 0.005578738637268543,
+      "learning_rate": 0.00010574934144972908,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 214562768,
+      "step": 99335
+    },
+    {
+      "epoch": 16.205546492659053,
+      "grad_norm": 0.0020929095335304737,
+      "learning_rate": 0.00010570556750025656,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 214573520,
+      "step": 99340
+    },
+    {
+      "epoch": 16.20636215334421,
+      "grad_norm": 0.012415740638971329,
+      "learning_rate": 0.00010566180154166094,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 214584336,
+      "step": 99345
+    },
+    {
+      "epoch": 16.207177814029365,
+      "grad_norm": 0.002348710782825947,
+      "learning_rate": 0.00010561804357482912,
+      "loss": 0.002,
+      "num_input_tokens_seen": 214594288,
+      "step": 99350
+    },
+    {
+      "epoch": 16.20799347471452,
+      "grad_norm": 0.011959983967244625,
+      "learning_rate": 0.00010557429360064796,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 214605712,
+      "step": 99355
+    },
+    {
+      "epoch": 16.208809135399672,
+      "grad_norm": 0.04903974384069443,
+      "learning_rate": 0.00010553055162000414,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 214616112,
+      "step": 99360
+    },
+    {
+      "epoch": 16.209624796084828,
+      "grad_norm": 0.001221096026711166,
+      "learning_rate": 0.0001054868176337841,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 214626448,
+      "step": 99365
+    },
+    {
+      "epoch": 16.210440456769984,
+      "grad_norm": 0.008052774704992771,
+      "learning_rate": 0.00010544309164287418,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 214636112,
+      "step": 99370
+    },
+    {
+      "epoch": 16.21125611745514,
+      "grad_norm": 0.051362331956624985,
+      "learning_rate": 0.00010539937364816049,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 214646864,
+      "step": 99375
+    },
+    {
+      "epoch": 16.212071778140295,
+      "grad_norm": 0.0010595549829304218,
+      "learning_rate": 0.00010535566365052913,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 214658192,
+      "step": 99380
+    },
+    {
+      "epoch": 16.212887438825447,
+      "grad_norm": 0.003621351206675172,
+      "learning_rate": 0.00010531196165086587,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 214668976,
+      "step": 99385
+    },
+    {
+      "epoch": 16.213703099510603,
+      "grad_norm": 0.01673658937215805,
+      "learning_rate": 0.00010526826765005642,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 214679728,
+      "step": 99390
+    },
+    {
+      "epoch": 16.21451876019576,
+      "grad_norm": 0.0043097264133393764,
+      "learning_rate": 0.00010522458164898624,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 214691408,
+      "step": 99395
+    },
+    {
+      "epoch": 16.215334420880914,
+      "grad_norm": 0.00409234594553709,
+      "learning_rate": 0.00010518090364854077,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 214702256,
+      "step": 99400
+    },
+    {
+      "epoch": 16.21615008156607,
+      "grad_norm": 0.00013403875345829874,
+      "learning_rate": 0.00010513723364960497,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 214713456,
+      "step": 99405
+    },
+    {
+      "epoch": 16.216965742251222,
+      "grad_norm": 0.00076089589856565,
+      "learning_rate": 0.00010509357165306422,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 214723664,
+      "step": 99410
+    },
+    {
+      "epoch": 16.217781402936378,
+      "grad_norm": 0.0016013638814911246,
+      "learning_rate": 0.00010504991765980321,
+      "loss": 0.008,
+      "num_input_tokens_seen": 214735792,
+      "step": 99415
+    },
+    {
+      "epoch": 16.218597063621534,
+      "grad_norm": 0.009542165324091911,
+      "learning_rate": 0.00010500627167070665,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 214748272,
+      "step": 99420
+    },
+    {
+      "epoch": 16.21941272430669,
+      "grad_norm": 0.002033479744568467,
+      "learning_rate": 0.00010496263368665904,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 214760112,
+      "step": 99425
+    },
+    {
+      "epoch": 16.22022838499184,
+      "grad_norm": 0.00081063894322142,
+      "learning_rate": 0.00010491900370854484,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 214769712,
+      "step": 99430
+    },
+    {
+      "epoch": 16.221044045676997,
+      "grad_norm": 0.46691176295280457,
+      "learning_rate": 0.0001048753817372482,
+      "loss": 0.103,
+      "num_input_tokens_seen": 214781168,
+      "step": 99435
+    },
+    {
+      "epoch": 16.221859706362153,
+      "grad_norm": 0.017485421150922775,
+      "learning_rate": 0.00010483176777365322,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 214793040,
+      "step": 99440
+    },
+    {
+      "epoch": 16.22267536704731,
+      "grad_norm": 0.008777834475040436,
+      "learning_rate": 0.00010478816181864376,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 214804304,
+      "step": 99445
+    },
+    {
+      "epoch": 16.223491027732464,
+      "grad_norm": 0.003942748997360468,
+      "learning_rate": 0.0001047445638731036,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 214814512,
+      "step": 99450
+    },
+    {
+      "epoch": 16.224306688417617,
+      "grad_norm": 0.027318790555000305,
+      "learning_rate": 0.00010470097393791622,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 214824912,
+      "step": 99455
+    },
+    {
+      "epoch": 16.225122349102772,
+      "grad_norm": 0.030543800443410873,
+      "learning_rate": 0.00010465739201396512,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 214835344,
+      "step": 99460
+    },
+    {
+      "epoch": 16.225938009787928,
+      "grad_norm": 0.000653235474601388,
+      "learning_rate": 0.00010461381810213344,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 214846704,
+      "step": 99465
+    },
+    {
+      "epoch": 16.226753670473084,
+      "grad_norm": 0.008265483193099499,
+      "learning_rate": 0.00010457025220330435,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 214857936,
+      "step": 99470
+    },
+    {
+      "epoch": 16.22756933115824,
+      "grad_norm": 0.0002337160549359396,
+      "learning_rate": 0.00010452669431836076,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 214868208,
+      "step": 99475
+    },
+    {
+      "epoch": 16.22838499184339,
+      "grad_norm": 0.0013019460020586848,
+      "learning_rate": 0.00010448314444818541,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 214878128,
+      "step": 99480
+    },
+    {
+      "epoch": 16.229200652528547,
+      "grad_norm": 0.002835572464391589,
+      "learning_rate": 0.00010443960259366081,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 214887600,
+      "step": 99485
+    },
+    {
+      "epoch": 16.230016313213703,
+      "grad_norm": 0.0008782123913988471,
+      "learning_rate": 0.00010439606875566954,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 214898992,
+      "step": 99490
+    },
+    {
+      "epoch": 16.23083197389886,
+      "grad_norm": 0.011612669564783573,
+      "learning_rate": 0.00010435254293509378,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 214911024,
+      "step": 99495
+    },
+    {
+      "epoch": 16.231647634584014,
+      "grad_norm": 0.012568632140755653,
+      "learning_rate": 0.00010430902513281565,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 214923376,
+      "step": 99500
+    },
+    {
+      "epoch": 16.232463295269167,
+      "grad_norm": 0.0033671578858047724,
+      "learning_rate": 0.00010426551534971706,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 214934672,
+      "step": 99505
+    },
+    {
+      "epoch": 16.233278955954322,
+      "grad_norm": 0.008715744130313396,
+      "learning_rate": 0.00010422201358667987,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 214946032,
+      "step": 99510
+    },
+    {
+      "epoch": 16.234094616639478,
+      "grad_norm": 0.0662357434630394,
+      "learning_rate": 0.00010417851984458565,
+      "loss": 0.001,
+      "num_input_tokens_seen": 214958096,
+      "step": 99515
+    },
+    {
+      "epoch": 16.234910277324634,
+      "grad_norm": 0.008330133743584156,
+      "learning_rate": 0.00010413503412431568,
+      "loss": 0.001,
+      "num_input_tokens_seen": 214970000,
+      "step": 99520
+    },
+    {
+      "epoch": 16.23572593800979,
+      "grad_norm": 0.001419969368726015,
+      "learning_rate": 0.00010409155642675178,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 214980144,
+      "step": 99525
+    },
+    {
+      "epoch": 16.23654159869494,
+      "grad_norm": 0.002042067004367709,
+      "learning_rate": 0.00010404808675277444,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 214990800,
+      "step": 99530
+    },
+    {
+      "epoch": 16.237357259380097,
+      "grad_norm": 0.008127299137413502,
+      "learning_rate": 0.00010400462510326513,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 215000816,
+      "step": 99535
+    },
+    {
+      "epoch": 16.238172920065253,
+      "grad_norm": 0.0008488766034133732,
+      "learning_rate": 0.00010396117147910422,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 215011632,
+      "step": 99540
+    },
+    {
+      "epoch": 16.23898858075041,
+      "grad_norm": 0.08584143966436386,
+      "learning_rate": 0.00010391772588117288,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 215023504,
+      "step": 99545
+    },
+    {
+      "epoch": 16.239804241435564,
+      "grad_norm": 0.004345927853137255,
+      "learning_rate": 0.000103874288310351,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 215033552,
+      "step": 99550
+    },
+    {
+      "epoch": 16.240619902120716,
+      "grad_norm": 0.40933969616889954,
+      "learning_rate": 0.0001038308587675193,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 215044496,
+      "step": 99555
+    },
+    {
+      "epoch": 16.241435562805872,
+      "grad_norm": 0.0008070006733760238,
+      "learning_rate": 0.00010378743725355788,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 215053776,
+      "step": 99560
+    },
+    {
+      "epoch": 16.242251223491028,
+      "grad_norm": 0.00782832596451044,
+      "learning_rate": 0.00010374402376934661,
+      "loss": 0.196,
+      "num_input_tokens_seen": 215064688,
+      "step": 99565
+    },
+    {
+      "epoch": 16.243066884176184,
+      "grad_norm": 0.0021462365984916687,
+      "learning_rate": 0.00010370061831576544,
+      "loss": 0.0457,
+      "num_input_tokens_seen": 215074576,
+      "step": 99570
+    },
+    {
+      "epoch": 16.24388254486134,
+      "grad_norm": 0.004718319047242403,
+      "learning_rate": 0.00010365722089369395,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 215085744,
+      "step": 99575
+    },
+    {
+      "epoch": 16.24469820554649,
+      "grad_norm": 0.02573045901954174,
+      "learning_rate": 0.00010361383150401165,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 215096432,
+      "step": 99580
+    },
+    {
+      "epoch": 16.245513866231647,
+      "grad_norm": 0.020224103704094887,
+      "learning_rate": 0.00010357045014759797,
+      "loss": 0.001,
+      "num_input_tokens_seen": 215107056,
+      "step": 99585
+    },
+    {
+      "epoch": 16.246329526916803,
+      "grad_norm": 0.011003488674759865,
+      "learning_rate": 0.00010352707682533197,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 215118736,
+      "step": 99590
+    },
+    {
+      "epoch": 16.24714518760196,
+      "grad_norm": 0.0029920844826847315,
+      "learning_rate": 0.00010348371153809277,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 215129680,
+      "step": 99595
+    },
+    {
+      "epoch": 16.247960848287114,
+      "grad_norm": 0.0012058455031365156,
+      "learning_rate": 0.00010344035428675914,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 215140560,
+      "step": 99600
+    },
+    {
+      "epoch": 16.248776508972266,
+      "grad_norm": 0.0012687857961282134,
+      "learning_rate": 0.00010339700507220978,
+      "loss": 0.0112,
+      "num_input_tokens_seen": 215151984,
+      "step": 99605
+    },
+    {
+      "epoch": 16.249592169657422,
+      "grad_norm": 0.0020511329639703035,
+      "learning_rate": 0.0001033536638953233,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 215163632,
+      "step": 99610
+    },
+    {
+      "epoch": 16.250407830342578,
+      "grad_norm": 0.02142617478966713,
+      "learning_rate": 0.00010331033075697793,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 215174096,
+      "step": 99615
+    },
+    {
+      "epoch": 16.251223491027734,
+      "grad_norm": 0.007285781670361757,
+      "learning_rate": 0.00010326700565805197,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 215185008,
+      "step": 99620
+    },
+    {
+      "epoch": 16.252039151712886,
+      "grad_norm": 0.0007665912853553891,
+      "learning_rate": 0.00010322368859942333,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 215196464,
+      "step": 99625
+    },
+    {
+      "epoch": 16.25285481239804,
+      "grad_norm": 0.003922312520444393,
+      "learning_rate": 0.00010318037958197024,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 215207536,
+      "step": 99630
+    },
+    {
+      "epoch": 16.253670473083197,
+      "grad_norm": 0.0018488741479814053,
+      "learning_rate": 0.0001031370786065699,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 215216432,
+      "step": 99635
+    },
+    {
+      "epoch": 16.254486133768353,
+      "grad_norm": 0.0002045558503596112,
+      "learning_rate": 0.00010309378567410039,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 215226384,
+      "step": 99640
+    },
+    {
+      "epoch": 16.25530179445351,
+      "grad_norm": 0.09213671088218689,
+      "learning_rate": 0.00010305050078543848,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 215236752,
+      "step": 99645
+    },
+    {
+      "epoch": 16.25611745513866,
+      "grad_norm": 0.0008904563146643341,
+      "learning_rate": 0.00010300722394146212,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 215246608,
+      "step": 99650
+    },
+    {
+      "epoch": 16.256933115823816,
+      "grad_norm": 0.007827579975128174,
+      "learning_rate": 0.00010296395514304763,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 215257072,
+      "step": 99655
+    },
+    {
+      "epoch": 16.257748776508972,
+      "grad_norm": 0.0644720047712326,
+      "learning_rate": 0.00010292069439107254,
+      "loss": 0.003,
+      "num_input_tokens_seen": 215267120,
+      "step": 99660
+    },
+    {
+      "epoch": 16.258564437194128,
+      "grad_norm": 0.0004442843492142856,
+      "learning_rate": 0.00010287744168641311,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 215277424,
+      "step": 99665
+    },
+    {
+      "epoch": 16.259380097879284,
+      "grad_norm": 0.0010822077747434378,
+      "learning_rate": 0.00010283419702994634,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 215288112,
+      "step": 99670
+    },
+    {
+      "epoch": 16.260195758564436,
+      "grad_norm": 0.10656613856554031,
+      "learning_rate": 0.0001027909604225481,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 215297776,
+      "step": 99675
+    },
+    {
+      "epoch": 16.26101141924959,
+      "grad_norm": 0.013543715700507164,
+      "learning_rate": 0.00010274773186509528,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 215307280,
+      "step": 99680
+    },
+    {
+      "epoch": 16.261827079934747,
+      "grad_norm": 0.00781995989382267,
+      "learning_rate": 0.00010270451135846332,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 215316880,
+      "step": 99685
+    },
+    {
+      "epoch": 16.262642740619903,
+      "grad_norm": 0.0015151110710576177,
+      "learning_rate": 0.00010266129890352872,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 215328528,
+      "step": 99690
+    },
+    {
+      "epoch": 16.26345840130506,
+      "grad_norm": 0.0037482441402971745,
+      "learning_rate": 0.00010261809450116666,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 215340720,
+      "step": 99695
+    },
+    {
+      "epoch": 16.26427406199021,
+      "grad_norm": 0.5841511487960815,
+      "learning_rate": 0.00010257489815225318,
+      "loss": 0.1694,
+      "num_input_tokens_seen": 215352624,
+      "step": 99700
+    },
+    {
+      "epoch": 16.265089722675366,
+      "grad_norm": 0.006499356124550104,
+      "learning_rate": 0.00010253170985766357,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 215362480,
+      "step": 99705
+    },
+    {
+      "epoch": 16.265905383360522,
+      "grad_norm": 0.0037484378553926945,
+      "learning_rate": 0.00010248852961827309,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 215372752,
+      "step": 99710
+    },
+    {
+      "epoch": 16.266721044045678,
+      "grad_norm": 0.011288094334304333,
+      "learning_rate": 0.00010244535743495681,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 215383600,
+      "step": 99715
+    },
+    {
+      "epoch": 16.267536704730833,
+      "grad_norm": 0.008340914733707905,
+      "learning_rate": 0.00010240219330858969,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 215393296,
+      "step": 99720
+    },
+    {
+      "epoch": 16.268352365415986,
+      "grad_norm": 0.055706895887851715,
+      "learning_rate": 0.00010235903724004652,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 215402384,
+      "step": 99725
+    },
+    {
+      "epoch": 16.26916802610114,
+      "grad_norm": 0.02399086207151413,
+      "learning_rate": 0.00010231588923020196,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 215413392,
+      "step": 99730
+    },
+    {
+      "epoch": 16.269983686786297,
+      "grad_norm": 0.014908327721059322,
+      "learning_rate": 0.00010227274927993035,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 215424656,
+      "step": 99735
+    },
+    {
+      "epoch": 16.270799347471453,
+      "grad_norm": 0.008819537237286568,
+      "learning_rate": 0.000102229617390106,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 215436272,
+      "step": 99740
+    },
+    {
+      "epoch": 16.27161500815661,
+      "grad_norm": 0.0023069872986525297,
+      "learning_rate": 0.00010218649356160314,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 215447120,
+      "step": 99745
+    },
+    {
+      "epoch": 16.27243066884176,
+      "grad_norm": 0.007820419035851955,
+      "learning_rate": 0.00010214337779529548,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 215457232,
+      "step": 99750
+    },
+    {
+      "epoch": 16.273246329526916,
+      "grad_norm": 0.0034470772370696068,
+      "learning_rate": 0.00010210027009205719,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 215465840,
+      "step": 99755
+    },
+    {
+      "epoch": 16.274061990212072,
+      "grad_norm": 0.3569754660129547,
+      "learning_rate": 0.00010205717045276153,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 215476272,
+      "step": 99760
+    },
+    {
+      "epoch": 16.274877650897228,
+      "grad_norm": 0.002355807228013873,
+      "learning_rate": 0.00010201407887828234,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 215486128,
+      "step": 99765
+    },
+    {
+      "epoch": 16.275693311582383,
+      "grad_norm": 0.0006279262597672641,
+      "learning_rate": 0.0001019709953694925,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 215496976,
+      "step": 99770
+    },
+    {
+      "epoch": 16.276508972267536,
+      "grad_norm": 0.000803434697445482,
+      "learning_rate": 0.00010192791992726558,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 215506544,
+      "step": 99775
+    },
+    {
+      "epoch": 16.27732463295269,
+      "grad_norm": 0.0010221730917692184,
+      "learning_rate": 0.00010188485255247415,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 215518384,
+      "step": 99780
+    },
+    {
+      "epoch": 16.278140293637847,
+      "grad_norm": 0.0014653302496299148,
+      "learning_rate": 0.00010184179324599147,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 215527664,
+      "step": 99785
+    },
+    {
+      "epoch": 16.278955954323003,
+      "grad_norm": 0.0004814395506400615,
+      "learning_rate": 0.00010179874200868966,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 215538640,
+      "step": 99790
+    },
+    {
+      "epoch": 16.27977161500816,
+      "grad_norm": 0.0009255227050743997,
+      "learning_rate": 0.00010175569884144182,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 215549552,
+      "step": 99795
+    },
+    {
+      "epoch": 16.28058727569331,
+      "grad_norm": 0.0268571674823761,
+      "learning_rate": 0.00010171266374511962,
+      "loss": 0.0723,
+      "num_input_tokens_seen": 215561168,
+      "step": 99800
+    },
+    {
+      "epoch": 16.281402936378466,
+      "grad_norm": 0.006670699920505285,
+      "learning_rate": 0.00010166963672059588,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 215573488,
+      "step": 99805
+    },
+    {
+      "epoch": 16.282218597063622,
+      "grad_norm": 0.0005371726001612842,
+      "learning_rate": 0.00010162661776874193,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 215583536,
+      "step": 99810
+    },
+    {
+      "epoch": 16.283034257748778,
+      "grad_norm": 0.001128238276578486,
+      "learning_rate": 0.00010158360689043028,
+      "loss": 0.0213,
+      "num_input_tokens_seen": 215594384,
+      "step": 99815
+    },
+    {
+      "epoch": 16.28384991843393,
+      "grad_norm": 0.0018089942168444395,
+      "learning_rate": 0.00010154060408653198,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 215604336,
+      "step": 99820
+    },
+    {
+      "epoch": 16.284665579119086,
+      "grad_norm": 0.0002369862631894648,
+      "learning_rate": 0.00010149760935791907,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 215615984,
+      "step": 99825
+    },
+    {
+      "epoch": 16.28548123980424,
+      "grad_norm": 0.02218855917453766,
+      "learning_rate": 0.00010145462270546241,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 215626576,
+      "step": 99830
+    },
+    {
+      "epoch": 16.286296900489397,
+      "grad_norm": 0.0026553068310022354,
+      "learning_rate": 0.00010141164413003351,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 215636720,
+      "step": 99835
+    },
+    {
+      "epoch": 16.287112561174553,
+      "grad_norm": 0.013349421322345734,
+      "learning_rate": 0.00010136867363250329,
+      "loss": 0.002,
+      "num_input_tokens_seen": 215647152,
+      "step": 99840
+    },
+    {
+      "epoch": 16.287928221859705,
+      "grad_norm": 0.0031846666242927313,
+      "learning_rate": 0.00010132571121374257,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 215657392,
+      "step": 99845
+    },
+    {
+      "epoch": 16.28874388254486,
+      "grad_norm": 0.002197221852838993,
+      "learning_rate": 0.00010128275687462212,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 215669776,
+      "step": 99850
+    },
+    {
+      "epoch": 16.289559543230016,
+      "grad_norm": 0.0004804141935892403,
+      "learning_rate": 0.0001012398106160124,
+      "loss": 0.003,
+      "num_input_tokens_seen": 215679440,
+      "step": 99855
+    },
+    {
+      "epoch": 16.290375203915172,
+      "grad_norm": 0.004510819911956787,
+      "learning_rate": 0.00010119687243878379,
+      "loss": 0.034,
+      "num_input_tokens_seen": 215690000,
+      "step": 99860
+    },
+    {
+      "epoch": 16.291190864600328,
+      "grad_norm": 0.022695958614349365,
+      "learning_rate": 0.00010115394234380642,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 215701808,
+      "step": 99865
+    },
+    {
+      "epoch": 16.29200652528548,
+      "grad_norm": 0.007637821137905121,
+      "learning_rate": 0.00010111102033195041,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 215713200,
+      "step": 99870
+    },
+    {
+      "epoch": 16.292822185970635,
+      "grad_norm": 0.007616210263222456,
+      "learning_rate": 0.00010106810640408564,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 215724208,
+      "step": 99875
+    },
+    {
+      "epoch": 16.29363784665579,
+      "grad_norm": 0.0030214902944862843,
+      "learning_rate": 0.00010102520056108172,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 215735792,
+      "step": 99880
+    },
+    {
+      "epoch": 16.294453507340947,
+      "grad_norm": 0.026455482468008995,
+      "learning_rate": 0.00010098230280380826,
+      "loss": 0.003,
+      "num_input_tokens_seen": 215747024,
+      "step": 99885
+    },
+    {
+      "epoch": 16.295269168026103,
+      "grad_norm": 0.02323424257338047,
+      "learning_rate": 0.00010093941313313465,
+      "loss": 0.002,
+      "num_input_tokens_seen": 215756432,
+      "step": 99890
+    },
+    {
+      "epoch": 16.296084828711255,
+      "grad_norm": 0.020892612636089325,
+      "learning_rate": 0.00010089653154992994,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 215766224,
+      "step": 99895
+    },
+    {
+      "epoch": 16.29690048939641,
+      "grad_norm": 0.0010717104887589812,
+      "learning_rate": 0.00010085365805506358,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 215776944,
+      "step": 99900
+    },
+    {
+      "epoch": 16.297716150081566,
+      "grad_norm": 0.008391788229346275,
+      "learning_rate": 0.00010081079264940391,
+      "loss": 0.0614,
+      "num_input_tokens_seen": 215788432,
+      "step": 99905
+    },
+    {
+      "epoch": 16.298531810766722,
+      "grad_norm": 0.03581464663147926,
+      "learning_rate": 0.00010076793533382022,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 215799600,
+      "step": 99910
+    },
+    {
+      "epoch": 16.299347471451878,
+      "grad_norm": 0.025882374495267868,
+      "learning_rate": 0.00010072508610918046,
+      "loss": 0.002,
+      "num_input_tokens_seen": 215811184,
+      "step": 99915
+    },
+    {
+      "epoch": 16.30016313213703,
+      "grad_norm": 0.31241723895072937,
+      "learning_rate": 0.00010068224497635369,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 215822320,
+      "step": 99920
+    },
+    {
+      "epoch": 16.300978792822185,
+      "grad_norm": 0.043358415365219116,
+      "learning_rate": 0.00010063941193620751,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 215833808,
+      "step": 99925
+    },
+    {
+      "epoch": 16.30179445350734,
+      "grad_norm": 0.003072767984122038,
+      "learning_rate": 0.0001005965869896105,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 215845392,
+      "step": 99930
+    },
+    {
+      "epoch": 16.302610114192497,
+      "grad_norm": 0.031429387629032135,
+      "learning_rate": 0.00010055377013743012,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 215855312,
+      "step": 99935
+    },
+    {
+      "epoch": 16.303425774877653,
+      "grad_norm": 0.0011349570704624057,
+      "learning_rate": 0.0001005109613805344,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 215866224,
+      "step": 99940
+    },
+    {
+      "epoch": 16.304241435562805,
+      "grad_norm": 0.0012783968122676015,
+      "learning_rate": 0.00010046816071979087,
+      "loss": 0.002,
+      "num_input_tokens_seen": 215877424,
+      "step": 99945
+    },
+    {
+      "epoch": 16.30505709624796,
+      "grad_norm": 0.00905763078480959,
+      "learning_rate": 0.0001004253681560669,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 215889488,
+      "step": 99950
+    },
+    {
+      "epoch": 16.305872756933116,
+      "grad_norm": 0.04101025313138962,
+      "learning_rate": 0.00010038258369022974,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 215899280,
+      "step": 99955
+    },
+    {
+      "epoch": 16.306688417618272,
+      "grad_norm": 0.00823147501796484,
+      "learning_rate": 0.00010033980732314646,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 215909648,
+      "step": 99960
+    },
+    {
+      "epoch": 16.307504078303428,
+      "grad_norm": 0.0012991069816052914,
+      "learning_rate": 0.00010029703905568399,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 215920720,
+      "step": 99965
+    },
+    {
+      "epoch": 16.30831973898858,
+      "grad_norm": 0.008023583330214024,
+      "learning_rate": 0.00010025427888870909,
+      "loss": 0.001,
+      "num_input_tokens_seen": 215931120,
+      "step": 99970
+    },
+    {
+      "epoch": 16.309135399673735,
+      "grad_norm": 0.014352011494338512,
+      "learning_rate": 0.00010021152682308837,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 215941680,
+      "step": 99975
+    },
+    {
+      "epoch": 16.30995106035889,
+      "grad_norm": 0.0030116417910903692,
+      "learning_rate": 0.00010016878285968816,
+      "loss": 0.001,
+      "num_input_tokens_seen": 215951152,
+      "step": 99980
+    },
+    {
+      "epoch": 16.310766721044047,
+      "grad_norm": 0.02265646867454052,
+      "learning_rate": 0.00010012604699937483,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 215962544,
+      "step": 99985
+    },
+    {
+      "epoch": 16.3115823817292,
+      "grad_norm": 0.0016602237010374665,
+      "learning_rate": 0.00010008331924301445,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 215972848,
+      "step": 99990
+    },
+    {
+      "epoch": 16.312398042414355,
+      "grad_norm": 0.022008635103702545,
+      "learning_rate": 0.00010004059959147293,
+      "loss": 0.001,
+      "num_input_tokens_seen": 215983824,
+      "step": 99995
+    },
+    {
+      "epoch": 16.31321370309951,
+      "grad_norm": 0.004182157106697559,
+      "learning_rate": 9.999788804561605e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 215994512,
+      "step": 100000
+    },
+    {
+      "epoch": 16.314029363784666,
+      "grad_norm": 0.0018245892133563757,
+      "learning_rate": 9.995518460630937e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 216004976,
+      "step": 100005
+    },
+    {
+      "epoch": 16.31484502446982,
+      "grad_norm": 0.008289888501167297,
+      "learning_rate": 9.991248927441837e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 216016176,
+      "step": 100010
+    },
+    {
+      "epoch": 16.315660685154974,
+      "grad_norm": 0.001752890762872994,
+      "learning_rate": 9.986980205080837e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 216026480,
+      "step": 100015
+    },
+    {
+      "epoch": 16.31647634584013,
+      "grad_norm": 0.00022865060600452125,
+      "learning_rate": 9.982712293634438e-05,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 216036336,
+      "step": 100020
+    },
+    {
+      "epoch": 16.317292006525285,
+      "grad_norm": 0.00168028159532696,
+      "learning_rate": 9.97844519318914e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 216046416,
+      "step": 100025
+    },
+    {
+      "epoch": 16.31810766721044,
+      "grad_norm": 0.0004960019723512232,
+      "learning_rate": 9.974178903831427e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 216057776,
+      "step": 100030
+    },
+    {
+      "epoch": 16.318923327895597,
+      "grad_norm": 0.003168502589687705,
+      "learning_rate": 9.969913425647747e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 216068560,
+      "step": 100035
+    },
+    {
+      "epoch": 16.31973898858075,
+      "grad_norm": 0.007589966524392366,
+      "learning_rate": 9.965648758724544e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 216079056,
+      "step": 100040
+    },
+    {
+      "epoch": 16.320554649265905,
+      "grad_norm": 0.00240236334502697,
+      "learning_rate": 9.961384903148269e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 216091728,
+      "step": 100045
+    },
+    {
+      "epoch": 16.32137030995106,
+      "grad_norm": 0.0010267647448927164,
+      "learning_rate": 9.957121859005324e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 216102448,
+      "step": 100050
+    },
+    {
+      "epoch": 16.322185970636216,
+      "grad_norm": 0.0273845586925745,
+      "learning_rate": 9.952859626382099e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 216114768,
+      "step": 100055
+    },
+    {
+      "epoch": 16.32300163132137,
+      "grad_norm": 0.00038628673064522445,
+      "learning_rate": 9.948598205364979e-05,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 216125200,
+      "step": 100060
+    },
+    {
+      "epoch": 16.323817292006524,
+      "grad_norm": 0.0002461184049025178,
+      "learning_rate": 9.944337596040326e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 216134992,
+      "step": 100065
+    },
+    {
+      "epoch": 16.32463295269168,
+      "grad_norm": 0.0075553716160357,
+      "learning_rate": 9.940077798494485e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 216146544,
+      "step": 100070
+    },
+    {
+      "epoch": 16.325448613376835,
+      "grad_norm": 0.026246318593621254,
+      "learning_rate": 9.935818812813784e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 216156816,
+      "step": 100075
+    },
+    {
+      "epoch": 16.32626427406199,
+      "grad_norm": 0.005259836558252573,
+      "learning_rate": 9.931560639084541e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 216167600,
+      "step": 100080
+    },
+    {
+      "epoch": 16.327079934747147,
+      "grad_norm": 0.0017907143337652087,
+      "learning_rate": 9.927303277393051e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 216178096,
+      "step": 100085
+    },
+    {
+      "epoch": 16.3278955954323,
+      "grad_norm": 0.021919501945376396,
+      "learning_rate": 9.923046727825602e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 216187952,
+      "step": 100090
+    },
+    {
+      "epoch": 16.328711256117455,
+      "grad_norm": 0.06038171425461769,
+      "learning_rate": 9.918790990468446e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 216197712,
+      "step": 100095
+    },
+    {
+      "epoch": 16.32952691680261,
+      "grad_norm": 0.01833273656666279,
+      "learning_rate": 9.914536065407842e-05,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 216209392,
+      "step": 100100
+    },
+    {
+      "epoch": 16.330342577487766,
+      "grad_norm": 0.0007771208183839917,
+      "learning_rate": 9.910281952730011e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 216221136,
+      "step": 100105
+    },
+    {
+      "epoch": 16.33115823817292,
+      "grad_norm": 0.02714325487613678,
+      "learning_rate": 9.906028652521176e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 216231152,
+      "step": 100110
+    },
+    {
+      "epoch": 16.331973898858074,
+      "grad_norm": 0.00896800123155117,
+      "learning_rate": 9.901776164867538e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 216241488,
+      "step": 100115
+    },
+    {
+      "epoch": 16.33278955954323,
+      "grad_norm": 0.0016855057328939438,
+      "learning_rate": 9.89752448985527e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 216252400,
+      "step": 100120
+    },
+    {
+      "epoch": 16.333605220228385,
+      "grad_norm": 0.0003753203200176358,
+      "learning_rate": 9.893273627570542e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 216262320,
+      "step": 100125
+    },
+    {
+      "epoch": 16.33442088091354,
+      "grad_norm": 0.010976849123835564,
+      "learning_rate": 9.889023578099504e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 216272912,
+      "step": 100130
+    },
+    {
+      "epoch": 16.335236541598697,
+      "grad_norm": 0.012816797941923141,
+      "learning_rate": 9.884774341528285e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 216282928,
+      "step": 100135
+    },
+    {
+      "epoch": 16.33605220228385,
+      "grad_norm": 0.5955064296722412,
+      "learning_rate": 9.880525917943006e-05,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 216293648,
+      "step": 100140
+    },
+    {
+      "epoch": 16.336867862969005,
+      "grad_norm": 0.03133242577314377,
+      "learning_rate": 9.876278307429764e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 216304240,
+      "step": 100145
+    },
+    {
+      "epoch": 16.33768352365416,
+      "grad_norm": 0.0009458880522288382,
+      "learning_rate": 9.872031510074625e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 216313904,
+      "step": 100150
+    },
+    {
+      "epoch": 16.338499184339316,
+      "grad_norm": 0.03488912805914879,
+      "learning_rate": 9.867785525963707e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 216324176,
+      "step": 100155
+    },
+    {
+      "epoch": 16.339314845024468,
+      "grad_norm": 0.010793568566441536,
+      "learning_rate": 9.863540355182998e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 216334640,
+      "step": 100160
+    },
+    {
+      "epoch": 16.340130505709624,
+      "grad_norm": 0.032283537089824677,
+      "learning_rate": 9.859295997818585e-05,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 216344912,
+      "step": 100165
+    },
+    {
+      "epoch": 16.34094616639478,
+      "grad_norm": 0.0003030995430890471,
+      "learning_rate": 9.855052453956437e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 216355760,
+      "step": 100170
+    },
+    {
+      "epoch": 16.341761827079935,
+      "grad_norm": 0.0007913812878541648,
+      "learning_rate": 9.850809723682603e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 216367760,
+      "step": 100175
+    },
+    {
+      "epoch": 16.34257748776509,
+      "grad_norm": 0.0012517020804807544,
+      "learning_rate": 9.846567807083018e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 216379600,
+      "step": 100180
+    },
+    {
+      "epoch": 16.343393148450243,
+      "grad_norm": 0.0006271583843044937,
+      "learning_rate": 9.842326704243682e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 216391856,
+      "step": 100185
+    },
+    {
+      "epoch": 16.3442088091354,
+      "grad_norm": 0.0003550504916347563,
+      "learning_rate": 9.838086415250547e-05,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 216402512,
+      "step": 100190
+    },
+    {
+      "epoch": 16.345024469820554,
+      "grad_norm": 0.00036078577977605164,
+      "learning_rate": 9.833846940189533e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 216414960,
+      "step": 100195
+    },
+    {
+      "epoch": 16.34584013050571,
+      "grad_norm": 0.005881108809262514,
+      "learning_rate": 9.829608279146568e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 216425904,
+      "step": 100200
+    },
+    {
+      "epoch": 16.346655791190866,
+      "grad_norm": 0.0021825244184583426,
+      "learning_rate": 9.825370432207554e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 216436656,
+      "step": 100205
+    },
+    {
+      "epoch": 16.347471451876018,
+      "grad_norm": 0.06234239786863327,
+      "learning_rate": 9.821133399458371e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 216446800,
+      "step": 100210
+    },
+    {
+      "epoch": 16.348287112561174,
+      "grad_norm": 0.008905709721148014,
+      "learning_rate": 9.81689718098489e-05,
+      "loss": 0.013,
+      "num_input_tokens_seen": 216457264,
+      "step": 100215
+    },
+    {
+      "epoch": 16.34910277324633,
+      "grad_norm": 0.558327853679657,
+      "learning_rate": 9.81266177687296e-05,
+      "loss": 0.1895,
+      "num_input_tokens_seen": 216467664,
+      "step": 100220
+    },
+    {
+      "epoch": 16.349918433931485,
+      "grad_norm": 0.0004579754895530641,
+      "learning_rate": 9.808427187208424e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 216477936,
+      "step": 100225
+    },
+    {
+      "epoch": 16.35073409461664,
+      "grad_norm": 0.0029174680821597576,
+      "learning_rate": 9.8041934120771e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 216489488,
+      "step": 100230
+    },
+    {
+      "epoch": 16.351549755301793,
+      "grad_norm": 0.00225959368981421,
+      "learning_rate": 9.799960451564787e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 216498992,
+      "step": 100235
+    },
+    {
+      "epoch": 16.35236541598695,
+      "grad_norm": 0.0002525453455746174,
+      "learning_rate": 9.795728305757267e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 216509936,
+      "step": 100240
+    },
+    {
+      "epoch": 16.353181076672104,
+      "grad_norm": 0.004050148651003838,
+      "learning_rate": 9.791496974740321e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 216521328,
+      "step": 100245
+    },
+    {
+      "epoch": 16.35399673735726,
+      "grad_norm": 0.000871855765581131,
+      "learning_rate": 9.787266458599697e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 216532592,
+      "step": 100250
+    },
+    {
+      "epoch": 16.354812398042416,
+      "grad_norm": 0.0029846071265637875,
+      "learning_rate": 9.783036757421132e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 216544432,
+      "step": 100255
+    },
+    {
+      "epoch": 16.355628058727568,
+      "grad_norm": 0.004262133967131376,
+      "learning_rate": 9.778807871290346e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 216556240,
+      "step": 100260
+    },
+    {
+      "epoch": 16.356443719412724,
+      "grad_norm": 0.001604230608791113,
+      "learning_rate": 9.774579800293026e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 216568464,
+      "step": 100265
+    },
+    {
+      "epoch": 16.35725938009788,
+      "grad_norm": 0.016766056418418884,
+      "learning_rate": 9.770352544514904e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 216580272,
+      "step": 100270
+    },
+    {
+      "epoch": 16.358075040783035,
+      "grad_norm": 0.0005941848503425717,
+      "learning_rate": 9.766126104041601e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 216590800,
+      "step": 100275
+    },
+    {
+      "epoch": 16.35889070146819,
+      "grad_norm": 0.0018064542673528194,
+      "learning_rate": 9.761900478958813e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 216601648,
+      "step": 100280
+    },
+    {
+      "epoch": 16.359706362153343,
+      "grad_norm": 0.0018726956332102418,
+      "learning_rate": 9.757675669352133e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 216611600,
+      "step": 100285
+    },
+    {
+      "epoch": 16.3605220228385,
+      "grad_norm": 0.005994674749672413,
+      "learning_rate": 9.753451675307234e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 216622224,
+      "step": 100290
+    },
+    {
+      "epoch": 16.361337683523654,
+      "grad_norm": 0.0016363600734621286,
+      "learning_rate": 9.749228496909668e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 216633648,
+      "step": 100295
+    },
+    {
+      "epoch": 16.36215334420881,
+      "grad_norm": 0.0008571971557103097,
+      "learning_rate": 9.745006134245072e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 216644656,
+      "step": 100300
+    },
+    {
+      "epoch": 16.362969004893966,
+      "grad_norm": 0.2415996789932251,
+      "learning_rate": 9.740784587398965e-05,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 216656176,
+      "step": 100305
+    },
+    {
+      "epoch": 16.363784665579118,
+      "grad_norm": 0.017015738412737846,
+      "learning_rate": 9.736563856456959e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 216666064,
+      "step": 100310
+    },
+    {
+      "epoch": 16.364600326264274,
+      "grad_norm": 0.0016154218465089798,
+      "learning_rate": 9.73234394150454e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 216677136,
+      "step": 100315
+    },
+    {
+      "epoch": 16.36541598694943,
+      "grad_norm": 0.0032554895151406527,
+      "learning_rate": 9.728124842627278e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 216689456,
+      "step": 100320
+    },
+    {
+      "epoch": 16.366231647634585,
+      "grad_norm": 0.09540196508169174,
+      "learning_rate": 9.723906559910634e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 216701392,
+      "step": 100325
+    },
+    {
+      "epoch": 16.36704730831974,
+      "grad_norm": 0.0013432763516902924,
+      "learning_rate": 9.719689093440126e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 216709264,
+      "step": 100330
+    },
+    {
+      "epoch": 16.367862969004893,
+      "grad_norm": 0.003039369825273752,
+      "learning_rate": 9.715472443301215e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 216720912,
+      "step": 100335
+    },
+    {
+      "epoch": 16.36867862969005,
+      "grad_norm": 0.014389106072485447,
+      "learning_rate": 9.711256609579367e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 216732848,
+      "step": 100340
+    },
+    {
+      "epoch": 16.369494290375204,
+      "grad_norm": 0.07118832319974899,
+      "learning_rate": 9.707041592360005e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 216743440,
+      "step": 100345
+    },
+    {
+      "epoch": 16.37030995106036,
+      "grad_norm": 0.0002033188648056239,
+      "learning_rate": 9.702827391728564e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 216754320,
+      "step": 100350
+    },
+    {
+      "epoch": 16.371125611745512,
+      "grad_norm": 0.00933680310845375,
+      "learning_rate": 9.69861400777045e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 216764720,
+      "step": 100355
+    },
+    {
+      "epoch": 16.371941272430668,
+      "grad_norm": 0.0018059660214930773,
+      "learning_rate": 9.694401440571043e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 216774832,
+      "step": 100360
+    },
+    {
+      "epoch": 16.372756933115824,
+      "grad_norm": 0.0006134548457339406,
+      "learning_rate": 9.690189690215728e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 216784880,
+      "step": 100365
+    },
+    {
+      "epoch": 16.37357259380098,
+      "grad_norm": 0.0003548564272932708,
+      "learning_rate": 9.685978756789854e-05,
+      "loss": 0.006,
+      "num_input_tokens_seen": 216795504,
+      "step": 100370
+    },
+    {
+      "epoch": 16.374388254486135,
+      "grad_norm": 0.011922224424779415,
+      "learning_rate": 9.681768640378757e-05,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 216805520,
+      "step": 100375
+    },
+    {
+      "epoch": 16.375203915171287,
+      "grad_norm": 0.00019268895266577601,
+      "learning_rate": 9.677559341067759e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 216816880,
+      "step": 100380
+    },
+    {
+      "epoch": 16.376019575856443,
+      "grad_norm": 0.0481029748916626,
+      "learning_rate": 9.673350858942198e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 216828080,
+      "step": 100385
+    },
+    {
+      "epoch": 16.3768352365416,
+      "grad_norm": 0.000992569257505238,
+      "learning_rate": 9.669143194087315e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 216838640,
+      "step": 100390
+    },
+    {
+      "epoch": 16.377650897226754,
+      "grad_norm": 0.0029242881573736668,
+      "learning_rate": 9.664936346588432e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 216850320,
+      "step": 100395
+    },
+    {
+      "epoch": 16.37846655791191,
+      "grad_norm": 0.0005835880292579532,
+      "learning_rate": 9.660730316530757e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 216862288,
+      "step": 100400
+    },
+    {
+      "epoch": 16.379282218597062,
+      "grad_norm": 0.0011815468315035105,
+      "learning_rate": 9.65652510399958e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 216871664,
+      "step": 100405
+    },
+    {
+      "epoch": 16.380097879282218,
+      "grad_norm": 0.0024670150596648455,
+      "learning_rate": 9.652320709080082e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 216882608,
+      "step": 100410
+    },
+    {
+      "epoch": 16.380913539967374,
+      "grad_norm": 0.002712622517719865,
+      "learning_rate": 9.648117131857509e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 216894352,
+      "step": 100415
+    },
+    {
+      "epoch": 16.38172920065253,
+      "grad_norm": 0.06670382618904114,
+      "learning_rate": 9.643914372417011e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 216906480,
+      "step": 100420
+    },
+    {
+      "epoch": 16.382544861337685,
+      "grad_norm": 0.5531919002532959,
+      "learning_rate": 9.639712430843806e-05,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 216917840,
+      "step": 100425
+    },
+    {
+      "epoch": 16.383360522022837,
+      "grad_norm": 0.17486710846424103,
+      "learning_rate": 9.635511307223005e-05,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 216929104,
+      "step": 100430
+    },
+    {
+      "epoch": 16.384176182707993,
+      "grad_norm": 0.06316438317298889,
+      "learning_rate": 9.631311001639798e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 216939152,
+      "step": 100435
+    },
+    {
+      "epoch": 16.38499184339315,
+      "grad_norm": 0.0012215528404340148,
+      "learning_rate": 9.62711151417926e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 216949744,
+      "step": 100440
+    },
+    {
+      "epoch": 16.385807504078304,
+      "grad_norm": 0.004731375258415937,
+      "learning_rate": 9.622912844926551e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 216960912,
+      "step": 100445
+    },
+    {
+      "epoch": 16.38662316476346,
+      "grad_norm": 0.0028271775227040052,
+      "learning_rate": 9.618714993966704e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 216972816,
+      "step": 100450
+    },
+    {
+      "epoch": 16.387438825448612,
+      "grad_norm": 0.010311473160982132,
+      "learning_rate": 9.614517961384856e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 216985040,
+      "step": 100455
+    },
+    {
+      "epoch": 16.388254486133768,
+      "grad_norm": 0.025720862671732903,
+      "learning_rate": 9.610321747266005e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 216994576,
+      "step": 100460
+    },
+    {
+      "epoch": 16.389070146818923,
+      "grad_norm": 0.008032547309994698,
+      "learning_rate": 9.60612635169525e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 217004816,
+      "step": 100465
+    },
+    {
+      "epoch": 16.38988580750408,
+      "grad_norm": 0.0005619633011519909,
+      "learning_rate": 9.601931774757561e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 217014064,
+      "step": 100470
+    },
+    {
+      "epoch": 16.390701468189235,
+      "grad_norm": 0.0003188513219356537,
+      "learning_rate": 9.597738016537988e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 217024528,
+      "step": 100475
+    },
+    {
+      "epoch": 16.391517128874387,
+      "grad_norm": 0.0011438900837674737,
+      "learning_rate": 9.593545077121507e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 217035472,
+      "step": 100480
+    },
+    {
+      "epoch": 16.392332789559543,
+      "grad_norm": 0.003715142607688904,
+      "learning_rate": 9.589352956593095e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 217046096,
+      "step": 100485
+    },
+    {
+      "epoch": 16.3931484502447,
+      "grad_norm": 0.041871681809425354,
+      "learning_rate": 9.585161655037705e-05,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 217056368,
+      "step": 100490
+    },
+    {
+      "epoch": 16.393964110929854,
+      "grad_norm": 0.0028728186152875423,
+      "learning_rate": 9.580971172540287e-05,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 217065808,
+      "step": 100495
+    },
+    {
+      "epoch": 16.39477977161501,
+      "grad_norm": 0.010508287698030472,
+      "learning_rate": 9.576781509185766e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 217077648,
+      "step": 100500
+    },
+    {
+      "epoch": 16.395595432300162,
+      "grad_norm": 0.004550436977297068,
+      "learning_rate": 9.572592665059043e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 217087952,
+      "step": 100505
+    },
+    {
+      "epoch": 16.396411092985318,
+      "grad_norm": 0.0050187078304588795,
+      "learning_rate": 9.568404640245022e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 217096688,
+      "step": 100510
+    },
+    {
+      "epoch": 16.397226753670473,
+      "grad_norm": 0.2578853666782379,
+      "learning_rate": 9.564217434828565e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 217106864,
+      "step": 100515
+    },
+    {
+      "epoch": 16.39804241435563,
+      "grad_norm": 0.0025490387342870235,
+      "learning_rate": 9.56003104889454e-05,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 217118064,
+      "step": 100520
+    },
+    {
+      "epoch": 16.39885807504078,
+      "grad_norm": 0.029599115252494812,
+      "learning_rate": 9.55584548252778e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 217127376,
+      "step": 100525
+    },
+    {
+      "epoch": 16.399673735725937,
+      "grad_norm": 0.006668840069323778,
+      "learning_rate": 9.55166073581314e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 217136816,
+      "step": 100530
+    },
+    {
+      "epoch": 16.400489396411093,
+      "grad_norm": 0.1902245283126831,
+      "learning_rate": 9.547476808835381e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 217147952,
+      "step": 100535
+    },
+    {
+      "epoch": 16.40130505709625,
+      "grad_norm": 0.44840678572654724,
+      "learning_rate": 9.54329370167935e-05,
+      "loss": 0.024,
+      "num_input_tokens_seen": 217158800,
+      "step": 100540
+    },
+    {
+      "epoch": 16.402120717781404,
+      "grad_norm": 0.0007062299409881234,
+      "learning_rate": 9.539111414429769e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 217169040,
+      "step": 100545
+    },
+    {
+      "epoch": 16.402936378466556,
+      "grad_norm": 0.00029036731575615704,
+      "learning_rate": 9.53492994717145e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 217180496,
+      "step": 100550
+    },
+    {
+      "epoch": 16.403752039151712,
+      "grad_norm": 0.019752731546759605,
+      "learning_rate": 9.530749299989078e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 217191536,
+      "step": 100555
+    },
+    {
+      "epoch": 16.404567699836868,
+      "grad_norm": 0.0012440073769539595,
+      "learning_rate": 9.526569472967444e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 217203568,
+      "step": 100560
+    },
+    {
+      "epoch": 16.405383360522023,
+      "grad_norm": 0.031068088486790657,
+      "learning_rate": 9.522390466191194e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 217213328,
+      "step": 100565
+    },
+    {
+      "epoch": 16.40619902120718,
+      "grad_norm": 0.0025797896087169647,
+      "learning_rate": 9.518212279745075e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 217223504,
+      "step": 100570
+    },
+    {
+      "epoch": 16.40701468189233,
+      "grad_norm": 0.004863258916884661,
+      "learning_rate": 9.514034913713714e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 217234672,
+      "step": 100575
+    },
+    {
+      "epoch": 16.407830342577487,
+      "grad_norm": 0.005317374598234892,
+      "learning_rate": 9.509858368181812e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 217244944,
+      "step": 100580
+    },
+    {
+      "epoch": 16.408646003262643,
+      "grad_norm": 0.0019695402588695288,
+      "learning_rate": 9.505682643233993e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 217254864,
+      "step": 100585
+    },
+    {
+      "epoch": 16.4094616639478,
+      "grad_norm": 0.017480649054050446,
+      "learning_rate": 9.501507738954884e-05,
+      "loss": 0.0906,
+      "num_input_tokens_seen": 217264464,
+      "step": 100590
+    },
+    {
+      "epoch": 16.410277324632954,
+      "grad_norm": 0.0020491848699748516,
+      "learning_rate": 9.497333655429097e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 217275152,
+      "step": 100595
+    },
+    {
+      "epoch": 16.411092985318106,
+      "grad_norm": 0.44643938541412354,
+      "learning_rate": 9.493160392741229e-05,
+      "loss": 0.0839,
+      "num_input_tokens_seen": 217286096,
+      "step": 100600
+    },
+    {
+      "epoch": 16.411908646003262,
+      "grad_norm": 0.0006037737475708127,
+      "learning_rate": 9.488987950975847e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 217296400,
+      "step": 100605
+    },
+    {
+      "epoch": 16.412724306688418,
+      "grad_norm": 0.0008719302131794393,
+      "learning_rate": 9.484816330217522e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 217307856,
+      "step": 100610
+    },
+    {
+      "epoch": 16.413539967373573,
+      "grad_norm": 0.0005770606803707778,
+      "learning_rate": 9.480645530550785e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 217318320,
+      "step": 100615
+    },
+    {
+      "epoch": 16.41435562805873,
+      "grad_norm": 0.0018063917523249984,
+      "learning_rate": 9.47647555206017e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 217327888,
+      "step": 100620
+    },
+    {
+      "epoch": 16.41517128874388,
+      "grad_norm": 0.001203131745569408,
+      "learning_rate": 9.472306394830188e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 217339664,
+      "step": 100625
+    },
+    {
+      "epoch": 16.415986949429037,
+      "grad_norm": 0.007052603177726269,
+      "learning_rate": 9.46813805894533e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 217351056,
+      "step": 100630
+    },
+    {
+      "epoch": 16.416802610114193,
+      "grad_norm": 0.003801350248977542,
+      "learning_rate": 9.46397054449007e-05,
+      "loss": 0.0769,
+      "num_input_tokens_seen": 217361552,
+      "step": 100635
+    },
+    {
+      "epoch": 16.41761827079935,
+      "grad_norm": 0.00352098629809916,
+      "learning_rate": 9.459803851548876e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 217371440,
+      "step": 100640
+    },
+    {
+      "epoch": 16.418433931484504,
+      "grad_norm": 0.0003427791816648096,
+      "learning_rate": 9.455637980206177e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 217381424,
+      "step": 100645
+    },
+    {
+      "epoch": 16.419249592169656,
+      "grad_norm": 0.02932632900774479,
+      "learning_rate": 9.451472930546417e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 217392368,
+      "step": 100650
+    },
+    {
+      "epoch": 16.420065252854812,
+      "grad_norm": 0.013364373706281185,
+      "learning_rate": 9.447308702653995e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 217402736,
+      "step": 100655
+    },
+    {
+      "epoch": 16.420880913539968,
+      "grad_norm": 0.007504095323383808,
+      "learning_rate": 9.443145296613303e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 217413712,
+      "step": 100660
+    },
+    {
+      "epoch": 16.421696574225123,
+      "grad_norm": 0.06577505171298981,
+      "learning_rate": 9.438982712508726e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 217425232,
+      "step": 100665
+    },
+    {
+      "epoch": 16.42251223491028,
+      "grad_norm": 0.0009927983628585935,
+      "learning_rate": 9.434820950424605e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 217435984,
+      "step": 100670
+    },
+    {
+      "epoch": 16.42332789559543,
+      "grad_norm": 0.002471206011250615,
+      "learning_rate": 9.430660010445325e-05,
+      "loss": 0.0428,
+      "num_input_tokens_seen": 217447568,
+      "step": 100675
+    },
+    {
+      "epoch": 16.424143556280587,
+      "grad_norm": 0.007938587106764317,
+      "learning_rate": 9.426499892655155e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 217458800,
+      "step": 100680
+    },
+    {
+      "epoch": 16.424959216965743,
+      "grad_norm": 0.0019349503563717008,
+      "learning_rate": 9.422340597138457e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 217468208,
+      "step": 100685
+    },
+    {
+      "epoch": 16.4257748776509,
+      "grad_norm": 0.004137630108743906,
+      "learning_rate": 9.418182123979496e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 217479120,
+      "step": 100690
+    },
+    {
+      "epoch": 16.42659053833605,
+      "grad_norm": 0.0010737567208707333,
+      "learning_rate": 9.414024473262561e-05,
+      "loss": 0.1038,
+      "num_input_tokens_seen": 217488976,
+      "step": 100695
+    },
+    {
+      "epoch": 16.427406199021206,
+      "grad_norm": 0.0011117482790723443,
+      "learning_rate": 9.409867645071901e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 217499728,
+      "step": 100700
+    },
+    {
+      "epoch": 16.428221859706362,
+      "grad_norm": 0.06709881126880646,
+      "learning_rate": 9.405711639491771e-05,
+      "loss": 0.1206,
+      "num_input_tokens_seen": 217510832,
+      "step": 100705
+    },
+    {
+      "epoch": 16.429037520391518,
+      "grad_norm": 0.6046932935714722,
+      "learning_rate": 9.401556456606392e-05,
+      "loss": 0.0548,
+      "num_input_tokens_seen": 217522128,
+      "step": 100710
+    },
+    {
+      "epoch": 16.429853181076673,
+      "grad_norm": 0.0038243194576352835,
+      "learning_rate": 9.397402096499973e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 217533104,
+      "step": 100715
+    },
+    {
+      "epoch": 16.430668841761825,
+      "grad_norm": 0.0012090579839423299,
+      "learning_rate": 9.393248559256706e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 217542896,
+      "step": 100720
+    },
+    {
+      "epoch": 16.43148450244698,
+      "grad_norm": 0.021008076146245003,
+      "learning_rate": 9.389095844960771e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 217554320,
+      "step": 100725
+    },
+    {
+      "epoch": 16.432300163132137,
+      "grad_norm": 0.0003240357618778944,
+      "learning_rate": 9.384943953696329e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 217565328,
+      "step": 100730
+    },
+    {
+      "epoch": 16.433115823817293,
+      "grad_norm": 0.6940795183181763,
+      "learning_rate": 9.380792885547523e-05,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 217576720,
+      "step": 100735
+    },
+    {
+      "epoch": 16.43393148450245,
+      "grad_norm": 0.035171881318092346,
+      "learning_rate": 9.376642640598476e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 217588336,
+      "step": 100740
+    },
+    {
+      "epoch": 16.4347471451876,
+      "grad_norm": 0.0009132300619967282,
+      "learning_rate": 9.372493218933303e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 217597840,
+      "step": 100745
+    },
+    {
+      "epoch": 16.435562805872756,
+      "grad_norm": 0.06404221057891846,
+      "learning_rate": 9.368344620636094e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 217609552,
+      "step": 100750
+    },
+    {
+      "epoch": 16.436378466557912,
+      "grad_norm": 0.005812915042042732,
+      "learning_rate": 9.364196845790924e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 217620752,
+      "step": 100755
+    },
+    {
+      "epoch": 16.437194127243067,
+      "grad_norm": 0.009950408712029457,
+      "learning_rate": 9.360049894481854e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 217631984,
+      "step": 100760
+    },
+    {
+      "epoch": 16.438009787928223,
+      "grad_norm": 0.1717950999736786,
+      "learning_rate": 9.355903766792929e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 217643056,
+      "step": 100765
+    },
+    {
+      "epoch": 16.438825448613375,
+      "grad_norm": 0.0056233457289636135,
+      "learning_rate": 9.351758462808174e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 217653968,
+      "step": 100770
+    },
+    {
+      "epoch": 16.43964110929853,
+      "grad_norm": 0.0006802030256949365,
+      "learning_rate": 9.347613982611603e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 217664432,
+      "step": 100775
+    },
+    {
+      "epoch": 16.440456769983687,
+      "grad_norm": 0.1902633160352707,
+      "learning_rate": 9.343470326287206e-05,
+      "loss": 0.051,
+      "num_input_tokens_seen": 217674768,
+      "step": 100780
+    },
+    {
+      "epoch": 16.441272430668842,
+      "grad_norm": 0.0022835908457636833,
+      "learning_rate": 9.339327493918958e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 217686256,
+      "step": 100785
+    },
+    {
+      "epoch": 16.442088091353998,
+      "grad_norm": 0.0061843437142670155,
+      "learning_rate": 9.335185485590807e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 217696784,
+      "step": 100790
+    },
+    {
+      "epoch": 16.44290375203915,
+      "grad_norm": 0.0036174890119582415,
+      "learning_rate": 9.331044301386732e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 217707056,
+      "step": 100795
+    },
+    {
+      "epoch": 16.443719412724306,
+      "grad_norm": 0.0004997859941795468,
+      "learning_rate": 9.326903941390613e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 217718864,
+      "step": 100800
+    },
+    {
+      "epoch": 16.44453507340946,
+      "grad_norm": 0.0004371833929326385,
+      "learning_rate": 9.322764405686412e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 217730160,
+      "step": 100805
+    },
+    {
+      "epoch": 16.445350734094617,
+      "grad_norm": 0.0010925378883257508,
+      "learning_rate": 9.318625694357962e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 217741936,
+      "step": 100810
+    },
+    {
+      "epoch": 16.446166394779773,
+      "grad_norm": 0.0005652908002957702,
+      "learning_rate": 9.314487807489186e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 217751664,
+      "step": 100815
+    },
+    {
+      "epoch": 16.446982055464925,
+      "grad_norm": 0.015928996726870537,
+      "learning_rate": 9.310350745163931e-05,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 217762416,
+      "step": 100820
+    },
+    {
+      "epoch": 16.44779771615008,
+      "grad_norm": 0.002068012021481991,
+      "learning_rate": 9.306214507466032e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 217773552,
+      "step": 100825
+    },
+    {
+      "epoch": 16.448613376835237,
+      "grad_norm": 0.006545333191752434,
+      "learning_rate": 9.302079094479321e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 217784048,
+      "step": 100830
+    },
+    {
+      "epoch": 16.449429037520392,
+      "grad_norm": 0.007893134839832783,
+      "learning_rate": 9.297944506287609e-05,
+      "loss": 0.0713,
+      "num_input_tokens_seen": 217796400,
+      "step": 100835
+    },
+    {
+      "epoch": 16.450244698205548,
+      "grad_norm": 0.0014113986399024725,
+      "learning_rate": 9.293810742974679e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 217807600,
+      "step": 100840
+    },
+    {
+      "epoch": 16.4510603588907,
+      "grad_norm": 0.0015867466572672129,
+      "learning_rate": 9.28967780462432e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 217818224,
+      "step": 100845
+    },
+    {
+      "epoch": 16.451876019575856,
+      "grad_norm": 0.004073529504239559,
+      "learning_rate": 9.28554569132028e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 217830032,
+      "step": 100850
+    },
+    {
+      "epoch": 16.45269168026101,
+      "grad_norm": 0.0011026524007320404,
+      "learning_rate": 9.28141440314631e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 217842448,
+      "step": 100855
+    },
+    {
+      "epoch": 16.453507340946167,
+      "grad_norm": 0.013522444292902946,
+      "learning_rate": 9.277283940186132e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 217853008,
+      "step": 100860
+    },
+    {
+      "epoch": 16.454323001631323,
+      "grad_norm": 0.013203301467001438,
+      "learning_rate": 9.273154302523456e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 217864080,
+      "step": 100865
+    },
+    {
+      "epoch": 16.455138662316475,
+      "grad_norm": 0.03669867664575577,
+      "learning_rate": 9.269025490241972e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 217875536,
+      "step": 100870
+    },
+    {
+      "epoch": 16.45595432300163,
+      "grad_norm": 0.007512333802878857,
+      "learning_rate": 9.264897503425357e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 217885904,
+      "step": 100875
+    },
+    {
+      "epoch": 16.456769983686787,
+      "grad_norm": 0.0010369790252298117,
+      "learning_rate": 9.260770342157272e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 217895504,
+      "step": 100880
+    },
+    {
+      "epoch": 16.457585644371942,
+      "grad_norm": 0.0006969812093302608,
+      "learning_rate": 9.256644006521358e-05,
+      "loss": 0.1333,
+      "num_input_tokens_seen": 217906480,
+      "step": 100885
+    },
+    {
+      "epoch": 16.458401305057095,
+      "grad_norm": 0.009753060527145863,
+      "learning_rate": 9.252518496601237e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 217917776,
+      "step": 100890
+    },
+    {
+      "epoch": 16.45921696574225,
+      "grad_norm": 0.004010849166661501,
+      "learning_rate": 9.248393812480522e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 217928560,
+      "step": 100895
+    },
+    {
+      "epoch": 16.460032626427406,
+      "grad_norm": 0.028223834931850433,
+      "learning_rate": 9.244269954242806e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 217938288,
+      "step": 100900
+    },
+    {
+      "epoch": 16.46084828711256,
+      "grad_norm": 0.029094593599438667,
+      "learning_rate": 9.240146921971642e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 217948464,
+      "step": 100905
+    },
+    {
+      "epoch": 16.461663947797717,
+      "grad_norm": 0.000985774677246809,
+      "learning_rate": 9.23602471575064e-05,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 217958128,
+      "step": 100910
+    },
+    {
+      "epoch": 16.46247960848287,
+      "grad_norm": 0.15060503780841827,
+      "learning_rate": 9.231903335663283e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 217968432,
+      "step": 100915
+    },
+    {
+      "epoch": 16.463295269168025,
+      "grad_norm": 0.0014211301458999515,
+      "learning_rate": 9.227782781793148e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 217979760,
+      "step": 100920
+    },
+    {
+      "epoch": 16.46411092985318,
+      "grad_norm": 0.002074574586004019,
+      "learning_rate": 9.223663054223692e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 217990128,
+      "step": 100925
+    },
+    {
+      "epoch": 16.464926590538337,
+      "grad_norm": 0.21957442164421082,
+      "learning_rate": 9.219544153038462e-05,
+      "loss": 0.0276,
+      "num_input_tokens_seen": 218001232,
+      "step": 100930
+    },
+    {
+      "epoch": 16.465742251223492,
+      "grad_norm": 0.0020057554356753826,
+      "learning_rate": 9.21542607832087e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 218011824,
+      "step": 100935
+    },
+    {
+      "epoch": 16.466557911908644,
+      "grad_norm": 0.001532508060336113,
+      "learning_rate": 9.211308830154441e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 218020624,
+      "step": 100940
+    },
+    {
+      "epoch": 16.4673735725938,
+      "grad_norm": 0.004052693955600262,
+      "learning_rate": 9.20719240862255e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 218031280,
+      "step": 100945
+    },
+    {
+      "epoch": 16.468189233278956,
+      "grad_norm": 0.0012395764933899045,
+      "learning_rate": 9.203076813808687e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 218041520,
+      "step": 100950
+    },
+    {
+      "epoch": 16.46900489396411,
+      "grad_norm": 0.003163372864946723,
+      "learning_rate": 9.198962045796195e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 218051856,
+      "step": 100955
+    },
+    {
+      "epoch": 16.469820554649267,
+      "grad_norm": 0.00656129838898778,
+      "learning_rate": 9.194848104668513e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 218062480,
+      "step": 100960
+    },
+    {
+      "epoch": 16.47063621533442,
+      "grad_norm": 0.0020579954143613577,
+      "learning_rate": 9.190734990508998e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 218073808,
+      "step": 100965
+    },
+    {
+      "epoch": 16.471451876019575,
+      "grad_norm": 0.002411720808595419,
+      "learning_rate": 9.18662270340101e-05,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 218084336,
+      "step": 100970
+    },
+    {
+      "epoch": 16.47226753670473,
+      "grad_norm": 0.41781216859817505,
+      "learning_rate": 9.182511243427888e-05,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 218095408,
+      "step": 100975
+    },
+    {
+      "epoch": 16.473083197389887,
+      "grad_norm": 0.035349469631910324,
+      "learning_rate": 9.178400610672954e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 218106416,
+      "step": 100980
+    },
+    {
+      "epoch": 16.473898858075042,
+      "grad_norm": 0.0007361548487097025,
+      "learning_rate": 9.174290805219521e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 218117840,
+      "step": 100985
+    },
+    {
+      "epoch": 16.474714518760194,
+      "grad_norm": 0.07083853334188461,
+      "learning_rate": 9.170181827150875e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 218127440,
+      "step": 100990
+    },
+    {
+      "epoch": 16.47553017944535,
+      "grad_norm": 0.0019853876437991858,
+      "learning_rate": 9.166073676550291e-05,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 218139568,
+      "step": 100995
+    },
+    {
+      "epoch": 16.476345840130506,
+      "grad_norm": 0.0003953164559789002,
+      "learning_rate": 9.161966353501023e-05,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 218149616,
+      "step": 101000
+    },
+    {
+      "epoch": 16.47716150081566,
+      "grad_norm": 0.008749466389417648,
+      "learning_rate": 9.157859858086315e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 218160560,
+      "step": 101005
+    },
+    {
+      "epoch": 16.477977161500817,
+      "grad_norm": 0.0012293050531297922,
+      "learning_rate": 9.153754190389379e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 218172304,
+      "step": 101010
+    },
+    {
+      "epoch": 16.47879282218597,
+      "grad_norm": 0.007884092628955841,
+      "learning_rate": 9.149649350493456e-05,
+      "loss": 0.079,
+      "num_input_tokens_seen": 218182288,
+      "step": 101015
+    },
+    {
+      "epoch": 16.479608482871125,
+      "grad_norm": 0.0007453529397025704,
+      "learning_rate": 9.145545338481682e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 218193840,
+      "step": 101020
+    },
+    {
+      "epoch": 16.48042414355628,
+      "grad_norm": 0.006361248902976513,
+      "learning_rate": 9.141442154437286e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 218205456,
+      "step": 101025
+    },
+    {
+      "epoch": 16.481239804241437,
+      "grad_norm": 0.028780123218894005,
+      "learning_rate": 9.137339798443372e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 218214896,
+      "step": 101030
+    },
+    {
+      "epoch": 16.482055464926592,
+      "grad_norm": 0.0026272626128047705,
+      "learning_rate": 9.133238270583133e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 218224304,
+      "step": 101035
+    },
+    {
+      "epoch": 16.482871125611744,
+      "grad_norm": 0.0005200458108447492,
+      "learning_rate": 9.129137570939632e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 218235568,
+      "step": 101040
+    },
+    {
+      "epoch": 16.4836867862969,
+      "grad_norm": 0.00038884973037056625,
+      "learning_rate": 9.125037699596039e-05,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 218247056,
+      "step": 101045
+    },
+    {
+      "epoch": 16.484502446982056,
+      "grad_norm": 0.007529503665864468,
+      "learning_rate": 9.12093865663538e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 218257840,
+      "step": 101050
+    },
+    {
+      "epoch": 16.48531810766721,
+      "grad_norm": 0.03659482300281525,
+      "learning_rate": 9.11684044214079e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 218269168,
+      "step": 101055
+    },
+    {
+      "epoch": 16.486133768352367,
+      "grad_norm": 0.008131932467222214,
+      "learning_rate": 9.112743056195261e-05,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 218279440,
+      "step": 101060
+    },
+    {
+      "epoch": 16.48694942903752,
+      "grad_norm": 0.0013752073282375932,
+      "learning_rate": 9.10864649888189e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 218291472,
+      "step": 101065
+    },
+    {
+      "epoch": 16.487765089722675,
+      "grad_norm": 0.010680504143238068,
+      "learning_rate": 9.104550770283648e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 218302096,
+      "step": 101070
+    },
+    {
+      "epoch": 16.48858075040783,
+      "grad_norm": 0.020263204351067543,
+      "learning_rate": 9.100455870483587e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 218312720,
+      "step": 101075
+    },
+    {
+      "epoch": 16.489396411092986,
+      "grad_norm": 0.000559748790692538,
+      "learning_rate": 9.096361799564651e-05,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 218323440,
+      "step": 101080
+    },
+    {
+      "epoch": 16.49021207177814,
+      "grad_norm": 0.028419995680451393,
+      "learning_rate": 9.092268557609856e-05,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 218333616,
+      "step": 101085
+    },
+    {
+      "epoch": 16.491027732463294,
+      "grad_norm": 0.000426318816607818,
+      "learning_rate": 9.088176144702104e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 218345520,
+      "step": 101090
+    },
+    {
+      "epoch": 16.49184339314845,
+      "grad_norm": 0.013602585531771183,
+      "learning_rate": 9.084084560924394e-05,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 218355984,
+      "step": 101095
+    },
+    {
+      "epoch": 16.492659053833606,
+      "grad_norm": 0.002315348945558071,
+      "learning_rate": 9.079993806359587e-05,
+      "loss": 0.1014,
+      "num_input_tokens_seen": 218366832,
+      "step": 101100
+    },
+    {
+      "epoch": 16.49347471451876,
+      "grad_norm": 0.02149783819913864,
+      "learning_rate": 9.075903881090636e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 218375568,
+      "step": 101105
+    },
+    {
+      "epoch": 16.494290375203914,
+      "grad_norm": 0.023237407207489014,
+      "learning_rate": 9.071814785200399e-05,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 218386832,
+      "step": 101110
+    },
+    {
+      "epoch": 16.49510603588907,
+      "grad_norm": 0.0034335225354880095,
+      "learning_rate": 9.067726518771762e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 218398576,
+      "step": 101115
+    },
+    {
+      "epoch": 16.495921696574225,
+      "grad_norm": 0.00745142437517643,
+      "learning_rate": 9.063639081887576e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 218407600,
+      "step": 101120
+    },
+    {
+      "epoch": 16.49673735725938,
+      "grad_norm": 0.029559500515460968,
+      "learning_rate": 9.059552474630672e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 218419376,
+      "step": 101125
+    },
+    {
+      "epoch": 16.497553017944536,
+      "grad_norm": 0.0032735865097492933,
+      "learning_rate": 9.055466697083875e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 218429744,
+      "step": 101130
+    },
+    {
+      "epoch": 16.49836867862969,
+      "grad_norm": 0.7694928050041199,
+      "learning_rate": 9.051381749329984e-05,
+      "loss": 0.0928,
+      "num_input_tokens_seen": 218439536,
+      "step": 101135
+    },
+    {
+      "epoch": 16.499184339314844,
+      "grad_norm": 0.15859928727149963,
+      "learning_rate": 9.04729763145179e-05,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 218451184,
+      "step": 101140
+    },
+    {
+      "epoch": 16.5,
+      "grad_norm": 0.001213204930536449,
+      "learning_rate": 9.043214343532063e-05,
+      "loss": 0.01,
+      "num_input_tokens_seen": 218462448,
+      "step": 101145
+    },
+    {
+      "epoch": 16.500815660685156,
+      "grad_norm": 0.03677457943558693,
+      "learning_rate": 9.039131885653556e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 218474256,
+      "step": 101150
+    },
+    {
+      "epoch": 16.50163132137031,
+      "grad_norm": 0.002333037555217743,
+      "learning_rate": 9.035050257898991e-05,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 218485520,
+      "step": 101155
+    },
+    {
+      "epoch": 16.502446982055464,
+      "grad_norm": 0.004182538483291864,
+      "learning_rate": 9.030969460351124e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 218496432,
+      "step": 101160
+    },
+    {
+      "epoch": 16.50326264274062,
+      "grad_norm": 0.000874399789609015,
+      "learning_rate": 9.026889493092605e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 218507344,
+      "step": 101165
+    },
+    {
+      "epoch": 16.504078303425775,
+      "grad_norm": 0.007135962136089802,
+      "learning_rate": 9.022810356206179e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 218518704,
+      "step": 101170
+    },
+    {
+      "epoch": 16.50489396411093,
+      "grad_norm": 0.3483419716358185,
+      "learning_rate": 9.018732049774459e-05,
+      "loss": 0.0233,
+      "num_input_tokens_seen": 218529744,
+      "step": 101175
+    },
+    {
+      "epoch": 16.505709624796086,
+      "grad_norm": 0.009324166923761368,
+      "learning_rate": 9.014654573880143e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 218540400,
+      "step": 101180
+    },
+    {
+      "epoch": 16.50652528548124,
+      "grad_norm": 0.004226782359182835,
+      "learning_rate": 9.010577928605823e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 218552272,
+      "step": 101185
+    },
+    {
+      "epoch": 16.507340946166394,
+      "grad_norm": 0.06776424497365952,
+      "learning_rate": 9.00650211403417e-05,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 218561424,
+      "step": 101190
+    },
+    {
+      "epoch": 16.50815660685155,
+      "grad_norm": 0.03477175533771515,
+      "learning_rate": 9.002427130247726e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 218572624,
+      "step": 101195
+    },
+    {
+      "epoch": 16.508972267536706,
+      "grad_norm": 0.00041841110214591026,
+      "learning_rate": 8.998352977329127e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 218583376,
+      "step": 101200
+    },
+    {
+      "epoch": 16.50978792822186,
+      "grad_norm": 0.004782752133905888,
+      "learning_rate": 8.994279655360899e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 218594224,
+      "step": 101205
+    },
+    {
+      "epoch": 16.510603588907014,
+      "grad_norm": 0.37345457077026367,
+      "learning_rate": 8.99020716442564e-05,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 218604880,
+      "step": 101210
+    },
+    {
+      "epoch": 16.51141924959217,
+      "grad_norm": 0.002796668093651533,
+      "learning_rate": 8.986135504605831e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 218615152,
+      "step": 101215
+    },
+    {
+      "epoch": 16.512234910277325,
+      "grad_norm": 2.6558995246887207,
+      "learning_rate": 8.982064675984025e-05,
+      "loss": 0.0671,
+      "num_input_tokens_seen": 218625904,
+      "step": 101220
+    },
+    {
+      "epoch": 16.51305057096248,
+      "grad_norm": 0.0028051333501935005,
+      "learning_rate": 8.977994678642714e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 218636976,
+      "step": 101225
+    },
+    {
+      "epoch": 16.513866231647633,
+      "grad_norm": 0.0031697454396635294,
+      "learning_rate": 8.973925512664383e-05,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 218647408,
+      "step": 101230
+    },
+    {
+      "epoch": 16.51468189233279,
+      "grad_norm": 0.8315576910972595,
+      "learning_rate": 8.969857178131497e-05,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 218658864,
+      "step": 101235
+    },
+    {
+      "epoch": 16.515497553017944,
+      "grad_norm": 0.011037657037377357,
+      "learning_rate": 8.965789675126501e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 218670032,
+      "step": 101240
+    },
+    {
+      "epoch": 16.5163132137031,
+      "grad_norm": 0.0005106102908030152,
+      "learning_rate": 8.961723003731837e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 218681424,
+      "step": 101245
+    },
+    {
+      "epoch": 16.517128874388256,
+      "grad_norm": 0.034446511417627335,
+      "learning_rate": 8.95765716402992e-05,
+      "loss": 0.0586,
+      "num_input_tokens_seen": 218692208,
+      "step": 101250
+    },
+    {
+      "epoch": 16.517944535073408,
+      "grad_norm": 0.007385551929473877,
+      "learning_rate": 8.953592156103141e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 218703024,
+      "step": 101255
+    },
+    {
+      "epoch": 16.518760195758563,
+      "grad_norm": 0.017408102750778198,
+      "learning_rate": 8.949527980033889e-05,
+      "loss": 0.007,
+      "num_input_tokens_seen": 218713840,
+      "step": 101260
+    },
+    {
+      "epoch": 16.51957585644372,
+      "grad_norm": 0.0040249088779091835,
+      "learning_rate": 8.945464635904532e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 218724624,
+      "step": 101265
+    },
+    {
+      "epoch": 16.520391517128875,
+      "grad_norm": 0.000684377911966294,
+      "learning_rate": 8.94140212379741e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 218736080,
+      "step": 101270
+    },
+    {
+      "epoch": 16.52120717781403,
+      "grad_norm": 0.06121218577027321,
+      "learning_rate": 8.937340443794867e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 218745872,
+      "step": 101275
+    },
+    {
+      "epoch": 16.522022838499183,
+      "grad_norm": 0.004632898606359959,
+      "learning_rate": 8.933279595979205e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 218757136,
+      "step": 101280
+    },
+    {
+      "epoch": 16.52283849918434,
+      "grad_norm": 0.002208688296377659,
+      "learning_rate": 8.929219580432735e-05,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 218768080,
+      "step": 101285
+    },
+    {
+      "epoch": 16.523654159869494,
+      "grad_norm": 0.0014574574306607246,
+      "learning_rate": 8.925160397237725e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 218779472,
+      "step": 101290
+    },
+    {
+      "epoch": 16.52446982055465,
+      "grad_norm": 0.022507159039378166,
+      "learning_rate": 8.921102046476454e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 218790064,
+      "step": 101295
+    },
+    {
+      "epoch": 16.525285481239806,
+      "grad_norm": 0.22740155458450317,
+      "learning_rate": 8.917044528231145e-05,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 218800720,
+      "step": 101300
+    },
+    {
+      "epoch": 16.526101141924958,
+      "grad_norm": 0.0901143029332161,
+      "learning_rate": 8.912987842584075e-05,
+      "loss": 0.0502,
+      "num_input_tokens_seen": 218810512,
+      "step": 101305
+    },
+    {
+      "epoch": 16.526916802610113,
+      "grad_norm": 0.03165145590901375,
+      "learning_rate": 8.908931989617403e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 218820432,
+      "step": 101310
+    },
+    {
+      "epoch": 16.52773246329527,
+      "grad_norm": 2.9440736770629883,
+      "learning_rate": 8.904876969413372e-05,
+      "loss": 0.0321,
+      "num_input_tokens_seen": 218831152,
+      "step": 101315
+    },
+    {
+      "epoch": 16.528548123980425,
+      "grad_norm": 0.015373525209724903,
+      "learning_rate": 8.900822782054124e-05,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 218842640,
+      "step": 101320
+    },
+    {
+      "epoch": 16.52936378466558,
+      "grad_norm": 0.10055476427078247,
+      "learning_rate": 8.896769427621848e-05,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 218852720,
+      "step": 101325
+    },
+    {
+      "epoch": 16.530179445350733,
+      "grad_norm": 0.004800902679562569,
+      "learning_rate": 8.892716906198683e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 218862288,
+      "step": 101330
+    },
+    {
+      "epoch": 16.53099510603589,
+      "grad_norm": 0.00658207293599844,
+      "learning_rate": 8.88866521786676e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 218873136,
+      "step": 101335
+    },
+    {
+      "epoch": 16.531810766721044,
+      "grad_norm": 0.0034926505759358406,
+      "learning_rate": 8.884614362708188e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 218884496,
+      "step": 101340
+    },
+    {
+      "epoch": 16.5326264274062,
+      "grad_norm": 0.0007944152457639575,
+      "learning_rate": 8.88056434080507e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 218894800,
+      "step": 101345
+    },
+    {
+      "epoch": 16.533442088091356,
+      "grad_norm": 0.01701800711452961,
+      "learning_rate": 8.876515152239472e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 218904688,
+      "step": 101350
+    },
+    {
+      "epoch": 16.534257748776508,
+      "grad_norm": 0.008906069211661816,
+      "learning_rate": 8.872466797093464e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 218914896,
+      "step": 101355
+    },
+    {
+      "epoch": 16.535073409461663,
+      "grad_norm": 0.045917339622974396,
+      "learning_rate": 8.868419275449096e-05,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 218927632,
+      "step": 101360
+    },
+    {
+      "epoch": 16.53588907014682,
+      "grad_norm": 0.053435854613780975,
+      "learning_rate": 8.864372587388387e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 218938928,
+      "step": 101365
+    },
+    {
+      "epoch": 16.536704730831975,
+      "grad_norm": 0.002096776617690921,
+      "learning_rate": 8.860326732993352e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 218949168,
+      "step": 101370
+    },
+    {
+      "epoch": 16.53752039151713,
+      "grad_norm": 0.0024299444630742073,
+      "learning_rate": 8.856281712345988e-05,
+      "loss": 0.0161,
+      "num_input_tokens_seen": 218959344,
+      "step": 101375
+    },
+    {
+      "epoch": 16.538336052202283,
+      "grad_norm": 0.0005039930110797286,
+      "learning_rate": 8.852237525528262e-05,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 218970416,
+      "step": 101380
+    },
+    {
+      "epoch": 16.53915171288744,
+      "grad_norm": 0.0017340783961117268,
+      "learning_rate": 8.848194172622148e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 218982320,
+      "step": 101385
+    },
+    {
+      "epoch": 16.539967373572594,
+      "grad_norm": 0.14250528812408447,
+      "learning_rate": 8.844151653709581e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 218992848,
+      "step": 101390
+    },
+    {
+      "epoch": 16.54078303425775,
+      "grad_norm": 0.0025329969357699156,
+      "learning_rate": 8.840109968872495e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 219004464,
+      "step": 101395
+    },
+    {
+      "epoch": 16.541598694942905,
+      "grad_norm": 0.0013825197238475084,
+      "learning_rate": 8.836069118192791e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 219015952,
+      "step": 101400
+    },
+    {
+      "epoch": 16.542414355628058,
+      "grad_norm": 0.0008943129214458168,
+      "learning_rate": 8.83202910175237e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 219026320,
+      "step": 101405
+    },
+    {
+      "epoch": 16.543230016313213,
+      "grad_norm": 0.00017344093066640198,
+      "learning_rate": 8.827989919633106e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 219036624,
+      "step": 101410
+    },
+    {
+      "epoch": 16.54404567699837,
+      "grad_norm": 0.0071393647231161594,
+      "learning_rate": 8.82395157191685e-05,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 219046896,
+      "step": 101415
+    },
+    {
+      "epoch": 16.544861337683525,
+      "grad_norm": 0.0163432527333498,
+      "learning_rate": 8.819914058685458e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 219057904,
+      "step": 101420
+    },
+    {
+      "epoch": 16.545676998368677,
+      "grad_norm": 0.5346035957336426,
+      "learning_rate": 8.815877380020743e-05,
+      "loss": 0.0643,
+      "num_input_tokens_seen": 219067760,
+      "step": 101425
+    },
+    {
+      "epoch": 16.546492659053833,
+      "grad_norm": 0.00447038421407342,
+      "learning_rate": 8.811841536004505e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 219078672,
+      "step": 101430
+    },
+    {
+      "epoch": 16.54730831973899,
+      "grad_norm": 0.02596464194357395,
+      "learning_rate": 8.807806526718565e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 219089424,
+      "step": 101435
+    },
+    {
+      "epoch": 16.548123980424144,
+      "grad_norm": 0.0009697464993223548,
+      "learning_rate": 8.803772352244683e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 219099920,
+      "step": 101440
+    },
+    {
+      "epoch": 16.5489396411093,
+      "grad_norm": 0.000986489118076861,
+      "learning_rate": 8.799739012664615e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 219110864,
+      "step": 101445
+    },
+    {
+      "epoch": 16.549755301794452,
+      "grad_norm": 0.03657018765807152,
+      "learning_rate": 8.795706508060102e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 219121616,
+      "step": 101450
+    },
+    {
+      "epoch": 16.550570962479608,
+      "grad_norm": 0.12137595564126968,
+      "learning_rate": 8.791674838512864e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 219133328,
+      "step": 101455
+    },
+    {
+      "epoch": 16.551386623164763,
+      "grad_norm": 0.0015651886351406574,
+      "learning_rate": 8.787644004104617e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 219144016,
+      "step": 101460
+    },
+    {
+      "epoch": 16.55220228384992,
+      "grad_norm": 0.002112816786393523,
+      "learning_rate": 8.78361400491704e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 219154992,
+      "step": 101465
+    },
+    {
+      "epoch": 16.553017944535075,
+      "grad_norm": 0.01039827335625887,
+      "learning_rate": 8.779584841031818e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 219165104,
+      "step": 101470
+    },
+    {
+      "epoch": 16.553833605220227,
+      "grad_norm": 0.009416126646101475,
+      "learning_rate": 8.775556512530597e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 219176496,
+      "step": 101475
+    },
+    {
+      "epoch": 16.554649265905383,
+      "grad_norm": 0.005137943662703037,
+      "learning_rate": 8.771529019495022e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 219185584,
+      "step": 101480
+    },
+    {
+      "epoch": 16.55546492659054,
+      "grad_norm": 0.0015324490377679467,
+      "learning_rate": 8.767502362006713e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 219196048,
+      "step": 101485
+    },
+    {
+      "epoch": 16.556280587275694,
+      "grad_norm": 0.006908372975885868,
+      "learning_rate": 8.763476540147275e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 219206704,
+      "step": 101490
+    },
+    {
+      "epoch": 16.55709624796085,
+      "grad_norm": 0.0011675909627228975,
+      "learning_rate": 8.759451553998299e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 219216880,
+      "step": 101495
+    },
+    {
+      "epoch": 16.557911908646002,
+      "grad_norm": 0.3666263818740845,
+      "learning_rate": 8.755427403641352e-05,
+      "loss": 0.0224,
+      "num_input_tokens_seen": 219227216,
+      "step": 101500
+    },
+    {
+      "epoch": 16.558727569331158,
+      "grad_norm": 0.13365083932876587,
+      "learning_rate": 8.751404089157993e-05,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 219237136,
+      "step": 101505
+    },
+    {
+      "epoch": 16.559543230016313,
+      "grad_norm": 0.010968620888888836,
+      "learning_rate": 8.747381610629762e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 219247760,
+      "step": 101510
+    },
+    {
+      "epoch": 16.56035889070147,
+      "grad_norm": 0.02978862263262272,
+      "learning_rate": 8.74335996813817e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 219259408,
+      "step": 101515
+    },
+    {
+      "epoch": 16.561174551386625,
+      "grad_norm": 0.00066575180971995,
+      "learning_rate": 8.739339161764725e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 219271216,
+      "step": 101520
+    },
+    {
+      "epoch": 16.561990212071777,
+      "grad_norm": 0.680747389793396,
+      "learning_rate": 8.735319191590918e-05,
+      "loss": 0.14,
+      "num_input_tokens_seen": 219281904,
+      "step": 101525
+    },
+    {
+      "epoch": 16.562805872756933,
+      "grad_norm": 0.08297364413738251,
+      "learning_rate": 8.731300057698216e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 219292848,
+      "step": 101530
+    },
+    {
+      "epoch": 16.563621533442088,
+      "grad_norm": 0.005971312522888184,
+      "learning_rate": 8.727281760168055e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 219303888,
+      "step": 101535
+    },
+    {
+      "epoch": 16.564437194127244,
+      "grad_norm": 0.0019951933063566685,
+      "learning_rate": 8.723264299081912e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 219315120,
+      "step": 101540
+    },
+    {
+      "epoch": 16.5652528548124,
+      "grad_norm": 0.015224998816847801,
+      "learning_rate": 8.719247674521157e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 219325648,
+      "step": 101545
+    },
+    {
+      "epoch": 16.56606851549755,
+      "grad_norm": 0.009353390894830227,
+      "learning_rate": 8.715231886567248e-05,
+      "loss": 0.0731,
+      "num_input_tokens_seen": 219336496,
+      "step": 101550
+    },
+    {
+      "epoch": 16.566884176182707,
+      "grad_norm": 0.0951535701751709,
+      "learning_rate": 8.711216935301508e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 219347120,
+      "step": 101555
+    },
+    {
+      "epoch": 16.567699836867863,
+      "grad_norm": 0.0017404680838808417,
+      "learning_rate": 8.70720282080536e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 219357744,
+      "step": 101560
+    },
+    {
+      "epoch": 16.56851549755302,
+      "grad_norm": 0.005474665202200413,
+      "learning_rate": 8.703189543160106e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 219368848,
+      "step": 101565
+    },
+    {
+      "epoch": 16.569331158238175,
+      "grad_norm": 0.07186252623796463,
+      "learning_rate": 8.699177102447126e-05,
+      "loss": 0.0842,
+      "num_input_tokens_seen": 219379760,
+      "step": 101570
+    },
+    {
+      "epoch": 16.570146818923327,
+      "grad_norm": 0.04543714597821236,
+      "learning_rate": 8.695165498747698e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 219389488,
+      "step": 101575
+    },
+    {
+      "epoch": 16.570962479608482,
+      "grad_norm": 0.01591755822300911,
+      "learning_rate": 8.691154732143147e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 219400400,
+      "step": 101580
+    },
+    {
+      "epoch": 16.571778140293638,
+      "grad_norm": 0.2322196513414383,
+      "learning_rate": 8.687144802714753e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 219412208,
+      "step": 101585
+    },
+    {
+      "epoch": 16.572593800978794,
+      "grad_norm": 0.0029731979593634605,
+      "learning_rate": 8.683135710543777e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 219423888,
+      "step": 101590
+    },
+    {
+      "epoch": 16.57340946166395,
+      "grad_norm": 0.0015354871284216642,
+      "learning_rate": 8.679127455711466e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 219434128,
+      "step": 101595
+    },
+    {
+      "epoch": 16.5742251223491,
+      "grad_norm": 0.07060811668634415,
+      "learning_rate": 8.675120038299062e-05,
+      "loss": 0.0883,
+      "num_input_tokens_seen": 219445328,
+      "step": 101600
+    },
+    {
+      "epoch": 16.575040783034257,
+      "grad_norm": 0.0051761167123913765,
+      "learning_rate": 8.671113458387775e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 219456976,
+      "step": 101605
+    },
+    {
+      "epoch": 16.575856443719413,
+      "grad_norm": 0.5322887897491455,
+      "learning_rate": 8.667107716058798e-05,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 219467856,
+      "step": 101610
+    },
+    {
+      "epoch": 16.57667210440457,
+      "grad_norm": 0.0018487609922885895,
+      "learning_rate": 8.66310281139332e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 219476944,
+      "step": 101615
+    },
+    {
+      "epoch": 16.57748776508972,
+      "grad_norm": 0.017845647409558296,
+      "learning_rate": 8.659098744472505e-05,
+      "loss": 0.0113,
+      "num_input_tokens_seen": 219487728,
+      "step": 101620
+    },
+    {
+      "epoch": 16.578303425774877,
+      "grad_norm": 0.057124871760606766,
+      "learning_rate": 8.655095515377498e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 219499120,
+      "step": 101625
+    },
+    {
+      "epoch": 16.579119086460032,
+      "grad_norm": 0.0012420967686921358,
+      "learning_rate": 8.65109312418943e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 219510192,
+      "step": 101630
+    },
+    {
+      "epoch": 16.579934747145188,
+      "grad_norm": 0.00048453285126015544,
+      "learning_rate": 8.647091570989413e-05,
+      "loss": 0.0225,
+      "num_input_tokens_seen": 219520848,
+      "step": 101635
+    },
+    {
+      "epoch": 16.580750407830344,
+      "grad_norm": 0.0012041418813169003,
+      "learning_rate": 8.643090855858549e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 219530896,
+      "step": 101640
+    },
+    {
+      "epoch": 16.581566068515496,
+      "grad_norm": 0.03431824967265129,
+      "learning_rate": 8.639090978877912e-05,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 219542576,
+      "step": 101645
+    },
+    {
+      "epoch": 16.58238172920065,
+      "grad_norm": 0.0006362311542034149,
+      "learning_rate": 8.635091940128548e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 219553776,
+      "step": 101650
+    },
+    {
+      "epoch": 16.583197389885807,
+      "grad_norm": 0.0020954282954335213,
+      "learning_rate": 8.631093739691553e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 219565200,
+      "step": 101655
+    },
+    {
+      "epoch": 16.584013050570963,
+      "grad_norm": 0.16877447068691254,
+      "learning_rate": 8.627096377647898e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 219576976,
+      "step": 101660
+    },
+    {
+      "epoch": 16.58482871125612,
+      "grad_norm": 0.004283056128770113,
+      "learning_rate": 8.623099854078643e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 219588336,
+      "step": 101665
+    },
+    {
+      "epoch": 16.58564437194127,
+      "grad_norm": 0.03166608139872551,
+      "learning_rate": 8.619104169064734e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 219600144,
+      "step": 101670
+    },
+    {
+      "epoch": 16.586460032626427,
+      "grad_norm": 0.03157994523644447,
+      "learning_rate": 8.615109322687203e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 219610384,
+      "step": 101675
+    },
+    {
+      "epoch": 16.587275693311582,
+      "grad_norm": 0.0213120449334383,
+      "learning_rate": 8.611115315026951e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 219620880,
+      "step": 101680
+    },
+    {
+      "epoch": 16.588091353996738,
+      "grad_norm": 0.2438468486070633,
+      "learning_rate": 8.607122146164986e-05,
+      "loss": 0.009,
+      "num_input_tokens_seen": 219631856,
+      "step": 101685
+    },
+    {
+      "epoch": 16.588907014681894,
+      "grad_norm": 0.027045302093029022,
+      "learning_rate": 8.60312981618217e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 219643376,
+      "step": 101690
+    },
+    {
+      "epoch": 16.589722675367046,
+      "grad_norm": 0.013801125809550285,
+      "learning_rate": 8.599138325159472e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 219655248,
+      "step": 101695
+    },
+    {
+      "epoch": 16.5905383360522,
+      "grad_norm": 0.00023734763090033084,
+      "learning_rate": 8.595147673177728e-05,
+      "loss": 0.0838,
+      "num_input_tokens_seen": 219665360,
+      "step": 101700
+    },
+    {
+      "epoch": 16.591353996737357,
+      "grad_norm": 0.0007523433305323124,
+      "learning_rate": 8.591157860317871e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 219676848,
+      "step": 101705
+    },
+    {
+      "epoch": 16.592169657422513,
+      "grad_norm": 0.0046799443662166595,
+      "learning_rate": 8.587168886660707e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 219688272,
+      "step": 101710
+    },
+    {
+      "epoch": 16.59298531810767,
+      "grad_norm": 0.051697228103876114,
+      "learning_rate": 8.583180752287123e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 219698160,
+      "step": 101715
+    },
+    {
+      "epoch": 16.59380097879282,
+      "grad_norm": 0.0009116280707530677,
+      "learning_rate": 8.579193457277895e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 219708400,
+      "step": 101720
+    },
+    {
+      "epoch": 16.594616639477977,
+      "grad_norm": 0.001496818382292986,
+      "learning_rate": 8.575207001713875e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 219718640,
+      "step": 101725
+    },
+    {
+      "epoch": 16.595432300163132,
+      "grad_norm": 0.007261293474584818,
+      "learning_rate": 8.571221385675832e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 219730608,
+      "step": 101730
+    },
+    {
+      "epoch": 16.596247960848288,
+      "grad_norm": 0.07469271868467331,
+      "learning_rate": 8.567236609244544e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 219740656,
+      "step": 101735
+    },
+    {
+      "epoch": 16.597063621533444,
+      "grad_norm": 0.005149087402969599,
+      "learning_rate": 8.563252672500771e-05,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 219750896,
+      "step": 101740
+    },
+    {
+      "epoch": 16.597879282218596,
+      "grad_norm": 0.011800228618085384,
+      "learning_rate": 8.559269575525247e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 219762256,
+      "step": 101745
+    },
+    {
+      "epoch": 16.59869494290375,
+      "grad_norm": 0.01077636331319809,
+      "learning_rate": 8.555287318398697e-05,
+      "loss": 0.0302,
+      "num_input_tokens_seen": 219773104,
+      "step": 101750
+    },
+    {
+      "epoch": 16.599510603588907,
+      "grad_norm": 0.01085708662867546,
+      "learning_rate": 8.551305901201822e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 219784592,
+      "step": 101755
+    },
+    {
+      "epoch": 16.600326264274063,
+      "grad_norm": 0.01687583513557911,
+      "learning_rate": 8.54732532401532e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 219796112,
+      "step": 101760
+    },
+    {
+      "epoch": 16.601141924959215,
+      "grad_norm": 0.01624632440507412,
+      "learning_rate": 8.543345586919854e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 219806288,
+      "step": 101765
+    },
+    {
+      "epoch": 16.60195758564437,
+      "grad_norm": 0.013760429807007313,
+      "learning_rate": 8.53936668999608e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 219816496,
+      "step": 101770
+    },
+    {
+      "epoch": 16.602773246329527,
+      "grad_norm": 0.004715532064437866,
+      "learning_rate": 8.535388633324625e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 219828336,
+      "step": 101775
+    },
+    {
+      "epoch": 16.603588907014682,
+      "grad_norm": 0.0017586436588317156,
+      "learning_rate": 8.531411416986152e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 219839568,
+      "step": 101780
+    },
+    {
+      "epoch": 16.604404567699838,
+      "grad_norm": 0.0021014027297496796,
+      "learning_rate": 8.5274350410612e-05,
+      "loss": 0.0637,
+      "num_input_tokens_seen": 219849680,
+      "step": 101785
+    },
+    {
+      "epoch": 16.605220228384994,
+      "grad_norm": 0.007624736521393061,
+      "learning_rate": 8.523459505630415e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 219861232,
+      "step": 101790
+    },
+    {
+      "epoch": 16.606035889070146,
+      "grad_norm": 0.0007187062292359769,
+      "learning_rate": 8.51948481077432e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 219872624,
+      "step": 101795
+    },
+    {
+      "epoch": 16.6068515497553,
+      "grad_norm": 0.02473929524421692,
+      "learning_rate": 8.515510956573507e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 219883952,
+      "step": 101800
+    },
+    {
+      "epoch": 16.607667210440457,
+      "grad_norm": 0.004971285816282034,
+      "learning_rate": 8.511537943108466e-05,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 219895408,
+      "step": 101805
+    },
+    {
+      "epoch": 16.608482871125613,
+      "grad_norm": 0.0360880121588707,
+      "learning_rate": 8.507565770459769e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 219906224,
+      "step": 101810
+    },
+    {
+      "epoch": 16.609298531810765,
+      "grad_norm": 0.001713123987428844,
+      "learning_rate": 8.503594438707856e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 219919248,
+      "step": 101815
+    },
+    {
+      "epoch": 16.61011419249592,
+      "grad_norm": 0.0006942551117390394,
+      "learning_rate": 8.499623947933276e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 219930704,
+      "step": 101820
+    },
+    {
+      "epoch": 16.610929853181077,
+      "grad_norm": 0.00033700844505801797,
+      "learning_rate": 8.495654298216438e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 219941232,
+      "step": 101825
+    },
+    {
+      "epoch": 16.611745513866232,
+      "grad_norm": 0.00037762854481115937,
+      "learning_rate": 8.49168548963784e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 219951472,
+      "step": 101830
+    },
+    {
+      "epoch": 16.612561174551388,
+      "grad_norm": 0.009005128405988216,
+      "learning_rate": 8.487717522277872e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 219961936,
+      "step": 101835
+    },
+    {
+      "epoch": 16.61337683523654,
+      "grad_norm": 0.0003597979375626892,
+      "learning_rate": 8.483750396216988e-05,
+      "loss": 0.0989,
+      "num_input_tokens_seen": 219972976,
+      "step": 101840
+    },
+    {
+      "epoch": 16.614192495921696,
+      "grad_norm": 0.009030995890498161,
+      "learning_rate": 8.479784111535549e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 219983760,
+      "step": 101845
+    },
+    {
+      "epoch": 16.61500815660685,
+      "grad_norm": 0.025649599730968475,
+      "learning_rate": 8.475818668313984e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 219993808,
+      "step": 101850
+    },
+    {
+      "epoch": 16.615823817292007,
+      "grad_norm": 0.0020423270761966705,
+      "learning_rate": 8.471854066632607e-05,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 220004560,
+      "step": 101855
+    },
+    {
+      "epoch": 16.616639477977163,
+      "grad_norm": 0.000799459929112345,
+      "learning_rate": 8.467890306571795e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 220016816,
+      "step": 101860
+    },
+    {
+      "epoch": 16.617455138662315,
+      "grad_norm": 0.006219548638910055,
+      "learning_rate": 8.463927388211878e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 220028304,
+      "step": 101865
+    },
+    {
+      "epoch": 16.61827079934747,
+      "grad_norm": 0.010150066576898098,
+      "learning_rate": 8.459965311633161e-05,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 220038768,
+      "step": 101870
+    },
+    {
+      "epoch": 16.619086460032626,
+      "grad_norm": 0.12095730751752853,
+      "learning_rate": 8.456004076915952e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 220049136,
+      "step": 101875
+    },
+    {
+      "epoch": 16.619902120717782,
+      "grad_norm": 0.05160725861787796,
+      "learning_rate": 8.452043684140514e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 220060048,
+      "step": 101880
+    },
+    {
+      "epoch": 16.620717781402938,
+      "grad_norm": 0.08182302862405777,
+      "learning_rate": 8.448084133387124e-05,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 220071088,
+      "step": 101885
+    },
+    {
+      "epoch": 16.62153344208809,
+      "grad_norm": 0.005083407275378704,
+      "learning_rate": 8.444125424736016e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 220081712,
+      "step": 101890
+    },
+    {
+      "epoch": 16.622349102773246,
+      "grad_norm": 0.004309537820518017,
+      "learning_rate": 8.440167558267431e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 220092016,
+      "step": 101895
+    },
+    {
+      "epoch": 16.6231647634584,
+      "grad_norm": 0.18933819234371185,
+      "learning_rate": 8.436210534061567e-05,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 220104464,
+      "step": 101900
+    },
+    {
+      "epoch": 16.623980424143557,
+      "grad_norm": 0.07430551201105118,
+      "learning_rate": 8.432254352198626e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 220115184,
+      "step": 101905
+    },
+    {
+      "epoch": 16.624796084828713,
+      "grad_norm": 0.046566374599933624,
+      "learning_rate": 8.428299012758778e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 220125104,
+      "step": 101910
+    },
+    {
+      "epoch": 16.625611745513865,
+      "grad_norm": 0.047151170670986176,
+      "learning_rate": 8.424344515822197e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 220136496,
+      "step": 101915
+    },
+    {
+      "epoch": 16.62642740619902,
+      "grad_norm": 0.0035677056293934584,
+      "learning_rate": 8.420390861468996e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 220146928,
+      "step": 101920
+    },
+    {
+      "epoch": 16.627243066884176,
+      "grad_norm": 0.0034210113808512688,
+      "learning_rate": 8.416438049779351e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 220156752,
+      "step": 101925
+    },
+    {
+      "epoch": 16.628058727569332,
+      "grad_norm": 0.0017582608852535486,
+      "learning_rate": 8.412486080833315e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 220168048,
+      "step": 101930
+    },
+    {
+      "epoch": 16.628874388254488,
+      "grad_norm": 0.0009029234643094242,
+      "learning_rate": 8.408534954711034e-05,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 220178448,
+      "step": 101935
+    },
+    {
+      "epoch": 16.62969004893964,
+      "grad_norm": 0.8179956078529358,
+      "learning_rate": 8.404584671492526e-05,
+      "loss": 0.0238,
+      "num_input_tokens_seen": 220189488,
+      "step": 101940
+    },
+    {
+      "epoch": 16.630505709624796,
+      "grad_norm": 0.0009043613681569695,
+      "learning_rate": 8.400635231257902e-05,
+      "loss": 0.0212,
+      "num_input_tokens_seen": 220201008,
+      "step": 101945
+    },
+    {
+      "epoch": 16.63132137030995,
+      "grad_norm": 0.043483562767505646,
+      "learning_rate": 8.396686634087159e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 220212464,
+      "step": 101950
+    },
+    {
+      "epoch": 16.632137030995107,
+      "grad_norm": 0.02974863536655903,
+      "learning_rate": 8.392738880060358e-05,
+      "loss": 0.0283,
+      "num_input_tokens_seen": 220221744,
+      "step": 101955
+    },
+    {
+      "epoch": 16.63295269168026,
+      "grad_norm": 0.036095499992370605,
+      "learning_rate": 8.388791969257458e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 220233232,
+      "step": 101960
+    },
+    {
+      "epoch": 16.633768352365415,
+      "grad_norm": 0.0013275218661874533,
+      "learning_rate": 8.384845901758498e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 220244240,
+      "step": 101965
+    },
+    {
+      "epoch": 16.63458401305057,
+      "grad_norm": 0.0053516267798841,
+      "learning_rate": 8.380900677643421e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 220255536,
+      "step": 101970
+    },
+    {
+      "epoch": 16.635399673735726,
+      "grad_norm": 0.0003697921638377011,
+      "learning_rate": 8.376956296992195e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 220267728,
+      "step": 101975
+    },
+    {
+      "epoch": 16.636215334420882,
+      "grad_norm": 0.0016742395237088203,
+      "learning_rate": 8.373012759884746e-05,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 220279088,
+      "step": 101980
+    },
+    {
+      "epoch": 16.637030995106034,
+      "grad_norm": 0.01789051480591297,
+      "learning_rate": 8.369070066401003e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 220289296,
+      "step": 101985
+    },
+    {
+      "epoch": 16.63784665579119,
+      "grad_norm": 0.008225271478295326,
+      "learning_rate": 8.365128216620871e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 220297744,
+      "step": 101990
+    },
+    {
+      "epoch": 16.638662316476346,
+      "grad_norm": 0.07070305198431015,
+      "learning_rate": 8.361187210624232e-05,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 220309712,
+      "step": 101995
+    },
+    {
+      "epoch": 16.6394779771615,
+      "grad_norm": 3.6314432621002197,
+      "learning_rate": 8.357247048490957e-05,
+      "loss": 0.0253,
+      "num_input_tokens_seen": 220320848,
+      "step": 102000
+    },
+    {
+      "epoch": 16.640293637846657,
+      "grad_norm": 0.003030292922630906,
+      "learning_rate": 8.353307730300897e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 220331248,
+      "step": 102005
+    },
+    {
+      "epoch": 16.64110929853181,
+      "grad_norm": 0.0020804372616112232,
+      "learning_rate": 8.349369256133888e-05,
+      "loss": 0.0684,
+      "num_input_tokens_seen": 220341488,
+      "step": 102010
+    },
+    {
+      "epoch": 16.641924959216965,
+      "grad_norm": 0.008241880685091019,
+      "learning_rate": 8.345431626069744e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 220352656,
+      "step": 102015
+    },
+    {
+      "epoch": 16.64274061990212,
+      "grad_norm": 0.012514442205429077,
+      "learning_rate": 8.34149484018828e-05,
+      "loss": 0.0595,
+      "num_input_tokens_seen": 220364080,
+      "step": 102020
+    },
+    {
+      "epoch": 16.643556280587276,
+      "grad_norm": 0.013286514207720757,
+      "learning_rate": 8.337558898569264e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 220375056,
+      "step": 102025
+    },
+    {
+      "epoch": 16.644371941272432,
+      "grad_norm": 0.003999212756752968,
+      "learning_rate": 8.333623801292472e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 220386832,
+      "step": 102030
+    },
+    {
+      "epoch": 16.645187601957584,
+      "grad_norm": 0.013726749457418919,
+      "learning_rate": 8.329689548437652e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 220397776,
+      "step": 102035
+    },
+    {
+      "epoch": 16.64600326264274,
+      "grad_norm": 0.029906732961535454,
+      "learning_rate": 8.325756140084533e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 220408528,
+      "step": 102040
+    },
+    {
+      "epoch": 16.646818923327896,
+      "grad_norm": 0.0009055176051333547,
+      "learning_rate": 8.321823576312837e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 220419888,
+      "step": 102045
+    },
+    {
+      "epoch": 16.64763458401305,
+      "grad_norm": 0.009986934252083302,
+      "learning_rate": 8.317891857202253e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 220431056,
+      "step": 102050
+    },
+    {
+      "epoch": 16.648450244698207,
+      "grad_norm": 0.10870281606912613,
+      "learning_rate": 8.313960982832475e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 220441360,
+      "step": 102055
+    },
+    {
+      "epoch": 16.64926590538336,
+      "grad_norm": 0.03312503546476364,
+      "learning_rate": 8.310030953283154e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 220452528,
+      "step": 102060
+    },
+    {
+      "epoch": 16.650081566068515,
+      "grad_norm": 0.0009839548729360104,
+      "learning_rate": 8.30610176863394e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 220463600,
+      "step": 102065
+    },
+    {
+      "epoch": 16.65089722675367,
+      "grad_norm": 0.008478997275233269,
+      "learning_rate": 8.302173428964472e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 220474256,
+      "step": 102070
+    },
+    {
+      "epoch": 16.651712887438826,
+      "grad_norm": 0.00024375740031246096,
+      "learning_rate": 8.298245934354353e-05,
+      "loss": 0.0211,
+      "num_input_tokens_seen": 220484912,
+      "step": 102075
+    },
+    {
+      "epoch": 16.652528548123982,
+      "grad_norm": 0.007510208059102297,
+      "learning_rate": 8.29431928488319e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 220495280,
+      "step": 102080
+    },
+    {
+      "epoch": 16.653344208809134,
+      "grad_norm": 0.01156105101108551,
+      "learning_rate": 8.290393480630549e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 220505840,
+      "step": 102085
+    },
+    {
+      "epoch": 16.65415986949429,
+      "grad_norm": 0.0036057571414858103,
+      "learning_rate": 8.286468521676e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 220517584,
+      "step": 102090
+    },
+    {
+      "epoch": 16.654975530179446,
+      "grad_norm": 0.023752061650156975,
+      "learning_rate": 8.282544408099079e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 220528464,
+      "step": 102095
+    },
+    {
+      "epoch": 16.6557911908646,
+      "grad_norm": 0.0068184020929038525,
+      "learning_rate": 8.278621139979325e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 220538864,
+      "step": 102100
+    },
+    {
+      "epoch": 16.656606851549757,
+      "grad_norm": 0.011158975772559643,
+      "learning_rate": 8.274698717396234e-05,
+      "loss": 0.006,
+      "num_input_tokens_seen": 220549264,
+      "step": 102105
+    },
+    {
+      "epoch": 16.65742251223491,
+      "grad_norm": 0.3075798451900482,
+      "learning_rate": 8.270777140429308e-05,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 220560112,
+      "step": 102110
+    },
+    {
+      "epoch": 16.658238172920065,
+      "grad_norm": 0.05352885648608208,
+      "learning_rate": 8.266856409158025e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 220570960,
+      "step": 102115
+    },
+    {
+      "epoch": 16.65905383360522,
+      "grad_norm": 0.027840284630656242,
+      "learning_rate": 8.262936523661835e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 220582096,
+      "step": 102120
+    },
+    {
+      "epoch": 16.659869494290376,
+      "grad_norm": 0.07525905966758728,
+      "learning_rate": 8.259017484020181e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 220592016,
+      "step": 102125
+    },
+    {
+      "epoch": 16.660685154975532,
+      "grad_norm": 0.14387553930282593,
+      "learning_rate": 8.255099290312495e-05,
+      "loss": 0.006,
+      "num_input_tokens_seen": 220601936,
+      "step": 102130
+    },
+    {
+      "epoch": 16.661500815660684,
+      "grad_norm": 0.056067511439323425,
+      "learning_rate": 8.251181942618174e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 220612048,
+      "step": 102135
+    },
+    {
+      "epoch": 16.66231647634584,
+      "grad_norm": 0.002062713261693716,
+      "learning_rate": 8.247265441016621e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 220622608,
+      "step": 102140
+    },
+    {
+      "epoch": 16.663132137030995,
+      "grad_norm": 0.001355032087303698,
+      "learning_rate": 8.243349785587195e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 220633264,
+      "step": 102145
+    },
+    {
+      "epoch": 16.66394779771615,
+      "grad_norm": 0.018915260210633278,
+      "learning_rate": 8.23943497640926e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 220643696,
+      "step": 102150
+    },
+    {
+      "epoch": 16.664763458401303,
+      "grad_norm": 0.0024553509429097176,
+      "learning_rate": 8.235521013562148e-05,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 220655248,
+      "step": 102155
+    },
+    {
+      "epoch": 16.66557911908646,
+      "grad_norm": 0.004102553240954876,
+      "learning_rate": 8.231607897125188e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 220664816,
+      "step": 102160
+    },
+    {
+      "epoch": 16.666394779771615,
+      "grad_norm": 0.001667728298343718,
+      "learning_rate": 8.227695627177678e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 220674448,
+      "step": 102165
+    },
+    {
+      "epoch": 16.66721044045677,
+      "grad_norm": 0.003264149883762002,
+      "learning_rate": 8.223784203798912e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 220685936,
+      "step": 102170
+    },
+    {
+      "epoch": 16.668026101141926,
+      "grad_norm": 0.023338552564382553,
+      "learning_rate": 8.219873627068141e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 220696976,
+      "step": 102175
+    },
+    {
+      "epoch": 16.66884176182708,
+      "grad_norm": 0.0016530726570636034,
+      "learning_rate": 8.21596389706466e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 220707504,
+      "step": 102180
+    },
+    {
+      "epoch": 16.669657422512234,
+      "grad_norm": 0.003783087246119976,
+      "learning_rate": 8.212055013867654e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 220718928,
+      "step": 102185
+    },
+    {
+      "epoch": 16.67047308319739,
+      "grad_norm": 0.0009449265198782086,
+      "learning_rate": 8.208146977556386e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 220728784,
+      "step": 102190
+    },
+    {
+      "epoch": 16.671288743882545,
+      "grad_norm": 0.0008899805252440274,
+      "learning_rate": 8.204239788210011e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 220740688,
+      "step": 102195
+    },
+    {
+      "epoch": 16.6721044045677,
+      "grad_norm": 0.000524374539963901,
+      "learning_rate": 8.200333445907766e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 220750000,
+      "step": 102200
+    },
+    {
+      "epoch": 16.672920065252853,
+      "grad_norm": 0.0010391840478405356,
+      "learning_rate": 8.196427950728763e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 220761136,
+      "step": 102205
+    },
+    {
+      "epoch": 16.67373572593801,
+      "grad_norm": 0.006226594094187021,
+      "learning_rate": 8.192523302752192e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 220771856,
+      "step": 102210
+    },
+    {
+      "epoch": 16.674551386623165,
+      "grad_norm": 0.0289426501840353,
+      "learning_rate": 8.188619502057176e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 220782512,
+      "step": 102215
+    },
+    {
+      "epoch": 16.67536704730832,
+      "grad_norm": 0.03636833652853966,
+      "learning_rate": 8.184716548722825e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 220793552,
+      "step": 102220
+    },
+    {
+      "epoch": 16.676182707993476,
+      "grad_norm": 0.005582255311310291,
+      "learning_rate": 8.180814442828238e-05,
+      "loss": 0.0568,
+      "num_input_tokens_seen": 220803792,
+      "step": 102225
+    },
+    {
+      "epoch": 16.67699836867863,
+      "grad_norm": 0.017085885629057884,
+      "learning_rate": 8.1769131844525e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 220814896,
+      "step": 102230
+    },
+    {
+      "epoch": 16.677814029363784,
+      "grad_norm": 0.22158437967300415,
+      "learning_rate": 8.173012773674671e-05,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 220825264,
+      "step": 102235
+    },
+    {
+      "epoch": 16.67862969004894,
+      "grad_norm": 0.013059341348707676,
+      "learning_rate": 8.169113210573803e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 220835824,
+      "step": 102240
+    },
+    {
+      "epoch": 16.679445350734095,
+      "grad_norm": 0.012183960527181625,
+      "learning_rate": 8.165214495228918e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 220847536,
+      "step": 102245
+    },
+    {
+      "epoch": 16.68026101141925,
+      "grad_norm": 0.001767508452758193,
+      "learning_rate": 8.161316627719035e-05,
+      "loss": 0.0591,
+      "num_input_tokens_seen": 220858256,
+      "step": 102250
+    },
+    {
+      "epoch": 16.681076672104403,
+      "grad_norm": 0.01171040441840887,
+      "learning_rate": 8.157419608123145e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 220868784,
+      "step": 102255
+    },
+    {
+      "epoch": 16.68189233278956,
+      "grad_norm": 0.008576060645282269,
+      "learning_rate": 8.153523436520226e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 220880656,
+      "step": 102260
+    },
+    {
+      "epoch": 16.682707993474715,
+      "grad_norm": 0.07342652976512909,
+      "learning_rate": 8.149628112989243e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 220890448,
+      "step": 102265
+    },
+    {
+      "epoch": 16.68352365415987,
+      "grad_norm": 0.008088194765150547,
+      "learning_rate": 8.145733637609137e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 220901040,
+      "step": 102270
+    },
+    {
+      "epoch": 16.684339314845026,
+      "grad_norm": 0.0017258359584957361,
+      "learning_rate": 8.141840010458835e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 220911536,
+      "step": 102275
+    },
+    {
+      "epoch": 16.68515497553018,
+      "grad_norm": 0.4991852343082428,
+      "learning_rate": 8.137947231617237e-05,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 220923056,
+      "step": 102280
+    },
+    {
+      "epoch": 16.685970636215334,
+      "grad_norm": 0.021041272208094597,
+      "learning_rate": 8.134055301163263e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 220933712,
+      "step": 102285
+    },
+    {
+      "epoch": 16.68678629690049,
+      "grad_norm": 0.0014039005618542433,
+      "learning_rate": 8.130164219175745e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 220945968,
+      "step": 102290
+    },
+    {
+      "epoch": 16.687601957585645,
+      "grad_norm": 0.0002282148489030078,
+      "learning_rate": 8.126273985733595e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 220956112,
+      "step": 102295
+    },
+    {
+      "epoch": 16.6884176182708,
+      "grad_norm": 0.0002533920051064342,
+      "learning_rate": 8.122384600915594e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 220966896,
+      "step": 102300
+    },
+    {
+      "epoch": 16.689233278955953,
+      "grad_norm": 0.0018143865745514631,
+      "learning_rate": 8.118496064800618e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 220977936,
+      "step": 102305
+    },
+    {
+      "epoch": 16.69004893964111,
+      "grad_norm": 0.02916126139461994,
+      "learning_rate": 8.11460837746743e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 220989264,
+      "step": 102310
+    },
+    {
+      "epoch": 16.690864600326265,
+      "grad_norm": 0.024176111444830894,
+      "learning_rate": 8.110721538994859e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 220999600,
+      "step": 102315
+    },
+    {
+      "epoch": 16.69168026101142,
+      "grad_norm": 0.004567863419651985,
+      "learning_rate": 8.106835549461633e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 221010640,
+      "step": 102320
+    },
+    {
+      "epoch": 16.692495921696576,
+      "grad_norm": 0.0015767280710861087,
+      "learning_rate": 8.102950408946552e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 221021200,
+      "step": 102325
+    },
+    {
+      "epoch": 16.693311582381728,
+      "grad_norm": 1.0787469148635864,
+      "learning_rate": 8.099066117528308e-05,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 221033968,
+      "step": 102330
+    },
+    {
+      "epoch": 16.694127243066884,
+      "grad_norm": 0.18266649544239044,
+      "learning_rate": 8.095182675285673e-05,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 221043632,
+      "step": 102335
+    },
+    {
+      "epoch": 16.69494290375204,
+      "grad_norm": 0.0012430261122062802,
+      "learning_rate": 8.091300082297293e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 221054032,
+      "step": 102340
+    },
+    {
+      "epoch": 16.695758564437195,
+      "grad_norm": 0.0010876876767724752,
+      "learning_rate": 8.087418338641906e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 221065072,
+      "step": 102345
+    },
+    {
+      "epoch": 16.696574225122347,
+      "grad_norm": 0.002364259911701083,
+      "learning_rate": 8.083537444398131e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 221074864,
+      "step": 102350
+    },
+    {
+      "epoch": 16.697389885807503,
+      "grad_norm": 0.00427822582423687,
+      "learning_rate": 8.079657399644664e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 221084784,
+      "step": 102355
+    },
+    {
+      "epoch": 16.69820554649266,
+      "grad_norm": 0.014106487855315208,
+      "learning_rate": 8.07577820446011e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 221095248,
+      "step": 102360
+    },
+    {
+      "epoch": 16.699021207177815,
+      "grad_norm": 0.014190200716257095,
+      "learning_rate": 8.071899858923098e-05,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 221105904,
+      "step": 102365
+    },
+    {
+      "epoch": 16.69983686786297,
+      "grad_norm": 0.0014781900681555271,
+      "learning_rate": 8.068022363112227e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 221116368,
+      "step": 102370
+    },
+    {
+      "epoch": 16.700652528548122,
+      "grad_norm": 0.005353093612939119,
+      "learning_rate": 8.064145717106075e-05,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 221127472,
+      "step": 102375
+    },
+    {
+      "epoch": 16.701468189233278,
+      "grad_norm": 0.0054572150111198425,
+      "learning_rate": 8.06026992098321e-05,
+      "loss": 0.012,
+      "num_input_tokens_seen": 221139280,
+      "step": 102380
+    },
+    {
+      "epoch": 16.702283849918434,
+      "grad_norm": 0.00832337699830532,
+      "learning_rate": 8.056394974822185e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 221150416,
+      "step": 102385
+    },
+    {
+      "epoch": 16.70309951060359,
+      "grad_norm": 0.017912698909640312,
+      "learning_rate": 8.052520878701519e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 221161296,
+      "step": 102390
+    },
+    {
+      "epoch": 16.703915171288745,
+      "grad_norm": 0.0015576289733871818,
+      "learning_rate": 8.04864763269973e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 221170480,
+      "step": 102395
+    },
+    {
+      "epoch": 16.704730831973897,
+      "grad_norm": 0.004138452000916004,
+      "learning_rate": 8.044775236895319e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 221179408,
+      "step": 102400
+    },
+    {
+      "epoch": 16.705546492659053,
+      "grad_norm": 0.005685943178832531,
+      "learning_rate": 8.040903691366753e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 221190192,
+      "step": 102405
+    },
+    {
+      "epoch": 16.70636215334421,
+      "grad_norm": 0.0030472618527710438,
+      "learning_rate": 8.037032996192522e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 221200912,
+      "step": 102410
+    },
+    {
+      "epoch": 16.707177814029365,
+      "grad_norm": 0.0015341610414907336,
+      "learning_rate": 8.033163151451028e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 221211920,
+      "step": 102415
+    },
+    {
+      "epoch": 16.70799347471452,
+      "grad_norm": 0.004777231719344854,
+      "learning_rate": 8.029294157220746e-05,
+      "loss": 0.0181,
+      "num_input_tokens_seen": 221223280,
+      "step": 102420
+    },
+    {
+      "epoch": 16.708809135399672,
+      "grad_norm": 0.002837100997567177,
+      "learning_rate": 8.025426013580033e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 221234480,
+      "step": 102425
+    },
+    {
+      "epoch": 16.709624796084828,
+      "grad_norm": 0.0010288365883752704,
+      "learning_rate": 8.021558720607342e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 221243984,
+      "step": 102430
+    },
+    {
+      "epoch": 16.710440456769984,
+      "grad_norm": 0.0010139404330402613,
+      "learning_rate": 8.01769227838099e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 221255536,
+      "step": 102435
+    },
+    {
+      "epoch": 16.71125611745514,
+      "grad_norm": 0.002217318629845977,
+      "learning_rate": 8.013826686979381e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 221266832,
+      "step": 102440
+    },
+    {
+      "epoch": 16.712071778140295,
+      "grad_norm": 0.0004526945995166898,
+      "learning_rate": 8.00996194648082e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 221277616,
+      "step": 102445
+    },
+    {
+      "epoch": 16.712887438825447,
+      "grad_norm": 0.01151892077177763,
+      "learning_rate": 8.006098056963668e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 221289360,
+      "step": 102450
+    },
+    {
+      "epoch": 16.713703099510603,
+      "grad_norm": 0.002219117246568203,
+      "learning_rate": 8.002235018506194e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 221301104,
+      "step": 102455
+    },
+    {
+      "epoch": 16.71451876019576,
+      "grad_norm": 0.002388479420915246,
+      "learning_rate": 7.998372831186723e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 221311824,
+      "step": 102460
+    },
+    {
+      "epoch": 16.715334420880914,
+      "grad_norm": 0.2429102659225464,
+      "learning_rate": 7.99451149508349e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 221322192,
+      "step": 102465
+    },
+    {
+      "epoch": 16.71615008156607,
+      "grad_norm": 0.028374364599585533,
+      "learning_rate": 7.990651010274791e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 221333552,
+      "step": 102470
+    },
+    {
+      "epoch": 16.716965742251222,
+      "grad_norm": 0.025974059477448463,
+      "learning_rate": 7.98679137683882e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 221344368,
+      "step": 102475
+    },
+    {
+      "epoch": 16.717781402936378,
+      "grad_norm": 0.01371039729565382,
+      "learning_rate": 7.982932594853837e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 221355792,
+      "step": 102480
+    },
+    {
+      "epoch": 16.718597063621534,
+      "grad_norm": 0.0056204842403531075,
+      "learning_rate": 7.979074664398012e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 221365520,
+      "step": 102485
+    },
+    {
+      "epoch": 16.71941272430669,
+      "grad_norm": 0.00258276448585093,
+      "learning_rate": 7.975217585549566e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 221375856,
+      "step": 102490
+    },
+    {
+      "epoch": 16.72022838499184,
+      "grad_norm": 0.003028827253729105,
+      "learning_rate": 7.97136135838662e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 221386064,
+      "step": 102495
+    },
+    {
+      "epoch": 16.721044045676997,
+      "grad_norm": 0.027169395238161087,
+      "learning_rate": 7.967505982987372e-05,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 221397392,
+      "step": 102500
+    },
+    {
+      "epoch": 16.721859706362153,
+      "grad_norm": 0.00019676069496199489,
+      "learning_rate": 7.963651459429932e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 221406288,
+      "step": 102505
+    },
+    {
+      "epoch": 16.72267536704731,
+      "grad_norm": 0.0002667378284968436,
+      "learning_rate": 7.959797787792428e-05,
+      "loss": 0.1659,
+      "num_input_tokens_seen": 221416720,
+      "step": 102510
+    },
+    {
+      "epoch": 16.723491027732464,
+      "grad_norm": 0.0024046706967055798,
+      "learning_rate": 7.955944968152951e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 221427536,
+      "step": 102515
+    },
+    {
+      "epoch": 16.724306688417617,
+      "grad_norm": 0.011399206705391407,
+      "learning_rate": 7.952093000589583e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 221437712,
+      "step": 102520
+    },
+    {
+      "epoch": 16.725122349102772,
+      "grad_norm": 0.041121955960989,
+      "learning_rate": 7.948241885180396e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 221448720,
+      "step": 102525
+    },
+    {
+      "epoch": 16.725938009787928,
+      "grad_norm": 0.0030209736432880163,
+      "learning_rate": 7.944391622003427e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 221460016,
+      "step": 102530
+    },
+    {
+      "epoch": 16.726753670473084,
+      "grad_norm": 0.004665852524340153,
+      "learning_rate": 7.94054221113672e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 221470128,
+      "step": 102535
+    },
+    {
+      "epoch": 16.72756933115824,
+      "grad_norm": 0.0013338279677554965,
+      "learning_rate": 7.936693652658278e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 221481488,
+      "step": 102540
+    },
+    {
+      "epoch": 16.72838499184339,
+      "grad_norm": 0.04637147858738899,
+      "learning_rate": 7.9328459466461e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 221492912,
+      "step": 102545
+    },
+    {
+      "epoch": 16.729200652528547,
+      "grad_norm": 0.0005551987560465932,
+      "learning_rate": 7.928999093178157e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 221503856,
+      "step": 102550
+    },
+    {
+      "epoch": 16.730016313213703,
+      "grad_norm": 0.003815334988757968,
+      "learning_rate": 7.925153092332438e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 221514736,
+      "step": 102555
+    },
+    {
+      "epoch": 16.73083197389886,
+      "grad_norm": 0.0010202974081039429,
+      "learning_rate": 7.921307944186845e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 221526256,
+      "step": 102560
+    },
+    {
+      "epoch": 16.731647634584014,
+      "grad_norm": 0.0013838201994076371,
+      "learning_rate": 7.91746364881935e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 221537168,
+      "step": 102565
+    },
+    {
+      "epoch": 16.732463295269167,
+      "grad_norm": 0.0036898739635944366,
+      "learning_rate": 7.913620206307814e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 221547632,
+      "step": 102570
+    },
+    {
+      "epoch": 16.733278955954322,
+      "grad_norm": 0.0027934997342526913,
+      "learning_rate": 7.909777616730185e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 221558832,
+      "step": 102575
+    },
+    {
+      "epoch": 16.734094616639478,
+      "grad_norm": 0.0016968920826911926,
+      "learning_rate": 7.905935880164278e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 221569136,
+      "step": 102580
+    },
+    {
+      "epoch": 16.734910277324634,
+      "grad_norm": 0.10568311810493469,
+      "learning_rate": 7.902094996688009e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 221579824,
+      "step": 102585
+    },
+    {
+      "epoch": 16.73572593800979,
+      "grad_norm": 0.003486029338091612,
+      "learning_rate": 7.89825496637916e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 221591632,
+      "step": 102590
+    },
+    {
+      "epoch": 16.73654159869494,
+      "grad_norm": 0.038367435336112976,
+      "learning_rate": 7.894415789315612e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 221600624,
+      "step": 102595
+    },
+    {
+      "epoch": 16.737357259380097,
+      "grad_norm": 0.01631920039653778,
+      "learning_rate": 7.890577465575121e-05,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 221612016,
+      "step": 102600
+    },
+    {
+      "epoch": 16.738172920065253,
+      "grad_norm": 0.019952211529016495,
+      "learning_rate": 7.886739995235504e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 221623184,
+      "step": 102605
+    },
+    {
+      "epoch": 16.73898858075041,
+      "grad_norm": 0.001536556170322001,
+      "learning_rate": 7.882903378374528e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 221633520,
+      "step": 102610
+    },
+    {
+      "epoch": 16.739804241435564,
+      "grad_norm": 0.019367242231965065,
+      "learning_rate": 7.879067615069946e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 221646256,
+      "step": 102615
+    },
+    {
+      "epoch": 16.740619902120716,
+      "grad_norm": 0.2488294392824173,
+      "learning_rate": 7.875232705399488e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 221657232,
+      "step": 102620
+    },
+    {
+      "epoch": 16.741435562805872,
+      "grad_norm": 0.012795425951480865,
+      "learning_rate": 7.871398649440886e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 221669520,
+      "step": 102625
+    },
+    {
+      "epoch": 16.742251223491028,
+      "grad_norm": 0.9706597328186035,
+      "learning_rate": 7.867565447271829e-05,
+      "loss": 0.0807,
+      "num_input_tokens_seen": 221680144,
+      "step": 102630
+    },
+    {
+      "epoch": 16.743066884176184,
+      "grad_norm": 0.062246449291706085,
+      "learning_rate": 7.863733098970006e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 221690672,
+      "step": 102635
+    },
+    {
+      "epoch": 16.74388254486134,
+      "grad_norm": 0.0013690270716324449,
+      "learning_rate": 7.85990160461309e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 221701296,
+      "step": 102640
+    },
+    {
+      "epoch": 16.74469820554649,
+      "grad_norm": 0.0025680058170109987,
+      "learning_rate": 7.856070964278722e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 221712816,
+      "step": 102645
+    },
+    {
+      "epoch": 16.745513866231647,
+      "grad_norm": 0.00345767755061388,
+      "learning_rate": 7.852241178044539e-05,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 221724656,
+      "step": 102650
+    },
+    {
+      "epoch": 16.746329526916803,
+      "grad_norm": 0.011416045017540455,
+      "learning_rate": 7.848412245988157e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 221735568,
+      "step": 102655
+    },
+    {
+      "epoch": 16.74714518760196,
+      "grad_norm": 0.00027606345247477293,
+      "learning_rate": 7.84458416818718e-05,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 221746448,
+      "step": 102660
+    },
+    {
+      "epoch": 16.747960848287114,
+      "grad_norm": 0.030321862548589706,
+      "learning_rate": 7.840756944719174e-05,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 221757584,
+      "step": 102665
+    },
+    {
+      "epoch": 16.748776508972266,
+      "grad_norm": 0.0008409228757955134,
+      "learning_rate": 7.836930575661716e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 221769296,
+      "step": 102670
+    },
+    {
+      "epoch": 16.749592169657422,
+      "grad_norm": 0.02600860223174095,
+      "learning_rate": 7.83310506109235e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 221780400,
+      "step": 102675
+    },
+    {
+      "epoch": 16.750407830342578,
+      "grad_norm": 0.0010515855392441154,
+      "learning_rate": 7.829280401088601e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 221791312,
+      "step": 102680
+    },
+    {
+      "epoch": 16.751223491027734,
+      "grad_norm": 0.07031827419996262,
+      "learning_rate": 7.82545659572798e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 221802192,
+      "step": 102685
+    },
+    {
+      "epoch": 16.752039151712886,
+      "grad_norm": 0.004942765459418297,
+      "learning_rate": 7.821633645087984e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 221813520,
+      "step": 102690
+    },
+    {
+      "epoch": 16.75285481239804,
+      "grad_norm": 1.208173155784607,
+      "learning_rate": 7.817811549246079e-05,
+      "loss": 0.0556,
+      "num_input_tokens_seen": 221823376,
+      "step": 102695
+    },
+    {
+      "epoch": 16.753670473083197,
+      "grad_norm": 0.0008134068921208382,
+      "learning_rate": 7.813990308279755e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 221834352,
+      "step": 102700
+    },
+    {
+      "epoch": 16.754486133768353,
+      "grad_norm": 0.00394340418279171,
+      "learning_rate": 7.810169922266413e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 221845168,
+      "step": 102705
+    },
+    {
+      "epoch": 16.75530179445351,
+      "grad_norm": 0.041125066578388214,
+      "learning_rate": 7.806350391283507e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 221856112,
+      "step": 102710
+    },
+    {
+      "epoch": 16.75611745513866,
+      "grad_norm": 0.3884848356246948,
+      "learning_rate": 7.80253171540844e-05,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 221867440,
+      "step": 102715
+    },
+    {
+      "epoch": 16.756933115823816,
+      "grad_norm": 0.004419300705194473,
+      "learning_rate": 7.798713894718602e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 221877072,
+      "step": 102720
+    },
+    {
+      "epoch": 16.757748776508972,
+      "grad_norm": 0.00803311262279749,
+      "learning_rate": 7.794896929291361e-05,
+      "loss": 0.0293,
+      "num_input_tokens_seen": 221886832,
+      "step": 102725
+    },
+    {
+      "epoch": 16.758564437194128,
+      "grad_norm": 0.0018697066698223352,
+      "learning_rate": 7.791080819204072e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 221897552,
+      "step": 102730
+    },
+    {
+      "epoch": 16.759380097879284,
+      "grad_norm": 0.0029300868045538664,
+      "learning_rate": 7.78726556453408e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 221907728,
+      "step": 102735
+    },
+    {
+      "epoch": 16.760195758564436,
+      "grad_norm": 0.20307497680187225,
+      "learning_rate": 7.783451165358696e-05,
+      "loss": 0.012,
+      "num_input_tokens_seen": 221918480,
+      "step": 102740
+    },
+    {
+      "epoch": 16.76101141924959,
+      "grad_norm": 0.008771148510277271,
+      "learning_rate": 7.779637621755236e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 221930160,
+      "step": 102745
+    },
+    {
+      "epoch": 16.761827079934747,
+      "grad_norm": 0.030420590192079544,
+      "learning_rate": 7.775824933800979e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 221940464,
+      "step": 102750
+    },
+    {
+      "epoch": 16.762642740619903,
+      "grad_norm": 0.00467941677197814,
+      "learning_rate": 7.772013101573195e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 221951920,
+      "step": 102755
+    },
+    {
+      "epoch": 16.76345840130506,
+      "grad_norm": 0.003154685953631997,
+      "learning_rate": 7.768202125149132e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 221962736,
+      "step": 102760
+    },
+    {
+      "epoch": 16.76427406199021,
+      "grad_norm": 0.0002088886103592813,
+      "learning_rate": 7.76439200460603e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 221974832,
+      "step": 102765
+    },
+    {
+      "epoch": 16.765089722675366,
+      "grad_norm": 0.000144814039231278,
+      "learning_rate": 7.7605827400211e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 221984528,
+      "step": 102770
+    },
+    {
+      "epoch": 16.765905383360522,
+      "grad_norm": 0.29430752992630005,
+      "learning_rate": 7.75677433147155e-05,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 221994768,
+      "step": 102775
+    },
+    {
+      "epoch": 16.766721044045678,
+      "grad_norm": 0.017759494483470917,
+      "learning_rate": 7.752966779034553e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 222004752,
+      "step": 102780
+    },
+    {
+      "epoch": 16.767536704730833,
+      "grad_norm": 0.0003618684713728726,
+      "learning_rate": 7.749160082787283e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 222015408,
+      "step": 102785
+    },
+    {
+      "epoch": 16.768352365415986,
+      "grad_norm": 0.01978623867034912,
+      "learning_rate": 7.745354242806884e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 222026288,
+      "step": 102790
+    },
+    {
+      "epoch": 16.76916802610114,
+      "grad_norm": 0.0008822871604934335,
+      "learning_rate": 7.741549259170483e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 222037008,
+      "step": 102795
+    },
+    {
+      "epoch": 16.769983686786297,
+      "grad_norm": 0.0161877628415823,
+      "learning_rate": 7.737745131955192e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 222047280,
+      "step": 102800
+    },
+    {
+      "epoch": 16.770799347471453,
+      "grad_norm": 0.03637959808111191,
+      "learning_rate": 7.733941861238114e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 222058160,
+      "step": 102805
+    },
+    {
+      "epoch": 16.77161500815661,
+      "grad_norm": 0.003914504777640104,
+      "learning_rate": 7.730139447096319e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 222069840,
+      "step": 102810
+    },
+    {
+      "epoch": 16.77243066884176,
+      "grad_norm": 0.00933013390749693,
+      "learning_rate": 7.726337889606861e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 222080720,
+      "step": 102815
+    },
+    {
+      "epoch": 16.773246329526916,
+      "grad_norm": 0.006620690226554871,
+      "learning_rate": 7.722537188846817e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 222091472,
+      "step": 102820
+    },
+    {
+      "epoch": 16.774061990212072,
+      "grad_norm": 0.00023687862267252058,
+      "learning_rate": 7.718737344893167e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 222103952,
+      "step": 102825
+    },
+    {
+      "epoch": 16.774877650897228,
+      "grad_norm": 0.07730203866958618,
+      "learning_rate": 7.714938357822965e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 222115280,
+      "step": 102830
+    },
+    {
+      "epoch": 16.775693311582383,
+      "grad_norm": 0.0037358549889177084,
+      "learning_rate": 7.711140227713154e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 222125008,
+      "step": 102835
+    },
+    {
+      "epoch": 16.776508972267536,
+      "grad_norm": 0.004577254876494408,
+      "learning_rate": 7.70734295464075e-05,
+      "loss": 0.0288,
+      "num_input_tokens_seen": 222136848,
+      "step": 102840
+    },
+    {
+      "epoch": 16.77732463295269,
+      "grad_norm": 0.024739494547247887,
+      "learning_rate": 7.703546538682688e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 222148656,
+      "step": 102845
+    },
+    {
+      "epoch": 16.778140293637847,
+      "grad_norm": 0.0011499575339257717,
+      "learning_rate": 7.699750979915915e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 222158896,
+      "step": 102850
+    },
+    {
+      "epoch": 16.778955954323003,
+      "grad_norm": 0.007596036419272423,
+      "learning_rate": 7.695956278417349e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 222169680,
+      "step": 102855
+    },
+    {
+      "epoch": 16.77977161500816,
+      "grad_norm": 0.0020268235821276903,
+      "learning_rate": 7.692162434263894e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 222181776,
+      "step": 102860
+    },
+    {
+      "epoch": 16.78058727569331,
+      "grad_norm": 0.0006173772853799164,
+      "learning_rate": 7.688369447532444e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 222192752,
+      "step": 102865
+    },
+    {
+      "epoch": 16.781402936378466,
+      "grad_norm": 0.004046997986733913,
+      "learning_rate": 7.684577318299857e-05,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 222203408,
+      "step": 102870
+    },
+    {
+      "epoch": 16.782218597063622,
+      "grad_norm": 0.010694226250052452,
+      "learning_rate": 7.680786046642996e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 222213904,
+      "step": 102875
+    },
+    {
+      "epoch": 16.783034257748778,
+      "grad_norm": 0.0009469189099036157,
+      "learning_rate": 7.676995632638689e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 222223920,
+      "step": 102880
+    },
+    {
+      "epoch": 16.78384991843393,
+      "grad_norm": 0.0009855440584942698,
+      "learning_rate": 7.67320607636376e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 222234672,
+      "step": 102885
+    },
+    {
+      "epoch": 16.784665579119086,
+      "grad_norm": 0.000437272887211293,
+      "learning_rate": 7.669417377894999e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 222245264,
+      "step": 102890
+    },
+    {
+      "epoch": 16.78548123980424,
+      "grad_norm": 0.00246535986661911,
+      "learning_rate": 7.665629537309199e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 222255856,
+      "step": 102895
+    },
+    {
+      "epoch": 16.786296900489397,
+      "grad_norm": 0.0025290593039244413,
+      "learning_rate": 7.661842554683124e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 222266416,
+      "step": 102900
+    },
+    {
+      "epoch": 16.787112561174553,
+      "grad_norm": 0.009743542410433292,
+      "learning_rate": 7.658056430093512e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 222276048,
+      "step": 102905
+    },
+    {
+      "epoch": 16.787928221859705,
+      "grad_norm": 0.01540299877524376,
+      "learning_rate": 7.654271163617105e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 222286512,
+      "step": 102910
+    },
+    {
+      "epoch": 16.78874388254486,
+      "grad_norm": 0.06199616193771362,
+      "learning_rate": 7.650486755330616e-05,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 222297072,
+      "step": 102915
+    },
+    {
+      "epoch": 16.789559543230016,
+      "grad_norm": 0.0010426411172375083,
+      "learning_rate": 7.646703205310718e-05,
+      "loss": 0.1021,
+      "num_input_tokens_seen": 222309328,
+      "step": 102920
+    },
+    {
+      "epoch": 16.790375203915172,
+      "grad_norm": 0.0029606884345412254,
+      "learning_rate": 7.642920513634138e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 222320272,
+      "step": 102925
+    },
+    {
+      "epoch": 16.791190864600328,
+      "grad_norm": 0.03106829896569252,
+      "learning_rate": 7.639138680377478e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 222331248,
+      "step": 102930
+    },
+    {
+      "epoch": 16.79200652528548,
+      "grad_norm": 0.013690001331269741,
+      "learning_rate": 7.63535770561744e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 222342160,
+      "step": 102935
+    },
+    {
+      "epoch": 16.792822185970635,
+      "grad_norm": 0.0004479142662603408,
+      "learning_rate": 7.631577589430593e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 222353008,
+      "step": 102940
+    },
+    {
+      "epoch": 16.79363784665579,
+      "grad_norm": 0.0002369188005104661,
+      "learning_rate": 7.627798331893604e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 222362864,
+      "step": 102945
+    },
+    {
+      "epoch": 16.794453507340947,
+      "grad_norm": 0.17374515533447266,
+      "learning_rate": 7.62401993308301e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 222373776,
+      "step": 102950
+    },
+    {
+      "epoch": 16.795269168026103,
+      "grad_norm": 0.0009877387201413512,
+      "learning_rate": 7.620242393075432e-05,
+      "loss": 0.1063,
+      "num_input_tokens_seen": 222382640,
+      "step": 102955
+    },
+    {
+      "epoch": 16.796084828711255,
+      "grad_norm": 0.017264485359191895,
+      "learning_rate": 7.61646571194738e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 222395056,
+      "step": 102960
+    },
+    {
+      "epoch": 16.79690048939641,
+      "grad_norm": 0.0007135859923437238,
+      "learning_rate": 7.612689889775443e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 222404304,
+      "step": 102965
+    },
+    {
+      "epoch": 16.797716150081566,
+      "grad_norm": 0.0024973410181701183,
+      "learning_rate": 7.60891492663609e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 222414448,
+      "step": 102970
+    },
+    {
+      "epoch": 16.798531810766722,
+      "grad_norm": 0.059601426124572754,
+      "learning_rate": 7.605140822605883e-05,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 222424624,
+      "step": 102975
+    },
+    {
+      "epoch": 16.799347471451878,
+      "grad_norm": 0.0006366174784488976,
+      "learning_rate": 7.601367577761248e-05,
+      "loss": 0.033,
+      "num_input_tokens_seen": 222434576,
+      "step": 102980
+    },
+    {
+      "epoch": 16.80016313213703,
+      "grad_norm": 0.003634232562035322,
+      "learning_rate": 7.597595192178702e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 222444624,
+      "step": 102985
+    },
+    {
+      "epoch": 16.800978792822185,
+      "grad_norm": 0.6686355471611023,
+      "learning_rate": 7.59382366593468e-05,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 222453552,
+      "step": 102990
+    },
+    {
+      "epoch": 16.80179445350734,
+      "grad_norm": 0.0005412403261289,
+      "learning_rate": 7.590052999105618e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 222465072,
+      "step": 102995
+    },
+    {
+      "epoch": 16.802610114192497,
+      "grad_norm": 0.02159789204597473,
+      "learning_rate": 7.586283191767929e-05,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 222476496,
+      "step": 103000
+    },
+    {
+      "epoch": 16.803425774877653,
+      "grad_norm": 0.000245524977799505,
+      "learning_rate": 7.582514243998023e-05,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 222487408,
+      "step": 103005
+    },
+    {
+      "epoch": 16.804241435562805,
+      "grad_norm": 0.00048794830217957497,
+      "learning_rate": 7.578746155872268e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 222499184,
+      "step": 103010
+    },
+    {
+      "epoch": 16.80505709624796,
+      "grad_norm": 0.009726781398057938,
+      "learning_rate": 7.574978927467046e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 222511120,
+      "step": 103015
+    },
+    {
+      "epoch": 16.805872756933116,
+      "grad_norm": 0.0008596468833275139,
+      "learning_rate": 7.571212558858692e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 222522096,
+      "step": 103020
+    },
+    {
+      "epoch": 16.806688417618272,
+      "grad_norm": 0.0003236684715375304,
+      "learning_rate": 7.567447050123538e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 222534416,
+      "step": 103025
+    },
+    {
+      "epoch": 16.807504078303424,
+      "grad_norm": 0.22375887632369995,
+      "learning_rate": 7.563682401337901e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 222546096,
+      "step": 103030
+    },
+    {
+      "epoch": 16.80831973898858,
+      "grad_norm": 0.0021393627393990755,
+      "learning_rate": 7.559918612578065e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 222556848,
+      "step": 103035
+    },
+    {
+      "epoch": 16.809135399673735,
+      "grad_norm": 0.011619689874351025,
+      "learning_rate": 7.55615568392034e-05,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 222568272,
+      "step": 103040
+    },
+    {
+      "epoch": 16.80995106035889,
+      "grad_norm": 0.017800265923142433,
+      "learning_rate": 7.552393615440939e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 222579248,
+      "step": 103045
+    },
+    {
+      "epoch": 16.810766721044047,
+      "grad_norm": 0.000227114578592591,
+      "learning_rate": 7.548632407216155e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 222590800,
+      "step": 103050
+    },
+    {
+      "epoch": 16.8115823817292,
+      "grad_norm": 0.0071326131001114845,
+      "learning_rate": 7.544872059322161e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 222601680,
+      "step": 103055
+    },
+    {
+      "epoch": 16.812398042414355,
+      "grad_norm": 0.3597804605960846,
+      "learning_rate": 7.541112571835218e-05,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 222610352,
+      "step": 103060
+    },
+    {
+      "epoch": 16.81321370309951,
+      "grad_norm": 0.00383292930200696,
+      "learning_rate": 7.537353944831471e-05,
+      "loss": 0.043,
+      "num_input_tokens_seen": 222621648,
+      "step": 103065
+    },
+    {
+      "epoch": 16.814029363784666,
+      "grad_norm": 0.0040711634792387486,
+      "learning_rate": 7.533596178387136e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 222632528,
+      "step": 103070
+    },
+    {
+      "epoch": 16.81484502446982,
+      "grad_norm": 0.011220073327422142,
+      "learning_rate": 7.529839272578326e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 222642768,
+      "step": 103075
+    },
+    {
+      "epoch": 16.815660685154974,
+      "grad_norm": 0.7358731031417847,
+      "learning_rate": 7.526083227481223e-05,
+      "loss": 0.1654,
+      "num_input_tokens_seen": 222653392,
+      "step": 103080
+    },
+    {
+      "epoch": 16.81647634584013,
+      "grad_norm": 0.0004308177740313113,
+      "learning_rate": 7.522328043171899e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 222664112,
+      "step": 103085
+    },
+    {
+      "epoch": 16.817292006525285,
+      "grad_norm": 0.010764655657112598,
+      "learning_rate": 7.518573719726507e-05,
+      "loss": 0.009,
+      "num_input_tokens_seen": 222675408,
+      "step": 103090
+    },
+    {
+      "epoch": 16.81810766721044,
+      "grad_norm": 0.001309889485128224,
+      "learning_rate": 7.514820257221088e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 222685520,
+      "step": 103095
+    },
+    {
+      "epoch": 16.818923327895597,
+      "grad_norm": 0.009377938695251942,
+      "learning_rate": 7.511067655731757e-05,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 222696592,
+      "step": 103100
+    },
+    {
+      "epoch": 16.81973898858075,
+      "grad_norm": 0.03656245023012161,
+      "learning_rate": 7.507315915334517e-05,
+      "loss": 0.01,
+      "num_input_tokens_seen": 222707888,
+      "step": 103105
+    },
+    {
+      "epoch": 16.820554649265905,
+      "grad_norm": 0.012941381894052029,
+      "learning_rate": 7.503565036105447e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 222718896,
+      "step": 103110
+    },
+    {
+      "epoch": 16.82137030995106,
+      "grad_norm": 0.0073400200344622135,
+      "learning_rate": 7.49981501812052e-05,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 222729904,
+      "step": 103115
+    },
+    {
+      "epoch": 16.822185970636216,
+      "grad_norm": 0.02853931486606598,
+      "learning_rate": 7.496065861455786e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 222739984,
+      "step": 103120
+    },
+    {
+      "epoch": 16.82300163132137,
+      "grad_norm": 0.0017178819980472326,
+      "learning_rate": 7.492317566187167e-05,
+      "loss": 0.1302,
+      "num_input_tokens_seen": 222751280,
+      "step": 103125
+    },
+    {
+      "epoch": 16.823817292006524,
+      "grad_norm": 0.0007930384599603713,
+      "learning_rate": 7.48857013239067e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 222760656,
+      "step": 103130
+    },
+    {
+      "epoch": 16.82463295269168,
+      "grad_norm": 0.019918566569685936,
+      "learning_rate": 7.484823560142235e-05,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 222772976,
+      "step": 103135
+    },
+    {
+      "epoch": 16.825448613376835,
+      "grad_norm": 0.004923573229461908,
+      "learning_rate": 7.481077849517776e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 222782896,
+      "step": 103140
+    },
+    {
+      "epoch": 16.82626427406199,
+      "grad_norm": 0.0015327023575082421,
+      "learning_rate": 7.477333000593218e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 222793808,
+      "step": 103145
+    },
+    {
+      "epoch": 16.827079934747147,
+      "grad_norm": 0.08445288985967636,
+      "learning_rate": 7.473589013444449e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 222805200,
+      "step": 103150
+    },
+    {
+      "epoch": 16.8278955954323,
+      "grad_norm": 0.001118175801821053,
+      "learning_rate": 7.469845888147348e-05,
+      "loss": 0.0117,
+      "num_input_tokens_seen": 222816816,
+      "step": 103155
+    },
+    {
+      "epoch": 16.828711256117455,
+      "grad_norm": 0.20687885582447052,
+      "learning_rate": 7.466103624777776e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 222827376,
+      "step": 103160
+    },
+    {
+      "epoch": 16.82952691680261,
+      "grad_norm": 0.007650259882211685,
+      "learning_rate": 7.462362223411568e-05,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 222838320,
+      "step": 103165
+    },
+    {
+      "epoch": 16.830342577487766,
+      "grad_norm": 0.0002957629330921918,
+      "learning_rate": 7.458621684124556e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 222849104,
+      "step": 103170
+    },
+    {
+      "epoch": 16.83115823817292,
+      "grad_norm": 0.006406435277312994,
+      "learning_rate": 7.454882006992541e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 222860688,
+      "step": 103175
+    },
+    {
+      "epoch": 16.831973898858074,
+      "grad_norm": 0.00206724158488214,
+      "learning_rate": 7.451143192091304e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 222872208,
+      "step": 103180
+    },
+    {
+      "epoch": 16.83278955954323,
+      "grad_norm": 0.014522617682814598,
+      "learning_rate": 7.447405239496646e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 222881776,
+      "step": 103185
+    },
+    {
+      "epoch": 16.833605220228385,
+      "grad_norm": 0.006389922928065062,
+      "learning_rate": 7.443668149284289e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 222892144,
+      "step": 103190
+    },
+    {
+      "epoch": 16.83442088091354,
+      "grad_norm": 0.020866891369223595,
+      "learning_rate": 7.439931921529996e-05,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 222902608,
+      "step": 103195
+    },
+    {
+      "epoch": 16.835236541598697,
+      "grad_norm": 0.00029015709878876805,
+      "learning_rate": 7.436196556309454e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 222913648,
+      "step": 103200
+    },
+    {
+      "epoch": 16.83605220228385,
+      "grad_norm": 0.031761713325977325,
+      "learning_rate": 7.432462053698413e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 222924336,
+      "step": 103205
+    },
+    {
+      "epoch": 16.836867862969005,
+      "grad_norm": 0.0018911163788288832,
+      "learning_rate": 7.428728413772502e-05,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 222934800,
+      "step": 103210
+    },
+    {
+      "epoch": 16.83768352365416,
+      "grad_norm": 0.034703124314546585,
+      "learning_rate": 7.42499563660744e-05,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 222945488,
+      "step": 103215
+    },
+    {
+      "epoch": 16.838499184339316,
+      "grad_norm": 0.04697426036000252,
+      "learning_rate": 7.421263722278826e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 222954608,
+      "step": 103220
+    },
+    {
+      "epoch": 16.839314845024468,
+      "grad_norm": 0.9602540135383606,
+      "learning_rate": 7.417532670862343e-05,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 222965712,
+      "step": 103225
+    },
+    {
+      "epoch": 16.840130505709624,
+      "grad_norm": 0.0008537370013073087,
+      "learning_rate": 7.413802482433557e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 222976400,
+      "step": 103230
+    },
+    {
+      "epoch": 16.84094616639478,
+      "grad_norm": 0.0003730040625669062,
+      "learning_rate": 7.41007315706811e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 222987184,
+      "step": 103235
+    },
+    {
+      "epoch": 16.841761827079935,
+      "grad_norm": 0.002069843467324972,
+      "learning_rate": 7.406344694841538e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 222999056,
+      "step": 103240
+    },
+    {
+      "epoch": 16.84257748776509,
+      "grad_norm": 0.0002810598525684327,
+      "learning_rate": 7.402617095829434e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 223008944,
+      "step": 103245
+    },
+    {
+      "epoch": 16.843393148450243,
+      "grad_norm": 0.010194149799644947,
+      "learning_rate": 7.398890360107336e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 223020464,
+      "step": 103250
+    },
+    {
+      "epoch": 16.8442088091354,
+      "grad_norm": 0.011366844177246094,
+      "learning_rate": 7.395164487750766e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 223031632,
+      "step": 103255
+    },
+    {
+      "epoch": 16.845024469820554,
+      "grad_norm": 0.002313476288691163,
+      "learning_rate": 7.391439478835233e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 223041840,
+      "step": 103260
+    },
+    {
+      "epoch": 16.84584013050571,
+      "grad_norm": 0.05588260293006897,
+      "learning_rate": 7.387715333436235e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 223052144,
+      "step": 103265
+    },
+    {
+      "epoch": 16.846655791190866,
+      "grad_norm": 0.0007918982882983983,
+      "learning_rate": 7.383992051629246e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 223062704,
+      "step": 103270
+    },
+    {
+      "epoch": 16.847471451876018,
+      "grad_norm": 0.004887265618890524,
+      "learning_rate": 7.380269633489717e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 223072720,
+      "step": 103275
+    },
+    {
+      "epoch": 16.848287112561174,
+      "grad_norm": 0.0006118956953287125,
+      "learning_rate": 7.376548079093087e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 223082480,
+      "step": 103280
+    },
+    {
+      "epoch": 16.84910277324633,
+      "grad_norm": 0.002460494404658675,
+      "learning_rate": 7.372827388514792e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 223092432,
+      "step": 103285
+    },
+    {
+      "epoch": 16.849918433931485,
+      "grad_norm": 0.0028719434048980474,
+      "learning_rate": 7.369107561830218e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 223102992,
+      "step": 103290
+    },
+    {
+      "epoch": 16.85073409461664,
+      "grad_norm": 0.0015683751553297043,
+      "learning_rate": 7.365388599114764e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 223113520,
+      "step": 103295
+    },
+    {
+      "epoch": 16.851549755301793,
+      "grad_norm": 0.0028194987680763006,
+      "learning_rate": 7.361670500443796e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 223125872,
+      "step": 103300
+    },
+    {
+      "epoch": 16.85236541598695,
+      "grad_norm": 0.01556948758661747,
+      "learning_rate": 7.357953265892665e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 223137936,
+      "step": 103305
+    },
+    {
+      "epoch": 16.853181076672104,
+      "grad_norm": 0.00034893525298684835,
+      "learning_rate": 7.354236895536704e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 223148592,
+      "step": 103310
+    },
+    {
+      "epoch": 16.85399673735726,
+      "grad_norm": 0.045288246124982834,
+      "learning_rate": 7.350521389451231e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 223159056,
+      "step": 103315
+    },
+    {
+      "epoch": 16.854812398042416,
+      "grad_norm": 0.0001437898463336751,
+      "learning_rate": 7.346806747711554e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 223170096,
+      "step": 103320
+    },
+    {
+      "epoch": 16.855628058727568,
+      "grad_norm": 0.006058032624423504,
+      "learning_rate": 7.343092970392929e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 223179248,
+      "step": 103325
+    },
+    {
+      "epoch": 16.856443719412724,
+      "grad_norm": 0.02314470149576664,
+      "learning_rate": 7.339380057570666e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 223190384,
+      "step": 103330
+    },
+    {
+      "epoch": 16.85725938009788,
+      "grad_norm": 0.0012422037543728948,
+      "learning_rate": 7.335668009319962e-05,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 223200752,
+      "step": 103335
+    },
+    {
+      "epoch": 16.858075040783035,
+      "grad_norm": 0.27252358198165894,
+      "learning_rate": 7.331956825716091e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 223212400,
+      "step": 103340
+    },
+    {
+      "epoch": 16.85889070146819,
+      "grad_norm": 0.7663934826850891,
+      "learning_rate": 7.328246506834224e-05,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 223223888,
+      "step": 103345
+    },
+    {
+      "epoch": 16.859706362153343,
+      "grad_norm": 0.002288650721311569,
+      "learning_rate": 7.32453705274958e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 223234384,
+      "step": 103350
+    },
+    {
+      "epoch": 16.8605220228385,
+      "grad_norm": 0.04717063903808594,
+      "learning_rate": 7.320828463537333e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 223245392,
+      "step": 103355
+    },
+    {
+      "epoch": 16.861337683523654,
+      "grad_norm": 0.01188843697309494,
+      "learning_rate": 7.317120739272643e-05,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 223255664,
+      "step": 103360
+    },
+    {
+      "epoch": 16.86215334420881,
+      "grad_norm": 0.006205637939274311,
+      "learning_rate": 7.313413880030645e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 223267024,
+      "step": 103365
+    },
+    {
+      "epoch": 16.862969004893966,
+      "grad_norm": 0.01393813919275999,
+      "learning_rate": 7.309707885886462e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 223278192,
+      "step": 103370
+    },
+    {
+      "epoch": 16.863784665579118,
+      "grad_norm": 0.009371892549097538,
+      "learning_rate": 7.306002756915214e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 223288912,
+      "step": 103375
+    },
+    {
+      "epoch": 16.864600326264274,
+      "grad_norm": 0.0004683208535425365,
+      "learning_rate": 7.302298493191972e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 223300400,
+      "step": 103380
+    },
+    {
+      "epoch": 16.86541598694943,
+      "grad_norm": 0.059036415070295334,
+      "learning_rate": 7.298595094791826e-05,
+      "loss": 0.0727,
+      "num_input_tokens_seen": 223311856,
+      "step": 103385
+    },
+    {
+      "epoch": 16.866231647634585,
+      "grad_norm": 0.004718313459306955,
+      "learning_rate": 7.294892561789817e-05,
+      "loss": 0.138,
+      "num_input_tokens_seen": 223323248,
+      "step": 103390
+    },
+    {
+      "epoch": 16.86704730831974,
+      "grad_norm": 0.005941477138549089,
+      "learning_rate": 7.291190894260985e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 223335216,
+      "step": 103395
+    },
+    {
+      "epoch": 16.867862969004893,
+      "grad_norm": 0.007990571670234203,
+      "learning_rate": 7.287490092280346e-05,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 223345808,
+      "step": 103400
+    },
+    {
+      "epoch": 16.86867862969005,
+      "grad_norm": 0.005993335507810116,
+      "learning_rate": 7.28379015592291e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 223357584,
+      "step": 103405
+    },
+    {
+      "epoch": 16.869494290375204,
+      "grad_norm": 0.019427742809057236,
+      "learning_rate": 7.280091085263657e-05,
+      "loss": 0.027,
+      "num_input_tokens_seen": 223367248,
+      "step": 103410
+    },
+    {
+      "epoch": 16.87030995106036,
+      "grad_norm": 0.6797969937324524,
+      "learning_rate": 7.276392880377548e-05,
+      "loss": 0.0292,
+      "num_input_tokens_seen": 223377584,
+      "step": 103415
+    },
+    {
+      "epoch": 16.871125611745512,
+      "grad_norm": 0.007113391533493996,
+      "learning_rate": 7.27269554133954e-05,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 223389104,
+      "step": 103420
+    },
+    {
+      "epoch": 16.871941272430668,
+      "grad_norm": 0.0298901479691267,
+      "learning_rate": 7.268999068224557e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 223400112,
+      "step": 103425
+    },
+    {
+      "epoch": 16.872756933115824,
+      "grad_norm": 0.002857472514733672,
+      "learning_rate": 7.265303461107519e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 223411216,
+      "step": 103430
+    },
+    {
+      "epoch": 16.87357259380098,
+      "grad_norm": 0.001847639330662787,
+      "learning_rate": 7.261608720063317e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 223423440,
+      "step": 103435
+    },
+    {
+      "epoch": 16.874388254486135,
+      "grad_norm": 0.0019470597617328167,
+      "learning_rate": 7.25791484516683e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 223432944,
+      "step": 103440
+    },
+    {
+      "epoch": 16.875203915171287,
+      "grad_norm": 0.002979752840474248,
+      "learning_rate": 7.254221836492925e-05,
+      "loss": 0.1159,
+      "num_input_tokens_seen": 223443824,
+      "step": 103445
+    },
+    {
+      "epoch": 16.876019575856443,
+      "grad_norm": 0.05077700689435005,
+      "learning_rate": 7.250529694116436e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 223455024,
+      "step": 103450
+    },
+    {
+      "epoch": 16.8768352365416,
+      "grad_norm": 0.0010402423795312643,
+      "learning_rate": 7.246838418112189e-05,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 223464720,
+      "step": 103455
+    },
+    {
+      "epoch": 16.877650897226754,
+      "grad_norm": 0.007393400650471449,
+      "learning_rate": 7.243148008555017e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 223475216,
+      "step": 103460
+    },
+    {
+      "epoch": 16.87846655791191,
+      "grad_norm": 0.00041530292946845293,
+      "learning_rate": 7.239458465519672e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 223485232,
+      "step": 103465
+    },
+    {
+      "epoch": 16.879282218597062,
+      "grad_norm": 0.00204356387257576,
+      "learning_rate": 7.235769789080954e-05,
+      "loss": 0.1144,
+      "num_input_tokens_seen": 223495696,
+      "step": 103470
+    },
+    {
+      "epoch": 16.880097879282218,
+      "grad_norm": 0.0011162912705913186,
+      "learning_rate": 7.232081979313615e-05,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 223508336,
+      "step": 103475
+    },
+    {
+      "epoch": 16.880913539967374,
+      "grad_norm": 0.00022204949345905334,
+      "learning_rate": 7.228395036292384e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 223517680,
+      "step": 103480
+    },
+    {
+      "epoch": 16.88172920065253,
+      "grad_norm": 0.0025065632071346045,
+      "learning_rate": 7.224708960091992e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 223528240,
+      "step": 103485
+    },
+    {
+      "epoch": 16.882544861337685,
+      "grad_norm": 0.0005242445622570813,
+      "learning_rate": 7.221023750787136e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 223539248,
+      "step": 103490
+    },
+    {
+      "epoch": 16.883360522022837,
+      "grad_norm": 0.005537915974855423,
+      "learning_rate": 7.217339408452505e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 223549968,
+      "step": 103495
+    },
+    {
+      "epoch": 16.884176182707993,
+      "grad_norm": 0.0028699340764433146,
+      "learning_rate": 7.21365593316276e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 223561040,
+      "step": 103500
+    },
+    {
+      "epoch": 16.88499184339315,
+      "grad_norm": 0.0010814238339662552,
+      "learning_rate": 7.209973324992558e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 223571152,
+      "step": 103505
+    },
+    {
+      "epoch": 16.885807504078304,
+      "grad_norm": 0.04626893624663353,
+      "learning_rate": 7.206291584016533e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 223582032,
+      "step": 103510
+    },
+    {
+      "epoch": 16.88662316476346,
+      "grad_norm": 0.07623946666717529,
+      "learning_rate": 7.202610710309293e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 223594224,
+      "step": 103515
+    },
+    {
+      "epoch": 16.887438825448612,
+      "grad_norm": 0.008306603878736496,
+      "learning_rate": 7.198930703945439e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 223604144,
+      "step": 103520
+    },
+    {
+      "epoch": 16.888254486133768,
+      "grad_norm": 0.0008515430381521583,
+      "learning_rate": 7.19525156499955e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 223613616,
+      "step": 103525
+    },
+    {
+      "epoch": 16.889070146818923,
+      "grad_norm": 0.005168965086340904,
+      "learning_rate": 7.191573293546195e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 223625744,
+      "step": 103530
+    },
+    {
+      "epoch": 16.88988580750408,
+      "grad_norm": 0.04074247553944588,
+      "learning_rate": 7.187895889659906e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 223635632,
+      "step": 103535
+    },
+    {
+      "epoch": 16.890701468189235,
+      "grad_norm": 0.04196935519576073,
+      "learning_rate": 7.184219353415228e-05,
+      "loss": 0.0592,
+      "num_input_tokens_seen": 223647120,
+      "step": 103540
+    },
+    {
+      "epoch": 16.891517128874387,
+      "grad_norm": 0.005630762781947851,
+      "learning_rate": 7.180543684886654e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 223658416,
+      "step": 103545
+    },
+    {
+      "epoch": 16.892332789559543,
+      "grad_norm": 0.004152704030275345,
+      "learning_rate": 7.176868884148679e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 223669072,
+      "step": 103550
+    },
+    {
+      "epoch": 16.8931484502447,
+      "grad_norm": 0.1723194271326065,
+      "learning_rate": 7.173194951275786e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 223678096,
+      "step": 103555
+    },
+    {
+      "epoch": 16.893964110929854,
+      "grad_norm": 0.1672668755054474,
+      "learning_rate": 7.169521886342417e-05,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 223688624,
+      "step": 103560
+    },
+    {
+      "epoch": 16.894779771615006,
+      "grad_norm": 0.017755307257175446,
+      "learning_rate": 7.165849689423043e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 223699216,
+      "step": 103565
+    },
+    {
+      "epoch": 16.895595432300162,
+      "grad_norm": 0.0071003190241754055,
+      "learning_rate": 7.162178360592037e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 223709904,
+      "step": 103570
+    },
+    {
+      "epoch": 16.896411092985318,
+      "grad_norm": 0.0005213333643041551,
+      "learning_rate": 7.15850789992386e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 223721072,
+      "step": 103575
+    },
+    {
+      "epoch": 16.897226753670473,
+      "grad_norm": 0.012438364326953888,
+      "learning_rate": 7.154838307492839e-05,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 223732784,
+      "step": 103580
+    },
+    {
+      "epoch": 16.89804241435563,
+      "grad_norm": 0.00046717922668904066,
+      "learning_rate": 7.151169583373402e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 223743792,
+      "step": 103585
+    },
+    {
+      "epoch": 16.898858075040785,
+      "grad_norm": 0.08749958872795105,
+      "learning_rate": 7.147501727639844e-05,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 223755344,
+      "step": 103590
+    },
+    {
+      "epoch": 16.899673735725937,
+      "grad_norm": 0.0009969095699489117,
+      "learning_rate": 7.14383474036655e-05,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 223766032,
+      "step": 103595
+    },
+    {
+      "epoch": 16.900489396411093,
+      "grad_norm": 0.008744543418288231,
+      "learning_rate": 7.140168621627786e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 223775440,
+      "step": 103600
+    },
+    {
+      "epoch": 16.90130505709625,
+      "grad_norm": 0.0034252856858074665,
+      "learning_rate": 7.136503371497888e-05,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 223785712,
+      "step": 103605
+    },
+    {
+      "epoch": 16.902120717781404,
+      "grad_norm": 0.0015179646434262395,
+      "learning_rate": 7.132838990051132e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 223795312,
+      "step": 103610
+    },
+    {
+      "epoch": 16.902936378466556,
+      "grad_norm": 0.0007867804961279035,
+      "learning_rate": 7.129175477361766e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 223806736,
+      "step": 103615
+    },
+    {
+      "epoch": 16.903752039151712,
+      "grad_norm": 0.6858383417129517,
+      "learning_rate": 7.125512833504049e-05,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 223817424,
+      "step": 103620
+    },
+    {
+      "epoch": 16.904567699836868,
+      "grad_norm": 0.004548117518424988,
+      "learning_rate": 7.121851058552209e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 223827856,
+      "step": 103625
+    },
+    {
+      "epoch": 16.905383360522023,
+      "grad_norm": 0.01413120049983263,
+      "learning_rate": 7.118190152580444e-05,
+      "loss": 0.0771,
+      "num_input_tokens_seen": 223837104,
+      "step": 103630
+    },
+    {
+      "epoch": 16.90619902120718,
+      "grad_norm": 0.0013508544070646167,
+      "learning_rate": 7.114530115662959e-05,
+      "loss": 0.0889,
+      "num_input_tokens_seen": 223848720,
+      "step": 103635
+    },
+    {
+      "epoch": 16.90701468189233,
+      "grad_norm": 0.006228696089237928,
+      "learning_rate": 7.110870947873926e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 223859216,
+      "step": 103640
+    },
+    {
+      "epoch": 16.907830342577487,
+      "grad_norm": 0.0016030416591092944,
+      "learning_rate": 7.107212649287497e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 223870448,
+      "step": 103645
+    },
+    {
+      "epoch": 16.908646003262643,
+      "grad_norm": 0.005661866627633572,
+      "learning_rate": 7.103555219977825e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 223880720,
+      "step": 103650
+    },
+    {
+      "epoch": 16.9094616639478,
+      "grad_norm": 0.008992401883006096,
+      "learning_rate": 7.099898660019016e-05,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 223891856,
+      "step": 103655
+    },
+    {
+      "epoch": 16.910277324632954,
+      "grad_norm": 0.0017499992391094565,
+      "learning_rate": 7.096242969485189e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 223903280,
+      "step": 103660
+    },
+    {
+      "epoch": 16.911092985318106,
+      "grad_norm": 0.016757963225245476,
+      "learning_rate": 7.092588148450413e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 223914160,
+      "step": 103665
+    },
+    {
+      "epoch": 16.911908646003262,
+      "grad_norm": 0.0017213866813108325,
+      "learning_rate": 7.088934196988795e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 223925424,
+      "step": 103670
+    },
+    {
+      "epoch": 16.912724306688418,
+      "grad_norm": 0.12674477696418762,
+      "learning_rate": 7.085281115174335e-05,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 223936880,
+      "step": 103675
+    },
+    {
+      "epoch": 16.913539967373573,
+      "grad_norm": 0.07425151765346527,
+      "learning_rate": 7.081628903081116e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 223947120,
+      "step": 103680
+    },
+    {
+      "epoch": 16.91435562805873,
+      "grad_norm": 0.0015521092573180795,
+      "learning_rate": 7.077977560783117e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 223957936,
+      "step": 103685
+    },
+    {
+      "epoch": 16.91517128874388,
+      "grad_norm": 0.003834107890725136,
+      "learning_rate": 7.074327088354371e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 223966544,
+      "step": 103690
+    },
+    {
+      "epoch": 16.915986949429037,
+      "grad_norm": 0.0003727386356331408,
+      "learning_rate": 7.070677485868821e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 223978640,
+      "step": 103695
+    },
+    {
+      "epoch": 16.916802610114193,
+      "grad_norm": 0.005801330786198378,
+      "learning_rate": 7.067028753400473e-05,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 223988752,
+      "step": 103700
+    },
+    {
+      "epoch": 16.91761827079935,
+      "grad_norm": 0.264864981174469,
+      "learning_rate": 7.06338089102323e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 223999536,
+      "step": 103705
+    },
+    {
+      "epoch": 16.918433931484504,
+      "grad_norm": 0.00687580369412899,
+      "learning_rate": 7.05973389881106e-05,
+      "loss": 0.0169,
+      "num_input_tokens_seen": 224011088,
+      "step": 103710
+    },
+    {
+      "epoch": 16.919249592169656,
+      "grad_norm": 0.008090431801974773,
+      "learning_rate": 7.056087776837838e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 224021488,
+      "step": 103715
+    },
+    {
+      "epoch": 16.920065252854812,
+      "grad_norm": 0.10078676789999008,
+      "learning_rate": 7.052442525177499e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 224032528,
+      "step": 103720
+    },
+    {
+      "epoch": 16.920880913539968,
+      "grad_norm": 0.015244879759848118,
+      "learning_rate": 7.048798143903873e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 224044432,
+      "step": 103725
+    },
+    {
+      "epoch": 16.921696574225123,
+      "grad_norm": 0.007751537952572107,
+      "learning_rate": 7.045154633090861e-05,
+      "loss": 0.0162,
+      "num_input_tokens_seen": 224054992,
+      "step": 103730
+    },
+    {
+      "epoch": 16.92251223491028,
+      "grad_norm": 0.0004403532948344946,
+      "learning_rate": 7.041511992812255e-05,
+      "loss": 0.0827,
+      "num_input_tokens_seen": 224065136,
+      "step": 103735
+    },
+    {
+      "epoch": 16.92332789559543,
+      "grad_norm": 0.040228236466646194,
+      "learning_rate": 7.037870223141935e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 224077392,
+      "step": 103740
+    },
+    {
+      "epoch": 16.924143556280587,
+      "grad_norm": 0.05721784383058548,
+      "learning_rate": 7.034229324153652e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 224089040,
+      "step": 103745
+    },
+    {
+      "epoch": 16.924959216965743,
+      "grad_norm": 0.02705197036266327,
+      "learning_rate": 7.030589295921224e-05,
+      "loss": 0.0349,
+      "num_input_tokens_seen": 224100976,
+      "step": 103750
+    },
+    {
+      "epoch": 16.9257748776509,
+      "grad_norm": 0.0023379966150969267,
+      "learning_rate": 7.026950138518423e-05,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 224112528,
+      "step": 103755
+    },
+    {
+      "epoch": 16.92659053833605,
+      "grad_norm": 0.002170360879972577,
+      "learning_rate": 7.023311852018988e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 224123024,
+      "step": 103760
+    },
+    {
+      "epoch": 16.927406199021206,
+      "grad_norm": 0.0021907107438892126,
+      "learning_rate": 7.019674436496653e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 224135216,
+      "step": 103765
+    },
+    {
+      "epoch": 16.928221859706362,
+      "grad_norm": 0.6404808759689331,
+      "learning_rate": 7.01603789202515e-05,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 224147056,
+      "step": 103770
+    },
+    {
+      "epoch": 16.929037520391518,
+      "grad_norm": 0.0004183925047982484,
+      "learning_rate": 7.01240221867816e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 224158096,
+      "step": 103775
+    },
+    {
+      "epoch": 16.929853181076673,
+      "grad_norm": 0.00027834964566864073,
+      "learning_rate": 7.008767416529376e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 224168080,
+      "step": 103780
+    },
+    {
+      "epoch": 16.930668841761825,
+      "grad_norm": 0.7886783480644226,
+      "learning_rate": 7.00513348565246e-05,
+      "loss": 0.0603,
+      "num_input_tokens_seen": 224179248,
+      "step": 103785
+    },
+    {
+      "epoch": 16.93148450244698,
+      "grad_norm": 0.0031499317847192287,
+      "learning_rate": 7.001500426121055e-05,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 224190960,
+      "step": 103790
+    },
+    {
+      "epoch": 16.932300163132137,
+      "grad_norm": 0.01849014312028885,
+      "learning_rate": 6.997868238008793e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 224200656,
+      "step": 103795
+    },
+    {
+      "epoch": 16.933115823817293,
+      "grad_norm": 0.007087129633873701,
+      "learning_rate": 6.994236921389268e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 224212016,
+      "step": 103800
+    },
+    {
+      "epoch": 16.93393148450245,
+      "grad_norm": 0.09033387899398804,
+      "learning_rate": 6.990606476336114e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 224222448,
+      "step": 103805
+    },
+    {
+      "epoch": 16.9347471451876,
+      "grad_norm": 0.011910875327885151,
+      "learning_rate": 6.98697690292286e-05,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 224233008,
+      "step": 103810
+    },
+    {
+      "epoch": 16.935562805872756,
+      "grad_norm": 0.002567737130448222,
+      "learning_rate": 6.983348201223105e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 224245200,
+      "step": 103815
+    },
+    {
+      "epoch": 16.936378466557912,
+      "grad_norm": 0.0010787706123664975,
+      "learning_rate": 6.97972037131035e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 224255888,
+      "step": 103820
+    },
+    {
+      "epoch": 16.937194127243067,
+      "grad_norm": 0.010754414834082127,
+      "learning_rate": 6.976093413258156e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 224265904,
+      "step": 103825
+    },
+    {
+      "epoch": 16.938009787928223,
+      "grad_norm": 0.0027486232575029135,
+      "learning_rate": 6.972467327139987e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 224275664,
+      "step": 103830
+    },
+    {
+      "epoch": 16.938825448613375,
+      "grad_norm": 0.0008375774486921728,
+      "learning_rate": 6.968842113029372e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 224286768,
+      "step": 103835
+    },
+    {
+      "epoch": 16.93964110929853,
+      "grad_norm": 0.02906578592956066,
+      "learning_rate": 6.965217770999738e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 224297008,
+      "step": 103840
+    },
+    {
+      "epoch": 16.940456769983687,
+      "grad_norm": 0.005131200421601534,
+      "learning_rate": 6.961594301124585e-05,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 224307216,
+      "step": 103845
+    },
+    {
+      "epoch": 16.941272430668842,
+      "grad_norm": 0.01488333661109209,
+      "learning_rate": 6.957971703477301e-05,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 224317424,
+      "step": 103850
+    },
+    {
+      "epoch": 16.942088091353998,
+      "grad_norm": 0.12265031039714813,
+      "learning_rate": 6.954349978131342e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 224328688,
+      "step": 103855
+    },
+    {
+      "epoch": 16.94290375203915,
+      "grad_norm": 0.0015900880098342896,
+      "learning_rate": 6.950729125160066e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 224339312,
+      "step": 103860
+    },
+    {
+      "epoch": 16.943719412724306,
+      "grad_norm": 0.03072093427181244,
+      "learning_rate": 6.947109144636898e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 224351280,
+      "step": 103865
+    },
+    {
+      "epoch": 16.94453507340946,
+      "grad_norm": 0.002643781015649438,
+      "learning_rate": 6.943490036635158e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 224362064,
+      "step": 103870
+    },
+    {
+      "epoch": 16.945350734094617,
+      "grad_norm": 0.005371812731027603,
+      "learning_rate": 6.939871801228236e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 224372976,
+      "step": 103875
+    },
+    {
+      "epoch": 16.946166394779773,
+      "grad_norm": 0.007469065487384796,
+      "learning_rate": 6.936254438489414e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 224384880,
+      "step": 103880
+    },
+    {
+      "epoch": 16.946982055464925,
+      "grad_norm": 0.012764902785420418,
+      "learning_rate": 6.932637948492038e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 224396496,
+      "step": 103885
+    },
+    {
+      "epoch": 16.94779771615008,
+      "grad_norm": 0.07486124336719513,
+      "learning_rate": 6.929022331309392e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 224408208,
+      "step": 103890
+    },
+    {
+      "epoch": 16.948613376835237,
+      "grad_norm": 0.6385883688926697,
+      "learning_rate": 6.925407587014743e-05,
+      "loss": 0.0952,
+      "num_input_tokens_seen": 224418288,
+      "step": 103895
+    },
+    {
+      "epoch": 16.949429037520392,
+      "grad_norm": 0.5001348257064819,
+      "learning_rate": 6.921793715681358e-05,
+      "loss": 0.1072,
+      "num_input_tokens_seen": 224428688,
+      "step": 103900
+    },
+    {
+      "epoch": 16.950244698205548,
+      "grad_norm": 0.013521653600037098,
+      "learning_rate": 6.918180717382466e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 224439216,
+      "step": 103905
+    },
+    {
+      "epoch": 16.9510603588907,
+      "grad_norm": 0.003049998078495264,
+      "learning_rate": 6.914568592191301e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 224450256,
+      "step": 103910
+    },
+    {
+      "epoch": 16.951876019575856,
+      "grad_norm": 0.020504631102085114,
+      "learning_rate": 6.910957340181056e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 224461872,
+      "step": 103915
+    },
+    {
+      "epoch": 16.95269168026101,
+      "grad_norm": 0.0012223842786625028,
+      "learning_rate": 6.907346961424926e-05,
+      "loss": 0.0754,
+      "num_input_tokens_seen": 224473712,
+      "step": 103920
+    },
+    {
+      "epoch": 16.953507340946167,
+      "grad_norm": 0.009138503111898899,
+      "learning_rate": 6.903737455996073e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 224484560,
+      "step": 103925
+    },
+    {
+      "epoch": 16.954323001631323,
+      "grad_norm": 0.005319240037351847,
+      "learning_rate": 6.900128823967655e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 224494608,
+      "step": 103930
+    },
+    {
+      "epoch": 16.955138662316475,
+      "grad_norm": 0.0023457880597561598,
+      "learning_rate": 6.896521065412803e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 224505488,
+      "step": 103935
+    },
+    {
+      "epoch": 16.95595432300163,
+      "grad_norm": 0.0007057767361402512,
+      "learning_rate": 6.89291418040463e-05,
+      "loss": 0.006,
+      "num_input_tokens_seen": 224516304,
+      "step": 103940
+    },
+    {
+      "epoch": 16.956769983686787,
+      "grad_norm": 0.0032573130447417498,
+      "learning_rate": 6.889308169016229e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 224527056,
+      "step": 103945
+    },
+    {
+      "epoch": 16.957585644371942,
+      "grad_norm": 0.05521783605217934,
+      "learning_rate": 6.885703031320706e-05,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 224537360,
+      "step": 103950
+    },
+    {
+      "epoch": 16.958401305057095,
+      "grad_norm": 0.00016859463357832283,
+      "learning_rate": 6.882098767391087e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 224548240,
+      "step": 103955
+    },
+    {
+      "epoch": 16.95921696574225,
+      "grad_norm": 0.0033800648525357246,
+      "learning_rate": 6.878495377300453e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 224560336,
+      "step": 103960
+    },
+    {
+      "epoch": 16.960032626427406,
+      "grad_norm": 0.01001080870628357,
+      "learning_rate": 6.874892861121795e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 224572496,
+      "step": 103965
+    },
+    {
+      "epoch": 16.96084828711256,
+      "grad_norm": 0.004089967347681522,
+      "learning_rate": 6.871291218928166e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 224583216,
+      "step": 103970
+    },
+    {
+      "epoch": 16.961663947797717,
+      "grad_norm": 0.0007215813966467977,
+      "learning_rate": 6.867690450792508e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 224595696,
+      "step": 103975
+    },
+    {
+      "epoch": 16.96247960848287,
+      "grad_norm": 0.0013670484768226743,
+      "learning_rate": 6.864090556787838e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 224606288,
+      "step": 103980
+    },
+    {
+      "epoch": 16.963295269168025,
+      "grad_norm": 0.011604733765125275,
+      "learning_rate": 6.860491536987079e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 224617488,
+      "step": 103985
+    },
+    {
+      "epoch": 16.96411092985318,
+      "grad_norm": 0.04235439747571945,
+      "learning_rate": 6.856893391463192e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 224628720,
+      "step": 103990
+    },
+    {
+      "epoch": 16.964926590538337,
+      "grad_norm": 0.0010337868006899953,
+      "learning_rate": 6.853296120289094e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 224640432,
+      "step": 103995
+    },
+    {
+      "epoch": 16.965742251223492,
+      "grad_norm": 0.02236298657953739,
+      "learning_rate": 6.849699723537684e-05,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 224651024,
+      "step": 104000
+    },
+    {
+      "epoch": 16.966557911908644,
+      "grad_norm": 0.00834821816533804,
+      "learning_rate": 6.84610420128185e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 224661904,
+      "step": 104005
+    },
+    {
+      "epoch": 16.9673735725938,
+      "grad_norm": 0.0009754026541486382,
+      "learning_rate": 6.842509553594462e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 224672592,
+      "step": 104010
+    },
+    {
+      "epoch": 16.968189233278956,
+      "grad_norm": 0.07079813629388809,
+      "learning_rate": 6.83891578054836e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 224683600,
+      "step": 104015
+    },
+    {
+      "epoch": 16.96900489396411,
+      "grad_norm": 0.0004905558307655156,
+      "learning_rate": 6.835322882216388e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 224694032,
+      "step": 104020
+    },
+    {
+      "epoch": 16.969820554649267,
+      "grad_norm": 0.00019701993733178824,
+      "learning_rate": 6.831730858671353e-05,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 224705712,
+      "step": 104025
+    },
+    {
+      "epoch": 16.97063621533442,
+      "grad_norm": 0.018763495609164238,
+      "learning_rate": 6.828139709986058e-05,
+      "loss": 0.0194,
+      "num_input_tokens_seen": 224714768,
+      "step": 104030
+    },
+    {
+      "epoch": 16.971451876019575,
+      "grad_norm": 0.009430291131138802,
+      "learning_rate": 6.824549436233279e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 224725808,
+      "step": 104035
+    },
+    {
+      "epoch": 16.97226753670473,
+      "grad_norm": 0.003956033382564783,
+      "learning_rate": 6.820960037485779e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 224736752,
+      "step": 104040
+    },
+    {
+      "epoch": 16.973083197389887,
+      "grad_norm": 0.0390721932053566,
+      "learning_rate": 6.8173715138163e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 224747728,
+      "step": 104045
+    },
+    {
+      "epoch": 16.973898858075042,
+      "grad_norm": 0.0026890782173722982,
+      "learning_rate": 6.813783865297563e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 224758320,
+      "step": 104050
+    },
+    {
+      "epoch": 16.974714518760194,
+      "grad_norm": 0.00021689318236894906,
+      "learning_rate": 6.810197092002285e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 224769232,
+      "step": 104055
+    },
+    {
+      "epoch": 16.97553017944535,
+      "grad_norm": 0.008539892733097076,
+      "learning_rate": 6.806611194003154e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 224780016,
+      "step": 104060
+    },
+    {
+      "epoch": 16.976345840130506,
+      "grad_norm": 0.002406371058896184,
+      "learning_rate": 6.803026171372845e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 224792560,
+      "step": 104065
+    },
+    {
+      "epoch": 16.97716150081566,
+      "grad_norm": 0.011961296200752258,
+      "learning_rate": 6.799442024184005e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 224803216,
+      "step": 104070
+    },
+    {
+      "epoch": 16.977977161500817,
+      "grad_norm": 0.0037891874089837074,
+      "learning_rate": 6.795858752509276e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 224814768,
+      "step": 104075
+    },
+    {
+      "epoch": 16.97879282218597,
+      "grad_norm": 0.006421142257750034,
+      "learning_rate": 6.792276356421278e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 224826128,
+      "step": 104080
+    },
+    {
+      "epoch": 16.979608482871125,
+      "grad_norm": 0.0007180146058090031,
+      "learning_rate": 6.788694835992615e-05,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 224836848,
+      "step": 104085
+    },
+    {
+      "epoch": 16.98042414355628,
+      "grad_norm": 0.0014143181033432484,
+      "learning_rate": 6.785114191295854e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 224848816,
+      "step": 104090
+    },
+    {
+      "epoch": 16.981239804241437,
+      "grad_norm": 0.012540574185550213,
+      "learning_rate": 6.78153442240359e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 224858992,
+      "step": 104095
+    },
+    {
+      "epoch": 16.982055464926592,
+      "grad_norm": 0.045478545129299164,
+      "learning_rate": 6.777955529388358e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 224869616,
+      "step": 104100
+    },
+    {
+      "epoch": 16.982871125611744,
+      "grad_norm": 0.005564156919717789,
+      "learning_rate": 6.774377512322688e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 224880880,
+      "step": 104105
+    },
+    {
+      "epoch": 16.9836867862969,
+      "grad_norm": 0.004332674667239189,
+      "learning_rate": 6.77080037127909e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 224890896,
+      "step": 104110
+    },
+    {
+      "epoch": 16.984502446982056,
+      "grad_norm": 0.004451078828424215,
+      "learning_rate": 6.767224106330067e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 224901168,
+      "step": 104115
+    },
+    {
+      "epoch": 16.98531810766721,
+      "grad_norm": 0.0015942800091579556,
+      "learning_rate": 6.763648717548088e-05,
+      "loss": 0.1505,
+      "num_input_tokens_seen": 224912048,
+      "step": 104120
+    },
+    {
+      "epoch": 16.986133768352367,
+      "grad_norm": 0.00040785997407510877,
+      "learning_rate": 6.760074205005617e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 224922768,
+      "step": 104125
+    },
+    {
+      "epoch": 16.98694942903752,
+      "grad_norm": 0.00912250392138958,
+      "learning_rate": 6.756500568775098e-05,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 224934064,
+      "step": 104130
+    },
+    {
+      "epoch": 16.987765089722675,
+      "grad_norm": 0.0014891140162944794,
+      "learning_rate": 6.752927808928955e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 224944720,
+      "step": 104135
+    },
+    {
+      "epoch": 16.98858075040783,
+      "grad_norm": 0.01289412658661604,
+      "learning_rate": 6.749355925539591e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 224956144,
+      "step": 104140
+    },
+    {
+      "epoch": 16.989396411092986,
+      "grad_norm": 0.10449906438589096,
+      "learning_rate": 6.745784918679399e-05,
+      "loss": 0.1343,
+      "num_input_tokens_seen": 224966960,
+      "step": 104145
+    },
+    {
+      "epoch": 16.99021207177814,
+      "grad_norm": 0.0009628917323425412,
+      "learning_rate": 6.742214788420742e-05,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 224976528,
+      "step": 104150
+    },
+    {
+      "epoch": 16.991027732463294,
+      "grad_norm": 0.0012101201573386788,
+      "learning_rate": 6.73864553483598e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 224989584,
+      "step": 104155
+    },
+    {
+      "epoch": 16.99184339314845,
+      "grad_norm": 0.0003157875908073038,
+      "learning_rate": 6.735077157997448e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 225000272,
+      "step": 104160
+    },
+    {
+      "epoch": 16.992659053833606,
+      "grad_norm": 0.1327991783618927,
+      "learning_rate": 6.731509657977464e-05,
+      "loss": 0.007,
+      "num_input_tokens_seen": 225011440,
+      "step": 104165
+    },
+    {
+      "epoch": 16.99347471451876,
+      "grad_norm": 0.009232837706804276,
+      "learning_rate": 6.727943034848327e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 225022096,
+      "step": 104170
+    },
+    {
+      "epoch": 16.994290375203914,
+      "grad_norm": 0.001391786616295576,
+      "learning_rate": 6.72437728868232e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 225033232,
+      "step": 104175
+    },
+    {
+      "epoch": 16.99510603588907,
+      "grad_norm": 0.0021746442653238773,
+      "learning_rate": 6.720812419551703e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 225043664,
+      "step": 104180
+    },
+    {
+      "epoch": 16.995921696574225,
+      "grad_norm": 0.0031335726380348206,
+      "learning_rate": 6.717248427528727e-05,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 225053840,
+      "step": 104185
+    },
+    {
+      "epoch": 16.99673735725938,
+      "grad_norm": 0.002999882446601987,
+      "learning_rate": 6.713685312685619e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 225064688,
+      "step": 104190
+    },
+    {
+      "epoch": 16.997553017944536,
+      "grad_norm": 0.17880254983901978,
+      "learning_rate": 6.710123075094593e-05,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 225075696,
+      "step": 104195
+    },
+    {
+      "epoch": 16.99836867862969,
+      "grad_norm": 0.0011067570885643363,
+      "learning_rate": 6.70656171482783e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 225084624,
+      "step": 104200
+    },
+    {
+      "epoch": 16.999184339314844,
+      "grad_norm": 0.9609259963035583,
+      "learning_rate": 6.703001231957535e-05,
+      "loss": 0.0853,
+      "num_input_tokens_seen": 225095632,
+      "step": 104205
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.22522194683551788,
+      "learning_rate": 6.699441626555824e-05,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 225105296,
+      "step": 104210
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.29674801230430603,
+      "eval_runtime": 104.219,
+      "eval_samples_per_second": 26.147,
+      "eval_steps_per_second": 6.544,
+      "num_input_tokens_seen": 225105296,
+      "step": 104210
+    },
+    {
+      "epoch": 17.000815660685156,
+      "grad_norm": 0.0023162413854151964,
+      "learning_rate": 6.695882898694883e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 225116784,
+      "step": 104215
+    },
+    {
+      "epoch": 17.00163132137031,
+      "grad_norm": 0.0006858249544166028,
+      "learning_rate": 6.692325048446784e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 225129328,
+      "step": 104220
+    },
+    {
+      "epoch": 17.002446982055464,
+      "grad_norm": 0.7215015888214111,
+      "learning_rate": 6.688768075883683e-05,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 225138544,
+      "step": 104225
+    },
+    {
+      "epoch": 17.00326264274062,
+      "grad_norm": 0.015421743504703045,
+      "learning_rate": 6.685211981077616e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 225149072,
+      "step": 104230
+    },
+    {
+      "epoch": 17.004078303425775,
+      "grad_norm": 0.001810228219255805,
+      "learning_rate": 6.68165676410069e-05,
+      "loss": 0.0718,
+      "num_input_tokens_seen": 225159344,
+      "step": 104235
+    },
+    {
+      "epoch": 17.00489396411093,
+      "grad_norm": 0.004929349757730961,
+      "learning_rate": 6.678102425024946e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 225170096,
+      "step": 104240
+    },
+    {
+      "epoch": 17.005709624796086,
+      "grad_norm": 0.030193855985999107,
+      "learning_rate": 6.674548963922412e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 225181104,
+      "step": 104245
+    },
+    {
+      "epoch": 17.00652528548124,
+      "grad_norm": 0.0012685685651376843,
+      "learning_rate": 6.670996380865101e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 225191376,
+      "step": 104250
+    },
+    {
+      "epoch": 17.007340946166394,
+      "grad_norm": 0.037792641669511795,
+      "learning_rate": 6.667444675925022e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 225202000,
+      "step": 104255
+    },
+    {
+      "epoch": 17.00815660685155,
+      "grad_norm": 0.008928779512643814,
+      "learning_rate": 6.663893849174147e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 225212592,
+      "step": 104260
+    },
+    {
+      "epoch": 17.008972267536706,
+      "grad_norm": 0.02849671244621277,
+      "learning_rate": 6.660343900684434e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 225224912,
+      "step": 104265
+    },
+    {
+      "epoch": 17.00978792822186,
+      "grad_norm": 0.0014940741239115596,
+      "learning_rate": 6.656794830527835e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 225235856,
+      "step": 104270
+    },
+    {
+      "epoch": 17.010603588907014,
+      "grad_norm": 0.004284200258553028,
+      "learning_rate": 6.653246638776273e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 225246640,
+      "step": 104275
+    },
+    {
+      "epoch": 17.01141924959217,
+      "grad_norm": 0.15875405073165894,
+      "learning_rate": 6.649699325501657e-05,
+      "loss": 0.008,
+      "num_input_tokens_seen": 225258864,
+      "step": 104280
+    },
+    {
+      "epoch": 17.012234910277325,
+      "grad_norm": 0.1828366369009018,
+      "learning_rate": 6.64615289077588e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 225270416,
+      "step": 104285
+    },
+    {
+      "epoch": 17.01305057096248,
+      "grad_norm": 0.02164081484079361,
+      "learning_rate": 6.642607334670808e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 225280560,
+      "step": 104290
+    },
+    {
+      "epoch": 17.013866231647636,
+      "grad_norm": 0.01167318969964981,
+      "learning_rate": 6.639062657258305e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 225290864,
+      "step": 104295
+    },
+    {
+      "epoch": 17.01468189233279,
+      "grad_norm": 0.009521464817225933,
+      "learning_rate": 6.635518858610207e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 225302576,
+      "step": 104300
+    },
+    {
+      "epoch": 17.015497553017944,
+      "grad_norm": 0.02223174087703228,
+      "learning_rate": 6.631975938798312e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 225314000,
+      "step": 104305
+    },
+    {
+      "epoch": 17.0163132137031,
+      "grad_norm": 0.0020480211824178696,
+      "learning_rate": 6.62843389789447e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 225323952,
+      "step": 104310
+    },
+    {
+      "epoch": 17.017128874388256,
+      "grad_norm": 0.031527843326330185,
+      "learning_rate": 6.624892735970412e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 225334416,
+      "step": 104315
+    },
+    {
+      "epoch": 17.017944535073408,
+      "grad_norm": 0.018897900357842445,
+      "learning_rate": 6.621352453097951e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 225345008,
+      "step": 104320
+    },
+    {
+      "epoch": 17.018760195758563,
+      "grad_norm": 0.004922399763017893,
+      "learning_rate": 6.617813049348787e-05,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 225357008,
+      "step": 104325
+    },
+    {
+      "epoch": 17.01957585644372,
+      "grad_norm": 0.003675678512081504,
+      "learning_rate": 6.6142745247947e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 225367312,
+      "step": 104330
+    },
+    {
+      "epoch": 17.020391517128875,
+      "grad_norm": 0.0006571310805156827,
+      "learning_rate": 6.610736879507356e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 225378224,
+      "step": 104335
+    },
+    {
+      "epoch": 17.02120717781403,
+      "grad_norm": 0.008297720924019814,
+      "learning_rate": 6.607200113558493e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 225389936,
+      "step": 104340
+    },
+    {
+      "epoch": 17.022022838499183,
+      "grad_norm": 0.0017699478194117546,
+      "learning_rate": 6.603664227019745e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 225400592,
+      "step": 104345
+    },
+    {
+      "epoch": 17.02283849918434,
+      "grad_norm": 0.0011303251376375556,
+      "learning_rate": 6.600129219962819e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 225411632,
+      "step": 104350
+    },
+    {
+      "epoch": 17.023654159869494,
+      "grad_norm": 0.031992051750421524,
+      "learning_rate": 6.596595092459307e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 225423088,
+      "step": 104355
+    },
+    {
+      "epoch": 17.02446982055465,
+      "grad_norm": 0.00496671674773097,
+      "learning_rate": 6.593061844580878e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 225434448,
+      "step": 104360
+    },
+    {
+      "epoch": 17.025285481239806,
+      "grad_norm": 0.014466633088886738,
+      "learning_rate": 6.589529476399097e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 225445456,
+      "step": 104365
+    },
+    {
+      "epoch": 17.026101141924958,
+      "grad_norm": 0.13525429368019104,
+      "learning_rate": 6.585997987985592e-05,
+      "loss": 0.043,
+      "num_input_tokens_seen": 225456400,
+      "step": 104370
+    },
+    {
+      "epoch": 17.026916802610113,
+      "grad_norm": 0.5867858529090881,
+      "learning_rate": 6.582467379411889e-05,
+      "loss": 0.0628,
+      "num_input_tokens_seen": 225466256,
+      "step": 104375
+    },
+    {
+      "epoch": 17.02773246329527,
+      "grad_norm": 0.0019362906459718943,
+      "learning_rate": 6.578937650749573e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 225477008,
+      "step": 104380
+    },
+    {
+      "epoch": 17.028548123980425,
+      "grad_norm": 0.006260257679969072,
+      "learning_rate": 6.575408802070171e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 225488592,
+      "step": 104385
+    },
+    {
+      "epoch": 17.02936378466558,
+      "grad_norm": 0.021634496748447418,
+      "learning_rate": 6.571880833445198e-05,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 225499248,
+      "step": 104390
+    },
+    {
+      "epoch": 17.030179445350733,
+      "grad_norm": 0.0008673843694850802,
+      "learning_rate": 6.568353744946154e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 225509968,
+      "step": 104395
+    },
+    {
+      "epoch": 17.03099510603589,
+      "grad_norm": 0.0009401759598404169,
+      "learning_rate": 6.564827536644519e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 225520752,
+      "step": 104400
+    },
+    {
+      "epoch": 17.031810766721044,
+      "grad_norm": 0.014809912070631981,
+      "learning_rate": 6.561302208611752e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 225530736,
+      "step": 104405
+    },
+    {
+      "epoch": 17.0326264274062,
+      "grad_norm": 0.03141998499631882,
+      "learning_rate": 6.557777760919303e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 225542864,
+      "step": 104410
+    },
+    {
+      "epoch": 17.033442088091356,
+      "grad_norm": 0.001158158527687192,
+      "learning_rate": 6.554254193638598e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 225553296,
+      "step": 104415
+    },
+    {
+      "epoch": 17.034257748776508,
+      "grad_norm": 0.49954646825790405,
+      "learning_rate": 6.550731506841046e-05,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 225564016,
+      "step": 104420
+    },
+    {
+      "epoch": 17.035073409461663,
+      "grad_norm": 0.0024979086592793465,
+      "learning_rate": 6.54720970059804e-05,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 225575024,
+      "step": 104425
+    },
+    {
+      "epoch": 17.03588907014682,
+      "grad_norm": 0.004868679214268923,
+      "learning_rate": 6.543688774980944e-05,
+      "loss": 0.0118,
+      "num_input_tokens_seen": 225586608,
+      "step": 104430
+    },
+    {
+      "epoch": 17.036704730831975,
+      "grad_norm": 0.008296649903059006,
+      "learning_rate": 6.540168730061141e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 225596592,
+      "step": 104435
+    },
+    {
+      "epoch": 17.03752039151713,
+      "grad_norm": 0.024006053805351257,
+      "learning_rate": 6.53664956590993e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 225607024,
+      "step": 104440
+    },
+    {
+      "epoch": 17.038336052202283,
+      "grad_norm": 0.008441988378763199,
+      "learning_rate": 6.533131282598676e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 225617968,
+      "step": 104445
+    },
+    {
+      "epoch": 17.03915171288744,
+      "grad_norm": 0.03972849249839783,
+      "learning_rate": 6.529613880198638e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 225628976,
+      "step": 104450
+    },
+    {
+      "epoch": 17.039967373572594,
+      "grad_norm": 0.01612004078924656,
+      "learning_rate": 6.526097358781141e-05,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 225639088,
+      "step": 104455
+    },
+    {
+      "epoch": 17.04078303425775,
+      "grad_norm": 0.0036437015514820814,
+      "learning_rate": 6.522581718417409e-05,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 225649008,
+      "step": 104460
+    },
+    {
+      "epoch": 17.041598694942905,
+      "grad_norm": 0.08305442333221436,
+      "learning_rate": 6.519066959178738e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 225659632,
+      "step": 104465
+    },
+    {
+      "epoch": 17.042414355628058,
+      "grad_norm": 0.000809130840934813,
+      "learning_rate": 6.515553081136311e-05,
+      "loss": 0.08,
+      "num_input_tokens_seen": 225670320,
+      "step": 104470
+    },
+    {
+      "epoch": 17.043230016313213,
+      "grad_norm": 0.01146237924695015,
+      "learning_rate": 6.512040084361388e-05,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 225680080,
+      "step": 104475
+    },
+    {
+      "epoch": 17.04404567699837,
+      "grad_norm": 0.04106791317462921,
+      "learning_rate": 6.508527968925115e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 225691024,
+      "step": 104480
+    },
+    {
+      "epoch": 17.044861337683525,
+      "grad_norm": 0.00045756070176139474,
+      "learning_rate": 6.505016734898722e-05,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 225701840,
+      "step": 104485
+    },
+    {
+      "epoch": 17.045676998368677,
+      "grad_norm": 0.007039316929876804,
+      "learning_rate": 6.501506382353317e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 225713680,
+      "step": 104490
+    },
+    {
+      "epoch": 17.046492659053833,
+      "grad_norm": 0.447841078042984,
+      "learning_rate": 6.497996911360093e-05,
+      "loss": 0.0284,
+      "num_input_tokens_seen": 225724336,
+      "step": 104495
+    },
+    {
+      "epoch": 17.04730831973899,
+      "grad_norm": 0.001014457899145782,
+      "learning_rate": 6.494488321990122e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 225735376,
+      "step": 104500
+    },
+    {
+      "epoch": 17.048123980424144,
+      "grad_norm": 0.06084701418876648,
+      "learning_rate": 6.490980614314556e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 225746736,
+      "step": 104505
+    },
+    {
+      "epoch": 17.0489396411093,
+      "grad_norm": 0.008512042462825775,
+      "learning_rate": 6.487473788404446e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 225757264,
+      "step": 104510
+    },
+    {
+      "epoch": 17.049755301794452,
+      "grad_norm": 0.003893906017765403,
+      "learning_rate": 6.483967844330901e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 225769104,
+      "step": 104515
+    },
+    {
+      "epoch": 17.050570962479608,
+      "grad_norm": 0.004594842437654734,
+      "learning_rate": 6.480462782164925e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 225780464,
+      "step": 104520
+    },
+    {
+      "epoch": 17.051386623164763,
+      "grad_norm": 1.0909298658370972,
+      "learning_rate": 6.476958601977595e-05,
+      "loss": 0.0641,
+      "num_input_tokens_seen": 225790736,
+      "step": 104525
+    },
+    {
+      "epoch": 17.05220228384992,
+      "grad_norm": 0.001894684974104166,
+      "learning_rate": 6.473455303839909e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 225801584,
+      "step": 104530
+    },
+    {
+      "epoch": 17.053017944535075,
+      "grad_norm": 0.0030393460765480995,
+      "learning_rate": 6.469952887822866e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 225811920,
+      "step": 104535
+    },
+    {
+      "epoch": 17.053833605220227,
+      "grad_norm": 0.007903835736215115,
+      "learning_rate": 6.466451353997455e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 225822000,
+      "step": 104540
+    },
+    {
+      "epoch": 17.054649265905383,
+      "grad_norm": 0.012811913155019283,
+      "learning_rate": 6.462950702434633e-05,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 225833456,
+      "step": 104545
+    },
+    {
+      "epoch": 17.05546492659054,
+      "grad_norm": 0.0014708518283441663,
+      "learning_rate": 6.459450933205346e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 225845072,
+      "step": 104550
+    },
+    {
+      "epoch": 17.056280587275694,
+      "grad_norm": 0.0006639196653850377,
+      "learning_rate": 6.455952046380514e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 225854960,
+      "step": 104555
+    },
+    {
+      "epoch": 17.05709624796085,
+      "grad_norm": 0.02281191386282444,
+      "learning_rate": 6.452454042031059e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 225866544,
+      "step": 104560
+    },
+    {
+      "epoch": 17.057911908646002,
+      "grad_norm": 0.00603465223684907,
+      "learning_rate": 6.448956920227867e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 225876016,
+      "step": 104565
+    },
+    {
+      "epoch": 17.058727569331158,
+      "grad_norm": 0.007597712334245443,
+      "learning_rate": 6.445460681041815e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 225888176,
+      "step": 104570
+    },
+    {
+      "epoch": 17.059543230016313,
+      "grad_norm": 0.0021226252429187298,
+      "learning_rate": 6.441965324543737e-05,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 225898672,
+      "step": 104575
+    },
+    {
+      "epoch": 17.06035889070147,
+      "grad_norm": 0.005578478332608938,
+      "learning_rate": 6.438470850804512e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 225910256,
+      "step": 104580
+    },
+    {
+      "epoch": 17.061174551386625,
+      "grad_norm": 0.0020552859641611576,
+      "learning_rate": 6.43497725989492e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 225921968,
+      "step": 104585
+    },
+    {
+      "epoch": 17.061990212071777,
+      "grad_norm": 0.016926616430282593,
+      "learning_rate": 6.431484551885797e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 225932848,
+      "step": 104590
+    },
+    {
+      "epoch": 17.062805872756933,
+      "grad_norm": 0.6727308034896851,
+      "learning_rate": 6.427992726847892e-05,
+      "loss": 0.1606,
+      "num_input_tokens_seen": 225944240,
+      "step": 104595
+    },
+    {
+      "epoch": 17.063621533442088,
+      "grad_norm": 0.003617391223087907,
+      "learning_rate": 6.424501784852004e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 225955856,
+      "step": 104600
+    },
+    {
+      "epoch": 17.064437194127244,
+      "grad_norm": 0.0032554580830037594,
+      "learning_rate": 6.421011725968856e-05,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 225966160,
+      "step": 104605
+    },
+    {
+      "epoch": 17.0652528548124,
+      "grad_norm": 0.0010663648135960102,
+      "learning_rate": 6.4175225502692e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 225977328,
+      "step": 104610
+    },
+    {
+      "epoch": 17.06606851549755,
+      "grad_norm": 0.003959180787205696,
+      "learning_rate": 6.414034257823725e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 225986480,
+      "step": 104615
+    },
+    {
+      "epoch": 17.066884176182707,
+      "grad_norm": 0.0037438899744302034,
+      "learning_rate": 6.410546848703153e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 225997840,
+      "step": 104620
+    },
+    {
+      "epoch": 17.067699836867863,
+      "grad_norm": 0.010389694944024086,
+      "learning_rate": 6.407060322978131e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 226009360,
+      "step": 104625
+    },
+    {
+      "epoch": 17.06851549755302,
+      "grad_norm": 0.0010346529306843877,
+      "learning_rate": 6.403574680719343e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 226020176,
+      "step": 104630
+    },
+    {
+      "epoch": 17.069331158238175,
+      "grad_norm": 0.00428399071097374,
+      "learning_rate": 6.400089921997415e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 226031216,
+      "step": 104635
+    },
+    {
+      "epoch": 17.070146818923327,
+      "grad_norm": 0.007730559445917606,
+      "learning_rate": 6.39660604688298e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 226041680,
+      "step": 104640
+    },
+    {
+      "epoch": 17.070962479608482,
+      "grad_norm": 0.018052903935313225,
+      "learning_rate": 6.393123055446637e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 226052784,
+      "step": 104645
+    },
+    {
+      "epoch": 17.071778140293638,
+      "grad_norm": 0.092511385679245,
+      "learning_rate": 6.389640947758973e-05,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 226063824,
+      "step": 104650
+    },
+    {
+      "epoch": 17.072593800978794,
+      "grad_norm": 0.005565250292420387,
+      "learning_rate": 6.38615972389056e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 226074896,
+      "step": 104655
+    },
+    {
+      "epoch": 17.07340946166395,
+      "grad_norm": 0.1231377050280571,
+      "learning_rate": 6.382679383911949e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 226084816,
+      "step": 104660
+    },
+    {
+      "epoch": 17.0742251223491,
+      "grad_norm": 0.001401619054377079,
+      "learning_rate": 6.37919992789367e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 226095376,
+      "step": 104665
+    },
+    {
+      "epoch": 17.075040783034257,
+      "grad_norm": 0.012654143385589123,
+      "learning_rate": 6.375721355906245e-05,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 226105936,
+      "step": 104670
+    },
+    {
+      "epoch": 17.075856443719413,
+      "grad_norm": 0.000800961337517947,
+      "learning_rate": 6.372243668020167e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 226116368,
+      "step": 104675
+    },
+    {
+      "epoch": 17.07667210440457,
+      "grad_norm": 0.00023649254580959678,
+      "learning_rate": 6.368766864305914e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 226127056,
+      "step": 104680
+    },
+    {
+      "epoch": 17.07748776508972,
+      "grad_norm": 0.001044937875121832,
+      "learning_rate": 6.365290944833952e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 226137200,
+      "step": 104685
+    },
+    {
+      "epoch": 17.078303425774877,
+      "grad_norm": 0.17576022446155548,
+      "learning_rate": 6.361815909674722e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 226147600,
+      "step": 104690
+    },
+    {
+      "epoch": 17.079119086460032,
+      "grad_norm": 0.002019402338191867,
+      "learning_rate": 6.358341758898656e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 226156784,
+      "step": 104695
+    },
+    {
+      "epoch": 17.079934747145188,
+      "grad_norm": 0.012892481870949268,
+      "learning_rate": 6.354868492576154e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 226167600,
+      "step": 104700
+    },
+    {
+      "epoch": 17.080750407830344,
+      "grad_norm": 0.024450616911053658,
+      "learning_rate": 6.351396110777613e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 226179088,
+      "step": 104705
+    },
+    {
+      "epoch": 17.081566068515496,
+      "grad_norm": 0.00017877235950436443,
+      "learning_rate": 6.347924613573402e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 226190928,
+      "step": 104710
+    },
+    {
+      "epoch": 17.08238172920065,
+      "grad_norm": 0.0333293154835701,
+      "learning_rate": 6.344454001033873e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 226201072,
+      "step": 104715
+    },
+    {
+      "epoch": 17.083197389885807,
+      "grad_norm": 0.009895344264805317,
+      "learning_rate": 6.340984273229355e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 226212688,
+      "step": 104720
+    },
+    {
+      "epoch": 17.084013050570963,
+      "grad_norm": 0.0060686697252094746,
+      "learning_rate": 6.337515430230196e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 226223760,
+      "step": 104725
+    },
+    {
+      "epoch": 17.08482871125612,
+      "grad_norm": 0.00028824826586060226,
+      "learning_rate": 6.334047472106657e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 226233264,
+      "step": 104730
+    },
+    {
+      "epoch": 17.08564437194127,
+      "grad_norm": 0.0006094975979067385,
+      "learning_rate": 6.330580398929047e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 226243440,
+      "step": 104735
+    },
+    {
+      "epoch": 17.086460032626427,
+      "grad_norm": 0.010639664717018604,
+      "learning_rate": 6.327114210767632e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 226255504,
+      "step": 104740
+    },
+    {
+      "epoch": 17.087275693311582,
+      "grad_norm": 0.5435303449630737,
+      "learning_rate": 6.323648907692642e-05,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 226266768,
+      "step": 104745
+    },
+    {
+      "epoch": 17.088091353996738,
+      "grad_norm": 0.04907776787877083,
+      "learning_rate": 6.320184489774317e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 226277616,
+      "step": 104750
+    },
+    {
+      "epoch": 17.088907014681894,
+      "grad_norm": 0.0444052629172802,
+      "learning_rate": 6.316720957082867e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 226288144,
+      "step": 104755
+    },
+    {
+      "epoch": 17.089722675367046,
+      "grad_norm": 0.008682828396558762,
+      "learning_rate": 6.31325830968848e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 226300560,
+      "step": 104760
+    },
+    {
+      "epoch": 17.0905383360522,
+      "grad_norm": 0.01425588596612215,
+      "learning_rate": 6.30979654766134e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 226311248,
+      "step": 104765
+    },
+    {
+      "epoch": 17.091353996737357,
+      "grad_norm": 0.05291926860809326,
+      "learning_rate": 6.306335671071589e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 226323056,
+      "step": 104770
+    },
+    {
+      "epoch": 17.092169657422513,
+      "grad_norm": 0.004806335549801588,
+      "learning_rate": 6.302875679989384e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 226333072,
+      "step": 104775
+    },
+    {
+      "epoch": 17.09298531810767,
+      "grad_norm": 0.0032293670810759068,
+      "learning_rate": 6.299416574484828e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 226343920,
+      "step": 104780
+    },
+    {
+      "epoch": 17.09380097879282,
+      "grad_norm": 0.008256429806351662,
+      "learning_rate": 6.29595835462804e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 226354288,
+      "step": 104785
+    },
+    {
+      "epoch": 17.094616639477977,
+      "grad_norm": 0.030211608856916428,
+      "learning_rate": 6.2925010204891e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 226365520,
+      "step": 104790
+    },
+    {
+      "epoch": 17.095432300163132,
+      "grad_norm": 0.000742889940738678,
+      "learning_rate": 6.289044572138069e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 226376944,
+      "step": 104795
+    },
+    {
+      "epoch": 17.096247960848288,
+      "grad_norm": 0.00248258956708014,
+      "learning_rate": 6.285589009644999e-05,
+      "loss": 0.0345,
+      "num_input_tokens_seen": 226387824,
+      "step": 104800
+    },
+    {
+      "epoch": 17.097063621533444,
+      "grad_norm": 0.00329033937305212,
+      "learning_rate": 6.282134333079926e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 226399056,
+      "step": 104805
+    },
+    {
+      "epoch": 17.097879282218596,
+      "grad_norm": 0.47946974635124207,
+      "learning_rate": 6.278680542512866e-05,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 226408624,
+      "step": 104810
+    },
+    {
+      "epoch": 17.09869494290375,
+      "grad_norm": 0.0005470985197462142,
+      "learning_rate": 6.275227638013803e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 226418640,
+      "step": 104815
+    },
+    {
+      "epoch": 17.099510603588907,
+      "grad_norm": 0.0025842119939625263,
+      "learning_rate": 6.271775619652719e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 226430576,
+      "step": 104820
+    },
+    {
+      "epoch": 17.100326264274063,
+      "grad_norm": 0.002082726452499628,
+      "learning_rate": 6.268324487499583e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 226441456,
+      "step": 104825
+    },
+    {
+      "epoch": 17.10114192495922,
+      "grad_norm": 0.0005375830223783851,
+      "learning_rate": 6.264874241624324e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 226453040,
+      "step": 104830
+    },
+    {
+      "epoch": 17.10195758564437,
+      "grad_norm": 0.0021206443198025227,
+      "learning_rate": 6.261424882096866e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 226464624,
+      "step": 104835
+    },
+    {
+      "epoch": 17.102773246329527,
+      "grad_norm": 0.0012728559086099267,
+      "learning_rate": 6.257976408987115e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 226476048,
+      "step": 104840
+    },
+    {
+      "epoch": 17.103588907014682,
+      "grad_norm": 0.0008652537362650037,
+      "learning_rate": 6.254528822364985e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 226487408,
+      "step": 104845
+    },
+    {
+      "epoch": 17.104404567699838,
+      "grad_norm": 0.001977971289306879,
+      "learning_rate": 6.2510821223003e-05,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 226498896,
+      "step": 104850
+    },
+    {
+      "epoch": 17.10522022838499,
+      "grad_norm": 0.00024319304793607444,
+      "learning_rate": 6.247636308862953e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 226509456,
+      "step": 104855
+    },
+    {
+      "epoch": 17.106035889070146,
+      "grad_norm": 0.0021559372544288635,
+      "learning_rate": 6.244191382122744e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 226518640,
+      "step": 104860
+    },
+    {
+      "epoch": 17.1068515497553,
+      "grad_norm": 0.013561434112489223,
+      "learning_rate": 6.240747342149511e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 226528944,
+      "step": 104865
+    },
+    {
+      "epoch": 17.107667210440457,
+      "grad_norm": 0.01310847606509924,
+      "learning_rate": 6.237304189013049e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 226540528,
+      "step": 104870
+    },
+    {
+      "epoch": 17.108482871125613,
+      "grad_norm": 0.05319130793213844,
+      "learning_rate": 6.233861922783135e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 226551024,
+      "step": 104875
+    },
+    {
+      "epoch": 17.109298531810765,
+      "grad_norm": 0.005616676993668079,
+      "learning_rate": 6.230420543529525e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 226561616,
+      "step": 104880
+    },
+    {
+      "epoch": 17.11011419249592,
+      "grad_norm": 0.002177638467401266,
+      "learning_rate": 6.226980051321973e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 226572240,
+      "step": 104885
+    },
+    {
+      "epoch": 17.110929853181077,
+      "grad_norm": 0.0035934222396463156,
+      "learning_rate": 6.223540446230202e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 226583728,
+      "step": 104890
+    },
+    {
+      "epoch": 17.111745513866232,
+      "grad_norm": 0.00031812474480830133,
+      "learning_rate": 6.220101728323913e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 226593392,
+      "step": 104895
+    },
+    {
+      "epoch": 17.112561174551388,
+      "grad_norm": 0.08002560585737228,
+      "learning_rate": 6.216663897672803e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 226605040,
+      "step": 104900
+    },
+    {
+      "epoch": 17.11337683523654,
+      "grad_norm": 0.0005137875559739769,
+      "learning_rate": 6.213226954346546e-05,
+      "loss": 0.0949,
+      "num_input_tokens_seen": 226614992,
+      "step": 104905
+    },
+    {
+      "epoch": 17.114192495921696,
+      "grad_norm": 0.00699897576123476,
+      "learning_rate": 6.209790898414785e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 226624432,
+      "step": 104910
+    },
+    {
+      "epoch": 17.11500815660685,
+      "grad_norm": 0.0014027615543454885,
+      "learning_rate": 6.206355729947171e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 226634928,
+      "step": 104915
+    },
+    {
+      "epoch": 17.115823817292007,
+      "grad_norm": 0.038768503814935684,
+      "learning_rate": 6.20292144901331e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 226646736,
+      "step": 104920
+    },
+    {
+      "epoch": 17.116639477977163,
+      "grad_norm": 0.09800397604703903,
+      "learning_rate": 6.199488055682806e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 226657040,
+      "step": 104925
+    },
+    {
+      "epoch": 17.117455138662315,
+      "grad_norm": 0.0012403081636875868,
+      "learning_rate": 6.196055550025243e-05,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 226668112,
+      "step": 104930
+    },
+    {
+      "epoch": 17.11827079934747,
+      "grad_norm": 0.00031859471346251667,
+      "learning_rate": 6.192623932110187e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 226679152,
+      "step": 104935
+    },
+    {
+      "epoch": 17.119086460032626,
+      "grad_norm": 0.0007942294469103217,
+      "learning_rate": 6.189193202007176e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 226690224,
+      "step": 104940
+    },
+    {
+      "epoch": 17.119902120717782,
+      "grad_norm": 0.0008386078989133239,
+      "learning_rate": 6.185763359785729e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 226701264,
+      "step": 104945
+    },
+    {
+      "epoch": 17.120717781402938,
+      "grad_norm": 0.013233168050646782,
+      "learning_rate": 6.182334405515399e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 226711600,
+      "step": 104950
+    },
+    {
+      "epoch": 17.12153344208809,
+      "grad_norm": 0.005685046315193176,
+      "learning_rate": 6.178906339265622e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 226722672,
+      "step": 104955
+    },
+    {
+      "epoch": 17.122349102773246,
+      "grad_norm": 0.002959656063467264,
+      "learning_rate": 6.175479161105923e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 226734064,
+      "step": 104960
+    },
+    {
+      "epoch": 17.1231647634584,
+      "grad_norm": 0.14378587901592255,
+      "learning_rate": 6.17205287110571e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 226745392,
+      "step": 104965
+    },
+    {
+      "epoch": 17.123980424143557,
+      "grad_norm": 0.0013684089062735438,
+      "learning_rate": 6.16862746933447e-05,
+      "loss": 0.0456,
+      "num_input_tokens_seen": 226754512,
+      "step": 104970
+    },
+    {
+      "epoch": 17.124796084828713,
+      "grad_norm": 0.0015672908630222082,
+      "learning_rate": 6.165202955861577e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 226765328,
+      "step": 104975
+    },
+    {
+      "epoch": 17.125611745513865,
+      "grad_norm": 0.0004411570553202182,
+      "learning_rate": 6.161779330756473e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 226775888,
+      "step": 104980
+    },
+    {
+      "epoch": 17.12642740619902,
+      "grad_norm": 0.00609734607860446,
+      "learning_rate": 6.158356594088504e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 226787728,
+      "step": 104985
+    },
+    {
+      "epoch": 17.127243066884176,
+      "grad_norm": 0.0029845749959349632,
+      "learning_rate": 6.154934745927076e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 226798736,
+      "step": 104990
+    },
+    {
+      "epoch": 17.128058727569332,
+      "grad_norm": 0.021898532286286354,
+      "learning_rate": 6.151513786341495e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 226808880,
+      "step": 104995
+    },
+    {
+      "epoch": 17.128874388254488,
+      "grad_norm": 0.0029983953572809696,
+      "learning_rate": 6.148093715401138e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 226819696,
+      "step": 105000
+    },
+    {
+      "epoch": 17.12969004893964,
+      "grad_norm": 0.001115454942919314,
+      "learning_rate": 6.144674533175265e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 226830608,
+      "step": 105005
+    },
+    {
+      "epoch": 17.130505709624796,
+      "grad_norm": 0.0005920961848460138,
+      "learning_rate": 6.141256239733212e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 226841712,
+      "step": 105010
+    },
+    {
+      "epoch": 17.13132137030995,
+      "grad_norm": 0.00042530731298029423,
+      "learning_rate": 6.137838835144239e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 226852432,
+      "step": 105015
+    },
+    {
+      "epoch": 17.132137030995107,
+      "grad_norm": 0.001647250261157751,
+      "learning_rate": 6.1344223194776e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 226861552,
+      "step": 105020
+    },
+    {
+      "epoch": 17.13295269168026,
+      "grad_norm": 0.013181711547076702,
+      "learning_rate": 6.13100669280255e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 226873392,
+      "step": 105025
+    },
+    {
+      "epoch": 17.133768352365415,
+      "grad_norm": 0.0009910253575071692,
+      "learning_rate": 6.127591955188295e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 226884368,
+      "step": 105030
+    },
+    {
+      "epoch": 17.13458401305057,
+      "grad_norm": 0.009880750440061092,
+      "learning_rate": 6.124178106704042e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 226895088,
+      "step": 105035
+    },
+    {
+      "epoch": 17.135399673735726,
+      "grad_norm": 0.00189596030395478,
+      "learning_rate": 6.120765147418989e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 226905872,
+      "step": 105040
+    },
+    {
+      "epoch": 17.136215334420882,
+      "grad_norm": 0.037216730415821075,
+      "learning_rate": 6.117353077402288e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 226917072,
+      "step": 105045
+    },
+    {
+      "epoch": 17.137030995106034,
+      "grad_norm": 0.006446500774472952,
+      "learning_rate": 6.113941896723097e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 226929584,
+      "step": 105050
+    },
+    {
+      "epoch": 17.13784665579119,
+      "grad_norm": 0.03469831869006157,
+      "learning_rate": 6.110531605450548e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 226941456,
+      "step": 105055
+    },
+    {
+      "epoch": 17.138662316476346,
+      "grad_norm": 0.14603827893733978,
+      "learning_rate": 6.107122203653742e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 226950672,
+      "step": 105060
+    },
+    {
+      "epoch": 17.1394779771615,
+      "grad_norm": 0.0005901344702579081,
+      "learning_rate": 6.103713691401813e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 226961008,
+      "step": 105065
+    },
+    {
+      "epoch": 17.140293637846657,
+      "grad_norm": 0.001494377851486206,
+      "learning_rate": 6.1003060687637836e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 226971632,
+      "step": 105070
+    },
+    {
+      "epoch": 17.14110929853181,
+      "grad_norm": 0.0025044973008334637,
+      "learning_rate": 6.09689933580877e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 226982192,
+      "step": 105075
+    },
+    {
+      "epoch": 17.141924959216965,
+      "grad_norm": 0.0009858324192464352,
+      "learning_rate": 6.0934934926057616e-05,
+      "loss": 0.0199,
+      "num_input_tokens_seen": 226992752,
+      "step": 105080
+    },
+    {
+      "epoch": 17.14274061990212,
+      "grad_norm": 0.008440673351287842,
+      "learning_rate": 6.0900885392238316e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 227003152,
+      "step": 105085
+    },
+    {
+      "epoch": 17.143556280587276,
+      "grad_norm": 0.023581720888614655,
+      "learning_rate": 6.086684475731935e-05,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 227014128,
+      "step": 105090
+    },
+    {
+      "epoch": 17.144371941272432,
+      "grad_norm": 7.596343040466309,
+      "learning_rate": 6.083281302199112e-05,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 227024336,
+      "step": 105095
+    },
+    {
+      "epoch": 17.145187601957584,
+      "grad_norm": 0.0012364864815026522,
+      "learning_rate": 6.0798790186942784e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 227035632,
+      "step": 105100
+    },
+    {
+      "epoch": 17.14600326264274,
+      "grad_norm": 0.004918968304991722,
+      "learning_rate": 6.0764776252864365e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 227046288,
+      "step": 105105
+    },
+    {
+      "epoch": 17.146818923327896,
+      "grad_norm": 0.04475180432200432,
+      "learning_rate": 6.073077122044479e-05,
+      "loss": 0.1003,
+      "num_input_tokens_seen": 227056624,
+      "step": 105110
+    },
+    {
+      "epoch": 17.14763458401305,
+      "grad_norm": 0.0032711310777813196,
+      "learning_rate": 6.069677509037358e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 227067984,
+      "step": 105115
+    },
+    {
+      "epoch": 17.148450244698207,
+      "grad_norm": 0.004042398650199175,
+      "learning_rate": 6.066278786333928e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 227078800,
+      "step": 105120
+    },
+    {
+      "epoch": 17.14926590538336,
+      "grad_norm": 0.00016070179117377847,
+      "learning_rate": 6.062880954003114e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 227091120,
+      "step": 105125
+    },
+    {
+      "epoch": 17.150081566068515,
+      "grad_norm": 0.0017621108563616872,
+      "learning_rate": 6.059484012113736e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 227100752,
+      "step": 105130
+    },
+    {
+      "epoch": 17.15089722675367,
+      "grad_norm": 0.024079062044620514,
+      "learning_rate": 6.0560879607346795e-05,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 227112176,
+      "step": 105135
+    },
+    {
+      "epoch": 17.151712887438826,
+      "grad_norm": 0.010822267271578312,
+      "learning_rate": 6.0526927999347224e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 227123504,
+      "step": 105140
+    },
+    {
+      "epoch": 17.152528548123982,
+      "grad_norm": 0.04497012123465538,
+      "learning_rate": 6.049298529782721e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 227133712,
+      "step": 105145
+    },
+    {
+      "epoch": 17.153344208809134,
+      "grad_norm": 0.017783276736736298,
+      "learning_rate": 6.045905150347419e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 227144816,
+      "step": 105150
+    },
+    {
+      "epoch": 17.15415986949429,
+      "grad_norm": 0.004039814695715904,
+      "learning_rate": 6.0425126616976186e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 227155152,
+      "step": 105155
+    },
+    {
+      "epoch": 17.154975530179446,
+      "grad_norm": 0.0007679007248952985,
+      "learning_rate": 6.039121063902064e-05,
+      "loss": 0.006,
+      "num_input_tokens_seen": 227165680,
+      "step": 105160
+    },
+    {
+      "epoch": 17.1557911908646,
+      "grad_norm": 0.0743962973356247,
+      "learning_rate": 6.03573035702949e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 227177168,
+      "step": 105165
+    },
+    {
+      "epoch": 17.156606851549757,
+      "grad_norm": 0.005738751031458378,
+      "learning_rate": 6.032340541148612e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 227186576,
+      "step": 105170
+    },
+    {
+      "epoch": 17.15742251223491,
+      "grad_norm": 0.0028034579008817673,
+      "learning_rate": 6.0289516163281264e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 227197264,
+      "step": 105175
+    },
+    {
+      "epoch": 17.158238172920065,
+      "grad_norm": 0.06388754397630692,
+      "learning_rate": 6.025563582636723e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 227207984,
+      "step": 105180
+    },
+    {
+      "epoch": 17.15905383360522,
+      "grad_norm": 0.00031546890386380255,
+      "learning_rate": 6.0221764401430565e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 227219568,
+      "step": 105185
+    },
+    {
+      "epoch": 17.159869494290376,
+      "grad_norm": 0.0043876804411411285,
+      "learning_rate": 6.0187901889157735e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 227231056,
+      "step": 105190
+    },
+    {
+      "epoch": 17.160685154975532,
+      "grad_norm": 0.016384651884436607,
+      "learning_rate": 6.015404829023502e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 227243184,
+      "step": 105195
+    },
+    {
+      "epoch": 17.161500815660684,
+      "grad_norm": 0.0020360194612294436,
+      "learning_rate": 6.012020360534853e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 227255024,
+      "step": 105200
+    },
+    {
+      "epoch": 17.16231647634584,
+      "grad_norm": 0.0018645500531420112,
+      "learning_rate": 6.008636783518401e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 227266576,
+      "step": 105205
+    },
+    {
+      "epoch": 17.163132137030995,
+      "grad_norm": 0.017587218433618546,
+      "learning_rate": 6.005254098042751e-05,
+      "loss": 0.0515,
+      "num_input_tokens_seen": 227277072,
+      "step": 105210
+    },
+    {
+      "epoch": 17.16394779771615,
+      "grad_norm": 0.0003726345603354275,
+      "learning_rate": 6.00187230417642e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 227287280,
+      "step": 105215
+    },
+    {
+      "epoch": 17.164763458401303,
+      "grad_norm": 0.015266234055161476,
+      "learning_rate": 5.998491401987982e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 227299632,
+      "step": 105220
+    },
+    {
+      "epoch": 17.16557911908646,
+      "grad_norm": 0.0002786066324915737,
+      "learning_rate": 5.9951113915459154e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 227311024,
+      "step": 105225
+    },
+    {
+      "epoch": 17.166394779771615,
+      "grad_norm": 0.037656597793102264,
+      "learning_rate": 5.9917322729187594e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 227321424,
+      "step": 105230
+    },
+    {
+      "epoch": 17.16721044045677,
+      "grad_norm": 0.0023824572563171387,
+      "learning_rate": 5.9883540461749596e-05,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 227330864,
+      "step": 105235
+    },
+    {
+      "epoch": 17.168026101141926,
+      "grad_norm": 0.01473549846559763,
+      "learning_rate": 5.984976711383017e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 227342640,
+      "step": 105240
+    },
+    {
+      "epoch": 17.16884176182708,
+      "grad_norm": 0.46272391080856323,
+      "learning_rate": 5.981600268611337e-05,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 227354864,
+      "step": 105245
+    },
+    {
+      "epoch": 17.169657422512234,
+      "grad_norm": 0.014566629193723202,
+      "learning_rate": 5.9782247179283875e-05,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 227366000,
+      "step": 105250
+    },
+    {
+      "epoch": 17.17047308319739,
+      "grad_norm": 0.0011301173362880945,
+      "learning_rate": 5.9748500594025425e-05,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 227375696,
+      "step": 105255
+    },
+    {
+      "epoch": 17.171288743882545,
+      "grad_norm": 0.01436126884073019,
+      "learning_rate": 5.971476293102229e-05,
+      "loss": 0.0459,
+      "num_input_tokens_seen": 227385936,
+      "step": 105260
+    },
+    {
+      "epoch": 17.1721044045677,
+      "grad_norm": 0.016061117872595787,
+      "learning_rate": 5.9681034190957886e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 227396720,
+      "step": 105265
+    },
+    {
+      "epoch": 17.172920065252853,
+      "grad_norm": 0.0018371932674199343,
+      "learning_rate": 5.964731437451593e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 227407472,
+      "step": 105270
+    },
+    {
+      "epoch": 17.17373572593801,
+      "grad_norm": 0.0007460727938450873,
+      "learning_rate": 5.961360348237982e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 227417616,
+      "step": 105275
+    },
+    {
+      "epoch": 17.174551386623165,
+      "grad_norm": 0.007591134402900934,
+      "learning_rate": 5.9579901515232684e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 227428816,
+      "step": 105280
+    },
+    {
+      "epoch": 17.17536704730832,
+      "grad_norm": 0.022664356976747513,
+      "learning_rate": 5.954620847375758e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 227438160,
+      "step": 105285
+    },
+    {
+      "epoch": 17.176182707993476,
+      "grad_norm": 0.004871509037911892,
+      "learning_rate": 5.9512524358637296e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 227448144,
+      "step": 105290
+    },
+    {
+      "epoch": 17.17699836867863,
+      "grad_norm": 0.017250265926122665,
+      "learning_rate": 5.9478849170554513e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 227459856,
+      "step": 105295
+    },
+    {
+      "epoch": 17.177814029363784,
+      "grad_norm": 0.0011680923635140061,
+      "learning_rate": 5.944518291019168e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 227470896,
+      "step": 105300
+    },
+    {
+      "epoch": 17.17862969004894,
+      "grad_norm": 9.958234295481816e-05,
+      "learning_rate": 5.9411525578231094e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 227481328,
+      "step": 105305
+    },
+    {
+      "epoch": 17.179445350734095,
+      "grad_norm": 0.006742374040186405,
+      "learning_rate": 5.9377877175354865e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 227493104,
+      "step": 105310
+    },
+    {
+      "epoch": 17.18026101141925,
+      "grad_norm": 0.027583172544836998,
+      "learning_rate": 5.934423770224495e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 227504400,
+      "step": 105315
+    },
+    {
+      "epoch": 17.181076672104403,
+      "grad_norm": 0.0003342593845445663,
+      "learning_rate": 5.931060715958309e-05,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 227516272,
+      "step": 105320
+    },
+    {
+      "epoch": 17.18189233278956,
+      "grad_norm": 0.0027394210919737816,
+      "learning_rate": 5.9276985548050775e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 227526704,
+      "step": 105325
+    },
+    {
+      "epoch": 17.182707993474715,
+      "grad_norm": 0.008948412723839283,
+      "learning_rate": 5.924337286832948e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 227537520,
+      "step": 105330
+    },
+    {
+      "epoch": 17.18352365415987,
+      "grad_norm": 0.0016631630714982748,
+      "learning_rate": 5.9209769121100374e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 227548688,
+      "step": 105335
+    },
+    {
+      "epoch": 17.184339314845026,
+      "grad_norm": 0.0002861691755242646,
+      "learning_rate": 5.917617430704447e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 227558320,
+      "step": 105340
+    },
+    {
+      "epoch": 17.18515497553018,
+      "grad_norm": 0.00043132706196047366,
+      "learning_rate": 5.9142588426842615e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 227569392,
+      "step": 105345
+    },
+    {
+      "epoch": 17.185970636215334,
+      "grad_norm": 0.0013702671276405454,
+      "learning_rate": 5.9109011481175364e-05,
+      "loss": 0.0183,
+      "num_input_tokens_seen": 227580976,
+      "step": 105350
+    },
+    {
+      "epoch": 17.18678629690049,
+      "grad_norm": 0.009048002772033215,
+      "learning_rate": 5.907544347072352e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 227591216,
+      "step": 105355
+    },
+    {
+      "epoch": 17.187601957585645,
+      "grad_norm": 0.009810620918869972,
+      "learning_rate": 5.904188439616692e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 227602288,
+      "step": 105360
+    },
+    {
+      "epoch": 17.1884176182708,
+      "grad_norm": 0.7481173276901245,
+      "learning_rate": 5.9008334258186195e-05,
+      "loss": 0.062,
+      "num_input_tokens_seen": 227614064,
+      "step": 105365
+    },
+    {
+      "epoch": 17.189233278955953,
+      "grad_norm": 0.007403769996017218,
+      "learning_rate": 5.897479305746079e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 227624432,
+      "step": 105370
+    },
+    {
+      "epoch": 17.19004893964111,
+      "grad_norm": 0.001949156867340207,
+      "learning_rate": 5.894126079467077e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 227635792,
+      "step": 105375
+    },
+    {
+      "epoch": 17.190864600326265,
+      "grad_norm": 0.0001903936208691448,
+      "learning_rate": 5.890773747049566e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 227645552,
+      "step": 105380
+    },
+    {
+      "epoch": 17.19168026101142,
+      "grad_norm": 0.019825341179966927,
+      "learning_rate": 5.88742230856148e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 227656304,
+      "step": 105385
+    },
+    {
+      "epoch": 17.192495921696572,
+      "grad_norm": 0.010199088603258133,
+      "learning_rate": 5.884071764070736e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 227666416,
+      "step": 105390
+    },
+    {
+      "epoch": 17.193311582381728,
+      "grad_norm": 0.007535295560956001,
+      "learning_rate": 5.880722113645248e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 227677424,
+      "step": 105395
+    },
+    {
+      "epoch": 17.194127243066884,
+      "grad_norm": 0.005390184931457043,
+      "learning_rate": 5.877373357352894e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 227688784,
+      "step": 105400
+    },
+    {
+      "epoch": 17.19494290375204,
+      "grad_norm": 0.0014657375868409872,
+      "learning_rate": 5.874025495261548e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 227698800,
+      "step": 105405
+    },
+    {
+      "epoch": 17.195758564437195,
+      "grad_norm": 0.0014141921419650316,
+      "learning_rate": 5.870678527439049e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 227708688,
+      "step": 105410
+    },
+    {
+      "epoch": 17.196574225122347,
+      "grad_norm": 0.0031896489672362804,
+      "learning_rate": 5.867332453953228e-05,
+      "loss": 0.1541,
+      "num_input_tokens_seen": 227719120,
+      "step": 105415
+    },
+    {
+      "epoch": 17.197389885807503,
+      "grad_norm": 0.5455310940742493,
+      "learning_rate": 5.863987274871907e-05,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 227730128,
+      "step": 105420
+    },
+    {
+      "epoch": 17.19820554649266,
+      "grad_norm": 0.0009574625873938203,
+      "learning_rate": 5.860642990262871e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 227742608,
+      "step": 105425
+    },
+    {
+      "epoch": 17.199021207177815,
+      "grad_norm": 0.010655845515429974,
+      "learning_rate": 5.857299600193899e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 227753680,
+      "step": 105430
+    },
+    {
+      "epoch": 17.19983686786297,
+      "grad_norm": 0.0006226776167750359,
+      "learning_rate": 5.853957104732749e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 227764592,
+      "step": 105435
+    },
+    {
+      "epoch": 17.200652528548122,
+      "grad_norm": 0.011091392487287521,
+      "learning_rate": 5.850615503947166e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 227776048,
+      "step": 105440
+    },
+    {
+      "epoch": 17.201468189233278,
+      "grad_norm": 0.00044521092786453664,
+      "learning_rate": 5.8472747979048665e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 227787024,
+      "step": 105445
+    },
+    {
+      "epoch": 17.202283849918434,
+      "grad_norm": 0.2557276785373688,
+      "learning_rate": 5.843934986673549e-05,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 227799056,
+      "step": 105450
+    },
+    {
+      "epoch": 17.20309951060359,
+      "grad_norm": 0.0029599005356431007,
+      "learning_rate": 5.840596070320914e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 227809296,
+      "step": 105455
+    },
+    {
+      "epoch": 17.203915171288745,
+      "grad_norm": 0.00032506947172805667,
+      "learning_rate": 5.837258048914612e-05,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 227820624,
+      "step": 105460
+    },
+    {
+      "epoch": 17.204730831973897,
+      "grad_norm": 0.00039597388240508735,
+      "learning_rate": 5.833920922522301e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 227830640,
+      "step": 105465
+    },
+    {
+      "epoch": 17.205546492659053,
+      "grad_norm": 0.0009330728207714856,
+      "learning_rate": 5.830584691211615e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 227841904,
+      "step": 105470
+    },
+    {
+      "epoch": 17.20636215334421,
+      "grad_norm": 0.0004881395725533366,
+      "learning_rate": 5.827249355050163e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 227851536,
+      "step": 105475
+    },
+    {
+      "epoch": 17.207177814029365,
+      "grad_norm": 0.0007340696756727993,
+      "learning_rate": 5.823914914105527e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 227862288,
+      "step": 105480
+    },
+    {
+      "epoch": 17.20799347471452,
+      "grad_norm": 0.008161459118127823,
+      "learning_rate": 5.820581368445316e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 227872720,
+      "step": 105485
+    },
+    {
+      "epoch": 17.208809135399672,
+      "grad_norm": 0.008229502476751804,
+      "learning_rate": 5.817248718137053e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 227884336,
+      "step": 105490
+    },
+    {
+      "epoch": 17.209624796084828,
+      "grad_norm": 0.0020968979224562645,
+      "learning_rate": 5.8139169632483e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 227895248,
+      "step": 105495
+    },
+    {
+      "epoch": 17.210440456769984,
+      "grad_norm": 0.0001975457853404805,
+      "learning_rate": 5.810586103846577e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 227906064,
+      "step": 105500
+    },
+    {
+      "epoch": 17.21125611745514,
+      "grad_norm": 0.0006039740983396769,
+      "learning_rate": 5.807256139999384e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 227917552,
+      "step": 105505
+    },
+    {
+      "epoch": 17.212071778140295,
+      "grad_norm": 0.0028502692002803087,
+      "learning_rate": 5.8039270717742065e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 227927792,
+      "step": 105510
+    },
+    {
+      "epoch": 17.212887438825447,
+      "grad_norm": 0.0009251784649677575,
+      "learning_rate": 5.8005988992385184e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 227938800,
+      "step": 105515
+    },
+    {
+      "epoch": 17.213703099510603,
+      "grad_norm": 0.011867698282003403,
+      "learning_rate": 5.79727162245976e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 227950160,
+      "step": 105520
+    },
+    {
+      "epoch": 17.21451876019576,
+      "grad_norm": 0.00040899330633692443,
+      "learning_rate": 5.7939452415053664e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 227961904,
+      "step": 105525
+    },
+    {
+      "epoch": 17.215334420880914,
+      "grad_norm": 0.0014331662096083164,
+      "learning_rate": 5.7906197564427557e-05,
+      "loss": 0.0168,
+      "num_input_tokens_seen": 227972944,
+      "step": 105530
+    },
+    {
+      "epoch": 17.21615008156607,
+      "grad_norm": 0.024769123643636703,
+      "learning_rate": 5.7872951673393184e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 227982800,
+      "step": 105535
+    },
+    {
+      "epoch": 17.216965742251222,
+      "grad_norm": 0.0008173759561032057,
+      "learning_rate": 5.7839714742624284e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 227993104,
+      "step": 105540
+    },
+    {
+      "epoch": 17.217781402936378,
+      "grad_norm": 0.0005532324430532753,
+      "learning_rate": 5.780648677279454e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 228004208,
+      "step": 105545
+    },
+    {
+      "epoch": 17.218597063621534,
+      "grad_norm": 0.008099708706140518,
+      "learning_rate": 5.777326776457725e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228014864,
+      "step": 105550
+    },
+    {
+      "epoch": 17.21941272430669,
+      "grad_norm": 0.011459157802164555,
+      "learning_rate": 5.774005771864571e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228026480,
+      "step": 105555
+    },
+    {
+      "epoch": 17.22022838499184,
+      "grad_norm": 0.0037186089903116226,
+      "learning_rate": 5.7706856635672986e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228037328,
+      "step": 105560
+    },
+    {
+      "epoch": 17.221044045676997,
+      "grad_norm": 0.08368998020887375,
+      "learning_rate": 5.767366451633188e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 228048944,
+      "step": 105565
+    },
+    {
+      "epoch": 17.221859706362153,
+      "grad_norm": 0.0037311904598027468,
+      "learning_rate": 5.764048136129507e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228058832,
+      "step": 105570
+    },
+    {
+      "epoch": 17.22267536704731,
+      "grad_norm": 0.003354444168508053,
+      "learning_rate": 5.760730717123508e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 228069424,
+      "step": 105575
+    },
+    {
+      "epoch": 17.223491027732464,
+      "grad_norm": 0.00479935435578227,
+      "learning_rate": 5.757414194682426e-05,
+      "loss": 0.026,
+      "num_input_tokens_seen": 228080464,
+      "step": 105580
+    },
+    {
+      "epoch": 17.224306688417617,
+      "grad_norm": 0.013407070189714432,
+      "learning_rate": 5.754098568873456e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 228091696,
+      "step": 105585
+    },
+    {
+      "epoch": 17.225122349102772,
+      "grad_norm": 0.511169970035553,
+      "learning_rate": 5.7507838397638346e-05,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 228102800,
+      "step": 105590
+    },
+    {
+      "epoch": 17.225938009787928,
+      "grad_norm": 0.0041065155528485775,
+      "learning_rate": 5.7474700074206856e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 228113744,
+      "step": 105595
+    },
+    {
+      "epoch": 17.226753670473084,
+      "grad_norm": 0.004399343393743038,
+      "learning_rate": 5.7441570719112216e-05,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 228124336,
+      "step": 105600
+    },
+    {
+      "epoch": 17.22756933115824,
+      "grad_norm": 0.018818650394678116,
+      "learning_rate": 5.740845033302533e-05,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 228134576,
+      "step": 105605
+    },
+    {
+      "epoch": 17.22838499184339,
+      "grad_norm": 0.06135449558496475,
+      "learning_rate": 5.737533891661789e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 228145200,
+      "step": 105610
+    },
+    {
+      "epoch": 17.229200652528547,
+      "grad_norm": 0.025219673290848732,
+      "learning_rate": 5.734223647056053e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 228156048,
+      "step": 105615
+    },
+    {
+      "epoch": 17.230016313213703,
+      "grad_norm": 0.023373369127511978,
+      "learning_rate": 5.7309142995524475e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 228165808,
+      "step": 105620
+    },
+    {
+      "epoch": 17.23083197389886,
+      "grad_norm": 0.08417593687772751,
+      "learning_rate": 5.7276058492179984e-05,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 228176592,
+      "step": 105625
+    },
+    {
+      "epoch": 17.231647634584014,
+      "grad_norm": 0.01127390656620264,
+      "learning_rate": 5.724298296119796e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 228187696,
+      "step": 105630
+    },
+    {
+      "epoch": 17.232463295269167,
+      "grad_norm": 0.03395693004131317,
+      "learning_rate": 5.7209916403248574e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 228198224,
+      "step": 105635
+    },
+    {
+      "epoch": 17.233278955954322,
+      "grad_norm": 0.005188298411667347,
+      "learning_rate": 5.717685881900192e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 228209040,
+      "step": 105640
+    },
+    {
+      "epoch": 17.234094616639478,
+      "grad_norm": 0.0007153578335419297,
+      "learning_rate": 5.714381020912801e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 228219984,
+      "step": 105645
+    },
+    {
+      "epoch": 17.234910277324634,
+      "grad_norm": 0.0007897784234955907,
+      "learning_rate": 5.711077057429659e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 228230544,
+      "step": 105650
+    },
+    {
+      "epoch": 17.23572593800979,
+      "grad_norm": 0.005037500057369471,
+      "learning_rate": 5.7077739915177226e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 228240880,
+      "step": 105655
+    },
+    {
+      "epoch": 17.23654159869494,
+      "grad_norm": 0.015429419465363026,
+      "learning_rate": 5.704471823243934e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 228250384,
+      "step": 105660
+    },
+    {
+      "epoch": 17.237357259380097,
+      "grad_norm": 0.001333926455117762,
+      "learning_rate": 5.701170552675217e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228261968,
+      "step": 105665
+    },
+    {
+      "epoch": 17.238172920065253,
+      "grad_norm": 0.008555333130061626,
+      "learning_rate": 5.6978701798784785e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 228271664,
+      "step": 105670
+    },
+    {
+      "epoch": 17.23898858075041,
+      "grad_norm": 0.1655566245317459,
+      "learning_rate": 5.6945707049205985e-05,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 228282704,
+      "step": 105675
+    },
+    {
+      "epoch": 17.239804241435564,
+      "grad_norm": 0.0028315861709415913,
+      "learning_rate": 5.691272127868452e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 228294032,
+      "step": 105680
+    },
+    {
+      "epoch": 17.240619902120716,
+      "grad_norm": 0.007239778526127338,
+      "learning_rate": 5.6879744487888854e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 228305648,
+      "step": 105685
+    },
+    {
+      "epoch": 17.241435562805872,
+      "grad_norm": 0.00043697163346223533,
+      "learning_rate": 5.684677667748717e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 228316304,
+      "step": 105690
+    },
+    {
+      "epoch": 17.242251223491028,
+      "grad_norm": 0.0034264670684933662,
+      "learning_rate": 5.681381784814799e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 228326608,
+      "step": 105695
+    },
+    {
+      "epoch": 17.243066884176184,
+      "grad_norm": 0.0002579323190730065,
+      "learning_rate": 5.678086800053878e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 228337168,
+      "step": 105700
+    },
+    {
+      "epoch": 17.24388254486134,
+      "grad_norm": 0.003010801738128066,
+      "learning_rate": 5.674792713532772e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 228347632,
+      "step": 105705
+    },
+    {
+      "epoch": 17.24469820554649,
+      "grad_norm": 0.0034991370048373938,
+      "learning_rate": 5.671499525318208e-05,
+      "loss": 0.0256,
+      "num_input_tokens_seen": 228359408,
+      "step": 105710
+    },
+    {
+      "epoch": 17.245513866231647,
+      "grad_norm": 0.0008481157710775733,
+      "learning_rate": 5.668207235476957e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 228370768,
+      "step": 105715
+    },
+    {
+      "epoch": 17.246329526916803,
+      "grad_norm": 0.004653229843825102,
+      "learning_rate": 5.664915844075702e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 228382000,
+      "step": 105720
+    },
+    {
+      "epoch": 17.24714518760196,
+      "grad_norm": 0.0016604745760560036,
+      "learning_rate": 5.6616253511811934e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 228392688,
+      "step": 105725
+    },
+    {
+      "epoch": 17.247960848287114,
+      "grad_norm": 0.000807464646641165,
+      "learning_rate": 5.6583357568600776e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 228404240,
+      "step": 105730
+    },
+    {
+      "epoch": 17.248776508972266,
+      "grad_norm": 0.004214088898152113,
+      "learning_rate": 5.6550470611790584e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 228414992,
+      "step": 105735
+    },
+    {
+      "epoch": 17.249592169657422,
+      "grad_norm": 0.002003757981583476,
+      "learning_rate": 5.6517592642047424e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 228426224,
+      "step": 105740
+    },
+    {
+      "epoch": 17.250407830342578,
+      "grad_norm": 0.00016738157137297094,
+      "learning_rate": 5.648472366003804e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 228437552,
+      "step": 105745
+    },
+    {
+      "epoch": 17.251223491027734,
+      "grad_norm": 0.04558353126049042,
+      "learning_rate": 5.6451863666428236e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 228449072,
+      "step": 105750
+    },
+    {
+      "epoch": 17.252039151712886,
+      "grad_norm": 0.0008563185692764819,
+      "learning_rate": 5.6419012661884206e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 228460240,
+      "step": 105755
+    },
+    {
+      "epoch": 17.25285481239804,
+      "grad_norm": 0.0002939916157629341,
+      "learning_rate": 5.6386170647071464e-05,
+      "loss": 0.0151,
+      "num_input_tokens_seen": 228471088,
+      "step": 105760
+    },
+    {
+      "epoch": 17.253670473083197,
+      "grad_norm": 0.005507839843630791,
+      "learning_rate": 5.6353337622655935e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228482224,
+      "step": 105765
+    },
+    {
+      "epoch": 17.254486133768353,
+      "grad_norm": 0.0018616120796650648,
+      "learning_rate": 5.632051358930263e-05,
+      "loss": 0.054,
+      "num_input_tokens_seen": 228493104,
+      "step": 105770
+    },
+    {
+      "epoch": 17.25530179445351,
+      "grad_norm": 0.06906536966562271,
+      "learning_rate": 5.628769854767707e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 228502800,
+      "step": 105775
+    },
+    {
+      "epoch": 17.25611745513866,
+      "grad_norm": 0.0015966150676831603,
+      "learning_rate": 5.6254892498444175e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 228511952,
+      "step": 105780
+    },
+    {
+      "epoch": 17.256933115823816,
+      "grad_norm": 0.000293926423182711,
+      "learning_rate": 5.6222095442268805e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 228522576,
+      "step": 105785
+    },
+    {
+      "epoch": 17.257748776508972,
+      "grad_norm": 0.006921887863427401,
+      "learning_rate": 5.6189307379815645e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 228532336,
+      "step": 105790
+    },
+    {
+      "epoch": 17.258564437194128,
+      "grad_norm": 0.0023210467770695686,
+      "learning_rate": 5.615652831174917e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228544304,
+      "step": 105795
+    },
+    {
+      "epoch": 17.259380097879284,
+      "grad_norm": 0.004994812421500683,
+      "learning_rate": 5.612375823873373e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 228555664,
+      "step": 105800
+    },
+    {
+      "epoch": 17.260195758564436,
+      "grad_norm": 0.004979619290679693,
+      "learning_rate": 5.60909971614334e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 228565840,
+      "step": 105805
+    },
+    {
+      "epoch": 17.26101141924959,
+      "grad_norm": 0.004859395790845156,
+      "learning_rate": 5.605824508051216e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 228577936,
+      "step": 105810
+    },
+    {
+      "epoch": 17.261827079934747,
+      "grad_norm": 0.21579575538635254,
+      "learning_rate": 5.602550199663381e-05,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 228587760,
+      "step": 105815
+    },
+    {
+      "epoch": 17.262642740619903,
+      "grad_norm": 0.0003847281914204359,
+      "learning_rate": 5.599276791046182e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 228598192,
+      "step": 105820
+    },
+    {
+      "epoch": 17.26345840130506,
+      "grad_norm": 0.003210867289453745,
+      "learning_rate": 5.5960042822659596e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 228609744,
+      "step": 105825
+    },
+    {
+      "epoch": 17.26427406199021,
+      "grad_norm": 0.0023815941531211138,
+      "learning_rate": 5.592732673389056e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 228620816,
+      "step": 105830
+    },
+    {
+      "epoch": 17.265089722675366,
+      "grad_norm": 0.005627058446407318,
+      "learning_rate": 5.5894619644817455e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228631088,
+      "step": 105835
+    },
+    {
+      "epoch": 17.265905383360522,
+      "grad_norm": 0.045385442674160004,
+      "learning_rate": 5.586192155610342e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 228640368,
+      "step": 105840
+    },
+    {
+      "epoch": 17.266721044045678,
+      "grad_norm": 0.01856350153684616,
+      "learning_rate": 5.582923246841082e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 228651024,
+      "step": 105845
+    },
+    {
+      "epoch": 17.267536704730833,
+      "grad_norm": 0.01033297274261713,
+      "learning_rate": 5.5796552382402446e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 228661680,
+      "step": 105850
+    },
+    {
+      "epoch": 17.268352365415986,
+      "grad_norm": 0.0004607291193678975,
+      "learning_rate": 5.576388129874027e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228671664,
+      "step": 105855
+    },
+    {
+      "epoch": 17.26916802610114,
+      "grad_norm": 0.010909834876656532,
+      "learning_rate": 5.5731219218086824e-05,
+      "loss": 0.017,
+      "num_input_tokens_seen": 228681968,
+      "step": 105860
+    },
+    {
+      "epoch": 17.269983686786297,
+      "grad_norm": 0.0018032594816759229,
+      "learning_rate": 5.569856614110358e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 228693616,
+      "step": 105865
+    },
+    {
+      "epoch": 17.270799347471453,
+      "grad_norm": 0.0004068401758559048,
+      "learning_rate": 5.566592206845272e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 228704400,
+      "step": 105870
+    },
+    {
+      "epoch": 17.27161500815661,
+      "grad_norm": 0.025432869791984558,
+      "learning_rate": 5.563328700079545e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 228714704,
+      "step": 105875
+    },
+    {
+      "epoch": 17.27243066884176,
+      "grad_norm": 0.003037866437807679,
+      "learning_rate": 5.560066093879351e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228724656,
+      "step": 105880
+    },
+    {
+      "epoch": 17.273246329526916,
+      "grad_norm": 0.00031391988159157336,
+      "learning_rate": 5.556804388310777e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 228735280,
+      "step": 105885
+    },
+    {
+      "epoch": 17.274061990212072,
+      "grad_norm": 0.0008085937006399035,
+      "learning_rate": 5.5535435834399626e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 228746288,
+      "step": 105890
+    },
+    {
+      "epoch": 17.274877650897228,
+      "grad_norm": 0.0009067684295587242,
+      "learning_rate": 5.550283679332951e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 228757200,
+      "step": 105895
+    },
+    {
+      "epoch": 17.275693311582383,
+      "grad_norm": 0.0005091895000077784,
+      "learning_rate": 5.5470246760558455e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228768720,
+      "step": 105900
+    },
+    {
+      "epoch": 17.276508972267536,
+      "grad_norm": 0.00601581484079361,
+      "learning_rate": 5.543766573674663e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228778640,
+      "step": 105905
+    },
+    {
+      "epoch": 17.27732463295269,
+      "grad_norm": 0.00027671127463690937,
+      "learning_rate": 5.5405093722554534e-05,
+      "loss": 0.0483,
+      "num_input_tokens_seen": 228790256,
+      "step": 105910
+    },
+    {
+      "epoch": 17.278140293637847,
+      "grad_norm": 0.08887345343828201,
+      "learning_rate": 5.5372530718642235e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 228801232,
+      "step": 105915
+    },
+    {
+      "epoch": 17.278955954323003,
+      "grad_norm": 0.006647658068686724,
+      "learning_rate": 5.533997672566965e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228812528,
+      "step": 105920
+    },
+    {
+      "epoch": 17.27977161500816,
+      "grad_norm": 0.047590646892786026,
+      "learning_rate": 5.5307431744296534e-05,
+      "loss": 0.006,
+      "num_input_tokens_seen": 228822800,
+      "step": 105925
+    },
+    {
+      "epoch": 17.28058727569331,
+      "grad_norm": 0.002654826734215021,
+      "learning_rate": 5.5274895775182464e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 228833584,
+      "step": 105930
+    },
+    {
+      "epoch": 17.281402936378466,
+      "grad_norm": 0.004782018251717091,
+      "learning_rate": 5.524236881898681e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 228843984,
+      "step": 105935
+    },
+    {
+      "epoch": 17.282218597063622,
+      "grad_norm": 0.009541511535644531,
+      "learning_rate": 5.5209850876368705e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 228855824,
+      "step": 105940
+    },
+    {
+      "epoch": 17.283034257748778,
+      "grad_norm": 0.003033567452803254,
+      "learning_rate": 5.517734194798729e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 228866384,
+      "step": 105945
+    },
+    {
+      "epoch": 17.28384991843393,
+      "grad_norm": 0.017595946788787842,
+      "learning_rate": 5.514484203450132e-05,
+      "loss": 0.0296,
+      "num_input_tokens_seen": 228878000,
+      "step": 105950
+    },
+    {
+      "epoch": 17.284665579119086,
+      "grad_norm": 0.00025085004745051265,
+      "learning_rate": 5.511235113656943e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 228888240,
+      "step": 105955
+    },
+    {
+      "epoch": 17.28548123980424,
+      "grad_norm": 0.0006416584365069866,
+      "learning_rate": 5.50798692548502e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 228899920,
+      "step": 105960
+    },
+    {
+      "epoch": 17.286296900489397,
+      "grad_norm": 0.004831426776945591,
+      "learning_rate": 5.504739639000178e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 228911760,
+      "step": 105965
+    },
+    {
+      "epoch": 17.287112561174553,
+      "grad_norm": 0.0004655012162402272,
+      "learning_rate": 5.501493254268225e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 228922192,
+      "step": 105970
+    },
+    {
+      "epoch": 17.287928221859705,
+      "grad_norm": 0.0009831018978729844,
+      "learning_rate": 5.4982477713549806e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228932848,
+      "step": 105975
+    },
+    {
+      "epoch": 17.28874388254486,
+      "grad_norm": 0.002096477197483182,
+      "learning_rate": 5.495003190326181e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 228944560,
+      "step": 105980
+    },
+    {
+      "epoch": 17.289559543230016,
+      "grad_norm": 0.0002526229072827846,
+      "learning_rate": 5.491759511247618e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 228955824,
+      "step": 105985
+    },
+    {
+      "epoch": 17.290375203915172,
+      "grad_norm": 0.0006310658063739538,
+      "learning_rate": 5.488516734184995e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 228966672,
+      "step": 105990
+    },
+    {
+      "epoch": 17.291190864600328,
+      "grad_norm": 0.01685495860874653,
+      "learning_rate": 5.485274859204065e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228978224,
+      "step": 105995
+    },
+    {
+      "epoch": 17.29200652528548,
+      "grad_norm": 0.013227180577814579,
+      "learning_rate": 5.482033886370491e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 228988880,
+      "step": 106000
+    },
+    {
+      "epoch": 17.292822185970635,
+      "grad_norm": 0.05939861759543419,
+      "learning_rate": 5.478793815749994e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 229000944,
+      "step": 106005
+    },
+    {
+      "epoch": 17.29363784665579,
+      "grad_norm": 0.011226335540413857,
+      "learning_rate": 5.4755546474082044e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 229011472,
+      "step": 106010
+    },
+    {
+      "epoch": 17.294453507340947,
+      "grad_norm": 0.00020121457055211067,
+      "learning_rate": 5.472316381410786e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 229022032,
+      "step": 106015
+    },
+    {
+      "epoch": 17.295269168026103,
+      "grad_norm": 0.002397694159299135,
+      "learning_rate": 5.46907901782337e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 229033328,
+      "step": 106020
+    },
+    {
+      "epoch": 17.296084828711255,
+      "grad_norm": 0.002774233929812908,
+      "learning_rate": 5.4658425567115535e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 229044656,
+      "step": 106025
+    },
+    {
+      "epoch": 17.29690048939641,
+      "grad_norm": 0.0003554042486939579,
+      "learning_rate": 5.4626069981409395e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 229056656,
+      "step": 106030
+    },
+    {
+      "epoch": 17.297716150081566,
+      "grad_norm": 0.06345248967409134,
+      "learning_rate": 5.459372342177088e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 229067440,
+      "step": 106035
+    },
+    {
+      "epoch": 17.298531810766722,
+      "grad_norm": 0.01404933538287878,
+      "learning_rate": 5.456138588885562e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 229077168,
+      "step": 106040
+    },
+    {
+      "epoch": 17.299347471451878,
+      "grad_norm": 0.0008357339538633823,
+      "learning_rate": 5.452905738331898e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 229087984,
+      "step": 106045
+    },
+    {
+      "epoch": 17.30016313213703,
+      "grad_norm": 0.03588249534368515,
+      "learning_rate": 5.449673790581611e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 229098448,
+      "step": 106050
+    },
+    {
+      "epoch": 17.300978792822185,
+      "grad_norm": 0.009078881703317165,
+      "learning_rate": 5.446442745700198e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 229110160,
+      "step": 106055
+    },
+    {
+      "epoch": 17.30179445350734,
+      "grad_norm": 0.11321654915809631,
+      "learning_rate": 5.443212603753145e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 229119024,
+      "step": 106060
+    },
+    {
+      "epoch": 17.302610114192497,
+      "grad_norm": 0.00385329220443964,
+      "learning_rate": 5.439983364805912e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 229130128,
+      "step": 106065
+    },
+    {
+      "epoch": 17.303425774877653,
+      "grad_norm": 0.0014652871759608388,
+      "learning_rate": 5.436755028923945e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 229141552,
+      "step": 106070
+    },
+    {
+      "epoch": 17.304241435562805,
+      "grad_norm": 0.0064964075572788715,
+      "learning_rate": 5.433527596172666e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 229152208,
+      "step": 106075
+    },
+    {
+      "epoch": 17.30505709624796,
+      "grad_norm": 0.002419215627014637,
+      "learning_rate": 5.430301066617493e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 229163504,
+      "step": 106080
+    },
+    {
+      "epoch": 17.305872756933116,
+      "grad_norm": 0.00044188229367136955,
+      "learning_rate": 5.4270754403238034e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 229174864,
+      "step": 106085
+    },
+    {
+      "epoch": 17.306688417618272,
+      "grad_norm": 0.12870584428310394,
+      "learning_rate": 5.4238507173569816e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 229185584,
+      "step": 106090
+    },
+    {
+      "epoch": 17.307504078303428,
+      "grad_norm": 0.0003019646101165563,
+      "learning_rate": 5.420626897782366e-05,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 229196432,
+      "step": 106095
+    },
+    {
+      "epoch": 17.30831973898858,
+      "grad_norm": 0.002201332477852702,
+      "learning_rate": 5.417403981665309e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 229207088,
+      "step": 106100
+    },
+    {
+      "epoch": 17.309135399673735,
+      "grad_norm": 0.006552582141011953,
+      "learning_rate": 5.414181969071108e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 229216560,
+      "step": 106105
+    },
+    {
+      "epoch": 17.30995106035889,
+      "grad_norm": 0.0005127699696458876,
+      "learning_rate": 5.410960860065073e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 229227600,
+      "step": 106110
+    },
+    {
+      "epoch": 17.310766721044047,
+      "grad_norm": 0.0056101856753230095,
+      "learning_rate": 5.407740654712473e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 229236816,
+      "step": 106115
+    },
+    {
+      "epoch": 17.3115823817292,
+      "grad_norm": 0.03478972986340523,
+      "learning_rate": 5.4045213530785896e-05,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 229247248,
+      "step": 106120
+    },
+    {
+      "epoch": 17.312398042414355,
+      "grad_norm": 0.0011379508068785071,
+      "learning_rate": 5.401302955228654e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 229257264,
+      "step": 106125
+    },
+    {
+      "epoch": 17.31321370309951,
+      "grad_norm": 0.00601399689912796,
+      "learning_rate": 5.398085461227886e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 229266416,
+      "step": 106130
+    },
+    {
+      "epoch": 17.314029363784666,
+      "grad_norm": 0.004694198723882437,
+      "learning_rate": 5.394868871141506e-05,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 229275984,
+      "step": 106135
+    },
+    {
+      "epoch": 17.31484502446982,
+      "grad_norm": 0.000795087544247508,
+      "learning_rate": 5.3916531850346895e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 229287568,
+      "step": 106140
+    },
+    {
+      "epoch": 17.315660685154974,
+      "grad_norm": 0.027289612218737602,
+      "learning_rate": 5.388438402972612e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 229297904,
+      "step": 106145
+    },
+    {
+      "epoch": 17.31647634584013,
+      "grad_norm": 0.0041520558297634125,
+      "learning_rate": 5.385224525020421e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 229309264,
+      "step": 106150
+    },
+    {
+      "epoch": 17.317292006525285,
+      "grad_norm": 0.004298088140785694,
+      "learning_rate": 5.382011551243254e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 229319760,
+      "step": 106155
+    },
+    {
+      "epoch": 17.31810766721044,
+      "grad_norm": 0.00606426689773798,
+      "learning_rate": 5.3787994817062256e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 229330832,
+      "step": 106160
+    },
+    {
+      "epoch": 17.318923327895597,
+      "grad_norm": 0.000536845822352916,
+      "learning_rate": 5.3755883164744335e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 229341040,
+      "step": 106165
+    },
+    {
+      "epoch": 17.31973898858075,
+      "grad_norm": 0.11563540250062943,
+      "learning_rate": 5.372378055612953e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 229350992,
+      "step": 106170
+    },
+    {
+      "epoch": 17.320554649265905,
+      "grad_norm": 0.00938224047422409,
+      "learning_rate": 5.369168699186844e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 229361488,
+      "step": 106175
+    },
+    {
+      "epoch": 17.32137030995106,
+      "grad_norm": 0.002466683741658926,
+      "learning_rate": 5.365960247261148e-05,
+      "loss": 0.054,
+      "num_input_tokens_seen": 229371472,
+      "step": 106180
+    },
+    {
+      "epoch": 17.322185970636216,
+      "grad_norm": 0.726901113986969,
+      "learning_rate": 5.3627526999008966e-05,
+      "loss": 0.0237,
+      "num_input_tokens_seen": 229383216,
+      "step": 106185
+    },
+    {
+      "epoch": 17.32300163132137,
+      "grad_norm": 0.03403662145137787,
+      "learning_rate": 5.359546057171083e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 229393072,
+      "step": 106190
+    },
+    {
+      "epoch": 17.323817292006524,
+      "grad_norm": 0.0012271327432245016,
+      "learning_rate": 5.356340319136699e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 229403120,
+      "step": 106195
+    },
+    {
+      "epoch": 17.32463295269168,
+      "grad_norm": 0.002099724020808935,
+      "learning_rate": 5.353135485862715e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 229413872,
+      "step": 106200
+    },
+    {
+      "epoch": 17.325448613376835,
+      "grad_norm": 0.0009085267083719373,
+      "learning_rate": 5.3499315574140784e-05,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 229424624,
+      "step": 106205
+    },
+    {
+      "epoch": 17.32626427406199,
+      "grad_norm": 0.008246471174061298,
+      "learning_rate": 5.3467285338557213e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 229435504,
+      "step": 106210
+    },
+    {
+      "epoch": 17.327079934747147,
+      "grad_norm": 0.03950975835323334,
+      "learning_rate": 5.343526415252553e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 229445456,
+      "step": 106215
+    },
+    {
+      "epoch": 17.3278955954323,
+      "grad_norm": 0.06826602667570114,
+      "learning_rate": 5.340325201669477e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 229454960,
+      "step": 106220
+    },
+    {
+      "epoch": 17.328711256117455,
+      "grad_norm": 0.0021825393196195364,
+      "learning_rate": 5.337124893171358e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 229466000,
+      "step": 106225
+    },
+    {
+      "epoch": 17.32952691680261,
+      "grad_norm": 0.002758385380730033,
+      "learning_rate": 5.333925489823077e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 229476912,
+      "step": 106230
+    },
+    {
+      "epoch": 17.330342577487766,
+      "grad_norm": 0.0008691848488524556,
+      "learning_rate": 5.330726991689439e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 229486928,
+      "step": 106235
+    },
+    {
+      "epoch": 17.33115823817292,
+      "grad_norm": 0.06600486487150192,
+      "learning_rate": 5.327529398835307e-05,
+      "loss": 0.0087,
+      "num_input_tokens_seen": 229497072,
+      "step": 106240
+    },
+    {
+      "epoch": 17.331973898858074,
+      "grad_norm": 0.0016669132746756077,
+      "learning_rate": 5.324332711325447e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 229509232,
+      "step": 106245
+    },
+    {
+      "epoch": 17.33278955954323,
+      "grad_norm": 0.009230856783688068,
+      "learning_rate": 5.3211369292246735e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 229519952,
+      "step": 106250
+    },
+    {
+      "epoch": 17.333605220228385,
+      "grad_norm": 0.01821569725871086,
+      "learning_rate": 5.317942052597724e-05,
+      "loss": 0.0368,
+      "num_input_tokens_seen": 229530096,
+      "step": 106255
+    },
+    {
+      "epoch": 17.33442088091354,
+      "grad_norm": 0.029215874150395393,
+      "learning_rate": 5.3147480815093684e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 229540656,
+      "step": 106260
+    },
+    {
+      "epoch": 17.335236541598697,
+      "grad_norm": 0.04781011864542961,
+      "learning_rate": 5.311555016024328e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 229549968,
+      "step": 106265
+    },
+    {
+      "epoch": 17.33605220228385,
+      "grad_norm": 0.000586999929510057,
+      "learning_rate": 5.308362856207322e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 229561264,
+      "step": 106270
+    },
+    {
+      "epoch": 17.336867862969005,
+      "grad_norm": 0.0008068184251897037,
+      "learning_rate": 5.3051716021230375e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 229572272,
+      "step": 106275
+    },
+    {
+      "epoch": 17.33768352365416,
+      "grad_norm": 0.12466217577457428,
+      "learning_rate": 5.3019812538361466e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 229583408,
+      "step": 106280
+    },
+    {
+      "epoch": 17.338499184339316,
+      "grad_norm": 0.0025564394891262054,
+      "learning_rate": 5.298791811411313e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 229593200,
+      "step": 106285
+    },
+    {
+      "epoch": 17.339314845024468,
+      "grad_norm": 0.0067188916727900505,
+      "learning_rate": 5.295603274913169e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 229603280,
+      "step": 106290
+    },
+    {
+      "epoch": 17.340130505709624,
+      "grad_norm": 0.044277604669332504,
+      "learning_rate": 5.292415644406334e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 229613840,
+      "step": 106295
+    },
+    {
+      "epoch": 17.34094616639478,
+      "grad_norm": 0.0005162619636394083,
+      "learning_rate": 5.289228919955413e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 229624784,
+      "step": 106300
+    },
+    {
+      "epoch": 17.341761827079935,
+      "grad_norm": 0.0008603575988672674,
+      "learning_rate": 5.286043101624988e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 229636240,
+      "step": 106305
+    },
+    {
+      "epoch": 17.34257748776509,
+      "grad_norm": 0.00944200623780489,
+      "learning_rate": 5.2828581894796226e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 229647696,
+      "step": 106310
+    },
+    {
+      "epoch": 17.343393148450243,
+      "grad_norm": 0.01924579218029976,
+      "learning_rate": 5.2796741835838656e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 229657808,
+      "step": 106315
+    },
+    {
+      "epoch": 17.3442088091354,
+      "grad_norm": 0.0027068655472248793,
+      "learning_rate": 5.276491084002238e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 229668592,
+      "step": 106320
+    },
+    {
+      "epoch": 17.345024469820554,
+      "grad_norm": 0.0045636678114533424,
+      "learning_rate": 5.273308890799261e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 229679632,
+      "step": 106325
+    },
+    {
+      "epoch": 17.34584013050571,
+      "grad_norm": 0.010973965749144554,
+      "learning_rate": 5.270127604039404e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 229691408,
+      "step": 106330
+    },
+    {
+      "epoch": 17.346655791190866,
+      "grad_norm": 0.2658245861530304,
+      "learning_rate": 5.266947223787177e-05,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 229701776,
+      "step": 106335
+    },
+    {
+      "epoch": 17.347471451876018,
+      "grad_norm": 0.02542303130030632,
+      "learning_rate": 5.263767750106996e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 229712720,
+      "step": 106340
+    },
+    {
+      "epoch": 17.348287112561174,
+      "grad_norm": 0.0022277773823589087,
+      "learning_rate": 5.2605891830633304e-05,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 229722480,
+      "step": 106345
+    },
+    {
+      "epoch": 17.34910277324633,
+      "grad_norm": 0.005143773276358843,
+      "learning_rate": 5.257411522720562e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 229733456,
+      "step": 106350
+    },
+    {
+      "epoch": 17.349918433931485,
+      "grad_norm": 0.009331930428743362,
+      "learning_rate": 5.2542347691431235e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 229743600,
+      "step": 106355
+    },
+    {
+      "epoch": 17.35073409461664,
+      "grad_norm": 0.001864943071268499,
+      "learning_rate": 5.251058922395368e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 229754544,
+      "step": 106360
+    },
+    {
+      "epoch": 17.351549755301793,
+      "grad_norm": 0.00036566847120411694,
+      "learning_rate": 5.24788398254169e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 229765200,
+      "step": 106365
+    },
+    {
+      "epoch": 17.35236541598695,
+      "grad_norm": 0.006779797375202179,
+      "learning_rate": 5.2447099496463925e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 229775568,
+      "step": 106370
+    },
+    {
+      "epoch": 17.353181076672104,
+      "grad_norm": 0.0017445924459025264,
+      "learning_rate": 5.241536823773846e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 229787152,
+      "step": 106375
+    },
+    {
+      "epoch": 17.35399673735726,
+      "grad_norm": 0.022132201120257378,
+      "learning_rate": 5.238364604988316e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 229796560,
+      "step": 106380
+    },
+    {
+      "epoch": 17.354812398042416,
+      "grad_norm": 0.38006922602653503,
+      "learning_rate": 5.235193293354129e-05,
+      "loss": 0.0359,
+      "num_input_tokens_seen": 229806512,
+      "step": 106385
+    },
+    {
+      "epoch": 17.355628058727568,
+      "grad_norm": 0.0037477388978004456,
+      "learning_rate": 5.2320228889355224e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 229816816,
+      "step": 106390
+    },
+    {
+      "epoch": 17.356443719412724,
+      "grad_norm": 0.004561097361147404,
+      "learning_rate": 5.228853391796784e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 229826544,
+      "step": 106395
+    },
+    {
+      "epoch": 17.35725938009788,
+      "grad_norm": 0.015991326421499252,
+      "learning_rate": 5.225684802002106e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 229838064,
+      "step": 106400
+    },
+    {
+      "epoch": 17.358075040783035,
+      "grad_norm": 0.023101402446627617,
+      "learning_rate": 5.222517119615733e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 229848880,
+      "step": 106405
+    },
+    {
+      "epoch": 17.35889070146819,
+      "grad_norm": 0.000387304782634601,
+      "learning_rate": 5.2193503447018564e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 229860720,
+      "step": 106410
+    },
+    {
+      "epoch": 17.359706362153343,
+      "grad_norm": 0.0031212973408401012,
+      "learning_rate": 5.216184477324659e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 229871984,
+      "step": 106415
+    },
+    {
+      "epoch": 17.3605220228385,
+      "grad_norm": 0.0009755408391356468,
+      "learning_rate": 5.2130195175482896e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 229881808,
+      "step": 106420
+    },
+    {
+      "epoch": 17.361337683523654,
+      "grad_norm": 0.00044328568037599325,
+      "learning_rate": 5.209855465436897e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 229891728,
+      "step": 106425
+    },
+    {
+      "epoch": 17.36215334420881,
+      "grad_norm": 0.015467526391148567,
+      "learning_rate": 5.2066923210546015e-05,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 229902288,
+      "step": 106430
+    },
+    {
+      "epoch": 17.362969004893966,
+      "grad_norm": 0.0005860764067620039,
+      "learning_rate": 5.203530084465513e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 229911824,
+      "step": 106435
+    },
+    {
+      "epoch": 17.363784665579118,
+      "grad_norm": 0.0004039146879222244,
+      "learning_rate": 5.20036875573372e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 229923472,
+      "step": 106440
+    },
+    {
+      "epoch": 17.364600326264274,
+      "grad_norm": 0.0005128368502482772,
+      "learning_rate": 5.197208334923281e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 229934064,
+      "step": 106445
+    },
+    {
+      "epoch": 17.36541598694943,
+      "grad_norm": 0.0003911785315722227,
+      "learning_rate": 5.1940488220982516e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 229944496,
+      "step": 106450
+    },
+    {
+      "epoch": 17.366231647634585,
+      "grad_norm": 0.7548543214797974,
+      "learning_rate": 5.1908902173226524e-05,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 229955504,
+      "step": 106455
+    },
+    {
+      "epoch": 17.36704730831974,
+      "grad_norm": 0.008681437000632286,
+      "learning_rate": 5.1877325206605316e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 229966544,
+      "step": 106460
+    },
+    {
+      "epoch": 17.367862969004893,
+      "grad_norm": 0.0003187756519764662,
+      "learning_rate": 5.1845757321758394e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 229977520,
+      "step": 106465
+    },
+    {
+      "epoch": 17.36867862969005,
+      "grad_norm": 0.0001434768782928586,
+      "learning_rate": 5.181419851932589e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 229989072,
+      "step": 106470
+    },
+    {
+      "epoch": 17.369494290375204,
+      "grad_norm": 0.0026647213380783796,
+      "learning_rate": 5.178264879994704e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 229999984,
+      "step": 106475
+    },
+    {
+      "epoch": 17.37030995106036,
+      "grad_norm": 0.0023641285952180624,
+      "learning_rate": 5.17511081642616e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 230010704,
+      "step": 106480
+    },
+    {
+      "epoch": 17.371125611745512,
+      "grad_norm": 0.7835355997085571,
+      "learning_rate": 5.171957661290838e-05,
+      "loss": 0.0747,
+      "num_input_tokens_seen": 230022224,
+      "step": 106485
+    },
+    {
+      "epoch": 17.371941272430668,
+      "grad_norm": 0.003112988080829382,
+      "learning_rate": 5.1688054146526886e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 230033360,
+      "step": 106490
+    },
+    {
+      "epoch": 17.372756933115824,
+      "grad_norm": 0.0008296226733364165,
+      "learning_rate": 5.165654076575543e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 230044336,
+      "step": 106495
+    },
+    {
+      "epoch": 17.37357259380098,
+      "grad_norm": 0.010152243077754974,
+      "learning_rate": 5.162503647123318e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 230054288,
+      "step": 106500
+    },
+    {
+      "epoch": 17.374388254486135,
+      "grad_norm": 0.0011838224017992616,
+      "learning_rate": 5.159354126359816e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 230066000,
+      "step": 106505
+    },
+    {
+      "epoch": 17.375203915171287,
+      "grad_norm": 0.0012060764711350203,
+      "learning_rate": 5.156205514348905e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 230075344,
+      "step": 106510
+    },
+    {
+      "epoch": 17.376019575856443,
+      "grad_norm": 0.003541109850630164,
+      "learning_rate": 5.1530578111543605e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 230086192,
+      "step": 106515
+    },
+    {
+      "epoch": 17.3768352365416,
+      "grad_norm": 0.001406823517754674,
+      "learning_rate": 5.149911016840009e-05,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 230097808,
+      "step": 106520
+    },
+    {
+      "epoch": 17.377650897226754,
+      "grad_norm": 0.006291515659540892,
+      "learning_rate": 5.146765131469594e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 230108176,
+      "step": 106525
+    },
+    {
+      "epoch": 17.37846655791191,
+      "grad_norm": 0.00061332545010373,
+      "learning_rate": 5.1436201551068987e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 230118672,
+      "step": 106530
+    },
+    {
+      "epoch": 17.379282218597062,
+      "grad_norm": 0.0031427890062332153,
+      "learning_rate": 5.140476087815621e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 230129712,
+      "step": 106535
+    },
+    {
+      "epoch": 17.380097879282218,
+      "grad_norm": 0.002123972401022911,
+      "learning_rate": 5.137332929659522e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 230141648,
+      "step": 106540
+    },
+    {
+      "epoch": 17.380913539967374,
+      "grad_norm": 0.000174164364580065,
+      "learning_rate": 5.134190680702278e-05,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 230151504,
+      "step": 106545
+    },
+    {
+      "epoch": 17.38172920065253,
+      "grad_norm": 0.021573202684521675,
+      "learning_rate": 5.1310493410075765e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 230162512,
+      "step": 106550
+    },
+    {
+      "epoch": 17.382544861337685,
+      "grad_norm": 0.017056437209248543,
+      "learning_rate": 5.127908910639084e-05,
+      "loss": 0.031,
+      "num_input_tokens_seen": 230173968,
+      "step": 106555
+    },
+    {
+      "epoch": 17.383360522022837,
+      "grad_norm": 0.0004546472628135234,
+      "learning_rate": 5.1247693896604386e-05,
+      "loss": 0.021,
+      "num_input_tokens_seen": 230184016,
+      "step": 106560
+    },
+    {
+      "epoch": 17.384176182707993,
+      "grad_norm": 0.009080810472369194,
+      "learning_rate": 5.1216307781352724e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 230193648,
+      "step": 106565
+    },
+    {
+      "epoch": 17.38499184339315,
+      "grad_norm": 0.22605130076408386,
+      "learning_rate": 5.11849307612719e-05,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 230204912,
+      "step": 106570
+    },
+    {
+      "epoch": 17.385807504078304,
+      "grad_norm": 0.04267728328704834,
+      "learning_rate": 5.115356283699779e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 230216368,
+      "step": 106575
+    },
+    {
+      "epoch": 17.38662316476346,
+      "grad_norm": 0.012378888204693794,
+      "learning_rate": 5.112220400916617e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 230227664,
+      "step": 106580
+    },
+    {
+      "epoch": 17.387438825448612,
+      "grad_norm": 0.005728128831833601,
+      "learning_rate": 5.109085427841248e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 230239312,
+      "step": 106585
+    },
+    {
+      "epoch": 17.388254486133768,
+      "grad_norm": 0.0034778222907334566,
+      "learning_rate": 5.1059513645372146e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 230249616,
+      "step": 106590
+    },
+    {
+      "epoch": 17.389070146818923,
+      "grad_norm": 0.000555566162802279,
+      "learning_rate": 5.1028182110680275e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 230260400,
+      "step": 106595
+    },
+    {
+      "epoch": 17.38988580750408,
+      "grad_norm": 0.001118313753977418,
+      "learning_rate": 5.0996859674971805e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 230271184,
+      "step": 106600
+    },
+    {
+      "epoch": 17.390701468189235,
+      "grad_norm": 0.002053825417533517,
+      "learning_rate": 5.096554633888173e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 230282576,
+      "step": 106605
+    },
+    {
+      "epoch": 17.391517128874387,
+      "grad_norm": 0.008048903197050095,
+      "learning_rate": 5.093424210304426e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 230293392,
+      "step": 106610
+    },
+    {
+      "epoch": 17.392332789559543,
+      "grad_norm": 0.003288182895630598,
+      "learning_rate": 5.090294696809428e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 230303216,
+      "step": 106615
+    },
+    {
+      "epoch": 17.3931484502447,
+      "grad_norm": 0.005758529528975487,
+      "learning_rate": 5.087166093466566e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 230315152,
+      "step": 106620
+    },
+    {
+      "epoch": 17.393964110929854,
+      "grad_norm": 0.6126771569252014,
+      "learning_rate": 5.0840384003392745e-05,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 230325328,
+      "step": 106625
+    },
+    {
+      "epoch": 17.39477977161501,
+      "grad_norm": 0.001895575551316142,
+      "learning_rate": 5.080911617490902e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 230335152,
+      "step": 106630
+    },
+    {
+      "epoch": 17.395595432300162,
+      "grad_norm": 0.00044205409358255565,
+      "learning_rate": 5.0777857449848644e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 230346224,
+      "step": 106635
+    },
+    {
+      "epoch": 17.396411092985318,
+      "grad_norm": 0.005649374332278967,
+      "learning_rate": 5.074660782884461e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 230357744,
+      "step": 106640
+    },
+    {
+      "epoch": 17.397226753670473,
+      "grad_norm": 0.0003312532207928598,
+      "learning_rate": 5.071536731253074e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 230368912,
+      "step": 106645
+    },
+    {
+      "epoch": 17.39804241435563,
+      "grad_norm": 0.0009800927946344018,
+      "learning_rate": 5.0684135901539694e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 230379600,
+      "step": 106650
+    },
+    {
+      "epoch": 17.39885807504078,
+      "grad_norm": 0.002080594189465046,
+      "learning_rate": 5.0652913596504704e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 230390704,
+      "step": 106655
+    },
+    {
+      "epoch": 17.399673735725937,
+      "grad_norm": 0.03588714450597763,
+      "learning_rate": 5.062170039805847e-05,
+      "loss": 0.0947,
+      "num_input_tokens_seen": 230402416,
+      "step": 106660
+    },
+    {
+      "epoch": 17.400489396411093,
+      "grad_norm": 0.0012130021350458264,
+      "learning_rate": 5.05904963068336e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 230413360,
+      "step": 106665
+    },
+    {
+      "epoch": 17.40130505709625,
+      "grad_norm": 0.044631388038396835,
+      "learning_rate": 5.055930132346237e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 230423792,
+      "step": 106670
+    },
+    {
+      "epoch": 17.402120717781404,
+      "grad_norm": 0.001390898018144071,
+      "learning_rate": 5.0528115448577105e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 230434352,
+      "step": 106675
+    },
+    {
+      "epoch": 17.402936378466556,
+      "grad_norm": 0.5931783318519592,
+      "learning_rate": 5.0496938682809744e-05,
+      "loss": 0.0803,
+      "num_input_tokens_seen": 230445680,
+      "step": 106680
+    },
+    {
+      "epoch": 17.403752039151712,
+      "grad_norm": 0.0012526774080470204,
+      "learning_rate": 5.0465771026792175e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 230456336,
+      "step": 106685
+    },
+    {
+      "epoch": 17.404567699836868,
+      "grad_norm": 0.0003373456420376897,
+      "learning_rate": 5.043461248115605e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 230468368,
+      "step": 106690
+    },
+    {
+      "epoch": 17.405383360522023,
+      "grad_norm": 0.05024491995573044,
+      "learning_rate": 5.040346304653276e-05,
+      "loss": 0.057,
+      "num_input_tokens_seen": 230479408,
+      "step": 106695
+    },
+    {
+      "epoch": 17.40619902120718,
+      "grad_norm": 0.0005603748722933233,
+      "learning_rate": 5.037232272355369e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 230490800,
+      "step": 106700
+    },
+    {
+      "epoch": 17.40701468189233,
+      "grad_norm": 0.00028684749850071967,
+      "learning_rate": 5.034119151284988e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 230502832,
+      "step": 106705
+    },
+    {
+      "epoch": 17.407830342577487,
+      "grad_norm": 0.007525811903178692,
+      "learning_rate": 5.031006941505228e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 230513744,
+      "step": 106710
+    },
+    {
+      "epoch": 17.408646003262643,
+      "grad_norm": 0.00031510432017967105,
+      "learning_rate": 5.0278956430791555e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 230524336,
+      "step": 106715
+    },
+    {
+      "epoch": 17.4094616639478,
+      "grad_norm": 0.0023549527395516634,
+      "learning_rate": 5.0247852560698304e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 230535440,
+      "step": 106720
+    },
+    {
+      "epoch": 17.410277324632954,
+      "grad_norm": 0.0041503324173390865,
+      "learning_rate": 5.0216757805402856e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 230544336,
+      "step": 106725
+    },
+    {
+      "epoch": 17.411092985318106,
+      "grad_norm": 0.0039215851575136185,
+      "learning_rate": 5.018567216553543e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 230555792,
+      "step": 106730
+    },
+    {
+      "epoch": 17.411908646003262,
+      "grad_norm": 0.005930093117058277,
+      "learning_rate": 5.015459564172597e-05,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 230567536,
+      "step": 106735
+    },
+    {
+      "epoch": 17.412724306688418,
+      "grad_norm": 0.0019989213906228542,
+      "learning_rate": 5.0123528234604307e-05,
+      "loss": 0.0511,
+      "num_input_tokens_seen": 230578736,
+      "step": 106740
+    },
+    {
+      "epoch": 17.413539967373573,
+      "grad_norm": 0.049455612897872925,
+      "learning_rate": 5.009246994479999e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 230588432,
+      "step": 106745
+    },
+    {
+      "epoch": 17.41435562805873,
+      "grad_norm": 0.0006300982204265893,
+      "learning_rate": 5.006142077294268e-05,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 230599120,
+      "step": 106750
+    },
+    {
+      "epoch": 17.41517128874388,
+      "grad_norm": 0.0014582215808331966,
+      "learning_rate": 5.003038071966126e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 230610960,
+      "step": 106755
+    },
+    {
+      "epoch": 17.415986949429037,
+      "grad_norm": 0.015856770798563957,
+      "learning_rate": 4.999934978558513e-05,
+      "loss": 0.08,
+      "num_input_tokens_seen": 230621136,
+      "step": 106760
+    },
+    {
+      "epoch": 17.416802610114193,
+      "grad_norm": 0.007289855740964413,
+      "learning_rate": 4.996832797134299e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 230632368,
+      "step": 106765
+    },
+    {
+      "epoch": 17.41761827079935,
+      "grad_norm": 0.002110978588461876,
+      "learning_rate": 4.9937315277563625e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 230643600,
+      "step": 106770
+    },
+    {
+      "epoch": 17.418433931484504,
+      "grad_norm": 0.012086848728358746,
+      "learning_rate": 4.990631170487553e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 230655696,
+      "step": 106775
+    },
+    {
+      "epoch": 17.419249592169656,
+      "grad_norm": 0.08439251780509949,
+      "learning_rate": 4.987531725390698e-05,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 230667920,
+      "step": 106780
+    },
+    {
+      "epoch": 17.420065252854812,
+      "grad_norm": 0.1708887368440628,
+      "learning_rate": 4.9844331925286145e-05,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 230678800,
+      "step": 106785
+    },
+    {
+      "epoch": 17.420880913539968,
+      "grad_norm": 0.009966623969376087,
+      "learning_rate": 4.981335571964102e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 230689360,
+      "step": 106790
+    },
+    {
+      "epoch": 17.421696574225123,
+      "grad_norm": 0.007955643348395824,
+      "learning_rate": 4.978238863759932e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 230698672,
+      "step": 106795
+    },
+    {
+      "epoch": 17.42251223491028,
+      "grad_norm": 0.00029836222529411316,
+      "learning_rate": 4.975143067978866e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 230709360,
+      "step": 106800
+    },
+    {
+      "epoch": 17.42332789559543,
+      "grad_norm": 0.0006177327013574541,
+      "learning_rate": 4.9720481846836416e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 230721008,
+      "step": 106805
+    },
+    {
+      "epoch": 17.424143556280587,
+      "grad_norm": 0.013303990475833416,
+      "learning_rate": 4.968954213936988e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 230733872,
+      "step": 106810
+    },
+    {
+      "epoch": 17.424959216965743,
+      "grad_norm": 0.003197494661435485,
+      "learning_rate": 4.9658611558015984e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 230744880,
+      "step": 106815
+    },
+    {
+      "epoch": 17.4257748776509,
+      "grad_norm": 0.00020710163516923785,
+      "learning_rate": 4.962769010340163e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 230755504,
+      "step": 106820
+    },
+    {
+      "epoch": 17.42659053833605,
+      "grad_norm": 0.00011777384497690946,
+      "learning_rate": 4.959677777615351e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 230765968,
+      "step": 106825
+    },
+    {
+      "epoch": 17.427406199021206,
+      "grad_norm": 0.03826236352324486,
+      "learning_rate": 4.956587457689804e-05,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 230777296,
+      "step": 106830
+    },
+    {
+      "epoch": 17.428221859706362,
+      "grad_norm": 0.000653933675494045,
+      "learning_rate": 4.953498050626154e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 230788944,
+      "step": 106835
+    },
+    {
+      "epoch": 17.429037520391518,
+      "grad_norm": 0.0026093318592756987,
+      "learning_rate": 4.9504095564870124e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 230799984,
+      "step": 106840
+    },
+    {
+      "epoch": 17.429853181076673,
+      "grad_norm": 0.0002395760966464877,
+      "learning_rate": 4.947321975334967e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 230810096,
+      "step": 106845
+    },
+    {
+      "epoch": 17.430668841761825,
+      "grad_norm": 0.0016788537614047527,
+      "learning_rate": 4.944235307232597e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 230820688,
+      "step": 106850
+    },
+    {
+      "epoch": 17.43148450244698,
+      "grad_norm": 0.008425015024840832,
+      "learning_rate": 4.941149552242458e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 230832848,
+      "step": 106855
+    },
+    {
+      "epoch": 17.432300163132137,
+      "grad_norm": 0.0009443744784221053,
+      "learning_rate": 4.9380647104270814e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 230843088,
+      "step": 106860
+    },
+    {
+      "epoch": 17.433115823817293,
+      "grad_norm": 0.0007148012518882751,
+      "learning_rate": 4.93498078184898e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 230853616,
+      "step": 106865
+    },
+    {
+      "epoch": 17.43393148450245,
+      "grad_norm": 0.0006740608369000256,
+      "learning_rate": 4.9318977665706866e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 230864336,
+      "step": 106870
+    },
+    {
+      "epoch": 17.4347471451876,
+      "grad_norm": 0.0037371008656919003,
+      "learning_rate": 4.928815664654635e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 230875312,
+      "step": 106875
+    },
+    {
+      "epoch": 17.435562805872756,
+      "grad_norm": 0.036037005484104156,
+      "learning_rate": 4.9257344761633236e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 230885936,
+      "step": 106880
+    },
+    {
+      "epoch": 17.436378466557912,
+      "grad_norm": 0.0017335086595267057,
+      "learning_rate": 4.9226542011591716e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 230896688,
+      "step": 106885
+    },
+    {
+      "epoch": 17.437194127243067,
+      "grad_norm": 0.015234340913593769,
+      "learning_rate": 4.919574839704627e-05,
+      "loss": 0.0158,
+      "num_input_tokens_seen": 230907408,
+      "step": 106890
+    },
+    {
+      "epoch": 17.438009787928223,
+      "grad_norm": 0.005732585676014423,
+      "learning_rate": 4.916496391862085e-05,
+      "loss": 0.0337,
+      "num_input_tokens_seen": 230918256,
+      "step": 106895
+    },
+    {
+      "epoch": 17.438825448613375,
+      "grad_norm": 0.0019450652180239558,
+      "learning_rate": 4.913418857693936e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 230928944,
+      "step": 106900
+    },
+    {
+      "epoch": 17.43964110929853,
+      "grad_norm": 0.051235880702733994,
+      "learning_rate": 4.9103422372625496e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 230939408,
+      "step": 106905
+    },
+    {
+      "epoch": 17.440456769983687,
+      "grad_norm": 0.10393361747264862,
+      "learning_rate": 4.907266530630278e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 230949296,
+      "step": 106910
+    },
+    {
+      "epoch": 17.441272430668842,
+      "grad_norm": 0.001110541052184999,
+      "learning_rate": 4.904191737859454e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 230960592,
+      "step": 106915
+    },
+    {
+      "epoch": 17.442088091353998,
+      "grad_norm": 0.013865980319678783,
+      "learning_rate": 4.901117859012394e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 230971504,
+      "step": 106920
+    },
+    {
+      "epoch": 17.44290375203915,
+      "grad_norm": 0.0016207977896556258,
+      "learning_rate": 4.898044894151393e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 230981200,
+      "step": 106925
+    },
+    {
+      "epoch": 17.443719412724306,
+      "grad_norm": 0.00044690087088383734,
+      "learning_rate": 4.894972843338724e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 230991920,
+      "step": 106930
+    },
+    {
+      "epoch": 17.44453507340946,
+      "grad_norm": 0.00033451549825258553,
+      "learning_rate": 4.891901706636653e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231002480,
+      "step": 106935
+    },
+    {
+      "epoch": 17.445350734094617,
+      "grad_norm": 0.0024510840885341167,
+      "learning_rate": 4.88883148410742e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 231013904,
+      "step": 106940
+    },
+    {
+      "epoch": 17.446166394779773,
+      "grad_norm": 0.0023836391046643257,
+      "learning_rate": 4.885762175813241e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 231024528,
+      "step": 106945
+    },
+    {
+      "epoch": 17.446982055464925,
+      "grad_norm": 0.005944438744336367,
+      "learning_rate": 4.882693781816327e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 231036048,
+      "step": 106950
+    },
+    {
+      "epoch": 17.44779771615008,
+      "grad_norm": 0.0009455296094529331,
+      "learning_rate": 4.8796263021788524e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 231047344,
+      "step": 106955
+    },
+    {
+      "epoch": 17.448613376835237,
+      "grad_norm": 0.026120547205209732,
+      "learning_rate": 4.876559736962999e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 231059440,
+      "step": 106960
+    },
+    {
+      "epoch": 17.449429037520392,
+      "grad_norm": 0.002475123852491379,
+      "learning_rate": 4.8734940862309006e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 231071088,
+      "step": 106965
+    },
+    {
+      "epoch": 17.450244698205548,
+      "grad_norm": 0.045191384851932526,
+      "learning_rate": 4.8704293500446806e-05,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 231082576,
+      "step": 106970
+    },
+    {
+      "epoch": 17.4510603588907,
+      "grad_norm": 0.007040271535515785,
+      "learning_rate": 4.867365528466477e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231092816,
+      "step": 106975
+    },
+    {
+      "epoch": 17.451876019575856,
+      "grad_norm": 0.0007439907640218735,
+      "learning_rate": 4.864302621558353e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 231103760,
+      "step": 106980
+    },
+    {
+      "epoch": 17.45269168026101,
+      "grad_norm": 0.2785327434539795,
+      "learning_rate": 4.861240629382413e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 231114800,
+      "step": 106985
+    },
+    {
+      "epoch": 17.453507340946167,
+      "grad_norm": 0.030314238741993904,
+      "learning_rate": 4.858179552000674e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 231126064,
+      "step": 106990
+    },
+    {
+      "epoch": 17.454323001631323,
+      "grad_norm": 0.0005355747998692095,
+      "learning_rate": 4.85511938947521e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231137424,
+      "step": 106995
+    },
+    {
+      "epoch": 17.455138662316475,
+      "grad_norm": 0.006188563071191311,
+      "learning_rate": 4.8520601418680085e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 231148464,
+      "step": 107000
+    },
+    {
+      "epoch": 17.45595432300163,
+      "grad_norm": 0.00108015863224864,
+      "learning_rate": 4.849001809241099e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 231159696,
+      "step": 107005
+    },
+    {
+      "epoch": 17.456769983686787,
+      "grad_norm": 0.0003742810513358563,
+      "learning_rate": 4.845944391656426e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231170096,
+      "step": 107010
+    },
+    {
+      "epoch": 17.457585644371942,
+      "grad_norm": 0.0034818367566913366,
+      "learning_rate": 4.84288788917599e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 231181232,
+      "step": 107015
+    },
+    {
+      "epoch": 17.458401305057095,
+      "grad_norm": 0.0006757063092663884,
+      "learning_rate": 4.839832301861696e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 231192848,
+      "step": 107020
+    },
+    {
+      "epoch": 17.45921696574225,
+      "grad_norm": 0.0012268743012100458,
+      "learning_rate": 4.836777629775513e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 231204144,
+      "step": 107025
+    },
+    {
+      "epoch": 17.460032626427406,
+      "grad_norm": 0.0005029301391914487,
+      "learning_rate": 4.833723872979306e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 231215344,
+      "step": 107030
+    },
+    {
+      "epoch": 17.46084828711256,
+      "grad_norm": 0.0007763210451230407,
+      "learning_rate": 4.830671031534989e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 231226416,
+      "step": 107035
+    },
+    {
+      "epoch": 17.461663947797717,
+      "grad_norm": 0.010013229213654995,
+      "learning_rate": 4.827619105504427e-05,
+      "loss": 0.007,
+      "num_input_tokens_seen": 231237840,
+      "step": 107040
+    },
+    {
+      "epoch": 17.46247960848287,
+      "grad_norm": 0.00031955906888470054,
+      "learning_rate": 4.8245680949494664e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 231247312,
+      "step": 107045
+    },
+    {
+      "epoch": 17.463295269168025,
+      "grad_norm": 0.00021452225337270647,
+      "learning_rate": 4.821517999931946e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 231258320,
+      "step": 107050
+    },
+    {
+      "epoch": 17.46411092985318,
+      "grad_norm": 0.08768285810947418,
+      "learning_rate": 4.8184688205136716e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 231268080,
+      "step": 107055
+    },
+    {
+      "epoch": 17.464926590538337,
+      "grad_norm": 0.0003200488572474569,
+      "learning_rate": 4.8154205567564503e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 231277552,
+      "step": 107060
+    },
+    {
+      "epoch": 17.465742251223492,
+      "grad_norm": 0.023660294711589813,
+      "learning_rate": 4.812373208722048e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 231289360,
+      "step": 107065
+    },
+    {
+      "epoch": 17.466557911908644,
+      "grad_norm": 0.002158315386623144,
+      "learning_rate": 4.809326776472228e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 231299888,
+      "step": 107070
+    },
+    {
+      "epoch": 17.4673735725938,
+      "grad_norm": 0.0004791323735844344,
+      "learning_rate": 4.806281260068729e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231311568,
+      "step": 107075
+    },
+    {
+      "epoch": 17.468189233278956,
+      "grad_norm": 0.0012294030748307705,
+      "learning_rate": 4.803236659573274e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231322032,
+      "step": 107080
+    },
+    {
+      "epoch": 17.46900489396411,
+      "grad_norm": 1.8501989841461182,
+      "learning_rate": 4.800192975047551e-05,
+      "loss": 0.0749,
+      "num_input_tokens_seen": 231332880,
+      "step": 107085
+    },
+    {
+      "epoch": 17.469820554649267,
+      "grad_norm": 0.016211597248911858,
+      "learning_rate": 4.79715020655328e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 231344560,
+      "step": 107090
+    },
+    {
+      "epoch": 17.47063621533442,
+      "grad_norm": 0.0010530364234000444,
+      "learning_rate": 4.794108354152082e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 231354896,
+      "step": 107095
+    },
+    {
+      "epoch": 17.471451876019575,
+      "grad_norm": 0.0028281863778829575,
+      "learning_rate": 4.791067417905648e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 231365648,
+      "step": 107100
+    },
+    {
+      "epoch": 17.47226753670473,
+      "grad_norm": 0.5425127744674683,
+      "learning_rate": 4.7880273978755606e-05,
+      "loss": 0.164,
+      "num_input_tokens_seen": 231375728,
+      "step": 107105
+    },
+    {
+      "epoch": 17.473083197389887,
+      "grad_norm": 0.00036838767118752003,
+      "learning_rate": 4.784988294123477e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 231387376,
+      "step": 107110
+    },
+    {
+      "epoch": 17.473898858075042,
+      "grad_norm": 0.022055508568882942,
+      "learning_rate": 4.781950106710942e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 231397776,
+      "step": 107115
+    },
+    {
+      "epoch": 17.474714518760194,
+      "grad_norm": 0.0015256558544933796,
+      "learning_rate": 4.7789128356995727e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 231408464,
+      "step": 107120
+    },
+    {
+      "epoch": 17.47553017944535,
+      "grad_norm": 0.8088774681091309,
+      "learning_rate": 4.775876481150887e-05,
+      "loss": 0.1319,
+      "num_input_tokens_seen": 231419312,
+      "step": 107125
+    },
+    {
+      "epoch": 17.476345840130506,
+      "grad_norm": 0.0034476907458156347,
+      "learning_rate": 4.772841043126447e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 231429648,
+      "step": 107130
+    },
+    {
+      "epoch": 17.47716150081566,
+      "grad_norm": 0.0049369195476174355,
+      "learning_rate": 4.769806521687742e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 231440208,
+      "step": 107135
+    },
+    {
+      "epoch": 17.477977161500817,
+      "grad_norm": 0.004842468071728945,
+      "learning_rate": 4.766772916896306e-05,
+      "loss": 0.021,
+      "num_input_tokens_seen": 231451856,
+      "step": 107140
+    },
+    {
+      "epoch": 17.47879282218597,
+      "grad_norm": 0.014109466224908829,
+      "learning_rate": 4.763740228813579e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 231463888,
+      "step": 107145
+    },
+    {
+      "epoch": 17.479608482871125,
+      "grad_norm": 0.008914794772863388,
+      "learning_rate": 4.760708457501062e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 231475184,
+      "step": 107150
+    },
+    {
+      "epoch": 17.48042414355628,
+      "grad_norm": 0.0373489186167717,
+      "learning_rate": 4.7576776030201606e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 231487312,
+      "step": 107155
+    },
+    {
+      "epoch": 17.481239804241437,
+      "grad_norm": 0.01696755364537239,
+      "learning_rate": 4.754647665432338e-05,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 231497488,
+      "step": 107160
+    },
+    {
+      "epoch": 17.482055464926592,
+      "grad_norm": 0.0018327207071706653,
+      "learning_rate": 4.751618644798955e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 231508080,
+      "step": 107165
+    },
+    {
+      "epoch": 17.482871125611744,
+      "grad_norm": 0.00462839612737298,
+      "learning_rate": 4.7485905411814414e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 231518480,
+      "step": 107170
+    },
+    {
+      "epoch": 17.4836867862969,
+      "grad_norm": 0.00042224518256261945,
+      "learning_rate": 4.745563354641125e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231528496,
+      "step": 107175
+    },
+    {
+      "epoch": 17.484502446982056,
+      "grad_norm": 0.0018490392249077559,
+      "learning_rate": 4.74253708523939e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 231538128,
+      "step": 107180
+    },
+    {
+      "epoch": 17.48531810766721,
+      "grad_norm": 0.0025340570136904716,
+      "learning_rate": 4.7395117330375494e-05,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 231548688,
+      "step": 107185
+    },
+    {
+      "epoch": 17.486133768352367,
+      "grad_norm": 0.024287715554237366,
+      "learning_rate": 4.7364872980969254e-05,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 231560080,
+      "step": 107190
+    },
+    {
+      "epoch": 17.48694942903752,
+      "grad_norm": 0.0004691890790127218,
+      "learning_rate": 4.733463780478808e-05,
+      "loss": 0.02,
+      "num_input_tokens_seen": 231571952,
+      "step": 107195
+    },
+    {
+      "epoch": 17.487765089722675,
+      "grad_norm": 0.001160036539658904,
+      "learning_rate": 4.7304411802444656e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 231582736,
+      "step": 107200
+    },
+    {
+      "epoch": 17.48858075040783,
+      "grad_norm": 0.9447407126426697,
+      "learning_rate": 4.7274194974551656e-05,
+      "loss": 0.0331,
+      "num_input_tokens_seen": 231593872,
+      "step": 107205
+    },
+    {
+      "epoch": 17.489396411092986,
+      "grad_norm": 0.0005999091663397849,
+      "learning_rate": 4.724398732172142e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231603216,
+      "step": 107210
+    },
+    {
+      "epoch": 17.49021207177814,
+      "grad_norm": 0.006160971242934465,
+      "learning_rate": 4.721378884456612e-05,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 231614544,
+      "step": 107215
+    },
+    {
+      "epoch": 17.491027732463294,
+      "grad_norm": 0.0011769005795940757,
+      "learning_rate": 4.718359954369783e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 231624048,
+      "step": 107220
+    },
+    {
+      "epoch": 17.49184339314845,
+      "grad_norm": 0.0006996638257987797,
+      "learning_rate": 4.7153419419728285e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231634800,
+      "step": 107225
+    },
+    {
+      "epoch": 17.492659053833606,
+      "grad_norm": 0.005700491834431887,
+      "learning_rate": 4.7123248473269096e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 231645456,
+      "step": 107230
+    },
+    {
+      "epoch": 17.49347471451876,
+      "grad_norm": 0.009123490191996098,
+      "learning_rate": 4.7093086704931955e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 231657136,
+      "step": 107235
+    },
+    {
+      "epoch": 17.494290375203914,
+      "grad_norm": 0.91878342628479,
+      "learning_rate": 4.7062934115327804e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 231668368,
+      "step": 107240
+    },
+    {
+      "epoch": 17.49510603588907,
+      "grad_norm": 0.0010388504015281796,
+      "learning_rate": 4.7032790705068105e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 231679088,
+      "step": 107245
+    },
+    {
+      "epoch": 17.495921696574225,
+      "grad_norm": 0.0025188778527081013,
+      "learning_rate": 4.700265647476332e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 231690480,
+      "step": 107250
+    },
+    {
+      "epoch": 17.49673735725938,
+      "grad_norm": 0.03646330535411835,
+      "learning_rate": 4.69725314250245e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 231701744,
+      "step": 107255
+    },
+    {
+      "epoch": 17.497553017944536,
+      "grad_norm": 0.004327393136918545,
+      "learning_rate": 4.6942415556461894e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 231712944,
+      "step": 107260
+    },
+    {
+      "epoch": 17.49836867862969,
+      "grad_norm": 0.007958785630762577,
+      "learning_rate": 4.691230886968617e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231723088,
+      "step": 107265
+    },
+    {
+      "epoch": 17.499184339314844,
+      "grad_norm": 0.0002876732323784381,
+      "learning_rate": 4.688221136530712e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 231733072,
+      "step": 107270
+    },
+    {
+      "epoch": 17.5,
+      "grad_norm": 0.015398185700178146,
+      "learning_rate": 4.6852123043935044e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 231743824,
+      "step": 107275
+    },
+    {
+      "epoch": 17.500815660685156,
+      "grad_norm": 0.0010171079775318503,
+      "learning_rate": 4.682204390617939e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 231754192,
+      "step": 107280
+    },
+    {
+      "epoch": 17.50163132137031,
+      "grad_norm": 0.01936420053243637,
+      "learning_rate": 4.6791973952650056e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 231765200,
+      "step": 107285
+    },
+    {
+      "epoch": 17.502446982055464,
+      "grad_norm": 0.38633960485458374,
+      "learning_rate": 4.6761913183956175e-05,
+      "loss": 0.0156,
+      "num_input_tokens_seen": 231776368,
+      "step": 107290
+    },
+    {
+      "epoch": 17.50326264274062,
+      "grad_norm": 0.004747708793729544,
+      "learning_rate": 4.673186160070714e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 231788112,
+      "step": 107295
+    },
+    {
+      "epoch": 17.504078303425775,
+      "grad_norm": 0.02657368592917919,
+      "learning_rate": 4.6701819203511964e-05,
+      "loss": 0.0773,
+      "num_input_tokens_seen": 231798480,
+      "step": 107300
+    },
+    {
+      "epoch": 17.50489396411093,
+      "grad_norm": 0.00034374097594991326,
+      "learning_rate": 4.667178599297944e-05,
+      "loss": 0.1074,
+      "num_input_tokens_seen": 231810256,
+      "step": 107305
+    },
+    {
+      "epoch": 17.505709624796086,
+      "grad_norm": 0.002067964058369398,
+      "learning_rate": 4.664176196971831e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 231821168,
+      "step": 107310
+    },
+    {
+      "epoch": 17.50652528548124,
+      "grad_norm": 0.0008781051146797836,
+      "learning_rate": 4.661174713433697e-05,
+      "loss": 0.0154,
+      "num_input_tokens_seen": 231831536,
+      "step": 107315
+    },
+    {
+      "epoch": 17.507340946166394,
+      "grad_norm": 0.006266510114073753,
+      "learning_rate": 4.6581741487443765e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 231841520,
+      "step": 107320
+    },
+    {
+      "epoch": 17.50815660685155,
+      "grad_norm": 0.00011919608368771151,
+      "learning_rate": 4.655174502964676e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 231851184,
+      "step": 107325
+    },
+    {
+      "epoch": 17.508972267536706,
+      "grad_norm": 0.0016120661748573184,
+      "learning_rate": 4.6521757761553873e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 231862864,
+      "step": 107330
+    },
+    {
+      "epoch": 17.50978792822186,
+      "grad_norm": 0.0043755825608968735,
+      "learning_rate": 4.6491779683772825e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 231873456,
+      "step": 107335
+    },
+    {
+      "epoch": 17.510603588907014,
+      "grad_norm": 0.0005683773779310286,
+      "learning_rate": 4.64618107969112e-05,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 231883792,
+      "step": 107340
+    },
+    {
+      "epoch": 17.51141924959217,
+      "grad_norm": 0.0006177395698614419,
+      "learning_rate": 4.643185110157633e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 231894640,
+      "step": 107345
+    },
+    {
+      "epoch": 17.512234910277325,
+      "grad_norm": 0.010703234001994133,
+      "learning_rate": 4.640190059837535e-05,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 231906000,
+      "step": 107350
+    },
+    {
+      "epoch": 17.51305057096248,
+      "grad_norm": 0.0019364446634426713,
+      "learning_rate": 4.637195928791532e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 231917232,
+      "step": 107355
+    },
+    {
+      "epoch": 17.513866231647633,
+      "grad_norm": 0.0028983517549932003,
+      "learning_rate": 4.634202717080305e-05,
+      "loss": 0.0261,
+      "num_input_tokens_seen": 231927120,
+      "step": 107360
+    },
+    {
+      "epoch": 17.51468189233279,
+      "grad_norm": 0.0004596057115122676,
+      "learning_rate": 4.6312104247645035e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 231937872,
+      "step": 107365
+    },
+    {
+      "epoch": 17.515497553017944,
+      "grad_norm": 0.0075641958974301815,
+      "learning_rate": 4.6282190519047805e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 231947984,
+      "step": 107370
+    },
+    {
+      "epoch": 17.5163132137031,
+      "grad_norm": 0.0040355888195335865,
+      "learning_rate": 4.625228598561748e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 231959248,
+      "step": 107375
+    },
+    {
+      "epoch": 17.517128874388256,
+      "grad_norm": 0.0004805214412044734,
+      "learning_rate": 4.6222390647960356e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 231970064,
+      "step": 107380
+    },
+    {
+      "epoch": 17.517944535073408,
+      "grad_norm": 0.0017403739038854837,
+      "learning_rate": 4.619250450668194e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 231980944,
+      "step": 107385
+    },
+    {
+      "epoch": 17.518760195758563,
+      "grad_norm": 0.010331138968467712,
+      "learning_rate": 4.616262756238837e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 231991088,
+      "step": 107390
+    },
+    {
+      "epoch": 17.51957585644372,
+      "grad_norm": 0.0025749632623046637,
+      "learning_rate": 4.613275981568465e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 232001968,
+      "step": 107395
+    },
+    {
+      "epoch": 17.520391517128875,
+      "grad_norm": 0.011596056632697582,
+      "learning_rate": 4.610290126717642e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 232012400,
+      "step": 107400
+    },
+    {
+      "epoch": 17.52120717781403,
+      "grad_norm": 0.0006934392149560153,
+      "learning_rate": 4.607305191746874e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232023088,
+      "step": 107405
+    },
+    {
+      "epoch": 17.522022838499183,
+      "grad_norm": 0.0007819249876774848,
+      "learning_rate": 4.604321176716647e-05,
+      "loss": 0.009,
+      "num_input_tokens_seen": 232035024,
+      "step": 107410
+    },
+    {
+      "epoch": 17.52283849918434,
+      "grad_norm": 0.000496567867230624,
+      "learning_rate": 4.6013380816874394e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 232045904,
+      "step": 107415
+    },
+    {
+      "epoch": 17.523654159869494,
+      "grad_norm": 0.021955974400043488,
+      "learning_rate": 4.598355906719709e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 232057872,
+      "step": 107420
+    },
+    {
+      "epoch": 17.52446982055465,
+      "grad_norm": 0.01769077777862549,
+      "learning_rate": 4.595374651873896e-05,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 232069072,
+      "step": 107425
+    },
+    {
+      "epoch": 17.525285481239806,
+      "grad_norm": 0.0007907668477855623,
+      "learning_rate": 4.592394317210413e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232079728,
+      "step": 107430
+    },
+    {
+      "epoch": 17.526101141924958,
+      "grad_norm": 0.02364833652973175,
+      "learning_rate": 4.589414902789662e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 232090800,
+      "step": 107435
+    },
+    {
+      "epoch": 17.526916802610113,
+      "grad_norm": 0.0035746158100664616,
+      "learning_rate": 4.586436408672023e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 232101360,
+      "step": 107440
+    },
+    {
+      "epoch": 17.52773246329527,
+      "grad_norm": 0.19809827208518982,
+      "learning_rate": 4.583458834917864e-05,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 232112336,
+      "step": 107445
+    },
+    {
+      "epoch": 17.528548123980425,
+      "grad_norm": 0.14923065900802612,
+      "learning_rate": 4.580482181587531e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 232123152,
+      "step": 107450
+    },
+    {
+      "epoch": 17.52936378466558,
+      "grad_norm": 0.7618481516838074,
+      "learning_rate": 4.5775064487413424e-05,
+      "loss": 0.0509,
+      "num_input_tokens_seen": 232133328,
+      "step": 107455
+    },
+    {
+      "epoch": 17.530179445350733,
+      "grad_norm": 0.003851557383313775,
+      "learning_rate": 4.574531636439605e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 232143824,
+      "step": 107460
+    },
+    {
+      "epoch": 17.53099510603589,
+      "grad_norm": 0.007336875889450312,
+      "learning_rate": 4.57155774474261e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 232156080,
+      "step": 107465
+    },
+    {
+      "epoch": 17.531810766721044,
+      "grad_norm": 0.002769289305433631,
+      "learning_rate": 4.568584773710632e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 232165968,
+      "step": 107470
+    },
+    {
+      "epoch": 17.5326264274062,
+      "grad_norm": 0.1800115555524826,
+      "learning_rate": 4.565612723403911e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 232176752,
+      "step": 107475
+    },
+    {
+      "epoch": 17.533442088091356,
+      "grad_norm": 0.0010139649966731668,
+      "learning_rate": 4.562641593882694e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232187856,
+      "step": 107480
+    },
+    {
+      "epoch": 17.534257748776508,
+      "grad_norm": 0.0031493548303842545,
+      "learning_rate": 4.5596713852071816e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 232199696,
+      "step": 107485
+    },
+    {
+      "epoch": 17.535073409461663,
+      "grad_norm": 0.31990453600883484,
+      "learning_rate": 4.556702097437576e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 232210832,
+      "step": 107490
+    },
+    {
+      "epoch": 17.53588907014682,
+      "grad_norm": 0.005481668282300234,
+      "learning_rate": 4.5537337306340466e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 232222000,
+      "step": 107495
+    },
+    {
+      "epoch": 17.536704730831975,
+      "grad_norm": 0.00037945323856547475,
+      "learning_rate": 4.550766284856761e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 232233584,
+      "step": 107500
+    },
+    {
+      "epoch": 17.53752039151713,
+      "grad_norm": 0.013014235533773899,
+      "learning_rate": 4.5477997601658384e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 232244464,
+      "step": 107505
+    },
+    {
+      "epoch": 17.538336052202283,
+      "grad_norm": 0.0016114584868773818,
+      "learning_rate": 4.5448341566214354e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 232255184,
+      "step": 107510
+    },
+    {
+      "epoch": 17.53915171288744,
+      "grad_norm": 0.001107938471250236,
+      "learning_rate": 4.541869474283616e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 232266896,
+      "step": 107515
+    },
+    {
+      "epoch": 17.539967373572594,
+      "grad_norm": 0.04263180494308472,
+      "learning_rate": 4.538905713212488e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 232276816,
+      "step": 107520
+    },
+    {
+      "epoch": 17.54078303425775,
+      "grad_norm": 0.0007417293963953853,
+      "learning_rate": 4.535942873468102e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 232287664,
+      "step": 107525
+    },
+    {
+      "epoch": 17.541598694942905,
+      "grad_norm": 0.0029360156040638685,
+      "learning_rate": 4.532980955110516e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 232298512,
+      "step": 107530
+    },
+    {
+      "epoch": 17.542414355628058,
+      "grad_norm": 0.009608111344277859,
+      "learning_rate": 4.530019958199744e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 232309520,
+      "step": 107535
+    },
+    {
+      "epoch": 17.543230016313213,
+      "grad_norm": 0.006099861580878496,
+      "learning_rate": 4.527059882795803e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 232320272,
+      "step": 107540
+    },
+    {
+      "epoch": 17.54404567699837,
+      "grad_norm": 0.002252019476145506,
+      "learning_rate": 4.52410072895868e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 232329808,
+      "step": 107545
+    },
+    {
+      "epoch": 17.544861337683525,
+      "grad_norm": 0.09089305996894836,
+      "learning_rate": 4.521142496748348e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 232340592,
+      "step": 107550
+    },
+    {
+      "epoch": 17.545676998368677,
+      "grad_norm": 0.03456374630331993,
+      "learning_rate": 4.5181851862247544e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 232350960,
+      "step": 107555
+    },
+    {
+      "epoch": 17.546492659053833,
+      "grad_norm": 0.0005953084328211844,
+      "learning_rate": 4.51522879744784e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 232362416,
+      "step": 107560
+    },
+    {
+      "epoch": 17.54730831973899,
+      "grad_norm": 0.00016484300431329757,
+      "learning_rate": 4.5122733304775124e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 232373168,
+      "step": 107565
+    },
+    {
+      "epoch": 17.548123980424144,
+      "grad_norm": 0.012281266041100025,
+      "learning_rate": 4.509318785373667e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 232382352,
+      "step": 107570
+    },
+    {
+      "epoch": 17.5489396411093,
+      "grad_norm": 0.002700270852074027,
+      "learning_rate": 4.506365162196191e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 232392304,
+      "step": 107575
+    },
+    {
+      "epoch": 17.549755301794452,
+      "grad_norm": 0.00035837123868986964,
+      "learning_rate": 4.503412461004935e-05,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 232403152,
+      "step": 107580
+    },
+    {
+      "epoch": 17.550570962479608,
+      "grad_norm": 0.0021404859144240618,
+      "learning_rate": 4.500460681859742e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 232414960,
+      "step": 107585
+    },
+    {
+      "epoch": 17.551386623164763,
+      "grad_norm": 0.00026893772883340716,
+      "learning_rate": 4.4975098248204394e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 232425904,
+      "step": 107590
+    },
+    {
+      "epoch": 17.55220228384992,
+      "grad_norm": 0.6711235046386719,
+      "learning_rate": 4.494559889946814e-05,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 232437328,
+      "step": 107595
+    },
+    {
+      "epoch": 17.553017944535075,
+      "grad_norm": 0.00047256724792532623,
+      "learning_rate": 4.4916108772986686e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 232448720,
+      "step": 107600
+    },
+    {
+      "epoch": 17.553833605220227,
+      "grad_norm": 0.0007653324282728136,
+      "learning_rate": 4.48866278693576e-05,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 232459184,
+      "step": 107605
+    },
+    {
+      "epoch": 17.554649265905383,
+      "grad_norm": 0.0006618410698138177,
+      "learning_rate": 4.485715618917818e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 232468880,
+      "step": 107610
+    },
+    {
+      "epoch": 17.55546492659054,
+      "grad_norm": 0.001561740762554109,
+      "learning_rate": 4.482769373304613e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 232479312,
+      "step": 107615
+    },
+    {
+      "epoch": 17.556280587275694,
+      "grad_norm": 0.7048082947731018,
+      "learning_rate": 4.4798240501558115e-05,
+      "loss": 0.0768,
+      "num_input_tokens_seen": 232489712,
+      "step": 107620
+    },
+    {
+      "epoch": 17.55709624796085,
+      "grad_norm": 0.05319645628333092,
+      "learning_rate": 4.4768796495311406e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 232500368,
+      "step": 107625
+    },
+    {
+      "epoch": 17.557911908646002,
+      "grad_norm": 0.0017085699364542961,
+      "learning_rate": 4.473936171490228e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 232509616,
+      "step": 107630
+    },
+    {
+      "epoch": 17.558727569331158,
+      "grad_norm": 0.2203325629234314,
+      "learning_rate": 4.470993616092778e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 232521072,
+      "step": 107635
+    },
+    {
+      "epoch": 17.559543230016313,
+      "grad_norm": 0.014941530302166939,
+      "learning_rate": 4.46805198339838e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 232531984,
+      "step": 107640
+    },
+    {
+      "epoch": 17.56035889070147,
+      "grad_norm": 0.002396009163931012,
+      "learning_rate": 4.4651112734666874e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232543728,
+      "step": 107645
+    },
+    {
+      "epoch": 17.561174551386625,
+      "grad_norm": 0.010223069228231907,
+      "learning_rate": 4.462171486357264e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 232553456,
+      "step": 107650
+    },
+    {
+      "epoch": 17.561990212071777,
+      "grad_norm": 0.00022783187159802765,
+      "learning_rate": 4.459232622129722e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 232564432,
+      "step": 107655
+    },
+    {
+      "epoch": 17.562805872756933,
+      "grad_norm": 0.001957368105649948,
+      "learning_rate": 4.4562946808435864e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 232574992,
+      "step": 107660
+    },
+    {
+      "epoch": 17.563621533442088,
+      "grad_norm": 1.1116943359375,
+      "learning_rate": 4.453357662558422e-05,
+      "loss": 0.1027,
+      "num_input_tokens_seen": 232585392,
+      "step": 107665
+    },
+    {
+      "epoch": 17.564437194127244,
+      "grad_norm": 0.0035373906139284372,
+      "learning_rate": 4.450421567333746e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 232596528,
+      "step": 107670
+    },
+    {
+      "epoch": 17.5652528548124,
+      "grad_norm": 0.004156868439167738,
+      "learning_rate": 4.447486395229061e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 232607344,
+      "step": 107675
+    },
+    {
+      "epoch": 17.56606851549755,
+      "grad_norm": 0.004597888793796301,
+      "learning_rate": 4.4445521463038486e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232617584,
+      "step": 107680
+    },
+    {
+      "epoch": 17.566884176182707,
+      "grad_norm": 0.005564799532294273,
+      "learning_rate": 4.441618820617582e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 232628592,
+      "step": 107685
+    },
+    {
+      "epoch": 17.567699836867863,
+      "grad_norm": 0.014463113620877266,
+      "learning_rate": 4.438686418229698e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 232640080,
+      "step": 107690
+    },
+    {
+      "epoch": 17.56851549755302,
+      "grad_norm": 0.007256032433360815,
+      "learning_rate": 4.4357549391996376e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 232651920,
+      "step": 107695
+    },
+    {
+      "epoch": 17.569331158238175,
+      "grad_norm": 0.008663265034556389,
+      "learning_rate": 4.432824383586809e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 232663600,
+      "step": 107700
+    },
+    {
+      "epoch": 17.570146818923327,
+      "grad_norm": 0.04024729132652283,
+      "learning_rate": 4.429894751450597e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 232673808,
+      "step": 107705
+    },
+    {
+      "epoch": 17.570962479608482,
+      "grad_norm": 0.11653250455856323,
+      "learning_rate": 4.4269660428503774e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 232684816,
+      "step": 107710
+    },
+    {
+      "epoch": 17.571778140293638,
+      "grad_norm": 0.002741542411968112,
+      "learning_rate": 4.4240382578454915e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232695728,
+      "step": 107715
+    },
+    {
+      "epoch": 17.572593800978794,
+      "grad_norm": 0.2372535616159439,
+      "learning_rate": 4.4211113964953144e-05,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 232705840,
+      "step": 107720
+    },
+    {
+      "epoch": 17.57340946166395,
+      "grad_norm": 0.0019646419677883387,
+      "learning_rate": 4.4181854588591085e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 232716720,
+      "step": 107725
+    },
+    {
+      "epoch": 17.5742251223491,
+      "grad_norm": 0.0009456843254156411,
+      "learning_rate": 4.415260444996222e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 232728944,
+      "step": 107730
+    },
+    {
+      "epoch": 17.575040783034257,
+      "grad_norm": 0.004937485791742802,
+      "learning_rate": 4.4123363549658955e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 232738576,
+      "step": 107735
+    },
+    {
+      "epoch": 17.575856443719413,
+      "grad_norm": 0.0002907993330154568,
+      "learning_rate": 4.409413188827416e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 232749616,
+      "step": 107740
+    },
+    {
+      "epoch": 17.57667210440457,
+      "grad_norm": 0.006005709525197744,
+      "learning_rate": 4.4064909466400014e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 232760496,
+      "step": 107745
+    },
+    {
+      "epoch": 17.57748776508972,
+      "grad_norm": 0.007954063825309277,
+      "learning_rate": 4.4035696284629e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 232771632,
+      "step": 107750
+    },
+    {
+      "epoch": 17.578303425774877,
+      "grad_norm": 0.0007008819957263768,
+      "learning_rate": 4.4006492343552915e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 232781936,
+      "step": 107755
+    },
+    {
+      "epoch": 17.579119086460032,
+      "grad_norm": 0.004294464364647865,
+      "learning_rate": 4.39772976437639e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 232793040,
+      "step": 107760
+    },
+    {
+      "epoch": 17.579934747145188,
+      "grad_norm": 0.0009277364588342607,
+      "learning_rate": 4.394811218585326e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 232803216,
+      "step": 107765
+    },
+    {
+      "epoch": 17.580750407830344,
+      "grad_norm": 0.022793620824813843,
+      "learning_rate": 4.3918935970412796e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 232814544,
+      "step": 107770
+    },
+    {
+      "epoch": 17.581566068515496,
+      "grad_norm": 0.01750621385872364,
+      "learning_rate": 4.38897689980336e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 232825872,
+      "step": 107775
+    },
+    {
+      "epoch": 17.58238172920065,
+      "grad_norm": 0.00042929017217829823,
+      "learning_rate": 4.386061126930696e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 232837136,
+      "step": 107780
+    },
+    {
+      "epoch": 17.583197389885807,
+      "grad_norm": 0.0012211805442348123,
+      "learning_rate": 4.3831462784823525e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 232848208,
+      "step": 107785
+    },
+    {
+      "epoch": 17.584013050570963,
+      "grad_norm": 0.07960768789052963,
+      "learning_rate": 4.380232354517433e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 232859248,
+      "step": 107790
+    },
+    {
+      "epoch": 17.58482871125612,
+      "grad_norm": 0.0004789176455233246,
+      "learning_rate": 4.3773193550949664e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232870224,
+      "step": 107795
+    },
+    {
+      "epoch": 17.58564437194127,
+      "grad_norm": 0.038380883634090424,
+      "learning_rate": 4.374407280274007e-05,
+      "loss": 0.0748,
+      "num_input_tokens_seen": 232880464,
+      "step": 107800
+    },
+    {
+      "epoch": 17.586460032626427,
+      "grad_norm": 0.007192968390882015,
+      "learning_rate": 4.371496130113561e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 232889936,
+      "step": 107805
+    },
+    {
+      "epoch": 17.587275693311582,
+      "grad_norm": 0.0016420006286352873,
+      "learning_rate": 4.3685859046726284e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 232900752,
+      "step": 107810
+    },
+    {
+      "epoch": 17.588091353996738,
+      "grad_norm": 0.0026500627864152193,
+      "learning_rate": 4.3656766040101933e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 232911600,
+      "step": 107815
+    },
+    {
+      "epoch": 17.588907014681894,
+      "grad_norm": 0.0004607281007338315,
+      "learning_rate": 4.362768228185216e-05,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 232922352,
+      "step": 107820
+    },
+    {
+      "epoch": 17.589722675367046,
+      "grad_norm": 0.01853001117706299,
+      "learning_rate": 4.35986077725663e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 232931920,
+      "step": 107825
+    },
+    {
+      "epoch": 17.5905383360522,
+      "grad_norm": 0.0008818014757707715,
+      "learning_rate": 4.3569542512833684e-05,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 232942160,
+      "step": 107830
+    },
+    {
+      "epoch": 17.591353996737357,
+      "grad_norm": 0.005279912613332272,
+      "learning_rate": 4.354048650324327e-05,
+      "loss": 0.0793,
+      "num_input_tokens_seen": 232953424,
+      "step": 107835
+    },
+    {
+      "epoch": 17.592169657422513,
+      "grad_norm": 0.001021630479954183,
+      "learning_rate": 4.3511439744383984e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232964240,
+      "step": 107840
+    },
+    {
+      "epoch": 17.59298531810767,
+      "grad_norm": 0.002027069916948676,
+      "learning_rate": 4.348240223684447e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 232974576,
+      "step": 107845
+    },
+    {
+      "epoch": 17.59380097879282,
+      "grad_norm": 0.0007032614084891975,
+      "learning_rate": 4.3453373981213184e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 232986032,
+      "step": 107850
+    },
+    {
+      "epoch": 17.594616639477977,
+      "grad_norm": 0.002503114752471447,
+      "learning_rate": 4.342435497807845e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 232997104,
+      "step": 107855
+    },
+    {
+      "epoch": 17.595432300163132,
+      "grad_norm": 0.0064894710667431355,
+      "learning_rate": 4.3395345228028294e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 233008208,
+      "step": 107860
+    },
+    {
+      "epoch": 17.596247960848288,
+      "grad_norm": 0.000594555342104286,
+      "learning_rate": 4.336634473165091e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 233019888,
+      "step": 107865
+    },
+    {
+      "epoch": 17.597063621533444,
+      "grad_norm": 0.5004954934120178,
+      "learning_rate": 4.3337353489533606e-05,
+      "loss": 0.0346,
+      "num_input_tokens_seen": 233029872,
+      "step": 107870
+    },
+    {
+      "epoch": 17.597879282218596,
+      "grad_norm": 0.00310205458663404,
+      "learning_rate": 4.3308371502264355e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 233041136,
+      "step": 107875
+    },
+    {
+      "epoch": 17.59869494290375,
+      "grad_norm": 0.010869835503399372,
+      "learning_rate": 4.327939877043013e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 233051216,
+      "step": 107880
+    },
+    {
+      "epoch": 17.599510603588907,
+      "grad_norm": 0.8642117977142334,
+      "learning_rate": 4.3250435294618473e-05,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 233062064,
+      "step": 107885
+    },
+    {
+      "epoch": 17.600326264274063,
+      "grad_norm": 0.0018593736458569765,
+      "learning_rate": 4.322148107541596e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 233072208,
+      "step": 107890
+    },
+    {
+      "epoch": 17.601141924959215,
+      "grad_norm": 0.008606432005763054,
+      "learning_rate": 4.3192536113409785e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 233082224,
+      "step": 107895
+    },
+    {
+      "epoch": 17.60195758564437,
+      "grad_norm": 0.006274912506341934,
+      "learning_rate": 4.316360040918621e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 233092944,
+      "step": 107900
+    },
+    {
+      "epoch": 17.602773246329527,
+      "grad_norm": 0.0020932599436491728,
+      "learning_rate": 4.3134673963331985e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 233102576,
+      "step": 107905
+    },
+    {
+      "epoch": 17.603588907014682,
+      "grad_norm": 0.0031999878119677305,
+      "learning_rate": 4.310575677643297e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 233112944,
+      "step": 107910
+    },
+    {
+      "epoch": 17.604404567699838,
+      "grad_norm": 0.050068553537130356,
+      "learning_rate": 4.307684884907559e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 233123536,
+      "step": 107915
+    },
+    {
+      "epoch": 17.605220228384994,
+      "grad_norm": 0.0012258957140147686,
+      "learning_rate": 4.304795018184537e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 233133744,
+      "step": 107920
+    },
+    {
+      "epoch": 17.606035889070146,
+      "grad_norm": 0.02541196160018444,
+      "learning_rate": 4.3019060775328186e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 233144720,
+      "step": 107925
+    },
+    {
+      "epoch": 17.6068515497553,
+      "grad_norm": 0.004853926599025726,
+      "learning_rate": 4.2990180630109455e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 233154576,
+      "step": 107930
+    },
+    {
+      "epoch": 17.607667210440457,
+      "grad_norm": 0.012128345668315887,
+      "learning_rate": 4.296130974677448e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 233164976,
+      "step": 107935
+    },
+    {
+      "epoch": 17.608482871125613,
+      "grad_norm": 0.006950197741389275,
+      "learning_rate": 4.293244812590835e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 233176528,
+      "step": 107940
+    },
+    {
+      "epoch": 17.609298531810765,
+      "grad_norm": 0.0022767765913158655,
+      "learning_rate": 4.2903595768095995e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 233187248,
+      "step": 107945
+    },
+    {
+      "epoch": 17.61011419249592,
+      "grad_norm": 0.0008330377168022096,
+      "learning_rate": 4.28747526739221e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 233197136,
+      "step": 107950
+    },
+    {
+      "epoch": 17.610929853181077,
+      "grad_norm": 0.00958797987550497,
+      "learning_rate": 4.284591884397132e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 233208720,
+      "step": 107955
+    },
+    {
+      "epoch": 17.611745513866232,
+      "grad_norm": 0.024692602455615997,
+      "learning_rate": 4.281709427882791e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 233218704,
+      "step": 107960
+    },
+    {
+      "epoch": 17.612561174551388,
+      "grad_norm": 0.017007293179631233,
+      "learning_rate": 4.2788278979076003e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 233229616,
+      "step": 107965
+    },
+    {
+      "epoch": 17.61337683523654,
+      "grad_norm": 0.0005782050429843366,
+      "learning_rate": 4.275947294529969e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 233240080,
+      "step": 107970
+    },
+    {
+      "epoch": 17.614192495921696,
+      "grad_norm": 0.0035270596854388714,
+      "learning_rate": 4.2730676178082736e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 233250480,
+      "step": 107975
+    },
+    {
+      "epoch": 17.61500815660685,
+      "grad_norm": 0.0002987095504067838,
+      "learning_rate": 4.2701888678008674e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 233261456,
+      "step": 107980
+    },
+    {
+      "epoch": 17.615823817292007,
+      "grad_norm": 0.004291311372071505,
+      "learning_rate": 4.267311044566097e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 233272144,
+      "step": 107985
+    },
+    {
+      "epoch": 17.616639477977163,
+      "grad_norm": 0.001111071789637208,
+      "learning_rate": 4.2644341481622825e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 233281200,
+      "step": 107990
+    },
+    {
+      "epoch": 17.617455138662315,
+      "grad_norm": 0.0010424138745293021,
+      "learning_rate": 4.2615581786477234e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 233291888,
+      "step": 107995
+    },
+    {
+      "epoch": 17.61827079934747,
+      "grad_norm": 0.0060048531740903854,
+      "learning_rate": 4.2586831360807265e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 233302704,
+      "step": 108000
+    },
+    {
+      "epoch": 17.619086460032626,
+      "grad_norm": 0.011316410265862942,
+      "learning_rate": 4.25580902051953e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 233314192,
+      "step": 108005
+    },
+    {
+      "epoch": 17.619902120717782,
+      "grad_norm": 0.08108188211917877,
+      "learning_rate": 4.252935832022409e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 233322992,
+      "step": 108010
+    },
+    {
+      "epoch": 17.620717781402938,
+      "grad_norm": 0.0003150638658553362,
+      "learning_rate": 4.250063570647561e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 233334352,
+      "step": 108015
+    },
+    {
+      "epoch": 17.62153344208809,
+      "grad_norm": 0.008647634647786617,
+      "learning_rate": 4.247192236453229e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 233344784,
+      "step": 108020
+    },
+    {
+      "epoch": 17.622349102773246,
+      "grad_norm": 0.015910470858216286,
+      "learning_rate": 4.244321829497566e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 233356080,
+      "step": 108025
+    },
+    {
+      "epoch": 17.6231647634584,
+      "grad_norm": 0.001022401382215321,
+      "learning_rate": 4.2414523498387926e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 233367440,
+      "step": 108030
+    },
+    {
+      "epoch": 17.623980424143557,
+      "grad_norm": 0.0027995568234473467,
+      "learning_rate": 4.2385837975350115e-05,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 233378640,
+      "step": 108035
+    },
+    {
+      "epoch": 17.624796084828713,
+      "grad_norm": 0.013003799133002758,
+      "learning_rate": 4.235716172644394e-05,
+      "loss": 0.0843,
+      "num_input_tokens_seen": 233388112,
+      "step": 108040
+    },
+    {
+      "epoch": 17.625611745513865,
+      "grad_norm": 0.002790980041027069,
+      "learning_rate": 4.232849475225048e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 233398992,
+      "step": 108045
+    },
+    {
+      "epoch": 17.62642740619902,
+      "grad_norm": 0.0019258302636444569,
+      "learning_rate": 4.2299837053350606e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 233409072,
+      "step": 108050
+    },
+    {
+      "epoch": 17.627243066884176,
+      "grad_norm": 0.002759368624538183,
+      "learning_rate": 4.2271188630325195e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 233419664,
+      "step": 108055
+    },
+    {
+      "epoch": 17.628058727569332,
+      "grad_norm": 0.0022524246014654636,
+      "learning_rate": 4.2242549483754836e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 233430480,
+      "step": 108060
+    },
+    {
+      "epoch": 17.628874388254488,
+      "grad_norm": 0.003963864874094725,
+      "learning_rate": 4.221391961421989e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 233440400,
+      "step": 108065
+    },
+    {
+      "epoch": 17.62969004893964,
+      "grad_norm": 0.00029403064399957657,
+      "learning_rate": 4.218529902230062e-05,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 233450896,
+      "step": 108070
+    },
+    {
+      "epoch": 17.630505709624796,
+      "grad_norm": 0.003268659580498934,
+      "learning_rate": 4.2156687708577e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 233460048,
+      "step": 108075
+    },
+    {
+      "epoch": 17.63132137030995,
+      "grad_norm": 0.0030870982445776463,
+      "learning_rate": 4.212808567362897e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 233471568,
+      "step": 108080
+    },
+    {
+      "epoch": 17.632137030995107,
+      "grad_norm": 0.031759873032569885,
+      "learning_rate": 4.209949291803611e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 233481904,
+      "step": 108085
+    },
+    {
+      "epoch": 17.63295269168026,
+      "grad_norm": 0.0062539586797356606,
+      "learning_rate": 4.207090944237796e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 233491408,
+      "step": 108090
+    },
+    {
+      "epoch": 17.633768352365415,
+      "grad_norm": 0.010095684789121151,
+      "learning_rate": 4.204233524723372e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 233501168,
+      "step": 108095
+    },
+    {
+      "epoch": 17.63458401305057,
+      "grad_norm": 0.0003338803071528673,
+      "learning_rate": 4.201377033318249e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 233512336,
+      "step": 108100
+    },
+    {
+      "epoch": 17.635399673735726,
+      "grad_norm": 0.05965923145413399,
+      "learning_rate": 4.198521470080324e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 233522256,
+      "step": 108105
+    },
+    {
+      "epoch": 17.636215334420882,
+      "grad_norm": 0.0004708467167802155,
+      "learning_rate": 4.195666835067463e-05,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 233531824,
+      "step": 108110
+    },
+    {
+      "epoch": 17.637030995106034,
+      "grad_norm": 0.1438266485929489,
+      "learning_rate": 4.1928131283375246e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 233544368,
+      "step": 108115
+    },
+    {
+      "epoch": 17.63784665579119,
+      "grad_norm": 0.0019570267759263515,
+      "learning_rate": 4.189960349948335e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 233555440,
+      "step": 108120
+    },
+    {
+      "epoch": 17.638662316476346,
+      "grad_norm": 0.002199590904638171,
+      "learning_rate": 4.1871084999577146e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 233565840,
+      "step": 108125
+    },
+    {
+      "epoch": 17.6394779771615,
+      "grad_norm": 0.013834419660270214,
+      "learning_rate": 4.184257578423456e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 233575856,
+      "step": 108130
+    },
+    {
+      "epoch": 17.640293637846657,
+      "grad_norm": 0.0027103605680167675,
+      "learning_rate": 4.1814075854033405e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 233588624,
+      "step": 108135
+    },
+    {
+      "epoch": 17.64110929853181,
+      "grad_norm": 0.0007338287541642785,
+      "learning_rate": 4.178558520955117e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 233599696,
+      "step": 108140
+    },
+    {
+      "epoch": 17.641924959216965,
+      "grad_norm": 0.004689326509833336,
+      "learning_rate": 4.175710385136539e-05,
+      "loss": 0.0329,
+      "num_input_tokens_seen": 233610928,
+      "step": 108145
+    },
+    {
+      "epoch": 17.64274061990212,
+      "grad_norm": 0.0011317178141325712,
+      "learning_rate": 4.172863178005326e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 233622160,
+      "step": 108150
+    },
+    {
+      "epoch": 17.643556280587276,
+      "grad_norm": 0.0009731571190059185,
+      "learning_rate": 4.1700168996191726e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 233632208,
+      "step": 108155
+    },
+    {
+      "epoch": 17.644371941272432,
+      "grad_norm": 0.0007394000422209501,
+      "learning_rate": 4.16717155003577e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 233642480,
+      "step": 108160
+    },
+    {
+      "epoch": 17.645187601957584,
+      "grad_norm": 0.00035144094727002084,
+      "learning_rate": 4.164327129312778e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 233653680,
+      "step": 108165
+    },
+    {
+      "epoch": 17.64600326264274,
+      "grad_norm": 0.004731602966785431,
+      "learning_rate": 4.161483637507846e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 233665712,
+      "step": 108170
+    },
+    {
+      "epoch": 17.646818923327896,
+      "grad_norm": 0.023019464686512947,
+      "learning_rate": 4.1586410746785927e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 233674896,
+      "step": 108175
+    },
+    {
+      "epoch": 17.64763458401305,
+      "grad_norm": 0.0024400795809924603,
+      "learning_rate": 4.155799440882635e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 233685424,
+      "step": 108180
+    },
+    {
+      "epoch": 17.648450244698207,
+      "grad_norm": 0.005999886896461248,
+      "learning_rate": 4.152958736177559e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 233696688,
+      "step": 108185
+    },
+    {
+      "epoch": 17.64926590538336,
+      "grad_norm": 0.0010004190262407064,
+      "learning_rate": 4.1501189606209356e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 233708304,
+      "step": 108190
+    },
+    {
+      "epoch": 17.650081566068515,
+      "grad_norm": 0.007027873769402504,
+      "learning_rate": 4.147280114270319e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 233720304,
+      "step": 108195
+    },
+    {
+      "epoch": 17.65089722675367,
+      "grad_norm": 0.007540034130215645,
+      "learning_rate": 4.1444421971832346e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 233729328,
+      "step": 108200
+    },
+    {
+      "epoch": 17.651712887438826,
+      "grad_norm": 0.004675657954066992,
+      "learning_rate": 4.1416052094171985e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 233739408,
+      "step": 108205
+    },
+    {
+      "epoch": 17.652528548123982,
+      "grad_norm": 0.0004989549051970243,
+      "learning_rate": 4.1387691510297146e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 233750544,
+      "step": 108210
+    },
+    {
+      "epoch": 17.653344208809134,
+      "grad_norm": 0.00018444911984261125,
+      "learning_rate": 4.1359340220782524e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 233761328,
+      "step": 108215
+    },
+    {
+      "epoch": 17.65415986949429,
+      "grad_norm": 0.004228262230753899,
+      "learning_rate": 4.133099822620268e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 233772176,
+      "step": 108220
+    },
+    {
+      "epoch": 17.654975530179446,
+      "grad_norm": 0.002176476875320077,
+      "learning_rate": 4.130266552713202e-05,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 233782992,
+      "step": 108225
+    },
+    {
+      "epoch": 17.6557911908646,
+      "grad_norm": 0.0019155082991346717,
+      "learning_rate": 4.1274342124144713e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 233793936,
+      "step": 108230
+    },
+    {
+      "epoch": 17.656606851549757,
+      "grad_norm": 0.002272221725434065,
+      "learning_rate": 4.124602801781485e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 233804336,
+      "step": 108235
+    },
+    {
+      "epoch": 17.65742251223491,
+      "grad_norm": 0.0009390924824401736,
+      "learning_rate": 4.1217723208716196e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 233816304,
+      "step": 108240
+    },
+    {
+      "epoch": 17.658238172920065,
+      "grad_norm": 0.00035862938966602087,
+      "learning_rate": 4.118942769742234e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 233826864,
+      "step": 108245
+    },
+    {
+      "epoch": 17.65905383360522,
+      "grad_norm": 0.6004579663276672,
+      "learning_rate": 4.116114148450673e-05,
+      "loss": 0.031,
+      "num_input_tokens_seen": 233838288,
+      "step": 108250
+    },
+    {
+      "epoch": 17.659869494290376,
+      "grad_norm": 0.0022010619286447763,
+      "learning_rate": 4.113286457054283e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 233848784,
+      "step": 108255
+    },
+    {
+      "epoch": 17.660685154975532,
+      "grad_norm": 0.0006814883090555668,
+      "learning_rate": 4.1104596956103356e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 233859472,
+      "step": 108260
+    },
+    {
+      "epoch": 17.661500815660684,
+      "grad_norm": 0.06318142265081406,
+      "learning_rate": 4.107633864176158e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 233871280,
+      "step": 108265
+    },
+    {
+      "epoch": 17.66231647634584,
+      "grad_norm": 0.022026631981134415,
+      "learning_rate": 4.104808962808976e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 233882160,
+      "step": 108270
+    },
+    {
+      "epoch": 17.663132137030995,
+      "grad_norm": 0.01632312871515751,
+      "learning_rate": 4.101984991566082e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 233892816,
+      "step": 108275
+    },
+    {
+      "epoch": 17.66394779771615,
+      "grad_norm": 0.00041980453534051776,
+      "learning_rate": 4.0991619505046764e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 233903984,
+      "step": 108280
+    },
+    {
+      "epoch": 17.664763458401303,
+      "grad_norm": 0.0003276610223110765,
+      "learning_rate": 4.096339839681984e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 233914096,
+      "step": 108285
+    },
+    {
+      "epoch": 17.66557911908646,
+      "grad_norm": 0.021783655509352684,
+      "learning_rate": 4.0935186591552044e-05,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 233925392,
+      "step": 108290
+    },
+    {
+      "epoch": 17.666394779771615,
+      "grad_norm": 0.0006872511585243046,
+      "learning_rate": 4.0906984089815026e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 233935888,
+      "step": 108295
+    },
+    {
+      "epoch": 17.66721044045677,
+      "grad_norm": 0.03984300047159195,
+      "learning_rate": 4.087879089218033e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 233946672,
+      "step": 108300
+    },
+    {
+      "epoch": 17.668026101141926,
+      "grad_norm": 0.0005269440589472651,
+      "learning_rate": 4.085060699921944e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 233958256,
+      "step": 108305
+    },
+    {
+      "epoch": 17.66884176182708,
+      "grad_norm": 0.0010156655916944146,
+      "learning_rate": 4.0822432411503464e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 233969520,
+      "step": 108310
+    },
+    {
+      "epoch": 17.669657422512234,
+      "grad_norm": 0.0011098864488303661,
+      "learning_rate": 4.079426712960338e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 233979632,
+      "step": 108315
+    },
+    {
+      "epoch": 17.67047308319739,
+      "grad_norm": 0.006729105953127146,
+      "learning_rate": 4.076611115409001e-05,
+      "loss": 0.0247,
+      "num_input_tokens_seen": 233990416,
+      "step": 108320
+    },
+    {
+      "epoch": 17.671288743882545,
+      "grad_norm": 0.014925811439752579,
+      "learning_rate": 4.073796448553402e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 234000624,
+      "step": 108325
+    },
+    {
+      "epoch": 17.6721044045677,
+      "grad_norm": 0.0018322813557460904,
+      "learning_rate": 4.070982712450571e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 234010928,
+      "step": 108330
+    },
+    {
+      "epoch": 17.672920065252853,
+      "grad_norm": 0.0005330965504981577,
+      "learning_rate": 4.068169907157548e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 234021776,
+      "step": 108335
+    },
+    {
+      "epoch": 17.67373572593801,
+      "grad_norm": 1.1490570306777954,
+      "learning_rate": 4.065358032731331e-05,
+      "loss": 0.2548,
+      "num_input_tokens_seen": 234033168,
+      "step": 108340
+    },
+    {
+      "epoch": 17.674551386623165,
+      "grad_norm": 0.0013266679598018527,
+      "learning_rate": 4.062547089228902e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 234044368,
+      "step": 108345
+    },
+    {
+      "epoch": 17.67536704730832,
+      "grad_norm": 0.0019488186808302999,
+      "learning_rate": 4.0597370767072315e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 234054544,
+      "step": 108350
+    },
+    {
+      "epoch": 17.676182707993476,
+      "grad_norm": 0.002594847697764635,
+      "learning_rate": 4.056927995223264e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 234065808,
+      "step": 108355
+    },
+    {
+      "epoch": 17.67699836867863,
+      "grad_norm": 0.04415489733219147,
+      "learning_rate": 4.054119844833948e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 234075920,
+      "step": 108360
+    },
+    {
+      "epoch": 17.677814029363784,
+      "grad_norm": 0.008037679828703403,
+      "learning_rate": 4.0513126255961594e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 234086608,
+      "step": 108365
+    },
+    {
+      "epoch": 17.67862969004894,
+      "grad_norm": 0.005952348466962576,
+      "learning_rate": 4.0485063375668316e-05,
+      "loss": 0.1419,
+      "num_input_tokens_seen": 234096560,
+      "step": 108370
+    },
+    {
+      "epoch": 17.679445350734095,
+      "grad_norm": 0.0006694883340969682,
+      "learning_rate": 4.045700980802802e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 234108528,
+      "step": 108375
+    },
+    {
+      "epoch": 17.68026101141925,
+      "grad_norm": 0.00230517890304327,
+      "learning_rate": 4.042896555360953e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 234118416,
+      "step": 108380
+    },
+    {
+      "epoch": 17.681076672104403,
+      "grad_norm": 0.05230387672781944,
+      "learning_rate": 4.040093061298089e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 234128688,
+      "step": 108385
+    },
+    {
+      "epoch": 17.68189233278956,
+      "grad_norm": 0.005648719146847725,
+      "learning_rate": 4.037290498671059e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 234139376,
+      "step": 108390
+    },
+    {
+      "epoch": 17.682707993474715,
+      "grad_norm": 0.035768892616033554,
+      "learning_rate": 4.0344888675366285e-05,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 234149232,
+      "step": 108395
+    },
+    {
+      "epoch": 17.68352365415987,
+      "grad_norm": 0.010486296378076077,
+      "learning_rate": 4.031688167951614e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 234159248,
+      "step": 108400
+    },
+    {
+      "epoch": 17.684339314845026,
+      "grad_norm": 0.0009895983384922147,
+      "learning_rate": 4.02888839997273e-05,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 234168208,
+      "step": 108405
+    },
+    {
+      "epoch": 17.68515497553018,
+      "grad_norm": 0.007241661660373211,
+      "learning_rate": 4.0260895636567654e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 234178768,
+      "step": 108410
+    },
+    {
+      "epoch": 17.685970636215334,
+      "grad_norm": 0.006733461283147335,
+      "learning_rate": 4.0232916590603964e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 234190096,
+      "step": 108415
+    },
+    {
+      "epoch": 17.68678629690049,
+      "grad_norm": 0.017089251428842545,
+      "learning_rate": 4.020494686240361e-05,
+      "loss": 0.122,
+      "num_input_tokens_seen": 234200592,
+      "step": 108420
+    },
+    {
+      "epoch": 17.687601957585645,
+      "grad_norm": 0.15010204911231995,
+      "learning_rate": 4.017698645253321e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 234211120,
+      "step": 108425
+    },
+    {
+      "epoch": 17.6884176182708,
+      "grad_norm": 0.05645974352955818,
+      "learning_rate": 4.0149035361559504e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 234222576,
+      "step": 108430
+    },
+    {
+      "epoch": 17.689233278955953,
+      "grad_norm": 0.006962623447179794,
+      "learning_rate": 4.0121093590049004e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 234233808,
+      "step": 108435
+    },
+    {
+      "epoch": 17.69004893964111,
+      "grad_norm": 0.0016587387071922421,
+      "learning_rate": 4.009316113856798e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 234244688,
+      "step": 108440
+    },
+    {
+      "epoch": 17.690864600326265,
+      "grad_norm": 0.0021991583053022623,
+      "learning_rate": 4.0065238007682414e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 234255024,
+      "step": 108445
+    },
+    {
+      "epoch": 17.69168026101142,
+      "grad_norm": 0.04479004442691803,
+      "learning_rate": 4.0037324197958304e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 234266480,
+      "step": 108450
+    },
+    {
+      "epoch": 17.692495921696576,
+      "grad_norm": 0.0026538416277617216,
+      "learning_rate": 4.00094197099613e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 234277456,
+      "step": 108455
+    },
+    {
+      "epoch": 17.693311582381728,
+      "grad_norm": 0.003920292016118765,
+      "learning_rate": 3.9981524544256964e-05,
+      "loss": 0.0593,
+      "num_input_tokens_seen": 234287536,
+      "step": 108460
+    },
+    {
+      "epoch": 17.694127243066884,
+      "grad_norm": 0.001578305964358151,
+      "learning_rate": 3.995363870141061e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 234298352,
+      "step": 108465
+    },
+    {
+      "epoch": 17.69494290375204,
+      "grad_norm": 0.013417751528322697,
+      "learning_rate": 3.9925762181987345e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 234309488,
+      "step": 108470
+    },
+    {
+      "epoch": 17.695758564437195,
+      "grad_norm": 0.0006595024606212974,
+      "learning_rate": 3.9897894986552216e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 234319216,
+      "step": 108475
+    },
+    {
+      "epoch": 17.696574225122347,
+      "grad_norm": 0.005656297784298658,
+      "learning_rate": 3.987003711566978e-05,
+      "loss": 0.0275,
+      "num_input_tokens_seen": 234329776,
+      "step": 108480
+    },
+    {
+      "epoch": 17.697389885807503,
+      "grad_norm": 0.005397633649408817,
+      "learning_rate": 3.984218856990496e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 234341488,
+      "step": 108485
+    },
+    {
+      "epoch": 17.69820554649266,
+      "grad_norm": 0.0029238967690616846,
+      "learning_rate": 3.981434934982176e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 234352144,
+      "step": 108490
+    },
+    {
+      "epoch": 17.699021207177815,
+      "grad_norm": 0.0007100607035681605,
+      "learning_rate": 3.978651945598472e-05,
+      "loss": 0.0681,
+      "num_input_tokens_seen": 234364208,
+      "step": 108495
+    },
+    {
+      "epoch": 17.69983686786297,
+      "grad_norm": 0.002662144135683775,
+      "learning_rate": 3.975869888895756e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 234374320,
+      "step": 108500
+    },
+    {
+      "epoch": 17.700652528548122,
+      "grad_norm": 0.000382350233849138,
+      "learning_rate": 3.973088764930433e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 234384368,
+      "step": 108505
+    },
+    {
+      "epoch": 17.701468189233278,
+      "grad_norm": 0.0005653170519508421,
+      "learning_rate": 3.9703085737588405e-05,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 234395856,
+      "step": 108510
+    },
+    {
+      "epoch": 17.702283849918434,
+      "grad_norm": 0.11164949834346771,
+      "learning_rate": 3.967529315437357e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 234406576,
+      "step": 108515
+    },
+    {
+      "epoch": 17.70309951060359,
+      "grad_norm": 0.00023540828260593116,
+      "learning_rate": 3.96475099002227e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 234417904,
+      "step": 108520
+    },
+    {
+      "epoch": 17.703915171288745,
+      "grad_norm": 0.0013595453929156065,
+      "learning_rate": 3.9619735975699236e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 234428240,
+      "step": 108525
+    },
+    {
+      "epoch": 17.704730831973897,
+      "grad_norm": 0.004526201635599136,
+      "learning_rate": 3.9591971381365665e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 234439152,
+      "step": 108530
+    },
+    {
+      "epoch": 17.705546492659053,
+      "grad_norm": 0.07590554654598236,
+      "learning_rate": 3.956421611778499e-05,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 234449744,
+      "step": 108535
+    },
+    {
+      "epoch": 17.70636215334421,
+      "grad_norm": 0.005136074032634497,
+      "learning_rate": 3.953647018551948e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 234461520,
+      "step": 108540
+    },
+    {
+      "epoch": 17.707177814029365,
+      "grad_norm": 0.0015011136420071125,
+      "learning_rate": 3.950873358513168e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 234473232,
+      "step": 108545
+    },
+    {
+      "epoch": 17.70799347471452,
+      "grad_norm": 0.023294158279895782,
+      "learning_rate": 3.948100631718338e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 234483504,
+      "step": 108550
+    },
+    {
+      "epoch": 17.708809135399672,
+      "grad_norm": 0.0010147414868697524,
+      "learning_rate": 3.945328838223688e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 234494512,
+      "step": 108555
+    },
+    {
+      "epoch": 17.709624796084828,
+      "grad_norm": 0.12862026691436768,
+      "learning_rate": 3.942557978085354e-05,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 234505008,
+      "step": 108560
+    },
+    {
+      "epoch": 17.710440456769984,
+      "grad_norm": 0.00031221084645949304,
+      "learning_rate": 3.939788051359522e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 234515664,
+      "step": 108565
+    },
+    {
+      "epoch": 17.71125611745514,
+      "grad_norm": 0.0004358456062618643,
+      "learning_rate": 3.93701905810232e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 234523856,
+      "step": 108570
+    },
+    {
+      "epoch": 17.712071778140295,
+      "grad_norm": 0.0015146576333791018,
+      "learning_rate": 3.934250998369859e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 234534480,
+      "step": 108575
+    },
+    {
+      "epoch": 17.712887438825447,
+      "grad_norm": 0.2730502784252167,
+      "learning_rate": 3.931483872218239e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 234545040,
+      "step": 108580
+    },
+    {
+      "epoch": 17.713703099510603,
+      "grad_norm": 0.0036683762446045876,
+      "learning_rate": 3.928717679703542e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 234556176,
+      "step": 108585
+    },
+    {
+      "epoch": 17.71451876019576,
+      "grad_norm": 0.5490561127662659,
+      "learning_rate": 3.925952420881823e-05,
+      "loss": 0.0327,
+      "num_input_tokens_seen": 234567568,
+      "step": 108590
+    },
+    {
+      "epoch": 17.715334420880914,
+      "grad_norm": 0.0008095699595287442,
+      "learning_rate": 3.9231880958091325e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 234579792,
+      "step": 108595
+    },
+    {
+      "epoch": 17.71615008156607,
+      "grad_norm": 0.0022214106284081936,
+      "learning_rate": 3.920424704541481e-05,
+      "loss": 0.0417,
+      "num_input_tokens_seen": 234590448,
+      "step": 108600
+    },
+    {
+      "epoch": 17.716965742251222,
+      "grad_norm": 0.0017520349938422441,
+      "learning_rate": 3.9176622471348845e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 234602992,
+      "step": 108605
+    },
+    {
+      "epoch": 17.717781402936378,
+      "grad_norm": 0.006847703829407692,
+      "learning_rate": 3.9149007236453204e-05,
+      "loss": 0.0625,
+      "num_input_tokens_seen": 234613840,
+      "step": 108610
+    },
+    {
+      "epoch": 17.718597063621534,
+      "grad_norm": 0.02551284059882164,
+      "learning_rate": 3.912140134128761e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 234624976,
+      "step": 108615
+    },
+    {
+      "epoch": 17.71941272430669,
+      "grad_norm": 0.03996856510639191,
+      "learning_rate": 3.909380478641139e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 234635760,
+      "step": 108620
+    },
+    {
+      "epoch": 17.72022838499184,
+      "grad_norm": 0.014086296781897545,
+      "learning_rate": 3.906621757238393e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 234646832,
+      "step": 108625
+    },
+    {
+      "epoch": 17.721044045676997,
+      "grad_norm": 0.11001487076282501,
+      "learning_rate": 3.90386396997644e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 234657200,
+      "step": 108630
+    },
+    {
+      "epoch": 17.721859706362153,
+      "grad_norm": 0.0010492857545614243,
+      "learning_rate": 3.901107116911145e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 234666928,
+      "step": 108635
+    },
+    {
+      "epoch": 17.72267536704731,
+      "grad_norm": 0.0010918010957539082,
+      "learning_rate": 3.8983511980984154e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 234677424,
+      "step": 108640
+    },
+    {
+      "epoch": 17.723491027732464,
+      "grad_norm": 0.002043887274339795,
+      "learning_rate": 3.895596213594066e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 234688400,
+      "step": 108645
+    },
+    {
+      "epoch": 17.724306688417617,
+      "grad_norm": 0.010542036034166813,
+      "learning_rate": 3.892842163453964e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 234699792,
+      "step": 108650
+    },
+    {
+      "epoch": 17.725122349102772,
+      "grad_norm": 0.006847497075796127,
+      "learning_rate": 3.8900890477338856e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 234710736,
+      "step": 108655
+    },
+    {
+      "epoch": 17.725938009787928,
+      "grad_norm": 0.010414250195026398,
+      "learning_rate": 3.887336866489666e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 234722000,
+      "step": 108660
+    },
+    {
+      "epoch": 17.726753670473084,
+      "grad_norm": 0.009203067980706692,
+      "learning_rate": 3.884585619777048e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 234733328,
+      "step": 108665
+    },
+    {
+      "epoch": 17.72756933115824,
+      "grad_norm": 0.005820513237267733,
+      "learning_rate": 3.881835307651816e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 234743792,
+      "step": 108670
+    },
+    {
+      "epoch": 17.72838499184339,
+      "grad_norm": 0.0019853932317346334,
+      "learning_rate": 3.879085930169685e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 234755440,
+      "step": 108675
+    },
+    {
+      "epoch": 17.729200652528547,
+      "grad_norm": 0.01240463275462389,
+      "learning_rate": 3.8763374873863886e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 234765776,
+      "step": 108680
+    },
+    {
+      "epoch": 17.730016313213703,
+      "grad_norm": 0.06792809069156647,
+      "learning_rate": 3.873589979357633e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 234777008,
+      "step": 108685
+    },
+    {
+      "epoch": 17.73083197389886,
+      "grad_norm": 0.01229359582066536,
+      "learning_rate": 3.870843406139085e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 234787152,
+      "step": 108690
+    },
+    {
+      "epoch": 17.731647634584014,
+      "grad_norm": 0.00027565364143811166,
+      "learning_rate": 3.868097767786416e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 234799472,
+      "step": 108695
+    },
+    {
+      "epoch": 17.732463295269167,
+      "grad_norm": 0.015476987697184086,
+      "learning_rate": 3.86535306435527e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 234809296,
+      "step": 108700
+    },
+    {
+      "epoch": 17.733278955954322,
+      "grad_norm": 0.0027482211589813232,
+      "learning_rate": 3.8626092959012706e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 234821296,
+      "step": 108705
+    },
+    {
+      "epoch": 17.734094616639478,
+      "grad_norm": 0.001372481812722981,
+      "learning_rate": 3.8598664624800215e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 234831792,
+      "step": 108710
+    },
+    {
+      "epoch": 17.734910277324634,
+      "grad_norm": 0.008024675771594048,
+      "learning_rate": 3.857124564147113e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 234843408,
+      "step": 108715
+    },
+    {
+      "epoch": 17.73572593800979,
+      "grad_norm": 0.0030358731746673584,
+      "learning_rate": 3.8543836009581115e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 234854960,
+      "step": 108720
+    },
+    {
+      "epoch": 17.73654159869494,
+      "grad_norm": 0.018493857234716415,
+      "learning_rate": 3.851643572968566e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 234866224,
+      "step": 108725
+    },
+    {
+      "epoch": 17.737357259380097,
+      "grad_norm": 0.006060306448489428,
+      "learning_rate": 3.848904480234006e-05,
+      "loss": 0.0251,
+      "num_input_tokens_seen": 234875760,
+      "step": 108730
+    },
+    {
+      "epoch": 17.738172920065253,
+      "grad_norm": 0.008324912749230862,
+      "learning_rate": 3.846166322809941e-05,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 234886768,
+      "step": 108735
+    },
+    {
+      "epoch": 17.73898858075041,
+      "grad_norm": 0.00037973938742652535,
+      "learning_rate": 3.8434291007518665e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 234897392,
+      "step": 108740
+    },
+    {
+      "epoch": 17.739804241435564,
+      "grad_norm": 0.0335724800825119,
+      "learning_rate": 3.8406928141152596e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 234909776,
+      "step": 108745
+    },
+    {
+      "epoch": 17.740619902120716,
+      "grad_norm": 0.0029921771492809057,
+      "learning_rate": 3.8379574629555656e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 234921360,
+      "step": 108750
+    },
+    {
+      "epoch": 17.741435562805872,
+      "grad_norm": 0.007268199231475592,
+      "learning_rate": 3.835223047328229e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 234931280,
+      "step": 108755
+    },
+    {
+      "epoch": 17.742251223491028,
+      "grad_norm": 0.0002096295211231336,
+      "learning_rate": 3.8324895672886554e-05,
+      "loss": 0.1414,
+      "num_input_tokens_seen": 234941584,
+      "step": 108760
+    },
+    {
+      "epoch": 17.743066884176184,
+      "grad_norm": 0.16069717705249786,
+      "learning_rate": 3.829757022892255e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 234951728,
+      "step": 108765
+    },
+    {
+      "epoch": 17.74388254486134,
+      "grad_norm": 0.05204736813902855,
+      "learning_rate": 3.827025414194385e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 234962000,
+      "step": 108770
+    },
+    {
+      "epoch": 17.74469820554649,
+      "grad_norm": 0.004038558341562748,
+      "learning_rate": 3.824294741250439e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 234973488,
+      "step": 108775
+    },
+    {
+      "epoch": 17.745513866231647,
+      "grad_norm": 0.0019828190561383963,
+      "learning_rate": 3.821565004115723e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 234984016,
+      "step": 108780
+    },
+    {
+      "epoch": 17.746329526916803,
+      "grad_norm": 0.00056139484513551,
+      "learning_rate": 3.8188362028455826e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 234994832,
+      "step": 108785
+    },
+    {
+      "epoch": 17.74714518760196,
+      "grad_norm": 1.5413379669189453,
+      "learning_rate": 3.8161083374953056e-05,
+      "loss": 0.0312,
+      "num_input_tokens_seen": 235004816,
+      "step": 108790
+    },
+    {
+      "epoch": 17.747960848287114,
+      "grad_norm": 0.026222562417387962,
+      "learning_rate": 3.8133814081201866e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 235015504,
+      "step": 108795
+    },
+    {
+      "epoch": 17.748776508972266,
+      "grad_norm": 0.0037302477285265923,
+      "learning_rate": 3.810655414775482e-05,
+      "loss": 0.0466,
+      "num_input_tokens_seen": 235027728,
+      "step": 108800
+    },
+    {
+      "epoch": 17.749592169657422,
+      "grad_norm": 0.00023018640058580786,
+      "learning_rate": 3.807930357516448e-05,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 235039344,
+      "step": 108805
+    },
+    {
+      "epoch": 17.750407830342578,
+      "grad_norm": 0.004767855163663626,
+      "learning_rate": 3.8052062363982957e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 235050480,
+      "step": 108810
+    },
+    {
+      "epoch": 17.751223491027734,
+      "grad_norm": 0.004195967223495245,
+      "learning_rate": 3.8024830514762465e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 235062960,
+      "step": 108815
+    },
+    {
+      "epoch": 17.752039151712886,
+      "grad_norm": 0.05753675475716591,
+      "learning_rate": 3.79976080280548e-05,
+      "loss": 0.0172,
+      "num_input_tokens_seen": 235074416,
+      "step": 108820
+    },
+    {
+      "epoch": 17.75285481239804,
+      "grad_norm": 0.0006173241999931633,
+      "learning_rate": 3.7970394904411733e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 235084112,
+      "step": 108825
+    },
+    {
+      "epoch": 17.753670473083197,
+      "grad_norm": 0.694864809513092,
+      "learning_rate": 3.7943191144384716e-05,
+      "loss": 0.012,
+      "num_input_tokens_seen": 235094128,
+      "step": 108830
+    },
+    {
+      "epoch": 17.754486133768353,
+      "grad_norm": 0.09449499845504761,
+      "learning_rate": 3.7915996748525086e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 235106320,
+      "step": 108835
+    },
+    {
+      "epoch": 17.75530179445351,
+      "grad_norm": 0.003336785826832056,
+      "learning_rate": 3.788881171738401e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 235117584,
+      "step": 108840
+    },
+    {
+      "epoch": 17.75611745513866,
+      "grad_norm": 0.002545825904235244,
+      "learning_rate": 3.7861636051512385e-05,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 235128528,
+      "step": 108845
+    },
+    {
+      "epoch": 17.756933115823816,
+      "grad_norm": 0.0005718961474485695,
+      "learning_rate": 3.783446975146099e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 235139984,
+      "step": 108850
+    },
+    {
+      "epoch": 17.757748776508972,
+      "grad_norm": 0.05380915477871895,
+      "learning_rate": 3.7807312817780325e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 235151408,
+      "step": 108855
+    },
+    {
+      "epoch": 17.758564437194128,
+      "grad_norm": 0.010704193264245987,
+      "learning_rate": 3.7780165251020794e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 235163056,
+      "step": 108860
+    },
+    {
+      "epoch": 17.759380097879284,
+      "grad_norm": 0.0006450397195294499,
+      "learning_rate": 3.7753027051732615e-05,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 235174032,
+      "step": 108865
+    },
+    {
+      "epoch": 17.760195758564436,
+      "grad_norm": 0.004813667386770248,
+      "learning_rate": 3.772589822046568e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 235184848,
+      "step": 108870
+    },
+    {
+      "epoch": 17.76101141924959,
+      "grad_norm": 0.0434638075530529,
+      "learning_rate": 3.7698778757769944e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 235195344,
+      "step": 108875
+    },
+    {
+      "epoch": 17.761827079934747,
+      "grad_norm": 0.002826629439368844,
+      "learning_rate": 3.767166866419486e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 235206064,
+      "step": 108880
+    },
+    {
+      "epoch": 17.762642740619903,
+      "grad_norm": 0.0023013916797935963,
+      "learning_rate": 3.764456794028992e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 235215632,
+      "step": 108885
+    },
+    {
+      "epoch": 17.76345840130506,
+      "grad_norm": 0.00613722950220108,
+      "learning_rate": 3.7617476586604304e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 235226192,
+      "step": 108890
+    },
+    {
+      "epoch": 17.76427406199021,
+      "grad_norm": 0.0007096104673109949,
+      "learning_rate": 3.759039460368724e-05,
+      "loss": 0.0742,
+      "num_input_tokens_seen": 235236464,
+      "step": 108895
+    },
+    {
+      "epoch": 17.765089722675366,
+      "grad_norm": 0.0005393307656049728,
+      "learning_rate": 3.756332199208728e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 235246704,
+      "step": 108900
+    },
+    {
+      "epoch": 17.765905383360522,
+      "grad_norm": 0.9690297842025757,
+      "learning_rate": 3.753625875235345e-05,
+      "loss": 0.1084,
+      "num_input_tokens_seen": 235257008,
+      "step": 108905
+    },
+    {
+      "epoch": 17.766721044045678,
+      "grad_norm": 0.0005110432975925505,
+      "learning_rate": 3.750920488503379e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 235268976,
+      "step": 108910
+    },
+    {
+      "epoch": 17.767536704730833,
+      "grad_norm": 0.00060313317226246,
+      "learning_rate": 3.7482160390676866e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 235278768,
+      "step": 108915
+    },
+    {
+      "epoch": 17.768352365415986,
+      "grad_norm": 0.019515041261911392,
+      "learning_rate": 3.745512526983075e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 235288784,
+      "step": 108920
+    },
+    {
+      "epoch": 17.76916802610114,
+      "grad_norm": 0.13256117701530457,
+      "learning_rate": 3.7428099523043325e-05,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 235299280,
+      "step": 108925
+    },
+    {
+      "epoch": 17.769983686786297,
+      "grad_norm": 0.0040601822547614574,
+      "learning_rate": 3.7401083150862216e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 235310032,
+      "step": 108930
+    },
+    {
+      "epoch": 17.770799347471453,
+      "grad_norm": 0.008540820330381393,
+      "learning_rate": 3.7374076153835033e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 235319952,
+      "step": 108935
+    },
+    {
+      "epoch": 17.77161500815661,
+      "grad_norm": 0.07201741635799408,
+      "learning_rate": 3.734707853250907e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 235331504,
+      "step": 108940
+    },
+    {
+      "epoch": 17.77243066884176,
+      "grad_norm": 0.00032880945946089923,
+      "learning_rate": 3.73200902874315e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 235341488,
+      "step": 108945
+    },
+    {
+      "epoch": 17.773246329526916,
+      "grad_norm": 0.011850826442241669,
+      "learning_rate": 3.729311141914926e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 235352592,
+      "step": 108950
+    },
+    {
+      "epoch": 17.774061990212072,
+      "grad_norm": 0.004222301300615072,
+      "learning_rate": 3.72661419282091e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 235362224,
+      "step": 108955
+    },
+    {
+      "epoch": 17.774877650897228,
+      "grad_norm": 0.014178330078721046,
+      "learning_rate": 3.723918181515756e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 235372688,
+      "step": 108960
+    },
+    {
+      "epoch": 17.775693311582383,
+      "grad_norm": 0.0010670581832528114,
+      "learning_rate": 3.721223108054106e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 235383440,
+      "step": 108965
+    },
+    {
+      "epoch": 17.776508972267536,
+      "grad_norm": 0.026346096768975258,
+      "learning_rate": 3.7185289724905814e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 235394640,
+      "step": 108970
+    },
+    {
+      "epoch": 17.77732463295269,
+      "grad_norm": 0.025496676564216614,
+      "learning_rate": 3.7158357748797775e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 235406736,
+      "step": 108975
+    },
+    {
+      "epoch": 17.778140293637847,
+      "grad_norm": 0.043573055416345596,
+      "learning_rate": 3.7131435152762735e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 235415600,
+      "step": 108980
+    },
+    {
+      "epoch": 17.778955954323003,
+      "grad_norm": 0.26204147934913635,
+      "learning_rate": 3.710452193734643e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 235425776,
+      "step": 108985
+    },
+    {
+      "epoch": 17.77977161500816,
+      "grad_norm": 0.0021411122288554907,
+      "learning_rate": 3.707761810309418e-05,
+      "loss": 0.036,
+      "num_input_tokens_seen": 235436752,
+      "step": 108990
+    },
+    {
+      "epoch": 17.78058727569331,
+      "grad_norm": 0.0380295105278492,
+      "learning_rate": 3.705072365055112e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 235446608,
+      "step": 108995
+    },
+    {
+      "epoch": 17.781402936378466,
+      "grad_norm": 0.02980238012969494,
+      "learning_rate": 3.7023838580262706e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 235457264,
+      "step": 109000
+    },
+    {
+      "epoch": 17.782218597063622,
+      "grad_norm": 0.010661580599844456,
+      "learning_rate": 3.699696289277327e-05,
+      "loss": 0.028,
+      "num_input_tokens_seen": 235468784,
+      "step": 109005
+    },
+    {
+      "epoch": 17.783034257748778,
+      "grad_norm": 0.009770001284778118,
+      "learning_rate": 3.697009658862793e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 235479952,
+      "step": 109010
+    },
+    {
+      "epoch": 17.78384991843393,
+      "grad_norm": 0.00064946518978104,
+      "learning_rate": 3.694323966837088e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 235491664,
+      "step": 109015
+    },
+    {
+      "epoch": 17.784665579119086,
+      "grad_norm": 0.010038640350103378,
+      "learning_rate": 3.6916392132546605e-05,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 235502416,
+      "step": 109020
+    },
+    {
+      "epoch": 17.78548123980424,
+      "grad_norm": 0.0002301902131875977,
+      "learning_rate": 3.6889553981698966e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 235514032,
+      "step": 109025
+    },
+    {
+      "epoch": 17.786296900489397,
+      "grad_norm": 0.010864865966141224,
+      "learning_rate": 3.6862725216372185e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 235525680,
+      "step": 109030
+    },
+    {
+      "epoch": 17.787112561174553,
+      "grad_norm": 0.046079590916633606,
+      "learning_rate": 3.683590583710961e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 235535056,
+      "step": 109035
+    },
+    {
+      "epoch": 17.787928221859705,
+      "grad_norm": 0.0027483527082949877,
+      "learning_rate": 3.6809095844455134e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 235545968,
+      "step": 109040
+    },
+    {
+      "epoch": 17.78874388254486,
+      "grad_norm": 0.023552676662802696,
+      "learning_rate": 3.678229523895177e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 235555600,
+      "step": 109045
+    },
+    {
+      "epoch": 17.789559543230016,
+      "grad_norm": 0.0004201144038233906,
+      "learning_rate": 3.675550402114303e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 235566576,
+      "step": 109050
+    },
+    {
+      "epoch": 17.790375203915172,
+      "grad_norm": 0.018458297476172447,
+      "learning_rate": 3.6728722191571476e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 235576784,
+      "step": 109055
+    },
+    {
+      "epoch": 17.791190864600328,
+      "grad_norm": 0.007056164089590311,
+      "learning_rate": 3.670194975078017e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 235588400,
+      "step": 109060
+    },
+    {
+      "epoch": 17.79200652528548,
+      "grad_norm": 0.009251178242266178,
+      "learning_rate": 3.667518669931158e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 235599024,
+      "step": 109065
+    },
+    {
+      "epoch": 17.792822185970635,
+      "grad_norm": 0.003141851397231221,
+      "learning_rate": 3.6648433037708094e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 235608944,
+      "step": 109070
+    },
+    {
+      "epoch": 17.79363784665579,
+      "grad_norm": 0.00041024110396392643,
+      "learning_rate": 3.66216887665119e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 235618896,
+      "step": 109075
+    },
+    {
+      "epoch": 17.794453507340947,
+      "grad_norm": 0.001330662053078413,
+      "learning_rate": 3.659495388626505e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 235629616,
+      "step": 109080
+    },
+    {
+      "epoch": 17.795269168026103,
+      "grad_norm": 0.018950335681438446,
+      "learning_rate": 3.6568228397509286e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 235641008,
+      "step": 109085
+    },
+    {
+      "epoch": 17.796084828711255,
+      "grad_norm": 0.044273439794778824,
+      "learning_rate": 3.654151230078628e-05,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 235651408,
+      "step": 109090
+    },
+    {
+      "epoch": 17.79690048939641,
+      "grad_norm": 0.0021813130006194115,
+      "learning_rate": 3.6514805596637504e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 235661648,
+      "step": 109095
+    },
+    {
+      "epoch": 17.797716150081566,
+      "grad_norm": 0.013074532151222229,
+      "learning_rate": 3.648810828560417e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 235672880,
+      "step": 109100
+    },
+    {
+      "epoch": 17.798531810766722,
+      "grad_norm": 0.002100384095683694,
+      "learning_rate": 3.6461420368227304e-05,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 235683408,
+      "step": 109105
+    },
+    {
+      "epoch": 17.799347471451878,
+      "grad_norm": 0.0026194609235972166,
+      "learning_rate": 3.643474184504775e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 235694608,
+      "step": 109110
+    },
+    {
+      "epoch": 17.80016313213703,
+      "grad_norm": 0.04093625396490097,
+      "learning_rate": 3.6408072716606344e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 235703984,
+      "step": 109115
+    },
+    {
+      "epoch": 17.800978792822185,
+      "grad_norm": 0.016903575509786606,
+      "learning_rate": 3.6381412983443277e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 235714704,
+      "step": 109120
+    },
+    {
+      "epoch": 17.80179445350734,
+      "grad_norm": 0.012498315423727036,
+      "learning_rate": 3.635476264609922e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 235726800,
+      "step": 109125
+    },
+    {
+      "epoch": 17.802610114192497,
+      "grad_norm": 0.01264413632452488,
+      "learning_rate": 3.6328121705113905e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 235738864,
+      "step": 109130
+    },
+    {
+      "epoch": 17.803425774877653,
+      "grad_norm": 0.8477015495300293,
+      "learning_rate": 3.6301490161027574e-05,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 235750288,
+      "step": 109135
+    },
+    {
+      "epoch": 17.804241435562805,
+      "grad_norm": 0.01968962326645851,
+      "learning_rate": 3.6274868014379624e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 235761488,
+      "step": 109140
+    },
+    {
+      "epoch": 17.80505709624796,
+      "grad_norm": 0.02571706660091877,
+      "learning_rate": 3.6248255265709906e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 235772400,
+      "step": 109145
+    },
+    {
+      "epoch": 17.805872756933116,
+      "grad_norm": 0.001857051276601851,
+      "learning_rate": 3.6221651915557484e-05,
+      "loss": 0.015,
+      "num_input_tokens_seen": 235783376,
+      "step": 109150
+    },
+    {
+      "epoch": 17.806688417618272,
+      "grad_norm": 0.0020788402762264013,
+      "learning_rate": 3.6195057964461764e-05,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 235794736,
+      "step": 109155
+    },
+    {
+      "epoch": 17.807504078303424,
+      "grad_norm": 0.0018391057383269072,
+      "learning_rate": 3.616847341296137e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 235805104,
+      "step": 109160
+    },
+    {
+      "epoch": 17.80831973898858,
+      "grad_norm": 0.0004060390347149223,
+      "learning_rate": 3.6141898261595475e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 235816912,
+      "step": 109165
+    },
+    {
+      "epoch": 17.809135399673735,
+      "grad_norm": 0.021962953731417656,
+      "learning_rate": 3.611533251090232e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 235826992,
+      "step": 109170
+    },
+    {
+      "epoch": 17.80995106035889,
+      "grad_norm": 0.013397028669714928,
+      "learning_rate": 3.608877616142053e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 235837136,
+      "step": 109175
+    },
+    {
+      "epoch": 17.810766721044047,
+      "grad_norm": 0.0003482665924821049,
+      "learning_rate": 3.606222921368807e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 235847536,
+      "step": 109180
+    },
+    {
+      "epoch": 17.8115823817292,
+      "grad_norm": 0.03608010709285736,
+      "learning_rate": 3.603569166824327e-05,
+      "loss": 0.039,
+      "num_input_tokens_seen": 235857712,
+      "step": 109185
+    },
+    {
+      "epoch": 17.812398042414355,
+      "grad_norm": 0.010204904712736607,
+      "learning_rate": 3.600916352562356e-05,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 235866704,
+      "step": 109190
+    },
+    {
+      "epoch": 17.81321370309951,
+      "grad_norm": 0.0035822775680571795,
+      "learning_rate": 3.598264478636698e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 235877840,
+      "step": 109195
+    },
+    {
+      "epoch": 17.814029363784666,
+      "grad_norm": 0.0004829168610740453,
+      "learning_rate": 3.595613545101056e-05,
+      "loss": 0.0561,
+      "num_input_tokens_seen": 235888368,
+      "step": 109200
+    },
+    {
+      "epoch": 17.81484502446982,
+      "grad_norm": 0.0008832847815938294,
+      "learning_rate": 3.592963552009182e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 235898224,
+      "step": 109205
+    },
+    {
+      "epoch": 17.815660685154974,
+      "grad_norm": 0.03870289772748947,
+      "learning_rate": 3.590314499414771e-05,
+      "loss": 0.008,
+      "num_input_tokens_seen": 235909584,
+      "step": 109210
+    },
+    {
+      "epoch": 17.81647634584013,
+      "grad_norm": 0.0008303043432533741,
+      "learning_rate": 3.587666387371513e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 235921168,
+      "step": 109215
+    },
+    {
+      "epoch": 17.817292006525285,
+      "grad_norm": 0.007308437488973141,
+      "learning_rate": 3.585019215933072e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 235932240,
+      "step": 109220
+    },
+    {
+      "epoch": 17.81810766721044,
+      "grad_norm": 0.0020328452810645103,
+      "learning_rate": 3.5823729851530983e-05,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 235943280,
+      "step": 109225
+    },
+    {
+      "epoch": 17.818923327895597,
+      "grad_norm": 0.0017934415955096483,
+      "learning_rate": 3.5797276950852276e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 235954192,
+      "step": 109230
+    },
+    {
+      "epoch": 17.81973898858075,
+      "grad_norm": 0.019754432141780853,
+      "learning_rate": 3.5770833457830554e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 235964784,
+      "step": 109235
+    },
+    {
+      "epoch": 17.820554649265905,
+      "grad_norm": 0.007611890789121389,
+      "learning_rate": 3.5744399373001834e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 235975536,
+      "step": 109240
+    },
+    {
+      "epoch": 17.82137030995106,
+      "grad_norm": 0.0005911207990720868,
+      "learning_rate": 3.57179746969018e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 235986576,
+      "step": 109245
+    },
+    {
+      "epoch": 17.822185970636216,
+      "grad_norm": 0.0020840333309024572,
+      "learning_rate": 3.569155943006602e-05,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 235996944,
+      "step": 109250
+    },
+    {
+      "epoch": 17.82300163132137,
+      "grad_norm": 0.017575936391949654,
+      "learning_rate": 3.566515357302974e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 236008144,
+      "step": 109255
+    },
+    {
+      "epoch": 17.823817292006524,
+      "grad_norm": 0.0008498613606207073,
+      "learning_rate": 3.56387571263283e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 236019952,
+      "step": 109260
+    },
+    {
+      "epoch": 17.82463295269168,
+      "grad_norm": 0.0718621090054512,
+      "learning_rate": 3.561237009049639e-05,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 236031568,
+      "step": 109265
+    },
+    {
+      "epoch": 17.825448613376835,
+      "grad_norm": 0.01773866079747677,
+      "learning_rate": 3.558599246606903e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 236042864,
+      "step": 109270
+    },
+    {
+      "epoch": 17.82626427406199,
+      "grad_norm": 0.016890283674001694,
+      "learning_rate": 3.555962425358056e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 236053296,
+      "step": 109275
+    },
+    {
+      "epoch": 17.827079934747147,
+      "grad_norm": 0.001565889222547412,
+      "learning_rate": 3.5533265453565664e-05,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 236063760,
+      "step": 109280
+    },
+    {
+      "epoch": 17.8278955954323,
+      "grad_norm": 0.012458628974854946,
+      "learning_rate": 3.55069160665582e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 236075472,
+      "step": 109285
+    },
+    {
+      "epoch": 17.828711256117455,
+      "grad_norm": 0.019188063219189644,
+      "learning_rate": 3.5480576093092466e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 236086384,
+      "step": 109290
+    },
+    {
+      "epoch": 17.82952691680261,
+      "grad_norm": 0.0013830027310177684,
+      "learning_rate": 3.545424553370202e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236096720,
+      "step": 109295
+    },
+    {
+      "epoch": 17.830342577487766,
+      "grad_norm": 0.0006741559482179582,
+      "learning_rate": 3.5427924388920727e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 236107696,
+      "step": 109300
+    },
+    {
+      "epoch": 17.83115823817292,
+      "grad_norm": 0.000454758177511394,
+      "learning_rate": 3.540161265928177e-05,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 236118576,
+      "step": 109305
+    },
+    {
+      "epoch": 17.831973898858074,
+      "grad_norm": 0.0011603111634030938,
+      "learning_rate": 3.537531034531855e-05,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 236129136,
+      "step": 109310
+    },
+    {
+      "epoch": 17.83278955954323,
+      "grad_norm": 0.004742736462503672,
+      "learning_rate": 3.5349017447564135e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 236139952,
+      "step": 109315
+    },
+    {
+      "epoch": 17.833605220228385,
+      "grad_norm": 0.013719492591917515,
+      "learning_rate": 3.532273396655128e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 236150352,
+      "step": 109320
+    },
+    {
+      "epoch": 17.83442088091354,
+      "grad_norm": 0.0017408907879143953,
+      "learning_rate": 3.5296459902812775e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 236160464,
+      "step": 109325
+    },
+    {
+      "epoch": 17.835236541598697,
+      "grad_norm": 0.0012018510606139898,
+      "learning_rate": 3.527019525688097e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 236170800,
+      "step": 109330
+    },
+    {
+      "epoch": 17.83605220228385,
+      "grad_norm": 0.0053267451003193855,
+      "learning_rate": 3.524394002928821e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 236181680,
+      "step": 109335
+    },
+    {
+      "epoch": 17.836867862969005,
+      "grad_norm": 0.00016377547581214458,
+      "learning_rate": 3.5217694220566644e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 236191952,
+      "step": 109340
+    },
+    {
+      "epoch": 17.83768352365416,
+      "grad_norm": 0.006869807373732328,
+      "learning_rate": 3.5191457831248054e-05,
+      "loss": 0.0715,
+      "num_input_tokens_seen": 236201936,
+      "step": 109345
+    },
+    {
+      "epoch": 17.838499184339316,
+      "grad_norm": 0.020623216405510902,
+      "learning_rate": 3.516523086186429e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 236212272,
+      "step": 109350
+    },
+    {
+      "epoch": 17.839314845024468,
+      "grad_norm": 0.0009061881573870778,
+      "learning_rate": 3.513901331294678e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 236221712,
+      "step": 109355
+    },
+    {
+      "epoch": 17.840130505709624,
+      "grad_norm": 0.0009150461410172284,
+      "learning_rate": 3.5112805185026853e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 236232400,
+      "step": 109360
+    },
+    {
+      "epoch": 17.84094616639478,
+      "grad_norm": 0.02719375491142273,
+      "learning_rate": 3.5086606478635706e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 236242512,
+      "step": 109365
+    },
+    {
+      "epoch": 17.841761827079935,
+      "grad_norm": 0.0005360327195376158,
+      "learning_rate": 3.506041719430425e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 236252752,
+      "step": 109370
+    },
+    {
+      "epoch": 17.84257748776509,
+      "grad_norm": 0.012039005756378174,
+      "learning_rate": 3.503423733256328e-05,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 236263344,
+      "step": 109375
+    },
+    {
+      "epoch": 17.843393148450243,
+      "grad_norm": 0.002144909929484129,
+      "learning_rate": 3.500806689394337e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 236274704,
+      "step": 109380
+    },
+    {
+      "epoch": 17.8442088091354,
+      "grad_norm": 0.0027891851495951414,
+      "learning_rate": 3.4981905878974815e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 236284944,
+      "step": 109385
+    },
+    {
+      "epoch": 17.845024469820554,
+      "grad_norm": 0.004484755452722311,
+      "learning_rate": 3.495575428818787e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 236295856,
+      "step": 109390
+    },
+    {
+      "epoch": 17.84584013050571,
+      "grad_norm": 0.5081759691238403,
+      "learning_rate": 3.492961212211249e-05,
+      "loss": 0.0177,
+      "num_input_tokens_seen": 236306512,
+      "step": 109395
+    },
+    {
+      "epoch": 17.846655791190866,
+      "grad_norm": 0.0007591186440549791,
+      "learning_rate": 3.490347938127847e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 236317872,
+      "step": 109400
+    },
+    {
+      "epoch": 17.847471451876018,
+      "grad_norm": 0.03884272277355194,
+      "learning_rate": 3.4877356066215614e-05,
+      "loss": 0.0669,
+      "num_input_tokens_seen": 236327536,
+      "step": 109405
+    },
+    {
+      "epoch": 17.848287112561174,
+      "grad_norm": 0.0006161820492707193,
+      "learning_rate": 3.4851242177453e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 236339408,
+      "step": 109410
+    },
+    {
+      "epoch": 17.84910277324633,
+      "grad_norm": 0.013513866811990738,
+      "learning_rate": 3.482513771552021e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 236349904,
+      "step": 109415
+    },
+    {
+      "epoch": 17.849918433931485,
+      "grad_norm": 0.009950819425284863,
+      "learning_rate": 3.4799042680945966e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 236361296,
+      "step": 109420
+    },
+    {
+      "epoch": 17.85073409461664,
+      "grad_norm": 0.0011644375044852495,
+      "learning_rate": 3.477295707425937e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 236370928,
+      "step": 109425
+    },
+    {
+      "epoch": 17.851549755301793,
+      "grad_norm": 0.0018306487472727895,
+      "learning_rate": 3.474688089598893e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 236381200,
+      "step": 109430
+    },
+    {
+      "epoch": 17.85236541598695,
+      "grad_norm": 0.0012890893267467618,
+      "learning_rate": 3.4720814146663226e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 236391760,
+      "step": 109435
+    },
+    {
+      "epoch": 17.853181076672104,
+      "grad_norm": 0.014044544659554958,
+      "learning_rate": 3.469475682681045e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 236403472,
+      "step": 109440
+    },
+    {
+      "epoch": 17.85399673735726,
+      "grad_norm": 0.00026541019906289876,
+      "learning_rate": 3.466870893695867e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 236415088,
+      "step": 109445
+    },
+    {
+      "epoch": 17.854812398042416,
+      "grad_norm": 0.001360461232252419,
+      "learning_rate": 3.4642670477635866e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 236427216,
+      "step": 109450
+    },
+    {
+      "epoch": 17.855628058727568,
+      "grad_norm": 0.018865276128053665,
+      "learning_rate": 3.4616641449369656e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 236437232,
+      "step": 109455
+    },
+    {
+      "epoch": 17.856443719412724,
+      "grad_norm": 0.0013094799360260367,
+      "learning_rate": 3.459062185268763e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236447056,
+      "step": 109460
+    },
+    {
+      "epoch": 17.85725938009788,
+      "grad_norm": 0.20267651975154877,
+      "learning_rate": 3.456461168811703e-05,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 236459120,
+      "step": 109465
+    },
+    {
+      "epoch": 17.858075040783035,
+      "grad_norm": 0.009335266426205635,
+      "learning_rate": 3.4538610956185044e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236471568,
+      "step": 109470
+    },
+    {
+      "epoch": 17.85889070146819,
+      "grad_norm": 0.0011765094241127372,
+      "learning_rate": 3.451261965741859e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 236483024,
+      "step": 109475
+    },
+    {
+      "epoch": 17.859706362153343,
+      "grad_norm": 0.06980552524328232,
+      "learning_rate": 3.44866377923444e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 236495248,
+      "step": 109480
+    },
+    {
+      "epoch": 17.8605220228385,
+      "grad_norm": 0.0011967658065259457,
+      "learning_rate": 3.446066536148901e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 236505296,
+      "step": 109485
+    },
+    {
+      "epoch": 17.861337683523654,
+      "grad_norm": 0.004047077614814043,
+      "learning_rate": 3.4434702365378825e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 236516272,
+      "step": 109490
+    },
+    {
+      "epoch": 17.86215334420881,
+      "grad_norm": 0.002524849260225892,
+      "learning_rate": 3.4408748804540034e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 236526160,
+      "step": 109495
+    },
+    {
+      "epoch": 17.862969004893966,
+      "grad_norm": 0.003883121768012643,
+      "learning_rate": 3.4382804679498616e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236535696,
+      "step": 109500
+    },
+    {
+      "epoch": 17.863784665579118,
+      "grad_norm": 0.0491781048476696,
+      "learning_rate": 3.4356869990780305e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 236547152,
+      "step": 109505
+    },
+    {
+      "epoch": 17.864600326264274,
+      "grad_norm": 0.005752094089984894,
+      "learning_rate": 3.4330944738910744e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 236559088,
+      "step": 109510
+    },
+    {
+      "epoch": 17.86541598694943,
+      "grad_norm": 0.008952261880040169,
+      "learning_rate": 3.430502892441528e-05,
+      "loss": 0.0656,
+      "num_input_tokens_seen": 236569744,
+      "step": 109515
+    },
+    {
+      "epoch": 17.866231647634585,
+      "grad_norm": 0.07735848426818848,
+      "learning_rate": 3.427912254781923e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 236580432,
+      "step": 109520
+    },
+    {
+      "epoch": 17.86704730831974,
+      "grad_norm": 0.01697462424635887,
+      "learning_rate": 3.425322560964761e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236590832,
+      "step": 109525
+    },
+    {
+      "epoch": 17.867862969004893,
+      "grad_norm": 0.0002120243152603507,
+      "learning_rate": 3.422733811042506e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 236602192,
+      "step": 109530
+    },
+    {
+      "epoch": 17.86867862969005,
+      "grad_norm": 0.012320012785494328,
+      "learning_rate": 3.420146005067659e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236614512,
+      "step": 109535
+    },
+    {
+      "epoch": 17.869494290375204,
+      "grad_norm": 0.010592760518193245,
+      "learning_rate": 3.4175591430926244e-05,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 236624272,
+      "step": 109540
+    },
+    {
+      "epoch": 17.87030995106036,
+      "grad_norm": 0.02042955532670021,
+      "learning_rate": 3.414973225169854e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 236635152,
+      "step": 109545
+    },
+    {
+      "epoch": 17.871125611745512,
+      "grad_norm": 0.008258404210209846,
+      "learning_rate": 3.412388251351756e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 236646256,
+      "step": 109550
+    },
+    {
+      "epoch": 17.871941272430668,
+      "grad_norm": 0.0008917743107303977,
+      "learning_rate": 3.4098042216907045e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236657520,
+      "step": 109555
+    },
+    {
+      "epoch": 17.872756933115824,
+      "grad_norm": 0.05271517485380173,
+      "learning_rate": 3.4072211362390746e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 236668816,
+      "step": 109560
+    },
+    {
+      "epoch": 17.87357259380098,
+      "grad_norm": 0.01361636072397232,
+      "learning_rate": 3.40463899504922e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 236679280,
+      "step": 109565
+    },
+    {
+      "epoch": 17.874388254486135,
+      "grad_norm": 0.0656086653470993,
+      "learning_rate": 3.402057798173463e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 236689424,
+      "step": 109570
+    },
+    {
+      "epoch": 17.875203915171287,
+      "grad_norm": 0.000795271247625351,
+      "learning_rate": 3.39947754566412e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 236699856,
+      "step": 109575
+    },
+    {
+      "epoch": 17.876019575856443,
+      "grad_norm": 0.003363175317645073,
+      "learning_rate": 3.3968982375734813e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 236711280,
+      "step": 109580
+    },
+    {
+      "epoch": 17.8768352365416,
+      "grad_norm": 0.004550011362880468,
+      "learning_rate": 3.394319873953816e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 236723024,
+      "step": 109585
+    },
+    {
+      "epoch": 17.877650897226754,
+      "grad_norm": 0.003007990773767233,
+      "learning_rate": 3.391742454857388e-05,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 236733072,
+      "step": 109590
+    },
+    {
+      "epoch": 17.87846655791191,
+      "grad_norm": 0.4620771110057831,
+      "learning_rate": 3.3891659803364225e-05,
+      "loss": 0.1076,
+      "num_input_tokens_seen": 236743056,
+      "step": 109595
+    },
+    {
+      "epoch": 17.879282218597062,
+      "grad_norm": 0.0010317835258319974,
+      "learning_rate": 3.386590450443139e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 236754512,
+      "step": 109600
+    },
+    {
+      "epoch": 17.880097879282218,
+      "grad_norm": 0.019852880388498306,
+      "learning_rate": 3.3840158652297335e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 236765936,
+      "step": 109605
+    },
+    {
+      "epoch": 17.880913539967374,
+      "grad_norm": 0.02316543459892273,
+      "learning_rate": 3.381442224748382e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 236776720,
+      "step": 109610
+    },
+    {
+      "epoch": 17.88172920065253,
+      "grad_norm": 0.0006642960361205041,
+      "learning_rate": 3.378869529051243e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 236787696,
+      "step": 109615
+    },
+    {
+      "epoch": 17.882544861337685,
+      "grad_norm": 0.07310860604047775,
+      "learning_rate": 3.376297778190457e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 236799056,
+      "step": 109620
+    },
+    {
+      "epoch": 17.883360522022837,
+      "grad_norm": 0.010377427563071251,
+      "learning_rate": 3.373726972218144e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 236810576,
+      "step": 109625
+    },
+    {
+      "epoch": 17.884176182707993,
+      "grad_norm": 0.005838080309331417,
+      "learning_rate": 3.3711571111864014e-05,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 236821264,
+      "step": 109630
+    },
+    {
+      "epoch": 17.88499184339315,
+      "grad_norm": 0.003536843927577138,
+      "learning_rate": 3.3685881951473096e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 236833328,
+      "step": 109635
+    },
+    {
+      "epoch": 17.885807504078304,
+      "grad_norm": 0.006238589994609356,
+      "learning_rate": 3.366020224152949e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 236843600,
+      "step": 109640
+    },
+    {
+      "epoch": 17.88662316476346,
+      "grad_norm": 0.0026695330161601305,
+      "learning_rate": 3.363453198255328e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 236854800,
+      "step": 109645
+    },
+    {
+      "epoch": 17.887438825448612,
+      "grad_norm": 0.055036984384059906,
+      "learning_rate": 3.360887117506506e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 236865456,
+      "step": 109650
+    },
+    {
+      "epoch": 17.888254486133768,
+      "grad_norm": 0.0004414636641740799,
+      "learning_rate": 3.358321981958462e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 236876208,
+      "step": 109655
+    },
+    {
+      "epoch": 17.889070146818923,
+      "grad_norm": 0.0011676463764160872,
+      "learning_rate": 3.3557577916632055e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 236887536,
+      "step": 109660
+    },
+    {
+      "epoch": 17.88988580750408,
+      "grad_norm": 0.0007017211173661053,
+      "learning_rate": 3.353194546672672e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 236898032,
+      "step": 109665
+    },
+    {
+      "epoch": 17.890701468189235,
+      "grad_norm": 0.0006231152801774442,
+      "learning_rate": 3.3506322470388426e-05,
+      "loss": 0.0114,
+      "num_input_tokens_seen": 236908656,
+      "step": 109670
+    },
+    {
+      "epoch": 17.891517128874387,
+      "grad_norm": 0.02516918070614338,
+      "learning_rate": 3.3480708928136204e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 236920400,
+      "step": 109675
+    },
+    {
+      "epoch": 17.892332789559543,
+      "grad_norm": 0.0003355523804202676,
+      "learning_rate": 3.34551048404893e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 236931024,
+      "step": 109680
+    },
+    {
+      "epoch": 17.8931484502447,
+      "grad_norm": 0.014823941513895988,
+      "learning_rate": 3.342951020796647e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 236940976,
+      "step": 109685
+    },
+    {
+      "epoch": 17.893964110929854,
+      "grad_norm": 0.0024333603214472532,
+      "learning_rate": 3.3403925031086525e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 236951984,
+      "step": 109690
+    },
+    {
+      "epoch": 17.894779771615006,
+      "grad_norm": 0.051741719245910645,
+      "learning_rate": 3.337834931036798e-05,
+      "loss": 0.007,
+      "num_input_tokens_seen": 236963472,
+      "step": 109695
+    },
+    {
+      "epoch": 17.895595432300162,
+      "grad_norm": 0.025518298149108887,
+      "learning_rate": 3.335278304632916e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 236973264,
+      "step": 109700
+    },
+    {
+      "epoch": 17.896411092985318,
+      "grad_norm": 0.00023219654394779354,
+      "learning_rate": 3.332722623948814e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 236983440,
+      "step": 109705
+    },
+    {
+      "epoch": 17.897226753670473,
+      "grad_norm": 0.0038019700441509485,
+      "learning_rate": 3.330167889036295e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 236994928,
+      "step": 109710
+    },
+    {
+      "epoch": 17.89804241435563,
+      "grad_norm": 0.0009693879983387887,
+      "learning_rate": 3.327614099947124e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 237006224,
+      "step": 109715
+    },
+    {
+      "epoch": 17.898858075040785,
+      "grad_norm": 0.0016091925790533423,
+      "learning_rate": 3.325061256733058e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 237017488,
+      "step": 109720
+    },
+    {
+      "epoch": 17.899673735725937,
+      "grad_norm": 0.07085609436035156,
+      "learning_rate": 3.3225093594458465e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 237027696,
+      "step": 109725
+    },
+    {
+      "epoch": 17.900489396411093,
+      "grad_norm": 0.00461050309240818,
+      "learning_rate": 3.319958408137192e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 237038896,
+      "step": 109730
+    },
+    {
+      "epoch": 17.90130505709625,
+      "grad_norm": 0.005827105604112148,
+      "learning_rate": 3.317408402858796e-05,
+      "loss": 0.1704,
+      "num_input_tokens_seen": 237049040,
+      "step": 109735
+    },
+    {
+      "epoch": 17.902120717781404,
+      "grad_norm": 0.015067823231220245,
+      "learning_rate": 3.314859343662335e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 237060048,
+      "step": 109740
+    },
+    {
+      "epoch": 17.902936378466556,
+      "grad_norm": 0.0008944774162955582,
+      "learning_rate": 3.312311230599491e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 237071472,
+      "step": 109745
+    },
+    {
+      "epoch": 17.903752039151712,
+      "grad_norm": 0.00048781235818751156,
+      "learning_rate": 3.3097640637218654e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 237082896,
+      "step": 109750
+    },
+    {
+      "epoch": 17.904567699836868,
+      "grad_norm": 0.07903767377138138,
+      "learning_rate": 3.307217843081123e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 237093776,
+      "step": 109755
+    },
+    {
+      "epoch": 17.905383360522023,
+      "grad_norm": 0.00035915974876843393,
+      "learning_rate": 3.3046725687288285e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 237103440,
+      "step": 109760
+    },
+    {
+      "epoch": 17.90619902120718,
+      "grad_norm": 0.002234160201624036,
+      "learning_rate": 3.302128240716595e-05,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 237113008,
+      "step": 109765
+    },
+    {
+      "epoch": 17.90701468189233,
+      "grad_norm": 0.03307786211371422,
+      "learning_rate": 3.299584859095961e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 237124016,
+      "step": 109770
+    },
+    {
+      "epoch": 17.907830342577487,
+      "grad_norm": 0.0002506078453734517,
+      "learning_rate": 3.297042423918495e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 237135888,
+      "step": 109775
+    },
+    {
+      "epoch": 17.908646003262643,
+      "grad_norm": 0.0012812531786039472,
+      "learning_rate": 3.2945009352357e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 237145968,
+      "step": 109780
+    },
+    {
+      "epoch": 17.9094616639478,
+      "grad_norm": 0.0002897421072702855,
+      "learning_rate": 3.291960393099108e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 237155024,
+      "step": 109785
+    },
+    {
+      "epoch": 17.910277324632954,
+      "grad_norm": 0.0034674883354455233,
+      "learning_rate": 3.289420797560172e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 237165616,
+      "step": 109790
+    },
+    {
+      "epoch": 17.911092985318106,
+      "grad_norm": 0.018525205552577972,
+      "learning_rate": 3.2868821486704003e-05,
+      "loss": 0.007,
+      "num_input_tokens_seen": 237177200,
+      "step": 109795
+    },
+    {
+      "epoch": 17.911908646003262,
+      "grad_norm": 0.007207350339740515,
+      "learning_rate": 3.284344446481208e-05,
+      "loss": 0.0257,
+      "num_input_tokens_seen": 237188592,
+      "step": 109800
+    },
+    {
+      "epoch": 17.912724306688418,
+      "grad_norm": 0.0070750233717262745,
+      "learning_rate": 3.2818076910440476e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 237198320,
+      "step": 109805
+    },
+    {
+      "epoch": 17.913539967373573,
+      "grad_norm": 0.00534399040043354,
+      "learning_rate": 3.279271882410312e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 237209616,
+      "step": 109810
+    },
+    {
+      "epoch": 17.91435562805873,
+      "grad_norm": 0.0017620498547330499,
+      "learning_rate": 3.27673702063141e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 237220720,
+      "step": 109815
+    },
+    {
+      "epoch": 17.91517128874388,
+      "grad_norm": 0.002240038476884365,
+      "learning_rate": 3.274203105758694e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 237231440,
+      "step": 109820
+    },
+    {
+      "epoch": 17.915986949429037,
+      "grad_norm": 0.0004176609800197184,
+      "learning_rate": 3.2716701378435355e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 237242640,
+      "step": 109825
+    },
+    {
+      "epoch": 17.916802610114193,
+      "grad_norm": 0.004200051072984934,
+      "learning_rate": 3.269138116937259e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 237253744,
+      "step": 109830
+    },
+    {
+      "epoch": 17.91761827079935,
+      "grad_norm": 0.00025301595451310277,
+      "learning_rate": 3.2666070430911796e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 237265168,
+      "step": 109835
+    },
+    {
+      "epoch": 17.918433931484504,
+      "grad_norm": 0.0005692046834155917,
+      "learning_rate": 3.264076916356601e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 237276336,
+      "step": 109840
+    },
+    {
+      "epoch": 17.919249592169656,
+      "grad_norm": 0.004916089586913586,
+      "learning_rate": 3.2615477367847866e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 237288784,
+      "step": 109845
+    },
+    {
+      "epoch": 17.920065252854812,
+      "grad_norm": 0.001998396823182702,
+      "learning_rate": 3.2590195044269965e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 237300112,
+      "step": 109850
+    },
+    {
+      "epoch": 17.920880913539968,
+      "grad_norm": 0.002172433538362384,
+      "learning_rate": 3.256492219334478e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 237311248,
+      "step": 109855
+    },
+    {
+      "epoch": 17.921696574225123,
+      "grad_norm": 0.022449221462011337,
+      "learning_rate": 3.2539658815584404e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 237321552,
+      "step": 109860
+    },
+    {
+      "epoch": 17.92251223491028,
+      "grad_norm": 0.003850628389045596,
+      "learning_rate": 3.2514404911500814e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 237331248,
+      "step": 109865
+    },
+    {
+      "epoch": 17.92332789559543,
+      "grad_norm": 0.46473076939582825,
+      "learning_rate": 3.248916048160588e-05,
+      "loss": 0.028,
+      "num_input_tokens_seen": 237342096,
+      "step": 109870
+    },
+    {
+      "epoch": 17.924143556280587,
+      "grad_norm": 0.0005388594581745565,
+      "learning_rate": 3.246392552641125e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 237352048,
+      "step": 109875
+    },
+    {
+      "epoch": 17.924959216965743,
+      "grad_norm": 0.0011852516327053308,
+      "learning_rate": 3.2438700046428185e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 237362992,
+      "step": 109880
+    },
+    {
+      "epoch": 17.9257748776509,
+      "grad_norm": 0.0035580755211412907,
+      "learning_rate": 3.2413484042167984e-05,
+      "loss": 0.0362,
+      "num_input_tokens_seen": 237373392,
+      "step": 109885
+    },
+    {
+      "epoch": 17.92659053833605,
+      "grad_norm": 0.0026270966045558453,
+      "learning_rate": 3.2388277514141864e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 237384432,
+      "step": 109890
+    },
+    {
+      "epoch": 17.927406199021206,
+      "grad_norm": 0.04227229207754135,
+      "learning_rate": 3.236308046286035e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 237395344,
+      "step": 109895
+    },
+    {
+      "epoch": 17.928221859706362,
+      "grad_norm": 0.194888174533844,
+      "learning_rate": 3.2337892888834375e-05,
+      "loss": 0.0175,
+      "num_input_tokens_seen": 237406192,
+      "step": 109900
+    },
+    {
+      "epoch": 17.929037520391518,
+      "grad_norm": 0.000787916244007647,
+      "learning_rate": 3.231271479257414e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 237416880,
+      "step": 109905
+    },
+    {
+      "epoch": 17.929853181076673,
+      "grad_norm": 0.00029855401953682303,
+      "learning_rate": 3.228754617459023e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 237427440,
+      "step": 109910
+    },
+    {
+      "epoch": 17.930668841761825,
+      "grad_norm": 0.01982448808848858,
+      "learning_rate": 3.2262387035392305e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 237437328,
+      "step": 109915
+    },
+    {
+      "epoch": 17.93148450244698,
+      "grad_norm": 0.019642792642116547,
+      "learning_rate": 3.2237237375490666e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 237448048,
+      "step": 109920
+    },
+    {
+      "epoch": 17.932300163132137,
+      "grad_norm": 0.0037098608445376158,
+      "learning_rate": 3.221209719539469e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 237459376,
+      "step": 109925
+    },
+    {
+      "epoch": 17.933115823817293,
+      "grad_norm": 0.0006825768505223095,
+      "learning_rate": 3.218696649561409e-05,
+      "loss": 0.1397,
+      "num_input_tokens_seen": 237470384,
+      "step": 109930
+    },
+    {
+      "epoch": 17.93393148450245,
+      "grad_norm": 0.0034533455036580563,
+      "learning_rate": 3.2161845276658e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 237480784,
+      "step": 109935
+    },
+    {
+      "epoch": 17.9347471451876,
+      "grad_norm": 0.00120734260417521,
+      "learning_rate": 3.213673353903568e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 237490864,
+      "step": 109940
+    },
+    {
+      "epoch": 17.935562805872756,
+      "grad_norm": 0.009501025080680847,
+      "learning_rate": 3.211163128325589e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 237502352,
+      "step": 109945
+    },
+    {
+      "epoch": 17.936378466557912,
+      "grad_norm": 0.0702584832906723,
+      "learning_rate": 3.208653850982746e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 237512432,
+      "step": 109950
+    },
+    {
+      "epoch": 17.937194127243067,
+      "grad_norm": 0.0038338962476700544,
+      "learning_rate": 3.206145521925896e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 237521744,
+      "step": 109955
+    },
+    {
+      "epoch": 17.938009787928223,
+      "grad_norm": 0.16808141767978668,
+      "learning_rate": 3.2036381412058725e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 237531920,
+      "step": 109960
+    },
+    {
+      "epoch": 17.938825448613375,
+      "grad_norm": 0.006209705490618944,
+      "learning_rate": 3.2011317088734836e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 237542640,
+      "step": 109965
+    },
+    {
+      "epoch": 17.93964110929853,
+      "grad_norm": 0.0027591967955231667,
+      "learning_rate": 3.1986262249795286e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 237552976,
+      "step": 109970
+    },
+    {
+      "epoch": 17.940456769983687,
+      "grad_norm": 0.10435988754034042,
+      "learning_rate": 3.196121689574782e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 237563408,
+      "step": 109975
+    },
+    {
+      "epoch": 17.941272430668842,
+      "grad_norm": 0.00376000814139843,
+      "learning_rate": 3.193618102710011e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 237574000,
+      "step": 109980
+    },
+    {
+      "epoch": 17.942088091353998,
+      "grad_norm": 0.6628631949424744,
+      "learning_rate": 3.191115464435945e-05,
+      "loss": 0.0781,
+      "num_input_tokens_seen": 237584976,
+      "step": 109985
+    },
+    {
+      "epoch": 17.94290375203915,
+      "grad_norm": 0.0003267792926635593,
+      "learning_rate": 3.188613774803306e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 237595600,
+      "step": 109990
+    },
+    {
+      "epoch": 17.943719412724306,
+      "grad_norm": 0.0014076323714107275,
+      "learning_rate": 3.186113033862792e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 237606512,
+      "step": 109995
+    },
+    {
+      "epoch": 17.94453507340946,
+      "grad_norm": 0.002126255538314581,
+      "learning_rate": 3.1836132416650844e-05,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 237616816,
+      "step": 110000
+    },
+    {
+      "epoch": 17.945350734094617,
+      "grad_norm": 0.004582113586366177,
+      "learning_rate": 3.1811143982608426e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 237627920,
+      "step": 110005
+    },
+    {
+      "epoch": 17.946166394779773,
+      "grad_norm": 0.004174842499196529,
+      "learning_rate": 3.1786165037007156e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 237638800,
+      "step": 110010
+    },
+    {
+      "epoch": 17.946982055464925,
+      "grad_norm": 0.0007544121472164989,
+      "learning_rate": 3.176119558035323e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 237648304,
+      "step": 110015
+    },
+    {
+      "epoch": 17.94779771615008,
+      "grad_norm": 0.008781618438661098,
+      "learning_rate": 3.173623561315259e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 237659984,
+      "step": 110020
+    },
+    {
+      "epoch": 17.948613376835237,
+      "grad_norm": 0.007624879479408264,
+      "learning_rate": 3.171128513591132e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 237670832,
+      "step": 110025
+    },
+    {
+      "epoch": 17.949429037520392,
+      "grad_norm": 0.00031044858042150736,
+      "learning_rate": 3.1686344149134735e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 237682672,
+      "step": 110030
+    },
+    {
+      "epoch": 17.950244698205548,
+      "grad_norm": 0.0014524642610922456,
+      "learning_rate": 3.1661412653328724e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 237694000,
+      "step": 110035
+    },
+    {
+      "epoch": 17.9510603588907,
+      "grad_norm": 0.0019769843202084303,
+      "learning_rate": 3.1636490648998095e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 237704336,
+      "step": 110040
+    },
+    {
+      "epoch": 17.951876019575856,
+      "grad_norm": 0.0006612506695091724,
+      "learning_rate": 3.1611578136648336e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 237715216,
+      "step": 110045
+    },
+    {
+      "epoch": 17.95269168026101,
+      "grad_norm": 0.003691247198730707,
+      "learning_rate": 3.158667511678393e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 237725744,
+      "step": 110050
+    },
+    {
+      "epoch": 17.953507340946167,
+      "grad_norm": 0.02169613167643547,
+      "learning_rate": 3.156178158990991e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 237736688,
+      "step": 110055
+    },
+    {
+      "epoch": 17.954323001631323,
+      "grad_norm": 0.004092794377356768,
+      "learning_rate": 3.153689755653061e-05,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 237746640,
+      "step": 110060
+    },
+    {
+      "epoch": 17.955138662316475,
+      "grad_norm": 0.004916083998978138,
+      "learning_rate": 3.151202301715034e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 237757488,
+      "step": 110065
+    },
+    {
+      "epoch": 17.95595432300163,
+      "grad_norm": 0.005175785627216101,
+      "learning_rate": 3.148715797227331e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 237768016,
+      "step": 110070
+    },
+    {
+      "epoch": 17.956769983686787,
+      "grad_norm": 0.000567434064578265,
+      "learning_rate": 3.1462302422403334e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 237779792,
+      "step": 110075
+    },
+    {
+      "epoch": 17.957585644371942,
+      "grad_norm": 0.0003794727090280503,
+      "learning_rate": 3.143745636804418e-05,
+      "loss": 0.0146,
+      "num_input_tokens_seen": 237790640,
+      "step": 110080
+    },
+    {
+      "epoch": 17.958401305057095,
+      "grad_norm": 0.00449990713968873,
+      "learning_rate": 3.14126198096994e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 237800240,
+      "step": 110085
+    },
+    {
+      "epoch": 17.95921696574225,
+      "grad_norm": 0.0035965435672551394,
+      "learning_rate": 3.138779274787235e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 237811216,
+      "step": 110090
+    },
+    {
+      "epoch": 17.960032626427406,
+      "grad_norm": 0.0003991451230831444,
+      "learning_rate": 3.136297518306614e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 237820528,
+      "step": 110095
+    },
+    {
+      "epoch": 17.96084828711256,
+      "grad_norm": 0.003139512613415718,
+      "learning_rate": 3.133816711578369e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 237831504,
+      "step": 110100
+    },
+    {
+      "epoch": 17.961663947797717,
+      "grad_norm": 0.00021856573584955186,
+      "learning_rate": 3.131336854652789e-05,
+      "loss": 0.0894,
+      "num_input_tokens_seen": 237842224,
+      "step": 110105
+    },
+    {
+      "epoch": 17.96247960848287,
+      "grad_norm": 0.0007067588157951832,
+      "learning_rate": 3.1288579475801215e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 237853680,
+      "step": 110110
+    },
+    {
+      "epoch": 17.963295269168025,
+      "grad_norm": 0.057319898158311844,
+      "learning_rate": 3.12637999041061e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 237863856,
+      "step": 110115
+    },
+    {
+      "epoch": 17.96411092985318,
+      "grad_norm": 0.027158288285136223,
+      "learning_rate": 3.123902983194471e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 237874800,
+      "step": 110120
+    },
+    {
+      "epoch": 17.964926590538337,
+      "grad_norm": 0.007293624337762594,
+      "learning_rate": 3.1214269259819014e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 237885616,
+      "step": 110125
+    },
+    {
+      "epoch": 17.965742251223492,
+      "grad_norm": 0.00030968463397584856,
+      "learning_rate": 3.11895181882309e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 237896784,
+      "step": 110130
+    },
+    {
+      "epoch": 17.966557911908644,
+      "grad_norm": 0.044866591691970825,
+      "learning_rate": 3.116477661768191e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 237906768,
+      "step": 110135
+    },
+    {
+      "epoch": 17.9673735725938,
+      "grad_norm": 0.3906330466270447,
+      "learning_rate": 3.1140044548673476e-05,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 237917456,
+      "step": 110140
+    },
+    {
+      "epoch": 17.968189233278956,
+      "grad_norm": 0.0008933874778449535,
+      "learning_rate": 3.11153219817068e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 237928848,
+      "step": 110145
+    },
+    {
+      "epoch": 17.96900489396411,
+      "grad_norm": 0.008592470549046993,
+      "learning_rate": 3.109060891728299e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 237938960,
+      "step": 110150
+    },
+    {
+      "epoch": 17.969820554649267,
+      "grad_norm": 0.008075353689491749,
+      "learning_rate": 3.1065905355902865e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 237949680,
+      "step": 110155
+    },
+    {
+      "epoch": 17.97063621533442,
+      "grad_norm": 0.005265532527118921,
+      "learning_rate": 3.104121129806697e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 237961424,
+      "step": 110160
+    },
+    {
+      "epoch": 17.971451876019575,
+      "grad_norm": 0.0018472732044756413,
+      "learning_rate": 3.101652674427585e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 237973232,
+      "step": 110165
+    },
+    {
+      "epoch": 17.97226753670473,
+      "grad_norm": 0.0158048328012228,
+      "learning_rate": 3.0991851695029825e-05,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 237985296,
+      "step": 110170
+    },
+    {
+      "epoch": 17.973083197389887,
+      "grad_norm": 0.000548655865713954,
+      "learning_rate": 3.0967186150828886e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 237994096,
+      "step": 110175
+    },
+    {
+      "epoch": 17.973898858075042,
+      "grad_norm": 0.028464488685131073,
+      "learning_rate": 3.0942530112172905e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 238005392,
+      "step": 110180
+    },
+    {
+      "epoch": 17.974714518760194,
+      "grad_norm": 0.011310449801385403,
+      "learning_rate": 3.0917883579561604e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 238017072,
+      "step": 110185
+    },
+    {
+      "epoch": 17.97553017944535,
+      "grad_norm": 0.012373429723083973,
+      "learning_rate": 3.0893246553494516e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 238028112,
+      "step": 110190
+    },
+    {
+      "epoch": 17.976345840130506,
+      "grad_norm": 0.0010668218601495028,
+      "learning_rate": 3.08686190344708e-05,
+      "loss": 0.0271,
+      "num_input_tokens_seen": 238040240,
+      "step": 110195
+    },
+    {
+      "epoch": 17.97716150081566,
+      "grad_norm": 0.007802395615726709,
+      "learning_rate": 3.084400102298973e-05,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 238051408,
+      "step": 110200
+    },
+    {
+      "epoch": 17.977977161500817,
+      "grad_norm": 0.011837205849587917,
+      "learning_rate": 3.0819392519550125e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 238062160,
+      "step": 110205
+    },
+    {
+      "epoch": 17.97879282218597,
+      "grad_norm": 0.002454120898619294,
+      "learning_rate": 3.079479352465076e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 238073520,
+      "step": 110210
+    },
+    {
+      "epoch": 17.979608482871125,
+      "grad_norm": 0.0006663525127805769,
+      "learning_rate": 3.077020403879005e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 238083952,
+      "step": 110215
+    },
+    {
+      "epoch": 17.98042414355628,
+      "grad_norm": 0.0008392453892156482,
+      "learning_rate": 3.07456240624665e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238095120,
+      "step": 110220
+    },
+    {
+      "epoch": 17.981239804241437,
+      "grad_norm": 0.008441498503088951,
+      "learning_rate": 3.072105359617811e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 238105072,
+      "step": 110225
+    },
+    {
+      "epoch": 17.982055464926592,
+      "grad_norm": 0.000342810177244246,
+      "learning_rate": 3.0696492640422954e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 238114928,
+      "step": 110230
+    },
+    {
+      "epoch": 17.982871125611744,
+      "grad_norm": 0.0003783302381634712,
+      "learning_rate": 3.067194119569866e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 238124944,
+      "step": 110235
+    },
+    {
+      "epoch": 17.9836867862969,
+      "grad_norm": 0.16300013661384583,
+      "learning_rate": 3.064739926250293e-05,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 238135888,
+      "step": 110240
+    },
+    {
+      "epoch": 17.984502446982056,
+      "grad_norm": 0.0008707176893949509,
+      "learning_rate": 3.062286684133303e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 238146448,
+      "step": 110245
+    },
+    {
+      "epoch": 17.98531810766721,
+      "grad_norm": 0.008672765456140041,
+      "learning_rate": 3.059834393268618e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 238156976,
+      "step": 110250
+    },
+    {
+      "epoch": 17.986133768352367,
+      "grad_norm": 0.018309568986296654,
+      "learning_rate": 3.057383053705937e-05,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 238168528,
+      "step": 110255
+    },
+    {
+      "epoch": 17.98694942903752,
+      "grad_norm": 0.030882669612765312,
+      "learning_rate": 3.054932665494936e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 238179952,
+      "step": 110260
+    },
+    {
+      "epoch": 17.987765089722675,
+      "grad_norm": 0.0036772945895791054,
+      "learning_rate": 3.052483228685282e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 238191312,
+      "step": 110265
+    },
+    {
+      "epoch": 17.98858075040783,
+      "grad_norm": 0.008443798869848251,
+      "learning_rate": 3.050034743326613e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 238203088,
+      "step": 110270
+    },
+    {
+      "epoch": 17.989396411092986,
+      "grad_norm": 0.0029752785339951515,
+      "learning_rate": 3.0475872094685443e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 238213968,
+      "step": 110275
+    },
+    {
+      "epoch": 17.99021207177814,
+      "grad_norm": 0.005904734134674072,
+      "learning_rate": 3.0451406271606974e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238224752,
+      "step": 110280
+    },
+    {
+      "epoch": 17.991027732463294,
+      "grad_norm": 0.0010160219389945269,
+      "learning_rate": 3.0426949964526272e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 238235536,
+      "step": 110285
+    },
+    {
+      "epoch": 17.99184339314845,
+      "grad_norm": 0.12286140024662018,
+      "learning_rate": 3.0402503173939277e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 238246448,
+      "step": 110290
+    },
+    {
+      "epoch": 17.992659053833606,
+      "grad_norm": 0.002489682286977768,
+      "learning_rate": 3.0378065900341146e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 238257744,
+      "step": 110295
+    },
+    {
+      "epoch": 17.99347471451876,
+      "grad_norm": 0.0010223733261227608,
+      "learning_rate": 3.035363814422737e-05,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 238267952,
+      "step": 110300
+    },
+    {
+      "epoch": 17.994290375203914,
+      "grad_norm": 0.00035545893479138613,
+      "learning_rate": 3.0329219906092776e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 238278288,
+      "step": 110305
+    },
+    {
+      "epoch": 17.99510603588907,
+      "grad_norm": 0.0034552181605249643,
+      "learning_rate": 3.030481118643247e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 238288752,
+      "step": 110310
+    },
+    {
+      "epoch": 17.995921696574225,
+      "grad_norm": 0.0017270646058022976,
+      "learning_rate": 3.0280411985740995e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 238299600,
+      "step": 110315
+    },
+    {
+      "epoch": 17.99673735725938,
+      "grad_norm": 0.0005409326404333115,
+      "learning_rate": 3.0256022304512854e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 238310128,
+      "step": 110320
+    },
+    {
+      "epoch": 17.997553017944536,
+      "grad_norm": 0.05676782503724098,
+      "learning_rate": 3.023164214324231e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 238321808,
+      "step": 110325
+    },
+    {
+      "epoch": 17.99836867862969,
+      "grad_norm": 0.0008575510582886636,
+      "learning_rate": 3.0207271502423527e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 238332176,
+      "step": 110330
+    },
+    {
+      "epoch": 17.999184339314844,
+      "grad_norm": 0.00040171988075599074,
+      "learning_rate": 3.018291038255033e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 238343280,
+      "step": 110335
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.0528254434466362,
+      "learning_rate": 3.0158558784116442e-05,
+      "loss": 0.0617,
+      "num_input_tokens_seen": 238352272,
+      "step": 110340
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.32154321670532227,
+      "eval_runtime": 103.778,
+      "eval_samples_per_second": 26.258,
+      "eval_steps_per_second": 6.572,
+      "num_input_tokens_seen": 238352272,
+      "step": 110340
+    },
+    {
+      "epoch": 18.000815660685156,
+      "grad_norm": 0.0019651330076158047,
+      "learning_rate": 3.0134216707615404e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 238364784,
+      "step": 110345
+    },
+    {
+      "epoch": 18.00163132137031,
+      "grad_norm": 0.0010777993593364954,
+      "learning_rate": 3.0109884153540545e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238372880,
+      "step": 110350
+    },
+    {
+      "epoch": 18.002446982055464,
+      "grad_norm": 0.021584536880254745,
+      "learning_rate": 3.0085561122384974e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 238383504,
+      "step": 110355
+    },
+    {
+      "epoch": 18.00326264274062,
+      "grad_norm": 0.004007100127637386,
+      "learning_rate": 3.0061247614641684e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 238394192,
+      "step": 110360
+    },
+    {
+      "epoch": 18.004078303425775,
+      "grad_norm": 0.0018758628284558654,
+      "learning_rate": 3.0036943630803282e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 238405584,
+      "step": 110365
+    },
+    {
+      "epoch": 18.00489396411093,
+      "grad_norm": 0.0010444171493873,
+      "learning_rate": 3.0012649171362482e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 238417232,
+      "step": 110370
+    },
+    {
+      "epoch": 18.005709624796086,
+      "grad_norm": 0.0003816418757196516,
+      "learning_rate": 2.998836423681156e-05,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 238429552,
+      "step": 110375
+    },
+    {
+      "epoch": 18.00652528548124,
+      "grad_norm": 0.009662347845733166,
+      "learning_rate": 2.9964088827642564e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 238440304,
+      "step": 110380
+    },
+    {
+      "epoch": 18.007340946166394,
+      "grad_norm": 0.027501266449689865,
+      "learning_rate": 2.993982294434777e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 238449552,
+      "step": 110385
+    },
+    {
+      "epoch": 18.00815660685155,
+      "grad_norm": 0.033807143568992615,
+      "learning_rate": 2.991556658741862e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 238460944,
+      "step": 110390
+    },
+    {
+      "epoch": 18.008972267536706,
+      "grad_norm": 0.0020302990451455116,
+      "learning_rate": 2.9891319757347047e-05,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 238471568,
+      "step": 110395
+    },
+    {
+      "epoch": 18.00978792822186,
+      "grad_norm": 0.0008874621125869453,
+      "learning_rate": 2.986708245462405e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238482128,
+      "step": 110400
+    },
+    {
+      "epoch": 18.010603588907014,
+      "grad_norm": 0.0006465526530519128,
+      "learning_rate": 2.984285467974124e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 238494288,
+      "step": 110405
+    },
+    {
+      "epoch": 18.01141924959217,
+      "grad_norm": 0.014971431344747543,
+      "learning_rate": 2.981863643318922e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 238505104,
+      "step": 110410
+    },
+    {
+      "epoch": 18.012234910277325,
+      "grad_norm": 0.003481280989944935,
+      "learning_rate": 2.979442771545915e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 238516144,
+      "step": 110415
+    },
+    {
+      "epoch": 18.01305057096248,
+      "grad_norm": 0.007337215356528759,
+      "learning_rate": 2.9770228527041364e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 238528496,
+      "step": 110420
+    },
+    {
+      "epoch": 18.013866231647636,
+      "grad_norm": 0.01175409834831953,
+      "learning_rate": 2.9746038868426584e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 238538448,
+      "step": 110425
+    },
+    {
+      "epoch": 18.01468189233279,
+      "grad_norm": 0.0015376220690086484,
+      "learning_rate": 2.9721858740104747e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 238548432,
+      "step": 110430
+    },
+    {
+      "epoch": 18.015497553017944,
+      "grad_norm": 0.0022492543794214725,
+      "learning_rate": 2.9697688142566127e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238557456,
+      "step": 110435
+    },
+    {
+      "epoch": 18.0163132137031,
+      "grad_norm": 0.012653055600821972,
+      "learning_rate": 2.967352707630039e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 238568464,
+      "step": 110440
+    },
+    {
+      "epoch": 18.017128874388256,
+      "grad_norm": 0.0003922838077414781,
+      "learning_rate": 2.9649375541797418e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 238580464,
+      "step": 110445
+    },
+    {
+      "epoch": 18.017944535073408,
+      "grad_norm": 0.001494093332439661,
+      "learning_rate": 2.9625233539546326e-05,
+      "loss": 0.0482,
+      "num_input_tokens_seen": 238590864,
+      "step": 110450
+    },
+    {
+      "epoch": 18.018760195758563,
+      "grad_norm": 0.005561790894716978,
+      "learning_rate": 2.960110107003672e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 238603024,
+      "step": 110455
+    },
+    {
+      "epoch": 18.01957585644372,
+      "grad_norm": 0.0008520457777194679,
+      "learning_rate": 2.9576978133757536e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 238614320,
+      "step": 110460
+    },
+    {
+      "epoch": 18.020391517128875,
+      "grad_norm": 0.7163333892822266,
+      "learning_rate": 2.955286473119767e-05,
+      "loss": 0.0741,
+      "num_input_tokens_seen": 238624720,
+      "step": 110465
+    },
+    {
+      "epoch": 18.02120717781403,
+      "grad_norm": 0.03220055624842644,
+      "learning_rate": 2.9528760862845783e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 238636848,
+      "step": 110470
+    },
+    {
+      "epoch": 18.022022838499183,
+      "grad_norm": 0.00888325646519661,
+      "learning_rate": 2.9504666529190426e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 238648336,
+      "step": 110475
+    },
+    {
+      "epoch": 18.02283849918434,
+      "grad_norm": 0.007564366329461336,
+      "learning_rate": 2.9480581730719825e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238658224,
+      "step": 110480
+    },
+    {
+      "epoch": 18.023654159869494,
+      "grad_norm": 0.0019379006698727608,
+      "learning_rate": 2.945650646792214e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238669744,
+      "step": 110485
+    },
+    {
+      "epoch": 18.02446982055465,
+      "grad_norm": 0.0025463791098445654,
+      "learning_rate": 2.9432440741285314e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 238680720,
+      "step": 110490
+    },
+    {
+      "epoch": 18.025285481239806,
+      "grad_norm": 0.38154155015945435,
+      "learning_rate": 2.940838455129696e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 238691504,
+      "step": 110495
+    },
+    {
+      "epoch": 18.026101141924958,
+      "grad_norm": 0.044939037412405014,
+      "learning_rate": 2.9384337898444747e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 238702160,
+      "step": 110500
+    },
+    {
+      "epoch": 18.026916802610113,
+      "grad_norm": 0.0029059057123959064,
+      "learning_rate": 2.9360300783215832e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 238712208,
+      "step": 110505
+    },
+    {
+      "epoch": 18.02773246329527,
+      "grad_norm": 0.007650961168110371,
+      "learning_rate": 2.9336273206097663e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 238721840,
+      "step": 110510
+    },
+    {
+      "epoch": 18.028548123980425,
+      "grad_norm": 0.0004907246329821646,
+      "learning_rate": 2.931225516757685e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 238732784,
+      "step": 110515
+    },
+    {
+      "epoch": 18.02936378466558,
+      "grad_norm": 0.006268959492444992,
+      "learning_rate": 2.9288246668140396e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 238743600,
+      "step": 110520
+    },
+    {
+      "epoch": 18.030179445350733,
+      "grad_norm": 0.216169536113739,
+      "learning_rate": 2.9264247708274628e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 238754576,
+      "step": 110525
+    },
+    {
+      "epoch": 18.03099510603589,
+      "grad_norm": 0.0017121587879955769,
+      "learning_rate": 2.9240258288466215e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 238765680,
+      "step": 110530
+    },
+    {
+      "epoch": 18.031810766721044,
+      "grad_norm": 0.0071411821991205215,
+      "learning_rate": 2.921627840920099e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 238776464,
+      "step": 110535
+    },
+    {
+      "epoch": 18.0326264274062,
+      "grad_norm": 0.03119852766394615,
+      "learning_rate": 2.919230807096529e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 238787824,
+      "step": 110540
+    },
+    {
+      "epoch": 18.033442088091356,
+      "grad_norm": 0.003736414248123765,
+      "learning_rate": 2.916834727424461e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 238797872,
+      "step": 110545
+    },
+    {
+      "epoch": 18.034257748776508,
+      "grad_norm": 0.002718925941735506,
+      "learning_rate": 2.9144396019524788e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 238807248,
+      "step": 110550
+    },
+    {
+      "epoch": 18.035073409461663,
+      "grad_norm": 0.008032168261706829,
+      "learning_rate": 2.9120454307290933e-05,
+      "loss": 0.0566,
+      "num_input_tokens_seen": 238818256,
+      "step": 110555
+    },
+    {
+      "epoch": 18.03588907014682,
+      "grad_norm": 0.027552763000130653,
+      "learning_rate": 2.90965221380286e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 238828688,
+      "step": 110560
+    },
+    {
+      "epoch": 18.036704730831975,
+      "grad_norm": 0.040653783828020096,
+      "learning_rate": 2.9072599512222464e-05,
+      "loss": 0.052,
+      "num_input_tokens_seen": 238839696,
+      "step": 110565
+    },
+    {
+      "epoch": 18.03752039151713,
+      "grad_norm": 0.008090752176940441,
+      "learning_rate": 2.9048686430357685e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 238851440,
+      "step": 110570
+    },
+    {
+      "epoch": 18.038336052202283,
+      "grad_norm": 0.0007834371645003557,
+      "learning_rate": 2.9024782892918543e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 238862288,
+      "step": 110575
+    },
+    {
+      "epoch": 18.03915171288744,
+      "grad_norm": 0.00212163757532835,
+      "learning_rate": 2.9000888900389764e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 238873776,
+      "step": 110580
+    },
+    {
+      "epoch": 18.039967373572594,
+      "grad_norm": 0.0008154436945915222,
+      "learning_rate": 2.8977004453255406e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 238884720,
+      "step": 110585
+    },
+    {
+      "epoch": 18.04078303425775,
+      "grad_norm": 0.0016963942907750607,
+      "learning_rate": 2.8953129551999634e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 238894320,
+      "step": 110590
+    },
+    {
+      "epoch": 18.041598694942905,
+      "grad_norm": 0.011484961025416851,
+      "learning_rate": 2.892926419710623e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 238903920,
+      "step": 110595
+    },
+    {
+      "epoch": 18.042414355628058,
+      "grad_norm": 0.03104168362915516,
+      "learning_rate": 2.8905408389058917e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 238914896,
+      "step": 110600
+    },
+    {
+      "epoch": 18.043230016313213,
+      "grad_norm": 0.0025729406625032425,
+      "learning_rate": 2.8881562128341088e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 238925552,
+      "step": 110605
+    },
+    {
+      "epoch": 18.04404567699837,
+      "grad_norm": 0.002775913570076227,
+      "learning_rate": 2.885772541543613e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 238936784,
+      "step": 110610
+    },
+    {
+      "epoch": 18.044861337683525,
+      "grad_norm": 0.001294884947128594,
+      "learning_rate": 2.8833898250826994e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 238948688,
+      "step": 110615
+    },
+    {
+      "epoch": 18.045676998368677,
+      "grad_norm": 0.0018858517287299037,
+      "learning_rate": 2.881008063499663e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 238959664,
+      "step": 110620
+    },
+    {
+      "epoch": 18.046492659053833,
+      "grad_norm": 0.0010302024893462658,
+      "learning_rate": 2.878627256842775e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 238971440,
+      "step": 110625
+    },
+    {
+      "epoch": 18.04730831973899,
+      "grad_norm": 0.002369890222325921,
+      "learning_rate": 2.8762474051602816e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 238981552,
+      "step": 110630
+    },
+    {
+      "epoch": 18.048123980424144,
+      "grad_norm": 0.0025272388011217117,
+      "learning_rate": 2.8738685085004156e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 238993168,
+      "step": 110635
+    },
+    {
+      "epoch": 18.0489396411093,
+      "grad_norm": 0.0013844823697581887,
+      "learning_rate": 2.871490566911389e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 239004944,
+      "step": 110640
+    },
+    {
+      "epoch": 18.049755301794452,
+      "grad_norm": 0.0002905686560552567,
+      "learning_rate": 2.8691135804413905e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 239014320,
+      "step": 110645
+    },
+    {
+      "epoch": 18.050570962479608,
+      "grad_norm": 0.012505102902650833,
+      "learning_rate": 2.8667375491385928e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 239026064,
+      "step": 110650
+    },
+    {
+      "epoch": 18.051386623164763,
+      "grad_norm": 0.0537576824426651,
+      "learning_rate": 2.864362473051163e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 239037456,
+      "step": 110655
+    },
+    {
+      "epoch": 18.05220228384992,
+      "grad_norm": 0.0007542030070908368,
+      "learning_rate": 2.8619883522272072e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 239048976,
+      "step": 110660
+    },
+    {
+      "epoch": 18.053017944535075,
+      "grad_norm": 0.0008729331311769783,
+      "learning_rate": 2.85961518671487e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 239059216,
+      "step": 110665
+    },
+    {
+      "epoch": 18.053833605220227,
+      "grad_norm": 0.007356339134275913,
+      "learning_rate": 2.8572429765622243e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 239069648,
+      "step": 110670
+    },
+    {
+      "epoch": 18.054649265905383,
+      "grad_norm": 0.006332451477646828,
+      "learning_rate": 2.8548717218173647e-05,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 239081744,
+      "step": 110675
+    },
+    {
+      "epoch": 18.05546492659054,
+      "grad_norm": 0.17264924943447113,
+      "learning_rate": 2.8525014225283195e-05,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 239092144,
+      "step": 110680
+    },
+    {
+      "epoch": 18.056280587275694,
+      "grad_norm": 0.006838109809905291,
+      "learning_rate": 2.8501320787431673e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 239104016,
+      "step": 110685
+    },
+    {
+      "epoch": 18.05709624796085,
+      "grad_norm": 0.008148097433149815,
+      "learning_rate": 2.8477636905098802e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 239114576,
+      "step": 110690
+    },
+    {
+      "epoch": 18.057911908646002,
+      "grad_norm": 0.0005130280624143779,
+      "learning_rate": 2.845396257876487e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 239125264,
+      "step": 110695
+    },
+    {
+      "epoch": 18.058727569331158,
+      "grad_norm": 0.17097468674182892,
+      "learning_rate": 2.84302978089096e-05,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 239136784,
+      "step": 110700
+    },
+    {
+      "epoch": 18.059543230016313,
+      "grad_norm": 0.000584763940423727,
+      "learning_rate": 2.840664259601261e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 239146480,
+      "step": 110705
+    },
+    {
+      "epoch": 18.06035889070147,
+      "grad_norm": 0.036263592541217804,
+      "learning_rate": 2.838299694055324e-05,
+      "loss": 0.0317,
+      "num_input_tokens_seen": 239157840,
+      "step": 110710
+    },
+    {
+      "epoch": 18.061174551386625,
+      "grad_norm": 0.026984870433807373,
+      "learning_rate": 2.835936084301072e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 239167152,
+      "step": 110715
+    },
+    {
+      "epoch": 18.061990212071777,
+      "grad_norm": 0.06570431590080261,
+      "learning_rate": 2.8335734303864047e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 239177648,
+      "step": 110720
+    },
+    {
+      "epoch": 18.062805872756933,
+      "grad_norm": 0.004828798584640026,
+      "learning_rate": 2.8312117323592125e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 239188464,
+      "step": 110725
+    },
+    {
+      "epoch": 18.063621533442088,
+      "grad_norm": 0.000707502942532301,
+      "learning_rate": 2.8288509902673454e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 239198896,
+      "step": 110730
+    },
+    {
+      "epoch": 18.064437194127244,
+      "grad_norm": 0.0006841020658612251,
+      "learning_rate": 2.8264912041586598e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 239210640,
+      "step": 110735
+    },
+    {
+      "epoch": 18.0652528548124,
+      "grad_norm": 0.006858312990516424,
+      "learning_rate": 2.8241323740809676e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 239221360,
+      "step": 110740
+    },
+    {
+      "epoch": 18.06606851549755,
+      "grad_norm": 0.002047081710770726,
+      "learning_rate": 2.821774500082086e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 239231856,
+      "step": 110745
+    },
+    {
+      "epoch": 18.066884176182707,
+      "grad_norm": 0.001701177330687642,
+      "learning_rate": 2.819417582209788e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 239242384,
+      "step": 110750
+    },
+    {
+      "epoch": 18.067699836867863,
+      "grad_norm": 0.0004878344479948282,
+      "learning_rate": 2.8170616205118516e-05,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 239253072,
+      "step": 110755
+    },
+    {
+      "epoch": 18.06851549755302,
+      "grad_norm": 0.0009230131399817765,
+      "learning_rate": 2.8147066150360167e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 239263760,
+      "step": 110760
+    },
+    {
+      "epoch": 18.069331158238175,
+      "grad_norm": 0.001374510582536459,
+      "learning_rate": 2.8123525658300066e-05,
+      "loss": 0.0307,
+      "num_input_tokens_seen": 239274288,
+      "step": 110765
+    },
+    {
+      "epoch": 18.070146818923327,
+      "grad_norm": 0.0009231427684426308,
+      "learning_rate": 2.8099994729415377e-05,
+      "loss": 0.108,
+      "num_input_tokens_seen": 239285776,
+      "step": 110770
+    },
+    {
+      "epoch": 18.070962479608482,
+      "grad_norm": 0.0004372471885289997,
+      "learning_rate": 2.8076473364182897e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 239295920,
+      "step": 110775
+    },
+    {
+      "epoch": 18.071778140293638,
+      "grad_norm": 0.0012657229090109468,
+      "learning_rate": 2.8052961563079403e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 239306800,
+      "step": 110780
+    },
+    {
+      "epoch": 18.072593800978794,
+      "grad_norm": 0.004266361240297556,
+      "learning_rate": 2.8029459326581353e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 239317488,
+      "step": 110785
+    },
+    {
+      "epoch": 18.07340946166395,
+      "grad_norm": 0.00956976879388094,
+      "learning_rate": 2.8005966655165026e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 239327312,
+      "step": 110790
+    },
+    {
+      "epoch": 18.0742251223491,
+      "grad_norm": 0.001034679007716477,
+      "learning_rate": 2.7982483549306435e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 239338320,
+      "step": 110795
+    },
+    {
+      "epoch": 18.075040783034257,
+      "grad_norm": 0.0001628376339795068,
+      "learning_rate": 2.795901000948181e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 239347952,
+      "step": 110800
+    },
+    {
+      "epoch": 18.075856443719413,
+      "grad_norm": 0.0015392429195344448,
+      "learning_rate": 2.7935546036166548e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 239358384,
+      "step": 110805
+    },
+    {
+      "epoch": 18.07667210440457,
+      "grad_norm": 0.0050073969177901745,
+      "learning_rate": 2.7912091629836324e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 239369296,
+      "step": 110810
+    },
+    {
+      "epoch": 18.07748776508972,
+      "grad_norm": 0.0005766893737018108,
+      "learning_rate": 2.7888646790966476e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 239379344,
+      "step": 110815
+    },
+    {
+      "epoch": 18.078303425774877,
+      "grad_norm": 0.05712695047259331,
+      "learning_rate": 2.786521152003213e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 239390096,
+      "step": 110820
+    },
+    {
+      "epoch": 18.079119086460032,
+      "grad_norm": 0.0008328685071319342,
+      "learning_rate": 2.784178581750818e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 239401328,
+      "step": 110825
+    },
+    {
+      "epoch": 18.079934747145188,
+      "grad_norm": 0.00018631898274179548,
+      "learning_rate": 2.781836968386947e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 239412688,
+      "step": 110830
+    },
+    {
+      "epoch": 18.080750407830344,
+      "grad_norm": 0.0006286951247602701,
+      "learning_rate": 2.7794963119590454e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 239422960,
+      "step": 110835
+    },
+    {
+      "epoch": 18.081566068515496,
+      "grad_norm": 0.003879460971802473,
+      "learning_rate": 2.7771566125145588e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 239434320,
+      "step": 110840
+    },
+    {
+      "epoch": 18.08238172920065,
+      "grad_norm": 0.0002762196818366647,
+      "learning_rate": 2.774817870100893e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 239445104,
+      "step": 110845
+    },
+    {
+      "epoch": 18.083197389885807,
+      "grad_norm": 0.0018938088323920965,
+      "learning_rate": 2.7724800847654608e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 239457584,
+      "step": 110850
+    },
+    {
+      "epoch": 18.084013050570963,
+      "grad_norm": 0.0024898534175008535,
+      "learning_rate": 2.7701432565556296e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 239469392,
+      "step": 110855
+    },
+    {
+      "epoch": 18.08482871125612,
+      "grad_norm": 0.015188485383987427,
+      "learning_rate": 2.767807385518756e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 239480176,
+      "step": 110860
+    },
+    {
+      "epoch": 18.08564437194127,
+      "grad_norm": 0.00016453674470540136,
+      "learning_rate": 2.765472471702185e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 239490928,
+      "step": 110865
+    },
+    {
+      "epoch": 18.086460032626427,
+      "grad_norm": 0.004059888422489166,
+      "learning_rate": 2.7631385151532405e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 239501200,
+      "step": 110870
+    },
+    {
+      "epoch": 18.087275693311582,
+      "grad_norm": 0.3584325313568115,
+      "learning_rate": 2.7608055159192125e-05,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 239511856,
+      "step": 110875
+    },
+    {
+      "epoch": 18.088091353996738,
+      "grad_norm": 0.009047990664839745,
+      "learning_rate": 2.7584734740473905e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 239522736,
+      "step": 110880
+    },
+    {
+      "epoch": 18.088907014681894,
+      "grad_norm": 0.0010313192615285516,
+      "learning_rate": 2.756142389585037e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 239533744,
+      "step": 110885
+    },
+    {
+      "epoch": 18.089722675367046,
+      "grad_norm": 0.01068951841443777,
+      "learning_rate": 2.753812262579386e-05,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 239543760,
+      "step": 110890
+    },
+    {
+      "epoch": 18.0905383360522,
+      "grad_norm": 0.0006580300396308303,
+      "learning_rate": 2.7514830930776667e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 239554544,
+      "step": 110895
+    },
+    {
+      "epoch": 18.091353996737357,
+      "grad_norm": 0.00027455881354399025,
+      "learning_rate": 2.749154881127086e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 239564880,
+      "step": 110900
+    },
+    {
+      "epoch": 18.092169657422513,
+      "grad_norm": 0.004377785138785839,
+      "learning_rate": 2.7468276267748172e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 239575696,
+      "step": 110905
+    },
+    {
+      "epoch": 18.09298531810767,
+      "grad_norm": 0.004063542932271957,
+      "learning_rate": 2.7445013300680333e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 239586384,
+      "step": 110910
+    },
+    {
+      "epoch": 18.09380097879282,
+      "grad_norm": 0.002702921163290739,
+      "learning_rate": 2.7421759910538745e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 239596688,
+      "step": 110915
+    },
+    {
+      "epoch": 18.094616639477977,
+      "grad_norm": 0.001507585751824081,
+      "learning_rate": 2.739851609779481e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 239607120,
+      "step": 110920
+    },
+    {
+      "epoch": 18.095432300163132,
+      "grad_norm": 0.03425592556595802,
+      "learning_rate": 2.737528186291932e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 239617840,
+      "step": 110925
+    },
+    {
+      "epoch": 18.096247960848288,
+      "grad_norm": 0.011485468596220016,
+      "learning_rate": 2.735205720638351e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 239628880,
+      "step": 110930
+    },
+    {
+      "epoch": 18.097063621533444,
+      "grad_norm": 0.000180011527845636,
+      "learning_rate": 2.732884212865766e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 239639280,
+      "step": 110935
+    },
+    {
+      "epoch": 18.097879282218596,
+      "grad_norm": 0.0004578085499815643,
+      "learning_rate": 2.730563663021257e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 239650704,
+      "step": 110940
+    },
+    {
+      "epoch": 18.09869494290375,
+      "grad_norm": 0.02956857904791832,
+      "learning_rate": 2.7282440711518363e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 239661776,
+      "step": 110945
+    },
+    {
+      "epoch": 18.099510603588907,
+      "grad_norm": 0.003422102192416787,
+      "learning_rate": 2.725925437304522e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 239674512,
+      "step": 110950
+    },
+    {
+      "epoch": 18.100326264274063,
+      "grad_norm": 0.0030121582094579935,
+      "learning_rate": 2.7236077615262976e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 239686352,
+      "step": 110955
+    },
+    {
+      "epoch": 18.10114192495922,
+      "grad_norm": 0.00024480524007230997,
+      "learning_rate": 2.721291043864138e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 239698000,
+      "step": 110960
+    },
+    {
+      "epoch": 18.10195758564437,
+      "grad_norm": 0.0009636294562369585,
+      "learning_rate": 2.7189752843649885e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 239708304,
+      "step": 110965
+    },
+    {
+      "epoch": 18.102773246329527,
+      "grad_norm": 0.0029267354402691126,
+      "learning_rate": 2.716660483075789e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 239719568,
+      "step": 110970
+    },
+    {
+      "epoch": 18.103588907014682,
+      "grad_norm": 0.0013445314252749085,
+      "learning_rate": 2.714346640043447e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 239731184,
+      "step": 110975
+    },
+    {
+      "epoch": 18.104404567699838,
+      "grad_norm": 0.004225427284836769,
+      "learning_rate": 2.7120337553148578e-05,
+      "loss": 0.0093,
+      "num_input_tokens_seen": 239741872,
+      "step": 110980
+    },
+    {
+      "epoch": 18.10522022838499,
+      "grad_norm": 0.007663280237466097,
+      "learning_rate": 2.7097218289368896e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 239754032,
+      "step": 110985
+    },
+    {
+      "epoch": 18.106035889070146,
+      "grad_norm": 0.0012027625925838947,
+      "learning_rate": 2.7074108609564053e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 239765488,
+      "step": 110990
+    },
+    {
+      "epoch": 18.1068515497553,
+      "grad_norm": 0.0012016665423288941,
+      "learning_rate": 2.7051008514202336e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 239775824,
+      "step": 110995
+    },
+    {
+      "epoch": 18.107667210440457,
+      "grad_norm": 0.01750839501619339,
+      "learning_rate": 2.7027918003751873e-05,
+      "loss": 0.0166,
+      "num_input_tokens_seen": 239786608,
+      "step": 111000
+    },
+    {
+      "epoch": 18.108482871125613,
+      "grad_norm": 0.0005055178189650178,
+      "learning_rate": 2.7004837078680678e-05,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 239797200,
+      "step": 111005
+    },
+    {
+      "epoch": 18.109298531810765,
+      "grad_norm": 0.0007495254976674914,
+      "learning_rate": 2.698176573945654e-05,
+      "loss": 0.0821,
+      "num_input_tokens_seen": 239806928,
+      "step": 111010
+    },
+    {
+      "epoch": 18.11011419249592,
+      "grad_norm": 0.0008099843980744481,
+      "learning_rate": 2.695870398654693e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 239817232,
+      "step": 111015
+    },
+    {
+      "epoch": 18.110929853181077,
+      "grad_norm": 0.0007534879259765148,
+      "learning_rate": 2.693565182041924e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 239827952,
+      "step": 111020
+    },
+    {
+      "epoch": 18.111745513866232,
+      "grad_norm": 0.017502669245004654,
+      "learning_rate": 2.6912609241540818e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 239839248,
+      "step": 111025
+    },
+    {
+      "epoch": 18.112561174551388,
+      "grad_norm": 0.003195826429873705,
+      "learning_rate": 2.688957625037841e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 239849904,
+      "step": 111030
+    },
+    {
+      "epoch": 18.11337683523654,
+      "grad_norm": 0.021487493067979813,
+      "learning_rate": 2.6866552847399028e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 239860976,
+      "step": 111035
+    },
+    {
+      "epoch": 18.114192495921696,
+      "grad_norm": 0.0024699419736862183,
+      "learning_rate": 2.684353903306902e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 239872016,
+      "step": 111040
+    },
+    {
+      "epoch": 18.11500815660685,
+      "grad_norm": 0.0003210293361917138,
+      "learning_rate": 2.6820534807855124e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 239882416,
+      "step": 111045
+    },
+    {
+      "epoch": 18.115823817292007,
+      "grad_norm": 0.00045671319821849465,
+      "learning_rate": 2.679754017222319e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 239893872,
+      "step": 111050
+    },
+    {
+      "epoch": 18.116639477977163,
+      "grad_norm": 0.0006556420703418553,
+      "learning_rate": 2.677455512663951e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 239904304,
+      "step": 111055
+    },
+    {
+      "epoch": 18.117455138662315,
+      "grad_norm": 0.0008096517412923276,
+      "learning_rate": 2.6751579671569715e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 239914896,
+      "step": 111060
+    },
+    {
+      "epoch": 18.11827079934747,
+      "grad_norm": 0.012913156300783157,
+      "learning_rate": 2.6728613807479594e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 239927184,
+      "step": 111065
+    },
+    {
+      "epoch": 18.119086460032626,
+      "grad_norm": 0.5544732213020325,
+      "learning_rate": 2.6705657534834394e-05,
+      "loss": 0.0975,
+      "num_input_tokens_seen": 239937488,
+      "step": 111070
+    },
+    {
+      "epoch": 18.119902120717782,
+      "grad_norm": 0.05267966538667679,
+      "learning_rate": 2.6682710854099623e-05,
+      "loss": 0.0438,
+      "num_input_tokens_seen": 239948432,
+      "step": 111075
+    },
+    {
+      "epoch": 18.120717781402938,
+      "grad_norm": 0.023334262892603874,
+      "learning_rate": 2.6659773765740025e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 239958864,
+      "step": 111080
+    },
+    {
+      "epoch": 18.12153344208809,
+      "grad_norm": 0.016666380688548088,
+      "learning_rate": 2.6636846270220615e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 239968976,
+      "step": 111085
+    },
+    {
+      "epoch": 18.122349102773246,
+      "grad_norm": 0.003353215055540204,
+      "learning_rate": 2.661392836800608e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 239978960,
+      "step": 111090
+    },
+    {
+      "epoch": 18.1231647634584,
+      "grad_norm": 0.006997089833021164,
+      "learning_rate": 2.6591020059560766e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 239989008,
+      "step": 111095
+    },
+    {
+      "epoch": 18.123980424143557,
+      "grad_norm": 0.005469950847327709,
+      "learning_rate": 2.656812134534897e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 240000432,
+      "step": 111100
+    },
+    {
+      "epoch": 18.124796084828713,
+      "grad_norm": 0.0023466164711862803,
+      "learning_rate": 2.6545232225834825e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 240012272,
+      "step": 111105
+    },
+    {
+      "epoch": 18.125611745513865,
+      "grad_norm": 0.0005659526796080172,
+      "learning_rate": 2.6522352701482178e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 240022288,
+      "step": 111110
+    },
+    {
+      "epoch": 18.12642740619902,
+      "grad_norm": 0.0014040175592526793,
+      "learning_rate": 2.6499482772754714e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 240032144,
+      "step": 111115
+    },
+    {
+      "epoch": 18.127243066884176,
+      "grad_norm": 0.06160569190979004,
+      "learning_rate": 2.6476622440115894e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 240042192,
+      "step": 111120
+    },
+    {
+      "epoch": 18.128058727569332,
+      "grad_norm": 0.0021232604049146175,
+      "learning_rate": 2.6453771704029017e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 240052272,
+      "step": 111125
+    },
+    {
+      "epoch": 18.128874388254488,
+      "grad_norm": 0.0018104122718796134,
+      "learning_rate": 2.6430930564957213e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 240063632,
+      "step": 111130
+    },
+    {
+      "epoch": 18.12969004893964,
+      "grad_norm": 0.0006452035158872604,
+      "learning_rate": 2.6408099023363275e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 240073232,
+      "step": 111135
+    },
+    {
+      "epoch": 18.130505709624796,
+      "grad_norm": 0.0019445134093984962,
+      "learning_rate": 2.6385277079710113e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 240083344,
+      "step": 111140
+    },
+    {
+      "epoch": 18.13132137030995,
+      "grad_norm": 0.0015937142306938767,
+      "learning_rate": 2.6362464734460024e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 240093008,
+      "step": 111145
+    },
+    {
+      "epoch": 18.132137030995107,
+      "grad_norm": 0.48695728182792664,
+      "learning_rate": 2.633966198807558e-05,
+      "loss": 0.0239,
+      "num_input_tokens_seen": 240105200,
+      "step": 111150
+    },
+    {
+      "epoch": 18.13295269168026,
+      "grad_norm": 0.0005318346084095538,
+      "learning_rate": 2.631686884101864e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 240116720,
+      "step": 111155
+    },
+    {
+      "epoch": 18.133768352365415,
+      "grad_norm": 0.01507630106061697,
+      "learning_rate": 2.6294085293751435e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 240127984,
+      "step": 111160
+    },
+    {
+      "epoch": 18.13458401305057,
+      "grad_norm": 0.002034904668107629,
+      "learning_rate": 2.6271311346735326e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 240137872,
+      "step": 111165
+    },
+    {
+      "epoch": 18.135399673735726,
+      "grad_norm": 0.0023250230588018894,
+      "learning_rate": 2.624854700043222e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 240149456,
+      "step": 111170
+    },
+    {
+      "epoch": 18.136215334420882,
+      "grad_norm": 0.0006091590621508658,
+      "learning_rate": 2.6225792255303195e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 240159792,
+      "step": 111175
+    },
+    {
+      "epoch": 18.137030995106034,
+      "grad_norm": 0.004074991215020418,
+      "learning_rate": 2.6203047111809597e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 240169360,
+      "step": 111180
+    },
+    {
+      "epoch": 18.13784665579119,
+      "grad_norm": 0.0071708871982991695,
+      "learning_rate": 2.6180311570412174e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 240180528,
+      "step": 111185
+    },
+    {
+      "epoch": 18.138662316476346,
+      "grad_norm": 0.0010574172483757138,
+      "learning_rate": 2.6157585631572e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 240192016,
+      "step": 111190
+    },
+    {
+      "epoch": 18.1394779771615,
+      "grad_norm": 0.001377054606564343,
+      "learning_rate": 2.613486929574932e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 240202480,
+      "step": 111195
+    },
+    {
+      "epoch": 18.140293637846657,
+      "grad_norm": 0.0010247458703815937,
+      "learning_rate": 2.611216256340476e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 240212912,
+      "step": 111200
+    },
+    {
+      "epoch": 18.14110929853181,
+      "grad_norm": 0.006079982966184616,
+      "learning_rate": 2.6089465434998296e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 240224752,
+      "step": 111205
+    },
+    {
+      "epoch": 18.141924959216965,
+      "grad_norm": 0.04028640687465668,
+      "learning_rate": 2.6066777910990104e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 240235056,
+      "step": 111210
+    },
+    {
+      "epoch": 18.14274061990212,
+      "grad_norm": 0.0025856448337435722,
+      "learning_rate": 2.6044099991839766e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 240245680,
+      "step": 111215
+    },
+    {
+      "epoch": 18.143556280587276,
+      "grad_norm": 0.0061494940891861916,
+      "learning_rate": 2.602143167800719e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 240255728,
+      "step": 111220
+    },
+    {
+      "epoch": 18.144371941272432,
+      "grad_norm": 0.002374051371589303,
+      "learning_rate": 2.59987729699514e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 240265264,
+      "step": 111225
+    },
+    {
+      "epoch": 18.145187601957584,
+      "grad_norm": 0.00037141350912861526,
+      "learning_rate": 2.5976123868131864e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 240275856,
+      "step": 111230
+    },
+    {
+      "epoch": 18.14600326264274,
+      "grad_norm": 0.00015754564083181322,
+      "learning_rate": 2.5953484373007487e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 240285712,
+      "step": 111235
+    },
+    {
+      "epoch": 18.146818923327896,
+      "grad_norm": 0.004322631284594536,
+      "learning_rate": 2.5930854485037124e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 240296528,
+      "step": 111240
+    },
+    {
+      "epoch": 18.14763458401305,
+      "grad_norm": 0.0036023175343871117,
+      "learning_rate": 2.590823420467947e-05,
+      "loss": 0.1025,
+      "num_input_tokens_seen": 240307824,
+      "step": 111245
+    },
+    {
+      "epoch": 18.148450244698207,
+      "grad_norm": 0.0007313843816518784,
+      "learning_rate": 2.5885623532392823e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 240318672,
+      "step": 111250
+    },
+    {
+      "epoch": 18.14926590538336,
+      "grad_norm": 0.017052991315722466,
+      "learning_rate": 2.586302246863548e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 240329488,
+      "step": 111255
+    },
+    {
+      "epoch": 18.150081566068515,
+      "grad_norm": 0.0006939188460819423,
+      "learning_rate": 2.584043101386546e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 240341264,
+      "step": 111260
+    },
+    {
+      "epoch": 18.15089722675367,
+      "grad_norm": 0.0010113732423633337,
+      "learning_rate": 2.5817849168540576e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 240352464,
+      "step": 111265
+    },
+    {
+      "epoch": 18.151712887438826,
+      "grad_norm": 0.003736126236617565,
+      "learning_rate": 2.5795276933118618e-05,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 240363440,
+      "step": 111270
+    },
+    {
+      "epoch": 18.152528548123982,
+      "grad_norm": 0.02830549329519272,
+      "learning_rate": 2.5772714308056887e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 240373616,
+      "step": 111275
+    },
+    {
+      "epoch": 18.153344208809134,
+      "grad_norm": 0.0023447242565453053,
+      "learning_rate": 2.5750161293812635e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 240384560,
+      "step": 111280
+    },
+    {
+      "epoch": 18.15415986949429,
+      "grad_norm": 0.005311821587383747,
+      "learning_rate": 2.572761789084316e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 240394960,
+      "step": 111285
+    },
+    {
+      "epoch": 18.154975530179446,
+      "grad_norm": 0.03360892832279205,
+      "learning_rate": 2.570508409960498e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 240403984,
+      "step": 111290
+    },
+    {
+      "epoch": 18.1557911908646,
+      "grad_norm": 0.03504948318004608,
+      "learning_rate": 2.5682559920555127e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 240414352,
+      "step": 111295
+    },
+    {
+      "epoch": 18.156606851549757,
+      "grad_norm": 0.0005736067541874945,
+      "learning_rate": 2.5660045354149786e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 240425392,
+      "step": 111300
+    },
+    {
+      "epoch": 18.15742251223491,
+      "grad_norm": 0.0002982286678161472,
+      "learning_rate": 2.5637540400845483e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 240436944,
+      "step": 111305
+    },
+    {
+      "epoch": 18.158238172920065,
+      "grad_norm": 0.042514994740486145,
+      "learning_rate": 2.561504506109802e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 240448272,
+      "step": 111310
+    },
+    {
+      "epoch": 18.15905383360522,
+      "grad_norm": 0.004912849515676498,
+      "learning_rate": 2.5592559335363696e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 240460368,
+      "step": 111315
+    },
+    {
+      "epoch": 18.159869494290376,
+      "grad_norm": 0.0012176425661891699,
+      "learning_rate": 2.5570083224097763e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 240472368,
+      "step": 111320
+    },
+    {
+      "epoch": 18.160685154975532,
+      "grad_norm": 0.03821130096912384,
+      "learning_rate": 2.554761672775613e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 240483056,
+      "step": 111325
+    },
+    {
+      "epoch": 18.161500815660684,
+      "grad_norm": 0.004230343271046877,
+      "learning_rate": 2.5525159846793822e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 240494096,
+      "step": 111330
+    },
+    {
+      "epoch": 18.16231647634584,
+      "grad_norm": 0.07421465963125229,
+      "learning_rate": 2.550271258166609e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 240505168,
+      "step": 111335
+    },
+    {
+      "epoch": 18.163132137030995,
+      "grad_norm": 0.004852895624935627,
+      "learning_rate": 2.548027493282784e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 240515632,
+      "step": 111340
+    },
+    {
+      "epoch": 18.16394779771615,
+      "grad_norm": 0.003312204033136368,
+      "learning_rate": 2.5457846900733774e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 240526608,
+      "step": 111345
+    },
+    {
+      "epoch": 18.164763458401303,
+      "grad_norm": 0.0339200459420681,
+      "learning_rate": 2.5435428485838465e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 240538032,
+      "step": 111350
+    },
+    {
+      "epoch": 18.16557911908646,
+      "grad_norm": 0.0012343511916697025,
+      "learning_rate": 2.5413019688596218e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 240549104,
+      "step": 111355
+    },
+    {
+      "epoch": 18.166394779771615,
+      "grad_norm": 0.002318829298019409,
+      "learning_rate": 2.539062050946117e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 240559120,
+      "step": 111360
+    },
+    {
+      "epoch": 18.16721044045677,
+      "grad_norm": 0.001546688610687852,
+      "learning_rate": 2.5368230948887295e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 240571408,
+      "step": 111365
+    },
+    {
+      "epoch": 18.168026101141926,
+      "grad_norm": 0.003105068812146783,
+      "learning_rate": 2.5345851007328336e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 240581264,
+      "step": 111370
+    },
+    {
+      "epoch": 18.16884176182708,
+      "grad_norm": 0.0007292951340787113,
+      "learning_rate": 2.532348068523782e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 240591664,
+      "step": 111375
+    },
+    {
+      "epoch": 18.169657422512234,
+      "grad_norm": 0.027069859206676483,
+      "learning_rate": 2.5301119983069165e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 240602224,
+      "step": 111380
+    },
+    {
+      "epoch": 18.17047308319739,
+      "grad_norm": 0.0005704367067664862,
+      "learning_rate": 2.5278768901275506e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 240612880,
+      "step": 111385
+    },
+    {
+      "epoch": 18.171288743882545,
+      "grad_norm": 0.009828636422753334,
+      "learning_rate": 2.5256427440309815e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 240624752,
+      "step": 111390
+    },
+    {
+      "epoch": 18.1721044045677,
+      "grad_norm": 0.0319136418402195,
+      "learning_rate": 2.5234095600624896e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 240634672,
+      "step": 111395
+    },
+    {
+      "epoch": 18.172920065252853,
+      "grad_norm": 0.0002865030546672642,
+      "learning_rate": 2.5211773382673274e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 240645776,
+      "step": 111400
+    },
+    {
+      "epoch": 18.17373572593801,
+      "grad_norm": 0.025485774502158165,
+      "learning_rate": 2.5189460786907425e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 240655920,
+      "step": 111405
+    },
+    {
+      "epoch": 18.174551386623165,
+      "grad_norm": 0.0005207830108702183,
+      "learning_rate": 2.5167157813779485e-05,
+      "loss": 0.0458,
+      "num_input_tokens_seen": 240665392,
+      "step": 111410
+    },
+    {
+      "epoch": 18.17536704730832,
+      "grad_norm": 0.005462713073939085,
+      "learning_rate": 2.5144864463741423e-05,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 240677040,
+      "step": 111415
+    },
+    {
+      "epoch": 18.176182707993476,
+      "grad_norm": 0.0015583484200760722,
+      "learning_rate": 2.5122580737245105e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 240688336,
+      "step": 111420
+    },
+    {
+      "epoch": 18.17699836867863,
+      "grad_norm": 0.06314843893051147,
+      "learning_rate": 2.5100306634742053e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 240699664,
+      "step": 111425
+    },
+    {
+      "epoch": 18.177814029363784,
+      "grad_norm": 0.16858816146850586,
+      "learning_rate": 2.5078042156683854e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 240708752,
+      "step": 111430
+    },
+    {
+      "epoch": 18.17862969004894,
+      "grad_norm": 0.0017226624768227339,
+      "learning_rate": 2.5055787303521483e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 240719248,
+      "step": 111435
+    },
+    {
+      "epoch": 18.179445350734095,
+      "grad_norm": 0.007539310026913881,
+      "learning_rate": 2.5033542075706184e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 240731536,
+      "step": 111440
+    },
+    {
+      "epoch": 18.18026101141925,
+      "grad_norm": 0.005234704352915287,
+      "learning_rate": 2.5011306473688656e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 240743088,
+      "step": 111445
+    },
+    {
+      "epoch": 18.181076672104403,
+      "grad_norm": 0.0010076353792101145,
+      "learning_rate": 2.4989080497919593e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 240755056,
+      "step": 111450
+    },
+    {
+      "epoch": 18.18189233278956,
+      "grad_norm": 0.002447428647428751,
+      "learning_rate": 2.496686414884941e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 240766576,
+      "step": 111455
+    },
+    {
+      "epoch": 18.182707993474715,
+      "grad_norm": 0.07020247727632523,
+      "learning_rate": 2.4944657426928306e-05,
+      "loss": 0.0072,
+      "num_input_tokens_seen": 240776720,
+      "step": 111460
+    },
+    {
+      "epoch": 18.18352365415987,
+      "grad_norm": 0.0051605477929115295,
+      "learning_rate": 2.492246033260642e-05,
+      "loss": 0.1114,
+      "num_input_tokens_seen": 240787760,
+      "step": 111465
+    },
+    {
+      "epoch": 18.184339314845026,
+      "grad_norm": 0.0043184030801057816,
+      "learning_rate": 2.490027286633356e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 240798640,
+      "step": 111470
+    },
+    {
+      "epoch": 18.18515497553018,
+      "grad_norm": 0.002179432427510619,
+      "learning_rate": 2.487809502855931e-05,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 240810480,
+      "step": 111475
+    },
+    {
+      "epoch": 18.185970636215334,
+      "grad_norm": 0.00016462391067761928,
+      "learning_rate": 2.4855926819733253e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 240821680,
+      "step": 111480
+    },
+    {
+      "epoch": 18.18678629690049,
+      "grad_norm": 0.16513219475746155,
+      "learning_rate": 2.4833768240304587e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 240832592,
+      "step": 111485
+    },
+    {
+      "epoch": 18.187601957585645,
+      "grad_norm": 0.00029663904570043087,
+      "learning_rate": 2.48116192907224e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 240844208,
+      "step": 111490
+    },
+    {
+      "epoch": 18.1884176182708,
+      "grad_norm": 0.014264887198805809,
+      "learning_rate": 2.4789479971435602e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 240855472,
+      "step": 111495
+    },
+    {
+      "epoch": 18.189233278955953,
+      "grad_norm": 0.02956242486834526,
+      "learning_rate": 2.4767350282892788e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 240866896,
+      "step": 111500
+    },
+    {
+      "epoch": 18.19004893964111,
+      "grad_norm": 0.08667551726102829,
+      "learning_rate": 2.4745230225542536e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 240877488,
+      "step": 111505
+    },
+    {
+      "epoch": 18.190864600326265,
+      "grad_norm": 0.017870064824819565,
+      "learning_rate": 2.472311979983305e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 240887472,
+      "step": 111510
+    },
+    {
+      "epoch": 18.19168026101142,
+      "grad_norm": 0.0027186137158423662,
+      "learning_rate": 2.470101900621252e-05,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 240899344,
+      "step": 111515
+    },
+    {
+      "epoch": 18.192495921696572,
+      "grad_norm": 0.009860222227871418,
+      "learning_rate": 2.4678927845128762e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 240910480,
+      "step": 111520
+    },
+    {
+      "epoch": 18.193311582381728,
+      "grad_norm": 0.0051208180375397205,
+      "learning_rate": 2.4656846317029524e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 240921168,
+      "step": 111525
+    },
+    {
+      "epoch": 18.194127243066884,
+      "grad_norm": 0.12531216442584991,
+      "learning_rate": 2.463477442236234e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 240932272,
+      "step": 111530
+    },
+    {
+      "epoch": 18.19494290375204,
+      "grad_norm": 0.028876209631562233,
+      "learning_rate": 2.4612712161574457e-05,
+      "loss": 0.0123,
+      "num_input_tokens_seen": 240941712,
+      "step": 111535
+    },
+    {
+      "epoch": 18.195758564437195,
+      "grad_norm": 0.0025795248802751303,
+      "learning_rate": 2.459065953511308e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 240952816,
+      "step": 111540
+    },
+    {
+      "epoch": 18.196574225122347,
+      "grad_norm": 0.0012704171240329742,
+      "learning_rate": 2.456861654342507e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 240962192,
+      "step": 111545
+    },
+    {
+      "epoch": 18.197389885807503,
+      "grad_norm": 0.0005869403248652816,
+      "learning_rate": 2.454658318695713e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 240972592,
+      "step": 111550
+    },
+    {
+      "epoch": 18.19820554649266,
+      "grad_norm": 0.0015953588299453259,
+      "learning_rate": 2.4524559466155838e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 240983536,
+      "step": 111555
+    },
+    {
+      "epoch": 18.199021207177815,
+      "grad_norm": 0.0008225612109526992,
+      "learning_rate": 2.450254538146762e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 240993968,
+      "step": 111560
+    },
+    {
+      "epoch": 18.19983686786297,
+      "grad_norm": 0.002442733384668827,
+      "learning_rate": 2.44805409333384e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 241004272,
+      "step": 111565
+    },
+    {
+      "epoch": 18.200652528548122,
+      "grad_norm": 0.00041253273957408965,
+      "learning_rate": 2.445854612221432e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241014928,
+      "step": 111570
+    },
+    {
+      "epoch": 18.201468189233278,
+      "grad_norm": 0.0012305235723033547,
+      "learning_rate": 2.443656094854113e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241025968,
+      "step": 111575
+    },
+    {
+      "epoch": 18.202283849918434,
+      "grad_norm": 0.0023012920282781124,
+      "learning_rate": 2.4414585412764255e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 241037040,
+      "step": 111580
+    },
+    {
+      "epoch": 18.20309951060359,
+      "grad_norm": 0.001884901081211865,
+      "learning_rate": 2.4392619515329173e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 241048080,
+      "step": 111585
+    },
+    {
+      "epoch": 18.203915171288745,
+      "grad_norm": 0.002780719194561243,
+      "learning_rate": 2.437066325668097e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241059216,
+      "step": 111590
+    },
+    {
+      "epoch": 18.204730831973897,
+      "grad_norm": 0.02738889679312706,
+      "learning_rate": 2.434871663726468e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 241069968,
+      "step": 111595
+    },
+    {
+      "epoch": 18.205546492659053,
+      "grad_norm": 0.013765150681138039,
+      "learning_rate": 2.4326779657525055e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 241081008,
+      "step": 111600
+    },
+    {
+      "epoch": 18.20636215334421,
+      "grad_norm": 0.00026065035490319133,
+      "learning_rate": 2.430485231790669e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 241091056,
+      "step": 111605
+    },
+    {
+      "epoch": 18.207177814029365,
+      "grad_norm": 0.0007315054535865784,
+      "learning_rate": 2.428293461885389e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241102064,
+      "step": 111610
+    },
+    {
+      "epoch": 18.20799347471452,
+      "grad_norm": 0.0005587812629528344,
+      "learning_rate": 2.426102656081097e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 241113456,
+      "step": 111615
+    },
+    {
+      "epoch": 18.208809135399672,
+      "grad_norm": 0.022680338472127914,
+      "learning_rate": 2.4239128144221857e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241123472,
+      "step": 111620
+    },
+    {
+      "epoch": 18.209624796084828,
+      "grad_norm": 0.007227160967886448,
+      "learning_rate": 2.4217239369530354e-05,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 241133808,
+      "step": 111625
+    },
+    {
+      "epoch": 18.210440456769984,
+      "grad_norm": 0.03996798023581505,
+      "learning_rate": 2.4195360237180053e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 241144304,
+      "step": 111630
+    },
+    {
+      "epoch": 18.21125611745514,
+      "grad_norm": 0.002206821460276842,
+      "learning_rate": 2.417349074761438e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 241153264,
+      "step": 111635
+    },
+    {
+      "epoch": 18.212071778140295,
+      "grad_norm": 0.07152996957302094,
+      "learning_rate": 2.4151630901276534e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 241164816,
+      "step": 111640
+    },
+    {
+      "epoch": 18.212887438825447,
+      "grad_norm": 0.0010918622137978673,
+      "learning_rate": 2.4129780698609606e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241175952,
+      "step": 111645
+    },
+    {
+      "epoch": 18.213703099510603,
+      "grad_norm": 0.007130472920835018,
+      "learning_rate": 2.4107940140056294e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 241186032,
+      "step": 111650
+    },
+    {
+      "epoch": 18.21451876019576,
+      "grad_norm": 0.0018399967812001705,
+      "learning_rate": 2.4086109226059305e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 241197584,
+      "step": 111655
+    },
+    {
+      "epoch": 18.215334420880914,
+      "grad_norm": 0.001044351258315146,
+      "learning_rate": 2.4064287957061003e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241209168,
+      "step": 111660
+    },
+    {
+      "epoch": 18.21615008156607,
+      "grad_norm": 0.00033728586276993155,
+      "learning_rate": 2.404247633350376e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241220304,
+      "step": 111665
+    },
+    {
+      "epoch": 18.216965742251222,
+      "grad_norm": 0.007836922071874142,
+      "learning_rate": 2.402067435582944e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 241231024,
+      "step": 111670
+    },
+    {
+      "epoch": 18.217781402936378,
+      "grad_norm": 0.006131039932370186,
+      "learning_rate": 2.3998882024480085e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 241242192,
+      "step": 111675
+    },
+    {
+      "epoch": 18.218597063621534,
+      "grad_norm": 0.0007795770070515573,
+      "learning_rate": 2.3977099339897112e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 241253104,
+      "step": 111680
+    },
+    {
+      "epoch": 18.21941272430669,
+      "grad_norm": 0.0077186450362205505,
+      "learning_rate": 2.395532630252223e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 241263920,
+      "step": 111685
+    },
+    {
+      "epoch": 18.22022838499184,
+      "grad_norm": 0.010755318216979504,
+      "learning_rate": 2.393356291279647e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 241274288,
+      "step": 111690
+    },
+    {
+      "epoch": 18.221044045676997,
+      "grad_norm": 0.003711380995810032,
+      "learning_rate": 2.391180917116109e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 241285904,
+      "step": 111695
+    },
+    {
+      "epoch": 18.221859706362153,
+      "grad_norm": 0.0002724926162045449,
+      "learning_rate": 2.389006507805669e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 241298000,
+      "step": 111700
+    },
+    {
+      "epoch": 18.22267536704731,
+      "grad_norm": 0.002828385913744569,
+      "learning_rate": 2.3868330633924295e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241308496,
+      "step": 111705
+    },
+    {
+      "epoch": 18.223491027732464,
+      "grad_norm": 0.000973310845438391,
+      "learning_rate": 2.3846605839204062e-05,
+      "loss": 0.0108,
+      "num_input_tokens_seen": 241318960,
+      "step": 111710
+    },
+    {
+      "epoch": 18.224306688417617,
+      "grad_norm": 0.005908642895519733,
+      "learning_rate": 2.3824890694336467e-05,
+      "loss": 0.0297,
+      "num_input_tokens_seen": 241328656,
+      "step": 111715
+    },
+    {
+      "epoch": 18.225122349102772,
+      "grad_norm": 0.47186583280563354,
+      "learning_rate": 2.380318519976149e-05,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 241340112,
+      "step": 111720
+    },
+    {
+      "epoch": 18.225938009787928,
+      "grad_norm": 0.04481413587927818,
+      "learning_rate": 2.3781489355919117e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 241351024,
+      "step": 111725
+    },
+    {
+      "epoch": 18.226753670473084,
+      "grad_norm": 0.0014045239659026265,
+      "learning_rate": 2.375980316324894e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241361616,
+      "step": 111730
+    },
+    {
+      "epoch": 18.22756933115824,
+      "grad_norm": 0.021581880748271942,
+      "learning_rate": 2.373812662219055e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 241371696,
+      "step": 111735
+    },
+    {
+      "epoch": 18.22838499184339,
+      "grad_norm": 0.001914651715196669,
+      "learning_rate": 2.3716459733183205e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241383120,
+      "step": 111740
+    },
+    {
+      "epoch": 18.229200652528547,
+      "grad_norm": 0.0057961605489254,
+      "learning_rate": 2.3694802496665945e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241392752,
+      "step": 111745
+    },
+    {
+      "epoch": 18.230016313213703,
+      "grad_norm": 0.004409853368997574,
+      "learning_rate": 2.367315491307781e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 241403376,
+      "step": 111750
+    },
+    {
+      "epoch": 18.23083197389886,
+      "grad_norm": 0.009331168606877327,
+      "learning_rate": 2.3651516982857448e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 241413840,
+      "step": 111755
+    },
+    {
+      "epoch": 18.231647634584014,
+      "grad_norm": 0.0019217518856748939,
+      "learning_rate": 2.362988870644339e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241424752,
+      "step": 111760
+    },
+    {
+      "epoch": 18.232463295269167,
+      "grad_norm": 0.0011666314676404,
+      "learning_rate": 2.3608270084273853e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241435536,
+      "step": 111765
+    },
+    {
+      "epoch": 18.233278955954322,
+      "grad_norm": 0.14562870562076569,
+      "learning_rate": 2.3586661116787255e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 241446960,
+      "step": 111770
+    },
+    {
+      "epoch": 18.234094616639478,
+      "grad_norm": 0.01970742829144001,
+      "learning_rate": 2.3565061804421195e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241457264,
+      "step": 111775
+    },
+    {
+      "epoch": 18.234910277324634,
+      "grad_norm": 0.4335617125034332,
+      "learning_rate": 2.3543472147613654e-05,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 241469104,
+      "step": 111780
+    },
+    {
+      "epoch": 18.23572593800979,
+      "grad_norm": 0.00016372000391129404,
+      "learning_rate": 2.3521892146801947e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 241479472,
+      "step": 111785
+    },
+    {
+      "epoch": 18.23654159869494,
+      "grad_norm": 0.0005032969056628644,
+      "learning_rate": 2.350032180242373e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241490256,
+      "step": 111790
+    },
+    {
+      "epoch": 18.237357259380097,
+      "grad_norm": 0.03568139672279358,
+      "learning_rate": 2.3478761114915814e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 241501616,
+      "step": 111795
+    },
+    {
+      "epoch": 18.238172920065253,
+      "grad_norm": 0.0010190936736762524,
+      "learning_rate": 2.3457210084715462e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 241514256,
+      "step": 111800
+    },
+    {
+      "epoch": 18.23898858075041,
+      "grad_norm": 0.0015556697035208344,
+      "learning_rate": 2.3435668712259105e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 241525712,
+      "step": 111805
+    },
+    {
+      "epoch": 18.239804241435564,
+      "grad_norm": 0.002752800937741995,
+      "learning_rate": 2.341413699798367e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 241536656,
+      "step": 111810
+    },
+    {
+      "epoch": 18.240619902120716,
+      "grad_norm": 0.0019639593083411455,
+      "learning_rate": 2.3392614942325196e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 241547920,
+      "step": 111815
+    },
+    {
+      "epoch": 18.241435562805872,
+      "grad_norm": 0.06264805048704147,
+      "learning_rate": 2.3371102545720112e-05,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 241559728,
+      "step": 111820
+    },
+    {
+      "epoch": 18.242251223491028,
+      "grad_norm": 0.10108703374862671,
+      "learning_rate": 2.3349599808604182e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 241571216,
+      "step": 111825
+    },
+    {
+      "epoch": 18.243066884176184,
+      "grad_norm": 0.0005204555345699191,
+      "learning_rate": 2.332810673141339e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241583024,
+      "step": 111830
+    },
+    {
+      "epoch": 18.24388254486134,
+      "grad_norm": 0.003744245506823063,
+      "learning_rate": 2.3306623314583108e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241593712,
+      "step": 111835
+    },
+    {
+      "epoch": 18.24469820554649,
+      "grad_norm": 0.0042017437517642975,
+      "learning_rate": 2.3285149558548934e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 241604240,
+      "step": 111840
+    },
+    {
+      "epoch": 18.245513866231647,
+      "grad_norm": 0.007984976284205914,
+      "learning_rate": 2.3263685463745854e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241615408,
+      "step": 111845
+    },
+    {
+      "epoch": 18.246329526916803,
+      "grad_norm": 0.004355450160801411,
+      "learning_rate": 2.324223103060913e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 241628016,
+      "step": 111850
+    },
+    {
+      "epoch": 18.24714518760196,
+      "grad_norm": 0.0002695178845897317,
+      "learning_rate": 2.322078625957319e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 241639504,
+      "step": 111855
+    },
+    {
+      "epoch": 18.247960848287114,
+      "grad_norm": 0.037556588649749756,
+      "learning_rate": 2.319935115107302e-05,
+      "loss": 0.0262,
+      "num_input_tokens_seen": 241648880,
+      "step": 111860
+    },
+    {
+      "epoch": 18.248776508972266,
+      "grad_norm": 0.0008369534043595195,
+      "learning_rate": 2.317792570554278e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241660464,
+      "step": 111865
+    },
+    {
+      "epoch": 18.249592169657422,
+      "grad_norm": 0.0007577822543680668,
+      "learning_rate": 2.3156509923416778e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 241670064,
+      "step": 111870
+    },
+    {
+      "epoch": 18.250407830342578,
+      "grad_norm": 0.0008776098839007318,
+      "learning_rate": 2.3135103805129065e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 241680432,
+      "step": 111875
+    },
+    {
+      "epoch": 18.251223491027734,
+      "grad_norm": 0.02049904502928257,
+      "learning_rate": 2.31137073511134e-05,
+      "loss": 0.0632,
+      "num_input_tokens_seen": 241690736,
+      "step": 111880
+    },
+    {
+      "epoch": 18.252039151712886,
+      "grad_norm": 0.009858843870460987,
+      "learning_rate": 2.3092320561803436e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 241701264,
+      "step": 111885
+    },
+    {
+      "epoch": 18.25285481239804,
+      "grad_norm": 0.0036323664244264364,
+      "learning_rate": 2.3070943437632553e-05,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 241711152,
+      "step": 111890
+    },
+    {
+      "epoch": 18.253670473083197,
+      "grad_norm": 0.00025795798865146935,
+      "learning_rate": 2.3049575979034066e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 241722640,
+      "step": 111895
+    },
+    {
+      "epoch": 18.254486133768353,
+      "grad_norm": 0.0005865280982106924,
+      "learning_rate": 2.3028218186440964e-05,
+      "loss": 0.0074,
+      "num_input_tokens_seen": 241733680,
+      "step": 111900
+    },
+    {
+      "epoch": 18.25530179445351,
+      "grad_norm": 1.113283634185791,
+      "learning_rate": 2.3006870060286123e-05,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 241744240,
+      "step": 111905
+    },
+    {
+      "epoch": 18.25611745513866,
+      "grad_norm": 0.00035421474603936076,
+      "learning_rate": 2.2985531601002084e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 241753872,
+      "step": 111910
+    },
+    {
+      "epoch": 18.256933115823816,
+      "grad_norm": 0.0012218153569847345,
+      "learning_rate": 2.2964202809021563e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 241764304,
+      "step": 111915
+    },
+    {
+      "epoch": 18.257748776508972,
+      "grad_norm": 0.006138972472399473,
+      "learning_rate": 2.2942883684776428e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 241774160,
+      "step": 111920
+    },
+    {
+      "epoch": 18.258564437194128,
+      "grad_norm": 0.0003647230041678995,
+      "learning_rate": 2.2921574228699116e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 241786128,
+      "step": 111925
+    },
+    {
+      "epoch": 18.259380097879284,
+      "grad_norm": 0.0019345534965395927,
+      "learning_rate": 2.290027444122117e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 241796368,
+      "step": 111930
+    },
+    {
+      "epoch": 18.260195758564436,
+      "grad_norm": 0.005643834825605154,
+      "learning_rate": 2.2878984322774578e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241807216,
+      "step": 111935
+    },
+    {
+      "epoch": 18.26101141924959,
+      "grad_norm": 0.029966186732053757,
+      "learning_rate": 2.2857703873790435e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 241818608,
+      "step": 111940
+    },
+    {
+      "epoch": 18.261827079934747,
+      "grad_norm": 0.00763977924361825,
+      "learning_rate": 2.2836433094700405e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 241828656,
+      "step": 111945
+    },
+    {
+      "epoch": 18.262642740619903,
+      "grad_norm": 0.0040611946024000645,
+      "learning_rate": 2.2815171985935246e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241840208,
+      "step": 111950
+    },
+    {
+      "epoch": 18.26345840130506,
+      "grad_norm": 0.03236650675535202,
+      "learning_rate": 2.279392054792612e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 241851696,
+      "step": 111955
+    },
+    {
+      "epoch": 18.26427406199021,
+      "grad_norm": 0.0016628196462988853,
+      "learning_rate": 2.277267878110345e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241863056,
+      "step": 111960
+    },
+    {
+      "epoch": 18.265089722675366,
+      "grad_norm": 0.0033213666174560785,
+      "learning_rate": 2.275144668589796e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241873040,
+      "step": 111965
+    },
+    {
+      "epoch": 18.265905383360522,
+      "grad_norm": 0.008418967947363853,
+      "learning_rate": 2.2730224262739687e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 241884720,
+      "step": 111970
+    },
+    {
+      "epoch": 18.266721044045678,
+      "grad_norm": 0.004653456620872021,
+      "learning_rate": 2.270901151205895e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 241894512,
+      "step": 111975
+    },
+    {
+      "epoch": 18.267536704730833,
+      "grad_norm": 0.00020115444203838706,
+      "learning_rate": 2.2687808434285585e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 241906544,
+      "step": 111980
+    },
+    {
+      "epoch": 18.268352365415986,
+      "grad_norm": 0.005816313438117504,
+      "learning_rate": 2.266661502984929e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241917456,
+      "step": 111985
+    },
+    {
+      "epoch": 18.26916802610114,
+      "grad_norm": 0.08827083557844162,
+      "learning_rate": 2.264543129917962e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 241929200,
+      "step": 111990
+    },
+    {
+      "epoch": 18.269983686786297,
+      "grad_norm": 0.1319461166858673,
+      "learning_rate": 2.2624257242705838e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 241940016,
+      "step": 111995
+    },
+    {
+      "epoch": 18.270799347471453,
+      "grad_norm": 0.04293489083647728,
+      "learning_rate": 2.2603092860857045e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 241950928,
+      "step": 112000
+    },
+    {
+      "epoch": 18.27161500815661,
+      "grad_norm": 0.0004455571179278195,
+      "learning_rate": 2.258193815406223e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 241961488,
+      "step": 112005
+    },
+    {
+      "epoch": 18.27243066884176,
+      "grad_norm": 0.0009946267819032073,
+      "learning_rate": 2.2560793122750056e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 241972208,
+      "step": 112010
+    },
+    {
+      "epoch": 18.273246329526916,
+      "grad_norm": 0.00034329970367252827,
+      "learning_rate": 2.253965776734912e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 241984176,
+      "step": 112015
+    },
+    {
+      "epoch": 18.274061990212072,
+      "grad_norm": 0.002764312084764242,
+      "learning_rate": 2.251853208828769e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 241994064,
+      "step": 112020
+    },
+    {
+      "epoch": 18.274877650897228,
+      "grad_norm": 0.008333449251949787,
+      "learning_rate": 2.2497416085993983e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 242003600,
+      "step": 112025
+    },
+    {
+      "epoch": 18.275693311582383,
+      "grad_norm": 0.002981035504490137,
+      "learning_rate": 2.247630976089582e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 242015152,
+      "step": 112030
+    },
+    {
+      "epoch": 18.276508972267536,
+      "grad_norm": 0.004562276415526867,
+      "learning_rate": 2.245521311342108e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 242026704,
+      "step": 112035
+    },
+    {
+      "epoch": 18.27732463295269,
+      "grad_norm": 0.007158250547945499,
+      "learning_rate": 2.2434126143997258e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 242037552,
+      "step": 112040
+    },
+    {
+      "epoch": 18.278140293637847,
+      "grad_norm": 0.004958420526236296,
+      "learning_rate": 2.241304885305162e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 242048720,
+      "step": 112045
+    },
+    {
+      "epoch": 18.278955954323003,
+      "grad_norm": 0.0006449085776694119,
+      "learning_rate": 2.2391981241011495e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 242060656,
+      "step": 112050
+    },
+    {
+      "epoch": 18.27977161500816,
+      "grad_norm": 0.009936443530023098,
+      "learning_rate": 2.2370923308303702e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 242071184,
+      "step": 112055
+    },
+    {
+      "epoch": 18.28058727569331,
+      "grad_norm": 0.00033961181179620326,
+      "learning_rate": 2.234987505535513e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 242080560,
+      "step": 112060
+    },
+    {
+      "epoch": 18.281402936378466,
+      "grad_norm": 0.00022909794643055648,
+      "learning_rate": 2.2328836482592208e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 242091600,
+      "step": 112065
+    },
+    {
+      "epoch": 18.282218597063622,
+      "grad_norm": 0.0009541076142340899,
+      "learning_rate": 2.2307807590441486e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 242103088,
+      "step": 112070
+    },
+    {
+      "epoch": 18.283034257748778,
+      "grad_norm": 0.019319789484143257,
+      "learning_rate": 2.2286788379328905e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 242113392,
+      "step": 112075
+    },
+    {
+      "epoch": 18.28384991843393,
+      "grad_norm": 0.012067809700965881,
+      "learning_rate": 2.2265778849680673e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 242124208,
+      "step": 112080
+    },
+    {
+      "epoch": 18.284665579119086,
+      "grad_norm": 0.0042475382797420025,
+      "learning_rate": 2.2244779001922457e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 242134160,
+      "step": 112085
+    },
+    {
+      "epoch": 18.28548123980424,
+      "grad_norm": 0.21117204427719116,
+      "learning_rate": 2.222378883647985e-05,
+      "loss": 0.009,
+      "num_input_tokens_seen": 242145296,
+      "step": 112090
+    },
+    {
+      "epoch": 18.286296900489397,
+      "grad_norm": 0.0018978551961481571,
+      "learning_rate": 2.2202808353778302e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 242156848,
+      "step": 112095
+    },
+    {
+      "epoch": 18.287112561174553,
+      "grad_norm": 0.20463545620441437,
+      "learning_rate": 2.2181837554242968e-05,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 242167632,
+      "step": 112100
+    },
+    {
+      "epoch": 18.287928221859705,
+      "grad_norm": 0.0037592577282339334,
+      "learning_rate": 2.216087643829884e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 242178704,
+      "step": 112105
+    },
+    {
+      "epoch": 18.28874388254486,
+      "grad_norm": 0.01856519654393196,
+      "learning_rate": 2.213992500637074e-05,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 242189712,
+      "step": 112110
+    },
+    {
+      "epoch": 18.289559543230016,
+      "grad_norm": 0.004871395882219076,
+      "learning_rate": 2.211898325888323e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 242201424,
+      "step": 112115
+    },
+    {
+      "epoch": 18.290375203915172,
+      "grad_norm": 0.02684687077999115,
+      "learning_rate": 2.2098051196260794e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 242212240,
+      "step": 112120
+    },
+    {
+      "epoch": 18.291190864600328,
+      "grad_norm": 0.0012460710713639855,
+      "learning_rate": 2.207712881892765e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 242221808,
+      "step": 112125
+    },
+    {
+      "epoch": 18.29200652528548,
+      "grad_norm": 0.002025953261181712,
+      "learning_rate": 2.205621612730774e-05,
+      "loss": 0.1082,
+      "num_input_tokens_seen": 242231760,
+      "step": 112130
+    },
+    {
+      "epoch": 18.292822185970635,
+      "grad_norm": 0.013695158064365387,
+      "learning_rate": 2.2035313121824884e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 242241104,
+      "step": 112135
+    },
+    {
+      "epoch": 18.29363784665579,
+      "grad_norm": 0.003423569491133094,
+      "learning_rate": 2.2014419802902808e-05,
+      "loss": 0.02,
+      "num_input_tokens_seen": 242250608,
+      "step": 112140
+    },
+    {
+      "epoch": 18.294453507340947,
+      "grad_norm": 0.00023604616580996662,
+      "learning_rate": 2.1993536170964832e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 242261584,
+      "step": 112145
+    },
+    {
+      "epoch": 18.295269168026103,
+      "grad_norm": 0.00926015805453062,
+      "learning_rate": 2.1972662226434292e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 242272144,
+      "step": 112150
+    },
+    {
+      "epoch": 18.296084828711255,
+      "grad_norm": 0.002171823987737298,
+      "learning_rate": 2.1951797969734178e-05,
+      "loss": 0.013,
+      "num_input_tokens_seen": 242283824,
+      "step": 112155
+    },
+    {
+      "epoch": 18.29690048939641,
+      "grad_norm": 0.004147836938500404,
+      "learning_rate": 2.193094340128726e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 242294128,
+      "step": 112160
+    },
+    {
+      "epoch": 18.297716150081566,
+      "grad_norm": 0.0004257794935256243,
+      "learning_rate": 2.191009852151632e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 242304080,
+      "step": 112165
+    },
+    {
+      "epoch": 18.298531810766722,
+      "grad_norm": 0.0004469923733267933,
+      "learning_rate": 2.188926333084368e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 242313328,
+      "step": 112170
+    },
+    {
+      "epoch": 18.299347471451878,
+      "grad_norm": 0.04959937185049057,
+      "learning_rate": 2.186843782969167e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 242323984,
+      "step": 112175
+    },
+    {
+      "epoch": 18.30016313213703,
+      "grad_norm": 0.0006796122179366648,
+      "learning_rate": 2.1847622018482283e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 242334800,
+      "step": 112180
+    },
+    {
+      "epoch": 18.300978792822185,
+      "grad_norm": 0.01616012305021286,
+      "learning_rate": 2.182681589763741e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 242345936,
+      "step": 112185
+    },
+    {
+      "epoch": 18.30179445350734,
+      "grad_norm": 0.03500431403517723,
+      "learning_rate": 2.1806019467578765e-05,
+      "loss": 0.0138,
+      "num_input_tokens_seen": 242355504,
+      "step": 112190
+    },
+    {
+      "epoch": 18.302610114192497,
+      "grad_norm": 0.00026632804656401277,
+      "learning_rate": 2.1785232728727734e-05,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 242366512,
+      "step": 112195
+    },
+    {
+      "epoch": 18.303425774877653,
+      "grad_norm": 0.00029793393332511187,
+      "learning_rate": 2.1764455681505645e-05,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 242376528,
+      "step": 112200
+    },
+    {
+      "epoch": 18.304241435562805,
+      "grad_norm": 0.00025668280432000756,
+      "learning_rate": 2.1743688326333555e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 242388528,
+      "step": 112205
+    },
+    {
+      "epoch": 18.30505709624796,
+      "grad_norm": 0.0053967381827533245,
+      "learning_rate": 2.1722930663632344e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 242399312,
+      "step": 112210
+    },
+    {
+      "epoch": 18.305872756933116,
+      "grad_norm": 0.004073168616741896,
+      "learning_rate": 2.1702182693822625e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 242409808,
+      "step": 112215
+    },
+    {
+      "epoch": 18.306688417618272,
+      "grad_norm": 0.002889038994908333,
+      "learning_rate": 2.1681444417325004e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 242419632,
+      "step": 112220
+    },
+    {
+      "epoch": 18.307504078303428,
+      "grad_norm": 0.0007618418894708157,
+      "learning_rate": 2.166071583455964e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 242430096,
+      "step": 112225
+    },
+    {
+      "epoch": 18.30831973898858,
+      "grad_norm": 0.01946703903377056,
+      "learning_rate": 2.1639996945946706e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 242440592,
+      "step": 112230
+    },
+    {
+      "epoch": 18.309135399673735,
+      "grad_norm": 0.008552854880690575,
+      "learning_rate": 2.1619287751906135e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 242450288,
+      "step": 112235
+    },
+    {
+      "epoch": 18.30995106035889,
+      "grad_norm": 0.0020822572987526655,
+      "learning_rate": 2.1598588252857486e-05,
+      "loss": 0.0432,
+      "num_input_tokens_seen": 242460336,
+      "step": 112240
+    },
+    {
+      "epoch": 18.310766721044047,
+      "grad_norm": 0.0005850521847605705,
+      "learning_rate": 2.157789844922037e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 242471632,
+      "step": 112245
+    },
+    {
+      "epoch": 18.3115823817292,
+      "grad_norm": 0.00023612409131601453,
+      "learning_rate": 2.1557218341414055e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 242482608,
+      "step": 112250
+    },
+    {
+      "epoch": 18.312398042414355,
+      "grad_norm": 0.019624780863523483,
+      "learning_rate": 2.1536547929857707e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 242493712,
+      "step": 112255
+    },
+    {
+      "epoch": 18.31321370309951,
+      "grad_norm": 0.0011469227029010653,
+      "learning_rate": 2.1515887214970165e-05,
+      "loss": 0.025,
+      "num_input_tokens_seen": 242505072,
+      "step": 112260
+    },
+    {
+      "epoch": 18.314029363784666,
+      "grad_norm": 0.09801533818244934,
+      "learning_rate": 2.1495236197170143e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 242516304,
+      "step": 112265
+    },
+    {
+      "epoch": 18.31484502446982,
+      "grad_norm": 0.00623701885342598,
+      "learning_rate": 2.1474594876876198e-05,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 242526640,
+      "step": 112270
+    },
+    {
+      "epoch": 18.315660685154974,
+      "grad_norm": 0.000984379556030035,
+      "learning_rate": 2.1453963254506604e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 242537648,
+      "step": 112275
+    },
+    {
+      "epoch": 18.31647634584013,
+      "grad_norm": 0.00510720070451498,
+      "learning_rate": 2.1433341330479583e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 242547792,
+      "step": 112280
+    },
+    {
+      "epoch": 18.317292006525285,
+      "grad_norm": 0.001066899043507874,
+      "learning_rate": 2.141272910521297e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 242558384,
+      "step": 112285
+    },
+    {
+      "epoch": 18.31810766721044,
+      "grad_norm": 0.012570103630423546,
+      "learning_rate": 2.1392126579124536e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 242569488,
+      "step": 112290
+    },
+    {
+      "epoch": 18.318923327895597,
+      "grad_norm": 0.15933559834957123,
+      "learning_rate": 2.1371533752631844e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 242580048,
+      "step": 112295
+    },
+    {
+      "epoch": 18.31973898858075,
+      "grad_norm": 0.003937386907637119,
+      "learning_rate": 2.135095062615211e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 242590480,
+      "step": 112300
+    },
+    {
+      "epoch": 18.320554649265905,
+      "grad_norm": 0.06767729669809341,
+      "learning_rate": 2.1330377200102723e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 242602032,
+      "step": 112305
+    },
+    {
+      "epoch": 18.32137030995106,
+      "grad_norm": 0.0006834762170910835,
+      "learning_rate": 2.130981347490035e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 242612624,
+      "step": 112310
+    },
+    {
+      "epoch": 18.322185970636216,
+      "grad_norm": 1.1935534477233887,
+      "learning_rate": 2.1289259450961995e-05,
+      "loss": 0.1134,
+      "num_input_tokens_seen": 242620752,
+      "step": 112315
+    },
+    {
+      "epoch": 18.32300163132137,
+      "grad_norm": 0.003689026227220893,
+      "learning_rate": 2.1268715128703932e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 242633200,
+      "step": 112320
+    },
+    {
+      "epoch": 18.323817292006524,
+      "grad_norm": 0.010268572717905045,
+      "learning_rate": 2.124818050854277e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 242643472,
+      "step": 112325
+    },
+    {
+      "epoch": 18.32463295269168,
+      "grad_norm": 0.0009742376278154552,
+      "learning_rate": 2.122765559089451e-05,
+      "loss": 0.1357,
+      "num_input_tokens_seen": 242654736,
+      "step": 112330
+    },
+    {
+      "epoch": 18.325448613376835,
+      "grad_norm": 0.013293848372995853,
+      "learning_rate": 2.1207140376175214e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 242665136,
+      "step": 112335
+    },
+    {
+      "epoch": 18.32626427406199,
+      "grad_norm": 0.0005903943674638867,
+      "learning_rate": 2.1186634864800603e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 242676272,
+      "step": 112340
+    },
+    {
+      "epoch": 18.327079934747147,
+      "grad_norm": 0.012852600775659084,
+      "learning_rate": 2.116613905718623e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 242688336,
+      "step": 112345
+    },
+    {
+      "epoch": 18.3278955954323,
+      "grad_norm": 0.0014939934480935335,
+      "learning_rate": 2.114565295374754e-05,
+      "loss": 0.0539,
+      "num_input_tokens_seen": 242698672,
+      "step": 112350
+    },
+    {
+      "epoch": 18.328711256117455,
+      "grad_norm": 0.00032311692484654486,
+      "learning_rate": 2.112517655489965e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 242709904,
+      "step": 112355
+    },
+    {
+      "epoch": 18.32952691680261,
+      "grad_norm": 0.004247542470693588,
+      "learning_rate": 2.110470986105756e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 242720720,
+      "step": 112360
+    },
+    {
+      "epoch": 18.330342577487766,
+      "grad_norm": 0.006098807789385319,
+      "learning_rate": 2.1084252872636046e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 242731056,
+      "step": 112365
+    },
+    {
+      "epoch": 18.33115823817292,
+      "grad_norm": 0.005680213216692209,
+      "learning_rate": 2.1063805590049667e-05,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 242743312,
+      "step": 112370
+    },
+    {
+      "epoch": 18.331973898858074,
+      "grad_norm": 0.00022195794736035168,
+      "learning_rate": 2.1043368013712872e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 242753936,
+      "step": 112375
+    },
+    {
+      "epoch": 18.33278955954323,
+      "grad_norm": 0.0006564015056937933,
+      "learning_rate": 2.102294014403977e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 242764272,
+      "step": 112380
+    },
+    {
+      "epoch": 18.333605220228385,
+      "grad_norm": 0.0004953066818416119,
+      "learning_rate": 2.1002521981444477e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 242776048,
+      "step": 112385
+    },
+    {
+      "epoch": 18.33442088091354,
+      "grad_norm": 0.000778991321567446,
+      "learning_rate": 2.0982113526340662e-05,
+      "loss": 0.038,
+      "num_input_tokens_seen": 242786864,
+      "step": 112390
+    },
+    {
+      "epoch": 18.335236541598697,
+      "grad_norm": 0.001229040906764567,
+      "learning_rate": 2.0961714779142048e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 242797552,
+      "step": 112395
+    },
+    {
+      "epoch": 18.33605220228385,
+      "grad_norm": 0.0008231330430135131,
+      "learning_rate": 2.0941325740261975e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 242809488,
+      "step": 112400
+    },
+    {
+      "epoch": 18.336867862969005,
+      "grad_norm": 0.056143589317798615,
+      "learning_rate": 2.0920946410113604e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 242820656,
+      "step": 112405
+    },
+    {
+      "epoch": 18.33768352365416,
+      "grad_norm": 0.008879280649125576,
+      "learning_rate": 2.0900576789110116e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 242831856,
+      "step": 112410
+    },
+    {
+      "epoch": 18.338499184339316,
+      "grad_norm": 0.007489972282201052,
+      "learning_rate": 2.0880216877664116e-05,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 242842320,
+      "step": 112415
+    },
+    {
+      "epoch": 18.339314845024468,
+      "grad_norm": 0.0021333445329219103,
+      "learning_rate": 2.0859866676188445e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 242852784,
+      "step": 112420
+    },
+    {
+      "epoch": 18.340130505709624,
+      "grad_norm": 0.018818873912096024,
+      "learning_rate": 2.083952618509527e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 242862960,
+      "step": 112425
+    },
+    {
+      "epoch": 18.34094616639478,
+      "grad_norm": 0.13519856333732605,
+      "learning_rate": 2.0819195404797098e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 242872528,
+      "step": 112430
+    },
+    {
+      "epoch": 18.341761827079935,
+      "grad_norm": 0.07205647975206375,
+      "learning_rate": 2.0798874335705707e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 242882512,
+      "step": 112435
+    },
+    {
+      "epoch": 18.34257748776509,
+      "grad_norm": 0.0011894232593476772,
+      "learning_rate": 2.077856297823316e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 242893648,
+      "step": 112440
+    },
+    {
+      "epoch": 18.343393148450243,
+      "grad_norm": 0.00026534864446148276,
+      "learning_rate": 2.0758261332790796e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 242903792,
+      "step": 112445
+    },
+    {
+      "epoch": 18.3442088091354,
+      "grad_norm": 0.0033330917358398438,
+      "learning_rate": 2.0737969399790392e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 242914608,
+      "step": 112450
+    },
+    {
+      "epoch": 18.345024469820554,
+      "grad_norm": 0.00043053895933553576,
+      "learning_rate": 2.0717687179642896e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 242924176,
+      "step": 112455
+    },
+    {
+      "epoch": 18.34584013050571,
+      "grad_norm": 0.021750640124082565,
+      "learning_rate": 2.0697414672759596e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 242934992,
+      "step": 112460
+    },
+    {
+      "epoch": 18.346655791190866,
+      "grad_norm": 0.001099413144402206,
+      "learning_rate": 2.0677151879551103e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 242946832,
+      "step": 112465
+    },
+    {
+      "epoch": 18.347471451876018,
+      "grad_norm": 0.0010571812745183706,
+      "learning_rate": 2.0656898800428313e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 242955696,
+      "step": 112470
+    },
+    {
+      "epoch": 18.348287112561174,
+      "grad_norm": 0.0031790726352483034,
+      "learning_rate": 2.0636655435801455e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 242967632,
+      "step": 112475
+    },
+    {
+      "epoch": 18.34910277324633,
+      "grad_norm": 0.0003818267723545432,
+      "learning_rate": 2.061642178608092e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 242977584,
+      "step": 112480
+    },
+    {
+      "epoch": 18.349918433931485,
+      "grad_norm": 0.0007671648636460304,
+      "learning_rate": 2.0596197851676768e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 242987056,
+      "step": 112485
+    },
+    {
+      "epoch": 18.35073409461664,
+      "grad_norm": 0.0005823525134474039,
+      "learning_rate": 2.057598363299884e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 242998000,
+      "step": 112490
+    },
+    {
+      "epoch": 18.351549755301793,
+      "grad_norm": 0.010062271729111671,
+      "learning_rate": 2.055577913045675e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 243007600,
+      "step": 112495
+    },
+    {
+      "epoch": 18.35236541598695,
+      "grad_norm": 0.02205917239189148,
+      "learning_rate": 2.0535584344460066e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 243017840,
+      "step": 112500
+    },
+    {
+      "epoch": 18.353181076672104,
+      "grad_norm": 0.0054580941796302795,
+      "learning_rate": 2.0515399275417958e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 243029072,
+      "step": 112505
+    },
+    {
+      "epoch": 18.35399673735726,
+      "grad_norm": 0.0038355544675141573,
+      "learning_rate": 2.0495223923739593e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 243039472,
+      "step": 112510
+    },
+    {
+      "epoch": 18.354812398042416,
+      "grad_norm": 0.008391822688281536,
+      "learning_rate": 2.0475058289833815e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 243050384,
+      "step": 112515
+    },
+    {
+      "epoch": 18.355628058727568,
+      "grad_norm": 0.017565961927175522,
+      "learning_rate": 2.045490237410924e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 243060848,
+      "step": 112520
+    },
+    {
+      "epoch": 18.356443719412724,
+      "grad_norm": 0.01259287167340517,
+      "learning_rate": 2.043475617697449e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 243071952,
+      "step": 112525
+    },
+    {
+      "epoch": 18.35725938009788,
+      "grad_norm": 0.1289086937904358,
+      "learning_rate": 2.0414619698837677e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 243082736,
+      "step": 112530
+    },
+    {
+      "epoch": 18.358075040783035,
+      "grad_norm": 0.06562699377536774,
+      "learning_rate": 2.0394492940107144e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 243093968,
+      "step": 112535
+    },
+    {
+      "epoch": 18.35889070146819,
+      "grad_norm": 0.0011165590258315206,
+      "learning_rate": 2.0374375901190456e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 243104816,
+      "step": 112540
+    },
+    {
+      "epoch": 18.359706362153343,
+      "grad_norm": 0.0002490470069460571,
+      "learning_rate": 2.0354268582495673e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 243115792,
+      "step": 112545
+    },
+    {
+      "epoch": 18.3605220228385,
+      "grad_norm": 0.0014397975755855441,
+      "learning_rate": 2.0334170984429966e-05,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 243127152,
+      "step": 112550
+    },
+    {
+      "epoch": 18.361337683523654,
+      "grad_norm": 0.01572202518582344,
+      "learning_rate": 2.0314083107400904e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 243138032,
+      "step": 112555
+    },
+    {
+      "epoch": 18.36215334420881,
+      "grad_norm": 0.0020776886958628893,
+      "learning_rate": 2.0294004951815324e-05,
+      "loss": 0.0866,
+      "num_input_tokens_seen": 243148432,
+      "step": 112560
+    },
+    {
+      "epoch": 18.362969004893966,
+      "grad_norm": 0.00019504585361573845,
+      "learning_rate": 2.027393651808046e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 243159664,
+      "step": 112565
+    },
+    {
+      "epoch": 18.363784665579118,
+      "grad_norm": 0.0009072918328456581,
+      "learning_rate": 2.0253877806602648e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 243170448,
+      "step": 112570
+    },
+    {
+      "epoch": 18.364600326264274,
+      "grad_norm": 0.00788530521094799,
+      "learning_rate": 2.0233828817788792e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 243180592,
+      "step": 112575
+    },
+    {
+      "epoch": 18.36541598694943,
+      "grad_norm": 0.0006791690248064697,
+      "learning_rate": 2.0213789552044893e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 243191408,
+      "step": 112580
+    },
+    {
+      "epoch": 18.366231647634585,
+      "grad_norm": 0.0016448087990283966,
+      "learning_rate": 2.0193760009777295e-05,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 243202160,
+      "step": 112585
+    },
+    {
+      "epoch": 18.36704730831974,
+      "grad_norm": 0.032738588750362396,
+      "learning_rate": 2.0173740191391732e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 243212464,
+      "step": 112590
+    },
+    {
+      "epoch": 18.367862969004893,
+      "grad_norm": 0.003810546128079295,
+      "learning_rate": 2.0153730097294153e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 243222768,
+      "step": 112595
+    },
+    {
+      "epoch": 18.36867862969005,
+      "grad_norm": 0.00023762752243783325,
+      "learning_rate": 2.0133729727889794e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 243234064,
+      "step": 112600
+    },
+    {
+      "epoch": 18.369494290375204,
+      "grad_norm": 0.0093738604336977,
+      "learning_rate": 2.0113739083584327e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 243244208,
+      "step": 112605
+    },
+    {
+      "epoch": 18.37030995106036,
+      "grad_norm": 0.003199538215994835,
+      "learning_rate": 2.0093758164782595e-05,
+      "loss": 0.1295,
+      "num_input_tokens_seen": 243254512,
+      "step": 112610
+    },
+    {
+      "epoch": 18.371125611745512,
+      "grad_norm": 0.0027874563820660114,
+      "learning_rate": 2.0073786971889662e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 243265648,
+      "step": 112615
+    },
+    {
+      "epoch": 18.371941272430668,
+      "grad_norm": 0.0008438194054178894,
+      "learning_rate": 2.0053825505310318e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 243276560,
+      "step": 112620
+    },
+    {
+      "epoch": 18.372756933115824,
+      "grad_norm": 0.0001784580817911774,
+      "learning_rate": 2.0033873765449018e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 243286608,
+      "step": 112625
+    },
+    {
+      "epoch": 18.37357259380098,
+      "grad_norm": 0.002208051038905978,
+      "learning_rate": 2.0013931752710214e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 243298128,
+      "step": 112630
+    },
+    {
+      "epoch": 18.374388254486135,
+      "grad_norm": 0.001969917444512248,
+      "learning_rate": 1.9993999467497913e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 243309680,
+      "step": 112635
+    },
+    {
+      "epoch": 18.375203915171287,
+      "grad_norm": 0.0012371476041153073,
+      "learning_rate": 1.9974076910216188e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 243318608,
+      "step": 112640
+    },
+    {
+      "epoch": 18.376019575856443,
+      "grad_norm": 0.00016509677516296506,
+      "learning_rate": 1.995416408126871e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 243328624,
+      "step": 112645
+    },
+    {
+      "epoch": 18.3768352365416,
+      "grad_norm": 0.03946005553007126,
+      "learning_rate": 1.9934260981059103e-05,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 243339600,
+      "step": 112650
+    },
+    {
+      "epoch": 18.377650897226754,
+      "grad_norm": 0.023350073024630547,
+      "learning_rate": 1.9914367609990713e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 243349584,
+      "step": 112655
+    },
+    {
+      "epoch": 18.37846655791191,
+      "grad_norm": 0.013439115136861801,
+      "learning_rate": 1.9894483968466715e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 243361392,
+      "step": 112660
+    },
+    {
+      "epoch": 18.379282218597062,
+      "grad_norm": 0.0004325744812376797,
+      "learning_rate": 1.9874610056890007e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 243371408,
+      "step": 112665
+    },
+    {
+      "epoch": 18.380097879282218,
+      "grad_norm": 0.0010596549836918712,
+      "learning_rate": 1.9854745875663438e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 243382928,
+      "step": 112670
+    },
+    {
+      "epoch": 18.380913539967374,
+      "grad_norm": 0.003541856538504362,
+      "learning_rate": 1.983489142518946e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 243393328,
+      "step": 112675
+    },
+    {
+      "epoch": 18.38172920065253,
+      "grad_norm": 0.018053626641631126,
+      "learning_rate": 1.9815046705870697e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 243404816,
+      "step": 112680
+    },
+    {
+      "epoch": 18.382544861337685,
+      "grad_norm": 0.010469280183315277,
+      "learning_rate": 1.979521171810905e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 243414640,
+      "step": 112685
+    },
+    {
+      "epoch": 18.383360522022837,
+      "grad_norm": 0.0004034289449919015,
+      "learning_rate": 1.9775386462306756e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 243425104,
+      "step": 112690
+    },
+    {
+      "epoch": 18.384176182707993,
+      "grad_norm": 0.01321091316640377,
+      "learning_rate": 1.9755570938865263e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 243436176,
+      "step": 112695
+    },
+    {
+      "epoch": 18.38499184339315,
+      "grad_norm": 0.0053224824368953705,
+      "learning_rate": 1.9735765148186536e-05,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 243445456,
+      "step": 112700
+    },
+    {
+      "epoch": 18.385807504078304,
+      "grad_norm": 0.0077959164045751095,
+      "learning_rate": 1.9715969090671693e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 243456784,
+      "step": 112705
+    },
+    {
+      "epoch": 18.38662316476346,
+      "grad_norm": 0.018376147374510765,
+      "learning_rate": 1.969618276672208e-05,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 243468656,
+      "step": 112710
+    },
+    {
+      "epoch": 18.387438825448612,
+      "grad_norm": 0.025106191635131836,
+      "learning_rate": 1.9676406176738547e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 243479824,
+      "step": 112715
+    },
+    {
+      "epoch": 18.388254486133768,
+      "grad_norm": 0.0026839233469218016,
+      "learning_rate": 1.965663932112205e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 243490512,
+      "step": 112720
+    },
+    {
+      "epoch": 18.389070146818923,
+      "grad_norm": 0.9623442888259888,
+      "learning_rate": 1.96368822002731e-05,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 243501456,
+      "step": 112725
+    },
+    {
+      "epoch": 18.38988580750408,
+      "grad_norm": 0.031202662736177444,
+      "learning_rate": 1.9617134814592096e-05,
+      "loss": 0.0898,
+      "num_input_tokens_seen": 243513424,
+      "step": 112730
+    },
+    {
+      "epoch": 18.390701468189235,
+      "grad_norm": 0.0001352128601865843,
+      "learning_rate": 1.9597397164479282e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 243524880,
+      "step": 112735
+    },
+    {
+      "epoch": 18.391517128874387,
+      "grad_norm": 0.026948045939207077,
+      "learning_rate": 1.957766925033466e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 243535120,
+      "step": 112740
+    },
+    {
+      "epoch": 18.392332789559543,
+      "grad_norm": 0.0015484422910958529,
+      "learning_rate": 1.9557951072557978e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 243545232,
+      "step": 112745
+    },
+    {
+      "epoch": 18.3931484502447,
+      "grad_norm": 0.02422100119292736,
+      "learning_rate": 1.9538242631548965e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 243555216,
+      "step": 112750
+    },
+    {
+      "epoch": 18.393964110929854,
+      "grad_norm": 0.00910177081823349,
+      "learning_rate": 1.9518543927706968e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 243564848,
+      "step": 112755
+    },
+    {
+      "epoch": 18.39477977161501,
+      "grad_norm": 0.0012397068785503507,
+      "learning_rate": 1.949885496143117e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 243575120,
+      "step": 112760
+    },
+    {
+      "epoch": 18.395595432300162,
+      "grad_norm": 0.02492532506585121,
+      "learning_rate": 1.947917573312069e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 243585168,
+      "step": 112765
+    },
+    {
+      "epoch": 18.396411092985318,
+      "grad_norm": 0.000635263801086694,
+      "learning_rate": 1.945950624317422e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 243595920,
+      "step": 112770
+    },
+    {
+      "epoch": 18.397226753670473,
+      "grad_norm": 0.001339736278168857,
+      "learning_rate": 1.943984649199054e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 243605424,
+      "step": 112775
+    },
+    {
+      "epoch": 18.39804241435563,
+      "grad_norm": 0.005495937541127205,
+      "learning_rate": 1.9420196479967957e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 243616720,
+      "step": 112780
+    },
+    {
+      "epoch": 18.39885807504078,
+      "grad_norm": 0.0017825653776526451,
+      "learning_rate": 1.9400556207504805e-05,
+      "loss": 0.031,
+      "num_input_tokens_seen": 243627440,
+      "step": 112785
+    },
+    {
+      "epoch": 18.399673735725937,
+      "grad_norm": 0.0019627753645181656,
+      "learning_rate": 1.9380925674998995e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 243638096,
+      "step": 112790
+    },
+    {
+      "epoch": 18.400489396411093,
+      "grad_norm": 0.0011574667878448963,
+      "learning_rate": 1.9361304882848487e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 243648848,
+      "step": 112795
+    },
+    {
+      "epoch": 18.40130505709625,
+      "grad_norm": 0.0014631313970312476,
+      "learning_rate": 1.9341693831450847e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 243658768,
+      "step": 112800
+    },
+    {
+      "epoch": 18.402120717781404,
+      "grad_norm": 0.005520334001630545,
+      "learning_rate": 1.9322092521203537e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 243669104,
+      "step": 112805
+    },
+    {
+      "epoch": 18.402936378466556,
+      "grad_norm": 0.12357936054468155,
+      "learning_rate": 1.93025009525038e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 243679760,
+      "step": 112810
+    },
+    {
+      "epoch": 18.403752039151712,
+      "grad_norm": 0.0001971587771549821,
+      "learning_rate": 1.92829191257487e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 243690928,
+      "step": 112815
+    },
+    {
+      "epoch": 18.404567699836868,
+      "grad_norm": 0.013569245114922523,
+      "learning_rate": 1.9263347041335033e-05,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 243701776,
+      "step": 112820
+    },
+    {
+      "epoch": 18.405383360522023,
+      "grad_norm": 0.0014590908540412784,
+      "learning_rate": 1.9243784699659538e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 243712528,
+      "step": 112825
+    },
+    {
+      "epoch": 18.40619902120718,
+      "grad_norm": 0.00046936338185332716,
+      "learning_rate": 1.9224232101118623e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 243722576,
+      "step": 112830
+    },
+    {
+      "epoch": 18.40701468189233,
+      "grad_norm": 0.0006246300181373954,
+      "learning_rate": 1.9204689246108576e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 243732976,
+      "step": 112835
+    },
+    {
+      "epoch": 18.407830342577487,
+      "grad_norm": 0.0062375376001000404,
+      "learning_rate": 1.9185156135025417e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 243744464,
+      "step": 112840
+    },
+    {
+      "epoch": 18.408646003262643,
+      "grad_norm": 0.1260538250207901,
+      "learning_rate": 1.9165632768264994e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 243754544,
+      "step": 112845
+    },
+    {
+      "epoch": 18.4094616639478,
+      "grad_norm": 0.06947627663612366,
+      "learning_rate": 1.9146119146223052e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 243765648,
+      "step": 112850
+    },
+    {
+      "epoch": 18.410277324632954,
+      "grad_norm": 0.00032668912899680436,
+      "learning_rate": 1.9126615269294988e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 243776816,
+      "step": 112855
+    },
+    {
+      "epoch": 18.411092985318106,
+      "grad_norm": 0.002180765848606825,
+      "learning_rate": 1.9107121137876106e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 243788400,
+      "step": 112860
+    },
+    {
+      "epoch": 18.411908646003262,
+      "grad_norm": 0.0003920606686733663,
+      "learning_rate": 1.908763675236147e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 243797904,
+      "step": 112865
+    },
+    {
+      "epoch": 18.412724306688418,
+      "grad_norm": 0.0018217455362901092,
+      "learning_rate": 1.906816211314599e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 243809392,
+      "step": 112870
+    },
+    {
+      "epoch": 18.413539967373573,
+      "grad_norm": 0.0001498242054367438,
+      "learning_rate": 1.9048697220624244e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 243820464,
+      "step": 112875
+    },
+    {
+      "epoch": 18.41435562805873,
+      "grad_norm": 0.007615982089191675,
+      "learning_rate": 1.9029242075190856e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 243831408,
+      "step": 112880
+    },
+    {
+      "epoch": 18.41517128874388,
+      "grad_norm": 0.004452873952686787,
+      "learning_rate": 1.9009796677239953e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 243841808,
+      "step": 112885
+    },
+    {
+      "epoch": 18.415986949429037,
+      "grad_norm": 0.0032919731456786394,
+      "learning_rate": 1.8990361027165726e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 243853776,
+      "step": 112890
+    },
+    {
+      "epoch": 18.416802610114193,
+      "grad_norm": 0.0024367780424654484,
+      "learning_rate": 1.8970935125362076e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 243864432,
+      "step": 112895
+    },
+    {
+      "epoch": 18.41761827079935,
+      "grad_norm": 0.1128418818116188,
+      "learning_rate": 1.8951518972222637e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 243875504,
+      "step": 112900
+    },
+    {
+      "epoch": 18.418433931484504,
+      "grad_norm": 0.04299400746822357,
+      "learning_rate": 1.893211256814087e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 243885168,
+      "step": 112905
+    },
+    {
+      "epoch": 18.419249592169656,
+      "grad_norm": 0.007050327956676483,
+      "learning_rate": 1.891271591351018e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 243896208,
+      "step": 112910
+    },
+    {
+      "epoch": 18.420065252854812,
+      "grad_norm": 0.00047753899707458913,
+      "learning_rate": 1.8893329008723593e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 243907344,
+      "step": 112915
+    },
+    {
+      "epoch": 18.420880913539968,
+      "grad_norm": 0.6455734372138977,
+      "learning_rate": 1.8873951854173955e-05,
+      "loss": 0.0304,
+      "num_input_tokens_seen": 243918448,
+      "step": 112920
+    },
+    {
+      "epoch": 18.421696574225123,
+      "grad_norm": 0.00031255558133125305,
+      "learning_rate": 1.885458445025412e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 243927984,
+      "step": 112925
+    },
+    {
+      "epoch": 18.42251223491028,
+      "grad_norm": 0.0006976706790737808,
+      "learning_rate": 1.883522679735644e-05,
+      "loss": 0.062,
+      "num_input_tokens_seen": 243938160,
+      "step": 112930
+    },
+    {
+      "epoch": 18.42332789559543,
+      "grad_norm": 0.0007012999849393964,
+      "learning_rate": 1.8815878895873328e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 243949168,
+      "step": 112935
+    },
+    {
+      "epoch": 18.424143556280587,
+      "grad_norm": 0.00946141593158245,
+      "learning_rate": 1.87965407461968e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 243960880,
+      "step": 112940
+    },
+    {
+      "epoch": 18.424959216965743,
+      "grad_norm": 0.002110017230734229,
+      "learning_rate": 1.877721234871893e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 243971120,
+      "step": 112945
+    },
+    {
+      "epoch": 18.4257748776509,
+      "grad_norm": 0.0002857319777831435,
+      "learning_rate": 1.8757893703831243e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 243981104,
+      "step": 112950
+    },
+    {
+      "epoch": 18.42659053833605,
+      "grad_norm": 0.009105951525270939,
+      "learning_rate": 1.8738584811925417e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 243992816,
+      "step": 112955
+    },
+    {
+      "epoch": 18.427406199021206,
+      "grad_norm": 0.0012741464888677,
+      "learning_rate": 1.8719285673392594e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 244003920,
+      "step": 112960
+    },
+    {
+      "epoch": 18.428221859706362,
+      "grad_norm": 0.021076209843158722,
+      "learning_rate": 1.869999628862401e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 244016528,
+      "step": 112965
+    },
+    {
+      "epoch": 18.429037520391518,
+      "grad_norm": 0.00040486734360456467,
+      "learning_rate": 1.8680716658010633e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 244027824,
+      "step": 112970
+    },
+    {
+      "epoch": 18.429853181076673,
+      "grad_norm": 0.00019396857533138245,
+      "learning_rate": 1.8661446781943093e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 244039184,
+      "step": 112975
+    },
+    {
+      "epoch": 18.430668841761825,
+      "grad_norm": 0.004015372600406408,
+      "learning_rate": 1.8642186660811965e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 244051024,
+      "step": 112980
+    },
+    {
+      "epoch": 18.43148450244698,
+      "grad_norm": 0.0005323364166542888,
+      "learning_rate": 1.862293629500761e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244063248,
+      "step": 112985
+    },
+    {
+      "epoch": 18.432300163132137,
+      "grad_norm": 0.8979222774505615,
+      "learning_rate": 1.8603695684920042e-05,
+      "loss": 0.1016,
+      "num_input_tokens_seen": 244074000,
+      "step": 112990
+    },
+    {
+      "epoch": 18.433115823817293,
+      "grad_norm": 0.00034616264747455716,
+      "learning_rate": 1.858446483093934e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 244084752,
+      "step": 112995
+    },
+    {
+      "epoch": 18.43393148450245,
+      "grad_norm": 0.0007030692067928612,
+      "learning_rate": 1.856524373345514e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 244095856,
+      "step": 113000
+    },
+    {
+      "epoch": 18.4347471451876,
+      "grad_norm": 0.004537553526461124,
+      "learning_rate": 1.8546032392857014e-05,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 244107696,
+      "step": 113005
+    },
+    {
+      "epoch": 18.435562805872756,
+      "grad_norm": 0.010070395655930042,
+      "learning_rate": 1.8526830809534377e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 244120528,
+      "step": 113010
+    },
+    {
+      "epoch": 18.436378466557912,
+      "grad_norm": 0.0016404170310124755,
+      "learning_rate": 1.8507638983876252e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 244131664,
+      "step": 113015
+    },
+    {
+      "epoch": 18.437194127243067,
+      "grad_norm": 0.002478382084518671,
+      "learning_rate": 1.84884569162716e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 244142288,
+      "step": 113020
+    },
+    {
+      "epoch": 18.438009787928223,
+      "grad_norm": 0.1491037756204605,
+      "learning_rate": 1.8469284607109282e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 244154480,
+      "step": 113025
+    },
+    {
+      "epoch": 18.438825448613375,
+      "grad_norm": 0.0012238170020282269,
+      "learning_rate": 1.8450122056777762e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 244164944,
+      "step": 113030
+    },
+    {
+      "epoch": 18.43964110929853,
+      "grad_norm": 0.00036461750278249383,
+      "learning_rate": 1.8430969265665398e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244175248,
+      "step": 113035
+    },
+    {
+      "epoch": 18.440456769983687,
+      "grad_norm": 0.002877857070416212,
+      "learning_rate": 1.8411826234160324e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 244185552,
+      "step": 113040
+    },
+    {
+      "epoch": 18.441272430668842,
+      "grad_norm": 0.010942216031253338,
+      "learning_rate": 1.8392692962650504e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 244195312,
+      "step": 113045
+    },
+    {
+      "epoch": 18.442088091353998,
+      "grad_norm": 0.007464864756911993,
+      "learning_rate": 1.8373569451523853e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 244205840,
+      "step": 113050
+    },
+    {
+      "epoch": 18.44290375203915,
+      "grad_norm": 0.025183305144309998,
+      "learning_rate": 1.8354455701167672e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 244215216,
+      "step": 113055
+    },
+    {
+      "epoch": 18.443719412724306,
+      "grad_norm": 0.0012140703620389104,
+      "learning_rate": 1.833535171196954e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 244225648,
+      "step": 113060
+    },
+    {
+      "epoch": 18.44453507340946,
+      "grad_norm": 0.000981401652097702,
+      "learning_rate": 1.831625748431648e-05,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 244237872,
+      "step": 113065
+    },
+    {
+      "epoch": 18.445350734094617,
+      "grad_norm": 0.00016673772188369185,
+      "learning_rate": 1.829717301859557e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 244248560,
+      "step": 113070
+    },
+    {
+      "epoch": 18.446166394779773,
+      "grad_norm": 0.014688815921545029,
+      "learning_rate": 1.8278098315193504e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244258960,
+      "step": 113075
+    },
+    {
+      "epoch": 18.446982055464925,
+      "grad_norm": 0.0007847630186006427,
+      "learning_rate": 1.8259033374496915e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 244269424,
+      "step": 113080
+    },
+    {
+      "epoch": 18.44779771615008,
+      "grad_norm": 0.00025912452838383615,
+      "learning_rate": 1.8239978196892105e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 244281008,
+      "step": 113085
+    },
+    {
+      "epoch": 18.448613376835237,
+      "grad_norm": 0.0014495945069938898,
+      "learning_rate": 1.8220932782765377e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 244290544,
+      "step": 113090
+    },
+    {
+      "epoch": 18.449429037520392,
+      "grad_norm": 0.013381626456975937,
+      "learning_rate": 1.8201897132502476e-05,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 244302000,
+      "step": 113095
+    },
+    {
+      "epoch": 18.450244698205548,
+      "grad_norm": 0.014497867785394192,
+      "learning_rate": 1.8182871246489487e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 244312336,
+      "step": 113100
+    },
+    {
+      "epoch": 18.4510603588907,
+      "grad_norm": 0.024804679676890373,
+      "learning_rate": 1.8163855125111707e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 244323600,
+      "step": 113105
+    },
+    {
+      "epoch": 18.451876019575856,
+      "grad_norm": 0.0011982301948592067,
+      "learning_rate": 1.8144848768754717e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244334704,
+      "step": 113110
+    },
+    {
+      "epoch": 18.45269168026101,
+      "grad_norm": 0.0005384967080317438,
+      "learning_rate": 1.8125852177803658e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 244344816,
+      "step": 113115
+    },
+    {
+      "epoch": 18.453507340946167,
+      "grad_norm": 0.003350053681060672,
+      "learning_rate": 1.8106865352643498e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 244355984,
+      "step": 113120
+    },
+    {
+      "epoch": 18.454323001631323,
+      "grad_norm": 0.01903350092470646,
+      "learning_rate": 1.808788829365904e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 244366320,
+      "step": 113125
+    },
+    {
+      "epoch": 18.455138662316475,
+      "grad_norm": 0.0018174276920035481,
+      "learning_rate": 1.8068921001234862e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 244377296,
+      "step": 113130
+    },
+    {
+      "epoch": 18.45595432300163,
+      "grad_norm": 0.0027823823038488626,
+      "learning_rate": 1.804996347575538e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244389392,
+      "step": 113135
+    },
+    {
+      "epoch": 18.456769983686787,
+      "grad_norm": 0.0007917169132269919,
+      "learning_rate": 1.8031015717604793e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 244399888,
+      "step": 113140
+    },
+    {
+      "epoch": 18.457585644371942,
+      "grad_norm": 0.563396155834198,
+      "learning_rate": 1.8012077727167065e-05,
+      "loss": 0.031,
+      "num_input_tokens_seen": 244410128,
+      "step": 113145
+    },
+    {
+      "epoch": 18.458401305057095,
+      "grad_norm": 0.03793555125594139,
+      "learning_rate": 1.7993149504826056e-05,
+      "loss": 0.0178,
+      "num_input_tokens_seen": 244421488,
+      "step": 113150
+    },
+    {
+      "epoch": 18.45921696574225,
+      "grad_norm": 0.010772444307804108,
+      "learning_rate": 1.7974231050965352e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 244432464,
+      "step": 113155
+    },
+    {
+      "epoch": 18.460032626427406,
+      "grad_norm": 0.00041844710358418524,
+      "learning_rate": 1.7955322365968253e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244443984,
+      "step": 113160
+    },
+    {
+      "epoch": 18.46084828711256,
+      "grad_norm": 0.004533614031970501,
+      "learning_rate": 1.793642345021823e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244455056,
+      "step": 113165
+    },
+    {
+      "epoch": 18.461663947797717,
+      "grad_norm": 0.0014635130064561963,
+      "learning_rate": 1.7917534304097983e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 244465808,
+      "step": 113170
+    },
+    {
+      "epoch": 18.46247960848287,
+      "grad_norm": 0.0006045596674084663,
+      "learning_rate": 1.7898654927990587e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244476080,
+      "step": 113175
+    },
+    {
+      "epoch": 18.463295269168025,
+      "grad_norm": 0.006617935374379158,
+      "learning_rate": 1.7879785322278408e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 244486608,
+      "step": 113180
+    },
+    {
+      "epoch": 18.46411092985318,
+      "grad_norm": 0.005817278753966093,
+      "learning_rate": 1.786092548734408e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 244497296,
+      "step": 113185
+    },
+    {
+      "epoch": 18.464926590538337,
+      "grad_norm": 0.003113929880782962,
+      "learning_rate": 1.7842075423569692e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244506288,
+      "step": 113190
+    },
+    {
+      "epoch": 18.465742251223492,
+      "grad_norm": 0.010674776509404182,
+      "learning_rate": 1.782323513133738e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 244517712,
+      "step": 113195
+    },
+    {
+      "epoch": 18.466557911908644,
+      "grad_norm": 0.0003821174323093146,
+      "learning_rate": 1.7804404611028778e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 244528912,
+      "step": 113200
+    },
+    {
+      "epoch": 18.4673735725938,
+      "grad_norm": 0.010828257538378239,
+      "learning_rate": 1.7785583863025757e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 244539984,
+      "step": 113205
+    },
+    {
+      "epoch": 18.468189233278956,
+      "grad_norm": 0.003220900660380721,
+      "learning_rate": 1.776677288770945e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244550864,
+      "step": 113210
+    },
+    {
+      "epoch": 18.46900489396411,
+      "grad_norm": 0.015322371385991573,
+      "learning_rate": 1.7747971685461383e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 244561392,
+      "step": 113215
+    },
+    {
+      "epoch": 18.469820554649267,
+      "grad_norm": 0.013095523230731487,
+      "learning_rate": 1.772918025666237e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 244571504,
+      "step": 113220
+    },
+    {
+      "epoch": 18.47063621533442,
+      "grad_norm": 0.004092440940439701,
+      "learning_rate": 1.7710398601693432e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 244581552,
+      "step": 113225
+    },
+    {
+      "epoch": 18.471451876019575,
+      "grad_norm": 0.0057231769897043705,
+      "learning_rate": 1.769162672093494e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 244592144,
+      "step": 113230
+    },
+    {
+      "epoch": 18.47226753670473,
+      "grad_norm": 0.255003958940506,
+      "learning_rate": 1.7672864614767636e-05,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 244602448,
+      "step": 113235
+    },
+    {
+      "epoch": 18.473083197389887,
+      "grad_norm": 0.0010036260355263948,
+      "learning_rate": 1.7654112283571446e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 244612368,
+      "step": 113240
+    },
+    {
+      "epoch": 18.473898858075042,
+      "grad_norm": 0.0030960855074226856,
+      "learning_rate": 1.7635369727726726e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244623184,
+      "step": 113245
+    },
+    {
+      "epoch": 18.474714518760194,
+      "grad_norm": 0.05858004838228226,
+      "learning_rate": 1.7616636947613063e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 244634032,
+      "step": 113250
+    },
+    {
+      "epoch": 18.47553017944535,
+      "grad_norm": 0.006544803269207478,
+      "learning_rate": 1.759791394361021e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 244645296,
+      "step": 113255
+    },
+    {
+      "epoch": 18.476345840130506,
+      "grad_norm": 0.000575044599827379,
+      "learning_rate": 1.757920071609764e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 244655632,
+      "step": 113260
+    },
+    {
+      "epoch": 18.47716150081566,
+      "grad_norm": 0.0021637838799506426,
+      "learning_rate": 1.75604972654545e-05,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 244665776,
+      "step": 113265
+    },
+    {
+      "epoch": 18.477977161500817,
+      "grad_norm": 0.016059428453445435,
+      "learning_rate": 1.754180359205998e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 244677168,
+      "step": 113270
+    },
+    {
+      "epoch": 18.47879282218597,
+      "grad_norm": 0.025442641228437424,
+      "learning_rate": 1.752311969629278e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 244687632,
+      "step": 113275
+    },
+    {
+      "epoch": 18.479608482871125,
+      "grad_norm": 0.015501430258154869,
+      "learning_rate": 1.7504445578531703e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 244697328,
+      "step": 113280
+    },
+    {
+      "epoch": 18.48042414355628,
+      "grad_norm": 0.0016439296305179596,
+      "learning_rate": 1.7485781239155063e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 244707952,
+      "step": 113285
+    },
+    {
+      "epoch": 18.481239804241437,
+      "grad_norm": 0.003533845068886876,
+      "learning_rate": 1.7467126678541223e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 244718896,
+      "step": 113290
+    },
+    {
+      "epoch": 18.482055464926592,
+      "grad_norm": 0.01935855858027935,
+      "learning_rate": 1.7448481897068158e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 244729104,
+      "step": 113295
+    },
+    {
+      "epoch": 18.482871125611744,
+      "grad_norm": 0.00022205821005627513,
+      "learning_rate": 1.742984689511379e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 244738320,
+      "step": 113300
+    },
+    {
+      "epoch": 18.4836867862969,
+      "grad_norm": 0.0034483519848436117,
+      "learning_rate": 1.7411221673055644e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 244749680,
+      "step": 113305
+    },
+    {
+      "epoch": 18.484502446982056,
+      "grad_norm": 0.004889797419309616,
+      "learning_rate": 1.739260623127148e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244760816,
+      "step": 113310
+    },
+    {
+      "epoch": 18.48531810766721,
+      "grad_norm": 0.008101309649646282,
+      "learning_rate": 1.737400057013827e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244771440,
+      "step": 113315
+    },
+    {
+      "epoch": 18.486133768352367,
+      "grad_norm": 0.0009130858816206455,
+      "learning_rate": 1.735540469003327e-05,
+      "loss": 0.1336,
+      "num_input_tokens_seen": 244782096,
+      "step": 113320
+    },
+    {
+      "epoch": 18.48694942903752,
+      "grad_norm": 0.055807098746299744,
+      "learning_rate": 1.733681859133318e-05,
+      "loss": 0.1183,
+      "num_input_tokens_seen": 244792144,
+      "step": 113325
+    },
+    {
+      "epoch": 18.487765089722675,
+      "grad_norm": 0.00047300878213718534,
+      "learning_rate": 1.7318242274414864e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 244801424,
+      "step": 113330
+    },
+    {
+      "epoch": 18.48858075040783,
+      "grad_norm": 0.0005087702884338796,
+      "learning_rate": 1.7299675739654575e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 244812560,
+      "step": 113335
+    },
+    {
+      "epoch": 18.489396411092986,
+      "grad_norm": 0.15531721711158752,
+      "learning_rate": 1.7281118987428847e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 244821808,
+      "step": 113340
+    },
+    {
+      "epoch": 18.49021207177814,
+      "grad_norm": 0.00020166859030723572,
+      "learning_rate": 1.7262572018113488e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244833424,
+      "step": 113345
+    },
+    {
+      "epoch": 18.491027732463294,
+      "grad_norm": 0.0009022870799526572,
+      "learning_rate": 1.7244034832084587e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 244843504,
+      "step": 113350
+    },
+    {
+      "epoch": 18.49184339314845,
+      "grad_norm": 0.0002938243851531297,
+      "learning_rate": 1.722550742971768e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 244853360,
+      "step": 113355
+    },
+    {
+      "epoch": 18.492659053833606,
+      "grad_norm": 0.04535282030701637,
+      "learning_rate": 1.720698981138835e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 244864432,
+      "step": 113360
+    },
+    {
+      "epoch": 18.49347471451876,
+      "grad_norm": 0.003897402435541153,
+      "learning_rate": 1.7188481977471804e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 244874928,
+      "step": 113365
+    },
+    {
+      "epoch": 18.494290375203914,
+      "grad_norm": 0.01214703917503357,
+      "learning_rate": 1.716998392834318e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 244886640,
+      "step": 113370
+    },
+    {
+      "epoch": 18.49510603588907,
+      "grad_norm": 0.0006659848149865866,
+      "learning_rate": 1.715149566437735e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244896912,
+      "step": 113375
+    },
+    {
+      "epoch": 18.495921696574225,
+      "grad_norm": 0.008747376501560211,
+      "learning_rate": 1.7133017185949007e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 244907728,
+      "step": 113380
+    },
+    {
+      "epoch": 18.49673735725938,
+      "grad_norm": 0.0059668924659490585,
+      "learning_rate": 1.711454849343258e-05,
+      "loss": 0.0677,
+      "num_input_tokens_seen": 244918352,
+      "step": 113385
+    },
+    {
+      "epoch": 18.497553017944536,
+      "grad_norm": 0.0030300829093903303,
+      "learning_rate": 1.709608958720249e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 244928336,
+      "step": 113390
+    },
+    {
+      "epoch": 18.49836867862969,
+      "grad_norm": 0.00733586261048913,
+      "learning_rate": 1.7077640467632714e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 244938512,
+      "step": 113395
+    },
+    {
+      "epoch": 18.499184339314844,
+      "grad_norm": 0.002480535302311182,
+      "learning_rate": 1.705920113509718e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 244950128,
+      "step": 113400
+    },
+    {
+      "epoch": 18.5,
+      "grad_norm": 0.0012112815165892243,
+      "learning_rate": 1.7040771589969583e-05,
+      "loss": 0.0371,
+      "num_input_tokens_seen": 244960368,
+      "step": 113405
+    },
+    {
+      "epoch": 18.500815660685156,
+      "grad_norm": 0.002310445299372077,
+      "learning_rate": 1.7022351832623407e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 244971440,
+      "step": 113410
+    },
+    {
+      "epoch": 18.50163132137031,
+      "grad_norm": 0.004520154092460871,
+      "learning_rate": 1.7003941863432014e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 244981456,
+      "step": 113415
+    },
+    {
+      "epoch": 18.502446982055464,
+      "grad_norm": 0.0012209441047161818,
+      "learning_rate": 1.6985541682768445e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 244991216,
+      "step": 113420
+    },
+    {
+      "epoch": 18.50326264274062,
+      "grad_norm": 0.000785894924774766,
+      "learning_rate": 1.696715129100562e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 245002352,
+      "step": 113425
+    },
+    {
+      "epoch": 18.504078303425775,
+      "grad_norm": 0.008201303891837597,
+      "learning_rate": 1.6948770688516248e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 245013904,
+      "step": 113430
+    },
+    {
+      "epoch": 18.50489396411093,
+      "grad_norm": 0.0007624907302670181,
+      "learning_rate": 1.6930399875672853e-05,
+      "loss": 0.083,
+      "num_input_tokens_seen": 245025456,
+      "step": 113435
+    },
+    {
+      "epoch": 18.505709624796086,
+      "grad_norm": 0.11084222048521042,
+      "learning_rate": 1.69120388528477e-05,
+      "loss": 0.0091,
+      "num_input_tokens_seen": 245036560,
+      "step": 113440
+    },
+    {
+      "epoch": 18.50652528548124,
+      "grad_norm": 0.0011350169079378247,
+      "learning_rate": 1.6893687620412933e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 245047248,
+      "step": 113445
+    },
+    {
+      "epoch": 18.507340946166394,
+      "grad_norm": 0.0018546866485849023,
+      "learning_rate": 1.687534617874037e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 245059536,
+      "step": 113450
+    },
+    {
+      "epoch": 18.50815660685155,
+      "grad_norm": 0.0010910548735409975,
+      "learning_rate": 1.685701452820193e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 245068592,
+      "step": 113455
+    },
+    {
+      "epoch": 18.508972267536706,
+      "grad_norm": 0.0018128188094124198,
+      "learning_rate": 1.6838692669168876e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 245080912,
+      "step": 113460
+    },
+    {
+      "epoch": 18.50978792822186,
+      "grad_norm": 0.006234641652554274,
+      "learning_rate": 1.682038060201274e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 245091824,
+      "step": 113465
+    },
+    {
+      "epoch": 18.510603588907014,
+      "grad_norm": 0.00048175413394346833,
+      "learning_rate": 1.680207832710451e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 245102928,
+      "step": 113470
+    },
+    {
+      "epoch": 18.51141924959217,
+      "grad_norm": 0.002115569543093443,
+      "learning_rate": 1.6783785844815157e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 245113200,
+      "step": 113475
+    },
+    {
+      "epoch": 18.512234910277325,
+      "grad_norm": 0.007819109596312046,
+      "learning_rate": 1.6765503155515394e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 245125360,
+      "step": 113480
+    },
+    {
+      "epoch": 18.51305057096248,
+      "grad_norm": 0.0004998321528546512,
+      "learning_rate": 1.6747230259575696e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 245136016,
+      "step": 113485
+    },
+    {
+      "epoch": 18.513866231647633,
+      "grad_norm": 0.005353355780243874,
+      "learning_rate": 1.6728967157366492e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 245146896,
+      "step": 113490
+    },
+    {
+      "epoch": 18.51468189233279,
+      "grad_norm": 0.0007995230262167752,
+      "learning_rate": 1.671071384925782e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 245157104,
+      "step": 113495
+    },
+    {
+      "epoch": 18.515497553017944,
+      "grad_norm": 0.07687735557556152,
+      "learning_rate": 1.66924703356196e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 245167696,
+      "step": 113500
+    },
+    {
+      "epoch": 18.5163132137031,
+      "grad_norm": 0.03595279902219772,
+      "learning_rate": 1.6674236616821602e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 245178768,
+      "step": 113505
+    },
+    {
+      "epoch": 18.517128874388256,
+      "grad_norm": 0.2188006043434143,
+      "learning_rate": 1.6656012693233357e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 245189264,
+      "step": 113510
+    },
+    {
+      "epoch": 18.517944535073408,
+      "grad_norm": 0.005239508114755154,
+      "learning_rate": 1.6637798565224127e-05,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 245199600,
+      "step": 113515
+    },
+    {
+      "epoch": 18.518760195758563,
+      "grad_norm": 0.0013815397396683693,
+      "learning_rate": 1.6619594233163172e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 245211856,
+      "step": 113520
+    },
+    {
+      "epoch": 18.51957585644372,
+      "grad_norm": 0.0036403543781489134,
+      "learning_rate": 1.6601399697419306e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 245222288,
+      "step": 113525
+    },
+    {
+      "epoch": 18.520391517128875,
+      "grad_norm": 0.0004640101979020983,
+      "learning_rate": 1.658321495836135e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 245230896,
+      "step": 113530
+    },
+    {
+      "epoch": 18.52120717781403,
+      "grad_norm": 0.00018253900634590536,
+      "learning_rate": 1.6565040016357725e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 245242736,
+      "step": 113535
+    },
+    {
+      "epoch": 18.522022838499183,
+      "grad_norm": 0.0010609666351228952,
+      "learning_rate": 1.654687487177692e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 245253616,
+      "step": 113540
+    },
+    {
+      "epoch": 18.52283849918434,
+      "grad_norm": 0.0076196757145226,
+      "learning_rate": 1.6528719524986967e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 245263792,
+      "step": 113545
+    },
+    {
+      "epoch": 18.523654159869494,
+      "grad_norm": 0.008771974593400955,
+      "learning_rate": 1.6510573976355858e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 245273104,
+      "step": 113550
+    },
+    {
+      "epoch": 18.52446982055465,
+      "grad_norm": 0.0018892057705670595,
+      "learning_rate": 1.6492438226251295e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 245283312,
+      "step": 113555
+    },
+    {
+      "epoch": 18.525285481239806,
+      "grad_norm": 0.0011229922529309988,
+      "learning_rate": 1.647431227504087e-05,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 245293776,
+      "step": 113560
+    },
+    {
+      "epoch": 18.526101141924958,
+      "grad_norm": 0.0634569600224495,
+      "learning_rate": 1.645619612309185e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 245304816,
+      "step": 113565
+    },
+    {
+      "epoch": 18.526916802610113,
+      "grad_norm": 0.2746676504611969,
+      "learning_rate": 1.6438089770771435e-05,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 245316112,
+      "step": 113570
+    },
+    {
+      "epoch": 18.52773246329527,
+      "grad_norm": 0.016933711245656013,
+      "learning_rate": 1.6419993218446673e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 245328016,
+      "step": 113575
+    },
+    {
+      "epoch": 18.528548123980425,
+      "grad_norm": 0.007328105624765158,
+      "learning_rate": 1.640190646648404e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 245339856,
+      "step": 113580
+    },
+    {
+      "epoch": 18.52936378466558,
+      "grad_norm": 0.002034168690443039,
+      "learning_rate": 1.638382951525047e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 245350160,
+      "step": 113585
+    },
+    {
+      "epoch": 18.530179445350733,
+      "grad_norm": 0.0021341920364648104,
+      "learning_rate": 1.6365762365111947e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 245361200,
+      "step": 113590
+    },
+    {
+      "epoch": 18.53099510603589,
+      "grad_norm": 0.0005403195391409099,
+      "learning_rate": 1.6347705016434844e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 245370832,
+      "step": 113595
+    },
+    {
+      "epoch": 18.531810766721044,
+      "grad_norm": 0.00026967190206050873,
+      "learning_rate": 1.6329657469585037e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 245380688,
+      "step": 113600
+    },
+    {
+      "epoch": 18.5326264274062,
+      "grad_norm": 0.00889151357114315,
+      "learning_rate": 1.6311619724928283e-05,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 245391920,
+      "step": 113605
+    },
+    {
+      "epoch": 18.533442088091356,
+      "grad_norm": 0.0009094868437387049,
+      "learning_rate": 1.6293591782830186e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 245404144,
+      "step": 113610
+    },
+    {
+      "epoch": 18.534257748776508,
+      "grad_norm": 0.0718315988779068,
+      "learning_rate": 1.6275573643656115e-05,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 245414064,
+      "step": 113615
+    },
+    {
+      "epoch": 18.535073409461663,
+      "grad_norm": 0.04146379604935646,
+      "learning_rate": 1.6257565307771115e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 245425424,
+      "step": 113620
+    },
+    {
+      "epoch": 18.53588907014682,
+      "grad_norm": 0.015665479004383087,
+      "learning_rate": 1.6239566775540283e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 245434992,
+      "step": 113625
+    },
+    {
+      "epoch": 18.536704730831975,
+      "grad_norm": 0.0012484738836064935,
+      "learning_rate": 1.6221578047328322e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 245446288,
+      "step": 113630
+    },
+    {
+      "epoch": 18.53752039151713,
+      "grad_norm": 0.28304043412208557,
+      "learning_rate": 1.6203599123499778e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 245456816,
+      "step": 113635
+    },
+    {
+      "epoch": 18.538336052202283,
+      "grad_norm": 0.008190099149942398,
+      "learning_rate": 1.6185630004419027e-05,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 245467408,
+      "step": 113640
+    },
+    {
+      "epoch": 18.53915171288744,
+      "grad_norm": 0.00023345145746134222,
+      "learning_rate": 1.6167670690450276e-05,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 245478160,
+      "step": 113645
+    },
+    {
+      "epoch": 18.539967373572594,
+      "grad_norm": 0.012173679657280445,
+      "learning_rate": 1.6149721181957456e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 245488688,
+      "step": 113650
+    },
+    {
+      "epoch": 18.54078303425775,
+      "grad_norm": 0.00276687229052186,
+      "learning_rate": 1.6131781479304332e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 245499600,
+      "step": 113655
+    },
+    {
+      "epoch": 18.541598694942905,
+      "grad_norm": 0.004582415334880352,
+      "learning_rate": 1.61138515828545e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 245510096,
+      "step": 113660
+    },
+    {
+      "epoch": 18.542414355628058,
+      "grad_norm": 0.012344161979854107,
+      "learning_rate": 1.6095931492971282e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 245519760,
+      "step": 113665
+    },
+    {
+      "epoch": 18.543230016313213,
+      "grad_norm": 0.0012308456934988499,
+      "learning_rate": 1.6078021210017945e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 245530768,
+      "step": 113670
+    },
+    {
+      "epoch": 18.54404567699837,
+      "grad_norm": 0.004262410569936037,
+      "learning_rate": 1.6060120734357366e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 245541232,
+      "step": 113675
+    },
+    {
+      "epoch": 18.544861337683525,
+      "grad_norm": 0.006430953275412321,
+      "learning_rate": 1.604223006635236e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 245552976,
+      "step": 113680
+    },
+    {
+      "epoch": 18.545676998368677,
+      "grad_norm": 0.0008573816157877445,
+      "learning_rate": 1.6024349206365475e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 245564272,
+      "step": 113685
+    },
+    {
+      "epoch": 18.546492659053833,
+      "grad_norm": 0.0015064050676301122,
+      "learning_rate": 1.6006478154759197e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 245574896,
+      "step": 113690
+    },
+    {
+      "epoch": 18.54730831973899,
+      "grad_norm": 0.015532300807535648,
+      "learning_rate": 1.598861691189557e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 245586096,
+      "step": 113695
+    },
+    {
+      "epoch": 18.548123980424144,
+      "grad_norm": 0.0036405641585588455,
+      "learning_rate": 1.5970765478136696e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 245596656,
+      "step": 113700
+    },
+    {
+      "epoch": 18.5489396411093,
+      "grad_norm": 0.14665931463241577,
+      "learning_rate": 1.5952923853844224e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 245608112,
+      "step": 113705
+    },
+    {
+      "epoch": 18.549755301794452,
+      "grad_norm": 0.0008804710232652724,
+      "learning_rate": 1.5935092039379874e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 245619152,
+      "step": 113710
+    },
+    {
+      "epoch": 18.550570962479608,
+      "grad_norm": 0.006566312164068222,
+      "learning_rate": 1.5917270035104903e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 245629424,
+      "step": 113715
+    },
+    {
+      "epoch": 18.551386623164763,
+      "grad_norm": 0.0007352828979492188,
+      "learning_rate": 1.5899457841380637e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 245640560,
+      "step": 113720
+    },
+    {
+      "epoch": 18.55220228384992,
+      "grad_norm": 0.00016575584595557302,
+      "learning_rate": 1.5881655458567847e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 245651568,
+      "step": 113725
+    },
+    {
+      "epoch": 18.553017944535075,
+      "grad_norm": 0.025155337527394295,
+      "learning_rate": 1.5863862887027626e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 245662768,
+      "step": 113730
+    },
+    {
+      "epoch": 18.553833605220227,
+      "grad_norm": 0.04157517850399017,
+      "learning_rate": 1.5846080127120244e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 245674128,
+      "step": 113735
+    },
+    {
+      "epoch": 18.554649265905383,
+      "grad_norm": 0.0004997915239073336,
+      "learning_rate": 1.58283071792063e-05,
+      "loss": 0.0424,
+      "num_input_tokens_seen": 245684912,
+      "step": 113740
+    },
+    {
+      "epoch": 18.55546492659054,
+      "grad_norm": 0.017312675714492798,
+      "learning_rate": 1.581054404364596e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 245695760,
+      "step": 113745
+    },
+    {
+      "epoch": 18.556280587275694,
+      "grad_norm": 0.12121226638555527,
+      "learning_rate": 1.5792790720799144e-05,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 245706416,
+      "step": 113750
+    },
+    {
+      "epoch": 18.55709624796085,
+      "grad_norm": 0.0010711740469560027,
+      "learning_rate": 1.5775047211025685e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 245717648,
+      "step": 113755
+    },
+    {
+      "epoch": 18.557911908646002,
+      "grad_norm": 0.007575131021440029,
+      "learning_rate": 1.575731351468518e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 245729008,
+      "step": 113760
+    },
+    {
+      "epoch": 18.558727569331158,
+      "grad_norm": 0.0685509443283081,
+      "learning_rate": 1.5739589632137006e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 245738416,
+      "step": 113765
+    },
+    {
+      "epoch": 18.559543230016313,
+      "grad_norm": 0.013830579817295074,
+      "learning_rate": 1.572187556374044e-05,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 245747920,
+      "step": 113770
+    },
+    {
+      "epoch": 18.56035889070147,
+      "grad_norm": 0.016269782558083534,
+      "learning_rate": 1.5704171309854354e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 245759920,
+      "step": 113775
+    },
+    {
+      "epoch": 18.561174551386625,
+      "grad_norm": 0.0017003034008666873,
+      "learning_rate": 1.568647687083763e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 245770416,
+      "step": 113780
+    },
+    {
+      "epoch": 18.561990212071777,
+      "grad_norm": 0.0017265173373743892,
+      "learning_rate": 1.5668792247048868e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 245782384,
+      "step": 113785
+    },
+    {
+      "epoch": 18.562805872756933,
+      "grad_norm": 0.009840810671448708,
+      "learning_rate": 1.565111743884634e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 245793744,
+      "step": 113790
+    },
+    {
+      "epoch": 18.563621533442088,
+      "grad_norm": 0.008591379038989544,
+      "learning_rate": 1.5633452446588537e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 245803824,
+      "step": 113795
+    },
+    {
+      "epoch": 18.564437194127244,
+      "grad_norm": 0.0034411675296723843,
+      "learning_rate": 1.5615797270633114e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 245814832,
+      "step": 113800
+    },
+    {
+      "epoch": 18.5652528548124,
+      "grad_norm": 0.004118712618947029,
+      "learning_rate": 1.5598151911338176e-05,
+      "loss": 0.0335,
+      "num_input_tokens_seen": 245825072,
+      "step": 113805
+    },
+    {
+      "epoch": 18.56606851549755,
+      "grad_norm": 0.007064030971378088,
+      "learning_rate": 1.5580516369061103e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 245835312,
+      "step": 113810
+    },
+    {
+      "epoch": 18.566884176182707,
+      "grad_norm": 0.16438302397727966,
+      "learning_rate": 1.55628906441595e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 245847056,
+      "step": 113815
+    },
+    {
+      "epoch": 18.567699836867863,
+      "grad_norm": 0.005964207462966442,
+      "learning_rate": 1.5545274736990354e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 245858896,
+      "step": 113820
+    },
+    {
+      "epoch": 18.56851549755302,
+      "grad_norm": 0.0032159110996872187,
+      "learning_rate": 1.5527668647910886e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 245867472,
+      "step": 113825
+    },
+    {
+      "epoch": 18.569331158238175,
+      "grad_norm": 0.05260089412331581,
+      "learning_rate": 1.5510072377277696e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 245877040,
+      "step": 113830
+    },
+    {
+      "epoch": 18.570146818923327,
+      "grad_norm": 0.4256327748298645,
+      "learning_rate": 1.5492485925447663e-05,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 245887664,
+      "step": 113835
+    },
+    {
+      "epoch": 18.570962479608482,
+      "grad_norm": 0.055682551115751266,
+      "learning_rate": 1.5474909292776895e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 245899248,
+      "step": 113840
+    },
+    {
+      "epoch": 18.571778140293638,
+      "grad_norm": 0.005342925898730755,
+      "learning_rate": 1.5457342479621883e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 245909488,
+      "step": 113845
+    },
+    {
+      "epoch": 18.572593800978794,
+      "grad_norm": 0.0508258119225502,
+      "learning_rate": 1.5439785486338396e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 245921264,
+      "step": 113850
+    },
+    {
+      "epoch": 18.57340946166395,
+      "grad_norm": 0.0017754074651747942,
+      "learning_rate": 1.5422238313282434e-05,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 245932880,
+      "step": 113855
+    },
+    {
+      "epoch": 18.5742251223491,
+      "grad_norm": 0.003250130685046315,
+      "learning_rate": 1.540470096080948e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 245943120,
+      "step": 113860
+    },
+    {
+      "epoch": 18.575040783034257,
+      "grad_norm": 0.039365023374557495,
+      "learning_rate": 1.538717342927509e-05,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 245954256,
+      "step": 113865
+    },
+    {
+      "epoch": 18.575856443719413,
+      "grad_norm": 0.0029328095261007547,
+      "learning_rate": 1.536965571903437e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 245966000,
+      "step": 113870
+    },
+    {
+      "epoch": 18.57667210440457,
+      "grad_norm": 0.053971800953149796,
+      "learning_rate": 1.535214783044242e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 245976752,
+      "step": 113875
+    },
+    {
+      "epoch": 18.57748776508972,
+      "grad_norm": 0.002047772752121091,
+      "learning_rate": 1.5334649763853903e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 245987888,
+      "step": 113880
+    },
+    {
+      "epoch": 18.578303425774877,
+      "grad_norm": 0.0011964102741330862,
+      "learning_rate": 1.5317161519623647e-05,
+      "loss": 0.005,
+      "num_input_tokens_seen": 245999216,
+      "step": 113885
+    },
+    {
+      "epoch": 18.579119086460032,
+      "grad_norm": 0.0003268739383202046,
+      "learning_rate": 1.529968309810592e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 246010032,
+      "step": 113890
+    },
+    {
+      "epoch": 18.579934747145188,
+      "grad_norm": 0.008182469755411148,
+      "learning_rate": 1.5282214499655055e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 246019952,
+      "step": 113895
+    },
+    {
+      "epoch": 18.580750407830344,
+      "grad_norm": 0.0009706748533062637,
+      "learning_rate": 1.526475572462499e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 246030704,
+      "step": 113900
+    },
+    {
+      "epoch": 18.581566068515496,
+      "grad_norm": 0.016164537519216537,
+      "learning_rate": 1.5247306773369552e-05,
+      "loss": 0.0421,
+      "num_input_tokens_seen": 246040816,
+      "step": 113905
+    },
+    {
+      "epoch": 18.58238172920065,
+      "grad_norm": 0.0016942867077887058,
+      "learning_rate": 1.5229867646242457e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 246049808,
+      "step": 113910
+    },
+    {
+      "epoch": 18.583197389885807,
+      "grad_norm": 0.004356156103312969,
+      "learning_rate": 1.5212438343597036e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 246060816,
+      "step": 113915
+    },
+    {
+      "epoch": 18.584013050570963,
+      "grad_norm": 0.010752552188932896,
+      "learning_rate": 1.5195018865786559e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 246071408,
+      "step": 113920
+    },
+    {
+      "epoch": 18.58482871125612,
+      "grad_norm": 0.003911882638931274,
+      "learning_rate": 1.5177609213164023e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 246082800,
+      "step": 113925
+    },
+    {
+      "epoch": 18.58564437194127,
+      "grad_norm": 0.011551330797374249,
+      "learning_rate": 1.5160209386082314e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 246093872,
+      "step": 113930
+    },
+    {
+      "epoch": 18.586460032626427,
+      "grad_norm": 0.0020503744017332792,
+      "learning_rate": 1.5142819384893925e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 246103568,
+      "step": 113935
+    },
+    {
+      "epoch": 18.587275693311582,
+      "grad_norm": 0.004918430466204882,
+      "learning_rate": 1.512543920995152e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 246114256,
+      "step": 113940
+    },
+    {
+      "epoch": 18.588091353996738,
+      "grad_norm": 0.0029170692432671785,
+      "learning_rate": 1.5108068861607094e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 246125456,
+      "step": 113945
+    },
+    {
+      "epoch": 18.588907014681894,
+      "grad_norm": 0.002532045356929302,
+      "learning_rate": 1.5090708340212867e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 246135920,
+      "step": 113950
+    },
+    {
+      "epoch": 18.589722675367046,
+      "grad_norm": 0.00437668664380908,
+      "learning_rate": 1.5073357646120501e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246146576,
+      "step": 113955
+    },
+    {
+      "epoch": 18.5905383360522,
+      "grad_norm": 0.010784292593598366,
+      "learning_rate": 1.5056016779681825e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 246157552,
+      "step": 113960
+    },
+    {
+      "epoch": 18.591353996737357,
+      "grad_norm": 0.009024699218571186,
+      "learning_rate": 1.5038685741248059e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 246168880,
+      "step": 113965
+    },
+    {
+      "epoch": 18.592169657422513,
+      "grad_norm": 0.0006613527657464147,
+      "learning_rate": 1.502136453117059e-05,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 246179024,
+      "step": 113970
+    },
+    {
+      "epoch": 18.59298531810767,
+      "grad_norm": 0.0016143594402819872,
+      "learning_rate": 1.5004053149800356e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 246190832,
+      "step": 113975
+    },
+    {
+      "epoch": 18.59380097879282,
+      "grad_norm": 0.0007201501284725964,
+      "learning_rate": 1.4986751597488357e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 246203216,
+      "step": 113980
+    },
+    {
+      "epoch": 18.594616639477977,
+      "grad_norm": 0.0003400088753551245,
+      "learning_rate": 1.4969459874585034e-05,
+      "loss": 0.0658,
+      "num_input_tokens_seen": 246213488,
+      "step": 113985
+    },
+    {
+      "epoch": 18.595432300163132,
+      "grad_norm": 0.0024805832654237747,
+      "learning_rate": 1.495217798144094e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 246224624,
+      "step": 113990
+    },
+    {
+      "epoch": 18.596247960848288,
+      "grad_norm": 0.06852786242961884,
+      "learning_rate": 1.4934905918406239e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 246234928,
+      "step": 113995
+    },
+    {
+      "epoch": 18.597063621533444,
+      "grad_norm": 0.30148282647132874,
+      "learning_rate": 1.491764368583104e-05,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 246244784,
+      "step": 114000
+    },
+    {
+      "epoch": 18.597879282218596,
+      "grad_norm": 0.0019158965442329645,
+      "learning_rate": 1.4900391284065229e-05,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 246254672,
+      "step": 114005
+    },
+    {
+      "epoch": 18.59869494290375,
+      "grad_norm": 0.00015638173499610275,
+      "learning_rate": 1.4883148713458306e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 246265904,
+      "step": 114010
+    },
+    {
+      "epoch": 18.599510603588907,
+      "grad_norm": 0.010793359018862247,
+      "learning_rate": 1.4865915974359823e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 246276240,
+      "step": 114015
+    },
+    {
+      "epoch": 18.600326264274063,
+      "grad_norm": 0.0045156884007155895,
+      "learning_rate": 1.4848693067119e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 246287472,
+      "step": 114020
+    },
+    {
+      "epoch": 18.601141924959215,
+      "grad_norm": 0.003806586842983961,
+      "learning_rate": 1.483147999208484e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 246297200,
+      "step": 114025
+    },
+    {
+      "epoch": 18.60195758564437,
+      "grad_norm": 0.03463774919509888,
+      "learning_rate": 1.4814276749606226e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 246307472,
+      "step": 114030
+    },
+    {
+      "epoch": 18.602773246329527,
+      "grad_norm": 0.0018811143236234784,
+      "learning_rate": 1.4797083340031769e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 246319152,
+      "step": 114035
+    },
+    {
+      "epoch": 18.603588907014682,
+      "grad_norm": 0.15123361349105835,
+      "learning_rate": 1.477989976370997e-05,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 246329648,
+      "step": 114040
+    },
+    {
+      "epoch": 18.604404567699838,
+      "grad_norm": 0.009590948931872845,
+      "learning_rate": 1.4762726020989047e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 246339472,
+      "step": 114045
+    },
+    {
+      "epoch": 18.605220228384994,
+      "grad_norm": 0.5494592189788818,
+      "learning_rate": 1.4745562112217059e-05,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 246350224,
+      "step": 114050
+    },
+    {
+      "epoch": 18.606035889070146,
+      "grad_norm": 0.002357152756303549,
+      "learning_rate": 1.4728408037741836e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 246362224,
+      "step": 114055
+    },
+    {
+      "epoch": 18.6068515497553,
+      "grad_norm": 0.041462235152721405,
+      "learning_rate": 1.4711263797911045e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 246373584,
+      "step": 114060
+    },
+    {
+      "epoch": 18.607667210440457,
+      "grad_norm": 0.10488732159137726,
+      "learning_rate": 1.469412939307213e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 246383920,
+      "step": 114065
+    },
+    {
+      "epoch": 18.608482871125613,
+      "grad_norm": 0.038092661648988724,
+      "learning_rate": 1.4677004823572316e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 246394544,
+      "step": 114070
+    },
+    {
+      "epoch": 18.609298531810765,
+      "grad_norm": 0.0004575471393764019,
+      "learning_rate": 1.4659890089758654e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 246405200,
+      "step": 114075
+    },
+    {
+      "epoch": 18.61011419249592,
+      "grad_norm": 0.0010731341317296028,
+      "learning_rate": 1.4642785191978036e-05,
+      "loss": 0.0494,
+      "num_input_tokens_seen": 246414960,
+      "step": 114080
+    },
+    {
+      "epoch": 18.610929853181077,
+      "grad_norm": 0.0021726840641349554,
+      "learning_rate": 1.462569013057713e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246426352,
+      "step": 114085
+    },
+    {
+      "epoch": 18.611745513866232,
+      "grad_norm": 0.00024937037960626185,
+      "learning_rate": 1.4608604905902268e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 246437872,
+      "step": 114090
+    },
+    {
+      "epoch": 18.612561174551388,
+      "grad_norm": 0.26687636971473694,
+      "learning_rate": 1.4591529518299896e-05,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 246448816,
+      "step": 114095
+    },
+    {
+      "epoch": 18.61337683523654,
+      "grad_norm": 0.003532203147187829,
+      "learning_rate": 1.4574463968115903e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 246459696,
+      "step": 114100
+    },
+    {
+      "epoch": 18.614192495921696,
+      "grad_norm": 0.0039835479110479355,
+      "learning_rate": 1.4557408255696181e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 246470032,
+      "step": 114105
+    },
+    {
+      "epoch": 18.61500815660685,
+      "grad_norm": 0.0008681021281518042,
+      "learning_rate": 1.4540362381386452e-05,
+      "loss": 0.0711,
+      "num_input_tokens_seen": 246481776,
+      "step": 114110
+    },
+    {
+      "epoch": 18.615823817292007,
+      "grad_norm": 0.0026605729945003986,
+      "learning_rate": 1.4523326345532163e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 246491504,
+      "step": 114115
+    },
+    {
+      "epoch": 18.616639477977163,
+      "grad_norm": 0.00021350267343223095,
+      "learning_rate": 1.450630014847848e-05,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 246501968,
+      "step": 114120
+    },
+    {
+      "epoch": 18.617455138662315,
+      "grad_norm": 0.008653911761939526,
+      "learning_rate": 1.4489283790570518e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 246512720,
+      "step": 114125
+    },
+    {
+      "epoch": 18.61827079934747,
+      "grad_norm": 0.001182371866889298,
+      "learning_rate": 1.4472277272153167e-05,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 246522512,
+      "step": 114130
+    },
+    {
+      "epoch": 18.619086460032626,
+      "grad_norm": 0.0021306921262294054,
+      "learning_rate": 1.445528059357104e-05,
+      "loss": 0.1048,
+      "num_input_tokens_seen": 246534064,
+      "step": 114135
+    },
+    {
+      "epoch": 18.619902120717782,
+      "grad_norm": 0.001645290874876082,
+      "learning_rate": 1.4438293755168585e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 246544848,
+      "step": 114140
+    },
+    {
+      "epoch": 18.620717781402938,
+      "grad_norm": 0.0037784897722303867,
+      "learning_rate": 1.4421316757290082e-05,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 246556272,
+      "step": 114145
+    },
+    {
+      "epoch": 18.62153344208809,
+      "grad_norm": 0.004677009768784046,
+      "learning_rate": 1.4404349600279642e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 246566288,
+      "step": 114150
+    },
+    {
+      "epoch": 18.622349102773246,
+      "grad_norm": 0.0036729995626956224,
+      "learning_rate": 1.4387392284481049e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 246577264,
+      "step": 114155
+    },
+    {
+      "epoch": 18.6231647634584,
+      "grad_norm": 0.0003251898742746562,
+      "learning_rate": 1.437044481023797e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 246587312,
+      "step": 114160
+    },
+    {
+      "epoch": 18.623980424143557,
+      "grad_norm": 0.10283267498016357,
+      "learning_rate": 1.4353507177893964e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 246597776,
+      "step": 114165
+    },
+    {
+      "epoch": 18.624796084828713,
+      "grad_norm": 0.039473868906497955,
+      "learning_rate": 1.4336579387792148e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 246611408,
+      "step": 114170
+    },
+    {
+      "epoch": 18.625611745513865,
+      "grad_norm": 1.0579966306686401,
+      "learning_rate": 1.4319661440275689e-05,
+      "loss": 0.1601,
+      "num_input_tokens_seen": 246621424,
+      "step": 114175
+    },
+    {
+      "epoch": 18.62642740619902,
+      "grad_norm": 0.006494295317679644,
+      "learning_rate": 1.4302753335687423e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 246632208,
+      "step": 114180
+    },
+    {
+      "epoch": 18.627243066884176,
+      "grad_norm": 0.06191675364971161,
+      "learning_rate": 1.4285855074370025e-05,
+      "loss": 0.0116,
+      "num_input_tokens_seen": 246643120,
+      "step": 114185
+    },
+    {
+      "epoch": 18.628058727569332,
+      "grad_norm": 0.0025623554829508066,
+      "learning_rate": 1.4268966656665938e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246652336,
+      "step": 114190
+    },
+    {
+      "epoch": 18.628874388254488,
+      "grad_norm": 0.08002685755491257,
+      "learning_rate": 1.4252088082917391e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 246664176,
+      "step": 114195
+    },
+    {
+      "epoch": 18.62969004893964,
+      "grad_norm": 0.0005803200765512884,
+      "learning_rate": 1.4235219353466555e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 246674864,
+      "step": 114200
+    },
+    {
+      "epoch": 18.630505709624796,
+      "grad_norm": 0.0005485960282385349,
+      "learning_rate": 1.4218360468655212e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 246686480,
+      "step": 114205
+    },
+    {
+      "epoch": 18.63132137030995,
+      "grad_norm": 0.0003624989476520568,
+      "learning_rate": 1.4201511428824976e-05,
+      "loss": 0.0683,
+      "num_input_tokens_seen": 246697648,
+      "step": 114210
+    },
+    {
+      "epoch": 18.632137030995107,
+      "grad_norm": 0.0008376438054256141,
+      "learning_rate": 1.4184672234317463e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 246707472,
+      "step": 114215
+    },
+    {
+      "epoch": 18.63295269168026,
+      "grad_norm": 0.005695714149624109,
+      "learning_rate": 1.4167842885473903e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 246717584,
+      "step": 114220
+    },
+    {
+      "epoch": 18.633768352365415,
+      "grad_norm": 0.013842624612152576,
+      "learning_rate": 1.4151023382635298e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 246728272,
+      "step": 114225
+    },
+    {
+      "epoch": 18.63458401305057,
+      "grad_norm": 0.0036778177600353956,
+      "learning_rate": 1.4134213726142541e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 246738736,
+      "step": 114230
+    },
+    {
+      "epoch": 18.635399673735726,
+      "grad_norm": 0.0011332188732922077,
+      "learning_rate": 1.4117413916336307e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 246749424,
+      "step": 114235
+    },
+    {
+      "epoch": 18.636215334420882,
+      "grad_norm": 0.001157104386948049,
+      "learning_rate": 1.4100623953557045e-05,
+      "loss": 0.023,
+      "num_input_tokens_seen": 246760208,
+      "step": 114240
+    },
+    {
+      "epoch": 18.637030995106034,
+      "grad_norm": 0.009338432922959328,
+      "learning_rate": 1.4083843838145095e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 246771408,
+      "step": 114245
+    },
+    {
+      "epoch": 18.63784665579119,
+      "grad_norm": 0.00642793532460928,
+      "learning_rate": 1.4067073570440458e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246782736,
+      "step": 114250
+    },
+    {
+      "epoch": 18.638662316476346,
+      "grad_norm": 0.032264117151498795,
+      "learning_rate": 1.4050313150782978e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 246793968,
+      "step": 114255
+    },
+    {
+      "epoch": 18.6394779771615,
+      "grad_norm": 0.011337845586240292,
+      "learning_rate": 1.4033562579512438e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 246804144,
+      "step": 114260
+    },
+    {
+      "epoch": 18.640293637846657,
+      "grad_norm": 0.008878304623067379,
+      "learning_rate": 1.4016821856968232e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 246815280,
+      "step": 114265
+    },
+    {
+      "epoch": 18.64110929853181,
+      "grad_norm": 0.0022187468130141497,
+      "learning_rate": 1.4000090983489588e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246826064,
+      "step": 114270
+    },
+    {
+      "epoch": 18.641924959216965,
+      "grad_norm": 0.0002171692467527464,
+      "learning_rate": 1.3983369959415682e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 246837328,
+      "step": 114275
+    },
+    {
+      "epoch": 18.64274061990212,
+      "grad_norm": 0.00032952241599559784,
+      "learning_rate": 1.3966658785085352e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246847568,
+      "step": 114280
+    },
+    {
+      "epoch": 18.643556280587276,
+      "grad_norm": 0.00012888593482784927,
+      "learning_rate": 1.394995746083727e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246858704,
+      "step": 114285
+    },
+    {
+      "epoch": 18.644371941272432,
+      "grad_norm": 0.019832175225019455,
+      "learning_rate": 1.3933265987009836e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 246868688,
+      "step": 114290
+    },
+    {
+      "epoch": 18.645187601957584,
+      "grad_norm": 0.003522902261465788,
+      "learning_rate": 1.3916584363941442e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 246879728,
+      "step": 114295
+    },
+    {
+      "epoch": 18.64600326264274,
+      "grad_norm": 0.000486519857076928,
+      "learning_rate": 1.3899912591970099e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 246890096,
+      "step": 114300
+    },
+    {
+      "epoch": 18.646818923327896,
+      "grad_norm": 0.018939530476927757,
+      "learning_rate": 1.3883250671433645e-05,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 246900016,
+      "step": 114305
+    },
+    {
+      "epoch": 18.64763458401305,
+      "grad_norm": 0.0028730384074151516,
+      "learning_rate": 1.3866598602669866e-05,
+      "loss": 0.0305,
+      "num_input_tokens_seen": 246910896,
+      "step": 114310
+    },
+    {
+      "epoch": 18.648450244698207,
+      "grad_norm": 0.00035425060195848346,
+      "learning_rate": 1.3849956386016049e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 246922256,
+      "step": 114315
+    },
+    {
+      "epoch": 18.64926590538336,
+      "grad_norm": 0.0004246874595992267,
+      "learning_rate": 1.3833324021809756e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 246933200,
+      "step": 114320
+    },
+    {
+      "epoch": 18.650081566068515,
+      "grad_norm": 0.0004184528661426157,
+      "learning_rate": 1.3816701510387775e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 246944368,
+      "step": 114325
+    },
+    {
+      "epoch": 18.65089722675367,
+      "grad_norm": 0.002552991034463048,
+      "learning_rate": 1.3800088852087166e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 246955280,
+      "step": 114330
+    },
+    {
+      "epoch": 18.651712887438826,
+      "grad_norm": 0.002675180323421955,
+      "learning_rate": 1.3783486047244497e-05,
+      "loss": 0.0245,
+      "num_input_tokens_seen": 246967920,
+      "step": 114335
+    },
+    {
+      "epoch": 18.652528548123982,
+      "grad_norm": 0.011710644699633121,
+      "learning_rate": 1.3766893096196386e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 246978576,
+      "step": 114340
+    },
+    {
+      "epoch": 18.653344208809134,
+      "grad_norm": 0.0022386705968528986,
+      "learning_rate": 1.3750309999278899e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 246989968,
+      "step": 114345
+    },
+    {
+      "epoch": 18.65415986949429,
+      "grad_norm": 0.017226964235305786,
+      "learning_rate": 1.373373675682832e-05,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 247001872,
+      "step": 114350
+    },
+    {
+      "epoch": 18.654975530179446,
+      "grad_norm": 0.00021573618869297206,
+      "learning_rate": 1.371717336918038e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 247012400,
+      "step": 114355
+    },
+    {
+      "epoch": 18.6557911908646,
+      "grad_norm": 0.0006454604445025325,
+      "learning_rate": 1.3700619836670813e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 247023696,
+      "step": 114360
+    },
+    {
+      "epoch": 18.656606851549757,
+      "grad_norm": 0.00180201162584126,
+      "learning_rate": 1.3684076159635129e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 247034128,
+      "step": 114365
+    },
+    {
+      "epoch": 18.65742251223491,
+      "grad_norm": 0.00018552408437244594,
+      "learning_rate": 1.3667542338408611e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 247044112,
+      "step": 114370
+    },
+    {
+      "epoch": 18.658238172920065,
+      "grad_norm": 0.0041071511805057526,
+      "learning_rate": 1.3651018373326219e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 247055696,
+      "step": 114375
+    },
+    {
+      "epoch": 18.65905383360522,
+      "grad_norm": 0.2897575795650482,
+      "learning_rate": 1.3634504264723013e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 247067280,
+      "step": 114380
+    },
+    {
+      "epoch": 18.659869494290376,
+      "grad_norm": 0.00036819299566559494,
+      "learning_rate": 1.3618000012933506e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 247078096,
+      "step": 114385
+    },
+    {
+      "epoch": 18.660685154975532,
+      "grad_norm": 0.002458331175148487,
+      "learning_rate": 1.3601505618292264e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 247088048,
+      "step": 114390
+    },
+    {
+      "epoch": 18.661500815660684,
+      "grad_norm": 0.0003740904794540256,
+      "learning_rate": 1.3585021081133575e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 247099184,
+      "step": 114395
+    },
+    {
+      "epoch": 18.66231647634584,
+      "grad_norm": 0.008161837235093117,
+      "learning_rate": 1.3568546401791449e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 247109328,
+      "step": 114400
+    },
+    {
+      "epoch": 18.663132137030995,
+      "grad_norm": 0.008084426634013653,
+      "learning_rate": 1.355208158059984e-05,
+      "loss": 0.0095,
+      "num_input_tokens_seen": 247118064,
+      "step": 114405
+    },
+    {
+      "epoch": 18.66394779771615,
+      "grad_norm": 0.00394302187487483,
+      "learning_rate": 1.3535626617892426e-05,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 247130224,
+      "step": 114410
+    },
+    {
+      "epoch": 18.664763458401303,
+      "grad_norm": 0.0034730606712400913,
+      "learning_rate": 1.3519181514002665e-05,
+      "loss": 0.0495,
+      "num_input_tokens_seen": 247140848,
+      "step": 114415
+    },
+    {
+      "epoch": 18.66557911908646,
+      "grad_norm": 0.001881223637610674,
+      "learning_rate": 1.3502746269263788e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 247151952,
+      "step": 114420
+    },
+    {
+      "epoch": 18.666394779771615,
+      "grad_norm": 0.00045266575762070715,
+      "learning_rate": 1.3486320884008918e-05,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 247162352,
+      "step": 114425
+    },
+    {
+      "epoch": 18.66721044045677,
+      "grad_norm": 0.015825331211090088,
+      "learning_rate": 1.3469905358570956e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 247173904,
+      "step": 114430
+    },
+    {
+      "epoch": 18.668026101141926,
+      "grad_norm": 0.003665680531412363,
+      "learning_rate": 1.3453499693282633e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 247184976,
+      "step": 114435
+    },
+    {
+      "epoch": 18.66884176182708,
+      "grad_norm": 0.0014401959488168359,
+      "learning_rate": 1.3437103888476244e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 247195824,
+      "step": 114440
+    },
+    {
+      "epoch": 18.669657422512234,
+      "grad_norm": 0.0011207032948732376,
+      "learning_rate": 1.342071794448435e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 247206064,
+      "step": 114445
+    },
+    {
+      "epoch": 18.67047308319739,
+      "grad_norm": 0.00031443015905097127,
+      "learning_rate": 1.340434186163869e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 247217360,
+      "step": 114450
+    },
+    {
+      "epoch": 18.671288743882545,
+      "grad_norm": 0.026929231360554695,
+      "learning_rate": 1.33879756402715e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 247228944,
+      "step": 114455
+    },
+    {
+      "epoch": 18.6721044045677,
+      "grad_norm": 0.00107129430398345,
+      "learning_rate": 1.3371619280714175e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 247238192,
+      "step": 114460
+    },
+    {
+      "epoch": 18.672920065252853,
+      "grad_norm": 0.001654400723055005,
+      "learning_rate": 1.3355272783298455e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 247250192,
+      "step": 114465
+    },
+    {
+      "epoch": 18.67373572593801,
+      "grad_norm": 0.00030322172096930444,
+      "learning_rate": 1.3338936148355351e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 247261168,
+      "step": 114470
+    },
+    {
+      "epoch": 18.674551386623165,
+      "grad_norm": 0.002237173030152917,
+      "learning_rate": 1.3322609376216155e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 247273104,
+      "step": 114475
+    },
+    {
+      "epoch": 18.67536704730832,
+      "grad_norm": 0.004785965196788311,
+      "learning_rate": 1.33062924672116e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 247284336,
+      "step": 114480
+    },
+    {
+      "epoch": 18.676182707993476,
+      "grad_norm": 1.1634474992752075,
+      "learning_rate": 1.3289985421672534e-05,
+      "loss": 0.0547,
+      "num_input_tokens_seen": 247295312,
+      "step": 114485
+    },
+    {
+      "epoch": 18.67699836867863,
+      "grad_norm": 0.0024988525547087193,
+      "learning_rate": 1.3273688239929248e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 247306864,
+      "step": 114490
+    },
+    {
+      "epoch": 18.677814029363784,
+      "grad_norm": 0.0052915457636117935,
+      "learning_rate": 1.3257400922312258e-05,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 247317520,
+      "step": 114495
+    },
+    {
+      "epoch": 18.67862969004894,
+      "grad_norm": 0.0011443269904702902,
+      "learning_rate": 1.3241123469151406e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 247328240,
+      "step": 114500
+    },
+    {
+      "epoch": 18.679445350734095,
+      "grad_norm": 0.0029852113220840693,
+      "learning_rate": 1.322485588077671e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 247339952,
+      "step": 114505
+    },
+    {
+      "epoch": 18.68026101141925,
+      "grad_norm": 0.0009250577422790229,
+      "learning_rate": 1.3208598157517849e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 247350896,
+      "step": 114510
+    },
+    {
+      "epoch": 18.681076672104403,
+      "grad_norm": 0.0006689508445560932,
+      "learning_rate": 1.3192350299704225e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 247361168,
+      "step": 114515
+    },
+    {
+      "epoch": 18.68189233278956,
+      "grad_norm": 0.00025370350340381265,
+      "learning_rate": 1.3176112307665245e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 247373232,
+      "step": 114520
+    },
+    {
+      "epoch": 18.682707993474715,
+      "grad_norm": 0.00041831081034615636,
+      "learning_rate": 1.315988418172992e-05,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 247384624,
+      "step": 114525
+    },
+    {
+      "epoch": 18.68352365415987,
+      "grad_norm": 0.0011938015231862664,
+      "learning_rate": 1.3143665922227155e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 247395248,
+      "step": 114530
+    },
+    {
+      "epoch": 18.684339314845026,
+      "grad_norm": 0.25502070784568787,
+      "learning_rate": 1.3127457529485576e-05,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 247406096,
+      "step": 114535
+    },
+    {
+      "epoch": 18.68515497553018,
+      "grad_norm": 0.06968465447425842,
+      "learning_rate": 1.3111259003833753e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 247415568,
+      "step": 114540
+    },
+    {
+      "epoch": 18.685970636215334,
+      "grad_norm": 0.0003617781330831349,
+      "learning_rate": 1.3095070345599924e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 247426160,
+      "step": 114545
+    },
+    {
+      "epoch": 18.68678629690049,
+      "grad_norm": 0.0005903160781599581,
+      "learning_rate": 1.3078891555112161e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 247437712,
+      "step": 114550
+    },
+    {
+      "epoch": 18.687601957585645,
+      "grad_norm": 0.0013629597378894687,
+      "learning_rate": 1.306272263269831e-05,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 247447536,
+      "step": 114555
+    },
+    {
+      "epoch": 18.6884176182708,
+      "grad_norm": 0.07200295478105545,
+      "learning_rate": 1.3046563578686222e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 247458768,
+      "step": 114560
+    },
+    {
+      "epoch": 18.689233278955953,
+      "grad_norm": 0.05303337797522545,
+      "learning_rate": 1.303041439340319e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 247470032,
+      "step": 114565
+    },
+    {
+      "epoch": 18.69004893964111,
+      "grad_norm": 0.0004202370473649353,
+      "learning_rate": 1.3014275077176618e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 247481200,
+      "step": 114570
+    },
+    {
+      "epoch": 18.690864600326265,
+      "grad_norm": 0.018010199069976807,
+      "learning_rate": 1.2998145630333469e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 247491824,
+      "step": 114575
+    },
+    {
+      "epoch": 18.69168026101142,
+      "grad_norm": 0.002485614735633135,
+      "learning_rate": 1.2982026053200813e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 247501904,
+      "step": 114580
+    },
+    {
+      "epoch": 18.692495921696576,
+      "grad_norm": 0.002339205238968134,
+      "learning_rate": 1.2965916346105166e-05,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 247511600,
+      "step": 114585
+    },
+    {
+      "epoch": 18.693311582381728,
+      "grad_norm": 0.02498902939260006,
+      "learning_rate": 1.2949816509373102e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 247522832,
+      "step": 114590
+    },
+    {
+      "epoch": 18.694127243066884,
+      "grad_norm": 0.004603876266628504,
+      "learning_rate": 1.2933726543330804e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 247533328,
+      "step": 114595
+    },
+    {
+      "epoch": 18.69494290375204,
+      "grad_norm": 0.041026998311281204,
+      "learning_rate": 1.2917646448304509e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 247544272,
+      "step": 114600
+    },
+    {
+      "epoch": 18.695758564437195,
+      "grad_norm": 0.04702477157115936,
+      "learning_rate": 1.2901576224619959e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 247554064,
+      "step": 114605
+    },
+    {
+      "epoch": 18.696574225122347,
+      "grad_norm": 0.02038668841123581,
+      "learning_rate": 1.2885515872602949e-05,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 247565328,
+      "step": 114610
+    },
+    {
+      "epoch": 18.697389885807503,
+      "grad_norm": 0.0002236200380139053,
+      "learning_rate": 1.2869465392578828e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 247577136,
+      "step": 114615
+    },
+    {
+      "epoch": 18.69820554649266,
+      "grad_norm": 0.004946097731590271,
+      "learning_rate": 1.2853424784873059e-05,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 247587184,
+      "step": 114620
+    },
+    {
+      "epoch": 18.699021207177815,
+      "grad_norm": 0.010659070685505867,
+      "learning_rate": 1.2837394049810547e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 247597040,
+      "step": 114625
+    },
+    {
+      "epoch": 18.69983686786297,
+      "grad_norm": 0.0010920735076069832,
+      "learning_rate": 1.2821373187716311e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 247608944,
+      "step": 114630
+    },
+    {
+      "epoch": 18.700652528548122,
+      "grad_norm": 0.001096490304917097,
+      "learning_rate": 1.2805362198914872e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 247620528,
+      "step": 114635
+    },
+    {
+      "epoch": 18.701468189233278,
+      "grad_norm": 0.0010115448385477066,
+      "learning_rate": 1.2789361083730911e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 247630800,
+      "step": 114640
+    },
+    {
+      "epoch": 18.702283849918434,
+      "grad_norm": 0.03550710901618004,
+      "learning_rate": 1.2773369842488614e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 247642256,
+      "step": 114645
+    },
+    {
+      "epoch": 18.70309951060359,
+      "grad_norm": 0.0003345920122228563,
+      "learning_rate": 1.2757388475512055e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 247653808,
+      "step": 114650
+    },
+    {
+      "epoch": 18.703915171288745,
+      "grad_norm": 0.014875334687530994,
+      "learning_rate": 1.2741416983125143e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 247664720,
+      "step": 114655
+    },
+    {
+      "epoch": 18.704730831973897,
+      "grad_norm": 0.0014985312009230256,
+      "learning_rate": 1.2725455365651507e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 247676112,
+      "step": 114660
+    },
+    {
+      "epoch": 18.705546492659053,
+      "grad_norm": 0.006818423047661781,
+      "learning_rate": 1.270950362341472e-05,
+      "loss": 0.0489,
+      "num_input_tokens_seen": 247687248,
+      "step": 114665
+    },
+    {
+      "epoch": 18.70636215334421,
+      "grad_norm": 0.0007490873686037958,
+      "learning_rate": 1.269356175673797e-05,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 247697968,
+      "step": 114670
+    },
+    {
+      "epoch": 18.707177814029365,
+      "grad_norm": 0.0012531366664916277,
+      "learning_rate": 1.2677629765944387e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 247707920,
+      "step": 114675
+    },
+    {
+      "epoch": 18.70799347471452,
+      "grad_norm": 0.001863017096184194,
+      "learning_rate": 1.266170765135688e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 247718992,
+      "step": 114680
+    },
+    {
+      "epoch": 18.708809135399672,
+      "grad_norm": 0.04067402333021164,
+      "learning_rate": 1.2645795413298078e-05,
+      "loss": 0.0209,
+      "num_input_tokens_seen": 247730800,
+      "step": 114685
+    },
+    {
+      "epoch": 18.709624796084828,
+      "grad_norm": 0.0016221472760662436,
+      "learning_rate": 1.2629893052090502e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 247740272,
+      "step": 114690
+    },
+    {
+      "epoch": 18.710440456769984,
+      "grad_norm": 0.07899585366249084,
+      "learning_rate": 1.2614000568056395e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 247751504,
+      "step": 114695
+    },
+    {
+      "epoch": 18.71125611745514,
+      "grad_norm": 0.000546223483979702,
+      "learning_rate": 1.259811796151783e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 247762480,
+      "step": 114700
+    },
+    {
+      "epoch": 18.712071778140295,
+      "grad_norm": 0.02150532603263855,
+      "learning_rate": 1.258224523279683e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 247773552,
+      "step": 114705
+    },
+    {
+      "epoch": 18.712887438825447,
+      "grad_norm": 0.008169742301106453,
+      "learning_rate": 1.2566382382214859e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 247783216,
+      "step": 114710
+    },
+    {
+      "epoch": 18.713703099510603,
+      "grad_norm": 0.09331442415714264,
+      "learning_rate": 1.2550529410093548e-05,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 247793936,
+      "step": 114715
+    },
+    {
+      "epoch": 18.71451876019576,
+      "grad_norm": 0.04075554758310318,
+      "learning_rate": 1.2534686316754085e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 247805392,
+      "step": 114720
+    },
+    {
+      "epoch": 18.715334420880914,
+      "grad_norm": 0.0007709045894443989,
+      "learning_rate": 1.2518853102517657e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 247817072,
+      "step": 114725
+    },
+    {
+      "epoch": 18.71615008156607,
+      "grad_norm": 0.050977423787117004,
+      "learning_rate": 1.250302976770501e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 247827888,
+      "step": 114730
+    },
+    {
+      "epoch": 18.716965742251222,
+      "grad_norm": 0.038305021822452545,
+      "learning_rate": 1.248721631263705e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 247838800,
+      "step": 114735
+    },
+    {
+      "epoch": 18.717781402936378,
+      "grad_norm": 0.008927847258746624,
+      "learning_rate": 1.2471412737633914e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 247849872,
+      "step": 114740
+    },
+    {
+      "epoch": 18.718597063621534,
+      "grad_norm": 0.02261229418218136,
+      "learning_rate": 1.2455619043016175e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 247862064,
+      "step": 114745
+    },
+    {
+      "epoch": 18.71941272430669,
+      "grad_norm": 0.00020072948245797306,
+      "learning_rate": 1.2439835229103803e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 247871920,
+      "step": 114750
+    },
+    {
+      "epoch": 18.72022838499184,
+      "grad_norm": 0.001048129634000361,
+      "learning_rate": 1.242406129621665e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 247882800,
+      "step": 114755
+    },
+    {
+      "epoch": 18.721044045676997,
+      "grad_norm": 0.003789189737290144,
+      "learning_rate": 1.240829724467446e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 247894288,
+      "step": 114760
+    },
+    {
+      "epoch": 18.721859706362153,
+      "grad_norm": 0.2328716516494751,
+      "learning_rate": 1.2392543074796702e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 247906672,
+      "step": 114765
+    },
+    {
+      "epoch": 18.72267536704731,
+      "grad_norm": 0.0024382395204156637,
+      "learning_rate": 1.2376798786902621e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 247917936,
+      "step": 114770
+    },
+    {
+      "epoch": 18.723491027732464,
+      "grad_norm": 0.002633201191201806,
+      "learning_rate": 1.2361064381311293e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 247929680,
+      "step": 114775
+    },
+    {
+      "epoch": 18.724306688417617,
+      "grad_norm": 0.0014084518188610673,
+      "learning_rate": 1.2345339858341576e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 247940368,
+      "step": 114780
+    },
+    {
+      "epoch": 18.725122349102772,
+      "grad_norm": 0.00445615453645587,
+      "learning_rate": 1.2329625218312213e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 247951984,
+      "step": 114785
+    },
+    {
+      "epoch": 18.725938009787928,
+      "grad_norm": 0.0038615395314991474,
+      "learning_rate": 1.2313920461541672e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 247961456,
+      "step": 114790
+    },
+    {
+      "epoch": 18.726753670473084,
+      "grad_norm": 0.00038773167761974037,
+      "learning_rate": 1.22982255883482e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 247971440,
+      "step": 114795
+    },
+    {
+      "epoch": 18.72756933115824,
+      "grad_norm": 0.00029015023028478026,
+      "learning_rate": 1.2282540599049873e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 247982192,
+      "step": 114800
+    },
+    {
+      "epoch": 18.72838499184339,
+      "grad_norm": 0.004771945532411337,
+      "learning_rate": 1.2266865493964551e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 247993008,
+      "step": 114805
+    },
+    {
+      "epoch": 18.729200652528547,
+      "grad_norm": 0.003790721297264099,
+      "learning_rate": 1.2251200273409923e-05,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 248004720,
+      "step": 114810
+    },
+    {
+      "epoch": 18.730016313213703,
+      "grad_norm": 0.0013847892405465245,
+      "learning_rate": 1.2235544937703513e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 248015024,
+      "step": 114815
+    },
+    {
+      "epoch": 18.73083197389886,
+      "grad_norm": 0.004622996784746647,
+      "learning_rate": 1.2219899487162567e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 248025232,
+      "step": 114820
+    },
+    {
+      "epoch": 18.731647634584014,
+      "grad_norm": 0.031056227162480354,
+      "learning_rate": 1.2204263922104108e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 248036016,
+      "step": 114825
+    },
+    {
+      "epoch": 18.732463295269167,
+      "grad_norm": 0.0014217033749446273,
+      "learning_rate": 1.2188638242845108e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 248046160,
+      "step": 114830
+    },
+    {
+      "epoch": 18.733278955954322,
+      "grad_norm": 0.00779396528378129,
+      "learning_rate": 1.2173022449702142e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 248055984,
+      "step": 114835
+    },
+    {
+      "epoch": 18.734094616639478,
+      "grad_norm": 0.1975318193435669,
+      "learning_rate": 1.215741654299174e-05,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 248066512,
+      "step": 114840
+    },
+    {
+      "epoch": 18.734910277324634,
+      "grad_norm": 0.017688684165477753,
+      "learning_rate": 1.214182052303009e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 248075344,
+      "step": 114845
+    },
+    {
+      "epoch": 18.73572593800979,
+      "grad_norm": 0.003837002906948328,
+      "learning_rate": 1.2126234390133439e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248086832,
+      "step": 114850
+    },
+    {
+      "epoch": 18.73654159869494,
+      "grad_norm": 0.0023042631801217794,
+      "learning_rate": 1.2110658144617538e-05,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 248097328,
+      "step": 114855
+    },
+    {
+      "epoch": 18.737357259380097,
+      "grad_norm": 0.0019547000993043184,
+      "learning_rate": 1.2095091786798074e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 248107792,
+      "step": 114860
+    },
+    {
+      "epoch": 18.738172920065253,
+      "grad_norm": 0.7636070251464844,
+      "learning_rate": 1.207953531699052e-05,
+      "loss": 0.1813,
+      "num_input_tokens_seen": 248118608,
+      "step": 114865
+    },
+    {
+      "epoch": 18.73898858075041,
+      "grad_norm": 0.0049219997599720955,
+      "learning_rate": 1.206398873551018e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 248130192,
+      "step": 114870
+    },
+    {
+      "epoch": 18.739804241435564,
+      "grad_norm": 0.020860247313976288,
+      "learning_rate": 1.2048452042672075e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 248141232,
+      "step": 114875
+    },
+    {
+      "epoch": 18.740619902120716,
+      "grad_norm": 0.0031487110536545515,
+      "learning_rate": 1.2032925238791071e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 248151856,
+      "step": 114880
+    },
+    {
+      "epoch": 18.741435562805872,
+      "grad_norm": 0.06586775928735733,
+      "learning_rate": 1.2017408324181911e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 248162416,
+      "step": 114885
+    },
+    {
+      "epoch": 18.742251223491028,
+      "grad_norm": 0.0008164440514519811,
+      "learning_rate": 1.2001901299159013e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248174064,
+      "step": 114890
+    },
+    {
+      "epoch": 18.743066884176184,
+      "grad_norm": 0.0023708927910774946,
+      "learning_rate": 1.1986404164036679e-05,
+      "loss": 0.1441,
+      "num_input_tokens_seen": 248184432,
+      "step": 114895
+    },
+    {
+      "epoch": 18.74388254486134,
+      "grad_norm": 0.0004083328531123698,
+      "learning_rate": 1.1970916919128937e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248195792,
+      "step": 114900
+    },
+    {
+      "epoch": 18.74469820554649,
+      "grad_norm": 0.002401529112830758,
+      "learning_rate": 1.1955439564749649e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 248206768,
+      "step": 114905
+    },
+    {
+      "epoch": 18.745513866231647,
+      "grad_norm": 0.0043855938129127026,
+      "learning_rate": 1.1939972101212503e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248218672,
+      "step": 114910
+    },
+    {
+      "epoch": 18.746329526916803,
+      "grad_norm": 0.022415775805711746,
+      "learning_rate": 1.1924514528831032e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 248229488,
+      "step": 114915
+    },
+    {
+      "epoch": 18.74714518760196,
+      "grad_norm": 0.007502218242734671,
+      "learning_rate": 1.190906684791837e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 248240176,
+      "step": 114920
+    },
+    {
+      "epoch": 18.747960848287114,
+      "grad_norm": 0.0006908404175192118,
+      "learning_rate": 1.1893629058787714e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 248249296,
+      "step": 114925
+    },
+    {
+      "epoch": 18.748776508972266,
+      "grad_norm": 0.0905354842543602,
+      "learning_rate": 1.187820116175181e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 248259696,
+      "step": 114930
+    },
+    {
+      "epoch": 18.749592169657422,
+      "grad_norm": 0.001892009051516652,
+      "learning_rate": 1.1862783157123413e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 248270416,
+      "step": 114935
+    },
+    {
+      "epoch": 18.750407830342578,
+      "grad_norm": 0.010540666058659554,
+      "learning_rate": 1.1847375045214992e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 248282000,
+      "step": 114940
+    },
+    {
+      "epoch": 18.751223491027734,
+      "grad_norm": 0.0007760238368064165,
+      "learning_rate": 1.1831976826338742e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 248294096,
+      "step": 114945
+    },
+    {
+      "epoch": 18.752039151712886,
+      "grad_norm": 0.004532194696366787,
+      "learning_rate": 1.1816588500806802e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 248305136,
+      "step": 114950
+    },
+    {
+      "epoch": 18.75285481239804,
+      "grad_norm": 0.0071411640383303165,
+      "learning_rate": 1.1801210068930923e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 248315632,
+      "step": 114955
+    },
+    {
+      "epoch": 18.753670473083197,
+      "grad_norm": 0.011389593593776226,
+      "learning_rate": 1.1785841531022968e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248326576,
+      "step": 114960
+    },
+    {
+      "epoch": 18.754486133768353,
+      "grad_norm": 0.05140427127480507,
+      "learning_rate": 1.177048288739413e-05,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 248337488,
+      "step": 114965
+    },
+    {
+      "epoch": 18.75530179445351,
+      "grad_norm": 0.00020385747484397143,
+      "learning_rate": 1.1755134138355995e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 248347728,
+      "step": 114970
+    },
+    {
+      "epoch": 18.75611745513866,
+      "grad_norm": 0.010403123684227467,
+      "learning_rate": 1.1739795284219256e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 248358448,
+      "step": 114975
+    },
+    {
+      "epoch": 18.756933115823816,
+      "grad_norm": 0.024493994191288948,
+      "learning_rate": 1.172446632529517e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 248369712,
+      "step": 114980
+    },
+    {
+      "epoch": 18.757748776508972,
+      "grad_norm": 0.0017098193056881428,
+      "learning_rate": 1.1709147261894037e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 248381232,
+      "step": 114985
+    },
+    {
+      "epoch": 18.758564437194128,
+      "grad_norm": 0.004953702911734581,
+      "learning_rate": 1.1693838094326502e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 248391536,
+      "step": 114990
+    },
+    {
+      "epoch": 18.759380097879284,
+      "grad_norm": 0.0007283523445948958,
+      "learning_rate": 1.1678538822902817e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 248402640,
+      "step": 114995
+    },
+    {
+      "epoch": 18.760195758564436,
+      "grad_norm": 0.00265447492711246,
+      "learning_rate": 1.1663249447933067e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248413040,
+      "step": 115000
+    },
+    {
+      "epoch": 18.76101141924959,
+      "grad_norm": 0.0027859921101480722,
+      "learning_rate": 1.1647969969727e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 248425008,
+      "step": 115005
+    },
+    {
+      "epoch": 18.761827079934747,
+      "grad_norm": 0.0012829096522182226,
+      "learning_rate": 1.1632700388594375e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 248436368,
+      "step": 115010
+    },
+    {
+      "epoch": 18.762642740619903,
+      "grad_norm": 0.0012848442420363426,
+      "learning_rate": 1.1617440704844661e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 248447920,
+      "step": 115015
+    },
+    {
+      "epoch": 18.76345840130506,
+      "grad_norm": 0.009974795393645763,
+      "learning_rate": 1.1602190918787004e-05,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 248458768,
+      "step": 115020
+    },
+    {
+      "epoch": 18.76427406199021,
+      "grad_norm": 0.3886551856994629,
+      "learning_rate": 1.1586951030730542e-05,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 248470384,
+      "step": 115025
+    },
+    {
+      "epoch": 18.765089722675366,
+      "grad_norm": 0.0006359002436511219,
+      "learning_rate": 1.1571721040984084e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 248481840,
+      "step": 115030
+    },
+    {
+      "epoch": 18.765905383360522,
+      "grad_norm": 0.0023894875776022673,
+      "learning_rate": 1.1556500949856386e-05,
+      "loss": 0.003,
+      "num_input_tokens_seen": 248492240,
+      "step": 115035
+    },
+    {
+      "epoch": 18.766721044045678,
+      "grad_norm": 0.028124431148171425,
+      "learning_rate": 1.1541290757655754e-05,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 248503472,
+      "step": 115040
+    },
+    {
+      "epoch": 18.767536704730833,
+      "grad_norm": 0.00027735813637264073,
+      "learning_rate": 1.1526090464690553e-05,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 248514288,
+      "step": 115045
+    },
+    {
+      "epoch": 18.768352365415986,
+      "grad_norm": 0.0014982965076342225,
+      "learning_rate": 1.1510900071268815e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248525456,
+      "step": 115050
+    },
+    {
+      "epoch": 18.76916802610114,
+      "grad_norm": 0.0015739202499389648,
+      "learning_rate": 1.149571957769835e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 248536976,
+      "step": 115055
+    },
+    {
+      "epoch": 18.769983686786297,
+      "grad_norm": 0.057564280927181244,
+      "learning_rate": 1.1480548984286853e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 248545904,
+      "step": 115060
+    },
+    {
+      "epoch": 18.770799347471453,
+      "grad_norm": 0.0035541686229407787,
+      "learning_rate": 1.1465388291341804e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 248556368,
+      "step": 115065
+    },
+    {
+      "epoch": 18.77161500815661,
+      "grad_norm": 0.0001766427740221843,
+      "learning_rate": 1.145023749917029e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248566640,
+      "step": 115070
+    },
+    {
+      "epoch": 18.77243066884176,
+      "grad_norm": 0.019232071936130524,
+      "learning_rate": 1.143509660807962e-05,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 248579440,
+      "step": 115075
+    },
+    {
+      "epoch": 18.773246329526916,
+      "grad_norm": 0.0011684228666126728,
+      "learning_rate": 1.1419965618376383e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 248589008,
+      "step": 115080
+    },
+    {
+      "epoch": 18.774061990212072,
+      "grad_norm": 0.0053740390576422215,
+      "learning_rate": 1.1404844530367498e-05,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 248598640,
+      "step": 115085
+    },
+    {
+      "epoch": 18.774877650897228,
+      "grad_norm": 0.0055008502677083015,
+      "learning_rate": 1.138973334435911e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 248610064,
+      "step": 115090
+    },
+    {
+      "epoch": 18.775693311582383,
+      "grad_norm": 0.0013196800136938691,
+      "learning_rate": 1.1374632060657753e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248620848,
+      "step": 115095
+    },
+    {
+      "epoch": 18.776508972267536,
+      "grad_norm": 0.0019128243438899517,
+      "learning_rate": 1.1359540679569236e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248631792,
+      "step": 115100
+    },
+    {
+      "epoch": 18.77732463295269,
+      "grad_norm": 0.0034028757363557816,
+      "learning_rate": 1.1344459201399592e-05,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 248641264,
+      "step": 115105
+    },
+    {
+      "epoch": 18.778140293637847,
+      "grad_norm": 0.009112970903515816,
+      "learning_rate": 1.1329387626454358e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248652432,
+      "step": 115110
+    },
+    {
+      "epoch": 18.778955954323003,
+      "grad_norm": 0.003698774380609393,
+      "learning_rate": 1.1314325955039007e-05,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 248663056,
+      "step": 115115
+    },
+    {
+      "epoch": 18.77977161500816,
+      "grad_norm": 0.002369646681472659,
+      "learning_rate": 1.1299274187458741e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 248673936,
+      "step": 115120
+    },
+    {
+      "epoch": 18.78058727569331,
+      "grad_norm": 0.0011856432538479567,
+      "learning_rate": 1.1284232324018761e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248683600,
+      "step": 115125
+    },
+    {
+      "epoch": 18.781402936378466,
+      "grad_norm": 0.0010567542631179094,
+      "learning_rate": 1.1269200365023657e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 248694256,
+      "step": 115130
+    },
+    {
+      "epoch": 18.782218597063622,
+      "grad_norm": 0.4526723623275757,
+      "learning_rate": 1.125417831077824e-05,
+      "loss": 0.021,
+      "num_input_tokens_seen": 248704560,
+      "step": 115135
+    },
+    {
+      "epoch": 18.783034257748778,
+      "grad_norm": 0.00026864337269216776,
+      "learning_rate": 1.1239166161586933e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 248717232,
+      "step": 115140
+    },
+    {
+      "epoch": 18.78384991843393,
+      "grad_norm": 0.002488876460120082,
+      "learning_rate": 1.1224163917753993e-05,
+      "loss": 0.0085,
+      "num_input_tokens_seen": 248727728,
+      "step": 115145
+    },
+    {
+      "epoch": 18.784665579119086,
+      "grad_norm": 0.00027354180929251015,
+      "learning_rate": 1.1209171579583399e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248738544,
+      "step": 115150
+    },
+    {
+      "epoch": 18.78548123980424,
+      "grad_norm": 0.0005132790538482368,
+      "learning_rate": 1.1194189147379018e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 248749456,
+      "step": 115155
+    },
+    {
+      "epoch": 18.786296900489397,
+      "grad_norm": 0.0002152713859686628,
+      "learning_rate": 1.1179216621444499e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248760208,
+      "step": 115160
+    },
+    {
+      "epoch": 18.787112561174553,
+      "grad_norm": 0.007923472672700882,
+      "learning_rate": 1.1164254002083262e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248771600,
+      "step": 115165
+    },
+    {
+      "epoch": 18.787928221859705,
+      "grad_norm": 0.00116739550139755,
+      "learning_rate": 1.1149301289598569e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 248782416,
+      "step": 115170
+    },
+    {
+      "epoch": 18.78874388254486,
+      "grad_norm": 0.0004970782902091742,
+      "learning_rate": 1.1134358484293395e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 248793296,
+      "step": 115175
+    },
+    {
+      "epoch": 18.789559543230016,
+      "grad_norm": 0.0009810201590880752,
+      "learning_rate": 1.1119425586470667e-05,
+      "loss": 0.0249,
+      "num_input_tokens_seen": 248804528,
+      "step": 115180
+    },
+    {
+      "epoch": 18.790375203915172,
+      "grad_norm": 0.0015762445982545614,
+      "learning_rate": 1.1104502596432863e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 248814608,
+      "step": 115185
+    },
+    {
+      "epoch": 18.791190864600328,
+      "grad_norm": 0.0027050410863012075,
+      "learning_rate": 1.1089589514482635e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 248825680,
+      "step": 115190
+    },
+    {
+      "epoch": 18.79200652528548,
+      "grad_norm": 0.004898820538073778,
+      "learning_rate": 1.1074686340922068e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 248837744,
+      "step": 115195
+    },
+    {
+      "epoch": 18.792822185970635,
+      "grad_norm": 0.0005425384151749313,
+      "learning_rate": 1.105979307605326e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 248845904,
+      "step": 115200
+    },
+    {
+      "epoch": 18.79363784665579,
+      "grad_norm": 0.0005339878844097257,
+      "learning_rate": 1.104490972017791e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 248856720,
+      "step": 115205
+    },
+    {
+      "epoch": 18.794453507340947,
+      "grad_norm": 0.003522041952237487,
+      "learning_rate": 1.1030036273597888e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 248867536,
+      "step": 115210
+    },
+    {
+      "epoch": 18.795269168026103,
+      "grad_norm": 0.0015702954260632396,
+      "learning_rate": 1.1015172736614343e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 248878096,
+      "step": 115215
+    },
+    {
+      "epoch": 18.796084828711255,
+      "grad_norm": 0.0037163293454796076,
+      "learning_rate": 1.1000319109528755e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 248889936,
+      "step": 115220
+    },
+    {
+      "epoch": 18.79690048939641,
+      "grad_norm": 0.0001467862311983481,
+      "learning_rate": 1.0985475392641941e-05,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 248900464,
+      "step": 115225
+    },
+    {
+      "epoch": 18.797716150081566,
+      "grad_norm": 0.0035111182369291782,
+      "learning_rate": 1.0970641586254937e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 248911280,
+      "step": 115230
+    },
+    {
+      "epoch": 18.798531810766722,
+      "grad_norm": 0.0016056197928264737,
+      "learning_rate": 1.0955817690668169e-05,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 248922864,
+      "step": 115235
+    },
+    {
+      "epoch": 18.799347471451878,
+      "grad_norm": 0.0003613026347011328,
+      "learning_rate": 1.094100370618223e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 248932560,
+      "step": 115240
+    },
+    {
+      "epoch": 18.80016313213703,
+      "grad_norm": 0.0015075618866831064,
+      "learning_rate": 1.0926199633097156e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 248943440,
+      "step": 115245
+    },
+    {
+      "epoch": 18.800978792822185,
+      "grad_norm": 0.003285182174295187,
+      "learning_rate": 1.091140547171321e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248953712,
+      "step": 115250
+    },
+    {
+      "epoch": 18.80179445350734,
+      "grad_norm": 0.006845667026937008,
+      "learning_rate": 1.0896621222329983e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 248965392,
+      "step": 115255
+    },
+    {
+      "epoch": 18.802610114192497,
+      "grad_norm": 0.003190365619957447,
+      "learning_rate": 1.0881846885247293e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 248975952,
+      "step": 115260
+    },
+    {
+      "epoch": 18.803425774877653,
+      "grad_norm": 0.00023938875528983772,
+      "learning_rate": 1.0867082460764343e-05,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 248987184,
+      "step": 115265
+    },
+    {
+      "epoch": 18.804241435562805,
+      "grad_norm": 0.0011155434185639024,
+      "learning_rate": 1.0852327949180618e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 248998448,
+      "step": 115270
+    },
+    {
+      "epoch": 18.80505709624796,
+      "grad_norm": 0.001338596804998815,
+      "learning_rate": 1.0837583350794878e-05,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 249008592,
+      "step": 115275
+    },
+    {
+      "epoch": 18.805872756933116,
+      "grad_norm": 0.01313408650457859,
+      "learning_rate": 1.0822848665906104e-05,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 249019216,
+      "step": 115280
+    },
+    {
+      "epoch": 18.806688417618272,
+      "grad_norm": 0.008214665576815605,
+      "learning_rate": 1.0808123894812838e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249031056,
+      "step": 115285
+    },
+    {
+      "epoch": 18.807504078303424,
+      "grad_norm": 0.0005401197704486549,
+      "learning_rate": 1.0793409037813562e-05,
+      "loss": 0.0405,
+      "num_input_tokens_seen": 249041712,
+      "step": 115290
+    },
+    {
+      "epoch": 18.80831973898858,
+      "grad_norm": 0.0016540754586458206,
+      "learning_rate": 1.0778704095206427e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 249051504,
+      "step": 115295
+    },
+    {
+      "epoch": 18.809135399673735,
+      "grad_norm": 0.004030495882034302,
+      "learning_rate": 1.0764009067289526e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 249062960,
+      "step": 115300
+    },
+    {
+      "epoch": 18.80995106035889,
+      "grad_norm": 0.001202249201014638,
+      "learning_rate": 1.0749323954360568e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249072560,
+      "step": 115305
+    },
+    {
+      "epoch": 18.810766721044047,
+      "grad_norm": 0.04477335512638092,
+      "learning_rate": 1.0734648756717258e-05,
+      "loss": 0.001,
+      "num_input_tokens_seen": 249083056,
+      "step": 115310
+    },
+    {
+      "epoch": 18.8115823817292,
+      "grad_norm": 0.0677478015422821,
+      "learning_rate": 1.0719983474656914e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 249092688,
+      "step": 115315
+    },
+    {
+      "epoch": 18.812398042414355,
+      "grad_norm": 0.00028590558213181794,
+      "learning_rate": 1.0705328108476852e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 249103696,
+      "step": 115320
+    },
+    {
+      "epoch": 18.81321370309951,
+      "grad_norm": 0.0034891394898295403,
+      "learning_rate": 1.0690682658474004e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 249115120,
+      "step": 115325
+    },
+    {
+      "epoch": 18.814029363784666,
+      "grad_norm": 0.004498482681810856,
+      "learning_rate": 1.0676047124945187e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 249126128,
+      "step": 115330
+    },
+    {
+      "epoch": 18.81484502446982,
+      "grad_norm": 0.11555361747741699,
+      "learning_rate": 1.0661421508187109e-05,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 249137360,
+      "step": 115335
+    },
+    {
+      "epoch": 18.815660685154974,
+      "grad_norm": 0.0011468741577118635,
+      "learning_rate": 1.0646805808495974e-05,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 249148400,
+      "step": 115340
+    },
+    {
+      "epoch": 18.81647634584013,
+      "grad_norm": 0.0004126753192394972,
+      "learning_rate": 1.0632200026168215e-05,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 249160656,
+      "step": 115345
+    },
+    {
+      "epoch": 18.817292006525285,
+      "grad_norm": 0.011663687415421009,
+      "learning_rate": 1.061760416149965e-05,
+      "loss": 0.0147,
+      "num_input_tokens_seen": 249172304,
+      "step": 115350
+    },
+    {
+      "epoch": 18.81810766721044,
+      "grad_norm": 0.07764124870300293,
+      "learning_rate": 1.0603018214786264e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 249182896,
+      "step": 115355
+    },
+    {
+      "epoch": 18.818923327895597,
+      "grad_norm": 0.0025914544239640236,
+      "learning_rate": 1.0588442186323433e-05,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 249193712,
+      "step": 115360
+    },
+    {
+      "epoch": 18.81973898858075,
+      "grad_norm": 0.0012623146176338196,
+      "learning_rate": 1.0573876076406807e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249203696,
+      "step": 115365
+    },
+    {
+      "epoch": 18.820554649265905,
+      "grad_norm": 0.007144573610275984,
+      "learning_rate": 1.055931988533132e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 249213936,
+      "step": 115370
+    },
+    {
+      "epoch": 18.82137030995106,
+      "grad_norm": 0.010374244302511215,
+      "learning_rate": 1.0544773613392289e-05,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 249225520,
+      "step": 115375
+    },
+    {
+      "epoch": 18.822185970636216,
+      "grad_norm": 0.0038773410487920046,
+      "learning_rate": 1.0530237260884146e-05,
+      "loss": 0.0084,
+      "num_input_tokens_seen": 249236368,
+      "step": 115380
+    },
+    {
+      "epoch": 18.82300163132137,
+      "grad_norm": 0.002093594754114747,
+      "learning_rate": 1.051571082810182e-05,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 249247984,
+      "step": 115385
+    },
+    {
+      "epoch": 18.823817292006524,
+      "grad_norm": 0.0006376361125148833,
+      "learning_rate": 1.0501194315339523e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249258832,
+      "step": 115390
+    },
+    {
+      "epoch": 18.82463295269168,
+      "grad_norm": 0.5937981605529785,
+      "learning_rate": 1.048668772289152e-05,
+      "loss": 0.0298,
+      "num_input_tokens_seen": 249269776,
+      "step": 115395
+    },
+    {
+      "epoch": 18.825448613376835,
+      "grad_norm": 0.0035166044253855944,
+      "learning_rate": 1.0472191051051738e-05,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 249280432,
+      "step": 115400
+    },
+    {
+      "epoch": 18.82626427406199,
+      "grad_norm": 0.003904164768755436,
+      "learning_rate": 1.0457704300114057e-05,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 249291472,
+      "step": 115405
+    },
+    {
+      "epoch": 18.827079934747147,
+      "grad_norm": 0.00040897587314248085,
+      "learning_rate": 1.0443227470372018e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 249302768,
+      "step": 115410
+    },
+    {
+      "epoch": 18.8278955954323,
+      "grad_norm": 0.0001675260136835277,
+      "learning_rate": 1.0428760562119e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249315216,
+      "step": 115415
+    },
+    {
+      "epoch": 18.828711256117455,
+      "grad_norm": 0.10226722061634064,
+      "learning_rate": 1.041430357564821e-05,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 249326128,
+      "step": 115420
+    },
+    {
+      "epoch": 18.82952691680261,
+      "grad_norm": 0.00045980140566825867,
+      "learning_rate": 1.0399856511252692e-05,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 249338608,
+      "step": 115425
+    },
+    {
+      "epoch": 18.830342577487766,
+      "grad_norm": 0.0012188085820525885,
+      "learning_rate": 1.0385419369225157e-05,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 249348496,
+      "step": 115430
+    },
+    {
+      "epoch": 18.83115823817292,
+      "grad_norm": 0.0006280313245952129,
+      "learning_rate": 1.0370992149858205e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 249358832,
+      "step": 115435
+    },
+    {
+      "epoch": 18.831973898858074,
+      "grad_norm": 0.0012271900195628405,
+      "learning_rate": 1.0356574853444211e-05,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 249367760,
+      "step": 115440
+    },
+    {
+      "epoch": 18.83278955954323,
+      "grad_norm": 0.004578801337629557,
+      "learning_rate": 1.0342167480275444e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 249378320,
+      "step": 115445
+    },
+    {
+      "epoch": 18.833605220228385,
+      "grad_norm": 0.0065257553942501545,
+      "learning_rate": 1.032777003064378e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 249389328,
+      "step": 115450
+    },
+    {
+      "epoch": 18.83442088091354,
+      "grad_norm": 0.549997866153717,
+      "learning_rate": 1.0313382504841096e-05,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 249402192,
+      "step": 115455
+    },
+    {
+      "epoch": 18.835236541598697,
+      "grad_norm": 0.00017082234262488782,
+      "learning_rate": 1.0299004903158882e-05,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 249414096,
+      "step": 115460
+    },
+    {
+      "epoch": 18.83605220228385,
+      "grad_norm": 0.0017220403533428907,
+      "learning_rate": 1.0284637225888626e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249425520,
+      "step": 115465
+    },
+    {
+      "epoch": 18.836867862969005,
+      "grad_norm": 0.0026273017283529043,
+      "learning_rate": 1.0270279473321375e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 249437872,
+      "step": 115470
+    },
+    {
+      "epoch": 18.83768352365416,
+      "grad_norm": 0.0008895907667465508,
+      "learning_rate": 1.0255931645748174e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 249448848,
+      "step": 115475
+    },
+    {
+      "epoch": 18.838499184339316,
+      "grad_norm": 0.0026277219876646996,
+      "learning_rate": 1.0241593743459898e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 249461008,
+      "step": 115480
+    },
+    {
+      "epoch": 18.839314845024468,
+      "grad_norm": 0.0016103885136544704,
+      "learning_rate": 1.0227265766746874e-05,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 249471216,
+      "step": 115485
+    },
+    {
+      "epoch": 18.840130505709624,
+      "grad_norm": 0.0002219690359197557,
+      "learning_rate": 1.0212947715899757e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 249482256,
+      "step": 115490
+    },
+    {
+      "epoch": 18.84094616639478,
+      "grad_norm": 0.0006362979183904827,
+      "learning_rate": 1.0198639591208535e-05,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 249493328,
+      "step": 115495
+    },
+    {
+      "epoch": 18.841761827079935,
+      "grad_norm": 0.004850686062127352,
+      "learning_rate": 1.0184341392963259e-05,
+      "loss": 0.002,
+      "num_input_tokens_seen": 249505360,
+      "step": 115500
+    },
+    {
+      "epoch": 18.84257748776509,
+      "grad_norm": 0.006848242599517107,
+      "learning_rate": 1.0170053121453694e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249515632,
+      "step": 115505
+    },
+    {
+      "epoch": 18.843393148450243,
+      "grad_norm": 0.0005007157451473176,
+      "learning_rate": 1.0155774776969385e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 249525680,
+      "step": 115510
+    },
+    {
+      "epoch": 18.8442088091354,
+      "grad_norm": 0.002938035409897566,
+      "learning_rate": 1.0141506359799712e-05,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 249535824,
+      "step": 115515
+    },
+    {
+      "epoch": 18.845024469820554,
+      "grad_norm": 0.0021078032441437244,
+      "learning_rate": 1.0127247870233836e-05,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249547376,
+      "step": 115520
+    },
+    {
+      "epoch": 18.84584013050571,
+      "grad_norm": 0.032018523663282394,
+      "learning_rate": 1.011299930856069e-05,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 249557808,
+      "step": 115525
+    },
+    {
+      "epoch": 18.846655791190866,
+      "grad_norm": 0.0021978262811899185,
+      "learning_rate": 1.0098760675069151e-05,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 249566864,
+      "step": 115530
+    },
+    {
+      "epoch": 18.847471451876018,
+      "grad_norm": 0.003689467441290617,
+      "learning_rate": 1.0084531970047662e-05,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 249577328,
+      "step": 115535
+    },
+    {
+      "epoch": 18.848287112561174,
+      "grad_norm": 0.004149348940700293,
+      "learning_rate": 1.0070313193784653e-05,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 249588784,
+      "step": 115540
+    },
+    {
+      "epoch": 18.84910277324633,
+      "grad_norm": 0.007302007172256708,
+      "learning_rate": 1.0056104346568285e-05,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 249598928,
+      "step": 115545
+    },
+    {
+      "epoch": 18.849918433931485,
+      "grad_norm": 0.0032237458508461714,
+      "learning_rate": 1.0041905428686493e-05,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 249610160,
+      "step": 115550
+    },
+    {
+      "epoch": 18.85073409461664,
+      "grad_norm": 0.06821348518133163,
+      "learning_rate": 1.0027716440427049e-05,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 249621776,
+      "step": 115555
+    },
+    {
+      "epoch": 18.851549755301793,
+      "grad_norm": 0.01791023463010788,
+      "learning_rate": 1.0013537382077443e-05,
+      "loss": 0.004,
+      "num_input_tokens_seen": 249633072,
+      "step": 115560
+    },
+    {
+      "epoch": 18.85236541598695,
+      "grad_norm": 0.00621650880202651,
+      "learning_rate": 9.999368253925167e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 249643568,
+      "step": 115565
+    },
+    {
+      "epoch": 18.853181076672104,
+      "grad_norm": 0.012429935857653618,
+      "learning_rate": 9.985209056257272e-06,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 249654832,
+      "step": 115570
+    },
+    {
+      "epoch": 18.85399673735726,
+      "grad_norm": 0.0016874076100066304,
+      "learning_rate": 9.971059789360749e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 249666416,
+      "step": 115575
+    },
+    {
+      "epoch": 18.854812398042416,
+      "grad_norm": 0.05518745630979538,
+      "learning_rate": 9.956920453522366e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 249677808,
+      "step": 115580
+    },
+    {
+      "epoch": 18.855628058727568,
+      "grad_norm": 0.015488969162106514,
+      "learning_rate": 9.942791049028621e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 249688176,
+      "step": 115585
+    },
+    {
+      "epoch": 18.856443719412724,
+      "grad_norm": 0.01876658760011196,
+      "learning_rate": 9.928671576165893e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 249699920,
+      "step": 115590
+    },
+    {
+      "epoch": 18.85725938009788,
+      "grad_norm": 0.001732186763547361,
+      "learning_rate": 9.914562035220287e-06,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 249710800,
+      "step": 115595
+    },
+    {
+      "epoch": 18.858075040783035,
+      "grad_norm": 0.010737020522356033,
+      "learning_rate": 9.900462426477908e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 249721712,
+      "step": 115600
+    },
+    {
+      "epoch": 18.85889070146819,
+      "grad_norm": 0.0032939244993031025,
+      "learning_rate": 9.886372750224304e-06,
+      "loss": 0.003,
+      "num_input_tokens_seen": 249733040,
+      "step": 115605
+    },
+    {
+      "epoch": 18.859706362153343,
+      "grad_norm": 0.000969278160482645,
+      "learning_rate": 9.872293006745192e-06,
+      "loss": 0.0481,
+      "num_input_tokens_seen": 249744848,
+      "step": 115610
+    },
+    {
+      "epoch": 18.8605220228385,
+      "grad_norm": 0.0010464123915880919,
+      "learning_rate": 9.858223196325789e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 249755248,
+      "step": 115615
+    },
+    {
+      "epoch": 18.861337683523654,
+      "grad_norm": 0.0052170101553201675,
+      "learning_rate": 9.844163319251253e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 249766352,
+      "step": 115620
+    },
+    {
+      "epoch": 18.86215334420881,
+      "grad_norm": 0.0025711439084261656,
+      "learning_rate": 9.830113375806582e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 249776912,
+      "step": 115625
+    },
+    {
+      "epoch": 18.862969004893966,
+      "grad_norm": 0.0010705140884965658,
+      "learning_rate": 9.816073366276545e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249788272,
+      "step": 115630
+    },
+    {
+      "epoch": 18.863784665579118,
+      "grad_norm": 0.11389190703630447,
+      "learning_rate": 9.802043290945529e-06,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 249800368,
+      "step": 115635
+    },
+    {
+      "epoch": 18.864600326264274,
+      "grad_norm": 0.02490387298166752,
+      "learning_rate": 9.788023150098024e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 249811408,
+      "step": 115640
+    },
+    {
+      "epoch": 18.86541598694943,
+      "grad_norm": 0.017327111214399338,
+      "learning_rate": 9.774012944018085e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 249821808,
+      "step": 115645
+    },
+    {
+      "epoch": 18.866231647634585,
+      "grad_norm": 0.059728048741817474,
+      "learning_rate": 9.760012672989704e-06,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 249832528,
+      "step": 115650
+    },
+    {
+      "epoch": 18.86704730831974,
+      "grad_norm": 0.02098773419857025,
+      "learning_rate": 9.746022337296546e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 249842640,
+      "step": 115655
+    },
+    {
+      "epoch": 18.867862969004893,
+      "grad_norm": 0.00045805005356669426,
+      "learning_rate": 9.732041937222157e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 249852240,
+      "step": 115660
+    },
+    {
+      "epoch": 18.86867862969005,
+      "grad_norm": 0.002120513003319502,
+      "learning_rate": 9.718071473049927e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 249863056,
+      "step": 115665
+    },
+    {
+      "epoch": 18.869494290375204,
+      "grad_norm": 0.016152381896972656,
+      "learning_rate": 9.70411094506296e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 249874224,
+      "step": 115670
+    },
+    {
+      "epoch": 18.87030995106036,
+      "grad_norm": 0.025782400742173195,
+      "learning_rate": 9.690160353544142e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 249882704,
+      "step": 115675
+    },
+    {
+      "epoch": 18.871125611745512,
+      "grad_norm": 0.009104576893150806,
+      "learning_rate": 9.67621969877619e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 249893424,
+      "step": 115680
+    },
+    {
+      "epoch": 18.871941272430668,
+      "grad_norm": 0.008896476589143276,
+      "learning_rate": 9.66228898104171e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 249902992,
+      "step": 115685
+    },
+    {
+      "epoch": 18.872756933115824,
+      "grad_norm": 0.002238509012386203,
+      "learning_rate": 9.64836820062298e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 249913072,
+      "step": 115690
+    },
+    {
+      "epoch": 18.87357259380098,
+      "grad_norm": 0.03264370560646057,
+      "learning_rate": 9.634457357802107e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 249923312,
+      "step": 115695
+    },
+    {
+      "epoch": 18.874388254486135,
+      "grad_norm": 0.06711148470640182,
+      "learning_rate": 9.62055645286103e-06,
+      "loss": 0.0342,
+      "num_input_tokens_seen": 249933712,
+      "step": 115700
+    },
+    {
+      "epoch": 18.875203915171287,
+      "grad_norm": 0.0005814563482999802,
+      "learning_rate": 9.606665486081522e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 249943024,
+      "step": 115705
+    },
+    {
+      "epoch": 18.876019575856443,
+      "grad_norm": 0.0026038573123514652,
+      "learning_rate": 9.592784457744918e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 249953648,
+      "step": 115710
+    },
+    {
+      "epoch": 18.8768352365416,
+      "grad_norm": 0.0004891370190307498,
+      "learning_rate": 9.578913368132824e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 249963536,
+      "step": 115715
+    },
+    {
+      "epoch": 18.877650897226754,
+      "grad_norm": 0.00019704003352671862,
+      "learning_rate": 9.565052217526072e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 249974064,
+      "step": 115720
+    },
+    {
+      "epoch": 18.87846655791191,
+      "grad_norm": 0.19600987434387207,
+      "learning_rate": 9.551201006205767e-06,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 249984240,
+      "step": 115725
+    },
+    {
+      "epoch": 18.879282218597062,
+      "grad_norm": 0.025361159816384315,
+      "learning_rate": 9.537359734452466e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 249996016,
+      "step": 115730
+    },
+    {
+      "epoch": 18.880097879282218,
+      "grad_norm": 0.0005024754791520536,
+      "learning_rate": 9.523528402546888e-06,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 250007408,
+      "step": 115735
+    },
+    {
+      "epoch": 18.880913539967374,
+      "grad_norm": 0.0042595332488417625,
+      "learning_rate": 9.509707010769086e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 250017456,
+      "step": 115740
+    },
+    {
+      "epoch": 18.88172920065253,
+      "grad_norm": 0.019248517230153084,
+      "learning_rate": 9.495895559399449e-06,
+      "loss": 0.0541,
+      "num_input_tokens_seen": 250029296,
+      "step": 115745
+    },
+    {
+      "epoch": 18.882544861337685,
+      "grad_norm": 0.0002776541223283857,
+      "learning_rate": 9.482094048717637e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 250040336,
+      "step": 115750
+    },
+    {
+      "epoch": 18.883360522022837,
+      "grad_norm": 0.009291916154325008,
+      "learning_rate": 9.468302479003487e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 250050896,
+      "step": 115755
+    },
+    {
+      "epoch": 18.884176182707993,
+      "grad_norm": 0.002779381349682808,
+      "learning_rate": 9.45452085053644e-06,
+      "loss": 0.004,
+      "num_input_tokens_seen": 250061168,
+      "step": 115760
+    },
+    {
+      "epoch": 18.88499184339315,
+      "grad_norm": 0.004881167318671942,
+      "learning_rate": 9.44074916359583e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250071632,
+      "step": 115765
+    },
+    {
+      "epoch": 18.885807504078304,
+      "grad_norm": 0.012340943329036236,
+      "learning_rate": 9.42698741846082e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250082768,
+      "step": 115770
+    },
+    {
+      "epoch": 18.88662316476346,
+      "grad_norm": 0.07426692545413971,
+      "learning_rate": 9.413235615410188e-06,
+      "loss": 0.0325,
+      "num_input_tokens_seen": 250093936,
+      "step": 115775
+    },
+    {
+      "epoch": 18.887438825448612,
+      "grad_norm": 0.0016281426651403308,
+      "learning_rate": 9.39949375472271e-06,
+      "loss": 0.0517,
+      "num_input_tokens_seen": 250105040,
+      "step": 115780
+    },
+    {
+      "epoch": 18.888254486133768,
+      "grad_norm": 0.009493221528828144,
+      "learning_rate": 9.385761836676832e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 250114960,
+      "step": 115785
+    },
+    {
+      "epoch": 18.889070146818923,
+      "grad_norm": 0.0010956472251564264,
+      "learning_rate": 9.37203986155094e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 250126224,
+      "step": 115790
+    },
+    {
+      "epoch": 18.88988580750408,
+      "grad_norm": 0.0018236135365441442,
+      "learning_rate": 9.358327829623038e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 250135536,
+      "step": 115795
+    },
+    {
+      "epoch": 18.890701468189235,
+      "grad_norm": 0.17699794471263885,
+      "learning_rate": 9.344625741171009e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 250146128,
+      "step": 115800
+    },
+    {
+      "epoch": 18.891517128874387,
+      "grad_norm": 0.028981979936361313,
+      "learning_rate": 9.330933596472635e-06,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 250157232,
+      "step": 115805
+    },
+    {
+      "epoch": 18.892332789559543,
+      "grad_norm": 0.0012324347626417875,
+      "learning_rate": 9.317251395805304e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 250167888,
+      "step": 115810
+    },
+    {
+      "epoch": 18.8931484502447,
+      "grad_norm": 0.004059400409460068,
+      "learning_rate": 9.303579139446349e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 250179184,
+      "step": 115815
+    },
+    {
+      "epoch": 18.893964110929854,
+      "grad_norm": 0.006122584920376539,
+      "learning_rate": 9.28991682767294e-06,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 250188624,
+      "step": 115820
+    },
+    {
+      "epoch": 18.894779771615006,
+      "grad_norm": 0.0018198771867901087,
+      "learning_rate": 9.27626446076174e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250197712,
+      "step": 115825
+    },
+    {
+      "epoch": 18.895595432300162,
+      "grad_norm": 0.04111974686384201,
+      "learning_rate": 9.2626220389897e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 250208272,
+      "step": 115830
+    },
+    {
+      "epoch": 18.896411092985318,
+      "grad_norm": 0.00017160769493784755,
+      "learning_rate": 9.248989562633037e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 250218448,
+      "step": 115835
+    },
+    {
+      "epoch": 18.897226753670473,
+      "grad_norm": 0.0034603665117174387,
+      "learning_rate": 9.235367031968312e-06,
+      "loss": 0.0744,
+      "num_input_tokens_seen": 250229552,
+      "step": 115840
+    },
+    {
+      "epoch": 18.89804241435563,
+      "grad_norm": 0.0018716700142249465,
+      "learning_rate": 9.221754447271302e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 250240080,
+      "step": 115845
+    },
+    {
+      "epoch": 18.898858075040785,
+      "grad_norm": 0.003498975420370698,
+      "learning_rate": 9.208151808818177e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 250251152,
+      "step": 115850
+    },
+    {
+      "epoch": 18.899673735725937,
+      "grad_norm": 0.007458406500518322,
+      "learning_rate": 9.194559116884327e-06,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 250262480,
+      "step": 115855
+    },
+    {
+      "epoch": 18.900489396411093,
+      "grad_norm": 0.0024467897601425648,
+      "learning_rate": 9.18097637174553e-06,
+      "loss": 0.1571,
+      "num_input_tokens_seen": 250273584,
+      "step": 115860
+    },
+    {
+      "epoch": 18.90130505709625,
+      "grad_norm": 0.0011468434240669012,
+      "learning_rate": 9.167403573676736e-06,
+      "loss": 0.054,
+      "num_input_tokens_seen": 250285488,
+      "step": 115865
+    },
+    {
+      "epoch": 18.902120717781404,
+      "grad_norm": 0.0010236542439088225,
+      "learning_rate": 9.153840722953278e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 250295536,
+      "step": 115870
+    },
+    {
+      "epoch": 18.902936378466556,
+      "grad_norm": 0.0005618699942715466,
+      "learning_rate": 9.14028781984988e-06,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 250306288,
+      "step": 115875
+    },
+    {
+      "epoch": 18.903752039151712,
+      "grad_norm": 0.00021621494670398533,
+      "learning_rate": 9.126744864641267e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 250318352,
+      "step": 115880
+    },
+    {
+      "epoch": 18.904567699836868,
+      "grad_norm": 0.0009274820913560688,
+      "learning_rate": 9.113211857601833e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 250328528,
+      "step": 115885
+    },
+    {
+      "epoch": 18.905383360522023,
+      "grad_norm": 0.007432404439896345,
+      "learning_rate": 9.099688799005967e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 250339536,
+      "step": 115890
+    },
+    {
+      "epoch": 18.90619902120718,
+      "grad_norm": 0.0005458049126900733,
+      "learning_rate": 9.086175689127618e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 250350640,
+      "step": 115895
+    },
+    {
+      "epoch": 18.90701468189233,
+      "grad_norm": 0.0005109109915792942,
+      "learning_rate": 9.072672528240733e-06,
+      "loss": 0.0193,
+      "num_input_tokens_seen": 250360624,
+      "step": 115900
+    },
+    {
+      "epoch": 18.907830342577487,
+      "grad_norm": 0.006997792515903711,
+      "learning_rate": 9.059179316618871e-06,
+      "loss": 0.104,
+      "num_input_tokens_seen": 250371088,
+      "step": 115905
+    },
+    {
+      "epoch": 18.908646003262643,
+      "grad_norm": 0.04977473244071007,
+      "learning_rate": 9.045696054535535e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 250381872,
+      "step": 115910
+    },
+    {
+      "epoch": 18.9094616639478,
+      "grad_norm": 0.0013368047075346112,
+      "learning_rate": 9.032222742264008e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 250391632,
+      "step": 115915
+    },
+    {
+      "epoch": 18.910277324632954,
+      "grad_norm": 0.009490997530519962,
+      "learning_rate": 9.018759380077346e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250403632,
+      "step": 115920
+    },
+    {
+      "epoch": 18.911092985318106,
+      "grad_norm": 0.0015856948448345065,
+      "learning_rate": 9.005305968248334e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 250414704,
+      "step": 115925
+    },
+    {
+      "epoch": 18.911908646003262,
+      "grad_norm": 0.0006589622935280204,
+      "learning_rate": 8.991862507049698e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 250425872,
+      "step": 115930
+    },
+    {
+      "epoch": 18.912724306688418,
+      "grad_norm": 0.0006037901039235294,
+      "learning_rate": 8.978428996753885e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 250436752,
+      "step": 115935
+    },
+    {
+      "epoch": 18.913539967373573,
+      "grad_norm": 0.0019094824092462659,
+      "learning_rate": 8.965005437633067e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 250447952,
+      "step": 115940
+    },
+    {
+      "epoch": 18.91435562805873,
+      "grad_norm": 0.018927903845906258,
+      "learning_rate": 8.95159182995936e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 250459888,
+      "step": 115945
+    },
+    {
+      "epoch": 18.91517128874388,
+      "grad_norm": 0.00041185764712281525,
+      "learning_rate": 8.938188174004602e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 250470704,
+      "step": 115950
+    },
+    {
+      "epoch": 18.915986949429037,
+      "grad_norm": 0.009737544693052769,
+      "learning_rate": 8.924794470040354e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 250480880,
+      "step": 115955
+    },
+    {
+      "epoch": 18.916802610114193,
+      "grad_norm": 0.0019982964731752872,
+      "learning_rate": 8.91141071833812e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 250491568,
+      "step": 115960
+    },
+    {
+      "epoch": 18.91761827079935,
+      "grad_norm": 0.01937304250895977,
+      "learning_rate": 8.89803691916924e-06,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 250501840,
+      "step": 115965
+    },
+    {
+      "epoch": 18.918433931484504,
+      "grad_norm": 0.00334971328265965,
+      "learning_rate": 8.88467307280455e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 250513776,
+      "step": 115970
+    },
+    {
+      "epoch": 18.919249592169656,
+      "grad_norm": 0.013554212637245655,
+      "learning_rate": 8.871319179515058e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 250524400,
+      "step": 115975
+    },
+    {
+      "epoch": 18.920065252854812,
+      "grad_norm": 0.06993885338306427,
+      "learning_rate": 8.857975239571215e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 250535088,
+      "step": 115980
+    },
+    {
+      "epoch": 18.920880913539968,
+      "grad_norm": 0.005087228491902351,
+      "learning_rate": 8.84464125324369e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 250547056,
+      "step": 115985
+    },
+    {
+      "epoch": 18.921696574225123,
+      "grad_norm": 0.00482860766351223,
+      "learning_rate": 8.831317220802493e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 250558256,
+      "step": 115990
+    },
+    {
+      "epoch": 18.92251223491028,
+      "grad_norm": 0.0009906106861308217,
+      "learning_rate": 8.818003142517794e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 250569360,
+      "step": 115995
+    },
+    {
+      "epoch": 18.92332789559543,
+      "grad_norm": 0.004632228519767523,
+      "learning_rate": 8.804699018659324e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250581008,
+      "step": 116000
+    },
+    {
+      "epoch": 18.924143556280587,
+      "grad_norm": 0.0004046796530019492,
+      "learning_rate": 8.79140484949681e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 250592272,
+      "step": 116005
+    },
+    {
+      "epoch": 18.924959216965743,
+      "grad_norm": 0.006622139364480972,
+      "learning_rate": 8.778120635299537e-06,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 250603376,
+      "step": 116010
+    },
+    {
+      "epoch": 18.9257748776509,
+      "grad_norm": 0.0018909795908257365,
+      "learning_rate": 8.7648463763369e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250614224,
+      "step": 116015
+    },
+    {
+      "epoch": 18.92659053833605,
+      "grad_norm": 0.0008149382774718106,
+      "learning_rate": 8.751582072877739e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 250624752,
+      "step": 116020
+    },
+    {
+      "epoch": 18.927406199021206,
+      "grad_norm": 0.0009487331844866276,
+      "learning_rate": 8.738327725191064e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 250635504,
+      "step": 116025
+    },
+    {
+      "epoch": 18.928221859706362,
+      "grad_norm": 0.0005238814628683031,
+      "learning_rate": 8.725083333545326e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 250646096,
+      "step": 116030
+    },
+    {
+      "epoch": 18.929037520391518,
+      "grad_norm": 0.00510450080037117,
+      "learning_rate": 8.711848898208974e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 250657424,
+      "step": 116035
+    },
+    {
+      "epoch": 18.929853181076673,
+      "grad_norm": 0.009839179925620556,
+      "learning_rate": 8.698624419450296e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 250665936,
+      "step": 116040
+    },
+    {
+      "epoch": 18.930668841761825,
+      "grad_norm": 0.10089553147554398,
+      "learning_rate": 8.685409897537244e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 250676912,
+      "step": 116045
+    },
+    {
+      "epoch": 18.93148450244698,
+      "grad_norm": 0.0005019927630200982,
+      "learning_rate": 8.672205332737603e-06,
+      "loss": 0.0089,
+      "num_input_tokens_seen": 250688080,
+      "step": 116050
+    },
+    {
+      "epoch": 18.932300163132137,
+      "grad_norm": 0.00039481374551542103,
+      "learning_rate": 8.65901072531905e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 250698224,
+      "step": 116055
+    },
+    {
+      "epoch": 18.933115823817293,
+      "grad_norm": 0.0027844554278999567,
+      "learning_rate": 8.64582607554898e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250709776,
+      "step": 116060
+    },
+    {
+      "epoch": 18.93393148450245,
+      "grad_norm": 0.0012518571456894279,
+      "learning_rate": 8.632651383694513e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 250721360,
+      "step": 116065
+    },
+    {
+      "epoch": 18.9347471451876,
+      "grad_norm": 0.05422195792198181,
+      "learning_rate": 8.619486650022768e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 250732112,
+      "step": 116070
+    },
+    {
+      "epoch": 18.935562805872756,
+      "grad_norm": 0.0015667621046304703,
+      "learning_rate": 8.606331874800421e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 250742384,
+      "step": 116075
+    },
+    {
+      "epoch": 18.936378466557912,
+      "grad_norm": 0.0554991140961647,
+      "learning_rate": 8.593187058294205e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 250752048,
+      "step": 116080
+    },
+    {
+      "epoch": 18.937194127243067,
+      "grad_norm": 0.005774365738034248,
+      "learning_rate": 8.580052200770405e-06,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 250762704,
+      "step": 116085
+    },
+    {
+      "epoch": 18.938009787928223,
+      "grad_norm": 0.00019944304949603975,
+      "learning_rate": 8.566927302495254e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 250772336,
+      "step": 116090
+    },
+    {
+      "epoch": 18.938825448613375,
+      "grad_norm": 0.005691157653927803,
+      "learning_rate": 8.553812363734759e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 250783184,
+      "step": 116095
+    },
+    {
+      "epoch": 18.93964110929853,
+      "grad_norm": 0.0055681378580629826,
+      "learning_rate": 8.54070738475471e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 250793360,
+      "step": 116100
+    },
+    {
+      "epoch": 18.940456769983687,
+      "grad_norm": 0.0003302092372905463,
+      "learning_rate": 8.527612365820613e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 250804880,
+      "step": 116105
+    },
+    {
+      "epoch": 18.941272430668842,
+      "grad_norm": 0.002624097280204296,
+      "learning_rate": 8.514527307198038e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 250814416,
+      "step": 116110
+    },
+    {
+      "epoch": 18.942088091353998,
+      "grad_norm": 0.007586228661239147,
+      "learning_rate": 8.501452209151995e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 250825552,
+      "step": 116115
+    },
+    {
+      "epoch": 18.94290375203915,
+      "grad_norm": 0.0007885852828621864,
+      "learning_rate": 8.488387071947601e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 250836336,
+      "step": 116120
+    },
+    {
+      "epoch": 18.943719412724306,
+      "grad_norm": 0.04808273911476135,
+      "learning_rate": 8.47533189584948e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 250847984,
+      "step": 116125
+    },
+    {
+      "epoch": 18.94453507340946,
+      "grad_norm": 0.00023655618133489043,
+      "learning_rate": 8.46228668112231e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 250858512,
+      "step": 116130
+    },
+    {
+      "epoch": 18.945350734094617,
+      "grad_norm": 0.0001312753011006862,
+      "learning_rate": 8.449251428030492e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 250869776,
+      "step": 116135
+    },
+    {
+      "epoch": 18.946166394779773,
+      "grad_norm": 0.00039740095962770283,
+      "learning_rate": 8.436226136838198e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 250880656,
+      "step": 116140
+    },
+    {
+      "epoch": 18.946982055464925,
+      "grad_norm": 0.003538029734045267,
+      "learning_rate": 8.423210807809333e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 250891376,
+      "step": 116145
+    },
+    {
+      "epoch": 18.94779771615008,
+      "grad_norm": 0.00038812385173514485,
+      "learning_rate": 8.410205441207741e-06,
+      "loss": 0.0501,
+      "num_input_tokens_seen": 250903600,
+      "step": 116150
+    },
+    {
+      "epoch": 18.948613376835237,
+      "grad_norm": 0.09095561504364014,
+      "learning_rate": 8.397210037296931e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 250914896,
+      "step": 116155
+    },
+    {
+      "epoch": 18.949429037520392,
+      "grad_norm": 0.9006114602088928,
+      "learning_rate": 8.384224596340306e-06,
+      "loss": 0.138,
+      "num_input_tokens_seen": 250924848,
+      "step": 116160
+    },
+    {
+      "epoch": 18.950244698205548,
+      "grad_norm": 0.1281556338071823,
+      "learning_rate": 8.371249118601043e-06,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 250935472,
+      "step": 116165
+    },
+    {
+      "epoch": 18.9510603588907,
+      "grad_norm": 0.011393179185688496,
+      "learning_rate": 8.358283604342098e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 250946960,
+      "step": 116170
+    },
+    {
+      "epoch": 18.951876019575856,
+      "grad_norm": 0.0008362371590919793,
+      "learning_rate": 8.345328053826207e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 250957040,
+      "step": 116175
+    },
+    {
+      "epoch": 18.95269168026101,
+      "grad_norm": 0.00016408613009843975,
+      "learning_rate": 8.33238246731599e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 250968496,
+      "step": 116180
+    },
+    {
+      "epoch": 18.953507340946167,
+      "grad_norm": 0.0007871238049119711,
+      "learning_rate": 8.319446845073741e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 250979600,
+      "step": 116185
+    },
+    {
+      "epoch": 18.954323001631323,
+      "grad_norm": 0.007136243861168623,
+      "learning_rate": 8.306521187361638e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 250989200,
+      "step": 116190
+    },
+    {
+      "epoch": 18.955138662316475,
+      "grad_norm": 0.20850905776023865,
+      "learning_rate": 8.293605494441636e-06,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 250999824,
+      "step": 116195
+    },
+    {
+      "epoch": 18.95595432300163,
+      "grad_norm": 0.0009187610703520477,
+      "learning_rate": 8.280699766575528e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 251010576,
+      "step": 116200
+    },
+    {
+      "epoch": 18.956769983686787,
+      "grad_norm": 0.08381669223308563,
+      "learning_rate": 8.26780400402477e-06,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 251021808,
+      "step": 116205
+    },
+    {
+      "epoch": 18.957585644371942,
+      "grad_norm": 0.027391066774725914,
+      "learning_rate": 8.254918207050821e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 251033168,
+      "step": 116210
+    },
+    {
+      "epoch": 18.958401305057095,
+      "grad_norm": 0.002228178782388568,
+      "learning_rate": 8.242042375914748e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 251044976,
+      "step": 116215
+    },
+    {
+      "epoch": 18.95921696574225,
+      "grad_norm": 0.00165777956135571,
+      "learning_rate": 8.229176510877512e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 251056816,
+      "step": 116220
+    },
+    {
+      "epoch": 18.960032626427406,
+      "grad_norm": 0.008388200774788857,
+      "learning_rate": 8.216320612199901e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 251067568,
+      "step": 116225
+    },
+    {
+      "epoch": 18.96084828711256,
+      "grad_norm": 0.008720295503735542,
+      "learning_rate": 8.203474680142431e-06,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 251077456,
+      "step": 116230
+    },
+    {
+      "epoch": 18.961663947797717,
+      "grad_norm": 0.007424628362059593,
+      "learning_rate": 8.190638714965393e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 251089232,
+      "step": 116235
+    },
+    {
+      "epoch": 18.96247960848287,
+      "grad_norm": 0.005576164927333593,
+      "learning_rate": 8.177812716928967e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 251099536,
+      "step": 116240
+    },
+    {
+      "epoch": 18.963295269168025,
+      "grad_norm": 0.00031054625287652016,
+      "learning_rate": 8.164996686293114e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 251110128,
+      "step": 116245
+    },
+    {
+      "epoch": 18.96411092985318,
+      "grad_norm": 0.016679290682077408,
+      "learning_rate": 8.152190623317569e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 251120368,
+      "step": 116250
+    },
+    {
+      "epoch": 18.964926590538337,
+      "grad_norm": 0.07447069138288498,
+      "learning_rate": 8.13939452826179e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 251130672,
+      "step": 116255
+    },
+    {
+      "epoch": 18.965742251223492,
+      "grad_norm": 0.00019847380463033915,
+      "learning_rate": 8.126608401385183e-06,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 251141264,
+      "step": 116260
+    },
+    {
+      "epoch": 18.966557911908644,
+      "grad_norm": 0.002280977787449956,
+      "learning_rate": 8.113832242946818e-06,
+      "loss": 0.005,
+      "num_input_tokens_seen": 251153040,
+      "step": 116265
+    },
+    {
+      "epoch": 18.9673735725938,
+      "grad_norm": 0.0031850580126047134,
+      "learning_rate": 8.101066053205653e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 251163504,
+      "step": 116270
+    },
+    {
+      "epoch": 18.968189233278956,
+      "grad_norm": 0.06683320552110672,
+      "learning_rate": 8.08830983242037e-06,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 251174480,
+      "step": 116275
+    },
+    {
+      "epoch": 18.96900489396411,
+      "grad_norm": 0.0011318209581077099,
+      "learning_rate": 8.0755635808496e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 251185200,
+      "step": 116280
+    },
+    {
+      "epoch": 18.969820554649267,
+      "grad_norm": 0.005109846591949463,
+      "learning_rate": 8.062827298751518e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 251197904,
+      "step": 116285
+    },
+    {
+      "epoch": 18.97063621533442,
+      "grad_norm": 0.00022063420328777283,
+      "learning_rate": 8.050100986384312e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 251207984,
+      "step": 116290
+    },
+    {
+      "epoch": 18.971451876019575,
+      "grad_norm": 0.006765791680663824,
+      "learning_rate": 8.037384644005941e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 251218704,
+      "step": 116295
+    },
+    {
+      "epoch": 18.97226753670473,
+      "grad_norm": 0.0005463669076561928,
+      "learning_rate": 8.024678271874031e-06,
+      "loss": 0.0189,
+      "num_input_tokens_seen": 251229136,
+      "step": 116300
+    },
+    {
+      "epoch": 18.973083197389887,
+      "grad_norm": 0.006524787284433842,
+      "learning_rate": 8.011981870246099e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 251240272,
+      "step": 116305
+    },
+    {
+      "epoch": 18.973898858075042,
+      "grad_norm": 0.026674775406718254,
+      "learning_rate": 7.99929543937955e-06,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 251250800,
+      "step": 116310
+    },
+    {
+      "epoch": 18.974714518760194,
+      "grad_norm": 0.004923704545944929,
+      "learning_rate": 7.9866189795314e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 251260720,
+      "step": 116315
+    },
+    {
+      "epoch": 18.97553017944535,
+      "grad_norm": 0.0006612880388274789,
+      "learning_rate": 7.973952490958559e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 251272080,
+      "step": 116320
+    },
+    {
+      "epoch": 18.976345840130506,
+      "grad_norm": 0.40225768089294434,
+      "learning_rate": 7.961295973917759e-06,
+      "loss": 0.0155,
+      "num_input_tokens_seen": 251282800,
+      "step": 116325
+    },
+    {
+      "epoch": 18.97716150081566,
+      "grad_norm": 0.023114413022994995,
+      "learning_rate": 7.948649428665522e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 251293648,
+      "step": 116330
+    },
+    {
+      "epoch": 18.977977161500817,
+      "grad_norm": 0.003399110399186611,
+      "learning_rate": 7.936012855458085e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 251304368,
+      "step": 116335
+    },
+    {
+      "epoch": 18.97879282218597,
+      "grad_norm": 0.01887008547782898,
+      "learning_rate": 7.923386254551523e-06,
+      "loss": 0.0142,
+      "num_input_tokens_seen": 251314992,
+      "step": 116340
+    },
+    {
+      "epoch": 18.979608482871125,
+      "grad_norm": 0.01707925647497177,
+      "learning_rate": 7.910769626201908e-06,
+      "loss": 0.0153,
+      "num_input_tokens_seen": 251325232,
+      "step": 116345
+    },
+    {
+      "epoch": 18.98042414355628,
+      "grad_norm": 0.00015691196313127875,
+      "learning_rate": 7.898162970664702e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 251335792,
+      "step": 116350
+    },
+    {
+      "epoch": 18.981239804241437,
+      "grad_norm": 0.004649725742638111,
+      "learning_rate": 7.88556628819559e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 251347120,
+      "step": 116355
+    },
+    {
+      "epoch": 18.982055464926592,
+      "grad_norm": 0.002170866122469306,
+      "learning_rate": 7.872979579049644e-06,
+      "loss": 0.0102,
+      "num_input_tokens_seen": 251357872,
+      "step": 116360
+    },
+    {
+      "epoch": 18.982871125611744,
+      "grad_norm": 0.0008006882853806019,
+      "learning_rate": 7.860402843482218e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 251368592,
+      "step": 116365
+    },
+    {
+      "epoch": 18.9836867862969,
+      "grad_norm": 0.023480042815208435,
+      "learning_rate": 7.847836081747939e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 251380112,
+      "step": 116370
+    },
+    {
+      "epoch": 18.984502446982056,
+      "grad_norm": 0.009893891401588917,
+      "learning_rate": 7.83527929410166e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 251392016,
+      "step": 116375
+    },
+    {
+      "epoch": 18.98531810766721,
+      "grad_norm": 0.004652200732380152,
+      "learning_rate": 7.822732480797734e-06,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 251402384,
+      "step": 116380
+    },
+    {
+      "epoch": 18.986133768352367,
+      "grad_norm": 0.0024909900967031717,
+      "learning_rate": 7.810195642090568e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 251413136,
+      "step": 116385
+    },
+    {
+      "epoch": 18.98694942903752,
+      "grad_norm": 0.0004570172750391066,
+      "learning_rate": 7.797668778234179e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 251424240,
+      "step": 116390
+    },
+    {
+      "epoch": 18.987765089722675,
+      "grad_norm": 0.0004380632599350065,
+      "learning_rate": 7.785151889482422e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 251435472,
+      "step": 116395
+    },
+    {
+      "epoch": 18.98858075040783,
+      "grad_norm": 0.0006351694464683533,
+      "learning_rate": 7.772644976088982e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 251446768,
+      "step": 116400
+    },
+    {
+      "epoch": 18.989396411092986,
+      "grad_norm": 0.014859266579151154,
+      "learning_rate": 7.760148038307324e-06,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 251457808,
+      "step": 116405
+    },
+    {
+      "epoch": 18.99021207177814,
+      "grad_norm": 0.004753198474645615,
+      "learning_rate": 7.747661076390688e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 251469936,
+      "step": 116410
+    },
+    {
+      "epoch": 18.991027732463294,
+      "grad_norm": 0.011917391791939735,
+      "learning_rate": 7.735184090592206e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 251480336,
+      "step": 116415
+    },
+    {
+      "epoch": 18.99184339314845,
+      "grad_norm": 0.0011199692962691188,
+      "learning_rate": 7.722717081164677e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 251490448,
+      "step": 116420
+    },
+    {
+      "epoch": 18.992659053833606,
+      "grad_norm": 0.0011024402920156717,
+      "learning_rate": 7.710260048360784e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 251501072,
+      "step": 116425
+    },
+    {
+      "epoch": 18.99347471451876,
+      "grad_norm": 0.006140429060906172,
+      "learning_rate": 7.697812992432996e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 251513648,
+      "step": 116430
+    },
+    {
+      "epoch": 18.994290375203914,
+      "grad_norm": 0.06212307885289192,
+      "learning_rate": 7.685375913633607e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 251523248,
+      "step": 116435
+    },
+    {
+      "epoch": 18.99510603588907,
+      "grad_norm": 0.02086738497018814,
+      "learning_rate": 7.67294881221453e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 251534256,
+      "step": 116440
+    },
+    {
+      "epoch": 18.995921696574225,
+      "grad_norm": 0.004113317932933569,
+      "learning_rate": 7.660531688427729e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 251543632,
+      "step": 116445
+    },
+    {
+      "epoch": 18.99673735725938,
+      "grad_norm": 0.0009120566537603736,
+      "learning_rate": 7.648124542524892e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 251554128,
+      "step": 116450
+    },
+    {
+      "epoch": 18.997553017944536,
+      "grad_norm": 0.06423819810152054,
+      "learning_rate": 7.635727374757318e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 251563728,
+      "step": 116455
+    },
+    {
+      "epoch": 18.99836867862969,
+      "grad_norm": 0.00021028223272878677,
+      "learning_rate": 7.623340185376415e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 251575088,
+      "step": 116460
+    },
+    {
+      "epoch": 18.999184339314844,
+      "grad_norm": 0.021248627454042435,
+      "learning_rate": 7.6109629746330955e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 251585328,
+      "step": 116465
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.0254563819617033,
+      "learning_rate": 7.5985957427782695e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 251594480,
+      "step": 116470
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.3440645635128021,
+      "eval_runtime": 103.9658,
+      "eval_samples_per_second": 26.211,
+      "eval_steps_per_second": 6.56,
+      "num_input_tokens_seen": 251594480,
+      "step": 116470
+    },
+    {
+      "epoch": 19.000815660685156,
+      "grad_norm": 0.001239095930941403,
+      "learning_rate": 7.5862384900625135e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 251605456,
+      "step": 116475
+    },
+    {
+      "epoch": 19.00163132137031,
+      "grad_norm": 0.0003935934801120311,
+      "learning_rate": 7.573891216736406e-06,
+      "loss": 0.0265,
+      "num_input_tokens_seen": 251616656,
+      "step": 116480
+    },
+    {
+      "epoch": 19.002446982055464,
+      "grad_norm": 0.0005455015343613923,
+      "learning_rate": 7.561553923049969e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 251627472,
+      "step": 116485
+    },
+    {
+      "epoch": 19.00326264274062,
+      "grad_norm": 0.00020809544366784394,
+      "learning_rate": 7.549226609253446e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 251638288,
+      "step": 116490
+    },
+    {
+      "epoch": 19.004078303425775,
+      "grad_norm": 0.12179408222436905,
+      "learning_rate": 7.536909275596471e-06,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 251649104,
+      "step": 116495
+    },
+    {
+      "epoch": 19.00489396411093,
+      "grad_norm": 0.0023868621792644262,
+      "learning_rate": 7.524601922328844e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 251659568,
+      "step": 116500
+    },
+    {
+      "epoch": 19.005709624796086,
+      "grad_norm": 0.001443555229343474,
+      "learning_rate": 7.512304549699811e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 251670416,
+      "step": 116505
+    },
+    {
+      "epoch": 19.00652528548124,
+      "grad_norm": 0.05254826694726944,
+      "learning_rate": 7.500017157958838e-06,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 251682224,
+      "step": 116510
+    },
+    {
+      "epoch": 19.007340946166394,
+      "grad_norm": 0.008038941770792007,
+      "learning_rate": 7.487739747354672e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 251693072,
+      "step": 116515
+    },
+    {
+      "epoch": 19.00815660685155,
+      "grad_norm": 0.0005029493477195501,
+      "learning_rate": 7.475472318136334e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 251703728,
+      "step": 116520
+    },
+    {
+      "epoch": 19.008972267536706,
+      "grad_norm": 0.025066372007131577,
+      "learning_rate": 7.4632148705522374e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 251715472,
+      "step": 116525
+    },
+    {
+      "epoch": 19.00978792822186,
+      "grad_norm": 0.012049240060150623,
+      "learning_rate": 7.450967404851017e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 251726032,
+      "step": 116530
+    },
+    {
+      "epoch": 19.010603588907014,
+      "grad_norm": 0.020044559612870216,
+      "learning_rate": 7.438729921280752e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 251736656,
+      "step": 116535
+    },
+    {
+      "epoch": 19.01141924959217,
+      "grad_norm": 0.007238124031573534,
+      "learning_rate": 7.42650242008952e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 251747216,
+      "step": 116540
+    },
+    {
+      "epoch": 19.012234910277325,
+      "grad_norm": 0.003442551242187619,
+      "learning_rate": 7.41428490152507e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 251757424,
+      "step": 116545
+    },
+    {
+      "epoch": 19.01305057096248,
+      "grad_norm": 0.0030905790627002716,
+      "learning_rate": 7.402077365835036e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 251769072,
+      "step": 116550
+    },
+    {
+      "epoch": 19.013866231647636,
+      "grad_norm": 0.006709754001349211,
+      "learning_rate": 7.389879813266831e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 251780240,
+      "step": 116555
+    },
+    {
+      "epoch": 19.01468189233279,
+      "grad_norm": 0.00024487529299221933,
+      "learning_rate": 7.377692244067591e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 251791344,
+      "step": 116560
+    },
+    {
+      "epoch": 19.015497553017944,
+      "grad_norm": 0.002104366896674037,
+      "learning_rate": 7.36551465848434e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 251803216,
+      "step": 116565
+    },
+    {
+      "epoch": 19.0163132137031,
+      "grad_norm": 0.00022835972777102143,
+      "learning_rate": 7.353347056763937e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 251814864,
+      "step": 116570
+    },
+    {
+      "epoch": 19.017128874388256,
+      "grad_norm": 0.0004103815299458802,
+      "learning_rate": 7.341189439152907e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 251825680,
+      "step": 116575
+    },
+    {
+      "epoch": 19.017944535073408,
+      "grad_norm": 0.00012124201748520136,
+      "learning_rate": 7.329041805897551e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 251836016,
+      "step": 116580
+    },
+    {
+      "epoch": 19.018760195758563,
+      "grad_norm": 0.03281310573220253,
+      "learning_rate": 7.316904157244342e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 251847536,
+      "step": 116585
+    },
+    {
+      "epoch": 19.01957585644372,
+      "grad_norm": 0.0035343714989721775,
+      "learning_rate": 7.304776493438914e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 251859440,
+      "step": 116590
+    },
+    {
+      "epoch": 19.020391517128875,
+      "grad_norm": 0.0038738809525966644,
+      "learning_rate": 7.2926588147273484e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 251870352,
+      "step": 116595
+    },
+    {
+      "epoch": 19.02120717781403,
+      "grad_norm": 0.0016290287021547556,
+      "learning_rate": 7.280551121355005e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 251881584,
+      "step": 116600
+    },
+    {
+      "epoch": 19.022022838499183,
+      "grad_norm": 0.07534030079841614,
+      "learning_rate": 7.268453413567467e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 251891568,
+      "step": 116605
+    },
+    {
+      "epoch": 19.02283849918434,
+      "grad_norm": 0.5721881985664368,
+      "learning_rate": 7.256365691609645e-06,
+      "loss": 0.0873,
+      "num_input_tokens_seen": 251900272,
+      "step": 116610
+    },
+    {
+      "epoch": 19.023654159869494,
+      "grad_norm": 0.005474581383168697,
+      "learning_rate": 7.244287955726791e-06,
+      "loss": 0.1363,
+      "num_input_tokens_seen": 251911728,
+      "step": 116615
+    },
+    {
+      "epoch": 19.02446982055465,
+      "grad_norm": 0.0002741733333095908,
+      "learning_rate": 7.232220206163431e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 251922128,
+      "step": 116620
+    },
+    {
+      "epoch": 19.025285481239806,
+      "grad_norm": 0.008602812886238098,
+      "learning_rate": 7.220162443164369e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 251932400,
+      "step": 116625
+    },
+    {
+      "epoch": 19.026101141924958,
+      "grad_norm": 0.0025156764313578606,
+      "learning_rate": 7.2081146669737416e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 251942416,
+      "step": 116630
+    },
+    {
+      "epoch": 19.026916802610113,
+      "grad_norm": 0.0007300799479708076,
+      "learning_rate": 7.196076877835911e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 251954064,
+      "step": 116635
+    },
+    {
+      "epoch": 19.02773246329527,
+      "grad_norm": 0.0036786433774977922,
+      "learning_rate": 7.1840490759946805e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 251964848,
+      "step": 116640
+    },
+    {
+      "epoch": 19.028548123980425,
+      "grad_norm": 0.0011658791918307543,
+      "learning_rate": 7.172031261693967e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 251974736,
+      "step": 116645
+    },
+    {
+      "epoch": 19.02936378466558,
+      "grad_norm": 0.001465832581743598,
+      "learning_rate": 7.160023435177132e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 251987024,
+      "step": 116650
+    },
+    {
+      "epoch": 19.030179445350733,
+      "grad_norm": 0.00024204261717386544,
+      "learning_rate": 7.148025596687702e-06,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 251997648,
+      "step": 116655
+    },
+    {
+      "epoch": 19.03099510603589,
+      "grad_norm": 0.0005633268738165498,
+      "learning_rate": 7.136037746468704e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 252008784,
+      "step": 116660
+    },
+    {
+      "epoch": 19.031810766721044,
+      "grad_norm": 0.001010783831588924,
+      "learning_rate": 7.124059884763168e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 252018992,
+      "step": 116665
+    },
+    {
+      "epoch": 19.0326264274062,
+      "grad_norm": 0.008563019335269928,
+      "learning_rate": 7.112092011813842e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 252029328,
+      "step": 116670
+    },
+    {
+      "epoch": 19.033442088091356,
+      "grad_norm": 0.0015962064499035478,
+      "learning_rate": 7.1001341278632e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 252040144,
+      "step": 116675
+    },
+    {
+      "epoch": 19.034257748776508,
+      "grad_norm": 0.00032261203159578145,
+      "learning_rate": 7.08818623315366e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 252051472,
+      "step": 116680
+    },
+    {
+      "epoch": 19.035073409461663,
+      "grad_norm": 0.003594001056626439,
+      "learning_rate": 7.076248327927359e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 252062352,
+      "step": 116685
+    },
+    {
+      "epoch": 19.03588907014682,
+      "grad_norm": 0.005797537509351969,
+      "learning_rate": 7.064320412426162e-06,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 252073904,
+      "step": 116690
+    },
+    {
+      "epoch": 19.036704730831975,
+      "grad_norm": 0.0007113271858543158,
+      "learning_rate": 7.052402486891818e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 252085264,
+      "step": 116695
+    },
+    {
+      "epoch": 19.03752039151713,
+      "grad_norm": 0.0007374466513283551,
+      "learning_rate": 7.040494551565912e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 252096240,
+      "step": 116700
+    },
+    {
+      "epoch": 19.038336052202283,
+      "grad_norm": 0.009614666923880577,
+      "learning_rate": 7.028596606689808e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 252106320,
+      "step": 116705
+    },
+    {
+      "epoch": 19.03915171288744,
+      "grad_norm": 0.005013478919863701,
+      "learning_rate": 7.016708652504477e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 252117136,
+      "step": 116710
+    },
+    {
+      "epoch": 19.039967373572594,
+      "grad_norm": 0.00930885411798954,
+      "learning_rate": 7.004830689251007e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 252128464,
+      "step": 116715
+    },
+    {
+      "epoch": 19.04078303425775,
+      "grad_norm": 0.0016969816060736775,
+      "learning_rate": 6.992962717170038e-06,
+      "loss": 0.1444,
+      "num_input_tokens_seen": 252138576,
+      "step": 116720
+    },
+    {
+      "epoch": 19.041598694942905,
+      "grad_norm": 0.0009569272515363991,
+      "learning_rate": 6.981104736502042e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 252150448,
+      "step": 116725
+    },
+    {
+      "epoch": 19.042414355628058,
+      "grad_norm": 0.00043876888230443,
+      "learning_rate": 6.969256747487496e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 252161424,
+      "step": 116730
+    },
+    {
+      "epoch": 19.043230016313213,
+      "grad_norm": 0.5943044424057007,
+      "learning_rate": 6.957418750366318e-06,
+      "loss": 0.0351,
+      "num_input_tokens_seen": 252173424,
+      "step": 116735
+    },
+    {
+      "epoch": 19.04404567699837,
+      "grad_norm": 0.024856556206941605,
+      "learning_rate": 6.945590745378594e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 252184656,
+      "step": 116740
+    },
+    {
+      "epoch": 19.044861337683525,
+      "grad_norm": 0.03356698527932167,
+      "learning_rate": 6.9337727327639096e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 252196880,
+      "step": 116745
+    },
+    {
+      "epoch": 19.045676998368677,
+      "grad_norm": 0.31922638416290283,
+      "learning_rate": 6.921964712761853e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 252206704,
+      "step": 116750
+    },
+    {
+      "epoch": 19.046492659053833,
+      "grad_norm": 0.004116969183087349,
+      "learning_rate": 6.910166685611674e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 252216912,
+      "step": 116755
+    },
+    {
+      "epoch": 19.04730831973899,
+      "grad_norm": 0.001806379295885563,
+      "learning_rate": 6.898378651552517e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 252227984,
+      "step": 116760
+    },
+    {
+      "epoch": 19.048123980424144,
+      "grad_norm": 0.02706415392458439,
+      "learning_rate": 6.88660061082319e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 252238128,
+      "step": 116765
+    },
+    {
+      "epoch": 19.0489396411093,
+      "grad_norm": 0.0019197918009012938,
+      "learning_rate": 6.874832563662559e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 252247024,
+      "step": 116770
+    },
+    {
+      "epoch": 19.049755301794452,
+      "grad_norm": 0.01021169126033783,
+      "learning_rate": 6.863074510308931e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 252258608,
+      "step": 116775
+    },
+    {
+      "epoch": 19.050570962479608,
+      "grad_norm": 0.06623980402946472,
+      "learning_rate": 6.851326451000783e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 252269136,
+      "step": 116780
+    },
+    {
+      "epoch": 19.051386623164763,
+      "grad_norm": 0.005052113905549049,
+      "learning_rate": 6.839588385976036e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 252278928,
+      "step": 116785
+    },
+    {
+      "epoch": 19.05220228384992,
+      "grad_norm": 0.02421603351831436,
+      "learning_rate": 6.827860315472667e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 252289040,
+      "step": 116790
+    },
+    {
+      "epoch": 19.053017944535075,
+      "grad_norm": 0.0010228599421679974,
+      "learning_rate": 6.816142239728373e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 252297680,
+      "step": 116795
+    },
+    {
+      "epoch": 19.053833605220227,
+      "grad_norm": 0.013187268748879433,
+      "learning_rate": 6.804434158980577e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 252308176,
+      "step": 116800
+    },
+    {
+      "epoch": 19.054649265905383,
+      "grad_norm": 0.0018919931026175618,
+      "learning_rate": 6.792736073466587e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 252319024,
+      "step": 116805
+    },
+    {
+      "epoch": 19.05546492659054,
+      "grad_norm": 0.004553182981908321,
+      "learning_rate": 6.781047983423439e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 252329360,
+      "step": 116810
+    },
+    {
+      "epoch": 19.056280587275694,
+      "grad_norm": 0.005015052855014801,
+      "learning_rate": 6.769369889088106e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 252338800,
+      "step": 116815
+    },
+    {
+      "epoch": 19.05709624796085,
+      "grad_norm": 0.002011285861954093,
+      "learning_rate": 6.75770179069718e-06,
+      "loss": 0.003,
+      "num_input_tokens_seen": 252348848,
+      "step": 116820
+    },
+    {
+      "epoch": 19.057911908646002,
+      "grad_norm": 0.0005088383913971484,
+      "learning_rate": 6.746043688487136e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 252360048,
+      "step": 116825
+    },
+    {
+      "epoch": 19.058727569331158,
+      "grad_norm": 0.027116188779473305,
+      "learning_rate": 6.734395582694286e-06,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 252371472,
+      "step": 116830
+    },
+    {
+      "epoch": 19.059543230016313,
+      "grad_norm": 0.030280839651823044,
+      "learning_rate": 6.722757473554608e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 252381520,
+      "step": 116835
+    },
+    {
+      "epoch": 19.06035889070147,
+      "grad_norm": 0.004732145462185144,
+      "learning_rate": 6.71112936130408e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 252391536,
+      "step": 116840
+    },
+    {
+      "epoch": 19.061174551386625,
+      "grad_norm": 0.025895684957504272,
+      "learning_rate": 6.6995112461782355e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 252402416,
+      "step": 116845
+    },
+    {
+      "epoch": 19.061990212071777,
+      "grad_norm": 0.00530358636751771,
+      "learning_rate": 6.6879031284126646e-06,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 252413008,
+      "step": 116850
+    },
+    {
+      "epoch": 19.062805872756933,
+      "grad_norm": 0.0013073545414954424,
+      "learning_rate": 6.676305008242512e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 252424848,
+      "step": 116855
+    },
+    {
+      "epoch": 19.063621533442088,
+      "grad_norm": 0.00042659181053750217,
+      "learning_rate": 6.664716885902811e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 252435120,
+      "step": 116860
+    },
+    {
+      "epoch": 19.064437194127244,
+      "grad_norm": 0.001548528904095292,
+      "learning_rate": 6.653138761628541e-06,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 252446320,
+      "step": 116865
+    },
+    {
+      "epoch": 19.0652528548124,
+      "grad_norm": 0.04929887875914574,
+      "learning_rate": 6.641570635654182e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 252456944,
+      "step": 116870
+    },
+    {
+      "epoch": 19.06606851549755,
+      "grad_norm": 0.0002772485022433102,
+      "learning_rate": 6.630012508214322e-06,
+      "loss": 0.005,
+      "num_input_tokens_seen": 252466736,
+      "step": 116875
+    },
+    {
+      "epoch": 19.066884176182707,
+      "grad_norm": 0.00854497030377388,
+      "learning_rate": 6.618464379543166e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 252477328,
+      "step": 116880
+    },
+    {
+      "epoch": 19.067699836867863,
+      "grad_norm": 0.0005079619586467743,
+      "learning_rate": 6.6069262498746895e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 252487664,
+      "step": 116885
+    },
+    {
+      "epoch": 19.06851549755302,
+      "grad_norm": 0.003630138235166669,
+      "learning_rate": 6.595398119442764e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 252499248,
+      "step": 116890
+    },
+    {
+      "epoch": 19.069331158238175,
+      "grad_norm": 0.004067980218678713,
+      "learning_rate": 6.583879988481034e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 252509584,
+      "step": 116895
+    },
+    {
+      "epoch": 19.070146818923327,
+      "grad_norm": 0.0006684943800792098,
+      "learning_rate": 6.572371857222925e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 252520816,
+      "step": 116900
+    },
+    {
+      "epoch": 19.070962479608482,
+      "grad_norm": 0.00023432802117895335,
+      "learning_rate": 6.560873725901695e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 252532336,
+      "step": 116905
+    },
+    {
+      "epoch": 19.071778140293638,
+      "grad_norm": 0.002191467909142375,
+      "learning_rate": 6.5493855947502674e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 252543344,
+      "step": 116910
+    },
+    {
+      "epoch": 19.072593800978794,
+      "grad_norm": 0.014515231363475323,
+      "learning_rate": 6.537907464001569e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 252553968,
+      "step": 116915
+    },
+    {
+      "epoch": 19.07340946166395,
+      "grad_norm": 0.004022237379103899,
+      "learning_rate": 6.5264393338881345e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 252564368,
+      "step": 116920
+    },
+    {
+      "epoch": 19.0742251223491,
+      "grad_norm": 0.002793958643451333,
+      "learning_rate": 6.514981204642445e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 252576304,
+      "step": 116925
+    },
+    {
+      "epoch": 19.075040783034257,
+      "grad_norm": 0.08884984999895096,
+      "learning_rate": 6.503533076496704e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 252586864,
+      "step": 116930
+    },
+    {
+      "epoch": 19.075856443719413,
+      "grad_norm": 0.0009011936490423977,
+      "learning_rate": 6.492094949682892e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 252597360,
+      "step": 116935
+    },
+    {
+      "epoch": 19.07667210440457,
+      "grad_norm": 0.0028816265985369682,
+      "learning_rate": 6.480666824432879e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 252607888,
+      "step": 116940
+    },
+    {
+      "epoch": 19.07748776508972,
+      "grad_norm": 0.0019338749116286635,
+      "learning_rate": 6.469248700978148e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 252619056,
+      "step": 116945
+    },
+    {
+      "epoch": 19.078303425774877,
+      "grad_norm": 0.001564970356412232,
+      "learning_rate": 6.457840579550234e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 252629776,
+      "step": 116950
+    },
+    {
+      "epoch": 19.079119086460032,
+      "grad_norm": 0.0020377058535814285,
+      "learning_rate": 6.4464424603802865e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 252641008,
+      "step": 116955
+    },
+    {
+      "epoch": 19.079934747145188,
+      "grad_norm": 0.04820120707154274,
+      "learning_rate": 6.435054343699287e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 252651408,
+      "step": 116960
+    },
+    {
+      "epoch": 19.080750407830344,
+      "grad_norm": 0.01028536818921566,
+      "learning_rate": 6.423676229738051e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 252662160,
+      "step": 116965
+    },
+    {
+      "epoch": 19.081566068515496,
+      "grad_norm": 0.00021261714573483914,
+      "learning_rate": 6.412308118727117e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 252673456,
+      "step": 116970
+    },
+    {
+      "epoch": 19.08238172920065,
+      "grad_norm": 0.005654108710587025,
+      "learning_rate": 6.400950010896966e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 252686000,
+      "step": 116975
+    },
+    {
+      "epoch": 19.083197389885807,
+      "grad_norm": 0.001454255892895162,
+      "learning_rate": 6.389601906477693e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 252697776,
+      "step": 116980
+    },
+    {
+      "epoch": 19.084013050570963,
+      "grad_norm": 0.0011134854285046458,
+      "learning_rate": 6.378263805699391e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 252708272,
+      "step": 116985
+    },
+    {
+      "epoch": 19.08482871125612,
+      "grad_norm": 0.015325321815907955,
+      "learning_rate": 6.36693570879171e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 252718416,
+      "step": 116990
+    },
+    {
+      "epoch": 19.08564437194127,
+      "grad_norm": 0.0018553230911493301,
+      "learning_rate": 6.355617615984355e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 252729968,
+      "step": 116995
+    },
+    {
+      "epoch": 19.086460032626427,
+      "grad_norm": 0.001695129438303411,
+      "learning_rate": 6.344309527506587e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 252740400,
+      "step": 117000
+    },
+    {
+      "epoch": 19.087275693311582,
+      "grad_norm": 0.01279063243418932,
+      "learning_rate": 6.333011443587722e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 252750992,
+      "step": 117005
+    },
+    {
+      "epoch": 19.088091353996738,
+      "grad_norm": 0.0003366192686371505,
+      "learning_rate": 6.3217233644565216e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 252762224,
+      "step": 117010
+    },
+    {
+      "epoch": 19.088907014681894,
+      "grad_norm": 0.04421667009592056,
+      "learning_rate": 6.3104452903419704e-06,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 252773872,
+      "step": 117015
+    },
+    {
+      "epoch": 19.089722675367046,
+      "grad_norm": 0.0018370678881183267,
+      "learning_rate": 6.299177221472496e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 252783792,
+      "step": 117020
+    },
+    {
+      "epoch": 19.0905383360522,
+      "grad_norm": 0.07757820188999176,
+      "learning_rate": 6.287919158076472e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 252794320,
+      "step": 117025
+    },
+    {
+      "epoch": 19.091353996737357,
+      "grad_norm": 0.00017441553063690662,
+      "learning_rate": 6.2766711003821035e-06,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 252805552,
+      "step": 117030
+    },
+    {
+      "epoch": 19.092169657422513,
+      "grad_norm": 0.0007293216185644269,
+      "learning_rate": 6.265433048617375e-06,
+      "loss": 0.0707,
+      "num_input_tokens_seen": 252817648,
+      "step": 117035
+    },
+    {
+      "epoch": 19.09298531810767,
+      "grad_norm": 0.0004739946161862463,
+      "learning_rate": 6.254205003009938e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 252827408,
+      "step": 117040
+    },
+    {
+      "epoch": 19.09380097879282,
+      "grad_norm": 0.013173624873161316,
+      "learning_rate": 6.242986963787445e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 252838224,
+      "step": 117045
+    },
+    {
+      "epoch": 19.094616639477977,
+      "grad_norm": 0.0021853481885045767,
+      "learning_rate": 6.231778931177157e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 252849648,
+      "step": 117050
+    },
+    {
+      "epoch": 19.095432300163132,
+      "grad_norm": 0.0002483553544152528,
+      "learning_rate": 6.220580905406226e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 252860816,
+      "step": 117055
+    },
+    {
+      "epoch": 19.096247960848288,
+      "grad_norm": 0.006167882587760687,
+      "learning_rate": 6.209392886701692e-06,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 252871088,
+      "step": 117060
+    },
+    {
+      "epoch": 19.097063621533444,
+      "grad_norm": 0.013794321566820145,
+      "learning_rate": 6.198214875290209e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 252880816,
+      "step": 117065
+    },
+    {
+      "epoch": 19.097879282218596,
+      "grad_norm": 0.0014956948580220342,
+      "learning_rate": 6.187046871398316e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 252891472,
+      "step": 117070
+    },
+    {
+      "epoch": 19.09869494290375,
+      "grad_norm": 0.044382814317941666,
+      "learning_rate": 6.175888875252389e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 252902064,
+      "step": 117075
+    },
+    {
+      "epoch": 19.099510603588907,
+      "grad_norm": 0.003115827450528741,
+      "learning_rate": 6.1647408870785236e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 252912272,
+      "step": 117080
+    },
+    {
+      "epoch": 19.100326264274063,
+      "grad_norm": 0.02964218147099018,
+      "learning_rate": 6.1536029071025955e-06,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 252923664,
+      "step": 117085
+    },
+    {
+      "epoch": 19.10114192495922,
+      "grad_norm": 0.5666136741638184,
+      "learning_rate": 6.142474935550535e-06,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 252934128,
+      "step": 117090
+    },
+    {
+      "epoch": 19.10195758564437,
+      "grad_norm": 0.011689902283251286,
+      "learning_rate": 6.131356972647606e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 252944752,
+      "step": 117095
+    },
+    {
+      "epoch": 19.102773246329527,
+      "grad_norm": 0.0005122054717503488,
+      "learning_rate": 6.120249018619295e-06,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 252955152,
+      "step": 117100
+    },
+    {
+      "epoch": 19.103588907014682,
+      "grad_norm": 0.0004246353928465396,
+      "learning_rate": 6.109151073690644e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 252966928,
+      "step": 117105
+    },
+    {
+      "epoch": 19.104404567699838,
+      "grad_norm": 0.000601739389821887,
+      "learning_rate": 6.0980631380866405e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 252977040,
+      "step": 117110
+    },
+    {
+      "epoch": 19.10522022838499,
+      "grad_norm": 0.007016733754426241,
+      "learning_rate": 6.086985212031881e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 252988688,
+      "step": 117115
+    },
+    {
+      "epoch": 19.106035889070146,
+      "grad_norm": 0.0003089867241214961,
+      "learning_rate": 6.075917295750965e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 252999824,
+      "step": 117120
+    },
+    {
+      "epoch": 19.1068515497553,
+      "grad_norm": 0.0007841411279514432,
+      "learning_rate": 6.064859389468158e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 253010544,
+      "step": 117125
+    },
+    {
+      "epoch": 19.107667210440457,
+      "grad_norm": 0.006227858830243349,
+      "learning_rate": 6.053811493407613e-06,
+      "loss": 0.0294,
+      "num_input_tokens_seen": 253021456,
+      "step": 117130
+    },
+    {
+      "epoch": 19.108482871125613,
+      "grad_norm": 0.0027969330549240112,
+      "learning_rate": 6.04277360779315e-06,
+      "loss": 0.0867,
+      "num_input_tokens_seen": 253031632,
+      "step": 117135
+    },
+    {
+      "epoch": 19.109298531810765,
+      "grad_norm": 0.012334640137851238,
+      "learning_rate": 6.031745732848593e-06,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 253043088,
+      "step": 117140
+    },
+    {
+      "epoch": 19.11011419249592,
+      "grad_norm": 0.0017199370777234435,
+      "learning_rate": 6.02072786879726e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 253055152,
+      "step": 117145
+    },
+    {
+      "epoch": 19.110929853181077,
+      "grad_norm": 0.002734170528128743,
+      "learning_rate": 6.009720015862585e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 253065968,
+      "step": 117150
+    },
+    {
+      "epoch": 19.111745513866232,
+      "grad_norm": 0.01975974440574646,
+      "learning_rate": 5.9987221742675566e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 253078416,
+      "step": 117155
+    },
+    {
+      "epoch": 19.112561174551388,
+      "grad_norm": 0.003430173732340336,
+      "learning_rate": 5.987734344235107e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 253089456,
+      "step": 117160
+    },
+    {
+      "epoch": 19.11337683523654,
+      "grad_norm": 0.04491540789604187,
+      "learning_rate": 5.976756525987948e-06,
+      "loss": 0.003,
+      "num_input_tokens_seen": 253100880,
+      "step": 117165
+    },
+    {
+      "epoch": 19.114192495921696,
+      "grad_norm": 0.006507876794785261,
+      "learning_rate": 5.965788719748566e-06,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 253111280,
+      "step": 117170
+    },
+    {
+      "epoch": 19.11500815660685,
+      "grad_norm": 0.5028917789459229,
+      "learning_rate": 5.954830925739174e-06,
+      "loss": 0.0135,
+      "num_input_tokens_seen": 253121424,
+      "step": 117175
+    },
+    {
+      "epoch": 19.115823817292007,
+      "grad_norm": 0.004586064722388983,
+      "learning_rate": 5.943883144181872e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 253131920,
+      "step": 117180
+    },
+    {
+      "epoch": 19.116639477977163,
+      "grad_norm": 0.006693511735647917,
+      "learning_rate": 5.932945375298537e-06,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 253142416,
+      "step": 117185
+    },
+    {
+      "epoch": 19.117455138662315,
+      "grad_norm": 0.0018724793335422873,
+      "learning_rate": 5.922017619310826e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 253152048,
+      "step": 117190
+    },
+    {
+      "epoch": 19.11827079934747,
+      "grad_norm": 0.02574349008500576,
+      "learning_rate": 5.911099876440173e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 253162480,
+      "step": 117195
+    },
+    {
+      "epoch": 19.119086460032626,
+      "grad_norm": 0.024611355736851692,
+      "learning_rate": 5.900192146907957e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 253172304,
+      "step": 117200
+    },
+    {
+      "epoch": 19.119902120717782,
+      "grad_norm": 0.0015057043638080359,
+      "learning_rate": 5.889294430935111e-06,
+      "loss": 0.021,
+      "num_input_tokens_seen": 253182832,
+      "step": 117205
+    },
+    {
+      "epoch": 19.120717781402938,
+      "grad_norm": 0.01581161841750145,
+      "learning_rate": 5.8784067287424584e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 253193776,
+      "step": 117210
+    },
+    {
+      "epoch": 19.12153344208809,
+      "grad_norm": 0.0052831522189080715,
+      "learning_rate": 5.8675290405508785e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 253203792,
+      "step": 117215
+    },
+    {
+      "epoch": 19.122349102773246,
+      "grad_norm": 0.0007881993660703301,
+      "learning_rate": 5.856661366580584e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 253213776,
+      "step": 117220
+    },
+    {
+      "epoch": 19.1231647634584,
+      "grad_norm": 0.03156473860144615,
+      "learning_rate": 5.845803707051955e-06,
+      "loss": 0.0077,
+      "num_input_tokens_seen": 253223984,
+      "step": 117225
+    },
+    {
+      "epoch": 19.123980424143557,
+      "grad_norm": 0.0015464631142094731,
+      "learning_rate": 5.834956062184926e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 253233744,
+      "step": 117230
+    },
+    {
+      "epoch": 19.124796084828713,
+      "grad_norm": 0.0007315798429772258,
+      "learning_rate": 5.824118432199488e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 253243984,
+      "step": 117235
+    },
+    {
+      "epoch": 19.125611745513865,
+      "grad_norm": 0.000989689608104527,
+      "learning_rate": 5.813290817315131e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 253256176,
+      "step": 117240
+    },
+    {
+      "epoch": 19.12642740619902,
+      "grad_norm": 0.8543770909309387,
+      "learning_rate": 5.8024732177514585e-06,
+      "loss": 0.0732,
+      "num_input_tokens_seen": 253265616,
+      "step": 117245
+    },
+    {
+      "epoch": 19.127243066884176,
+      "grad_norm": 0.6602007150650024,
+      "learning_rate": 5.791665633727461e-06,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 253276688,
+      "step": 117250
+    },
+    {
+      "epoch": 19.128058727569332,
+      "grad_norm": 0.6810281872749329,
+      "learning_rate": 5.780868065462408e-06,
+      "loss": 0.0384,
+      "num_input_tokens_seen": 253287792,
+      "step": 117255
+    },
+    {
+      "epoch": 19.128874388254488,
+      "grad_norm": 0.0007883647922426462,
+      "learning_rate": 5.770080513174958e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 253298512,
+      "step": 117260
+    },
+    {
+      "epoch": 19.12969004893964,
+      "grad_norm": 0.002425673883408308,
+      "learning_rate": 5.75930297708388e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 253309424,
+      "step": 117265
+    },
+    {
+      "epoch": 19.130505709624796,
+      "grad_norm": 0.0005828720168210566,
+      "learning_rate": 5.748535457407444e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 253319696,
+      "step": 117270
+    },
+    {
+      "epoch": 19.13132137030995,
+      "grad_norm": 0.001128783798776567,
+      "learning_rate": 5.737777954364032e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 253330192,
+      "step": 117275
+    },
+    {
+      "epoch": 19.132137030995107,
+      "grad_norm": 0.0017047654837369919,
+      "learning_rate": 5.727030468171468e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 253341264,
+      "step": 117280
+    },
+    {
+      "epoch": 19.13295269168026,
+      "grad_norm": 0.049430977553129196,
+      "learning_rate": 5.71629299904769e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 253352368,
+      "step": 117285
+    },
+    {
+      "epoch": 19.133768352365415,
+      "grad_norm": 0.40919792652130127,
+      "learning_rate": 5.705565547210301e-06,
+      "loss": 0.0129,
+      "num_input_tokens_seen": 253364208,
+      "step": 117290
+    },
+    {
+      "epoch": 19.13458401305057,
+      "grad_norm": 0.001255987910553813,
+      "learning_rate": 5.694848112876683e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 253375440,
+      "step": 117295
+    },
+    {
+      "epoch": 19.135399673735726,
+      "grad_norm": 0.0008938516257330775,
+      "learning_rate": 5.684140696263995e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 253385360,
+      "step": 117300
+    },
+    {
+      "epoch": 19.136215334420882,
+      "grad_norm": 0.001965533709153533,
+      "learning_rate": 5.673443297589287e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 253396016,
+      "step": 117305
+    },
+    {
+      "epoch": 19.137030995106034,
+      "grad_norm": 0.03859832137823105,
+      "learning_rate": 5.662755917069384e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 253407152,
+      "step": 117310
+    },
+    {
+      "epoch": 19.13784665579119,
+      "grad_norm": 0.006483915261924267,
+      "learning_rate": 5.652078554920836e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 253417136,
+      "step": 117315
+    },
+    {
+      "epoch": 19.138662316476346,
+      "grad_norm": 0.0037106431555002928,
+      "learning_rate": 5.6414112113600254e-06,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 253427376,
+      "step": 117320
+    },
+    {
+      "epoch": 19.1394779771615,
+      "grad_norm": 0.00029239041032269597,
+      "learning_rate": 5.630753886603168e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 253437232,
+      "step": 117325
+    },
+    {
+      "epoch": 19.140293637846657,
+      "grad_norm": 0.007669747807085514,
+      "learning_rate": 5.6201065808662025e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 253448688,
+      "step": 117330
+    },
+    {
+      "epoch": 19.14110929853181,
+      "grad_norm": 0.004348631016910076,
+      "learning_rate": 5.609469294364955e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 253459248,
+      "step": 117335
+    },
+    {
+      "epoch": 19.141924959216965,
+      "grad_norm": 0.0015068600187078118,
+      "learning_rate": 5.598842027315032e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 253470960,
+      "step": 117340
+    },
+    {
+      "epoch": 19.14274061990212,
+      "grad_norm": 0.0020891670137643814,
+      "learning_rate": 5.588224779931761e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 253480528,
+      "step": 117345
+    },
+    {
+      "epoch": 19.143556280587276,
+      "grad_norm": 0.004071689676493406,
+      "learning_rate": 5.577617552430303e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 253491632,
+      "step": 117350
+    },
+    {
+      "epoch": 19.144371941272432,
+      "grad_norm": 0.0002320687344763428,
+      "learning_rate": 5.567020345025597e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 253502128,
+      "step": 117355
+    },
+    {
+      "epoch": 19.145187601957584,
+      "grad_norm": 0.5973049402236938,
+      "learning_rate": 5.556433157932528e-06,
+      "loss": 0.0255,
+      "num_input_tokens_seen": 253512880,
+      "step": 117360
+    },
+    {
+      "epoch": 19.14600326264274,
+      "grad_norm": 0.013899151235818863,
+      "learning_rate": 5.5458559913655335e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 253524656,
+      "step": 117365
+    },
+    {
+      "epoch": 19.146818923327896,
+      "grad_norm": 0.0036639608442783356,
+      "learning_rate": 5.5352888455390546e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 253535088,
+      "step": 117370
+    },
+    {
+      "epoch": 19.14763458401305,
+      "grad_norm": 0.00020154824596829712,
+      "learning_rate": 5.524731720667197e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 253545552,
+      "step": 117375
+    },
+    {
+      "epoch": 19.148450244698207,
+      "grad_norm": 0.0019946058746427298,
+      "learning_rate": 5.514184616964013e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 253556144,
+      "step": 117380
+    },
+    {
+      "epoch": 19.14926590538336,
+      "grad_norm": 0.0249673742800951,
+      "learning_rate": 5.503647534643108e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 253567920,
+      "step": 117385
+    },
+    {
+      "epoch": 19.150081566068515,
+      "grad_norm": 0.008728111162781715,
+      "learning_rate": 5.493120473918145e-06,
+      "loss": 0.0319,
+      "num_input_tokens_seen": 253579600,
+      "step": 117390
+    },
+    {
+      "epoch": 19.15089722675367,
+      "grad_norm": 0.0003968800010625273,
+      "learning_rate": 5.4826034350023426e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 253589008,
+      "step": 117395
+    },
+    {
+      "epoch": 19.151712887438826,
+      "grad_norm": 0.00017136444512289017,
+      "learning_rate": 5.472096418108974e-06,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 253598960,
+      "step": 117400
+    },
+    {
+      "epoch": 19.152528548123982,
+      "grad_norm": 0.004832593258470297,
+      "learning_rate": 5.461599423450924e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 253609360,
+      "step": 117405
+    },
+    {
+      "epoch": 19.153344208809134,
+      "grad_norm": 0.0034371260553598404,
+      "learning_rate": 5.451112451240914e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 253621616,
+      "step": 117410
+    },
+    {
+      "epoch": 19.15415986949429,
+      "grad_norm": 0.007875418290495872,
+      "learning_rate": 5.440635501691493e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 253632848,
+      "step": 117415
+    },
+    {
+      "epoch": 19.154975530179446,
+      "grad_norm": 0.036121610552072525,
+      "learning_rate": 5.4301685750149935e-06,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 253642800,
+      "step": 117420
+    },
+    {
+      "epoch": 19.1557911908646,
+      "grad_norm": 0.0009760346729308367,
+      "learning_rate": 5.419711671423577e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 253654544,
+      "step": 117425
+    },
+    {
+      "epoch": 19.156606851549757,
+      "grad_norm": 0.002728499239310622,
+      "learning_rate": 5.409264791129076e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 253666000,
+      "step": 117430
+    },
+    {
+      "epoch": 19.15742251223491,
+      "grad_norm": 0.002243755152449012,
+      "learning_rate": 5.398827934343264e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 253675504,
+      "step": 117435
+    },
+    {
+      "epoch": 19.158238172920065,
+      "grad_norm": 0.07680145651102066,
+      "learning_rate": 5.38840110127764e-06,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 253686768,
+      "step": 117440
+    },
+    {
+      "epoch": 19.15905383360522,
+      "grad_norm": 0.0037976547610014677,
+      "learning_rate": 5.377984292143534e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 253697520,
+      "step": 117445
+    },
+    {
+      "epoch": 19.159869494290376,
+      "grad_norm": 0.0003936160064768046,
+      "learning_rate": 5.367577507152055e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 253705776,
+      "step": 117450
+    },
+    {
+      "epoch": 19.160685154975532,
+      "grad_norm": 0.03844565153121948,
+      "learning_rate": 5.35718074651409e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 253716752,
+      "step": 117455
+    },
+    {
+      "epoch": 19.161500815660684,
+      "grad_norm": 0.03414055332541466,
+      "learning_rate": 5.346794010440359e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 253727760,
+      "step": 117460
+    },
+    {
+      "epoch": 19.16231647634584,
+      "grad_norm": 0.001296155620366335,
+      "learning_rate": 5.336417299141361e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 253738992,
+      "step": 117465
+    },
+    {
+      "epoch": 19.163132137030995,
+      "grad_norm": 0.0953516960144043,
+      "learning_rate": 5.326050612827426e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 253749040,
+      "step": 117470
+    },
+    {
+      "epoch": 19.16394779771615,
+      "grad_norm": 0.00608966825529933,
+      "learning_rate": 5.315693951708555e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 253759856,
+      "step": 117475
+    },
+    {
+      "epoch": 19.164763458401303,
+      "grad_norm": 0.020399967208504677,
+      "learning_rate": 5.305347315994747e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 253769648,
+      "step": 117480
+    },
+    {
+      "epoch": 19.16557911908646,
+      "grad_norm": 0.004619190003722906,
+      "learning_rate": 5.295010705895609e-06,
+      "loss": 0.005,
+      "num_input_tokens_seen": 253780624,
+      "step": 117485
+    },
+    {
+      "epoch": 19.166394779771615,
+      "grad_norm": 0.0010359683074057102,
+      "learning_rate": 5.284684121620697e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 253791600,
+      "step": 117490
+    },
+    {
+      "epoch": 19.16721044045677,
+      "grad_norm": 0.0013771315570920706,
+      "learning_rate": 5.2743675633792345e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 253801584,
+      "step": 117495
+    },
+    {
+      "epoch": 19.168026101141926,
+      "grad_norm": 0.0016533228335902095,
+      "learning_rate": 5.264061031380274e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 253813456,
+      "step": 117500
+    },
+    {
+      "epoch": 19.16884176182708,
+      "grad_norm": 0.004072641488164663,
+      "learning_rate": 5.253764525832761e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 253824464,
+      "step": 117505
+    },
+    {
+      "epoch": 19.169657422512234,
+      "grad_norm": 0.028276223689317703,
+      "learning_rate": 5.243478046945305e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 253835344,
+      "step": 117510
+    },
+    {
+      "epoch": 19.17047308319739,
+      "grad_norm": 0.002490977058187127,
+      "learning_rate": 5.233201594926462e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 253845360,
+      "step": 117515
+    },
+    {
+      "epoch": 19.171288743882545,
+      "grad_norm": 0.018174799159169197,
+      "learning_rate": 5.222935169984455e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 253856880,
+      "step": 117520
+    },
+    {
+      "epoch": 19.1721044045677,
+      "grad_norm": 0.00024710557772777975,
+      "learning_rate": 5.212678772327284e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 253867088,
+      "step": 117525
+    },
+    {
+      "epoch": 19.172920065252853,
+      "grad_norm": 0.0025143155362457037,
+      "learning_rate": 5.202432402162893e-06,
+      "loss": 0.0562,
+      "num_input_tokens_seen": 253878608,
+      "step": 117530
+    },
+    {
+      "epoch": 19.17373572593801,
+      "grad_norm": 0.08865071088075638,
+      "learning_rate": 5.192196059698895e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 253886896,
+      "step": 117535
+    },
+    {
+      "epoch": 19.174551386623165,
+      "grad_norm": 0.0015286827692762017,
+      "learning_rate": 5.18196974514279e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 253898352,
+      "step": 117540
+    },
+    {
+      "epoch": 19.17536704730832,
+      "grad_norm": 0.0010672721546143293,
+      "learning_rate": 5.1717534587017445e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 253910448,
+      "step": 117545
+    },
+    {
+      "epoch": 19.176182707993476,
+      "grad_norm": 0.12418833374977112,
+      "learning_rate": 5.161547200582872e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 253921008,
+      "step": 117550
+    },
+    {
+      "epoch": 19.17699836867863,
+      "grad_norm": 0.00027891527861356735,
+      "learning_rate": 5.151350970993007e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 253931600,
+      "step": 117555
+    },
+    {
+      "epoch": 19.177814029363784,
+      "grad_norm": 0.00248112459667027,
+      "learning_rate": 5.141164770138707e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 253942512,
+      "step": 117560
+    },
+    {
+      "epoch": 19.17862969004894,
+      "grad_norm": 0.0024953444954007864,
+      "learning_rate": 5.130988598226527e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 253954032,
+      "step": 117565
+    },
+    {
+      "epoch": 19.179445350734095,
+      "grad_norm": 0.021138276904821396,
+      "learning_rate": 5.120822455462637e-06,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 253965136,
+      "step": 117570
+    },
+    {
+      "epoch": 19.18026101141925,
+      "grad_norm": 0.001367824850603938,
+      "learning_rate": 5.110666342053094e-06,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 253975408,
+      "step": 117575
+    },
+    {
+      "epoch": 19.181076672104403,
+      "grad_norm": 0.013493673875927925,
+      "learning_rate": 5.100520258203734e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 253984912,
+      "step": 117580
+    },
+    {
+      "epoch": 19.18189233278956,
+      "grad_norm": 0.02722967229783535,
+      "learning_rate": 5.090384204120113e-06,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 253996656,
+      "step": 117585
+    },
+    {
+      "epoch": 19.182707993474715,
+      "grad_norm": 0.001604323973879218,
+      "learning_rate": 5.08025818000768e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 254007312,
+      "step": 117590
+    },
+    {
+      "epoch": 19.18352365415987,
+      "grad_norm": 0.00195878348313272,
+      "learning_rate": 5.0701421860717135e-06,
+      "loss": 0.0145,
+      "num_input_tokens_seen": 254018928,
+      "step": 117595
+    },
+    {
+      "epoch": 19.184339314845026,
+      "grad_norm": 0.0005671089165844023,
+      "learning_rate": 5.060036222517161e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 254030160,
+      "step": 117600
+    },
+    {
+      "epoch": 19.18515497553018,
+      "grad_norm": 0.2616872191429138,
+      "learning_rate": 5.049940289548804e-06,
+      "loss": 0.0708,
+      "num_input_tokens_seen": 254040400,
+      "step": 117605
+    },
+    {
+      "epoch": 19.185970636215334,
+      "grad_norm": 0.00945583451539278,
+      "learning_rate": 5.039854387371368e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 254051472,
+      "step": 117610
+    },
+    {
+      "epoch": 19.18678629690049,
+      "grad_norm": 0.003492174670100212,
+      "learning_rate": 5.0297785161891315e-06,
+      "loss": 0.1164,
+      "num_input_tokens_seen": 254062192,
+      "step": 117615
+    },
+    {
+      "epoch": 19.187601957585645,
+      "grad_norm": 0.0006185670499689877,
+      "learning_rate": 5.019712676206323e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 254073360,
+      "step": 117620
+    },
+    {
+      "epoch": 19.1884176182708,
+      "grad_norm": 0.0019063102081418037,
+      "learning_rate": 5.009656867627055e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254084112,
+      "step": 117625
+    },
+    {
+      "epoch": 19.189233278955953,
+      "grad_norm": 0.0005886392900720239,
+      "learning_rate": 4.999611090654943e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254094672,
+      "step": 117630
+    },
+    {
+      "epoch": 19.19004893964111,
+      "grad_norm": 0.0002696272567845881,
+      "learning_rate": 4.989575345493713e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 254105616,
+      "step": 117635
+    },
+    {
+      "epoch": 19.190864600326265,
+      "grad_norm": 0.005746932700276375,
+      "learning_rate": 4.979549632346702e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254116240,
+      "step": 117640
+    },
+    {
+      "epoch": 19.19168026101142,
+      "grad_norm": 0.00037611470906995237,
+      "learning_rate": 4.969533951417082e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 254127088,
+      "step": 117645
+    },
+    {
+      "epoch": 19.192495921696572,
+      "grad_norm": 0.04209225997328758,
+      "learning_rate": 4.959528302907857e-06,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 254138096,
+      "step": 117650
+    },
+    {
+      "epoch": 19.193311582381728,
+      "grad_norm": 0.00023832359875086695,
+      "learning_rate": 4.949532687021751e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 254149552,
+      "step": 117655
+    },
+    {
+      "epoch": 19.194127243066884,
+      "grad_norm": 0.008501997217535973,
+      "learning_rate": 4.939547103961439e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 254159184,
+      "step": 117660
+    },
+    {
+      "epoch": 19.19494290375204,
+      "grad_norm": 0.009387916885316372,
+      "learning_rate": 4.929571553929202e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 254170800,
+      "step": 117665
+    },
+    {
+      "epoch": 19.195758564437195,
+      "grad_norm": 0.003329535946249962,
+      "learning_rate": 4.919606037127267e-06,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 254181584,
+      "step": 117670
+    },
+    {
+      "epoch": 19.196574225122347,
+      "grad_norm": 0.042027123272418976,
+      "learning_rate": 4.909650553757583e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 254191952,
+      "step": 117675
+    },
+    {
+      "epoch": 19.197389885807503,
+      "grad_norm": 0.0032699257135391235,
+      "learning_rate": 4.8997051040218235e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 254202864,
+      "step": 117680
+    },
+    {
+      "epoch": 19.19820554649266,
+      "grad_norm": 0.0007212890195660293,
+      "learning_rate": 4.889769688121715e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 254212848,
+      "step": 117685
+    },
+    {
+      "epoch": 19.199021207177815,
+      "grad_norm": 0.00019408235675655305,
+      "learning_rate": 4.87984430625843e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 254223408,
+      "step": 117690
+    },
+    {
+      "epoch": 19.19983686786297,
+      "grad_norm": 0.0005199372535571456,
+      "learning_rate": 4.869928958633252e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 254234288,
+      "step": 117695
+    },
+    {
+      "epoch": 19.200652528548122,
+      "grad_norm": 0.003805541666224599,
+      "learning_rate": 4.860023645447076e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 254245392,
+      "step": 117700
+    },
+    {
+      "epoch": 19.201468189233278,
+      "grad_norm": 0.03584432229399681,
+      "learning_rate": 4.85012836690063e-06,
+      "loss": 0.0896,
+      "num_input_tokens_seen": 254255728,
+      "step": 117705
+    },
+    {
+      "epoch": 19.202283849918434,
+      "grad_norm": 0.48327863216400146,
+      "learning_rate": 4.840243123194477e-06,
+      "loss": 0.1086,
+      "num_input_tokens_seen": 254265904,
+      "step": 117710
+    },
+    {
+      "epoch": 19.20309951060359,
+      "grad_norm": 0.011278538964688778,
+      "learning_rate": 4.83036791452901e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 254276944,
+      "step": 117715
+    },
+    {
+      "epoch": 19.203915171288745,
+      "grad_norm": 0.0011459417873993516,
+      "learning_rate": 4.820502741104238e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 254287760,
+      "step": 117720
+    },
+    {
+      "epoch": 19.204730831973897,
+      "grad_norm": 0.0020964513532817364,
+      "learning_rate": 4.810647603120166e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254299216,
+      "step": 117725
+    },
+    {
+      "epoch": 19.205546492659053,
+      "grad_norm": 0.00022387487115338445,
+      "learning_rate": 4.800802500776524e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 254309328,
+      "step": 117730
+    },
+    {
+      "epoch": 19.20636215334421,
+      "grad_norm": 0.009423289448022842,
+      "learning_rate": 4.790967434272819e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 254319280,
+      "step": 117735
+    },
+    {
+      "epoch": 19.207177814029365,
+      "grad_norm": 0.004757652059197426,
+      "learning_rate": 4.781142403808392e-06,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 254329584,
+      "step": 117740
+    },
+    {
+      "epoch": 19.20799347471452,
+      "grad_norm": 0.0001649027253733948,
+      "learning_rate": 4.771327409582305e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 254339888,
+      "step": 117745
+    },
+    {
+      "epoch": 19.208809135399672,
+      "grad_norm": 0.0006828425102867186,
+      "learning_rate": 4.761522451793565e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 254351280,
+      "step": 117750
+    },
+    {
+      "epoch": 19.209624796084828,
+      "grad_norm": 0.18796727061271667,
+      "learning_rate": 4.751727530640793e-06,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 254362640,
+      "step": 117755
+    },
+    {
+      "epoch": 19.210440456769984,
+      "grad_norm": 0.00041193258948624134,
+      "learning_rate": 4.74194264632255e-06,
+      "loss": 0.0378,
+      "num_input_tokens_seen": 254373136,
+      "step": 117760
+    },
+    {
+      "epoch": 19.21125611745514,
+      "grad_norm": 0.0002577627310529351,
+      "learning_rate": 4.732167799037068e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 254383792,
+      "step": 117765
+    },
+    {
+      "epoch": 19.212071778140295,
+      "grad_norm": 0.010403187945485115,
+      "learning_rate": 4.722402988982577e-06,
+      "loss": 0.1138,
+      "num_input_tokens_seen": 254393648,
+      "step": 117770
+    },
+    {
+      "epoch": 19.212887438825447,
+      "grad_norm": 0.005965354852378368,
+      "learning_rate": 4.7126482163568075e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 254403728,
+      "step": 117775
+    },
+    {
+      "epoch": 19.213703099510603,
+      "grad_norm": 0.0038343167398124933,
+      "learning_rate": 4.702903481357601e-06,
+      "loss": 0.0496,
+      "num_input_tokens_seen": 254414544,
+      "step": 117780
+    },
+    {
+      "epoch": 19.21451876019576,
+      "grad_norm": 0.002071639057248831,
+      "learning_rate": 4.693168784182356e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 254425872,
+      "step": 117785
+    },
+    {
+      "epoch": 19.215334420880914,
+      "grad_norm": 0.0016836397117003798,
+      "learning_rate": 4.6834441250284135e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254436464,
+      "step": 117790
+    },
+    {
+      "epoch": 19.21615008156607,
+      "grad_norm": 1.1679688692092896,
+      "learning_rate": 4.673729504092783e-06,
+      "loss": 0.0623,
+      "num_input_tokens_seen": 254446512,
+      "step": 117795
+    },
+    {
+      "epoch": 19.216965742251222,
+      "grad_norm": 0.00035125756403431296,
+      "learning_rate": 4.664024921572419e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 254458320,
+      "step": 117800
+    },
+    {
+      "epoch": 19.217781402936378,
+      "grad_norm": 0.002369961701333523,
+      "learning_rate": 4.654330377663996e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 254468624,
+      "step": 117805
+    },
+    {
+      "epoch": 19.218597063621534,
+      "grad_norm": 0.008754052221775055,
+      "learning_rate": 4.644645872563913e-06,
+      "loss": 0.003,
+      "num_input_tokens_seen": 254478480,
+      "step": 117810
+    },
+    {
+      "epoch": 19.21941272430669,
+      "grad_norm": 0.007495723199099302,
+      "learning_rate": 4.634971406468514e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 254490416,
+      "step": 117815
+    },
+    {
+      "epoch": 19.22022838499184,
+      "grad_norm": 0.05519472435116768,
+      "learning_rate": 4.625306979573807e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 254500720,
+      "step": 117820
+    },
+    {
+      "epoch": 19.221044045676997,
+      "grad_norm": 0.020412957295775414,
+      "learning_rate": 4.615652592075747e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 254512304,
+      "step": 117825
+    },
+    {
+      "epoch": 19.221859706362153,
+      "grad_norm": 0.0004900472704321146,
+      "learning_rate": 4.606008244169846e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 254522608,
+      "step": 117830
+    },
+    {
+      "epoch": 19.22267536704731,
+      "grad_norm": 0.36650630831718445,
+      "learning_rate": 4.596373936051667e-06,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 254533040,
+      "step": 117835
+    },
+    {
+      "epoch": 19.223491027732464,
+      "grad_norm": 0.01161511242389679,
+      "learning_rate": 4.586749667916446e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 254543728,
+      "step": 117840
+    },
+    {
+      "epoch": 19.224306688417617,
+      "grad_norm": 0.000983836012892425,
+      "learning_rate": 4.57713543995919e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 254553360,
+      "step": 117845
+    },
+    {
+      "epoch": 19.225122349102772,
+      "grad_norm": 0.05470266193151474,
+      "learning_rate": 4.567531252374801e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 254565328,
+      "step": 117850
+    },
+    {
+      "epoch": 19.225938009787928,
+      "grad_norm": 0.010444153100252151,
+      "learning_rate": 4.557937105357901e-06,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 254577552,
+      "step": 117855
+    },
+    {
+      "epoch": 19.226753670473084,
+      "grad_norm": 0.0179997980594635,
+      "learning_rate": 4.54835299910289e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 254589712,
+      "step": 117860
+    },
+    {
+      "epoch": 19.22756933115824,
+      "grad_norm": 0.0017869179137051105,
+      "learning_rate": 4.5387789338040555e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 254601744,
+      "step": 117865
+    },
+    {
+      "epoch": 19.22838499184339,
+      "grad_norm": 0.00039110815851017833,
+      "learning_rate": 4.529214909655355e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 254613904,
+      "step": 117870
+    },
+    {
+      "epoch": 19.229200652528547,
+      "grad_norm": 0.04959358274936676,
+      "learning_rate": 4.519660926850744e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 254625200,
+      "step": 117875
+    },
+    {
+      "epoch": 19.230016313213703,
+      "grad_norm": 0.011024784296751022,
+      "learning_rate": 4.510116985583679e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 254636560,
+      "step": 117880
+    },
+    {
+      "epoch": 19.23083197389886,
+      "grad_norm": 0.2488701045513153,
+      "learning_rate": 4.500583086047782e-06,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 254647440,
+      "step": 117885
+    },
+    {
+      "epoch": 19.231647634584014,
+      "grad_norm": 0.02225778065621853,
+      "learning_rate": 4.491059228436012e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 254657296,
+      "step": 117890
+    },
+    {
+      "epoch": 19.232463295269167,
+      "grad_norm": 0.931378960609436,
+      "learning_rate": 4.481545412941657e-06,
+      "loss": 0.126,
+      "num_input_tokens_seen": 254668432,
+      "step": 117895
+    },
+    {
+      "epoch": 19.233278955954322,
+      "grad_norm": 0.0007507778936997056,
+      "learning_rate": 4.472041639757285e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 254680208,
+      "step": 117900
+    },
+    {
+      "epoch": 19.234094616639478,
+      "grad_norm": 0.003547506872564554,
+      "learning_rate": 4.462547909075687e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 254690800,
+      "step": 117905
+    },
+    {
+      "epoch": 19.234910277324634,
+      "grad_norm": 0.00012341790716163814,
+      "learning_rate": 4.453064221089154e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254702576,
+      "step": 117910
+    },
+    {
+      "epoch": 19.23572593800979,
+      "grad_norm": 0.010750551708042622,
+      "learning_rate": 4.44359057598992e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 254714480,
+      "step": 117915
+    },
+    {
+      "epoch": 19.23654159869494,
+      "grad_norm": 0.012489181011915207,
+      "learning_rate": 4.434126973969998e-06,
+      "loss": 0.0216,
+      "num_input_tokens_seen": 254725456,
+      "step": 117920
+    },
+    {
+      "epoch": 19.237357259380097,
+      "grad_norm": 0.0013013400603085756,
+      "learning_rate": 4.424673415221181e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254736560,
+      "step": 117925
+    },
+    {
+      "epoch": 19.238172920065253,
+      "grad_norm": 0.015076026320457458,
+      "learning_rate": 4.41522989993498e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 254748624,
+      "step": 117930
+    },
+    {
+      "epoch": 19.23898858075041,
+      "grad_norm": 0.001261144527234137,
+      "learning_rate": 4.405796428302855e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 254759664,
+      "step": 117935
+    },
+    {
+      "epoch": 19.239804241435564,
+      "grad_norm": 0.001300856121815741,
+      "learning_rate": 4.396373000515986e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 254770352,
+      "step": 117940
+    },
+    {
+      "epoch": 19.240619902120716,
+      "grad_norm": 0.0004666333843488246,
+      "learning_rate": 4.3869596167653296e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 254780880,
+      "step": 117945
+    },
+    {
+      "epoch": 19.241435562805872,
+      "grad_norm": 0.018931837752461433,
+      "learning_rate": 4.377556277241679e-06,
+      "loss": 0.005,
+      "num_input_tokens_seen": 254793008,
+      "step": 117950
+    },
+    {
+      "epoch": 19.242251223491028,
+      "grad_norm": 0.0013247689930722117,
+      "learning_rate": 4.368162982135604e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 254803312,
+      "step": 117955
+    },
+    {
+      "epoch": 19.243066884176184,
+      "grad_norm": 0.06686493009328842,
+      "learning_rate": 4.3587797316373965e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 254814032,
+      "step": 117960
+    },
+    {
+      "epoch": 19.24388254486134,
+      "grad_norm": 0.0002263520291307941,
+      "learning_rate": 4.34940652593735e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 254824816,
+      "step": 117965
+    },
+    {
+      "epoch": 19.24469820554649,
+      "grad_norm": 0.007901106961071491,
+      "learning_rate": 4.34004336522531e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 254835952,
+      "step": 117970
+    },
+    {
+      "epoch": 19.245513866231647,
+      "grad_norm": 0.04995737969875336,
+      "learning_rate": 4.330690249691127e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 254845584,
+      "step": 117975
+    },
+    {
+      "epoch": 19.246329526916803,
+      "grad_norm": 0.0003960870089940727,
+      "learning_rate": 4.321347179524316e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 254856656,
+      "step": 117980
+    },
+    {
+      "epoch": 19.24714518760196,
+      "grad_norm": 0.0004914596793241799,
+      "learning_rate": 4.312014154914113e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 254866256,
+      "step": 117985
+    },
+    {
+      "epoch": 19.247960848287114,
+      "grad_norm": 0.003282026154920459,
+      "learning_rate": 4.302691176049922e-06,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 254875888,
+      "step": 117990
+    },
+    {
+      "epoch": 19.248776508972266,
+      "grad_norm": 0.00018431748321745545,
+      "learning_rate": 4.293378243120371e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 254886672,
+      "step": 117995
+    },
+    {
+      "epoch": 19.249592169657422,
+      "grad_norm": 0.0007251430070027709,
+      "learning_rate": 4.284075356314476e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 254898096,
+      "step": 118000
+    },
+    {
+      "epoch": 19.250407830342578,
+      "grad_norm": 0.011223108507692814,
+      "learning_rate": 4.2747825158205855e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 254908080,
+      "step": 118005
+    },
+    {
+      "epoch": 19.251223491027734,
+      "grad_norm": 0.0019064913503825665,
+      "learning_rate": 4.265499721827159e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 254918256,
+      "step": 118010
+    },
+    {
+      "epoch": 19.252039151712886,
+      "grad_norm": 0.00043139405897818506,
+      "learning_rate": 4.256226974522215e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 254928272,
+      "step": 118015
+    },
+    {
+      "epoch": 19.25285481239804,
+      "grad_norm": 0.0022782967425882816,
+      "learning_rate": 4.246964274093767e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 254940016,
+      "step": 118020
+    },
+    {
+      "epoch": 19.253670473083197,
+      "grad_norm": 0.014259060844779015,
+      "learning_rate": 4.237711620729501e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 254950800,
+      "step": 118025
+    },
+    {
+      "epoch": 19.254486133768353,
+      "grad_norm": 0.0016648249002173543,
+      "learning_rate": 4.228469014616931e-06,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 254962992,
+      "step": 118030
+    },
+    {
+      "epoch": 19.25530179445351,
+      "grad_norm": 0.010028230026364326,
+      "learning_rate": 4.219236455943298e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 254973392,
+      "step": 118035
+    },
+    {
+      "epoch": 19.25611745513866,
+      "grad_norm": 0.0038817732129245996,
+      "learning_rate": 4.210013944895841e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 254984368,
+      "step": 118040
+    },
+    {
+      "epoch": 19.256933115823816,
+      "grad_norm": 0.0060980357229709625,
+      "learning_rate": 4.2008014816613534e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 254995280,
+      "step": 118045
+    },
+    {
+      "epoch": 19.257748776508972,
+      "grad_norm": 0.0006417598924599588,
+      "learning_rate": 4.191599066426632e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 255006832,
+      "step": 118050
+    },
+    {
+      "epoch": 19.258564437194128,
+      "grad_norm": 0.00042296203901059926,
+      "learning_rate": 4.182406699378138e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 255017424,
+      "step": 118055
+    },
+    {
+      "epoch": 19.259380097879284,
+      "grad_norm": 0.00021238908811938018,
+      "learning_rate": 4.173224380702112e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 255027184,
+      "step": 118060
+    },
+    {
+      "epoch": 19.260195758564436,
+      "grad_norm": 0.0052239480428397655,
+      "learning_rate": 4.164052110584737e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 255036816,
+      "step": 118065
+    },
+    {
+      "epoch": 19.26101141924959,
+      "grad_norm": 0.00019243801943957806,
+      "learning_rate": 4.154889889211866e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 255047408,
+      "step": 118070
+    },
+    {
+      "epoch": 19.261827079934747,
+      "grad_norm": 0.001658376189880073,
+      "learning_rate": 4.145737716769182e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 255057168,
+      "step": 118075
+    },
+    {
+      "epoch": 19.262642740619903,
+      "grad_norm": 0.0030029506888240576,
+      "learning_rate": 4.136595593442149e-06,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 255068752,
+      "step": 118080
+    },
+    {
+      "epoch": 19.26345840130506,
+      "grad_norm": 0.00022957536566536874,
+      "learning_rate": 4.1274635194160086e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 255079760,
+      "step": 118085
+    },
+    {
+      "epoch": 19.26427406199021,
+      "grad_norm": 0.0007117181667126715,
+      "learning_rate": 4.118341494875944e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 255091088,
+      "step": 118090
+    },
+    {
+      "epoch": 19.265089722675366,
+      "grad_norm": 0.027176441624760628,
+      "learning_rate": 4.1092295200066966e-06,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 255101968,
+      "step": 118095
+    },
+    {
+      "epoch": 19.265905383360522,
+      "grad_norm": 0.07800480723381042,
+      "learning_rate": 4.100127594993064e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 255112976,
+      "step": 118100
+    },
+    {
+      "epoch": 19.266721044045678,
+      "grad_norm": 0.009774110279977322,
+      "learning_rate": 4.091035720019398e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 255122288,
+      "step": 118105
+    },
+    {
+      "epoch": 19.267536704730833,
+      "grad_norm": 0.0008097323589026928,
+      "learning_rate": 4.081953895269996e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 255132048,
+      "step": 118110
+    },
+    {
+      "epoch": 19.268352365415986,
+      "grad_norm": 0.0004488844715524465,
+      "learning_rate": 4.072882120928933e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255143152,
+      "step": 118115
+    },
+    {
+      "epoch": 19.26916802610114,
+      "grad_norm": 0.0007533471216447651,
+      "learning_rate": 4.063820397180007e-06,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 255155664,
+      "step": 118120
+    },
+    {
+      "epoch": 19.269983686786297,
+      "grad_norm": 0.04722285270690918,
+      "learning_rate": 4.054768724206958e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 255165872,
+      "step": 118125
+    },
+    {
+      "epoch": 19.270799347471453,
+      "grad_norm": 0.005354705266654491,
+      "learning_rate": 4.045727102193087e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 255176560,
+      "step": 118130
+    },
+    {
+      "epoch": 19.27161500815661,
+      "grad_norm": 0.0037820693105459213,
+      "learning_rate": 4.036695531321799e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 255188176,
+      "step": 118135
+    },
+    {
+      "epoch": 19.27243066884176,
+      "grad_norm": 0.0006078414153307676,
+      "learning_rate": 4.027674011776006e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 255198736,
+      "step": 118140
+    },
+    {
+      "epoch": 19.273246329526916,
+      "grad_norm": 0.0028573654126375914,
+      "learning_rate": 4.018662543738616e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255210384,
+      "step": 118145
+    },
+    {
+      "epoch": 19.274061990212072,
+      "grad_norm": 0.001126722665503621,
+      "learning_rate": 4.009661127392206e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 255220688,
+      "step": 118150
+    },
+    {
+      "epoch": 19.274877650897228,
+      "grad_norm": 0.010454751551151276,
+      "learning_rate": 4.00066976291924e-06,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 255230608,
+      "step": 118155
+    },
+    {
+      "epoch": 19.275693311582383,
+      "grad_norm": 0.023937121033668518,
+      "learning_rate": 3.9916884505019065e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 255240848,
+      "step": 118160
+    },
+    {
+      "epoch": 19.276508972267536,
+      "grad_norm": 0.0342971608042717,
+      "learning_rate": 3.982717190322227e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 255251344,
+      "step": 118165
+    },
+    {
+      "epoch": 19.27732463295269,
+      "grad_norm": 0.0011292777489870787,
+      "learning_rate": 3.973755982562055e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 255261904,
+      "step": 118170
+    },
+    {
+      "epoch": 19.278140293637847,
+      "grad_norm": 0.0016227407613769174,
+      "learning_rate": 3.964804827402913e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 255273008,
+      "step": 118175
+    },
+    {
+      "epoch": 19.278955954323003,
+      "grad_norm": 0.007771195378154516,
+      "learning_rate": 3.955863725026321e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 255283664,
+      "step": 118180
+    },
+    {
+      "epoch": 19.27977161500816,
+      "grad_norm": 0.0009318848024122417,
+      "learning_rate": 3.946932675613413e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 255293456,
+      "step": 118185
+    },
+    {
+      "epoch": 19.28058727569331,
+      "grad_norm": 0.0019882982596755028,
+      "learning_rate": 3.93801167934521e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 255304528,
+      "step": 118190
+    },
+    {
+      "epoch": 19.281402936378466,
+      "grad_norm": 0.018294580280780792,
+      "learning_rate": 3.929100736402513e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 255316368,
+      "step": 118195
+    },
+    {
+      "epoch": 19.282218597063622,
+      "grad_norm": 0.0001411344128428027,
+      "learning_rate": 3.920199846965844e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 255328432,
+      "step": 118200
+    },
+    {
+      "epoch": 19.283034257748778,
+      "grad_norm": 0.00018316751811653376,
+      "learning_rate": 3.911309011215725e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 255340080,
+      "step": 118205
+    },
+    {
+      "epoch": 19.28384991843393,
+      "grad_norm": 0.0008493968634866178,
+      "learning_rate": 3.902428229332233e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 255350512,
+      "step": 118210
+    },
+    {
+      "epoch": 19.284665579119086,
+      "grad_norm": 0.0007020276971161366,
+      "learning_rate": 3.8935575014953374e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 255362128,
+      "step": 118215
+    },
+    {
+      "epoch": 19.28548123980424,
+      "grad_norm": 0.002223310759291053,
+      "learning_rate": 3.884696827884893e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 255373200,
+      "step": 118220
+    },
+    {
+      "epoch": 19.286296900489397,
+      "grad_norm": 0.006080263294279575,
+      "learning_rate": 3.8758462086804225e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 255383696,
+      "step": 118225
+    },
+    {
+      "epoch": 19.287112561174553,
+      "grad_norm": 0.001246536965481937,
+      "learning_rate": 3.867005644061283e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 255394448,
+      "step": 118230
+    },
+    {
+      "epoch": 19.287928221859705,
+      "grad_norm": 0.012224650010466576,
+      "learning_rate": 3.8581751342067205e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 255404592,
+      "step": 118235
+    },
+    {
+      "epoch": 19.28874388254486,
+      "grad_norm": 0.09165532886981964,
+      "learning_rate": 3.849354679295591e-06,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 255414928,
+      "step": 118240
+    },
+    {
+      "epoch": 19.289559543230016,
+      "grad_norm": 0.011029092594981194,
+      "learning_rate": 3.840544279506753e-06,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 255426992,
+      "step": 118245
+    },
+    {
+      "epoch": 19.290375203915172,
+      "grad_norm": 0.00046244170516729355,
+      "learning_rate": 3.831743935018672e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 255436880,
+      "step": 118250
+    },
+    {
+      "epoch": 19.291190864600328,
+      "grad_norm": 0.8931393623352051,
+      "learning_rate": 3.822953646009708e-06,
+      "loss": 0.0574,
+      "num_input_tokens_seen": 255447024,
+      "step": 118255
+    },
+    {
+      "epoch": 19.29200652528548,
+      "grad_norm": 0.012058882042765617,
+      "learning_rate": 3.8141734126580505e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 255457264,
+      "step": 118260
+    },
+    {
+      "epoch": 19.292822185970635,
+      "grad_norm": 0.0006178324692882597,
+      "learning_rate": 3.805403235141669e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 255467408,
+      "step": 118265
+    },
+    {
+      "epoch": 19.29363784665579,
+      "grad_norm": 0.0005874041235074401,
+      "learning_rate": 3.7966431136381985e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 255478032,
+      "step": 118270
+    },
+    {
+      "epoch": 19.294453507340947,
+      "grad_norm": 0.0011451609898358583,
+      "learning_rate": 3.7878930483252195e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 255489328,
+      "step": 118275
+    },
+    {
+      "epoch": 19.295269168026103,
+      "grad_norm": 0.007449743337929249,
+      "learning_rate": 3.7791530393801456e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 255500272,
+      "step": 118280
+    },
+    {
+      "epoch": 19.296084828711255,
+      "grad_norm": 0.00993234384804964,
+      "learning_rate": 3.7704230869800015e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 255511920,
+      "step": 118285
+    },
+    {
+      "epoch": 19.29690048939641,
+      "grad_norm": 0.0009379129041917622,
+      "learning_rate": 3.7617031913017573e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 255521936,
+      "step": 118290
+    },
+    {
+      "epoch": 19.297716150081566,
+      "grad_norm": 0.0034401898737996817,
+      "learning_rate": 3.752993352522105e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 255532432,
+      "step": 118295
+    },
+    {
+      "epoch": 19.298531810766722,
+      "grad_norm": 0.025949660688638687,
+      "learning_rate": 3.7442935708176253e-06,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 255542960,
+      "step": 118300
+    },
+    {
+      "epoch": 19.299347471451878,
+      "grad_norm": 0.004528548568487167,
+      "learning_rate": 3.7356038463645105e-06,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 255553296,
+      "step": 118305
+    },
+    {
+      "epoch": 19.30016313213703,
+      "grad_norm": 0.012715993449091911,
+      "learning_rate": 3.7269241793390084e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 255562832,
+      "step": 118310
+    },
+    {
+      "epoch": 19.300978792822185,
+      "grad_norm": 0.0012263595126569271,
+      "learning_rate": 3.7182545699169236e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255571888,
+      "step": 118315
+    },
+    {
+      "epoch": 19.30179445350734,
+      "grad_norm": 0.011231029406189919,
+      "learning_rate": 3.7095950182739478e-06,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 255583408,
+      "step": 118320
+    },
+    {
+      "epoch": 19.302610114192497,
+      "grad_norm": 0.001041249604895711,
+      "learning_rate": 3.700945524585664e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 255594608,
+      "step": 118325
+    },
+    {
+      "epoch": 19.303425774877653,
+      "grad_norm": 0.00013112963642925024,
+      "learning_rate": 3.6923060890273195e-06,
+      "loss": 0.0187,
+      "num_input_tokens_seen": 255605296,
+      "step": 118330
+    },
+    {
+      "epoch": 19.304241435562805,
+      "grad_norm": 0.0004950486472807825,
+      "learning_rate": 3.683676711773998e-06,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 255615120,
+      "step": 118335
+    },
+    {
+      "epoch": 19.30505709624796,
+      "grad_norm": 0.018098052591085434,
+      "learning_rate": 3.6750573930005583e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 255626160,
+      "step": 118340
+    },
+    {
+      "epoch": 19.305872756933116,
+      "grad_norm": 0.0003636969195213169,
+      "learning_rate": 3.66644813288175e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 255637488,
+      "step": 118345
+    },
+    {
+      "epoch": 19.306688417618272,
+      "grad_norm": 0.00021313635807018727,
+      "learning_rate": 3.6578489315919893e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 255648272,
+      "step": 118350
+    },
+    {
+      "epoch": 19.307504078303428,
+      "grad_norm": 0.07795961946249008,
+      "learning_rate": 3.6492597893056367e-06,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 255659632,
+      "step": 118355
+    },
+    {
+      "epoch": 19.30831973898858,
+      "grad_norm": 0.001691961195319891,
+      "learning_rate": 3.6406807061966085e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255671504,
+      "step": 118360
+    },
+    {
+      "epoch": 19.309135399673735,
+      "grad_norm": 0.021926045417785645,
+      "learning_rate": 3.6321116824388767e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 255683152,
+      "step": 118365
+    },
+    {
+      "epoch": 19.30995106035889,
+      "grad_norm": 0.0014312977436929941,
+      "learning_rate": 3.6235527182061912e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 255695280,
+      "step": 118370
+    },
+    {
+      "epoch": 19.310766721044047,
+      "grad_norm": 0.0011881274404004216,
+      "learning_rate": 3.615003813671802e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255706320,
+      "step": 118375
+    },
+    {
+      "epoch": 19.3115823817292,
+      "grad_norm": 0.002549724653363228,
+      "learning_rate": 3.6064649690091268e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 255717744,
+      "step": 118380
+    },
+    {
+      "epoch": 19.312398042414355,
+      "grad_norm": 0.027324769645929337,
+      "learning_rate": 3.5979361843910817e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 255727344,
+      "step": 118385
+    },
+    {
+      "epoch": 19.31321370309951,
+      "grad_norm": 0.24201883375644684,
+      "learning_rate": 3.589417459990696e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 255737520,
+      "step": 118390
+    },
+    {
+      "epoch": 19.314029363784666,
+      "grad_norm": 0.04044476896524429,
+      "learning_rate": 3.580908795980442e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 255747920,
+      "step": 118395
+    },
+    {
+      "epoch": 19.31484502446982,
+      "grad_norm": 0.05046987533569336,
+      "learning_rate": 3.572410192532849e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 255758896,
+      "step": 118400
+    },
+    {
+      "epoch": 19.315660685154974,
+      "grad_norm": 0.0012489468790590763,
+      "learning_rate": 3.563921649820112e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255769392,
+      "step": 118405
+    },
+    {
+      "epoch": 19.31647634584013,
+      "grad_norm": 0.041108161211013794,
+      "learning_rate": 3.555443168014261e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 255779440,
+      "step": 118410
+    },
+    {
+      "epoch": 19.317292006525285,
+      "grad_norm": 0.3899226784706116,
+      "learning_rate": 3.5469747472871574e-06,
+      "loss": 0.0115,
+      "num_input_tokens_seen": 255790800,
+      "step": 118415
+    },
+    {
+      "epoch": 19.31810766721044,
+      "grad_norm": 0.0016491117421537638,
+      "learning_rate": 3.5385163878103864e-06,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 255801296,
+      "step": 118420
+    },
+    {
+      "epoch": 19.318923327895597,
+      "grad_norm": 0.001680854824371636,
+      "learning_rate": 3.5300680897554226e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 255812400,
+      "step": 118425
+    },
+    {
+      "epoch": 19.31973898858075,
+      "grad_norm": 0.08602673560380936,
+      "learning_rate": 3.5216298532934068e-06,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 255822992,
+      "step": 118430
+    },
+    {
+      "epoch": 19.320554649265905,
+      "grad_norm": 0.0004549971781671047,
+      "learning_rate": 3.5132016785954235e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 255833616,
+      "step": 118435
+    },
+    {
+      "epoch": 19.32137030995106,
+      "grad_norm": 0.00023607736511621624,
+      "learning_rate": 3.504783565832226e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 255845008,
+      "step": 118440
+    },
+    {
+      "epoch": 19.322185970636216,
+      "grad_norm": 0.009514588862657547,
+      "learning_rate": 3.496375515174455e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 255855440,
+      "step": 118445
+    },
+    {
+      "epoch": 19.32300163132137,
+      "grad_norm": 0.009080817922949791,
+      "learning_rate": 3.4879775267925297e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 255866608,
+      "step": 118450
+    },
+    {
+      "epoch": 19.323817292006524,
+      "grad_norm": 0.04134466499090195,
+      "learning_rate": 3.4795896008565363e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 255878416,
+      "step": 118455
+    },
+    {
+      "epoch": 19.32463295269168,
+      "grad_norm": 0.019892286509275436,
+      "learning_rate": 3.4712117375365615e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 255888848,
+      "step": 118460
+    },
+    {
+      "epoch": 19.325448613376835,
+      "grad_norm": 0.0010795299895107746,
+      "learning_rate": 3.4628439370024133e-06,
+      "loss": 0.0858,
+      "num_input_tokens_seen": 255899312,
+      "step": 118465
+    },
+    {
+      "epoch": 19.32626427406199,
+      "grad_norm": 0.0002479618415236473,
+      "learning_rate": 3.454486199423568e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 255910640,
+      "step": 118470
+    },
+    {
+      "epoch": 19.327079934747147,
+      "grad_norm": 0.001029806793667376,
+      "learning_rate": 3.4461385249695e-06,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 255921840,
+      "step": 118475
+    },
+    {
+      "epoch": 19.3278955954323,
+      "grad_norm": 0.005694256164133549,
+      "learning_rate": 3.4378009138093524e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 255931472,
+      "step": 118480
+    },
+    {
+      "epoch": 19.328711256117455,
+      "grad_norm": 0.031680673360824585,
+      "learning_rate": 3.429473366112157e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 255941360,
+      "step": 118485
+    },
+    {
+      "epoch": 19.32952691680261,
+      "grad_norm": 0.0053010135889053345,
+      "learning_rate": 3.421155882046556e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255951632,
+      "step": 118490
+    },
+    {
+      "epoch": 19.330342577487766,
+      "grad_norm": 0.002608070382848382,
+      "learning_rate": 3.4128484617812482e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 255961584,
+      "step": 118495
+    },
+    {
+      "epoch": 19.33115823817292,
+      "grad_norm": 0.0017077375669032335,
+      "learning_rate": 3.404551105484488e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 255971248,
+      "step": 118500
+    },
+    {
+      "epoch": 19.331973898858074,
+      "grad_norm": 0.03870732709765434,
+      "learning_rate": 3.3962638133245296e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 255982384,
+      "step": 118505
+    },
+    {
+      "epoch": 19.33278955954323,
+      "grad_norm": 0.00011174618703080341,
+      "learning_rate": 3.3879865854691825e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 255992976,
+      "step": 118510
+    },
+    {
+      "epoch": 19.333605220228385,
+      "grad_norm": 0.012585737742483616,
+      "learning_rate": 3.3797194220863694e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 256004080,
+      "step": 118515
+    },
+    {
+      "epoch": 19.33442088091354,
+      "grad_norm": 0.002018422121182084,
+      "learning_rate": 3.371462323343455e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256015184,
+      "step": 118520
+    },
+    {
+      "epoch": 19.335236541598697,
+      "grad_norm": 0.07069176435470581,
+      "learning_rate": 3.3632152894079727e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 256026192,
+      "step": 118525
+    },
+    {
+      "epoch": 19.33605220228385,
+      "grad_norm": 0.006027981173247099,
+      "learning_rate": 3.3549783204469e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 256036496,
+      "step": 118530
+    },
+    {
+      "epoch": 19.336867862969005,
+      "grad_norm": 0.0005176325212232769,
+      "learning_rate": 3.3467514166272696e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 256046992,
+      "step": 118535
+    },
+    {
+      "epoch": 19.33768352365416,
+      "grad_norm": 0.05079817399382591,
+      "learning_rate": 3.338534578115726e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 256056176,
+      "step": 118540
+    },
+    {
+      "epoch": 19.338499184339316,
+      "grad_norm": 0.015587205067276955,
+      "learning_rate": 3.3303278050789143e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 256066768,
+      "step": 118545
+    },
+    {
+      "epoch": 19.339314845024468,
+      "grad_norm": 0.07898391783237457,
+      "learning_rate": 3.3221310976829787e-06,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 256076880,
+      "step": 118550
+    },
+    {
+      "epoch": 19.340130505709624,
+      "grad_norm": 0.003357226261869073,
+      "learning_rate": 3.313944456094231e-06,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 256088528,
+      "step": 118555
+    },
+    {
+      "epoch": 19.34094616639478,
+      "grad_norm": 0.0023918889928609133,
+      "learning_rate": 3.3057678804784276e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 256098800,
+      "step": 118560
+    },
+    {
+      "epoch": 19.341761827079935,
+      "grad_norm": 0.015937641263008118,
+      "learning_rate": 3.29760137100138e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256109488,
+      "step": 118565
+    },
+    {
+      "epoch": 19.34257748776509,
+      "grad_norm": 0.08707918971776962,
+      "learning_rate": 3.289444927828511e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 256119600,
+      "step": 118570
+    },
+    {
+      "epoch": 19.343393148450243,
+      "grad_norm": 0.0558028407394886,
+      "learning_rate": 3.281298551125189e-06,
+      "loss": 0.003,
+      "num_input_tokens_seen": 256130096,
+      "step": 118575
+    },
+    {
+      "epoch": 19.3442088091354,
+      "grad_norm": 0.0014487484004348516,
+      "learning_rate": 3.2731622410565043e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 256141264,
+      "step": 118580
+    },
+    {
+      "epoch": 19.345024469820554,
+      "grad_norm": 0.0015977158909663558,
+      "learning_rate": 3.265035997787269e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 256151120,
+      "step": 118585
+    },
+    {
+      "epoch": 19.34584013050571,
+      "grad_norm": 0.0008332631550729275,
+      "learning_rate": 3.256919821482296e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 256162448,
+      "step": 118590
+    },
+    {
+      "epoch": 19.346655791190866,
+      "grad_norm": 0.002260663080960512,
+      "learning_rate": 3.2488137123059537e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 256173296,
+      "step": 118595
+    },
+    {
+      "epoch": 19.347471451876018,
+      "grad_norm": 0.02533086948096752,
+      "learning_rate": 3.2407176704226102e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 256184080,
+      "step": 118600
+    },
+    {
+      "epoch": 19.348287112561174,
+      "grad_norm": 0.005144801922142506,
+      "learning_rate": 3.2326316959962463e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 256195184,
+      "step": 118605
+    },
+    {
+      "epoch": 19.34910277324633,
+      "grad_norm": 0.012791904620826244,
+      "learning_rate": 3.224555789190897e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 256206640,
+      "step": 118610
+    },
+    {
+      "epoch": 19.349918433931485,
+      "grad_norm": 0.00018290229490958154,
+      "learning_rate": 3.216489950170043e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 256218288,
+      "step": 118615
+    },
+    {
+      "epoch": 19.35073409461664,
+      "grad_norm": 0.00029546156292781234,
+      "learning_rate": 3.208434179097275e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 256229904,
+      "step": 118620
+    },
+    {
+      "epoch": 19.351549755301793,
+      "grad_norm": 0.0011031778994947672,
+      "learning_rate": 3.200388476135796e-06,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 256239152,
+      "step": 118625
+    },
+    {
+      "epoch": 19.35236541598695,
+      "grad_norm": 0.013649040833115578,
+      "learning_rate": 3.1923528414487535e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 256250288,
+      "step": 118630
+    },
+    {
+      "epoch": 19.353181076672104,
+      "grad_norm": 0.0035270475782454014,
+      "learning_rate": 3.184327275198795e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 256260880,
+      "step": 118635
+    },
+    {
+      "epoch": 19.35399673735726,
+      "grad_norm": 0.2129955291748047,
+      "learning_rate": 3.1763117775487903e-06,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 256272240,
+      "step": 118640
+    },
+    {
+      "epoch": 19.354812398042416,
+      "grad_norm": 0.0009809770854189992,
+      "learning_rate": 3.168306348661054e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 256282704,
+      "step": 118645
+    },
+    {
+      "epoch": 19.355628058727568,
+      "grad_norm": 0.005014079622924328,
+      "learning_rate": 3.160310988697901e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 256292784,
+      "step": 118650
+    },
+    {
+      "epoch": 19.356443719412724,
+      "grad_norm": 0.0024872953072190285,
+      "learning_rate": 3.152325697821312e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 256302576,
+      "step": 118655
+    },
+    {
+      "epoch": 19.35725938009788,
+      "grad_norm": 0.0008488795720040798,
+      "learning_rate": 3.1443504761931585e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256313456,
+      "step": 118660
+    },
+    {
+      "epoch": 19.358075040783035,
+      "grad_norm": 0.005055803805589676,
+      "learning_rate": 3.1363853239750327e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 256323216,
+      "step": 118665
+    },
+    {
+      "epoch": 19.35889070146819,
+      "grad_norm": 0.005085945129394531,
+      "learning_rate": 3.1284302413283615e-06,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 256333616,
+      "step": 118670
+    },
+    {
+      "epoch": 19.359706362153343,
+      "grad_norm": 0.03696412593126297,
+      "learning_rate": 3.1204852284143493e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 256343760,
+      "step": 118675
+    },
+    {
+      "epoch": 19.3605220228385,
+      "grad_norm": 0.0008415200281888247,
+      "learning_rate": 3.1125502853941444e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 256355344,
+      "step": 118680
+    },
+    {
+      "epoch": 19.361337683523654,
+      "grad_norm": 0.005204454530030489,
+      "learning_rate": 3.1046254124283413e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 256366032,
+      "step": 118685
+    },
+    {
+      "epoch": 19.36215334420881,
+      "grad_norm": 0.02970193885266781,
+      "learning_rate": 3.0967106096777e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 256376208,
+      "step": 118690
+    },
+    {
+      "epoch": 19.362969004893966,
+      "grad_norm": 0.0011499657994136214,
+      "learning_rate": 3.088805877302592e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 256387280,
+      "step": 118695
+    },
+    {
+      "epoch": 19.363784665579118,
+      "grad_norm": 0.0023238202556967735,
+      "learning_rate": 3.0809112154632226e-06,
+      "loss": 0.0195,
+      "num_input_tokens_seen": 256397648,
+      "step": 118700
+    },
+    {
+      "epoch": 19.364600326264274,
+      "grad_norm": 0.00012586277443915606,
+      "learning_rate": 3.073026624319575e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 256407472,
+      "step": 118705
+    },
+    {
+      "epoch": 19.36541598694943,
+      "grad_norm": 0.5267165899276733,
+      "learning_rate": 3.06515210403141e-06,
+      "loss": 0.0105,
+      "num_input_tokens_seen": 256418096,
+      "step": 118710
+    },
+    {
+      "epoch": 19.366231647634585,
+      "grad_norm": 0.00432355422526598,
+      "learning_rate": 3.0572876547583785e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256427568,
+      "step": 118715
+    },
+    {
+      "epoch": 19.36704730831974,
+      "grad_norm": 0.02034470997750759,
+      "learning_rate": 3.0494332766597967e-06,
+      "loss": 0.004,
+      "num_input_tokens_seen": 256438736,
+      "step": 118720
+    },
+    {
+      "epoch": 19.367862969004893,
+      "grad_norm": 0.00162877154070884,
+      "learning_rate": 3.0415889698949262e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 256448592,
+      "step": 118725
+    },
+    {
+      "epoch": 19.36867862969005,
+      "grad_norm": 0.007950716651976109,
+      "learning_rate": 3.0337547346226404e-06,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 256459472,
+      "step": 118730
+    },
+    {
+      "epoch": 19.369494290375204,
+      "grad_norm": 0.05686101317405701,
+      "learning_rate": 3.025930571001756e-06,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 256469296,
+      "step": 118735
+    },
+    {
+      "epoch": 19.37030995106036,
+      "grad_norm": 0.028149202466011047,
+      "learning_rate": 3.018116479190869e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 256479248,
+      "step": 118740
+    },
+    {
+      "epoch": 19.371125611745512,
+      "grad_norm": 0.0007396186701953411,
+      "learning_rate": 3.0103124593483522e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256491344,
+      "step": 118745
+    },
+    {
+      "epoch": 19.371941272430668,
+      "grad_norm": 0.00017671390378382057,
+      "learning_rate": 3.002518511632246e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 256501776,
+      "step": 118750
+    },
+    {
+      "epoch": 19.372756933115824,
+      "grad_norm": 0.024652238935232162,
+      "learning_rate": 2.9947346362006466e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 256512944,
+      "step": 118755
+    },
+    {
+      "epoch": 19.37357259380098,
+      "grad_norm": 0.0003830741043202579,
+      "learning_rate": 2.986960833211205e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256522064,
+      "step": 118760
+    },
+    {
+      "epoch": 19.374388254486135,
+      "grad_norm": 0.0011993915541097522,
+      "learning_rate": 2.9791971028215737e-06,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 256533456,
+      "step": 118765
+    },
+    {
+      "epoch": 19.375203915171287,
+      "grad_norm": 0.04528145119547844,
+      "learning_rate": 2.9714434451889595e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 256542896,
+      "step": 118770
+    },
+    {
+      "epoch": 19.376019575856443,
+      "grad_norm": 0.008095352910459042,
+      "learning_rate": 2.9636998604706255e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 256553264,
+      "step": 118775
+    },
+    {
+      "epoch": 19.3768352365416,
+      "grad_norm": 0.003776898607611656,
+      "learning_rate": 2.955966348823391e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 256563536,
+      "step": 118780
+    },
+    {
+      "epoch": 19.377650897226754,
+      "grad_norm": 0.06061271205544472,
+      "learning_rate": 2.948242910404131e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 256573808,
+      "step": 118785
+    },
+    {
+      "epoch": 19.37846655791191,
+      "grad_norm": 0.0016545297112315893,
+      "learning_rate": 2.9405295453692195e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 256584304,
+      "step": 118790
+    },
+    {
+      "epoch": 19.379282218597062,
+      "grad_norm": 0.002400145400315523,
+      "learning_rate": 2.9328262538750316e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 256595024,
+      "step": 118795
+    },
+    {
+      "epoch": 19.380097879282218,
+      "grad_norm": 0.061130374670028687,
+      "learning_rate": 2.9251330360777205e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 256605776,
+      "step": 118800
+    },
+    {
+      "epoch": 19.380913539967374,
+      "grad_norm": 0.0015816733939573169,
+      "learning_rate": 2.9174498921331616e-06,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 256615920,
+      "step": 118805
+    },
+    {
+      "epoch": 19.38172920065253,
+      "grad_norm": 0.07032934576272964,
+      "learning_rate": 2.909776822197063e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 256627504,
+      "step": 118810
+    },
+    {
+      "epoch": 19.382544861337685,
+      "grad_norm": 0.0010459988843649626,
+      "learning_rate": 2.902113826424968e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 256639856,
+      "step": 118815
+    },
+    {
+      "epoch": 19.383360522022837,
+      "grad_norm": 0.0010384476045146585,
+      "learning_rate": 2.8944609049721406e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 256650096,
+      "step": 118820
+    },
+    {
+      "epoch": 19.384176182707993,
+      "grad_norm": 0.0006806451710872352,
+      "learning_rate": 2.8868180579936787e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 256659760,
+      "step": 118825
+    },
+    {
+      "epoch": 19.38499184339315,
+      "grad_norm": 0.012895084917545319,
+      "learning_rate": 2.8791852856445143e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 256670512,
+      "step": 118830
+    },
+    {
+      "epoch": 19.385807504078304,
+      "grad_norm": 0.005823103711009026,
+      "learning_rate": 2.8715625880792463e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 256681744,
+      "step": 118835
+    },
+    {
+      "epoch": 19.38662316476346,
+      "grad_norm": 0.0037850309163331985,
+      "learning_rate": 2.8639499654524724e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 256692912,
+      "step": 118840
+    },
+    {
+      "epoch": 19.387438825448612,
+      "grad_norm": 0.02443789690732956,
+      "learning_rate": 2.856347417918348e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 256704400,
+      "step": 118845
+    },
+    {
+      "epoch": 19.388254486133768,
+      "grad_norm": 0.008325217291712761,
+      "learning_rate": 2.8487549456310824e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 256714704,
+      "step": 118850
+    },
+    {
+      "epoch": 19.389070146818923,
+      "grad_norm": 0.09903115034103394,
+      "learning_rate": 2.841172548744442e-06,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 256725488,
+      "step": 118855
+    },
+    {
+      "epoch": 19.38988580750408,
+      "grad_norm": 0.0006401181453838944,
+      "learning_rate": 2.8336002274121365e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 256735184,
+      "step": 118860
+    },
+    {
+      "epoch": 19.390701468189235,
+      "grad_norm": 0.0005234939744696021,
+      "learning_rate": 2.8260379817875993e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 256746160,
+      "step": 118865
+    },
+    {
+      "epoch": 19.391517128874387,
+      "grad_norm": 0.007503115572035313,
+      "learning_rate": 2.818485812024152e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 256757808,
+      "step": 118870
+    },
+    {
+      "epoch": 19.392332789559543,
+      "grad_norm": 0.00616914639249444,
+      "learning_rate": 2.810943718274783e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 256769296,
+      "step": 118875
+    },
+    {
+      "epoch": 19.3931484502447,
+      "grad_norm": 0.0006514721899293363,
+      "learning_rate": 2.8034117006924264e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 256780144,
+      "step": 118880
+    },
+    {
+      "epoch": 19.393964110929854,
+      "grad_norm": 0.030497943982481956,
+      "learning_rate": 2.795889759429626e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 256790832,
+      "step": 118885
+    },
+    {
+      "epoch": 19.39477977161501,
+      "grad_norm": 0.14161071181297302,
+      "learning_rate": 2.788377894638816e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 256801232,
+      "step": 118890
+    },
+    {
+      "epoch": 19.395595432300162,
+      "grad_norm": 0.008544592186808586,
+      "learning_rate": 2.7808761064723186e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 256812880,
+      "step": 118895
+    },
+    {
+      "epoch": 19.396411092985318,
+      "grad_norm": 0.13467442989349365,
+      "learning_rate": 2.773384395082179e-06,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 256823888,
+      "step": 118900
+    },
+    {
+      "epoch": 19.397226753670473,
+      "grad_norm": 0.006914534140378237,
+      "learning_rate": 2.765902760620165e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 256835600,
+      "step": 118905
+    },
+    {
+      "epoch": 19.39804241435563,
+      "grad_norm": 0.008217011578381062,
+      "learning_rate": 2.758431203237877e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 256845424,
+      "step": 118910
+    },
+    {
+      "epoch": 19.39885807504078,
+      "grad_norm": 0.005663623567670584,
+      "learning_rate": 2.7509697230868048e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256857168,
+      "step": 118915
+    },
+    {
+      "epoch": 19.399673735725937,
+      "grad_norm": 0.0005932076601311564,
+      "learning_rate": 2.7435183203181613e-06,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 256868496,
+      "step": 118920
+    },
+    {
+      "epoch": 19.400489396411093,
+      "grad_norm": 0.0005741248605772853,
+      "learning_rate": 2.7360769950828814e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 256878544,
+      "step": 118925
+    },
+    {
+      "epoch": 19.40130505709625,
+      "grad_norm": 0.001585560035891831,
+      "learning_rate": 2.728645747531844e-06,
+      "loss": 0.0164,
+      "num_input_tokens_seen": 256889264,
+      "step": 118930
+    },
+    {
+      "epoch": 19.402120717781404,
+      "grad_norm": 0.011332179419696331,
+      "learning_rate": 2.721224577815651e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 256901296,
+      "step": 118935
+    },
+    {
+      "epoch": 19.402936378466556,
+      "grad_norm": 0.010597261600196362,
+      "learning_rate": 2.713813486084682e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 256912048,
+      "step": 118940
+    },
+    {
+      "epoch": 19.403752039151712,
+      "grad_norm": 0.1503845602273941,
+      "learning_rate": 2.7064124724891505e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 256922960,
+      "step": 118945
+    },
+    {
+      "epoch": 19.404567699836868,
+      "grad_norm": 0.0053455098532140255,
+      "learning_rate": 2.6990215371789916e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 256932656,
+      "step": 118950
+    },
+    {
+      "epoch": 19.405383360522023,
+      "grad_norm": 0.03206378594040871,
+      "learning_rate": 2.691640680304086e-06,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 256941712,
+      "step": 118955
+    },
+    {
+      "epoch": 19.40619902120718,
+      "grad_norm": 0.0004055328026879579,
+      "learning_rate": 2.684269902013925e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 256952592,
+      "step": 118960
+    },
+    {
+      "epoch": 19.40701468189233,
+      "grad_norm": 0.0035495799966156483,
+      "learning_rate": 2.676909202457889e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 256963920,
+      "step": 118965
+    },
+    {
+      "epoch": 19.407830342577487,
+      "grad_norm": 0.0012541578616946936,
+      "learning_rate": 2.6695585817852476e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 256975312,
+      "step": 118970
+    },
+    {
+      "epoch": 19.408646003262643,
+      "grad_norm": 0.020598217844963074,
+      "learning_rate": 2.6622180401448815e-06,
+      "loss": 0.016,
+      "num_input_tokens_seen": 256984304,
+      "step": 118975
+    },
+    {
+      "epoch": 19.4094616639478,
+      "grad_norm": 0.0014313864521682262,
+      "learning_rate": 2.6548875776856163e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 256996624,
+      "step": 118980
+    },
+    {
+      "epoch": 19.410277324632954,
+      "grad_norm": 0.009284721687436104,
+      "learning_rate": 2.6475671945559442e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 257008144,
+      "step": 118985
+    },
+    {
+      "epoch": 19.411092985318106,
+      "grad_norm": 0.02313319407403469,
+      "learning_rate": 2.6402568909042467e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 257020048,
+      "step": 118990
+    },
+    {
+      "epoch": 19.411908646003262,
+      "grad_norm": 0.002016447950154543,
+      "learning_rate": 2.6329566668787384e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 257031952,
+      "step": 118995
+    },
+    {
+      "epoch": 19.412724306688418,
+      "grad_norm": 0.001090245321393013,
+      "learning_rate": 2.625666522627301e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 257042928,
+      "step": 119000
+    },
+    {
+      "epoch": 19.413539967373573,
+      "grad_norm": 0.026525719091296196,
+      "learning_rate": 2.6183864582976503e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 257053872,
+      "step": 119005
+    },
+    {
+      "epoch": 19.41435562805873,
+      "grad_norm": 0.0006216730689629912,
+      "learning_rate": 2.611116474037445e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 257064528,
+      "step": 119010
+    },
+    {
+      "epoch": 19.41517128874388,
+      "grad_norm": 0.07049921900033951,
+      "learning_rate": 2.603856569993901e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 257076304,
+      "step": 119015
+    },
+    {
+      "epoch": 19.415986949429037,
+      "grad_norm": 0.006914778146892786,
+      "learning_rate": 2.596606746314234e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 257088400,
+      "step": 119020
+    },
+    {
+      "epoch": 19.416802610114193,
+      "grad_norm": 0.02052348665893078,
+      "learning_rate": 2.589367003145271e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 257099728,
+      "step": 119025
+    },
+    {
+      "epoch": 19.41761827079935,
+      "grad_norm": 0.0031544077210128307,
+      "learning_rate": 2.5821373406338387e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 257110800,
+      "step": 119030
+    },
+    {
+      "epoch": 19.418433931484504,
+      "grad_norm": 0.010480822063982487,
+      "learning_rate": 2.574917758926376e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 257121968,
+      "step": 119035
+    },
+    {
+      "epoch": 19.419249592169656,
+      "grad_norm": 0.003024548990651965,
+      "learning_rate": 2.5677082581692657e-06,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 257131952,
+      "step": 119040
+    },
+    {
+      "epoch": 19.420065252854812,
+      "grad_norm": 0.03305144980549812,
+      "learning_rate": 2.5605088385085573e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 257142864,
+      "step": 119045
+    },
+    {
+      "epoch": 19.420880913539968,
+      "grad_norm": 0.0013253577053546906,
+      "learning_rate": 2.553319500090245e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 257153904,
+      "step": 119050
+    },
+    {
+      "epoch": 19.421696574225123,
+      "grad_norm": 0.009747570380568504,
+      "learning_rate": 2.5461402430599357e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 257166032,
+      "step": 119055
+    },
+    {
+      "epoch": 19.42251223491028,
+      "grad_norm": 0.00021776130597572774,
+      "learning_rate": 2.5389710675631227e-06,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 257177296,
+      "step": 119060
+    },
+    {
+      "epoch": 19.42332789559543,
+      "grad_norm": 0.0012730876915156841,
+      "learning_rate": 2.5318119737451905e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 257187824,
+      "step": 119065
+    },
+    {
+      "epoch": 19.424143556280587,
+      "grad_norm": 0.0005625274498015642,
+      "learning_rate": 2.524662961751134e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 257197616,
+      "step": 119070
+    },
+    {
+      "epoch": 19.424959216965743,
+      "grad_norm": 0.0018120675813406706,
+      "learning_rate": 2.517524031725893e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 257207216,
+      "step": 119075
+    },
+    {
+      "epoch": 19.4257748776509,
+      "grad_norm": 0.001958174630999565,
+      "learning_rate": 2.5103951838141292e-06,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 257217840,
+      "step": 119080
+    },
+    {
+      "epoch": 19.42659053833605,
+      "grad_norm": 0.0011971911881119013,
+      "learning_rate": 2.503276418160283e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 257229136,
+      "step": 119085
+    },
+    {
+      "epoch": 19.427406199021206,
+      "grad_norm": 0.013330371119081974,
+      "learning_rate": 2.496167734908683e-06,
+      "loss": 0.1763,
+      "num_input_tokens_seen": 257239664,
+      "step": 119090
+    },
+    {
+      "epoch": 19.428221859706362,
+      "grad_norm": 0.00020406786643434316,
+      "learning_rate": 2.489069134203381e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 257250544,
+      "step": 119095
+    },
+    {
+      "epoch": 19.429037520391518,
+      "grad_norm": 0.025051139295101166,
+      "learning_rate": 2.481980616188262e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 257261168,
+      "step": 119100
+    },
+    {
+      "epoch": 19.429853181076673,
+      "grad_norm": 0.011714156717061996,
+      "learning_rate": 2.474902181006877e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 257272624,
+      "step": 119105
+    },
+    {
+      "epoch": 19.430668841761825,
+      "grad_norm": 0.00022403965704143047,
+      "learning_rate": 2.467833828802779e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 257283344,
+      "step": 119110
+    },
+    {
+      "epoch": 19.43148450244698,
+      "grad_norm": 0.0003524889179971069,
+      "learning_rate": 2.4607755597192417e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 257293840,
+      "step": 119115
+    },
+    {
+      "epoch": 19.432300163132137,
+      "grad_norm": 0.001508756191469729,
+      "learning_rate": 2.453727373899206e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 257305168,
+      "step": 119120
+    },
+    {
+      "epoch": 19.433115823817293,
+      "grad_norm": 0.011893289163708687,
+      "learning_rate": 2.4466892714856137e-06,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 257316752,
+      "step": 119125
+    },
+    {
+      "epoch": 19.43393148450245,
+      "grad_norm": 0.23823878169059753,
+      "learning_rate": 2.439661252621017e-06,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 257328880,
+      "step": 119130
+    },
+    {
+      "epoch": 19.4347471451876,
+      "grad_norm": 0.0054446193389594555,
+      "learning_rate": 2.4326433174479133e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 257340208,
+      "step": 119135
+    },
+    {
+      "epoch": 19.435562805872756,
+      "grad_norm": 0.004071327392011881,
+      "learning_rate": 2.4256354661084666e-06,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 257349904,
+      "step": 119140
+    },
+    {
+      "epoch": 19.436378466557912,
+      "grad_norm": 0.0009328233427368104,
+      "learning_rate": 2.4186376987447857e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 257361552,
+      "step": 119145
+    },
+    {
+      "epoch": 19.437194127243067,
+      "grad_norm": 0.0005683921044692397,
+      "learning_rate": 2.41165001549859e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 257373072,
+      "step": 119150
+    },
+    {
+      "epoch": 19.438009787928223,
+      "grad_norm": 0.005114169325679541,
+      "learning_rate": 2.4046724165115998e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 257383984,
+      "step": 119155
+    },
+    {
+      "epoch": 19.438825448613375,
+      "grad_norm": 0.08982323110103607,
+      "learning_rate": 2.3977049019250907e-06,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 257395152,
+      "step": 119160
+    },
+    {
+      "epoch": 19.43964110929853,
+      "grad_norm": 0.0284635778516531,
+      "learning_rate": 2.3907474718803944e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 257404240,
+      "step": 119165
+    },
+    {
+      "epoch": 19.440456769983687,
+      "grad_norm": 0.039190005511045456,
+      "learning_rate": 2.383800126518454e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 257413904,
+      "step": 119170
+    },
+    {
+      "epoch": 19.441272430668842,
+      "grad_norm": 0.1472269892692566,
+      "learning_rate": 2.3768628659801005e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 257425008,
+      "step": 119175
+    },
+    {
+      "epoch": 19.442088091353998,
+      "grad_norm": 0.00017574279627297074,
+      "learning_rate": 2.3699356904058334e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 257436112,
+      "step": 119180
+    },
+    {
+      "epoch": 19.44290375203915,
+      "grad_norm": 0.001107974792830646,
+      "learning_rate": 2.363018599936151e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 257448144,
+      "step": 119185
+    },
+    {
+      "epoch": 19.443719412724306,
+      "grad_norm": 1.321487545967102,
+      "learning_rate": 2.3561115947111635e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 257458608,
+      "step": 119190
+    },
+    {
+      "epoch": 19.44453507340946,
+      "grad_norm": 0.0002932049101218581,
+      "learning_rate": 2.349214674870925e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 257469936,
+      "step": 119195
+    },
+    {
+      "epoch": 19.445350734094617,
+      "grad_norm": 0.023268211632966995,
+      "learning_rate": 2.3423278405551583e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 257478736,
+      "step": 119200
+    },
+    {
+      "epoch": 19.446166394779773,
+      "grad_norm": 0.004889782518148422,
+      "learning_rate": 2.335451091903418e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 257489424,
+      "step": 119205
+    },
+    {
+      "epoch": 19.446982055464925,
+      "grad_norm": 0.020940110087394714,
+      "learning_rate": 2.3285844290550916e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 257499888,
+      "step": 119210
+    },
+    {
+      "epoch": 19.44779771615008,
+      "grad_norm": 0.0025529158301651478,
+      "learning_rate": 2.321727852149402e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 257509840,
+      "step": 119215
+    },
+    {
+      "epoch": 19.448613376835237,
+      "grad_norm": 0.0006794088985770941,
+      "learning_rate": 2.314881361325183e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 257521680,
+      "step": 119220
+    },
+    {
+      "epoch": 19.449429037520392,
+      "grad_norm": 0.0012869905913248658,
+      "learning_rate": 2.308044956721267e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 257530672,
+      "step": 119225
+    },
+    {
+      "epoch": 19.450244698205548,
+      "grad_norm": 0.03023373894393444,
+      "learning_rate": 2.30121863847621e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 257540720,
+      "step": 119230
+    },
+    {
+      "epoch": 19.4510603588907,
+      "grad_norm": 0.00452503701671958,
+      "learning_rate": 2.294402406728291e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 257552048,
+      "step": 119235
+    },
+    {
+      "epoch": 19.451876019575856,
+      "grad_norm": 0.0002490385086275637,
+      "learning_rate": 2.2875962616157318e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 257562416,
+      "step": 119240
+    },
+    {
+      "epoch": 19.45269168026101,
+      "grad_norm": 0.02928837016224861,
+      "learning_rate": 2.2808002032763676e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 257572592,
+      "step": 119245
+    },
+    {
+      "epoch": 19.453507340946167,
+      "grad_norm": 0.004705357365310192,
+      "learning_rate": 2.2740142318480873e-06,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 257583856,
+      "step": 119250
+    },
+    {
+      "epoch": 19.454323001631323,
+      "grad_norm": 0.0028875924181193113,
+      "learning_rate": 2.267238347468226e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 257594640,
+      "step": 119255
+    },
+    {
+      "epoch": 19.455138662316475,
+      "grad_norm": 0.0010396402794867754,
+      "learning_rate": 2.2604725502742286e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 257605712,
+      "step": 119260
+    },
+    {
+      "epoch": 19.45595432300163,
+      "grad_norm": 0.00031200837111100554,
+      "learning_rate": 2.2537168404032082e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 257617232,
+      "step": 119265
+    },
+    {
+      "epoch": 19.456769983686787,
+      "grad_norm": 0.0012279873481020331,
+      "learning_rate": 2.2469712179920555e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 257628976,
+      "step": 119270
+    },
+    {
+      "epoch": 19.457585644371942,
+      "grad_norm": 0.037878625094890594,
+      "learning_rate": 2.2402356831774383e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 257639696,
+      "step": 119275
+    },
+    {
+      "epoch": 19.458401305057095,
+      "grad_norm": 0.0029649846255779266,
+      "learning_rate": 2.2335102360959148e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 257651280,
+      "step": 119280
+    },
+    {
+      "epoch": 19.45921696574225,
+      "grad_norm": 0.019405025988817215,
+      "learning_rate": 2.226794876883764e-06,
+      "loss": 0.0167,
+      "num_input_tokens_seen": 257661808,
+      "step": 119285
+    },
+    {
+      "epoch": 19.460032626427406,
+      "grad_norm": 0.05081169307231903,
+      "learning_rate": 2.2200896056771004e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 257672912,
+      "step": 119290
+    },
+    {
+      "epoch": 19.46084828711256,
+      "grad_norm": 0.007771750912070274,
+      "learning_rate": 2.2133944226117587e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 257685008,
+      "step": 119295
+    },
+    {
+      "epoch": 19.461663947797717,
+      "grad_norm": 0.0009954735869541764,
+      "learning_rate": 2.2067093278235194e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 257695760,
+      "step": 119300
+    },
+    {
+      "epoch": 19.46247960848287,
+      "grad_norm": 0.0010892596328631043,
+      "learning_rate": 2.2000343214477746e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 257707280,
+      "step": 119305
+    },
+    {
+      "epoch": 19.463295269168025,
+      "grad_norm": 0.0006688821013085544,
+      "learning_rate": 2.1933694036198605e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 257717328,
+      "step": 119310
+    },
+    {
+      "epoch": 19.46411092985318,
+      "grad_norm": 0.12306705862283707,
+      "learning_rate": 2.1867145744747796e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 257727760,
+      "step": 119315
+    },
+    {
+      "epoch": 19.464926590538337,
+      "grad_norm": 0.00043416867265477777,
+      "learning_rate": 2.1800698341475355e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 257737040,
+      "step": 119320
+    },
+    {
+      "epoch": 19.465742251223492,
+      "grad_norm": 0.00032600079430267215,
+      "learning_rate": 2.173435182772632e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 257747888,
+      "step": 119325
+    },
+    {
+      "epoch": 19.466557911908644,
+      "grad_norm": 0.007647597696632147,
+      "learning_rate": 2.166810620484627e-06,
+      "loss": 0.0387,
+      "num_input_tokens_seen": 257758672,
+      "step": 119330
+    },
+    {
+      "epoch": 19.4673735725938,
+      "grad_norm": 0.031011521816253662,
+      "learning_rate": 2.160196147417748e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 257768720,
+      "step": 119335
+    },
+    {
+      "epoch": 19.468189233278956,
+      "grad_norm": 0.008647006005048752,
+      "learning_rate": 2.153591763706053e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 257779376,
+      "step": 119340
+    },
+    {
+      "epoch": 19.46900489396411,
+      "grad_norm": 0.0007197380182333291,
+      "learning_rate": 2.1469974694833805e-06,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 257790672,
+      "step": 119345
+    },
+    {
+      "epoch": 19.469820554649267,
+      "grad_norm": 0.007564597297459841,
+      "learning_rate": 2.140413264883401e-06,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 257801296,
+      "step": 119350
+    },
+    {
+      "epoch": 19.47063621533442,
+      "grad_norm": 0.002344276290386915,
+      "learning_rate": 2.1338391500394516e-06,
+      "loss": 0.0356,
+      "num_input_tokens_seen": 257813072,
+      "step": 119355
+    },
+    {
+      "epoch": 19.471451876019575,
+      "grad_norm": 0.00835796445608139,
+      "learning_rate": 2.1272751250849263e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 257824720,
+      "step": 119360
+    },
+    {
+      "epoch": 19.47226753670473,
+      "grad_norm": 0.003108770353719592,
+      "learning_rate": 2.120721190152719e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 257835312,
+      "step": 119365
+    },
+    {
+      "epoch": 19.473083197389887,
+      "grad_norm": 0.0004182121774647385,
+      "learning_rate": 2.114177345375723e-06,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 257846544,
+      "step": 119370
+    },
+    {
+      "epoch": 19.473898858075042,
+      "grad_norm": 0.03978124260902405,
+      "learning_rate": 2.1076435908864986e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 257857776,
+      "step": 119375
+    },
+    {
+      "epoch": 19.474714518760194,
+      "grad_norm": 0.0012924002949148417,
+      "learning_rate": 2.1011199268175517e-06,
+      "loss": 0.017,
+      "num_input_tokens_seen": 257868592,
+      "step": 119380
+    },
+    {
+      "epoch": 19.47553017944535,
+      "grad_norm": 0.002158062532544136,
+      "learning_rate": 2.0946063533009986e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 257879504,
+      "step": 119385
+    },
+    {
+      "epoch": 19.476345840130506,
+      "grad_norm": 0.005779027007520199,
+      "learning_rate": 2.0881028704688997e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 257891152,
+      "step": 119390
+    },
+    {
+      "epoch": 19.47716150081566,
+      "grad_norm": 0.019146548584103584,
+      "learning_rate": 2.0816094784530394e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 257901456,
+      "step": 119395
+    },
+    {
+      "epoch": 19.477977161500817,
+      "grad_norm": 0.010578310117125511,
+      "learning_rate": 2.075126177385034e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 257912144,
+      "step": 119400
+    },
+    {
+      "epoch": 19.47879282218597,
+      "grad_norm": 0.0001685271126916632,
+      "learning_rate": 2.0686529673962784e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 257921584,
+      "step": 119405
+    },
+    {
+      "epoch": 19.479608482871125,
+      "grad_norm": 0.0007612688350491226,
+      "learning_rate": 2.06218984861789e-06,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 257930800,
+      "step": 119410
+    },
+    {
+      "epoch": 19.48042414355628,
+      "grad_norm": 0.0007769337389618158,
+      "learning_rate": 2.0557368211809314e-06,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 257940848,
+      "step": 119415
+    },
+    {
+      "epoch": 19.481239804241437,
+      "grad_norm": 0.001466889400035143,
+      "learning_rate": 2.0492938852161304e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 257952304,
+      "step": 119420
+    },
+    {
+      "epoch": 19.482055464926592,
+      "grad_norm": 0.016221707686781883,
+      "learning_rate": 2.042861040854105e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 257963056,
+      "step": 119425
+    },
+    {
+      "epoch": 19.482871125611744,
+      "grad_norm": 0.03494711592793465,
+      "learning_rate": 2.0364382882251952e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 257973744,
+      "step": 119430
+    },
+    {
+      "epoch": 19.4836867862969,
+      "grad_norm": 0.0013683143770322204,
+      "learning_rate": 2.030025627459575e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 257984912,
+      "step": 119435
+    },
+    {
+      "epoch": 19.484502446982056,
+      "grad_norm": 0.001632693805731833,
+      "learning_rate": 2.023623058687196e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 257996048,
+      "step": 119440
+    },
+    {
+      "epoch": 19.48531810766721,
+      "grad_norm": 0.0575888529419899,
+      "learning_rate": 2.0172305820378434e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 258005936,
+      "step": 119445
+    },
+    {
+      "epoch": 19.486133768352367,
+      "grad_norm": 0.0022574923932552338,
+      "learning_rate": 2.010848197641024e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 258016336,
+      "step": 119450
+    },
+    {
+      "epoch": 19.48694942903752,
+      "grad_norm": 0.00851681362837553,
+      "learning_rate": 2.0044759056261354e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 258026384,
+      "step": 119455
+    },
+    {
+      "epoch": 19.487765089722675,
+      "grad_norm": 0.0007707860204391181,
+      "learning_rate": 1.9981137061222954e-06,
+      "loss": 0.008,
+      "num_input_tokens_seen": 258036784,
+      "step": 119460
+    },
+    {
+      "epoch": 19.48858075040783,
+      "grad_norm": 0.00015356663789134473,
+      "learning_rate": 1.9917615992584017e-06,
+      "loss": 0.1028,
+      "num_input_tokens_seen": 258048688,
+      "step": 119465
+    },
+    {
+      "epoch": 19.489396411092986,
+      "grad_norm": 0.6992786526679993,
+      "learning_rate": 1.985419585163295e-06,
+      "loss": 0.0374,
+      "num_input_tokens_seen": 258059376,
+      "step": 119470
+    },
+    {
+      "epoch": 19.49021207177814,
+      "grad_norm": 0.0010557199129834771,
+      "learning_rate": 1.9790876639653733e-06,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 258071472,
+      "step": 119475
+    },
+    {
+      "epoch": 19.491027732463294,
+      "grad_norm": 0.014713788405060768,
+      "learning_rate": 1.972765835793089e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 258082448,
+      "step": 119480
+    },
+    {
+      "epoch": 19.49184339314845,
+      "grad_norm": 0.0009430281934328377,
+      "learning_rate": 1.9664541007744508e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 258093232,
+      "step": 119485
+    },
+    {
+      "epoch": 19.492659053833606,
+      "grad_norm": 0.0018127475632354617,
+      "learning_rate": 1.960152459037412e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 258104880,
+      "step": 119490
+    },
+    {
+      "epoch": 19.49347471451876,
+      "grad_norm": 0.008685811422765255,
+      "learning_rate": 1.953860910709704e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 258115984,
+      "step": 119495
+    },
+    {
+      "epoch": 19.494290375203914,
+      "grad_norm": 0.006860397756099701,
+      "learning_rate": 1.9475794559188354e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 258125520,
+      "step": 119500
+    },
+    {
+      "epoch": 19.49510603588907,
+      "grad_norm": 0.0003657161723822355,
+      "learning_rate": 1.9413080947920934e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 258137712,
+      "step": 119505
+    },
+    {
+      "epoch": 19.495921696574225,
+      "grad_norm": 0.0007896169554442167,
+      "learning_rate": 1.9350468274565434e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 258148272,
+      "step": 119510
+    },
+    {
+      "epoch": 19.49673735725938,
+      "grad_norm": 0.0059143430553376675,
+      "learning_rate": 1.9287956540391395e-06,
+      "loss": 0.0202,
+      "num_input_tokens_seen": 258159120,
+      "step": 119515
+    },
+    {
+      "epoch": 19.497553017944536,
+      "grad_norm": 0.03275555744767189,
+      "learning_rate": 1.9225545746665575e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 258170384,
+      "step": 119520
+    },
+    {
+      "epoch": 19.49836867862969,
+      "grad_norm": 0.0034429405350238085,
+      "learning_rate": 1.9163235894651965e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 258181808,
+      "step": 119525
+    },
+    {
+      "epoch": 19.499184339314844,
+      "grad_norm": 0.0001575792266521603,
+      "learning_rate": 1.9101026985614558e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 258191984,
+      "step": 119530
+    },
+    {
+      "epoch": 19.5,
+      "grad_norm": 0.00021977766300551593,
+      "learning_rate": 1.903891902081345e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 258202736,
+      "step": 119535
+    },
+    {
+      "epoch": 19.500815660685156,
+      "grad_norm": 0.0011759491171687841,
+      "learning_rate": 1.8976912001507084e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 258214576,
+      "step": 119540
+    },
+    {
+      "epoch": 19.50163132137031,
+      "grad_norm": 0.0012104709167033434,
+      "learning_rate": 1.8915005928953344e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 258224368,
+      "step": 119545
+    },
+    {
+      "epoch": 19.502446982055464,
+      "grad_norm": 0.0025493651628494263,
+      "learning_rate": 1.8853200804405113e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 258235056,
+      "step": 119550
+    },
+    {
+      "epoch": 19.50326264274062,
+      "grad_norm": 0.008421454578638077,
+      "learning_rate": 1.879149662911639e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 258246544,
+      "step": 119555
+    },
+    {
+      "epoch": 19.504078303425775,
+      "grad_norm": 0.00022099376656115055,
+      "learning_rate": 1.8729893404336728e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 258258352,
+      "step": 119560
+    },
+    {
+      "epoch": 19.50489396411093,
+      "grad_norm": 0.007480515167117119,
+      "learning_rate": 1.8668391131315133e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 258269520,
+      "step": 119565
+    },
+    {
+      "epoch": 19.505709624796086,
+      "grad_norm": 0.0013238782994449139,
+      "learning_rate": 1.8606989811297824e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 258279600,
+      "step": 119570
+    },
+    {
+      "epoch": 19.50652528548124,
+      "grad_norm": 0.01068634632974863,
+      "learning_rate": 1.8545689445528813e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 258291664,
+      "step": 119575
+    },
+    {
+      "epoch": 19.507340946166394,
+      "grad_norm": 0.053680844604969025,
+      "learning_rate": 1.8484490035251544e-06,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 258303152,
+      "step": 119580
+    },
+    {
+      "epoch": 19.50815660685155,
+      "grad_norm": 0.0013580488739535213,
+      "learning_rate": 1.842339158170503e-06,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 258312528,
+      "step": 119585
+    },
+    {
+      "epoch": 19.508972267536706,
+      "grad_norm": 0.00019802911265287548,
+      "learning_rate": 1.8362394086128276e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 258323792,
+      "step": 119590
+    },
+    {
+      "epoch": 19.50978792822186,
+      "grad_norm": 0.07218465209007263,
+      "learning_rate": 1.8301497549757518e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 258334064,
+      "step": 119595
+    },
+    {
+      "epoch": 19.510603588907014,
+      "grad_norm": 0.0058241235092282295,
+      "learning_rate": 1.8240701973826213e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 258342704,
+      "step": 119600
+    },
+    {
+      "epoch": 19.51141924959217,
+      "grad_norm": 0.2714917063713074,
+      "learning_rate": 1.8180007359567263e-06,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 258353296,
+      "step": 119605
+    },
+    {
+      "epoch": 19.512234910277325,
+      "grad_norm": 0.0011957393726333976,
+      "learning_rate": 1.8119413708210243e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 258364944,
+      "step": 119610
+    },
+    {
+      "epoch": 19.51305057096248,
+      "grad_norm": 0.0009538216982036829,
+      "learning_rate": 1.8058921020983055e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 258376592,
+      "step": 119615
+    },
+    {
+      "epoch": 19.513866231647633,
+      "grad_norm": 0.0010454310104250908,
+      "learning_rate": 1.7998529299111944e-06,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 258387280,
+      "step": 119620
+    },
+    {
+      "epoch": 19.51468189233279,
+      "grad_norm": 0.006765805184841156,
+      "learning_rate": 1.7938238543820928e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 258397104,
+      "step": 119625
+    },
+    {
+      "epoch": 19.515497553017944,
+      "grad_norm": 0.011556816287338734,
+      "learning_rate": 1.7878048756331256e-06,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 258407344,
+      "step": 119630
+    },
+    {
+      "epoch": 19.5163132137031,
+      "grad_norm": 0.048716992139816284,
+      "learning_rate": 1.7817959937863615e-06,
+      "loss": 0.0569,
+      "num_input_tokens_seen": 258418416,
+      "step": 119635
+    },
+    {
+      "epoch": 19.517128874388256,
+      "grad_norm": 0.01016552746295929,
+      "learning_rate": 1.7757972089635367e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 258428176,
+      "step": 119640
+    },
+    {
+      "epoch": 19.517944535073408,
+      "grad_norm": 0.005958016030490398,
+      "learning_rate": 1.7698085212862203e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 258439952,
+      "step": 119645
+    },
+    {
+      "epoch": 19.518760195758563,
+      "grad_norm": 0.0012907384661957622,
+      "learning_rate": 1.76382993087576e-06,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 258449424,
+      "step": 119650
+    },
+    {
+      "epoch": 19.51957585644372,
+      "grad_norm": 0.0009790941840037704,
+      "learning_rate": 1.7578614378533365e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 258461264,
+      "step": 119655
+    },
+    {
+      "epoch": 19.520391517128875,
+      "grad_norm": 0.03771071508526802,
+      "learning_rate": 1.751903042339964e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 258472688,
+      "step": 119660
+    },
+    {
+      "epoch": 19.52120717781403,
+      "grad_norm": 0.0106875104829669,
+      "learning_rate": 1.745954744456324e-06,
+      "loss": 0.0124,
+      "num_input_tokens_seen": 258484080,
+      "step": 119665
+    },
+    {
+      "epoch": 19.522022838499183,
+      "grad_norm": 0.0014177068369463086,
+      "learning_rate": 1.7400165443229865e-06,
+      "loss": 0.12,
+      "num_input_tokens_seen": 258494512,
+      "step": 119670
+    },
+    {
+      "epoch": 19.52283849918434,
+      "grad_norm": 0.010459963232278824,
+      "learning_rate": 1.7340884420603e-06,
+      "loss": 0.0485,
+      "num_input_tokens_seen": 258505200,
+      "step": 119675
+    },
+    {
+      "epoch": 19.523654159869494,
+      "grad_norm": 0.006741983816027641,
+      "learning_rate": 1.7281704377884454e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 258516656,
+      "step": 119680
+    },
+    {
+      "epoch": 19.52446982055465,
+      "grad_norm": 0.0004489065904635936,
+      "learning_rate": 1.7222625316272723e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 258527408,
+      "step": 119685
+    },
+    {
+      "epoch": 19.525285481239806,
+      "grad_norm": 0.0006436831317842007,
+      "learning_rate": 1.7163647236965728e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 258538064,
+      "step": 119690
+    },
+    {
+      "epoch": 19.526101141924958,
+      "grad_norm": 0.000623969070147723,
+      "learning_rate": 1.7104770141158631e-06,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 258550448,
+      "step": 119695
+    },
+    {
+      "epoch": 19.526916802610113,
+      "grad_norm": 0.00015011659706942737,
+      "learning_rate": 1.704599403004492e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 258561488,
+      "step": 119700
+    },
+    {
+      "epoch": 19.52773246329527,
+      "grad_norm": 0.026546292006969452,
+      "learning_rate": 1.6987318904814753e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 258571792,
+      "step": 119705
+    },
+    {
+      "epoch": 19.528548123980425,
+      "grad_norm": 0.0041951765306293964,
+      "learning_rate": 1.6928744766658844e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 258582288,
+      "step": 119710
+    },
+    {
+      "epoch": 19.52936378466558,
+      "grad_norm": 0.00497661717236042,
+      "learning_rate": 1.687027161676291e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 258593104,
+      "step": 119715
+    },
+    {
+      "epoch": 19.530179445350733,
+      "grad_norm": 0.021917784586548805,
+      "learning_rate": 1.6811899456312119e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 258603728,
+      "step": 119720
+    },
+    {
+      "epoch": 19.53099510603589,
+      "grad_norm": 0.0025708836037665606,
+      "learning_rate": 1.6753628286490518e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 258613968,
+      "step": 119725
+    },
+    {
+      "epoch": 19.531810766721044,
+      "grad_norm": 0.00024284885148517787,
+      "learning_rate": 1.6695458108477724e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 258624304,
+      "step": 119730
+    },
+    {
+      "epoch": 19.5326264274062,
+      "grad_norm": 0.009805253706872463,
+      "learning_rate": 1.66373889234539e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 258636432,
+      "step": 119735
+    },
+    {
+      "epoch": 19.533442088091356,
+      "grad_norm": 0.0007772601675242186,
+      "learning_rate": 1.6579420732594774e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 258647248,
+      "step": 119740
+    },
+    {
+      "epoch": 19.534257748776508,
+      "grad_norm": 0.016048630699515343,
+      "learning_rate": 1.6521553537075518e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 258658768,
+      "step": 119745
+    },
+    {
+      "epoch": 19.535073409461663,
+      "grad_norm": 0.07577808946371078,
+      "learning_rate": 1.646378733806908e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 258669648,
+      "step": 119750
+    },
+    {
+      "epoch": 19.53588907014682,
+      "grad_norm": 0.00451402785256505,
+      "learning_rate": 1.6406122136746193e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 258679376,
+      "step": 119755
+    },
+    {
+      "epoch": 19.536704730831975,
+      "grad_norm": 0.0001716844126349315,
+      "learning_rate": 1.634855793427481e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 258690288,
+      "step": 119760
+    },
+    {
+      "epoch": 19.53752039151713,
+      "grad_norm": 0.0004944111569784582,
+      "learning_rate": 1.6291094731822886e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 258701584,
+      "step": 119765
+    },
+    {
+      "epoch": 19.538336052202283,
+      "grad_norm": 0.0008311573183164,
+      "learning_rate": 1.6233732530553935e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 258711920,
+      "step": 119770
+    },
+    {
+      "epoch": 19.53915171288744,
+      "grad_norm": 0.005382438190281391,
+      "learning_rate": 1.6176471331630915e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 258722224,
+      "step": 119775
+    },
+    {
+      "epoch": 19.539967373572594,
+      "grad_norm": 0.007278508972376585,
+      "learning_rate": 1.6119311136213455e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 258733520,
+      "step": 119780
+    },
+    {
+      "epoch": 19.54078303425775,
+      "grad_norm": 0.0013596662320196629,
+      "learning_rate": 1.6062251945461737e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 258744368,
+      "step": 119785
+    },
+    {
+      "epoch": 19.541598694942905,
+      "grad_norm": 0.04996887966990471,
+      "learning_rate": 1.6005293760530393e-06,
+      "loss": 0.0204,
+      "num_input_tokens_seen": 258755088,
+      "step": 119790
+    },
+    {
+      "epoch": 19.542414355628058,
+      "grad_norm": 0.030599098652601242,
+      "learning_rate": 1.594843658257461e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 258764976,
+      "step": 119795
+    },
+    {
+      "epoch": 19.543230016313213,
+      "grad_norm": 0.006039235275238752,
+      "learning_rate": 1.5891680412746246e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 258776528,
+      "step": 119800
+    },
+    {
+      "epoch": 19.54404567699837,
+      "grad_norm": 0.0015127577353268862,
+      "learning_rate": 1.5835025252196044e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 258787248,
+      "step": 119805
+    },
+    {
+      "epoch": 19.544861337683525,
+      "grad_norm": 0.005725604481995106,
+      "learning_rate": 1.5778471102071423e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 258798416,
+      "step": 119810
+    },
+    {
+      "epoch": 19.545676998368677,
+      "grad_norm": 0.015134379267692566,
+      "learning_rate": 1.572201796351924e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 258809680,
+      "step": 119815
+    },
+    {
+      "epoch": 19.546492659053833,
+      "grad_norm": 0.010965199209749699,
+      "learning_rate": 1.5665665837683584e-06,
+      "loss": 0.003,
+      "num_input_tokens_seen": 258820528,
+      "step": 119820
+    },
+    {
+      "epoch": 19.54730831973899,
+      "grad_norm": 0.000573936675209552,
+      "learning_rate": 1.5609414725706317e-06,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 258831056,
+      "step": 119825
+    },
+    {
+      "epoch": 19.548123980424144,
+      "grad_norm": 0.011310549452900887,
+      "learning_rate": 1.5553264628727082e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 258842736,
+      "step": 119830
+    },
+    {
+      "epoch": 19.5489396411093,
+      "grad_norm": 0.013286259956657887,
+      "learning_rate": 1.5497215547884414e-06,
+      "loss": 0.0804,
+      "num_input_tokens_seen": 258853872,
+      "step": 119835
+    },
+    {
+      "epoch": 19.549755301794452,
+      "grad_norm": 0.02167029306292534,
+      "learning_rate": 1.544126748431407e-06,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 258864144,
+      "step": 119840
+    },
+    {
+      "epoch": 19.550570962479608,
+      "grad_norm": 0.0003503776097204536,
+      "learning_rate": 1.538542043914959e-06,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 258874992,
+      "step": 119845
+    },
+    {
+      "epoch": 19.551386623164763,
+      "grad_norm": 0.0004293158417567611,
+      "learning_rate": 1.5329674413522843e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 258884880,
+      "step": 119850
+    },
+    {
+      "epoch": 19.55220228384992,
+      "grad_norm": 0.007084133103489876,
+      "learning_rate": 1.527402940856404e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 258896016,
+      "step": 119855
+    },
+    {
+      "epoch": 19.553017944535075,
+      "grad_norm": 0.13451212644577026,
+      "learning_rate": 1.5218485425400607e-06,
+      "loss": 0.0141,
+      "num_input_tokens_seen": 258906096,
+      "step": 119860
+    },
+    {
+      "epoch": 19.553833605220227,
+      "grad_norm": 0.0023989281617105007,
+      "learning_rate": 1.516304246515776e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 258916432,
+      "step": 119865
+    },
+    {
+      "epoch": 19.554649265905383,
+      "grad_norm": 0.007038596551865339,
+      "learning_rate": 1.5107700528960156e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 258926416,
+      "step": 119870
+    },
+    {
+      "epoch": 19.55546492659054,
+      "grad_norm": 0.0006149518303573132,
+      "learning_rate": 1.505245961792856e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 258938608,
+      "step": 119875
+    },
+    {
+      "epoch": 19.556280587275694,
+      "grad_norm": 0.0030068473424762487,
+      "learning_rate": 1.4997319733182636e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 258948880,
+      "step": 119880
+    },
+    {
+      "epoch": 19.55709624796085,
+      "grad_norm": 0.0009674095781520009,
+      "learning_rate": 1.494228087583982e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 258957936,
+      "step": 119885
+    },
+    {
+      "epoch": 19.557911908646002,
+      "grad_norm": 0.0016425395151600242,
+      "learning_rate": 1.4887343047016444e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 258969552,
+      "step": 119890
+    },
+    {
+      "epoch": 19.558727569331158,
+      "grad_norm": 0.010517501272261143,
+      "learning_rate": 1.4832506247824396e-06,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 258979856,
+      "step": 119895
+    },
+    {
+      "epoch": 19.559543230016313,
+      "grad_norm": 0.0007454265141859651,
+      "learning_rate": 1.4777770479376118e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 258990160,
+      "step": 119900
+    },
+    {
+      "epoch": 19.56035889070147,
+      "grad_norm": 0.0038657390978187323,
+      "learning_rate": 1.472313574278017e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 259001168,
+      "step": 119905
+    },
+    {
+      "epoch": 19.561174551386625,
+      "grad_norm": 0.0014202585443854332,
+      "learning_rate": 1.4668602039144551e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 259012432,
+      "step": 119910
+    },
+    {
+      "epoch": 19.561990212071777,
+      "grad_norm": 0.11280523985624313,
+      "learning_rate": 1.4614169369573382e-06,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 259023824,
+      "step": 119915
+    },
+    {
+      "epoch": 19.562805872756933,
+      "grad_norm": 0.002691589528694749,
+      "learning_rate": 1.4559837735171333e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 259034896,
+      "step": 119920
+    },
+    {
+      "epoch": 19.563621533442088,
+      "grad_norm": 0.001120995031669736,
+      "learning_rate": 1.450560713703808e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 259045680,
+      "step": 119925
+    },
+    {
+      "epoch": 19.564437194127244,
+      "grad_norm": 0.14628851413726807,
+      "learning_rate": 1.4451477576273298e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 259056944,
+      "step": 119930
+    },
+    {
+      "epoch": 19.5652528548124,
+      "grad_norm": 0.0006048278883099556,
+      "learning_rate": 1.4397449053973888e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 259067120,
+      "step": 119935
+    },
+    {
+      "epoch": 19.56606851549755,
+      "grad_norm": 0.005681201349943876,
+      "learning_rate": 1.4343521571235086e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 259077296,
+      "step": 119940
+    },
+    {
+      "epoch": 19.566884176182707,
+      "grad_norm": 0.0018342856783419847,
+      "learning_rate": 1.4289695129149349e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 259087632,
+      "step": 119945
+    },
+    {
+      "epoch": 19.567699836867863,
+      "grad_norm": 0.005485404282808304,
+      "learning_rate": 1.423596972880803e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 259096656,
+      "step": 119950
+    },
+    {
+      "epoch": 19.56851549755302,
+      "grad_norm": 0.25319576263427734,
+      "learning_rate": 1.4182345371299699e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 259108304,
+      "step": 119955
+    },
+    {
+      "epoch": 19.569331158238175,
+      "grad_norm": 0.002403180580586195,
+      "learning_rate": 1.412882205771071e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 259117456,
+      "step": 119960
+    },
+    {
+      "epoch": 19.570146818923327,
+      "grad_norm": 0.001975890714675188,
+      "learning_rate": 1.4075399789126308e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 259128528,
+      "step": 119965
+    },
+    {
+      "epoch": 19.570962479608482,
+      "grad_norm": 0.00043759553227573633,
+      "learning_rate": 1.4022078566629515e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 259140016,
+      "step": 119970
+    },
+    {
+      "epoch": 19.571778140293638,
+      "grad_norm": 0.2719343602657318,
+      "learning_rate": 1.396885839130002e-06,
+      "loss": 0.0081,
+      "num_input_tokens_seen": 259150064,
+      "step": 119975
+    },
+    {
+      "epoch": 19.572593800978794,
+      "grad_norm": 0.0024640439078211784,
+      "learning_rate": 1.3915739264216964e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 259161360,
+      "step": 119980
+    },
+    {
+      "epoch": 19.57340946166395,
+      "grad_norm": 0.009985164739191532,
+      "learning_rate": 1.3862721186456706e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 259172720,
+      "step": 119985
+    },
+    {
+      "epoch": 19.5742251223491,
+      "grad_norm": 0.0014474820345640182,
+      "learning_rate": 1.3809804159093386e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 259184336,
+      "step": 119990
+    },
+    {
+      "epoch": 19.575040783034257,
+      "grad_norm": 0.0026534050703048706,
+      "learning_rate": 1.3756988183200037e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 259195120,
+      "step": 119995
+    },
+    {
+      "epoch": 19.575856443719413,
+      "grad_norm": 0.00017664516053628176,
+      "learning_rate": 1.3704273259847467e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 259207024,
+      "step": 120000
+    },
+    {
+      "epoch": 19.57667210440457,
+      "grad_norm": 0.06056229770183563,
+      "learning_rate": 1.36516593901026e-06,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 259217872,
+      "step": 120005
+    },
+    {
+      "epoch": 19.57748776508972,
+      "grad_norm": 0.008258544839918613,
+      "learning_rate": 1.3599146575032363e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 259228304,
+      "step": 120010
+    },
+    {
+      "epoch": 19.578303425774877,
+      "grad_norm": 0.0049018110148608685,
+      "learning_rate": 1.3546734815702012e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 259239632,
+      "step": 120015
+    },
+    {
+      "epoch": 19.579119086460032,
+      "grad_norm": 0.0018762719118967652,
+      "learning_rate": 1.349442411317181e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 259251024,
+      "step": 120020
+    },
+    {
+      "epoch": 19.579934747145188,
+      "grad_norm": 0.06191835179924965,
+      "learning_rate": 1.3442214468503688e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 259259856,
+      "step": 120025
+    },
+    {
+      "epoch": 19.580750407830344,
+      "grad_norm": 0.0006233254680410028,
+      "learning_rate": 1.3390105882754577e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 259269936,
+      "step": 120030
+    },
+    {
+      "epoch": 19.581566068515496,
+      "grad_norm": 0.00015882418665569276,
+      "learning_rate": 1.333809835698141e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 259279888,
+      "step": 120035
+    },
+    {
+      "epoch": 19.58238172920065,
+      "grad_norm": 0.01703408546745777,
+      "learning_rate": 1.3286191892237231e-06,
+      "loss": 0.0041,
+      "num_input_tokens_seen": 259290608,
+      "step": 120040
+    },
+    {
+      "epoch": 19.583197389885807,
+      "grad_norm": 0.00424957275390625,
+      "learning_rate": 1.323438648957509e-06,
+      "loss": 0.0563,
+      "num_input_tokens_seen": 259301808,
+      "step": 120045
+    },
+    {
+      "epoch": 19.584013050570963,
+      "grad_norm": 0.04442833736538887,
+      "learning_rate": 1.318268215004359e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 259311472,
+      "step": 120050
+    },
+    {
+      "epoch": 19.58482871125612,
+      "grad_norm": 0.006586727686226368,
+      "learning_rate": 1.3131078874691337e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 259322416,
+      "step": 120055
+    },
+    {
+      "epoch": 19.58564437194127,
+      "grad_norm": 0.00016416041762568057,
+      "learning_rate": 1.3079576664564163e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 259333616,
+      "step": 120060
+    },
+    {
+      "epoch": 19.586460032626427,
+      "grad_norm": 0.002335761673748493,
+      "learning_rate": 1.302817552070623e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 259343248,
+      "step": 120065
+    },
+    {
+      "epoch": 19.587275693311582,
+      "grad_norm": 0.0020196493715047836,
+      "learning_rate": 1.297687544415782e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 259353008,
+      "step": 120070
+    },
+    {
+      "epoch": 19.588091353996738,
+      "grad_norm": 0.03180438652634621,
+      "learning_rate": 1.292567643596032e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 259365040,
+      "step": 120075
+    },
+    {
+      "epoch": 19.588907014681894,
+      "grad_norm": 0.0011726239463314414,
+      "learning_rate": 1.2874578497150125e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 259376688,
+      "step": 120080
+    },
+    {
+      "epoch": 19.589722675367046,
+      "grad_norm": 0.0019082275684922934,
+      "learning_rate": 1.282358162876307e-06,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 259388592,
+      "step": 120085
+    },
+    {
+      "epoch": 19.5905383360522,
+      "grad_norm": 0.0001999034866457805,
+      "learning_rate": 1.277268583183333e-06,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 259399408,
+      "step": 120090
+    },
+    {
+      "epoch": 19.591353996737357,
+      "grad_norm": 0.0022268639877438545,
+      "learning_rate": 1.2721891107391192e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 259410224,
+      "step": 120095
+    },
+    {
+      "epoch": 19.592169657422513,
+      "grad_norm": 0.0030834621284157038,
+      "learning_rate": 1.2671197456467497e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 259420048,
+      "step": 120100
+    },
+    {
+      "epoch": 19.59298531810767,
+      "grad_norm": 0.0024934473913162947,
+      "learning_rate": 1.2620604880088093e-06,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 259430864,
+      "step": 120105
+    },
+    {
+      "epoch": 19.59380097879282,
+      "grad_norm": 0.019052933901548386,
+      "learning_rate": 1.2570113379279936e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 259442128,
+      "step": 120110
+    },
+    {
+      "epoch": 19.594616639477977,
+      "grad_norm": 0.051151152700185776,
+      "learning_rate": 1.2519722955064982e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 259453360,
+      "step": 120115
+    },
+    {
+      "epoch": 19.595432300163132,
+      "grad_norm": 0.0011440202360972762,
+      "learning_rate": 1.2469433608464642e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 259464112,
+      "step": 120120
+    },
+    {
+      "epoch": 19.596247960848288,
+      "grad_norm": 0.0026353909634053707,
+      "learning_rate": 1.2419245340498652e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 259475088,
+      "step": 120125
+    },
+    {
+      "epoch": 19.597063621533444,
+      "grad_norm": 0.0006127303349785507,
+      "learning_rate": 1.236915815218398e-06,
+      "loss": 0.023,
+      "num_input_tokens_seen": 259486160,
+      "step": 120130
+    },
+    {
+      "epoch": 19.597879282218596,
+      "grad_norm": 0.0013539056526497006,
+      "learning_rate": 1.2319172044535365e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 259496880,
+      "step": 120135
+    },
+    {
+      "epoch": 19.59869494290375,
+      "grad_norm": 0.0010810773819684982,
+      "learning_rate": 1.2269287018565888e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 259508336,
+      "step": 120140
+    },
+    {
+      "epoch": 19.599510603588907,
+      "grad_norm": 0.00026650080690160394,
+      "learning_rate": 1.2219503075286963e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 259518896,
+      "step": 120145
+    },
+    {
+      "epoch": 19.600326264274063,
+      "grad_norm": 0.001171777956187725,
+      "learning_rate": 1.2169820215707228e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 259531184,
+      "step": 120150
+    },
+    {
+      "epoch": 19.601141924959215,
+      "grad_norm": 0.0004032772849313915,
+      "learning_rate": 1.2120238440833653e-06,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 259542768,
+      "step": 120155
+    },
+    {
+      "epoch": 19.60195758564437,
+      "grad_norm": 0.0009708287543617189,
+      "learning_rate": 1.207075775167099e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 259551856,
+      "step": 120160
+    },
+    {
+      "epoch": 19.602773246329527,
+      "grad_norm": 0.0016535356407985091,
+      "learning_rate": 1.2021378149221773e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 259561328,
+      "step": 120165
+    },
+    {
+      "epoch": 19.603588907014682,
+      "grad_norm": 0.003574906848371029,
+      "learning_rate": 1.1972099634487422e-06,
+      "loss": 0.0403,
+      "num_input_tokens_seen": 259571248,
+      "step": 120170
+    },
+    {
+      "epoch": 19.604404567699838,
+      "grad_norm": 0.0005903760902583599,
+      "learning_rate": 1.1922922208466026e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 259582544,
+      "step": 120175
+    },
+    {
+      "epoch": 19.605220228384994,
+      "grad_norm": 0.0017175710527226329,
+      "learning_rate": 1.1873845872154565e-06,
+      "loss": 0.0078,
+      "num_input_tokens_seen": 259593936,
+      "step": 120180
+    },
+    {
+      "epoch": 19.606035889070146,
+      "grad_norm": 0.00047921930672600865,
+      "learning_rate": 1.1824870626547247e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 259604336,
+      "step": 120185
+    },
+    {
+      "epoch": 19.6068515497553,
+      "grad_norm": 0.006056176032871008,
+      "learning_rate": 1.1775996472637163e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 259615696,
+      "step": 120190
+    },
+    {
+      "epoch": 19.607667210440457,
+      "grad_norm": 0.00036932036164216697,
+      "learning_rate": 1.1727223411414078e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 259627536,
+      "step": 120195
+    },
+    {
+      "epoch": 19.608482871125613,
+      "grad_norm": 0.001396836363710463,
+      "learning_rate": 1.1678551443867203e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 259637040,
+      "step": 120200
+    },
+    {
+      "epoch": 19.609298531810765,
+      "grad_norm": 0.004054496064782143,
+      "learning_rate": 1.1629980570982967e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 259648336,
+      "step": 120205
+    },
+    {
+      "epoch": 19.61011419249592,
+      "grad_norm": 0.017525173723697662,
+      "learning_rate": 1.1581510793745032e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 259660304,
+      "step": 120210
+    },
+    {
+      "epoch": 19.610929853181077,
+      "grad_norm": 0.00820534024387598,
+      "learning_rate": 1.153314211313594e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 259671120,
+      "step": 120215
+    },
+    {
+      "epoch": 19.611745513866232,
+      "grad_norm": 0.0011833886383101344,
+      "learning_rate": 1.1484874530136025e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 259681968,
+      "step": 120220
+    },
+    {
+      "epoch": 19.612561174551388,
+      "grad_norm": 0.01561807096004486,
+      "learning_rate": 1.1436708045723388e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 259691568,
+      "step": 120225
+    },
+    {
+      "epoch": 19.61337683523654,
+      "grad_norm": 0.0010521980002522469,
+      "learning_rate": 1.1388642660875025e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 259703248,
+      "step": 120230
+    },
+    {
+      "epoch": 19.614192495921696,
+      "grad_norm": 0.05352751538157463,
+      "learning_rate": 1.1340678376563495e-06,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 259714224,
+      "step": 120235
+    },
+    {
+      "epoch": 19.61500815660685,
+      "grad_norm": 0.00045512960059568286,
+      "learning_rate": 1.1292815193761907e-06,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 259725808,
+      "step": 120240
+    },
+    {
+      "epoch": 19.615823817292007,
+      "grad_norm": 0.27281224727630615,
+      "learning_rate": 1.1245053113440596e-06,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 259737168,
+      "step": 120245
+    },
+    {
+      "epoch": 19.616639477977163,
+      "grad_norm": 0.002132084220647812,
+      "learning_rate": 1.1197392136566565e-06,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 259747760,
+      "step": 120250
+    },
+    {
+      "epoch": 19.617455138662315,
+      "grad_norm": 0.038451775908470154,
+      "learning_rate": 1.114983226410571e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 259759632,
+      "step": 120255
+    },
+    {
+      "epoch": 19.61827079934747,
+      "grad_norm": 1.293935775756836,
+      "learning_rate": 1.110237349702281e-06,
+      "loss": 0.1449,
+      "num_input_tokens_seen": 259770672,
+      "step": 120260
+    },
+    {
+      "epoch": 19.619086460032626,
+      "grad_norm": 0.003990166820585728,
+      "learning_rate": 1.1055015836279326e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 259781360,
+      "step": 120265
+    },
+    {
+      "epoch": 19.619902120717782,
+      "grad_norm": 0.0009797315578907728,
+      "learning_rate": 1.1007759282834484e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 259792656,
+      "step": 120270
+    },
+    {
+      "epoch": 19.620717781402938,
+      "grad_norm": 0.03197610005736351,
+      "learning_rate": 1.096060383764641e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 259802288,
+      "step": 120275
+    },
+    {
+      "epoch": 19.62153344208809,
+      "grad_norm": 0.01582932658493519,
+      "learning_rate": 1.0913549501671004e-06,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 259812400,
+      "step": 120280
+    },
+    {
+      "epoch": 19.622349102773246,
+      "grad_norm": 0.0015432540094479918,
+      "learning_rate": 1.0866596275861395e-06,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 259823728,
+      "step": 120285
+    },
+    {
+      "epoch": 19.6231647634584,
+      "grad_norm": 0.0003914940753020346,
+      "learning_rate": 1.0819744161169597e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 259835408,
+      "step": 120290
+    },
+    {
+      "epoch": 19.623980424143557,
+      "grad_norm": 0.013478913344442844,
+      "learning_rate": 1.0772993158544297e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 259845616,
+      "step": 120295
+    },
+    {
+      "epoch": 19.624796084828713,
+      "grad_norm": 0.0010959201026707888,
+      "learning_rate": 1.072634326893418e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 259856464,
+      "step": 120300
+    },
+    {
+      "epoch": 19.625611745513865,
+      "grad_norm": 0.005378579255193472,
+      "learning_rate": 1.0679794493284045e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 259868720,
+      "step": 120305
+    },
+    {
+      "epoch": 19.62642740619902,
+      "grad_norm": 0.015822935849428177,
+      "learning_rate": 1.0633346832537026e-06,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 259879600,
+      "step": 120310
+    },
+    {
+      "epoch": 19.627243066884176,
+      "grad_norm": 0.0004820248286705464,
+      "learning_rate": 1.0587000287634596e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 259889232,
+      "step": 120315
+    },
+    {
+      "epoch": 19.628058727569332,
+      "grad_norm": 0.010135025717318058,
+      "learning_rate": 1.0540754859516554e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 259900240,
+      "step": 120320
+    },
+    {
+      "epoch": 19.628874388254488,
+      "grad_norm": 0.07188961654901505,
+      "learning_rate": 1.0494610549119377e-06,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 259910992,
+      "step": 120325
+    },
+    {
+      "epoch": 19.62969004893964,
+      "grad_norm": 0.010499064810574055,
+      "learning_rate": 1.0448567357378424e-06,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 259922224,
+      "step": 120330
+    },
+    {
+      "epoch": 19.630505709624796,
+      "grad_norm": 0.01909225806593895,
+      "learning_rate": 1.0402625285227396e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 259932944,
+      "step": 120335
+    },
+    {
+      "epoch": 19.63132137030995,
+      "grad_norm": 0.20919649302959442,
+      "learning_rate": 1.0356784333596658e-06,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 259944272,
+      "step": 120340
+    },
+    {
+      "epoch": 19.632137030995107,
+      "grad_norm": 0.1292264610528946,
+      "learning_rate": 1.0311044503415468e-06,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 259953232,
+      "step": 120345
+    },
+    {
+      "epoch": 19.63295269168026,
+      "grad_norm": 0.05426434054970741,
+      "learning_rate": 1.026540579561086e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 259963856,
+      "step": 120350
+    },
+    {
+      "epoch": 19.633768352365415,
+      "grad_norm": 0.00942949764430523,
+      "learning_rate": 1.0219868211108208e-06,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 259974992,
+      "step": 120355
+    },
+    {
+      "epoch": 19.63458401305057,
+      "grad_norm": 0.0067382687702775,
+      "learning_rate": 1.0174431750828993e-06,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 259986800,
+      "step": 120360
+    },
+    {
+      "epoch": 19.635399673735726,
+      "grad_norm": 0.014512408524751663,
+      "learning_rate": 1.0129096415695816e-06,
+      "loss": 0.0056,
+      "num_input_tokens_seen": 259997552,
+      "step": 120365
+    },
+    {
+      "epoch": 19.636215334420882,
+      "grad_norm": 0.006454018875956535,
+      "learning_rate": 1.008386220662627e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 260008912,
+      "step": 120370
+    },
+    {
+      "epoch": 19.637030995106034,
+      "grad_norm": 0.0028814023826271296,
+      "learning_rate": 1.0038729124537405e-06,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 260020752,
+      "step": 120375
+    },
+    {
+      "epoch": 19.63784665579119,
+      "grad_norm": 0.00044552632607519627,
+      "learning_rate": 9.993697170343485e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 260032176,
+      "step": 120380
+    },
+    {
+      "epoch": 19.638662316476346,
+      "grad_norm": 0.07475344091653824,
+      "learning_rate": 9.948766344958227e-07,
+      "loss": 0.003,
+      "num_input_tokens_seen": 260043216,
+      "step": 120385
+    },
+    {
+      "epoch": 19.6394779771615,
+      "grad_norm": 0.000331522838678211,
+      "learning_rate": 9.9039366492909e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 260054192,
+      "step": 120390
+    },
+    {
+      "epoch": 19.640293637846657,
+      "grad_norm": 0.0012437768746167421,
+      "learning_rate": 9.859208084251337e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260063792,
+      "step": 120395
+    },
+    {
+      "epoch": 19.64110929853181,
+      "grad_norm": 0.0010564016411080956,
+      "learning_rate": 9.81458065074492e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 260075120,
+      "step": 120400
+    },
+    {
+      "epoch": 19.641924959216965,
+      "grad_norm": 0.0017424465622752905,
+      "learning_rate": 9.770054349677037e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 260085456,
+      "step": 120405
+    },
+    {
+      "epoch": 19.64274061990212,
+      "grad_norm": 0.0012548412196338177,
+      "learning_rate": 9.725629181949192e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 260096080,
+      "step": 120410
+    },
+    {
+      "epoch": 19.643556280587276,
+      "grad_norm": 0.005961594637483358,
+      "learning_rate": 9.681305148462328e-07,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 260106320,
+      "step": 120415
+    },
+    {
+      "epoch": 19.644371941272432,
+      "grad_norm": 0.0003299217496532947,
+      "learning_rate": 9.63708225011406e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 260118096,
+      "step": 120420
+    },
+    {
+      "epoch": 19.645187601957584,
+      "grad_norm": 0.0025435383431613445,
+      "learning_rate": 9.59296048780145e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 260129232,
+      "step": 120425
+    },
+    {
+      "epoch": 19.64600326264274,
+      "grad_norm": 0.00037977020838297904,
+      "learning_rate": 9.54893986241767e-07,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 260139728,
+      "step": 120430
+    },
+    {
+      "epoch": 19.646818923327896,
+      "grad_norm": 0.003552139736711979,
+      "learning_rate": 9.505020374855899e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 260150800,
+      "step": 120435
+    },
+    {
+      "epoch": 19.64763458401305,
+      "grad_norm": 0.0030579909216612577,
+      "learning_rate": 9.461202026005978e-07,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 260162224,
+      "step": 120440
+    },
+    {
+      "epoch": 19.648450244698207,
+      "grad_norm": 0.010102360509335995,
+      "learning_rate": 9.417484816755528e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 260171984,
+      "step": 120445
+    },
+    {
+      "epoch": 19.64926590538336,
+      "grad_norm": 0.003113190643489361,
+      "learning_rate": 9.37386874799051e-07,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 260182672,
+      "step": 120450
+    },
+    {
+      "epoch": 19.650081566068515,
+      "grad_norm": 0.002211271785199642,
+      "learning_rate": 9.330353820595217e-07,
+      "loss": 0.0107,
+      "num_input_tokens_seen": 260192912,
+      "step": 120455
+    },
+    {
+      "epoch": 19.65089722675367,
+      "grad_norm": 0.00032293720869347453,
+      "learning_rate": 9.286940035451718e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 260204912,
+      "step": 120460
+    },
+    {
+      "epoch": 19.651712887438826,
+      "grad_norm": 0.07494331896305084,
+      "learning_rate": 9.243627393439313e-07,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 260216976,
+      "step": 120465
+    },
+    {
+      "epoch": 19.652528548123982,
+      "grad_norm": 0.0016844982746988535,
+      "learning_rate": 9.200415895436187e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 260227984,
+      "step": 120470
+    },
+    {
+      "epoch": 19.653344208809134,
+      "grad_norm": 0.0008055089274421334,
+      "learning_rate": 9.157305542317751e-07,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 260238544,
+      "step": 120475
+    },
+    {
+      "epoch": 19.65415986949429,
+      "grad_norm": 0.007196464110165834,
+      "learning_rate": 9.11429633495775e-07,
+      "loss": 0.0132,
+      "num_input_tokens_seen": 260249360,
+      "step": 120480
+    },
+    {
+      "epoch": 19.654975530179446,
+      "grad_norm": 0.001205752487294376,
+      "learning_rate": 9.071388274228264e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 260260400,
+      "step": 120485
+    },
+    {
+      "epoch": 19.6557911908646,
+      "grad_norm": 0.009604084305465221,
+      "learning_rate": 9.028581360998045e-07,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 260270032,
+      "step": 120490
+    },
+    {
+      "epoch": 19.656606851549757,
+      "grad_norm": 0.005923762917518616,
+      "learning_rate": 8.985875596135285e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 260281264,
+      "step": 120495
+    },
+    {
+      "epoch": 19.65742251223491,
+      "grad_norm": 0.003814230440184474,
+      "learning_rate": 8.943270980505957e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 260291568,
+      "step": 120500
+    },
+    {
+      "epoch": 19.658238172920065,
+      "grad_norm": 0.5724601149559021,
+      "learning_rate": 8.900767514972152e-07,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 260303920,
+      "step": 120505
+    },
+    {
+      "epoch": 19.65905383360522,
+      "grad_norm": 0.004697203170508146,
+      "learning_rate": 8.858365200395957e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260314032,
+      "step": 120510
+    },
+    {
+      "epoch": 19.659869494290376,
+      "grad_norm": 0.22248674929141998,
+      "learning_rate": 8.816064037636684e-07,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 260325008,
+      "step": 120515
+    },
+    {
+      "epoch": 19.660685154975532,
+      "grad_norm": 0.018114212900400162,
+      "learning_rate": 8.773864027551981e-07,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 260336400,
+      "step": 120520
+    },
+    {
+      "epoch": 19.661500815660684,
+      "grad_norm": 0.0033652205020189285,
+      "learning_rate": 8.73176517099672e-07,
+      "loss": 0.0051,
+      "num_input_tokens_seen": 260347888,
+      "step": 120525
+    },
+    {
+      "epoch": 19.66231647634584,
+      "grad_norm": 0.019522542133927345,
+      "learning_rate": 8.689767468824105e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 260359216,
+      "step": 120530
+    },
+    {
+      "epoch": 19.663132137030995,
+      "grad_norm": 0.023196915164589882,
+      "learning_rate": 8.647870921885126e-07,
+      "loss": 0.004,
+      "num_input_tokens_seen": 260370096,
+      "step": 120535
+    },
+    {
+      "epoch": 19.66394779771615,
+      "grad_norm": 0.3506559431552887,
+      "learning_rate": 8.606075531029101e-07,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 260380432,
+      "step": 120540
+    },
+    {
+      "epoch": 19.664763458401303,
+      "grad_norm": 0.003931544255465269,
+      "learning_rate": 8.564381297102575e-07,
+      "loss": 0.0171,
+      "num_input_tokens_seen": 260391536,
+      "step": 120545
+    },
+    {
+      "epoch": 19.66557911908646,
+      "grad_norm": 0.003058247035369277,
+      "learning_rate": 8.522788220951538e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260402320,
+      "step": 120550
+    },
+    {
+      "epoch": 19.666394779771615,
+      "grad_norm": 0.004594247788190842,
+      "learning_rate": 8.481296303418096e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 260413776,
+      "step": 120555
+    },
+    {
+      "epoch": 19.66721044045677,
+      "grad_norm": 0.006736138369888067,
+      "learning_rate": 8.439905545343796e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 260425232,
+      "step": 120560
+    },
+    {
+      "epoch": 19.668026101141926,
+      "grad_norm": 0.003108308184891939,
+      "learning_rate": 8.398615947566302e-07,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 260435792,
+      "step": 120565
+    },
+    {
+      "epoch": 19.66884176182708,
+      "grad_norm": 0.0003533684357535094,
+      "learning_rate": 8.357427510923832e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 260446320,
+      "step": 120570
+    },
+    {
+      "epoch": 19.669657422512234,
+      "grad_norm": 0.0026117609813809395,
+      "learning_rate": 8.316340236249609e-07,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 260458160,
+      "step": 120575
+    },
+    {
+      "epoch": 19.67047308319739,
+      "grad_norm": 0.0008695587166585028,
+      "learning_rate": 8.275354124377965e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260469712,
+      "step": 120580
+    },
+    {
+      "epoch": 19.671288743882545,
+      "grad_norm": 0.002099714009091258,
+      "learning_rate": 8.234469176138238e-07,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 260481296,
+      "step": 120585
+    },
+    {
+      "epoch": 19.6721044045677,
+      "grad_norm": 0.008611966855823994,
+      "learning_rate": 8.193685392359762e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 260490928,
+      "step": 120590
+    },
+    {
+      "epoch": 19.672920065252853,
+      "grad_norm": 0.0001795227435650304,
+      "learning_rate": 8.153002773868546e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260501648,
+      "step": 120595
+    },
+    {
+      "epoch": 19.67373572593801,
+      "grad_norm": 0.005488082300871611,
+      "learning_rate": 8.112421321489483e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 260512272,
+      "step": 120600
+    },
+    {
+      "epoch": 19.674551386623165,
+      "grad_norm": 0.0002953264338430017,
+      "learning_rate": 8.07194103604525e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 260523088,
+      "step": 120605
+    },
+    {
+      "epoch": 19.67536704730832,
+      "grad_norm": 0.009819312021136284,
+      "learning_rate": 8.03156191835519e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 260534512,
+      "step": 120610
+    },
+    {
+      "epoch": 19.676182707993476,
+      "grad_norm": 0.0009091253159567714,
+      "learning_rate": 7.99128396923865e-07,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 260543280,
+      "step": 120615
+    },
+    {
+      "epoch": 19.67699836867863,
+      "grad_norm": 0.022837691009044647,
+      "learning_rate": 7.951107189511641e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 260553712,
+      "step": 120620
+    },
+    {
+      "epoch": 19.677814029363784,
+      "grad_norm": 0.0009270032169297338,
+      "learning_rate": 7.91103157998796e-07,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 260563632,
+      "step": 120625
+    },
+    {
+      "epoch": 19.67862969004894,
+      "grad_norm": 0.4371551275253296,
+      "learning_rate": 7.871057141480287e-07,
+      "loss": 0.0252,
+      "num_input_tokens_seen": 260573808,
+      "step": 120630
+    },
+    {
+      "epoch": 19.679445350734095,
+      "grad_norm": 0.0009796569356694818,
+      "learning_rate": 7.831183874798531e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260585808,
+      "step": 120635
+    },
+    {
+      "epoch": 19.68026101141925,
+      "grad_norm": 0.00811771210283041,
+      "learning_rate": 7.791411780750935e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 260596400,
+      "step": 120640
+    },
+    {
+      "epoch": 19.681076672104403,
+      "grad_norm": 0.20137394964694977,
+      "learning_rate": 7.751740860143519e-07,
+      "loss": 0.0064,
+      "num_input_tokens_seen": 260606640,
+      "step": 120645
+    },
+    {
+      "epoch": 19.68189233278956,
+      "grad_norm": 0.013613549061119556,
+      "learning_rate": 7.712171113780086e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 260618000,
+      "step": 120650
+    },
+    {
+      "epoch": 19.682707993474715,
+      "grad_norm": 0.0029773954302072525,
+      "learning_rate": 7.672702542462773e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 260629264,
+      "step": 120655
+    },
+    {
+      "epoch": 19.68352365415987,
+      "grad_norm": 0.0026561871636658907,
+      "learning_rate": 7.633335146991493e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 260640368,
+      "step": 120660
+    },
+    {
+      "epoch": 19.684339314845026,
+      "grad_norm": 0.009900989942252636,
+      "learning_rate": 7.594068928163944e-07,
+      "loss": 0.0137,
+      "num_input_tokens_seen": 260650768,
+      "step": 120665
+    },
+    {
+      "epoch": 19.68515497553018,
+      "grad_norm": 0.018907103687524796,
+      "learning_rate": 7.554903886775599e-07,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 260661680,
+      "step": 120670
+    },
+    {
+      "epoch": 19.685970636215334,
+      "grad_norm": 0.0027872032951563597,
+      "learning_rate": 7.515840023620824e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 260673584,
+      "step": 120675
+    },
+    {
+      "epoch": 19.68678629690049,
+      "grad_norm": 0.011443251743912697,
+      "learning_rate": 7.476877339490651e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 260684912,
+      "step": 120680
+    },
+    {
+      "epoch": 19.687601957585645,
+      "grad_norm": 0.06114175543189049,
+      "learning_rate": 7.438015835175005e-07,
+      "loss": 0.0086,
+      "num_input_tokens_seen": 260694864,
+      "step": 120685
+    },
+    {
+      "epoch": 19.6884176182708,
+      "grad_norm": 0.0009734915802255273,
+      "learning_rate": 7.399255511461589e-07,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 260704592,
+      "step": 120690
+    },
+    {
+      "epoch": 19.689233278955953,
+      "grad_norm": 0.0013609203742817044,
+      "learning_rate": 7.360596369135886e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260715888,
+      "step": 120695
+    },
+    {
+      "epoch": 19.69004893964111,
+      "grad_norm": 0.003440382657572627,
+      "learning_rate": 7.322038408981157e-07,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 260725840,
+      "step": 120700
+    },
+    {
+      "epoch": 19.690864600326265,
+      "grad_norm": 0.0012171886628493667,
+      "learning_rate": 7.283581631779002e-07,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 260736368,
+      "step": 120705
+    },
+    {
+      "epoch": 19.69168026101142,
+      "grad_norm": 0.015224111266434193,
+      "learning_rate": 7.245226038308794e-07,
+      "loss": 0.0876,
+      "num_input_tokens_seen": 260745648,
+      "step": 120710
+    },
+    {
+      "epoch": 19.692495921696576,
+      "grad_norm": 0.007610964123159647,
+      "learning_rate": 7.206971629348246e-07,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 260755888,
+      "step": 120715
+    },
+    {
+      "epoch": 19.693311582381728,
+      "grad_norm": 0.0033253964502364397,
+      "learning_rate": 7.16881840567174e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 260766768,
+      "step": 120720
+    },
+    {
+      "epoch": 19.694127243066884,
+      "grad_norm": 0.0012907941127195954,
+      "learning_rate": 7.130766368053099e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 260778576,
+      "step": 120725
+    },
+    {
+      "epoch": 19.69494290375204,
+      "grad_norm": 0.03420671820640564,
+      "learning_rate": 7.092815517263373e-07,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 260789136,
+      "step": 120730
+    },
+    {
+      "epoch": 19.695758564437195,
+      "grad_norm": 0.00766712473705411,
+      "learning_rate": 7.054965854071948e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 260800496,
+      "step": 120735
+    },
+    {
+      "epoch": 19.696574225122347,
+      "grad_norm": 0.0032816394232213497,
+      "learning_rate": 7.017217379245433e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 260812048,
+      "step": 120740
+    },
+    {
+      "epoch": 19.697389885807503,
+      "grad_norm": 0.0004926707479171455,
+      "learning_rate": 6.979570093548771e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260823984,
+      "step": 120745
+    },
+    {
+      "epoch": 19.69820554649266,
+      "grad_norm": 0.0021867440082132816,
+      "learning_rate": 6.942023997745794e-07,
+      "loss": 0.0431,
+      "num_input_tokens_seen": 260834800,
+      "step": 120750
+    },
+    {
+      "epoch": 19.699021207177815,
+      "grad_norm": 0.0003217519260942936,
+      "learning_rate": 6.904579092596452e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 260845744,
+      "step": 120755
+    },
+    {
+      "epoch": 19.69983686786297,
+      "grad_norm": 0.003933432046324015,
+      "learning_rate": 6.867235378860137e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260856112,
+      "step": 120760
+    },
+    {
+      "epoch": 19.700652528548122,
+      "grad_norm": 0.0009351072367280722,
+      "learning_rate": 6.829992857293465e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 260867440,
+      "step": 120765
+    },
+    {
+      "epoch": 19.701468189233278,
+      "grad_norm": 0.022774334996938705,
+      "learning_rate": 6.792851528651389e-07,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 260877936,
+      "step": 120770
+    },
+    {
+      "epoch": 19.702283849918434,
+      "grad_norm": 0.0001839139877120033,
+      "learning_rate": 6.755811393686084e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 260889808,
+      "step": 120775
+    },
+    {
+      "epoch": 19.70309951060359,
+      "grad_norm": 0.012218792922794819,
+      "learning_rate": 6.718872453149172e-07,
+      "loss": 0.002,
+      "num_input_tokens_seen": 260901520,
+      "step": 120780
+    },
+    {
+      "epoch": 19.703915171288745,
+      "grad_norm": 0.009069071151316166,
+      "learning_rate": 6.682034707788386e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 260911184,
+      "step": 120785
+    },
+    {
+      "epoch": 19.704730831973897,
+      "grad_norm": 0.0019039036706089973,
+      "learning_rate": 6.645298158350909e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 260921008,
+      "step": 120790
+    },
+    {
+      "epoch": 19.705546492659053,
+      "grad_norm": 0.002577113453298807,
+      "learning_rate": 6.608662805580589e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 260933104,
+      "step": 120795
+    },
+    {
+      "epoch": 19.70636215334421,
+      "grad_norm": 0.004389368463307619,
+      "learning_rate": 6.572128650220721e-07,
+      "loss": 0.0044,
+      "num_input_tokens_seen": 260943728,
+      "step": 120800
+    },
+    {
+      "epoch": 19.707177814029365,
+      "grad_norm": 0.00035338502493686974,
+      "learning_rate": 6.535695693011268e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 260953008,
+      "step": 120805
+    },
+    {
+      "epoch": 19.70799347471452,
+      "grad_norm": 0.0008030373719520867,
+      "learning_rate": 6.499363934690528e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 260964400,
+      "step": 120810
+    },
+    {
+      "epoch": 19.708809135399672,
+      "grad_norm": 0.00022977576008997858,
+      "learning_rate": 6.463133375994579e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 260974096,
+      "step": 120815
+    },
+    {
+      "epoch": 19.709624796084828,
+      "grad_norm": 0.0035287451464682817,
+      "learning_rate": 6.427004017658389e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 260985296,
+      "step": 120820
+    },
+    {
+      "epoch": 19.710440456769984,
+      "grad_norm": 0.011943004094064236,
+      "learning_rate": 6.390975860413594e-07,
+      "loss": 0.003,
+      "num_input_tokens_seen": 260996368,
+      "step": 120825
+    },
+    {
+      "epoch": 19.71125611745514,
+      "grad_norm": 0.06614907085895538,
+      "learning_rate": 6.355048904990724e-07,
+      "loss": 0.0653,
+      "num_input_tokens_seen": 261006608,
+      "step": 120830
+    },
+    {
+      "epoch": 19.712071778140295,
+      "grad_norm": 0.006899102125316858,
+      "learning_rate": 6.319223152117526e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 261018032,
+      "step": 120835
+    },
+    {
+      "epoch": 19.712887438825447,
+      "grad_norm": 0.010936878621578217,
+      "learning_rate": 6.283498602520088e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 261029104,
+      "step": 120840
+    },
+    {
+      "epoch": 19.713703099510603,
+      "grad_norm": 0.0007386531797237694,
+      "learning_rate": 6.247875256922275e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 261038480,
+      "step": 120845
+    },
+    {
+      "epoch": 19.71451876019576,
+      "grad_norm": 0.24150149524211884,
+      "learning_rate": 6.212353116046843e-07,
+      "loss": 0.0099,
+      "num_input_tokens_seen": 261048656,
+      "step": 120850
+    },
+    {
+      "epoch": 19.715334420880914,
+      "grad_norm": 0.001007181708700955,
+      "learning_rate": 6.17693218061266e-07,
+      "loss": 0.1039,
+      "num_input_tokens_seen": 261060816,
+      "step": 120855
+    },
+    {
+      "epoch": 19.71615008156607,
+      "grad_norm": 0.0009667161502875388,
+      "learning_rate": 6.141612451338596e-07,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 261071568,
+      "step": 120860
+    },
+    {
+      "epoch": 19.716965742251222,
+      "grad_norm": 0.019680418074131012,
+      "learning_rate": 6.106393928939635e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 261083184,
+      "step": 120865
+    },
+    {
+      "epoch": 19.717781402936378,
+      "grad_norm": 0.000474753585876897,
+      "learning_rate": 6.07127661412965e-07,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 261094928,
+      "step": 120870
+    },
+    {
+      "epoch": 19.718597063621534,
+      "grad_norm": 0.0027427682653069496,
+      "learning_rate": 6.036260507620849e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 261105840,
+      "step": 120875
+    },
+    {
+      "epoch": 19.71941272430669,
+      "grad_norm": 0.03328926861286163,
+      "learning_rate": 6.001345610122111e-07,
+      "loss": 0.005,
+      "num_input_tokens_seen": 261116336,
+      "step": 120880
+    },
+    {
+      "epoch": 19.72022838499184,
+      "grad_norm": 0.0030891122296452522,
+      "learning_rate": 5.966531922341756e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 261128496,
+      "step": 120885
+    },
+    {
+      "epoch": 19.721044045676997,
+      "grad_norm": 0.0007997844368219376,
+      "learning_rate": 5.931819444984777e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 261139440,
+      "step": 120890
+    },
+    {
+      "epoch": 19.721859706362153,
+      "grad_norm": 0.0012421332066878676,
+      "learning_rate": 5.897208178755054e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 261150192,
+      "step": 120895
+    },
+    {
+      "epoch": 19.72267536704731,
+      "grad_norm": 0.0008974650991149247,
+      "learning_rate": 5.862698124353694e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 261159824,
+      "step": 120900
+    },
+    {
+      "epoch": 19.723491027732464,
+      "grad_norm": 0.08313114941120148,
+      "learning_rate": 5.828289282480692e-07,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 261170960,
+      "step": 120905
+    },
+    {
+      "epoch": 19.724306688417617,
+      "grad_norm": 0.010251346975564957,
+      "learning_rate": 5.793981653832714e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 261182000,
+      "step": 120910
+    },
+    {
+      "epoch": 19.725122349102772,
+      "grad_norm": 0.0011222073808312416,
+      "learning_rate": 5.759775239105314e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 261193168,
+      "step": 120915
+    },
+    {
+      "epoch": 19.725938009787928,
+      "grad_norm": 0.0014564159791916609,
+      "learning_rate": 5.72567003899127e-07,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 261203856,
+      "step": 120920
+    },
+    {
+      "epoch": 19.726753670473084,
+      "grad_norm": 0.0033955418039113283,
+      "learning_rate": 5.691666054182809e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 261215088,
+      "step": 120925
+    },
+    {
+      "epoch": 19.72756933115824,
+      "grad_norm": 0.0031751454807817936,
+      "learning_rate": 5.657763285368267e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 261226512,
+      "step": 120930
+    },
+    {
+      "epoch": 19.72838499184339,
+      "grad_norm": 0.00040086961234919727,
+      "learning_rate": 5.623961733234873e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 261237040,
+      "step": 120935
+    },
+    {
+      "epoch": 19.729200652528547,
+      "grad_norm": 0.005273323971778154,
+      "learning_rate": 5.590261398467633e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 261248624,
+      "step": 120940
+    },
+    {
+      "epoch": 19.730016313213703,
+      "grad_norm": 0.00022064868244342506,
+      "learning_rate": 5.556662281749891e-07,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 261259248,
+      "step": 120945
+    },
+    {
+      "epoch": 19.73083197389886,
+      "grad_norm": 0.011284386739134789,
+      "learning_rate": 5.523164383762213e-07,
+      "loss": 0.0179,
+      "num_input_tokens_seen": 261269584,
+      "step": 120950
+    },
+    {
+      "epoch": 19.731647634584014,
+      "grad_norm": 0.19131779670715332,
+      "learning_rate": 5.489767705183501e-07,
+      "loss": 0.038,
+      "num_input_tokens_seen": 261280688,
+      "step": 120955
+    },
+    {
+      "epoch": 19.732463295269167,
+      "grad_norm": 0.0009722855174914002,
+      "learning_rate": 5.456472246690436e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 261290512,
+      "step": 120960
+    },
+    {
+      "epoch": 19.733278955954322,
+      "grad_norm": 0.03766850382089615,
+      "learning_rate": 5.423278008958032e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 261300880,
+      "step": 120965
+    },
+    {
+      "epoch": 19.734094616639478,
+      "grad_norm": 0.05344652757048607,
+      "learning_rate": 5.390184992659641e-07,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 261311760,
+      "step": 120970
+    },
+    {
+      "epoch": 19.734910277324634,
+      "grad_norm": 0.002851302269846201,
+      "learning_rate": 5.357193198464727e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 261323760,
+      "step": 120975
+    },
+    {
+      "epoch": 19.73572593800979,
+      "grad_norm": 0.28350090980529785,
+      "learning_rate": 5.324302627042199e-07,
+      "loss": 0.0059,
+      "num_input_tokens_seen": 261334704,
+      "step": 120980
+    },
+    {
+      "epoch": 19.73654159869494,
+      "grad_norm": 0.005798796657472849,
+      "learning_rate": 5.291513279059301e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 261345616,
+      "step": 120985
+    },
+    {
+      "epoch": 19.737357259380097,
+      "grad_norm": 0.004781166557222605,
+      "learning_rate": 5.258825155179948e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 261357168,
+      "step": 120990
+    },
+    {
+      "epoch": 19.738172920065253,
+      "grad_norm": 0.001854881877079606,
+      "learning_rate": 5.226238256066384e-07,
+      "loss": 0.1473,
+      "num_input_tokens_seen": 261368848,
+      "step": 120995
+    },
+    {
+      "epoch": 19.73898858075041,
+      "grad_norm": 0.019145376980304718,
+      "learning_rate": 5.193752582379752e-07,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 261379504,
+      "step": 121000
+    },
+    {
+      "epoch": 19.739804241435564,
+      "grad_norm": 0.0002677353622857481,
+      "learning_rate": 5.16136813477841e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 261390224,
+      "step": 121005
+    },
+    {
+      "epoch": 19.740619902120716,
+      "grad_norm": 0.0040374575182795525,
+      "learning_rate": 5.129084913917948e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 261401424,
+      "step": 121010
+    },
+    {
+      "epoch": 19.741435562805872,
+      "grad_norm": 0.11591839045286179,
+      "learning_rate": 5.096902920453395e-07,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 261412752,
+      "step": 121015
+    },
+    {
+      "epoch": 19.742251223491028,
+      "grad_norm": 0.0011770358541980386,
+      "learning_rate": 5.064822155036453e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 261424208,
+      "step": 121020
+    },
+    {
+      "epoch": 19.743066884176184,
+      "grad_norm": 0.0017884820699691772,
+      "learning_rate": 5.032842618317157e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 261435344,
+      "step": 121025
+    },
+    {
+      "epoch": 19.74388254486134,
+      "grad_norm": 0.2122792750597,
+      "learning_rate": 5.000964310943878e-07,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 261445520,
+      "step": 121030
+    },
+    {
+      "epoch": 19.74469820554649,
+      "grad_norm": 0.0012699973303824663,
+      "learning_rate": 4.969187233562767e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 261455728,
+      "step": 121035
+    },
+    {
+      "epoch": 19.745513866231647,
+      "grad_norm": 0.0003483338514342904,
+      "learning_rate": 4.937511386817751e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 261466512,
+      "step": 121040
+    },
+    {
+      "epoch": 19.746329526916803,
+      "grad_norm": 0.00047351993271149695,
+      "learning_rate": 4.905936771351094e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 261477936,
+      "step": 121045
+    },
+    {
+      "epoch": 19.74714518760196,
+      "grad_norm": 0.0007477999897673726,
+      "learning_rate": 4.874463387801731e-07,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 261488912,
+      "step": 121050
+    },
+    {
+      "epoch": 19.747960848287114,
+      "grad_norm": 0.032901830971241,
+      "learning_rate": 4.843091236808594e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 261499024,
+      "step": 121055
+    },
+    {
+      "epoch": 19.748776508972266,
+      "grad_norm": 0.0010255652014166117,
+      "learning_rate": 4.811820319006732e-07,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 261509328,
+      "step": 121060
+    },
+    {
+      "epoch": 19.749592169657422,
+      "grad_norm": 0.05027930438518524,
+      "learning_rate": 4.780650635030081e-07,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 261521136,
+      "step": 121065
+    },
+    {
+      "epoch": 19.750407830342578,
+      "grad_norm": 0.0001708085328573361,
+      "learning_rate": 4.7495821855109145e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 261531824,
+      "step": 121070
+    },
+    {
+      "epoch": 19.751223491027734,
+      "grad_norm": 0.0003755021607503295,
+      "learning_rate": 4.718614971078172e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 261543120,
+      "step": 121075
+    },
+    {
+      "epoch": 19.752039151712886,
+      "grad_norm": 0.0013738623820245266,
+      "learning_rate": 4.6877489923596863e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 261552464,
+      "step": 121080
+    },
+    {
+      "epoch": 19.75285481239804,
+      "grad_norm": 0.00029178871773183346,
+      "learning_rate": 4.6569842499805113e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 261563088,
+      "step": 121085
+    },
+    {
+      "epoch": 19.753670473083197,
+      "grad_norm": 0.0012256011832505465,
+      "learning_rate": 4.626320744565149e-07,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 261574672,
+      "step": 121090
+    },
+    {
+      "epoch": 19.754486133768353,
+      "grad_norm": 0.06535517424345016,
+      "learning_rate": 4.5957584767342133e-07,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 261586224,
+      "step": 121095
+    },
+    {
+      "epoch": 19.75530179445351,
+      "grad_norm": 0.437174916267395,
+      "learning_rate": 4.5652974471077637e-07,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 261597552,
+      "step": 121100
+    },
+    {
+      "epoch": 19.75611745513866,
+      "grad_norm": 0.0011823754757642746,
+      "learning_rate": 4.534937656301974e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 261609264,
+      "step": 121105
+    },
+    {
+      "epoch": 19.756933115823816,
+      "grad_norm": 0.00021741993259638548,
+      "learning_rate": 4.5046791049335733e-07,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 261620400,
+      "step": 121110
+    },
+    {
+      "epoch": 19.757748776508972,
+      "grad_norm": 0.007211287505924702,
+      "learning_rate": 4.47452179361485e-07,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 261631632,
+      "step": 121115
+    },
+    {
+      "epoch": 19.758564437194128,
+      "grad_norm": 0.02904735691845417,
+      "learning_rate": 4.444465722956981e-07,
+      "loss": 0.1387,
+      "num_input_tokens_seen": 261641168,
+      "step": 121120
+    },
+    {
+      "epoch": 19.759380097879284,
+      "grad_norm": 0.02278851345181465,
+      "learning_rate": 4.414510893569479e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 261652016,
+      "step": 121125
+    },
+    {
+      "epoch": 19.760195758564436,
+      "grad_norm": 0.0007043814403004944,
+      "learning_rate": 4.384657306059636e-07,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 261662544,
+      "step": 121130
+    },
+    {
+      "epoch": 19.76101141924959,
+      "grad_norm": 0.0009921282762661576,
+      "learning_rate": 4.354904961031414e-07,
+      "loss": 0.0096,
+      "num_input_tokens_seen": 261671888,
+      "step": 121135
+    },
+    {
+      "epoch": 19.761827079934747,
+      "grad_norm": 0.017717812210321426,
+      "learning_rate": 4.3252538590893285e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 261682928,
+      "step": 121140
+    },
+    {
+      "epoch": 19.762642740619903,
+      "grad_norm": 0.04009336233139038,
+      "learning_rate": 4.2957040008323456e-07,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 261693520,
+      "step": 121145
+    },
+    {
+      "epoch": 19.76345840130506,
+      "grad_norm": 0.1430460810661316,
+      "learning_rate": 4.266255386861095e-07,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 261704432,
+      "step": 121150
+    },
+    {
+      "epoch": 19.76427406199021,
+      "grad_norm": 0.011360394768416882,
+      "learning_rate": 4.2369080177717676e-07,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 261715568,
+      "step": 121155
+    },
+    {
+      "epoch": 19.765089722675366,
+      "grad_norm": 0.006870058830827475,
+      "learning_rate": 4.2076618941588875e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 261725008,
+      "step": 121160
+    },
+    {
+      "epoch": 19.765905383360522,
+      "grad_norm": 0.01938176155090332,
+      "learning_rate": 4.178517016615313e-07,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 261734992,
+      "step": 121165
+    },
+    {
+      "epoch": 19.766721044045678,
+      "grad_norm": 0.002593178069218993,
+      "learning_rate": 4.1494733857322385e-07,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 261746864,
+      "step": 121170
+    },
+    {
+      "epoch": 19.767536704730833,
+      "grad_norm": 0.00021053437376394868,
+      "learning_rate": 4.120531002096972e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 261757648,
+      "step": 121175
+    },
+    {
+      "epoch": 19.768352365415986,
+      "grad_norm": 0.0394943468272686,
+      "learning_rate": 4.091689866297377e-07,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 261769104,
+      "step": 121180
+    },
+    {
+      "epoch": 19.76916802610114,
+      "grad_norm": 0.02225523442029953,
+      "learning_rate": 4.0629499789174293e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 261780432,
+      "step": 121185
+    },
+    {
+      "epoch": 19.769983686786297,
+      "grad_norm": 0.00019127337145619094,
+      "learning_rate": 4.034311340539443e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 261791312,
+      "step": 121190
+    },
+    {
+      "epoch": 19.770799347471453,
+      "grad_norm": 0.0008985060267150402,
+      "learning_rate": 4.005773951744063e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 261802416,
+      "step": 121195
+    },
+    {
+      "epoch": 19.77161500815661,
+      "grad_norm": 0.208012193441391,
+      "learning_rate": 3.977337813109716e-07,
+      "loss": 0.0042,
+      "num_input_tokens_seen": 261813328,
+      "step": 121200
+    },
+    {
+      "epoch": 19.77243066884176,
+      "grad_norm": 0.0006497858557850122,
+      "learning_rate": 3.949002925212053e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 261824464,
+      "step": 121205
+    },
+    {
+      "epoch": 19.773246329526916,
+      "grad_norm": 0.0009609381668269634,
+      "learning_rate": 3.920769288626169e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 261834416,
+      "step": 121210
+    },
+    {
+      "epoch": 19.774061990212072,
+      "grad_norm": 0.013297447003424168,
+      "learning_rate": 3.8926369039238295e-07,
+      "loss": 0.0395,
+      "num_input_tokens_seen": 261844944,
+      "step": 121215
+    },
+    {
+      "epoch": 19.774877650897228,
+      "grad_norm": 0.0035913216415792704,
+      "learning_rate": 3.864605771675134e-07,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 261855120,
+      "step": 121220
+    },
+    {
+      "epoch": 19.775693311582383,
+      "grad_norm": 0.0012953771511092782,
+      "learning_rate": 3.8366758924479605e-07,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 261865488,
+      "step": 121225
+    },
+    {
+      "epoch": 19.776508972267536,
+      "grad_norm": 0.0031643963884562254,
+      "learning_rate": 3.808847266809079e-07,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 261876752,
+      "step": 121230
+    },
+    {
+      "epoch": 19.77732463295269,
+      "grad_norm": 0.0012785486178472638,
+      "learning_rate": 3.781119895321927e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 261887728,
+      "step": 121235
+    },
+    {
+      "epoch": 19.778140293637847,
+      "grad_norm": 0.1394270658493042,
+      "learning_rate": 3.753493778548278e-07,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 261899056,
+      "step": 121240
+    },
+    {
+      "epoch": 19.778955954323003,
+      "grad_norm": 0.18898367881774902,
+      "learning_rate": 3.725968917048794e-07,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 261909200,
+      "step": 121245
+    },
+    {
+      "epoch": 19.77977161500816,
+      "grad_norm": 0.047763291746377945,
+      "learning_rate": 3.6985453113802525e-07,
+      "loss": 0.0452,
+      "num_input_tokens_seen": 261920304,
+      "step": 121250
+    },
+    {
+      "epoch": 19.78058727569331,
+      "grad_norm": 0.006899984087795019,
+      "learning_rate": 3.6712229620988744e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 261931952,
+      "step": 121255
+    },
+    {
+      "epoch": 19.781402936378466,
+      "grad_norm": 0.0034642857499420643,
+      "learning_rate": 3.644001869758662e-07,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 261944080,
+      "step": 121260
+    },
+    {
+      "epoch": 19.782218597063622,
+      "grad_norm": 0.2206059992313385,
+      "learning_rate": 3.616882034911395e-07,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 261955888,
+      "step": 121265
+    },
+    {
+      "epoch": 19.783034257748778,
+      "grad_norm": 0.007103486452251673,
+      "learning_rate": 3.58986345810608e-07,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 261966960,
+      "step": 121270
+    },
+    {
+      "epoch": 19.78384991843393,
+      "grad_norm": 0.0023222120944410563,
+      "learning_rate": 3.56294613989061e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 261978224,
+      "step": 121275
+    },
+    {
+      "epoch": 19.784665579119086,
+      "grad_norm": 0.0007937622140161693,
+      "learning_rate": 3.5361300808106625e-07,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 261988208,
+      "step": 121280
+    },
+    {
+      "epoch": 19.78548123980424,
+      "grad_norm": 0.08231380581855774,
+      "learning_rate": 3.509415281409134e-07,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 261998960,
+      "step": 121285
+    },
+    {
+      "epoch": 19.786296900489397,
+      "grad_norm": 0.001557769370265305,
+      "learning_rate": 3.4828017422278146e-07,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 262010288,
+      "step": 121290
+    },
+    {
+      "epoch": 19.787112561174553,
+      "grad_norm": 0.00967491790652275,
+      "learning_rate": 3.4562894638062727e-07,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 262020816,
+      "step": 121295
+    },
+    {
+      "epoch": 19.787928221859705,
+      "grad_norm": 0.06240087002515793,
+      "learning_rate": 3.4298784466818553e-07,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 262032528,
+      "step": 121300
+    },
+    {
+      "epoch": 19.78874388254486,
+      "grad_norm": 0.015026670880615711,
+      "learning_rate": 3.403568691389136e-07,
+      "loss": 0.0316,
+      "num_input_tokens_seen": 262043600,
+      "step": 121305
+    },
+    {
+      "epoch": 19.789559543230016,
+      "grad_norm": 0.018473364412784576,
+      "learning_rate": 3.3773601984615766e-07,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 262055952,
+      "step": 121310
+    },
+    {
+      "epoch": 19.790375203915172,
+      "grad_norm": 0.007226514630019665,
+      "learning_rate": 3.3512529684309736e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262067280,
+      "step": 121315
+    },
+    {
+      "epoch": 19.791190864600328,
+      "grad_norm": 0.004439678508788347,
+      "learning_rate": 3.325247001825793e-07,
+      "loss": 0.0079,
+      "num_input_tokens_seen": 262077968,
+      "step": 121320
+    },
+    {
+      "epoch": 19.79200652528548,
+      "grad_norm": 0.15969239175319672,
+      "learning_rate": 3.299342299172836e-07,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 262089072,
+      "step": 121325
+    },
+    {
+      "epoch": 19.792822185970635,
+      "grad_norm": 0.004921938292682171,
+      "learning_rate": 3.2735388609977936e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 262099184,
+      "step": 121330
+    },
+    {
+      "epoch": 19.79363784665579,
+      "grad_norm": 0.0014474753988906741,
+      "learning_rate": 3.24783668782358e-07,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 262110480,
+      "step": 121335
+    },
+    {
+      "epoch": 19.794453507340947,
+      "grad_norm": 0.0009749328601174057,
+      "learning_rate": 3.222235780170335e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 262120240,
+      "step": 121340
+    },
+    {
+      "epoch": 19.795269168026103,
+      "grad_norm": 0.0023331588599830866,
+      "learning_rate": 3.196736138557088e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262132272,
+      "step": 121345
+    },
+    {
+      "epoch": 19.796084828711255,
+      "grad_norm": 0.0006216101464815438,
+      "learning_rate": 3.171337763501203e-07,
+      "loss": 0.0071,
+      "num_input_tokens_seen": 262142736,
+      "step": 121350
+    },
+    {
+      "epoch": 19.79690048939641,
+      "grad_norm": 0.0431019552052021,
+      "learning_rate": 3.146040655517268e-07,
+      "loss": 0.0047,
+      "num_input_tokens_seen": 262153552,
+      "step": 121355
+    },
+    {
+      "epoch": 19.797716150081566,
+      "grad_norm": 0.0003282705438323319,
+      "learning_rate": 3.1208448151176516e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 262164240,
+      "step": 121360
+    },
+    {
+      "epoch": 19.798531810766722,
+      "grad_norm": 0.0002833571925293654,
+      "learning_rate": 3.0957502428130557e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 262176656,
+      "step": 121365
+    },
+    {
+      "epoch": 19.799347471451878,
+      "grad_norm": 0.0010412463452666998,
+      "learning_rate": 3.070756939111963e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 262186448,
+      "step": 121370
+    },
+    {
+      "epoch": 19.80016313213703,
+      "grad_norm": 0.0002267042436869815,
+      "learning_rate": 3.0458649045211895e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 262196592,
+      "step": 121375
+    },
+    {
+      "epoch": 19.800978792822185,
+      "grad_norm": 0.03307168558239937,
+      "learning_rate": 3.021074139545332e-07,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 262207728,
+      "step": 121380
+    },
+    {
+      "epoch": 19.80179445350734,
+      "grad_norm": 0.007719150744378567,
+      "learning_rate": 2.996384644686212e-07,
+      "loss": 0.0411,
+      "num_input_tokens_seen": 262219760,
+      "step": 121385
+    },
+    {
+      "epoch": 19.802610114192497,
+      "grad_norm": 0.0004898576298728585,
+      "learning_rate": 2.971796420444539e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 262230256,
+      "step": 121390
+    },
+    {
+      "epoch": 19.803425774877653,
+      "grad_norm": 0.15931858122348785,
+      "learning_rate": 2.947309467318804e-07,
+      "loss": 0.005,
+      "num_input_tokens_seen": 262241776,
+      "step": 121395
+    },
+    {
+      "epoch": 19.804241435562805,
+      "grad_norm": 0.0005706818192265928,
+      "learning_rate": 2.922923785804721e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 262252304,
+      "step": 121400
+    },
+    {
+      "epoch": 19.80505709624796,
+      "grad_norm": 0.0008127331384457648,
+      "learning_rate": 2.898639376396894e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 262262736,
+      "step": 121405
+    },
+    {
+      "epoch": 19.805872756933116,
+      "grad_norm": 0.014661543071269989,
+      "learning_rate": 2.8744562395877083e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 262275280,
+      "step": 121410
+    },
+    {
+      "epoch": 19.806688417618272,
+      "grad_norm": 0.00010798094444908202,
+      "learning_rate": 2.850374375866216e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 262284560,
+      "step": 121415
+    },
+    {
+      "epoch": 19.807504078303424,
+      "grad_norm": 0.015252824872732162,
+      "learning_rate": 2.826393785722026e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262294864,
+      "step": 121420
+    },
+    {
+      "epoch": 19.80831973898858,
+      "grad_norm": 0.024584434926509857,
+      "learning_rate": 2.80251446963975e-07,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 262305584,
+      "step": 121425
+    },
+    {
+      "epoch": 19.809135399673735,
+      "grad_norm": 0.000190110455150716,
+      "learning_rate": 2.778736428104556e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262317040,
+      "step": 121430
+    },
+    {
+      "epoch": 19.80995106035889,
+      "grad_norm": 0.030826276168227196,
+      "learning_rate": 2.75505966159717e-07,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 262328336,
+      "step": 121435
+    },
+    {
+      "epoch": 19.810766721044047,
+      "grad_norm": 0.00027534199762158096,
+      "learning_rate": 2.73148417059832e-07,
+      "loss": 0.0045,
+      "num_input_tokens_seen": 262338928,
+      "step": 121440
+    },
+    {
+      "epoch": 19.8115823817292,
+      "grad_norm": 0.0006019662832841277,
+      "learning_rate": 2.708009955584845e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262350896,
+      "step": 121445
+    },
+    {
+      "epoch": 19.812398042414355,
+      "grad_norm": 0.00021458462288137525,
+      "learning_rate": 2.684637017033587e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 262360976,
+      "step": 121450
+    },
+    {
+      "epoch": 19.81321370309951,
+      "grad_norm": 0.0041677881963551044,
+      "learning_rate": 2.6613653554175e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262371824,
+      "step": 121455
+    },
+    {
+      "epoch": 19.814029363784666,
+      "grad_norm": 0.00046735754585824907,
+      "learning_rate": 2.6381949712089846e-07,
+      "loss": 0.017,
+      "num_input_tokens_seen": 262382320,
+      "step": 121460
+    },
+    {
+      "epoch": 19.81484502446982,
+      "grad_norm": 0.0006864400929771364,
+      "learning_rate": 2.6151258648765553e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 262392624,
+      "step": 121465
+    },
+    {
+      "epoch": 19.815660685154974,
+      "grad_norm": 0.0004593665653374046,
+      "learning_rate": 2.59215803688817e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 262403792,
+      "step": 121470
+    },
+    {
+      "epoch": 19.81647634584013,
+      "grad_norm": 0.00036628826637752354,
+      "learning_rate": 2.5692914877090135e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 262414800,
+      "step": 121475
+    },
+    {
+      "epoch": 19.817292006525285,
+      "grad_norm": 0.002507440047338605,
+      "learning_rate": 2.546526217803713e-07,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 262425776,
+      "step": 121480
+    },
+    {
+      "epoch": 19.81810766721044,
+      "grad_norm": 0.001124211703427136,
+      "learning_rate": 2.5238622276319014e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262435728,
+      "step": 121485
+    },
+    {
+      "epoch": 19.818923327895597,
+      "grad_norm": 0.004534002393484116,
+      "learning_rate": 2.501299517654321e-07,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 262446608,
+      "step": 121490
+    },
+    {
+      "epoch": 19.81973898858075,
+      "grad_norm": 0.002117312513291836,
+      "learning_rate": 2.4788380883278285e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 262458512,
+      "step": 121495
+    },
+    {
+      "epoch": 19.820554649265905,
+      "grad_norm": 0.0016950422432273626,
+      "learning_rate": 2.4564779401070604e-07,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 262468688,
+      "step": 121500
+    },
+    {
+      "epoch": 19.82137030995106,
+      "grad_norm": 0.005130813457071781,
+      "learning_rate": 2.434219073445543e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262478992,
+      "step": 121505
+    },
+    {
+      "epoch": 19.822185970636216,
+      "grad_norm": 0.17918558418750763,
+      "learning_rate": 2.412061488795136e-07,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 262490224,
+      "step": 121510
+    },
+    {
+      "epoch": 19.82300163132137,
+      "grad_norm": 0.03207606077194214,
+      "learning_rate": 2.390005186603261e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 262501040,
+      "step": 121515
+    },
+    {
+      "epoch": 19.823817292006524,
+      "grad_norm": 0.0009639065247029066,
+      "learning_rate": 2.3680501673184474e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 262511152,
+      "step": 121520
+    },
+    {
+      "epoch": 19.82463295269168,
+      "grad_norm": 0.0005210313247516751,
+      "learning_rate": 2.346196431384784e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262521744,
+      "step": 121525
+    },
+    {
+      "epoch": 19.825448613376835,
+      "grad_norm": 0.0011603363091126084,
+      "learning_rate": 2.324443979245805e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262532368,
+      "step": 121530
+    },
+    {
+      "epoch": 19.82626427406199,
+      "grad_norm": 0.0002771125582512468,
+      "learning_rate": 2.302792811341714e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 262543152,
+      "step": 121535
+    },
+    {
+      "epoch": 19.827079934747147,
+      "grad_norm": 0.00139376032166183,
+      "learning_rate": 2.2812429281116043e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 262554512,
+      "step": 121540
+    },
+    {
+      "epoch": 19.8278955954323,
+      "grad_norm": 0.017726287245750427,
+      "learning_rate": 2.2597943299923484e-07,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 262564592,
+      "step": 121545
+    },
+    {
+      "epoch": 19.828711256117455,
+      "grad_norm": 0.02565399929881096,
+      "learning_rate": 2.2384470174180438e-07,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 262574192,
+      "step": 121550
+    },
+    {
+      "epoch": 19.82952691680261,
+      "grad_norm": 0.0008128905319608748,
+      "learning_rate": 2.2172009908216772e-07,
+      "loss": 0.0083,
+      "num_input_tokens_seen": 262585200,
+      "step": 121555
+    },
+    {
+      "epoch": 19.830342577487766,
+      "grad_norm": 0.002057405421510339,
+      "learning_rate": 2.1960562506340153e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 262596496,
+      "step": 121560
+    },
+    {
+      "epoch": 19.83115823817292,
+      "grad_norm": 0.0012084591435268521,
+      "learning_rate": 2.1750127972836042e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262608144,
+      "step": 121565
+    },
+    {
+      "epoch": 19.831973898858074,
+      "grad_norm": 0.001822744612582028,
+      "learning_rate": 2.1540706311967695e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262619312,
+      "step": 121570
+    },
+    {
+      "epoch": 19.83278955954323,
+      "grad_norm": 0.0852610394358635,
+      "learning_rate": 2.1332297527976164e-07,
+      "loss": 0.006,
+      "num_input_tokens_seen": 262630000,
+      "step": 121575
+    },
+    {
+      "epoch": 19.833605220228385,
+      "grad_norm": 0.002231738530099392,
+      "learning_rate": 2.1124901625091397e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 262640784,
+      "step": 121580
+    },
+    {
+      "epoch": 19.83442088091354,
+      "grad_norm": 0.029305459931492805,
+      "learning_rate": 2.091851860751004e-07,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 262651664,
+      "step": 121585
+    },
+    {
+      "epoch": 19.835236541598697,
+      "grad_norm": 0.00031926666270010173,
+      "learning_rate": 2.071314847941763e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262662288,
+      "step": 121590
+    },
+    {
+      "epoch": 19.83605220228385,
+      "grad_norm": 0.0077890572138130665,
+      "learning_rate": 2.050879124498306e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 262672080,
+      "step": 121595
+    },
+    {
+      "epoch": 19.836867862969005,
+      "grad_norm": 0.07575695961713791,
+      "learning_rate": 2.0305446908336355e-07,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 262683952,
+      "step": 121600
+    },
+    {
+      "epoch": 19.83768352365416,
+      "grad_norm": 0.010576908476650715,
+      "learning_rate": 2.0103115473601996e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 262693904,
+      "step": 121605
+    },
+    {
+      "epoch": 19.838499184339316,
+      "grad_norm": 0.008228904567658901,
+      "learning_rate": 1.9901796944882254e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 262706064,
+      "step": 121610
+    },
+    {
+      "epoch": 19.839314845024468,
+      "grad_norm": 0.000713883840944618,
+      "learning_rate": 1.9701491326257203e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262716688,
+      "step": 121615
+    },
+    {
+      "epoch": 19.840130505709624,
+      "grad_norm": 0.0005843836115673184,
+      "learning_rate": 1.9502198621790257e-07,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 262726800,
+      "step": 121620
+    },
+    {
+      "epoch": 19.84094616639478,
+      "grad_norm": 0.00699404114857316,
+      "learning_rate": 1.9303918835511526e-07,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 262737968,
+      "step": 121625
+    },
+    {
+      "epoch": 19.841761827079935,
+      "grad_norm": 0.0425538644194603,
+      "learning_rate": 1.9106651971445564e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 262747696,
+      "step": 121630
+    },
+    {
+      "epoch": 19.84257748776509,
+      "grad_norm": 0.013981866650283337,
+      "learning_rate": 1.8910398033589182e-07,
+      "loss": 0.0991,
+      "num_input_tokens_seen": 262759440,
+      "step": 121635
+    },
+    {
+      "epoch": 19.843393148450243,
+      "grad_norm": 0.0002504394797142595,
+      "learning_rate": 1.8715157025916972e-07,
+      "loss": 0.002,
+      "num_input_tokens_seen": 262770896,
+      "step": 121640
+    },
+    {
+      "epoch": 19.8442088091354,
+      "grad_norm": 0.00026449389406479895,
+      "learning_rate": 1.8520928952386885e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262782192,
+      "step": 121645
+    },
+    {
+      "epoch": 19.845024469820554,
+      "grad_norm": 0.007747107185423374,
+      "learning_rate": 1.8327713816940207e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 262792624,
+      "step": 121650
+    },
+    {
+      "epoch": 19.84584013050571,
+      "grad_norm": 0.0021923938766121864,
+      "learning_rate": 1.8135511623484925e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 262803888,
+      "step": 121655
+    },
+    {
+      "epoch": 19.846655791190866,
+      "grad_norm": 0.018954308703541756,
+      "learning_rate": 1.7944322375923472e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 262814480,
+      "step": 121660
+    },
+    {
+      "epoch": 19.847471451876018,
+      "grad_norm": 0.0002542664296925068,
+      "learning_rate": 1.7754146078124976e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 262824752,
+      "step": 121665
+    },
+    {
+      "epoch": 19.848287112561174,
+      "grad_norm": 0.004432213492691517,
+      "learning_rate": 1.7564982733947465e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 262835536,
+      "step": 121670
+    },
+    {
+      "epoch": 19.84910277324633,
+      "grad_norm": 0.0007810618262737989,
+      "learning_rate": 1.7376832347221206e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 262846320,
+      "step": 121675
+    },
+    {
+      "epoch": 19.849918433931485,
+      "grad_norm": 0.002990703098475933,
+      "learning_rate": 1.7189694921759813e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 262856656,
+      "step": 121680
+    },
+    {
+      "epoch": 19.85073409461664,
+      "grad_norm": 0.00043039917363785207,
+      "learning_rate": 1.700357046136025e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262866128,
+      "step": 121685
+    },
+    {
+      "epoch": 19.851549755301793,
+      "grad_norm": 0.09391754120588303,
+      "learning_rate": 1.6818458969786177e-07,
+      "loss": 0.0046,
+      "num_input_tokens_seen": 262876976,
+      "step": 121690
+    },
+    {
+      "epoch": 19.85236541598695,
+      "grad_norm": 0.0021796554792672396,
+      "learning_rate": 1.6634360450795694e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 262887664,
+      "step": 121695
+    },
+    {
+      "epoch": 19.853181076672104,
+      "grad_norm": 0.004136047791689634,
+      "learning_rate": 1.6451274908124703e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262899408,
+      "step": 121700
+    },
+    {
+      "epoch": 19.85399673735726,
+      "grad_norm": 0.029257941991090775,
+      "learning_rate": 1.6269202345470247e-07,
+      "loss": 0.0119,
+      "num_input_tokens_seen": 262911120,
+      "step": 121705
+    },
+    {
+      "epoch": 19.854812398042416,
+      "grad_norm": 0.0014244935009628534,
+      "learning_rate": 1.6088142766529367e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 262923120,
+      "step": 121710
+    },
+    {
+      "epoch": 19.855628058727568,
+      "grad_norm": 0.0018149535171687603,
+      "learning_rate": 1.5908096174976904e-07,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 262933552,
+      "step": 121715
+    },
+    {
+      "epoch": 19.856443719412724,
+      "grad_norm": 0.0005949955666437745,
+      "learning_rate": 1.5729062574448838e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 262944784,
+      "step": 121720
+    },
+    {
+      "epoch": 19.85725938009788,
+      "grad_norm": 0.03684856742620468,
+      "learning_rate": 1.55510419685867e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 262957040,
+      "step": 121725
+    },
+    {
+      "epoch": 19.858075040783035,
+      "grad_norm": 0.03020774945616722,
+      "learning_rate": 1.5374034360993162e-07,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 262969136,
+      "step": 121730
+    },
+    {
+      "epoch": 19.85889070146819,
+      "grad_norm": 0.0009404148440808058,
+      "learning_rate": 1.5198039755248693e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 262980080,
+      "step": 121735
+    },
+    {
+      "epoch": 19.859706362153343,
+      "grad_norm": 0.009650173597037792,
+      "learning_rate": 1.5023058154928216e-07,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 262990576,
+      "step": 121740
+    },
+    {
+      "epoch": 19.8605220228385,
+      "grad_norm": 0.0007336720591410995,
+      "learning_rate": 1.4849089563578888e-07,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 263000240,
+      "step": 121745
+    },
+    {
+      "epoch": 19.861337683523654,
+      "grad_norm": 0.0011980609269812703,
+      "learning_rate": 1.467613398472567e-07,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 263011280,
+      "step": 121750
+    },
+    {
+      "epoch": 19.86215334420881,
+      "grad_norm": 0.0014163218438625336,
+      "learning_rate": 1.4504191421865765e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 263021200,
+      "step": 121755
+    },
+    {
+      "epoch": 19.862969004893966,
+      "grad_norm": 0.4547708034515381,
+      "learning_rate": 1.433326187849082e-07,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 263032560,
+      "step": 121760
+    },
+    {
+      "epoch": 19.863784665579118,
+      "grad_norm": 0.0008637936552986503,
+      "learning_rate": 1.416334535806474e-07,
+      "loss": 0.0148,
+      "num_input_tokens_seen": 263043984,
+      "step": 121765
+    },
+    {
+      "epoch": 19.864600326264274,
+      "grad_norm": 0.006428821943700314,
+      "learning_rate": 1.3994441864029206e-07,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 263055152,
+      "step": 121770
+    },
+    {
+      "epoch": 19.86541598694943,
+      "grad_norm": 0.0065291267819702625,
+      "learning_rate": 1.3826551399809263e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263065904,
+      "step": 121775
+    },
+    {
+      "epoch": 19.866231647634585,
+      "grad_norm": 0.0003827828913927078,
+      "learning_rate": 1.3659673968802188e-07,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 263077232,
+      "step": 121780
+    },
+    {
+      "epoch": 19.86704730831974,
+      "grad_norm": 0.001834007678553462,
+      "learning_rate": 1.3493809574399717e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 263088816,
+      "step": 121785
+    },
+    {
+      "epoch": 19.867862969004893,
+      "grad_norm": 0.00888867024332285,
+      "learning_rate": 1.3328958219954724e-07,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 263100912,
+      "step": 121790
+    },
+    {
+      "epoch": 19.86867862969005,
+      "grad_norm": 0.006172510329633951,
+      "learning_rate": 1.3165119908808976e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 263112176,
+      "step": 121795
+    },
+    {
+      "epoch": 19.869494290375204,
+      "grad_norm": 0.025691168382763863,
+      "learning_rate": 1.3002294644287593e-07,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 263123248,
+      "step": 121800
+    },
+    {
+      "epoch": 19.87030995106036,
+      "grad_norm": 0.00295065576210618,
+      "learning_rate": 1.284048242968794e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 263135440,
+      "step": 121805
+    },
+    {
+      "epoch": 19.871125611745512,
+      "grad_norm": 0.0006291031604632735,
+      "learning_rate": 1.267968326829072e-07,
+      "loss": 0.0061,
+      "num_input_tokens_seen": 263145584,
+      "step": 121810
+    },
+    {
+      "epoch": 19.871941272430668,
+      "grad_norm": 0.0017852471210062504,
+      "learning_rate": 1.2519897163348894e-07,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 263156112,
+      "step": 121815
+    },
+    {
+      "epoch": 19.872756933115824,
+      "grad_norm": 0.00026627699844539165,
+      "learning_rate": 1.2361124118109856e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 263167856,
+      "step": 121820
+    },
+    {
+      "epoch": 19.87357259380098,
+      "grad_norm": 0.0008435967029072344,
+      "learning_rate": 1.220336413578216e-07,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 263179248,
+      "step": 121825
+    },
+    {
+      "epoch": 19.874388254486135,
+      "grad_norm": 0.014502918347716331,
+      "learning_rate": 1.204661721956879e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263191120,
+      "step": 121830
+    },
+    {
+      "epoch": 19.875203915171287,
+      "grad_norm": 0.0047426181845366955,
+      "learning_rate": 1.1890883372644989e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 263202352,
+      "step": 121835
+    },
+    {
+      "epoch": 19.876019575856443,
+      "grad_norm": 0.006645440123975277,
+      "learning_rate": 1.1736162598163791e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 263214032,
+      "step": 121840
+    },
+    {
+      "epoch": 19.8768352365416,
+      "grad_norm": 0.026239193975925446,
+      "learning_rate": 1.1582454899267126e-07,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 263225712,
+      "step": 121845
+    },
+    {
+      "epoch": 19.877650897226754,
+      "grad_norm": 0.00017447816208004951,
+      "learning_rate": 1.1429760279069168e-07,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 263235632,
+      "step": 121850
+    },
+    {
+      "epoch": 19.87846655791191,
+      "grad_norm": 0.014652963727712631,
+      "learning_rate": 1.1278078740656339e-07,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 263245872,
+      "step": 121855
+    },
+    {
+      "epoch": 19.879282218597062,
+      "grad_norm": 0.35925230383872986,
+      "learning_rate": 1.1127410287115059e-07,
+      "loss": 0.0068,
+      "num_input_tokens_seen": 263255984,
+      "step": 121860
+    },
+    {
+      "epoch": 19.880097879282218,
+      "grad_norm": 0.000630914350040257,
+      "learning_rate": 1.0977754921487337e-07,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 263266800,
+      "step": 121865
+    },
+    {
+      "epoch": 19.880913539967374,
+      "grad_norm": 0.003280578413978219,
+      "learning_rate": 1.0829112646809635e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263277744,
+      "step": 121870
+    },
+    {
+      "epoch": 19.88172920065253,
+      "grad_norm": 0.0055033001117408276,
+      "learning_rate": 1.068148346610176e-07,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 263287120,
+      "step": 121875
+    },
+    {
+      "epoch": 19.882544861337685,
+      "grad_norm": 0.014537639915943146,
+      "learning_rate": 1.0534867382344659e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 263297744,
+      "step": 121880
+    },
+    {
+      "epoch": 19.883360522022837,
+      "grad_norm": 0.010632148012518883,
+      "learning_rate": 1.0389264398519283e-07,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 263308464,
+      "step": 121885
+    },
+    {
+      "epoch": 19.884176182707993,
+      "grad_norm": 0.009531443938612938,
+      "learning_rate": 1.024467451756772e-07,
+      "loss": 0.001,
+      "num_input_tokens_seen": 263319504,
+      "step": 121890
+    },
+    {
+      "epoch": 19.88499184339315,
+      "grad_norm": 0.0028590448200702667,
+      "learning_rate": 1.0101097742426513e-07,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 263330384,
+      "step": 121895
+    },
+    {
+      "epoch": 19.885807504078304,
+      "grad_norm": 0.001724202185869217,
+      "learning_rate": 9.958534075998893e-08,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 263342160,
+      "step": 121900
+    },
+    {
+      "epoch": 19.88662316476346,
+      "grad_norm": 0.0016756814438849688,
+      "learning_rate": 9.816983521182543e-08,
+      "loss": 0.0034,
+      "num_input_tokens_seen": 263352944,
+      "step": 121905
+    },
+    {
+      "epoch": 19.887438825448612,
+      "grad_norm": 0.021503252908587456,
+      "learning_rate": 9.676446080841839e-08,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 263364752,
+      "step": 121910
+    },
+    {
+      "epoch": 19.888254486133768,
+      "grad_norm": 0.06410571932792664,
+      "learning_rate": 9.536921757824502e-08,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 263375536,
+      "step": 121915
+    },
+    {
+      "epoch": 19.889070146818923,
+      "grad_norm": 0.0006257572094909847,
+      "learning_rate": 9.39841055495605e-08,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 263386256,
+      "step": 121920
+    },
+    {
+      "epoch": 19.88988580750408,
+      "grad_norm": 0.0012954578269273043,
+      "learning_rate": 9.260912475050898e-08,
+      "loss": 0.001,
+      "num_input_tokens_seen": 263396912,
+      "step": 121925
+    },
+    {
+      "epoch": 19.890701468189235,
+      "grad_norm": 0.005243930034339428,
+      "learning_rate": 9.124427520890155e-08,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 263408944,
+      "step": 121930
+    },
+    {
+      "epoch": 19.891517128874387,
+      "grad_norm": 0.0003207038389518857,
+      "learning_rate": 8.988955695238277e-08,
+      "loss": 0.0062,
+      "num_input_tokens_seen": 263420048,
+      "step": 121935
+    },
+    {
+      "epoch": 19.892332789559543,
+      "grad_norm": 0.0029847382102161646,
+      "learning_rate": 8.854497000843065e-08,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 263430480,
+      "step": 121940
+    },
+    {
+      "epoch": 19.8931484502447,
+      "grad_norm": 0.007486116606742144,
+      "learning_rate": 8.721051440435668e-08,
+      "loss": 0.0029,
+      "num_input_tokens_seen": 263441136,
+      "step": 121945
+    },
+    {
+      "epoch": 19.893964110929854,
+      "grad_norm": 0.0015292003517970443,
+      "learning_rate": 8.588619016708377e-08,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 263450256,
+      "step": 121950
+    },
+    {
+      "epoch": 19.894779771615006,
+      "grad_norm": 0.0005196183919906616,
+      "learning_rate": 8.457199732353482e-08,
+      "loss": 0.001,
+      "num_input_tokens_seen": 263461872,
+      "step": 121955
+    },
+    {
+      "epoch": 19.895595432300162,
+      "grad_norm": 0.000307762180455029,
+      "learning_rate": 8.32679359003552e-08,
+      "loss": 0.0082,
+      "num_input_tokens_seen": 263473104,
+      "step": 121960
+    },
+    {
+      "epoch": 19.896411092985318,
+      "grad_norm": 0.00352225243113935,
+      "learning_rate": 8.197400592391268e-08,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 263482032,
+      "step": 121965
+    },
+    {
+      "epoch": 19.897226753670473,
+      "grad_norm": 0.0018733406905084848,
+      "learning_rate": 8.069020742040855e-08,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 263492688,
+      "step": 121970
+    },
+    {
+      "epoch": 19.89804241435563,
+      "grad_norm": 0.0029799570329487324,
+      "learning_rate": 7.941654041598856e-08,
+      "loss": 0.0454,
+      "num_input_tokens_seen": 263503504,
+      "step": 121975
+    },
+    {
+      "epoch": 19.898858075040785,
+      "grad_norm": 0.0007707338081672788,
+      "learning_rate": 7.815300493635436e-08,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 263514288,
+      "step": 121980
+    },
+    {
+      "epoch": 19.899673735725937,
+      "grad_norm": 0.0009643675875850022,
+      "learning_rate": 7.68996010071521e-08,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 263524592,
+      "step": 121985
+    },
+    {
+      "epoch": 19.900489396411093,
+      "grad_norm": 0.014110865071415901,
+      "learning_rate": 7.565632865375039e-08,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 263534640,
+      "step": 121990
+    },
+    {
+      "epoch": 19.90130505709625,
+      "grad_norm": 0.00029828620608896017,
+      "learning_rate": 7.442318790140679e-08,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 263545488,
+      "step": 121995
+    },
+    {
+      "epoch": 19.902120717781404,
+      "grad_norm": 0.02362486906349659,
+      "learning_rate": 7.32001787750458e-08,
+      "loss": 0.0322,
+      "num_input_tokens_seen": 263556592,
+      "step": 122000
+    },
+    {
+      "epoch": 19.902936378466556,
+      "grad_norm": 0.024227816611528397,
+      "learning_rate": 7.198730129948094e-08,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 263566960,
+      "step": 122005
+    },
+    {
+      "epoch": 19.903752039151712,
+      "grad_norm": 0.025522449985146523,
+      "learning_rate": 7.078455549935914e-08,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 263577968,
+      "step": 122010
+    },
+    {
+      "epoch": 19.904567699836868,
+      "grad_norm": 0.0007530459552071989,
+      "learning_rate": 6.959194139893876e-08,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 263588656,
+      "step": 122015
+    },
+    {
+      "epoch": 19.905383360522023,
+      "grad_norm": 0.025915952399373055,
+      "learning_rate": 6.840945902242268e-08,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 263599984,
+      "step": 122020
+    },
+    {
+      "epoch": 19.90619902120718,
+      "grad_norm": 0.06031077727675438,
+      "learning_rate": 6.723710839384723e-08,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 263611792,
+      "step": 122025
+    },
+    {
+      "epoch": 19.90701468189233,
+      "grad_norm": 0.0003311052278149873,
+      "learning_rate": 6.607488953691565e-08,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 263623088,
+      "step": 122030
+    },
+    {
+      "epoch": 19.907830342577487,
+      "grad_norm": 0.001318062306381762,
+      "learning_rate": 6.492280247516469e-08,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 263633232,
+      "step": 122035
+    },
+    {
+      "epoch": 19.908646003262643,
+      "grad_norm": 0.003854473354294896,
+      "learning_rate": 6.378084723196453e-08,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 263643120,
+      "step": 122040
+    },
+    {
+      "epoch": 19.9094616639478,
+      "grad_norm": 0.0028099711053073406,
+      "learning_rate": 6.264902383051885e-08,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 263653712,
+      "step": 122045
+    },
+    {
+      "epoch": 19.910277324632954,
+      "grad_norm": 0.008752093650400639,
+      "learning_rate": 6.152733229364272e-08,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263664752,
+      "step": 122050
+    },
+    {
+      "epoch": 19.911092985318106,
+      "grad_norm": 0.002545823808759451,
+      "learning_rate": 6.041577264415122e-08,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 263676272,
+      "step": 122055
+    },
+    {
+      "epoch": 19.911908646003262,
+      "grad_norm": 0.0033062314614653587,
+      "learning_rate": 5.9314344904581876e-08,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 263687088,
+      "step": 122060
+    },
+    {
+      "epoch": 19.912724306688418,
+      "grad_norm": 0.0010838387534022331,
+      "learning_rate": 5.822304909719467e-08,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 263697072,
+      "step": 122065
+    },
+    {
+      "epoch": 19.913539967373573,
+      "grad_norm": 0.07013796269893646,
+      "learning_rate": 5.714188524413855e-08,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 263707728,
+      "step": 122070
+    },
+    {
+      "epoch": 19.91435562805873,
+      "grad_norm": 0.004880748223513365,
+      "learning_rate": 5.6070853367284903e-08,
+      "loss": 0.0163,
+      "num_input_tokens_seen": 263718000,
+      "step": 122075
+    },
+    {
+      "epoch": 19.91517128874388,
+      "grad_norm": 0.0007239999831654131,
+      "learning_rate": 5.500995348844962e-08,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 263729040,
+      "step": 122080
+    },
+    {
+      "epoch": 19.915986949429037,
+      "grad_norm": 0.06177964434027672,
+      "learning_rate": 5.395918562900448e-08,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 263740144,
+      "step": 122085
+    },
+    {
+      "epoch": 19.916802610114193,
+      "grad_norm": 0.004266651347279549,
+      "learning_rate": 5.2918549810376806e-08,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 263750448,
+      "step": 122090
+    },
+    {
+      "epoch": 19.91761827079935,
+      "grad_norm": 0.16771961748600006,
+      "learning_rate": 5.188804605349429e-08,
+      "loss": 0.0067,
+      "num_input_tokens_seen": 263760080,
+      "step": 122095
+    },
+    {
+      "epoch": 19.918433931484504,
+      "grad_norm": 0.013668928295373917,
+      "learning_rate": 5.086767437939566e-08,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 263770160,
+      "step": 122100
+    },
+    {
+      "epoch": 19.919249592169656,
+      "grad_norm": 0.005185098387300968,
+      "learning_rate": 4.985743480867555e-08,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 263781104,
+      "step": 122105
+    },
+    {
+      "epoch": 19.920065252854812,
+      "grad_norm": 0.019272323697805405,
+      "learning_rate": 4.885732736181758e-08,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 263791440,
+      "step": 122110
+    },
+    {
+      "epoch": 19.920880913539968,
+      "grad_norm": 0.0020935176871716976,
+      "learning_rate": 4.7867352059138835e-08,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263801328,
+      "step": 122115
+    },
+    {
+      "epoch": 19.921696574225123,
+      "grad_norm": 0.0010540640214458108,
+      "learning_rate": 4.688750892062332e-08,
+      "loss": 0.001,
+      "num_input_tokens_seen": 263812528,
+      "step": 122120
+    },
+    {
+      "epoch": 19.92251223491028,
+      "grad_norm": 0.00029742918559350073,
+      "learning_rate": 4.5917797966144037e-08,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 263823024,
+      "step": 122125
+    },
+    {
+      "epoch": 19.92332789559543,
+      "grad_norm": 0.0015542684122920036,
+      "learning_rate": 4.495821921540744e-08,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 263833680,
+      "step": 122130
+    },
+    {
+      "epoch": 19.924143556280587,
+      "grad_norm": 0.8919483423233032,
+      "learning_rate": 4.400877268784242e-08,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 263844784,
+      "step": 122135
+    },
+    {
+      "epoch": 19.924959216965743,
+      "grad_norm": 0.00047430527047254145,
+      "learning_rate": 4.306945840265586e-08,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 263855984,
+      "step": 122140
+    },
+    {
+      "epoch": 19.9257748776509,
+      "grad_norm": 0.001867034356109798,
+      "learning_rate": 4.2140276378943576e-08,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 263867216,
+      "step": 122145
+    },
+    {
+      "epoch": 19.92659053833605,
+      "grad_norm": 0.29011815786361694,
+      "learning_rate": 4.1221226635468345e-08,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 263877392,
+      "step": 122150
+    },
+    {
+      "epoch": 19.927406199021206,
+      "grad_norm": 0.0008424674742855132,
+      "learning_rate": 4.031230919088191e-08,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263888464,
+      "step": 122155
+    },
+    {
+      "epoch": 19.928221859706362,
+      "grad_norm": 0.0022897582966834307,
+      "learning_rate": 3.941352406361398e-08,
+      "loss": 0.001,
+      "num_input_tokens_seen": 263900144,
+      "step": 122160
+    },
+    {
+      "epoch": 19.929037520391518,
+      "grad_norm": 0.003309818683192134,
+      "learning_rate": 3.852487127187221e-08,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263910800,
+      "step": 122165
+    },
+    {
+      "epoch": 19.929853181076673,
+      "grad_norm": 0.021318409591913223,
+      "learning_rate": 3.7646350833697715e-08,
+      "loss": 0.0254,
+      "num_input_tokens_seen": 263921488,
+      "step": 122170
+    },
+    {
+      "epoch": 19.930668841761825,
+      "grad_norm": 0.00903343502432108,
+      "learning_rate": 3.677796276685408e-08,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 263932176,
+      "step": 122175
+    },
+    {
+      "epoch": 19.93148450244698,
+      "grad_norm": 0.0011127277975901961,
+      "learning_rate": 3.591970708893832e-08,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 263943024,
+      "step": 122180
+    },
+    {
+      "epoch": 19.932300163132137,
+      "grad_norm": 0.032411057502031326,
+      "learning_rate": 3.507158381738096e-08,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 263954416,
+      "step": 122185
+    },
+    {
+      "epoch": 19.933115823817293,
+      "grad_norm": 0.0004720069991890341,
+      "learning_rate": 3.4233592969334926e-08,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 263962640,
+      "step": 122190
+    },
+    {
+      "epoch": 19.93393148450245,
+      "grad_norm": 0.0994650274515152,
+      "learning_rate": 3.340573456184215e-08,
+      "loss": 0.0073,
+      "num_input_tokens_seen": 263973296,
+      "step": 122195
+    },
+    {
+      "epoch": 19.9347471451876,
+      "grad_norm": 0.000907588517293334,
+      "learning_rate": 3.258800861155598e-08,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 263984464,
+      "step": 122200
+    },
+    {
+      "epoch": 19.935562805872756,
+      "grad_norm": 0.1028270572423935,
+      "learning_rate": 3.178041513518526e-08,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 263994480,
+      "step": 122205
+    },
+    {
+      "epoch": 19.936378466557912,
+      "grad_norm": 0.00754641043022275,
+      "learning_rate": 3.098295414899477e-08,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 264005936,
+      "step": 122210
+    },
+    {
+      "epoch": 19.937194127243067,
+      "grad_norm": 0.0007687432807870209,
+      "learning_rate": 3.019562566924927e-08,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 264016816,
+      "step": 122215
+    },
+    {
+      "epoch": 19.938009787928223,
+      "grad_norm": 0.00819560419768095,
+      "learning_rate": 2.9418429711769445e-08,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 264027952,
+      "step": 122220
+    },
+    {
+      "epoch": 19.938825448613375,
+      "grad_norm": 0.044117119163274765,
+      "learning_rate": 2.865136629243148e-08,
+      "loss": 0.0023,
+      "num_input_tokens_seen": 264038992,
+      "step": 122225
+    },
+    {
+      "epoch": 19.93964110929853,
+      "grad_norm": 0.005589211825281382,
+      "learning_rate": 2.7894435426722988e-08,
+      "loss": 0.0088,
+      "num_input_tokens_seen": 264049776,
+      "step": 122230
+    },
+    {
+      "epoch": 19.940456769983687,
+      "grad_norm": 0.003952317405492067,
+      "learning_rate": 2.7147637130020553e-08,
+      "loss": 0.001,
+      "num_input_tokens_seen": 264060432,
+      "step": 122235
+    },
+    {
+      "epoch": 19.941272430668842,
+      "grad_norm": 0.0002749775012489408,
+      "learning_rate": 2.6410971417423214e-08,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 264071856,
+      "step": 122240
+    },
+    {
+      "epoch": 19.942088091353998,
+      "grad_norm": 0.012595501728355885,
+      "learning_rate": 2.5684438303807955e-08,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 264083344,
+      "step": 122245
+    },
+    {
+      "epoch": 19.94290375203915,
+      "grad_norm": 0.005414798855781555,
+      "learning_rate": 2.496803780405177e-08,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 264094384,
+      "step": 122250
+    },
+    {
+      "epoch": 19.943719412724306,
+      "grad_norm": 0.0005905579309910536,
+      "learning_rate": 2.426176993253204e-08,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264105200,
+      "step": 122255
+    },
+    {
+      "epoch": 19.94453507340946,
+      "grad_norm": 0.0037936638109385967,
+      "learning_rate": 2.356563470357065e-08,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264115472,
+      "step": 122260
+    },
+    {
+      "epoch": 19.945350734094617,
+      "grad_norm": 0.0001786290085874498,
+      "learning_rate": 2.287963213137845e-08,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 264125648,
+      "step": 122265
+    },
+    {
+      "epoch": 19.946166394779773,
+      "grad_norm": 0.003722716588526964,
+      "learning_rate": 2.2203762229777713e-08,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 264136976,
+      "step": 122270
+    },
+    {
+      "epoch": 19.946982055464925,
+      "grad_norm": 0.005986783653497696,
+      "learning_rate": 2.15380250124797e-08,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 264146768,
+      "step": 122275
+    },
+    {
+      "epoch": 19.94779771615008,
+      "grad_norm": 0.02588781714439392,
+      "learning_rate": 2.0882420493029132e-08,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 264157616,
+      "step": 122280
+    },
+    {
+      "epoch": 19.948613376835237,
+      "grad_norm": 0.14042320847511292,
+      "learning_rate": 2.0236948684582147e-08,
+      "loss": 0.0139,
+      "num_input_tokens_seen": 264168176,
+      "step": 122285
+    },
+    {
+      "epoch": 19.949429037520392,
+      "grad_norm": 0.002619031583890319,
+      "learning_rate": 1.96016096003504e-08,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 264177264,
+      "step": 122290
+    },
+    {
+      "epoch": 19.950244698205548,
+      "grad_norm": 0.005070169921964407,
+      "learning_rate": 1.8976403253156972e-08,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 264186352,
+      "step": 122295
+    },
+    {
+      "epoch": 19.9510603588907,
+      "grad_norm": 0.011310932226479053,
+      "learning_rate": 1.836132965571391e-08,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 264197232,
+      "step": 122300
+    },
+    {
+      "epoch": 19.951876019575856,
+      "grad_norm": 0.0019945164676755667,
+      "learning_rate": 1.7756388820400205e-08,
+      "loss": 0.1224,
+      "num_input_tokens_seen": 264207056,
+      "step": 122305
+    },
+    {
+      "epoch": 19.95269168026101,
+      "grad_norm": 0.03021303005516529,
+      "learning_rate": 1.716158075953933e-08,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 264218288,
+      "step": 122310
+    },
+    {
+      "epoch": 19.953507340946167,
+      "grad_norm": 0.002650508191436529,
+      "learning_rate": 1.6576905485177206e-08,
+      "loss": 0.0152,
+      "num_input_tokens_seen": 264228816,
+      "step": 122315
+    },
+    {
+      "epoch": 19.954323001631323,
+      "grad_norm": 0.011295244097709656,
+      "learning_rate": 1.6002363009137712e-08,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 264239856,
+      "step": 122320
+    },
+    {
+      "epoch": 19.955138662316475,
+      "grad_norm": 0.02210673689842224,
+      "learning_rate": 1.5437953343078182e-08,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 264248848,
+      "step": 122325
+    },
+    {
+      "epoch": 19.95595432300163,
+      "grad_norm": 0.0006285077542997897,
+      "learning_rate": 1.488367649848943e-08,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264259632,
+      "step": 122330
+    },
+    {
+      "epoch": 19.956769983686787,
+      "grad_norm": 0.059016335755586624,
+      "learning_rate": 1.4339532486529195e-08,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 264271152,
+      "step": 122335
+    },
+    {
+      "epoch": 19.957585644371942,
+      "grad_norm": 0.000976592069491744,
+      "learning_rate": 1.3805521318244196e-08,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 264281744,
+      "step": 122340
+    },
+    {
+      "epoch": 19.958401305057095,
+      "grad_norm": 0.3123403489589691,
+      "learning_rate": 1.3281643004514621e-08,
+      "loss": 0.0512,
+      "num_input_tokens_seen": 264292656,
+      "step": 122345
+    },
+    {
+      "epoch": 19.95921696574225,
+      "grad_norm": 0.035995569080114365,
+      "learning_rate": 1.2767897555887587e-08,
+      "loss": 0.0026,
+      "num_input_tokens_seen": 264303664,
+      "step": 122350
+    },
+    {
+      "epoch": 19.960032626427406,
+      "grad_norm": 0.0020898154471069574,
+      "learning_rate": 1.2264284982743679e-08,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 264314768,
+      "step": 122355
+    },
+    {
+      "epoch": 19.96084828711256,
+      "grad_norm": 0.004529369994997978,
+      "learning_rate": 1.1770805295407972e-08,
+      "loss": 0.001,
+      "num_input_tokens_seen": 264324976,
+      "step": 122360
+    },
+    {
+      "epoch": 19.961663947797717,
+      "grad_norm": 0.04026377946138382,
+      "learning_rate": 1.1287458503816961e-08,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 264335792,
+      "step": 122365
+    },
+    {
+      "epoch": 19.96247960848287,
+      "grad_norm": 0.10382266342639923,
+      "learning_rate": 1.0814244617740609e-08,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 264346512,
+      "step": 122370
+    },
+    {
+      "epoch": 19.963295269168025,
+      "grad_norm": 0.043546292930841446,
+      "learning_rate": 1.0351163646782346e-08,
+      "loss": 0.002,
+      "num_input_tokens_seen": 264356944,
+      "step": 122375
+    },
+    {
+      "epoch": 19.96411092985318,
+      "grad_norm": 0.06786137819290161,
+      "learning_rate": 9.898215600379068e-09,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 264367376,
+      "step": 122380
+    },
+    {
+      "epoch": 19.964926590538337,
+      "grad_norm": 0.0008918531239032745,
+      "learning_rate": 9.455400487634602e-09,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 264378864,
+      "step": 122385
+    },
+    {
+      "epoch": 19.965742251223492,
+      "grad_norm": 0.016499491408467293,
+      "learning_rate": 9.022718317597267e-09,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 264389424,
+      "step": 122390
+    },
+    {
+      "epoch": 19.966557911908644,
+      "grad_norm": 0.21509645879268646,
+      "learning_rate": 8.600169098982313e-09,
+      "loss": 0.0066,
+      "num_input_tokens_seen": 264399376,
+      "step": 122395
+    },
+    {
+      "epoch": 19.9673735725938,
+      "grad_norm": 0.004423909820616245,
+      "learning_rate": 8.187752840338458e-09,
+      "loss": 0.0013,
+      "num_input_tokens_seen": 264411056,
+      "step": 122400
+    },
+    {
+      "epoch": 19.968189233278956,
+      "grad_norm": 0.0020240589510649443,
+      "learning_rate": 7.785469550103397e-09,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264422640,
+      "step": 122405
+    },
+    {
+      "epoch": 19.96900489396411,
+      "grad_norm": 0.0003290712193120271,
+      "learning_rate": 7.393319236326246e-09,
+      "loss": 0.0218,
+      "num_input_tokens_seen": 264434640,
+      "step": 122410
+    },
+    {
+      "epoch": 19.969820554649267,
+      "grad_norm": 0.004327591508626938,
+      "learning_rate": 7.011301907056122e-09,
+      "loss": 0.0027,
+      "num_input_tokens_seen": 264444624,
+      "step": 122415
+    },
+    {
+      "epoch": 19.97063621533442,
+      "grad_norm": 0.011982999742031097,
+      "learning_rate": 6.639417570009076e-09,
+      "loss": 0.0025,
+      "num_input_tokens_seen": 264454544,
+      "step": 122420
+    },
+    {
+      "epoch": 19.971451876019575,
+      "grad_norm": 0.025622902438044548,
+      "learning_rate": 6.2776662326236025e-09,
+      "loss": 0.0612,
+      "num_input_tokens_seen": 264466608,
+      "step": 122425
+    },
+    {
+      "epoch": 19.97226753670473,
+      "grad_norm": 0.001789126661606133,
+      "learning_rate": 5.926047902393705e-09,
+      "loss": 0.002,
+      "num_input_tokens_seen": 264477040,
+      "step": 122430
+    },
+    {
+      "epoch": 19.973083197389887,
+      "grad_norm": 0.026516800746321678,
+      "learning_rate": 5.584562586313791e-09,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 264487856,
+      "step": 122435
+    },
+    {
+      "epoch": 19.973898858075042,
+      "grad_norm": 0.005369944963604212,
+      "learning_rate": 5.253210291322752e-09,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 264497936,
+      "step": 122440
+    },
+    {
+      "epoch": 19.974714518760194,
+      "grad_norm": 0.007590974681079388,
+      "learning_rate": 4.93199102419295e-09,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264507600,
+      "step": 122445
+    },
+    {
+      "epoch": 19.97553017944535,
+      "grad_norm": 0.014951630495488644,
+      "learning_rate": 4.620904791419189e-09,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 264519120,
+      "step": 122450
+    },
+    {
+      "epoch": 19.976345840130506,
+      "grad_norm": 0.0008193363901227713,
+      "learning_rate": 4.31995159927423e-09,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264530320,
+      "step": 122455
+    },
+    {
+      "epoch": 19.97716150081566,
+      "grad_norm": 0.010377529077231884,
+      "learning_rate": 4.029131453864299e-09,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 264540912,
+      "step": 122460
+    },
+    {
+      "epoch": 19.977977161500817,
+      "grad_norm": 0.2446034699678421,
+      "learning_rate": 3.748444361129088e-09,
+      "loss": 0.0049,
+      "num_input_tokens_seen": 264550928,
+      "step": 122465
+    },
+    {
+      "epoch": 19.97879282218597,
+      "grad_norm": 0.00831429474055767,
+      "learning_rate": 3.477890326675226e-09,
+      "loss": 0.0021,
+      "num_input_tokens_seen": 264561584,
+      "step": 122470
+    },
+    {
+      "epoch": 19.979608482871125,
+      "grad_norm": 0.08868524432182312,
+      "learning_rate": 3.217469356053826e-09,
+      "loss": 0.001,
+      "num_input_tokens_seen": 264572464,
+      "step": 122475
+    },
+    {
+      "epoch": 19.98042414355628,
+      "grad_norm": 0.00023401925864163786,
+      "learning_rate": 2.9671814545384477e-09,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 264582672,
+      "step": 122480
+    },
+    {
+      "epoch": 19.981239804241437,
+      "grad_norm": 0.000985664431937039,
+      "learning_rate": 2.7270266271806065e-09,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264593840,
+      "step": 122485
+    },
+    {
+      "epoch": 19.982055464926592,
+      "grad_norm": 0.0008842953247949481,
+      "learning_rate": 2.4970048788652833e-09,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 264605136,
+      "step": 122490
+    },
+    {
+      "epoch": 19.982871125611744,
+      "grad_norm": 0.00036722770892083645,
+      "learning_rate": 2.2771162141999036e-09,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264617584,
+      "step": 122495
+    },
+    {
+      "epoch": 19.9836867862969,
+      "grad_norm": 0.049424611032009125,
+      "learning_rate": 2.0673606376808707e-09,
+      "loss": 0.0016,
+      "num_input_tokens_seen": 264627760,
+      "step": 122500
+    },
+    {
+      "epoch": 19.984502446982056,
+      "grad_norm": 0.01784713752567768,
+      "learning_rate": 1.8677381535825435e-09,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 264638864,
+      "step": 122505
+    },
+    {
+      "epoch": 19.98531810766721,
+      "grad_norm": 0.001981490757316351,
+      "learning_rate": 1.6782487659572354e-09,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264648880,
+      "step": 122510
+    },
+    {
+      "epoch": 19.986133768352367,
+      "grad_norm": 0.0023713652044534683,
+      "learning_rate": 1.4988924785797053e-09,
+      "loss": 0.002,
+      "num_input_tokens_seen": 264659984,
+      "step": 122515
+    },
+    {
+      "epoch": 19.98694942903752,
+      "grad_norm": 0.1398274153470993,
+      "learning_rate": 1.329669295113689e-09,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 264671504,
+      "step": 122520
+    },
+    {
+      "epoch": 19.987765089722675,
+      "grad_norm": 0.3532371520996094,
+      "learning_rate": 1.1705792190008778e-09,
+      "loss": 0.0134,
+      "num_input_tokens_seen": 264682704,
+      "step": 122525
+    },
+    {
+      "epoch": 19.98858075040783,
+      "grad_norm": 0.014912966638803482,
+      "learning_rate": 1.0216222534609189e-09,
+      "loss": 0.0028,
+      "num_input_tokens_seen": 264693232,
+      "step": 122530
+    },
+    {
+      "epoch": 19.989396411092986,
+      "grad_norm": 0.0006106890505179763,
+      "learning_rate": 8.827984014914137e-10,
+      "loss": 0.0024,
+      "num_input_tokens_seen": 264704400,
+      "step": 122535
+    },
+    {
+      "epoch": 19.99021207177814,
+      "grad_norm": 0.0008242643089033663,
+      "learning_rate": 7.541076659234314e-10,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 264713648,
+      "step": 122540
+    },
+    {
+      "epoch": 19.991027732463294,
+      "grad_norm": 0.00012639925989788026,
+      "learning_rate": 6.355500494215072e-10,
+      "loss": 0.0094,
+      "num_input_tokens_seen": 264724496,
+      "step": 122545
+    },
+    {
+      "epoch": 19.99184339314845,
+      "grad_norm": 0.01107293926179409,
+      "learning_rate": 5.271255543171094e-10,
+      "loss": 0.002,
+      "num_input_tokens_seen": 264735760,
+      "step": 122550
+    },
+    {
+      "epoch": 19.992659053833606,
+      "grad_norm": 0.0008368192939087749,
+      "learning_rate": 4.2883418277517293e-10,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 264744688,
+      "step": 122555
+    },
+    {
+      "epoch": 19.99347471451876,
+      "grad_norm": 0.09536808729171753,
+      "learning_rate": 3.4067593690512154e-10,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 264755280,
+      "step": 122560
+    },
+    {
+      "epoch": 19.994290375203914,
+      "grad_norm": 0.004233692307025194,
+      "learning_rate": 2.6265081837228976e-10,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 264764784,
+      "step": 122565
+    },
+    {
+      "epoch": 19.99510603588907,
+      "grad_norm": 0.003642668481916189,
+      "learning_rate": 1.9475882884201212e-10,
+      "loss": 0.0005,
+      "num_input_tokens_seen": 264774864,
+      "step": 122570
+    },
+    {
+      "epoch": 19.995921696574225,
+      "grad_norm": 0.00029860870563425124,
+      "learning_rate": 1.3699996964655626e-10,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 264786800,
+      "step": 122575
+    },
+    {
+      "epoch": 19.99673735725938,
+      "grad_norm": 0.0004550835001282394,
+      "learning_rate": 8.937424195165634e-11,
+      "loss": 0.001,
+      "num_input_tokens_seen": 264798096,
+      "step": 122580
+    },
+    {
+      "epoch": 19.997553017944536,
+      "grad_norm": 0.0013587478315457702,
+      "learning_rate": 5.188164675651308e-11,
+      "loss": 0.006,
+      "num_input_tokens_seen": 264810128,
+      "step": 122585
+    },
+    {
+      "epoch": 19.99836867862969,
+      "grad_norm": 0.00026625217287801206,
+      "learning_rate": 2.4522184838282614e-11,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 264819248,
+      "step": 122590
+    },
+    {
+      "epoch": 19.999184339314844,
+      "grad_norm": 2.0659940242767334,
+      "learning_rate": 7.295856696565295e-12,
+      "loss": 0.0159,
+      "num_input_tokens_seen": 264831024,
+      "step": 122595
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0002738155599217862,
+      "learning_rate": 2.0266266442803271e-13,
+      "loss": 0.0014,
+      "num_input_tokens_seen": 264840880,
+      "step": 122600
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.3499123454093933,
+      "eval_runtime": 103.9372,
+      "eval_samples_per_second": 26.218,
+      "eval_steps_per_second": 6.562,
+      "num_input_tokens_seen": 264840880,
+      "step": 122600
+    },
+    {
+      "epoch": 20.0,
+      "num_input_tokens_seen": 264840880,
+      "step": 122600,
+      "total_flos": 1.1925665126797148e+19,
+      "train_loss": 0.0669187841472106,
+      "train_runtime": 45650.2803,
+      "train_samples_per_second": 10.742,
+      "train_steps_per_second": 2.686
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 122600,
+  "num_input_tokens_seen": 264840880,
+  "num_train_epochs": 20,
+  "save_steps": 6130,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1925665126797148e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}